Исследование свойств некоторых критериев проверки статистических гипотез и обеспечение корректности их применения методами компьютерного моделирования

Рогожников, Андрей Павлович

Теоретические основы информатики

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Исследование свойств некоторых критериев проверки статистических гипотез и обеспечение корректности их применения методами компьютерного моделирования

кандидата технических наук: Рогожников, Андрей Павлович
город: Новосибирск
год: 2012
специальность ВАК РФ: 05.13.17

Диссертация по информатике, вычислительной технике и управлению на тему «Исследование свойств некоторых критериев проверки статистических гипотез и обеспечение корректности их применения методами компьютерного моделирования»

Автореферат диссертации по теме "Исследование свойств некоторых критериев проверки статистических гипотез и обеспечение корректности их применения методами компьютерного моделирования"

На правах рукописи

Рогожников Андрей Павлович

ИССЛЕДОВАНИЕ СВОЙСТВ НЕКОТОРЫХ КРИТЕРИЕВ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ И ОБЕСПЕЧЕНИЕ КОРРЕКТНОСТИ ИХ ПРИМЕНЕНИЯ МЕТОДАМИ КОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ

Специальность 05.13.17 — Теоретические основы информатики

Автореферат диссертации на соискание ученой степени кандидата технических наук

• С П£К 2012

Новосибирск — 2012

005056371

Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Новосибирский государственный технический университет»

Научный руководитель: доктор технических наук, профессор

Лемешко Борис Юрьевич

Официальные оппоненты: Хабаров Валерий Иванович

доктор технических наук, профессор, Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Сибирский государственный университет путей сообщения», заведующий кафедрой «Информационные технологии на транспорте»

Фаддеенков Андрей Владимирович кандидат технических наук, доцент, Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Новосибирский государственный технический университет», доцент кафедры теории рынка

Ведущая организация: Учреждение Российской академии наук Институт вычислительной математики и математической геофизики Сибирского отделения РАН, г. Новосибирск

Защита состоится «13» декабря 2012 г. в 14-00 часов на заседании диссертационного совета Д 212.173.06 при Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Новосибирский государственный технический университет» по адресу 630092, г. Новосибирск, пр-т К. Маркса, 20.

С диссертацией можно ознакомиться в библиотеке Новосибирского государственного технического университета.

Автореферат разослан «¿¿» ноября 2012 г.

Ученый секретарь диссертационного совета

Чубич Владимир Михайлович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. Корректность применения множества статистических моделей и методов зависит от справедливости определенных предположений. При этом предположение о принадлежности наблюдений или ошибок измерений нормальному закону является наиболее частым.

В эконометрических моделях принятие нормальной модели без формальной проверки может влиять на точность оценок и выводов, формируемых в результате анализа. Среди разнообразных примеров обращения к модели нормального закона можно увидеть предположение об условной нормальности данных в модели отбора, применяемой к спросу на жилье, или предположение о нормальности при анализе данных фондового рынка, для которых типичным оказывается наличие тяжелых хвостов.

Проверка гипотез о принадлежности ошибок измерений нормальному закону типична в задачах статистического управления качеством.

Как правило, гипотеза о нормальности проверяется относительно вектора ошибок моделей регрессионного анализа, применяемых к временным рядам, к пробит-регрессии и к другим типам временных рядов.

Предположение о нормальности распространено в задачах анализа результатов медицинских экспериментов. Допустимость этого предположения должна проверяться, например, в случае изменчивости данных об экспрессии генов или в ходе клинических испытаний при проверке эффективности новых методов лечения.

В силу отсутствия исчерпывающей информации о предпочтительности тех или иных критериев проверки гипотез о нормальности к их исследованию в последнее время обращаются различные авторы (Dong and Giles, 2007, Doornik and Hansen, 2008, Voinov and Voinov, 2010, Scott and Stewart, 2011).

Показательный закон является второй наиболее популярной моделью, используемой в задачах статистическом анализа, особенно в задачах анализа времени жизни и в теории надежности. Гипотеза о том, что базовый закон модели надежности является показательным, эквивалентна гипотезе о постоянной интенсивности отказов. В пуассоновских потоках интервалы времени между наступлениями событий подчиняются показательному распределению. Среди процессов, генерирующих пуассоновские потоки, можно указать испускание радиоактивных частиц, землетрясения, отказы оборудования и т.п. Относительно множества критериев показательности также нет однозначной информации о предпочтительности конкретных критериев.

Цель и задачи исследований. Основная цель диссертационной работы заключалась в исследовании свойств и сравнительном анализе множества статистических критериев, предназначенных для проверки гипотез о принадлежности данных нормальному или показательному закону, дающих основание для выбора наиболее предпочтительного критерия в конкретной ситуации, в разработке программного обеспечения, позволяющего исследовать и корректно применять соответствующие статистические критерии.

В соответствии с поставленной целью решались следующие задачи:

- создание программного обеспечения, позволяющего осуществлять проверку гипотез по критериям, рассматриваемым в работе, моделировать распределения статистик критериев, вычислять оценки мощности критериев по отношению к различным конкурирующим гипотезам;

- исследование распределений статистик критериев нормальности Фросини, Хегази-Грина, Гири, Дэвида-Хартли-Пирсона, Шпигельхальтера;

- вычисление методами статистического моделирования оценок мощности критериев нормальности Фросини, Хегази-Грина, Гири, Дэвида-Хартли-Пирсона, Шпигельхальтера, Шапиро-Уилка, Ройстона, Эппса-Палли, Д'Агостино, критериев согласия (Колмогорова, Андерсона-Дарлинга, Кра-мера-Мизеса-Смирнова, %2 Пирсона и Никулина — при проверке сложной гипотезы о нормальности) по отношению к близким конкурирующим гипотезам;

- сравнительный анализ мощности перечисленных критериев нормальности;

- исследование распределений статистик критериев показательности Гнеден-ко, Харриса, Холландера-Прошана, Гини, Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга, Дешпанде, Кокса-Оукса, Болынева, Клара, Барингхауса-Хензе, Хензе, Хензе-Мейнтаниса и Эппса-Палли при справедливости проверяемой гипотезы;

- вычисление оценок мощности критериев показательности по отношению к конкурирующим законам с различной формой функции интенсивности отказов, сравнительный анализ мощности критериев.

Методы исследования. Для решения поставленных задач использовался

аппарат теории вероятностей, математической статистики, статистического моделирования, математического программирования.

Научная новизна диссертационной работы заключается:

- в результатах сравнительного анализа мощности критериев нормальности;

- в построенных таблицах процентных точек, расширяющих возможности применения критериев Фросини, Хегази-Грина, Гири, Дэвида-Хартли-Пирсона, Шпигельхальтера;

- в результатах сравнительного анализа мощности критериев показательности;

- в выявленных отклонениях распределений статистик критериев показательности от теоретических;

- в построенных моделях распределений для статистик критериев типа Колмогорова, Андерсона-Дарлинга, Крамера-Мизеса-Смирнова, основанных на эмпирической функции распределения, и критериев типа Колмогорова и Крамера-Мизеса-Смирнова, основанных на функции среднего остаточного времени безотказной работы;

- в рекомендациях по применению критериев показательности при ограниченных объемах выборок.

Основные положения, выносимые на защиту. На защиту выносятся:

1. Результаты исследования распределений статистик, мощности и сравнительного анализа критериев нормальности.

2. Рекомендации по применению критериев нормальности.

3. Результаты исследования распределений статистик, мощности и сравнительного анализа критериев показательности.

4. Рекомендации по применению критериев показательности.

5. Подход, обеспечивающий корректность применения статистических критериев в условиях нарушения стандартных предположений за счет построения распределений статистик, соответствующих справедливости проверяемой гипотезы, в результате компьютерного моделирования в ходе проводимого статистического анализа.

Обоснованность и достоверность научных положений, выводов и рекомендаций обеспечивается:

- корректным применением математического аппарата и методов статистического моделирования для исследования свойств и распределений статистик критериев;

- совпадением результатов статистического моделирования с известными теоретическими результатами.

Личный творческий вклад автора заключается в проведении исследований, обосновывающих основные положения, выносимые на защиту: в разработке программного обеспечения, в проведении статистического моделирования распределений статистик, в вычислении мощности критериев относительно конкретных альтернатив, в построении моделей распределений статистик и вычислении таблиц процентных точек.

Практическая ценность и реализация результатов. Полученные модели распределений статистик критериев нормальности и показательности позволяют корректно применять их при ограниченных объемах выборок. Результаты сравнительного анализа мощности позволяют обоснованно выбирать критерии для проверки гипотез о принадлежности выборок нормальному или показательному закону, в том числе, при наличии конкурирующих гипотез определенного вида. Результаты исследований и средства моделирования включены в программную систему «Интервальная статистика» ISW и используются в научных исследованиях и учебном процессе.

Апробация работы. Основные результаты работы были представлены на Всероссийской научной конференции молодых ученых «Наука. Технологии. Инновации» (Новосибирск, 2007, 2008), Международной научно-технической конференции «Актуальные проблемы электроники и приборостроения» (Новосибирск, 2008, 2012), VI International Conference Mathematical Methods in Reliability (Moscow, 2009), The Third International Conference on Accelerated Life Testing, Reliability based Analysis and Design (Clermont-Ferrand, France, 2010), Российской НТК «Информатика и проблемы телекоммуникаций» (Новосибирск, 2011), The International Workshop «Applied Methods of Statistical Analysis. Simulations and Statistical Inference» (AMSA'2011, Novosibirsk, 2011), Российской

НТК «Обработка информационных сигналов и математическое моделирование» (Новосибирск, 2012), Всероссийском, с международным участием, научном симпозиуме «НЕПАРАМЕТРИКА — XIV» (Томск, 2012).

Публикации. По теме диссертации опубликовано 14 печатных работ, в том числе 2 статьи в журналах, входящих в перечень изданий, рекомендуемых ВАК РФ, 1 статья в рецензируемом издании серии «Statistics for Industry and Technology», выпускаемом издательством Birkhauser, Boston (Springer), 1 статья в сборнике научных трудов, 9 работ в сборниках трудов конференций, 1 свидетельство о государственной регистрации программы для ЭВМ.

Структура работы. Диссертация состоит из введения, 5 глав основного содержания, заключения, списка литературы и приложений. Диссертация изложена на 122 страницах основного текста, включая 34 таблицы, 33 рисунка и список литературы из 102 наименований.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

В первой главе делается постановка задач исследования.

При проведении экспериментальных исследований нельзя исключить возможное наличие факторов, приводящих к систематическим ошибкам, смещенности оценок параметров, коррелированности результатов измерений, появлению тренда в той или иной форме. Это приводит к появлению вопросов, связанных с точностью измерений и корректностью статистических выводов. Поэтому при статистическом анализе результатов измерений обычно первым из проверяемых предположений является гипотеза о принадлежности ошибок измерений нормальному закону. Если данная гипотеза не отвергается, то дальнейший анализ упрощается за счет использования классических результатов.

В то же время среди специалистов в области статистического анализа до сих пор нет однозначного мнения относительно преимуществ какого-либо критерия или группы критериев, применяемых для проверки отклонения эмпирического распределения от нормального закона.

С целью изучения свойств и определения предпочтительности применения того или иного критерия на основании сравнительного анализа мощности по отношению к близким конкурирующим гипотезам в настоящей работе рассматривается широкий набор критериев нормальности.

В анализе надежности и выживаемости показательный закон является важной моделью и характеризуется «отсутствием памяти», то есть свойством Р{Х > х + у\Х > у} = Р{Х > х). В терминах надежности и выживаемости это эквивалентно постоянству функции интенсивности h(t) = /(/)/(l-F(/)). В

системах массового обслуживания рассматривают пуассоновские потоки, в которых интервалы времени между событиями подчиняются показательному распределению.

В задачах выживаемости и надежности постоянство интенсивности отказов противопоставляют другим формам функции интенсивности, характерным

для тех или иных процессов старения, износа, выздоровления, деградации. Поэтому различные авторы исследуют мощность критериев показательности по отношению к близким конкурирующим гипотезам с различной функцией интенсивности отказов. Подобный подход используется и в настоящей работе.

Цель исследований, связанных с критериями показательности, заключалась в анализе существующих критериев и в получении знаний о предпочтительности того или иного критерия в зависимости от альтернативы с той или иной формой функции интенсивности.

Корректность применения статистических методов базируется на справедливости определенных предположений, которые в реальных ситуациях нередко нарушаются. Например, применение асимптотических результатов оказывается неправомерным вследствие ограниченности объемов выборок, использование параметрических критериев может быть некорректным из-за нарушения предположения о нормальности, применение непараметрических критериев согласия при проверке сложных гипотез ограничивается отсутствием знаний о распределениях статистик.

Экспоненциальный рост производительности компьютеров, дальнейшее развитие в сторону увеличения количества вычислительных устройств на одном чипе и возможность организации распределенных вычислений подталкивает к устранению затруднений, связанных с применением критериев проверки гипотез в нестандартных условиях, за счет поиска требуемых закономерностей (распределений статистик) методами статистического моделирования в интерактивном режиме в условиях, имитирующих реальную ситуацию получения наблюдений. В части диссертационной работы, посвященной программной поддержке исследований, решалась задача корректного применения статистических критериев в условиях, когда действительное распределение их статистик приходится получать в ходе проводимого статистического анализа.

Во второй главе проводится исследование особенностей и мощности некоторых критериев нормальности.

Проверке гипотезы о нормальности посвящен ГОСТ Р ИСО 5479-2002, включающий плохо обоснованный и очень ограниченный список критериев, что послужило предметом специального исследования1. В данной главе исследованы распределения статистик, уточнены свойства и проведен анализ мощности некоторых критериев нормальности, не получивших ранее широкого освещения.

Статистика критерия Фросини имеет вид

1 Лемешко Б.Ю., Лемешко С.Б. Сравнительный анализ критериев проверки отклонения распределения от нормального закона // Метрология. 2005. № 2. С. 3-24.

где гу =(^(0=» 'Х"=1(х'-х)2'ф(2) ~~ Функция

распределения стандартного нормального закона. Критерий имеет правостороннюю критическую область.

Два критерия Хегази-Грина опираются на статистики

п ,=1 п

где г,.=(х(/)-х)/5, «^("-^'Ен^"*)2'

г|; = Ф-1 {¡/(п +1)). Критерий имеет правостороннюю критическую область. В критерии Гири используется статистика

,=1

_ -IV™1" 2 -IX-"1 / _V

где х = п Х1; = и / ~х) • Критерий двусторонний.

В критерии Дэвида-Хартли-Пирсона используется статистика

£/ = -. (2)

где Л = (х(п)-д:(1)); Л'2 = (и —1) ' ((х;. — х)2 . Критерий двусторонний.

Статистика критерия Шпигельхальтера базируется на комбинации статистик критериев Гири и Дэвида-Хартли-Пирсона и имеет вид

где Сл = (2и) ' (и!)1'''" '', ¿У — статистика (2); g = ^(п-1)/п, с/ — статистика (1). Критерий имеет правостороннюю критическую область.

Показано, что вопреки утверждениям автора, распределения статистики критерия Гири при справедливости проверяемой гипотезы асимметричны и плохо аппроксимируются нормальным законом.

Показано, что общим недостатком рассмотренных критериев является зависимость распределений статистик от объема выборки. Если у критерия Фро-сини распределение статистики достаточно быстро сходится к некоторому предельному и существенно не меняется при п > 100, то у остальных критериев зависимость от п более сильная (рис. 1).

В ходе исследований построены таблицы процентных точек для более широкого спектра значений п, что расширяет возможности применения данных критериев.

В данном разделе при анализе мощности критериев рассмотрены те же конкурирующие законы, что и в предшествующей работе1:

2 / 2

- Н0: нормальный закон, /(х) = (е1л/2л)-1е"^"е°^ /281 , (6>0,6>,)г = (0,1)г;

- Я,: распределение семейства с плотностью

и параметром формы д2 =4 и (в0,в^) =(0Л) •

- Н2: распределение (4) с параметром формы в2 = 1 (распределение Лапласа) и (в0Д)Т =(0,\)Т;

- Я3: логистическое распределение с плотностью

0.00 0.05 0.10 0.15 0,20 0.25 0.30 0.35 0.40 0,45 0,50

Рис. 1. Зависимость распределения С(Т\ | Яд) статистики Т\ от объема выборки

В результате исследования распределений статистик критериев показано, что критерии Хегази-Грина со статистиками Т\ и Г2 при малых объемах выборок оказываются смещенными относительно гипотезы Я, (так же, как и критерии Шапиро-Уилка и Эппса-Палли), критерий Шпигельхальтера, показывающий, как правило, хорошую мощность, не способен (даже с возрастанием объемов выборок) отличить Я0 от Н\ .

На основании проведенного моделирования и последующего сравнительного анализа мощности рассмотренные критерии можно проранжировать следующим образом:

Гири ^Шпигельхальтера^ Хегази-Грина (Т2) Хегази-Грина (70 >Фроси-ни>- Дэвида-Хартли-Пирсона.

Однако при выборе и использовании критериев необходимо учитывать отмеченные выше существенные недостатки критериев Шпигельхальтера и Хегази-Грина (рис. 2) и замечание по поводу распределений критерия Гири.

В приведенном ряду предпочтительности критерий Эппса-Палли, включенный в ГОСТ Р ИСО 5479-2002, должен занять место за критерием Хегази-Грина со статистикой Т1, а критерий Шапиро-Уилка — сразу после критерия Дэвида-Хартли-Пирсона.

Отметим здесь же, что по отношению к наиболее близкой конкурирующей гипотезе Нъ критерии согласия Андерсона-Дарлинга и типа %2 Никулина уступают по мощности критериям Д'Агостино со статистикой г2, Хегази-Грина, Шпигельхальтера и Гири, но превосходят остальные критерии проверки отклонения от нормального закона (показано в главе 3).

зависимости от и при а = 0.1

В третьей главе мощность критериев нормальности исследуется на примере наблюдений в классических экспериментах. Результаты классических экспериментов, связанных с измерениями физических констант, вызывают интерес не только в силу их исторической ценности, но и как примеры высокого уровня организации и проведения соответствующих измерений. В данной главе рассматриваются результаты четырех экспериментов: Кавендиша — по измерению средней плотности Земли, Милликена — по определению заряда электрона, Майкельсона и Ньюкомба — по измерению скорости света (табл. 1-4). Принято считать, что погрешности измерений в этих экспериментах подчиняются нормальному закону. Важным является и то обстоятельство, что наблюдения фик-

сировались и приводятся в первоисточниках полностью, без пропусков и без цензурирования.

К описанию ошибок измерений подобных результатов кроме нормального закона можно пытаться использовать и другие модели. В рамках настоящего исследования рассмотрены возможные конкурирующие законы и исследована мощность множества критериев относительно них.

Кроме описанных выше критериев Фросини, Хегази-Грина, Гири, Дэвида-Хартли-Пирсона и Шпигельхальтера были рассмотрены специализированные критерии Шапиро-Уилка, Ройстона, Эппса-Палли, Д'Агостино; непараметрические критерии согласия Колмогорова, Андерсона-Дарлинга и Крамера-Мизеса-Смирнова; критерии согласия типа %2 Пирсона и Никулина (Никулина-Рао-Робсона).

Весь перечень критериев был использован для проверки гипотезы о принадлежности каждого из рассматриваемых наборов данных нормальному закону. Полученные в результате проверки достигнутые уровни значимости показали, что нет оснований для отклонения проверяемой гипотезы.

Таблица 1

Измерения средней плотности Земли, полученные Кавендншем, г/см3.

5.50 5.55 5.57 5.34 5.42 5.30

5.61 5.36 5.53 5.79 5.47 5.75

4.88 5.29 5.62 5.10 5.63 5.68

5.07 5.58 5.29 5.27 5.34 5.85

5.26 5.65 5.44 5.39 5.46

Таблица 2

Измерения заряда электрона, полученные Милликеном, Фр =1/2 997 924 580 Кл.

4.781 4.782 4.764 4.768 4.779 4.761 4.790 4.749

4.795 4.767 4.774 4.801 4.788 4.792 4.747 4.781

4.769 4.764 4.778 4.785 4.772 4.758 4.769

4.792 4.776 4.791 4.783 4.791 4.764 4.806

4.779 4.771 4.777 4.808 4.788 4.810 4.779

4.775 4.789 4.765 4.771 4.783 4.799 4.785

4.772 4.772 4.785 4.809 4.740 4.799 4.790

4.791 4.789 4.805 4.790 4.775 4.797 4.777

Таблица 3

Измерения Майкельсона (+299 ООО, км/ч).

850 980 1000 880 810 880 970 850 800 890 890 820 950

740 880 1000 800 880 880 950 840 770 860 840 850 800

900 1000 960 850 880 880 880 840 760 880 780 870 810

1070 980 960 880 830 860 910 840 740 720 810 870 870

930 930 960 900 800 720 850 890 750 840 760 810

850 650 940 840 790 720 870 810 760 850 810 740

950 760 960 830 760 620 840 810 910 850 790 810

980 810 940 790 800 860 840 820 920 780 810 940

С целью выбора моделей конкурирующих законов, к каждому из наборов данных была применена следующая процедура. Из множества законов распределения, реализованных в программной системе 18\У, были отобраны те, относительно которых проверяемая гипотезы о принадлежности к ним соответст-

вующих наборов, осуществляемая с использованием критериев согласия Колмогорова, Андерсона-Дарлинга, Крамера-Мизеса-Смирнова и Никулина, не отклонялась. До трех моделей законов, относительно которых при проверке гипотез были получены наиболее высокие достигаемые уровни значимости, были выбраны в качестве конкурирующих законов. Мощность рассматриваемых критериев исследовалась относительно этих конкурирующих законов.

Таблица 4

Измерения Ньюкомба (х10"3 + 24.8, схЮ"6)

28 40 23 36 28 36 26 24 16

26 -2 29 28 26 23 33 25 23

33 29 31 25 30 27 26 32

24 22 19 21 32 27 32 25

34 24 24 28 36 28 32 29

-44 21 20 29 26 27 24 27

27 25 36 37 30 31 39 28

16 30 32 25 22 27 28 29

Для наблюдений Кавендиша с объемом выборки и = 29 наилучшими моделями оказались: нормальный закон с параметрами 0О =5.4479 и 8, =0.2171; распределение Лапласа с параметрами 0О =5.46 и 0, =0.1737; логарифмически

нормальный закон /(х) = л/2тг| ехр|-(1пх-60)2 /20^ с 0О =1.6944 и

0[ = 0.0403; логистический закон с 0О = 5.456 и 0, = 9.8961.

Для данных Милликена с объемом выборки я = 58 среди отобранных моделей оказались: нормальный закон с 0О =4.7808, 0, =0.0152, распределение Лапласа (0О =4.7813, 0, =0.0125) и распределение семейства (4) с параметрами 0О = 4.7808, 0, = 0.0214, 02 = 1.9903 .

Для наблюдений Майкельсона с объемом выборки и = 100 наилучшие модели: нормальный закон (0О =852.3992,0, =78.6145), логистический (0О =851.4711, 0, =80.4661) и логарифмически нормальный (90 = 6.7437, 0, =0.0935).

Для редуцированной выборки Ньюкомба (без выбросов) лучшие модели: нормальное распределение с параметрами (0О =27.75, 0, =5.0436), распределение Лапласа (0О =27.75, 0, =3.0963) и логарифмически нормальное распределение (0о=З.ЗО61, е,=0.1876).

В результате сравнительного анализа мощности, показанной критериями относительно рассматриваемых конкурирующих законов при объемах выборок, соответствующих экспериментам, специальные критерии нормальности можно упорядочить по мощности следующим образом: относительно распределения Лапласа — Шпигельхальтера>- Гири ~Хегази-Грина Т2 > Хегази-Грина Тх >Фросини~ Эппса-Палли ~ Ройстона >- Шапиро-Ушка >~ Дэвада-Хартли-Пирсона >

Д'Агостино;

относительно логистического распределения —

Шпигелъхалътера~Хегази-Грина Т2 > Гири ~Хегази-Грина Тх >Ройсгпона> Эппса-Палли>- Шапиро—Уилка> Дэвида-Харпиш-Пирсоиа>Д'Агостшю>-

Фросини;

относительно логарифмически нормального закона —

Ройстона>-Эппса-Палли ~ Шапиро-Уилка>-Хегази-Грина Т2 > Хегази-Грина 7] >- Фросини>- Шпигельхальтера> Д'Агостино >- Гири >- Дэвида-Хартли-

Пирсона.

Полученные оценки мощности показывают, что к наиболее предпочтительным следует отнести критерии Шпигельхальтера, Хегази-Грина 7] и Т2, Эппса-Палли, Ройстона, Шапиро-Уилка, Гири. При этом следует учитывать, что критерии Шпигельхальтера, Хегази-Грина 7| и Т2, Эппса-Палли, Ройстона и Шапиро-Уилка, имея преимущество в мощности, обладают серьезным недостатком: критерии смещены относительно некоторых конкурирующих гипотез, в частности, по отношению к распределению семейства (4) с параметром формы 02 = 4.

Непараметрические критерии согласия и критерии типа , имея меньшую мощность, не обладают подобным недостатком.

В четвертой главе проводится исследование критериев показательности. Пусть Ехр[ 6) — показательное распределение с плотностью /(х) = ехр(—х/9)/0, х>0. Будем рассматривать критерии согласия с классом показательных распределений {£х/?(9):0>О}. При заданной выборке независимых наблюдений Х1,...,ХП неотрицательной случайной величины X с плотностью f (х) и функцией распределения Г(х) проверяется сложная гипотеза #0 о принадлежности X классу : 0 > О} против общих альтернатив.

Ранее предпринимались попытки провести сравнительный анализ некоторых наборов критериев показательности. Среди таких работ следует выделить обзоры Эшера2 и Хензе и Мейнтаниса3, из которых почерпнута существенная часть критериев, рассмотренных в настоящей работе.

^критерий Гнеденко предназначен для проверки гипотезы показательности против конкурирующей гипотезы Н1: распределение имеет монотонную интенсивность отказов. В данном критерии наблюдения разбиваются на две группы, первая из которых содержит Я наименьших наблюдений, а вторая — остальные п-К наблюдений. Статистика критерия имеет вид

2 Ascher S. A survey of tests for exponentiality // Communications in Statistics - Theory and Methods. 1990. Vol. 19. No. 5. pp. 1811-1825.

3 Henze N., Meintanis S.G. Recent and classical tests for exponentiality: a partial review with comparisons // Metrika. 2005. Vol. 61. pp. 29-45.

qAzdjIr /Iл,л»-*),

у/ j'R+1

где + \<}<п, Х(п) = 0, — соответствующая

порядковая статистика. Если #0 верна, статистика <2К подчиняется ^-распреде-лению Фишера с 2Я и 2(и-Л) степенями свободы. Гипотеза #0 отклоняется при малых и больших значениях .

Критерий Харриса представляет собой модификацию ^-критерия Гне-денко для проверки показательности при наличии альтернатив с выпуклой интенсивностью отказов. Статистика критерия

2>,+ z ^

^ j=1 7=«-Д+1

/2Д

I^DjUn-lR)

J=R+1

при справедливости Я0 подчиняется ^-распределению с 4Л и 2{п-2К) степенями свободы. Гипотеза отклоняется при малых и больших значениях . Статистика критерия Холландера-Прошана:

/> j>k

>XU)+XW

Критерий двусторонний, авторы критерия приводят таблицы приближенных критических значений и следующую нормальную аппроксимацию:

Т=(Т-Е[Т\Н0])/(В[Т\Н0])1/2,

где Е(Г|Я0) = «(и-1)(и-2)/8 и Б[Г| Я0] = 1.5и(и-1)(«-2)х

х[2(и-3)(и-4)/2592 + 7(и-3)/432 + 1/48].

Критерий Гини является двусторонним и основан на статистике

],к=1

где - Х] 10я , 9п — оценка максимального правдоподобия параметра 0.

В критерии согласия Колмогорова в качестве меры отличия эмпирического распределения от показательного закона используется величина

А,

= sup

х>0

Hj)

, max

i< j<n

zur

7-1

= max< max

I I'X/'s«.

где Zj, =1 —exp(—У,.). Для уменьшения зависимости распределения статистики от объема выборки следует использовать статистику с поправкой Болыыева:

K„=(6n-Dn + \)le4n. В критерии согласия Крамера-Мизеса-Смирнова при проверке гипотезы о принадлежности выборки показательному закону используется статистика

СМБ =

2/-1 2и

Статистика критерия согласия Андерсоиа-Дарлинга при проверке гипотезы о принадлежности выборки показательному закону имеет вид

ЛОп=-п-2^" I27-1-

-1п2-,+| 1 + ^—-

2« 7 I 2«

Статистика Бариигхауса-Хеизе критерия тина Колмогорова имеет вид

Кп = л/и вир />0

где

Кп = тах = тах

у"/« " «-1 + - + ) - Г(у) (1 - у/и)

Как и в классическом критерии Колмогорова, в данном случае целесообразно использовать статистику с поправкой Болыыева

Статистика Барингхауса-Хензе критерия типа Крамера-Мизеса-Смирнова определяется выражением

2 — Зе

2тт(Уу,УА)(е ^'+6^1 + 26

Критерий Дешпаиде был предложен для проверки показательности против конкурирующих распределений с возрастающей интенсивностью отказов. Статистика критерия вычисляется в соответствии с соотношением

где суммирование ведется по всем 1 < у, к < п таким, что у ^ /с.

Критерий Кокса-Оукса. Проверяемая гипотеза отклоняется при малых и больших значениях статистики

Критерий Болыиева. Данный критерий предназначен для проверки гипотезы о принадлежности совокупности малых выборок показательным законам распределения вероятностей, возможно, с разными параметрами.

Критерий Клара основан на интегрированной функции распределения и отвергает гипотезу о показательности при больших значениях статистики

KLnM ~

2(Ъа + 2)п л J » ехр(-(1 + й)г) 2» , ч

---—т~2а X---— Уехр +

(2 + «)(1 + а)2 % (1 + af К ]}

nj=1

j<k

Автор предлагает использовать критерий АХ^10, отвергающий гипотезу о показательности, если ее отвергает хотя бы один из критериев KLn j и KLnд0.

В критерии Барингхауса-Хензе используется факт, что y/(t) = £'[exp(-i'X)] = yij(t + Л) ( X ~ Exp) удовлетворяет дифференциальному

уравнению {A. + t)y/'(t) + y/(t) = 0, t <eR. Выбирая константу ег>0, можно получить критерий, отклоняющий гипотезу показательности для больших значений статистики

BHlha=n~] X j,k=1

Yj+Yk+a

Yj+Yk

[Yj +Yk+a) [Yj +Yk+a) (Yj +Yk+a)

В критерии Хеизе гипотеза о показательности отклоняется при больших значениях статистики

1 "

НЕп,а=1- £

nj~\Yj+Yk+a j=i

+ c')E\{Yj +a) + «(l-«exp(a)£1(a)),

где Е^г) = £г' ехр(-/)<Л — показательный интеграл, а > О — константа. В Ь -критерии Хензе-Мейнтаниса используется статистика

1 ^\ + {YJ+Yk+a + \)2 + + а п

Проверяемая гипотеза о принадлежности выборки показательному закону распределения отклоняется при больших значениях статистики.

Критерий показательности Эппса-Палли опирается на эмпирическую характеристическую функцию. Распределение статистики критерия

ЕР„ = (48и)

1/2

1чг

£ехр(-Уу)-1/2

■ j-\

при «—>оо описывается стандартным нормальным законом. Проверяемая гипотеза отклоняется при больших значениях \ЕРП\.

^-критерии Хензе-Мейнтаниса, также опираются на эмпирическую характеристическую функцию. Проверяемая гипотеза отклоняется при больших значениях статистик

___,^2-6fe)2

-te)2 (s+(Y;f)2 (a>+(Y;fj

4nja j,k~\

1 +

exp

4a2

exp

2 Л

гдeY%=YJ + Yk, Yjk=Yj-Yk.

Для одних критериев распределения статистик получены при построении, для некоторых других авторами предложены нормализующие преобразования. На практике для выборок конечного объема такие асимптотические результаты могут оказаться неприемлемыми. Необходимо знать, начиная с каких объемов выборок можно использовать асимптотическое распределение для статистики соответствующего критерия.

Проведенные исследования показали, что при использовании критериев Гнеденко, Харриса, Гини, Колмогорова, Крамера-Мизеса-Смирнова, Андерсо-на-Дарлинга и Большева применение предельных (теоретических) распределений статистик остается корректным и в условиях ограниченных объемов выборок, что позволяет при проверке гипотезы определить точный достигнутый уровень значимости.

Для критериев Барингхауса-Хензе со статистиками К и CMS" построены модели распределений статистик, применимые при «>20,

Показано, что нормальную аппроксимацию распределения статистики критерия Холландера-Прошана можно с определенной погрешностью использовать при п >100; при п >600 применение нормальной аппроксимации не приводит к существенным ошибкам.

Показано, что в критериях Дешпанде (со статистикой Jm), Эппса-Палли и Кокса-Оукса применение нормальной аппроксимации не приводит к существенным ошибкам при п > 100.

Для остальных критериев (Клара, Барингхауса-Хензе со статистикой ВН, Хензе, ¿-критерия Хензе-Мейнтаниса, FF-критериев Хензе-Мейнтаниса) следует использовать соответствующие таблицы процентных точек.

Мощность критериев сравнивалась на объемах выборок п=20 и и=50. Эмпирические распределения статистик критериев, соответствующие проверяемой и конкурирующим гипотезам, для получения приемлемой точности строились по 1 660 000 испытаниям. В качестве конкурирующих гипотез рассматривались распределения, принадлежащие к трем классам: с возрастающими, убывающими и немонотонными интенсивностями отказов:

- Вейбулла W(в) с плотностью /(х) = вхв~х ехр(-хв);

— гамма-распределение Г (0) — /(х) = Г(б?) ' х'л схр(—х);

- бета-распределение В (00,0,)— /(х) = В(90,81) ' '(1-х)01 1;

- равномерное £/(0,1) на интервале[0,1];

- логнормальное/,Лг(б>)—/(х) = (0хл/2я-) ехр(-(1пх)2/2#2

- полунормальное NN— /(.г) = (2/л")'/2 ехр(-х2/2).

К распределениям с возрастающими интенсивностями отказов относятся IV (в) и Г(6>) при 6>>1, «7(0,1), Ш, В(1,2), В(2,1); с убывающими — Ж (в) и Г(£?)при в<\\ с немонотонными— ЬЫ, В(0.5,1).

Критерий Барингхауса-Хензе со статистикой ВН и критерий Хензе ведут себя схожим образом. Показано, что выбор параметра а = 0.5 обеспечивает более высокую мощность этих критериев по сравнению с другими значениями а. Показано, что в Ь-критерии Хензе-Мейнтаниса в общем случае имеет смысл выбирать статистику Ьх, в ^-критериях Хензе-Мейнтаниса — статистику

в критерии Клара — статистику АХ1'10.

Показано, что для достижения наибольшей мощности в критерии Гнеденко следует полагать Я равным [0.3и] из рассмотренных возможных целых значений [0.1и], [0.2и], ..., [0.9и], а в критерии Харриса — равным [0.1 и] из [0.05и], [0.1«],..., [0.45л].

В случае конкурирующих законов с возрастающей интенсивностью отказов необходимо отметить следующие недостатки исследуемых критериев. При « = 20 критерий Болыпева смещен относительно конкурирующих законов ^(1.2), Г(1.5), полунормальногоНЫ и В(1,2) (т.е. мощность критерия оказывается меньше заданного уровня значимости); критерий ¿01 смещен относительно тех же законов и \У(1.4); критерий оказывается смещенным относительно Ж(1.2). Относительно конкурирующих законов с убывающей интенсивностью отказов примечательно низкую мощность показывает критерий Харриса со статистикой О0,.

Показано, что в случае конкурирующих законов с немонотонными интенсивностями отказов критерии со статистиками Хензе-Мейнтаниса и ВН5 Барингхауса-Хензе смещены относительно альтернативы В(0.5,1), критерий Ьол Хензе-Мейнтаниса — относительно ¿N(1) и 1//(0.8).

Исследования показали, что по отношению к конкурирующим законам с возрастающими и убывающими интенсивностями отказов стабильно высокую мощность демонстрируют критерии Кокса-Оукса, Андерсона-Дарлинга, Хензе-Мейнтаниса (¿, и Ж^) и Барингхауса-Хензе (ДЯ05).

По отношению к альтернативам с немонотонными интенсивностями отказов высокой мощностью обладают критерии Харриса (60.1) и Андерсона-Дарлинга.

Показано, что при малых объемах выборок (или, если не указана конкретная альтернатива) вследствие возможной смещенности нежелательно применение критериев Харриса Болынева (при малом суммарном объеме выборок), Хензе-Мейнтаниса (¿0, и ), Барингхауса-Хензе(5//05).

Чтобы выбрать наиболее мощный критерий показательности при наличии заданной альтернативы, выходящей за рамки рассмотренных в данной работе конкурирующих гипотез, необходимо провести исследование мощности критериев по аналогичной методике. При этом следует учесть знание об интенсивности отказов, характеризующей данную альтернативу.

Показано, что критерий показательности Болыиева (В) имеет достаточно высокую мощность против конкурирующих законов с убывающими интенсив-ностями отказов, а в случае иных альтернатив он уступает другим рассмотренным критериям. При этом следует иметь в виду, что основным достоинством критерия Болыиева является подход, позволяющий проверять гипотезу о показательности по совокупности малых выборок.

Пятая глава посвящена программному обеспечению проведения исследований.

Корректность применения статистических методов и формируемых выводов требует выполнения «стандартных» предположений, которые нередко нарушаются на практике. Отсутствие аналитических результатов, позволяющих решать соответствующие задачи в условиях нарушения стандартных предположений, может быть компенсировано построением требуемых закономерностей в результате статистического моделирования в условиях, имитирующих реальную ситуацию получения наблюдений.

В качестве распространенной задачи, выигрывающей от применения распределенных вычислений, в работе рассматривается проверка сложных гипотез с использованием классических критериев согласия (Колмогорова, Андерсона-Дарлинга, Крамера-Мизеса-Смирнова). Распределения статистик этих критериев при проверке сложных гипотез зависят от объема выборок (при малых п), вида наблюдаемого закона, используемого метода оценивания, набора оцениваемых параметров, а иногда, что наиболее неприятно, — от значений параметров (не обязательно из числа тех, которые подвергаются оцениванию). Последнее характерно, например, для гамма-распределения, двустороннего экспоненциального, обратного гауссовского, обобщенного распределения Вейбулла и семейств бета-распределений.

При проверке сложной гипотезы в ситуации, когда распределение статистики критерия, соответствующее справедливости проверяемой гипотезы, неизвестно и должно быть построено в результате компьютерного моделирования в ходе выполнения проверки данной гипотезы (в интерактивном режиме) требуется последовательно выполнить следующие шаги:

1. Вычислить оценки параметров распределения (в случае проверки сложной

гипотезы о согласии).

2. Вычислить значение статистики критерия.

3. Смоделировать эмпирическое распределение статистики критерия при том же объеме и, что и в исследуемой выборке, и значениях параметров, равных значениям полученных оценок. Объём N моделируемой выборки статистик определяется требуемой точностью и числом доступных для распараллеливания вычислительных устройств.

4. По полученному эмпирическому распределению статистики определить достигнутый уровень значимости, соответствующий вычисленному значению статистики критерия.

Подобная процедура может быть удобной, если она автоматизирована в программном обеспечении. В данной работе с применением описанного подхода в качестве модуля программной системы К^Л*' реализована проверка гипотез с применением критериев согласия.

После нажатия кнопки «Оценить и проверить» (рис. 3) пользователю будет предложено получить при помощи моделирования достигаемые уровни значимости по тем критериям, для которых в данном случае распределения статистик неизвестны (рис. 4). Здесь распределения неизвестны для всех трех выбранных критериев. Чтобы получить распределения всех критериев, перечисленных в таблице, следует нажать кнопку «Начать».

екивание параметров и проверка с®г*

Выборка- ;:.......................... ...................................................................................................,

аЫ р|х| И г

11С30 N=100.dat (0:\га^опЛро51дгаЛм1е\Диссер-_^] Р По всем выборкам Г Использовать преобразование Смирнова

1пу««в {2,5,2.5)

НН

Закон распределения

^[дЫь! чМ

Обратное Гауссовское распределение ......."Н

Г" Идентификация

0 1(0] = 1 Формы Ш 1[1] = 1 Формы

□ 1[2] = 1 масштаба

□

Критерии-

_ Критерий Хи-квадрат Джапаридзе-Никулина

□ Критерий Хи-квадрат Джапаридзе-Никулина (не О Критерий Хи-квадрат Никулина

□ Критерий Хи-квадрат Пирсона

□ Критерий Хи-квадрат Пирсона (негрупп.) §5 Критерий Колмогорова

□ Критерий Купера

53 Критерий Омега большое _

Критерий Омега малое

□ Критерий Смирнова

□ Критерий Вагсона

□ Критерий

□ Критерий 2.с

□ Критерий 7к

□ Критерий отношения правдоподобия

-Метод оценивания------------------------------

| Максимального правдоподобия (ОМП)

Г" Визуальный поиск

"Результаты.........................................................................................................................................

Г" Файл {Р:"\гапс1опЛро${дгас11^е\ Д иссергащ О | ф Строить графики

........... ....................................................:.......................................

; Оценить и проверить ; Аномальные набл.

График Закрыть

Цензурирование Группирование

"Группирование"———------~

Тип:

Асимптотически оптимальное 3

Количество интервалов: |5

При равномерном группировании:

Я тая граница П раеая гпаница - р-

1-35

Рис. 3. Экранная форма для проверки гипотез о согласии 20

Если требуется исключить из процесса моделирования те или иные критерии или изменить объем моделирования, следует нажать кнопку «Выбрать...» и сделать соответствующие изменения. На рис. 5 объем моделирования изменен с 1000 до 10000. После необходимых настроек следует нажать кнопку «Моделировать выбранные». После завершения моделирования в ячейках таблицы будут указаны полученные оценки достигаемых уровней значимости (рис. 6).

шщцщддвия» г-т.* х|

Некоторые значен™ достигаемых уровней значимости не получены, так как распределения статистик кретириев неизвестны Начать моделирование этих распределений?

|[ Начать ¡1 выбрать... | Отмена

Рис. 4. Диалоговое окно, предлагающее получить достигаемые уровни значимости при

помощи моделирования

1 ИД...........1...........ИИМША^^^Т^^^^^^^ -(□1*1

| Критерий Колмогорова Критерий Омега большое Критерий Омега малое

| Обратное Гауссовскоер |Р" Неизвестно предель Ш Неизвестно предельно^ Неизвестно предела

|( Моделировать выбранные 1 Выбрать все I Снять вьщелени 1] 1

Объем моделирования ; 110000 —

: § 1Шт,г

Рис. 5. Выбор критериев и объема моделирования

Щ Идентификация

| ¡Критерий Колмогорова Критерий Омега большое | Критерий Омега малое |

Обратное Гаусоовское В ¡0.654 0.550 0.555

Моделировать выбранные I Выбрать все Снять

Объен моделирования: |ю000

Рис. 6. Оценки достигаемых уровней значимости, полученные в результате моделирования.

ЗАКЛЮЧЕНИЕ

В соответствии с целями исследований получены следующие результаты. 1. Исследованы распределения статистик критериев нормальности Фроси-ни, Хегази-Грина, Гири, Дэвида-Хартли-Пирсона, Шпигельхальтера, Шапиро-Уилка, Ройстона, Эппса-Палли, Д'Агостино, критериев согласия Колмогорова,

Андерсона-Дарлинга, Крамера-Мизеса-Смирнова, ^ Пирсона и £ Никулина (при проверке сложной гипотезы о нормальности с вычислением ОМП параметров) при справедливости проверяемой гипотезы.

2. Методами статистического моделирования исследована мощность перечисленных критериев по отношению к близким конкурирующим гипотезам. Проведен сравнительный анализ критериев и сделаны рекомендации по применению критериев при наличии альтернатив того или иного вида. Показаны достоинства и недостатки отдельных критериев. Расширены таблицы процентных точек.

3. Исследованы распределения статистик критериев показательности Гне-денко, Харриса, Холландера-Прошана, Гини, Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга, Дешпанде, Кокса-Оукса, Болынева, Клара, Барингхауса-Хензе, Хензе, Хензе-Мейнтаниса и Эппса-Палли при справедливости проверяемой гипотезы.

4. Методами статистического моделирования получены оценки мощности перечисленных критериев показательности по отношению к конкурирующим гипотезам с различной формой функции интенсивности отказов. Проведен сравнительный анализ мощности критериев, сделаны рекомендации по применению критериев при наличии альтернатив того или иного вида. Показаны достоинства и недостатки отдельных критериев. Расширены таблицы процентных точек.

5. Разработано программное обеспечение для проверки гипотез с использованием перечисленных критериев нормальности и показательности, для статистического моделирования распределений их статистик и вычисления оценок мощности критериев по отношению к различным конкурирующим гипотезам.

6. Разработано программное обеспечение, позволяющее применять критерии согласия в тех случаях, когда распределения статистик, соответствующие справедливости проверяемой гипотезе, неизвестны и в каждом конкретном случае находятся с использованием интерактивного моделирования и распределенных вычислений в ходе проверки гипотезы.

7. Разработанное программное обеспечение для моделирования, проверки статистических гипотез и исследования статистических закономерностей, построенные таблицы процентных точек встроены в программную систему «Интервальная статистика» развиваемую на кафедре прикладной математики. Разработанное программное обеспечение используется при проведении научных исследований и в учебном процессе факультета прикладной математики и информатики при проведении лабораторных работ по курсу «Компьютерные технологии анализа данных и исследования статистических закономерностей» для студентов, обучающихся по направлению подготовки 010400 — прикладная математика и информатика, что подтверждается актом о внедрении.

Разработанное программное обеспечение зарегистрировано в Федеральной службе по интеллектуальной собственности, свидетельство о государственной регистрации программы для ЭВМ № 2012613664.

СПИСОК ПУБЛИКАЦИЙ

1. Рогожников А.П., Лемешко Б.Ю. Исследование методами статистического моделирования свойств некоторых критериев // Материалы всерос. научной конф. молодых ученых «Наука. Технологии. Инновации». Новосибирск. 2007. Т. 1. С. 86-88.

2. Рогожников А.П., Лемешко Б,Ю. Исследование свойств некоторых критериев проверки нормальности // Материалы всерос. научной конф. молодых ученых «Наука. Технологии. Инновации». Новосибирск. 2008. Т. 1.

3. Рогожников А.П., Лемешко Б.Ю. Исследование методами статистического моделирования свойств некоторых критериев нормальности // Материалы IX междунар. конф. «Актуальные проблемы электронного приборостроения» АПЭП-2008. Новосибирск. 2008. Т. 6. С. 61-64.

4. Лемешко Б.Ю., Рогожников А.П. Исследование особенностей и мощности некоторых критериев нормальности // Метрология. 2009. № 4. С. 3-24.

5. Lemeshko B.Y., Rogozhnikov А.Р. Simulation in Comparative Analysis of Several Tests for Normality // MMR 2009 - Mathematical Methods in Reliability. Theory. Methods. Applications. VI International Conference. Extended Abstracts. Moscow. 2009. pp. 403^07. [Моделирование в сравнительном анализе нескольких критериев нормальности]

6. Chimitova E.V., Lemeshko S.B., Lemeshko B.Y., Postovalov S.N., and Rogozhnikov A.P. Distributed computing system for simulation of classical test statistic distributions under nonstandard conditions // Proceedings Third International Conference on Accelerated Life Testing, Reliability-based Analysis and Design. Clermont-Ferrand. 2010. pp. 107-109. [Распределенная вычислительная система для моделирования распределений статистик классических критериев в нестандартных условиях]

7. Рогожников А.П., Лемешко Б.Ю. Исследование критериев отклонения эмпирического распределения вероятностей от нормального закона методами статистического моделирования // Материалы Российской НТК «Информатика и проблемы телекоммуникаций». Новосибирск. 2011. Т. 1. С.

8. Lemeshko B.Y., Lemeshko S.B., and Rogozhnikov A.P. Real-Time Studying of Statistic Distributions of Non-Parametric Goodness-of-Fit Tests when Testing Complex Hypotheses // Proceedings of the International Workshop «Applied Methods of Statistical Analysis. Simulations and Statistical Inference» — AMSA'2011. Novosibirsk. 2011. pp. 19-27. [Изучение распределений статистик непараметрических критериев согласия в реальном времени при проверке сложных гипотез]

9. Lemeshko B.Y., Lemeshko S.B., Chimitova E.V., Postovalov S.N., and Rogozhnikov A.P. Software System for Simulation and Research of Probabilistic

C. 31-33.

109-112.

Regularities and Statistical Data Analysis in Reliability and Quality Control // In: Mathematical and Statistical Models and Methods in Reliability. Applications to Medicine, Finance, and Quality Control / Ed. by Rykov V., Balakrishnan N., and Nikulin M. Boston: Birkhäuser, 2011. pp. 417-432. [Программная система для моделирования и исследования вероятностных закономерностей и статистического анализа данных в теории надежности и контроле качества]

10. Лемешко Б.Ю., Рогожников А.П. Исследование мощности критерия показательности Большева // Сборник научных трудов НГТУ. 2012. № 1(67). С. 107-114.

11. Рогожников А.П., Лемешко Б.Ю. Исследование критериев отклонения эмпирического распределения вероятностей от нормального закона методами статистического моделирования // Материалы Российской научно-технической конференции «Обработка информационных сигналов и математическое моделирование». Новосибирск. 2012. С. 66-69.

12. Лемешко Б.Ю., Рогожников А.П. О нормальности погрешностей измерений в классических экспериментах и мощности критериев, применяемых для проверки отклонения от нормального закона // Метрология. 2012. № 5. С. 3-26.

13 Рогожников А.П., Лемешко Б.Ю. Обзор критериев показательности // Материалы XI международной конференции «Актуальные проблемы электронного приборостроения» АПЭП-2012. Новосибирск. 2012. Т.6. С.47-55.

14 Лемешко Б.Ю., Постовалов С.Н., Лемешко С.Б., Чимитова Е.В., Рогожников А.П., Щеглов А.Е., Горбунова A.A. Статистистический анализ интервальных наблюдений одномерных непрерывных случайных величин "Интервальная статистика 5.0". Свидетельство о государственной регистрации программы для ЭВМ № 2012613664 от 19 апреля 2012 г.

Подписано в печать 09.11.2012 г. Формат 60 х 84 * 1/16 Бумага офсетная. Тираж 100 экз. Печ. л. 1.5. Заказ №1545

Отпечатано в типографии Новосибирского государственного технического университета 630092, г. Новосибирск, пр-т К. Маркса, 20

Оглавление автор диссертации — кандидата технических наук Рогожников, Андрей Павлович

Введение.

Глава 1. Постановка задач исследования.

1.1. Основные понятия и определения.

1.2. Проверка гипотез о нормальности.

1.3. Критерии показательности.

1.4. Разработка программного обеспечения для поддержки исследований

Глава 2. Исследование особенностей и мощности некоторых критериев нормальности.

2.1. Критерий Фросини.

2.2. Критерии Хегази-Грина.

2.3. Критерий Гири.

2.4. Критерий Дэвида-Хартли-Пирсона.

2.5. Критерий Шпигельхальтера.

2.6. Выводы.

Глава 3. Исследование мощности критериев нормальности на примере наблюдений в классических экспериментах.

3.1. Введение.

3.2. Анализируемые эксперименты.

3.3. Рассматриваемые критерии нормальности.

3.3.1. Критерий Шапиро-Уилка.

3.3.2. Критерий Ройстона.

3.3.3. Критерий Эппса-Палли.

3.3.4. Критерий Д'Агостино.

3.3.5. Критерий %2 Пирсона.

3.3.6. Критерий %2 Никулина.

3.4. Проверка принадлежности ошибок измерений в экспериментах к нормальному закону.

3.5. Некоторые замечания о вычислении достигаемых уровней значимости.

3.6. Конкурирующие законы, пригодные для описания результатов рассматриваемых экспериментов.

3.7. Сравнительный анализ мощности критериев.

3.8. Выводы.

Глава 4. Исследование критериев показательности.

4.1. Общие обозначения.

4.2. Рассматриваемые критерии.

4.2.1. Б-критерий Гнеденко.

4.2.2. Критерий Харриса.

4.2.3. Критерий Холландера-Прошана.

4.2.4. Критерий Гини.

4.2.5. Критерии, основанные на эмпирической функции распределения

4.2.5.1. Критерий Колмогорова.

4.2.5.2. Критерий Крамера-Мизеса-Смирнова.

4.2.5.3. Критерий Андерсона-Дарлинга.

4.2.6. Критерии, основанные на характеризации через функцию среднего остаточного времени безотказной работы.

4.2.6.1. Критерий типа Колмогорова.

4.2.6.2. Критерий типа Крамера-Мизеса-Смирнова.

4.2.7. Критерий Дешпанде.

4.2.8. Критерий Кокса-Оукса.

4.2.9. Критерий Болыиева.

4.2.10. Критерий Клара.

4.2.11. Критерии, основанные на эмпирическом преобразовании

Лапласа.

4.2.11.1. Критерий Барингхауса-Хензе.

4.2.11.2. Критерий Хензе.

4.2.11.3 /.-критерий Хензе-Мейнтаниса.

4.2.12 Критерии, основанные на эмпирической характеристической функции.

4.2.12.1 Критерий показательности Эппса-Палли.

4.2.12.2 Ж-критерии Хензе-Мейнтаниса.

4.3. О точности описания распределений статистик критериев соответствующими асимптотическими законами.

4.4. Сравнительный анализ мощности критериев.

4.5. Выводы.

Глава 5. Программное обеспечение проведения исследований.

5.1. Переход к распределенным вычислениям в исследованиях статистических закономерностей.

5.2. Схема применения моделирования в процессе проверки сложных гипотез.

5.3. Интерактивное моделирование как дальнейшее развитие использования распределенных вычислений.

5.4. Реализация интерактивного моделирования в программном обеспечении.

5.5. Выводы.

Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Рогожников, Андрей Павлович

Актуальность темы исследования. Применение множества статистических моделей и методов зависит от справделивости гипотез, из которых предположение о принадлежности нормальному закону наблюдений или ошибок измерений является одним из наиболее часто встречающихся.

В эконометрических моделях принятие нормальной модели без формальной проверки может повлиять на точность выводов и оценок, как в случае анализа точечных выборок, так и анализа временных рядов [1]. К проверке этого предположения обращались, например, в [2], где рассматривалось предположение об условной нормальности данных в модели отбора, применяемой к спросу на жилье, или в [3,4], где к предположению о нормальности обращаются при анализе данных фондового рынка — типа данных, для которого типичными оказались тяжелые хвосты [5].

Проверка гипотезы о нормальности встречается в описании вектора ошибок моделей регрессионного анализа, применяемых к временным рядам [6,7], к пробит-регрессии [8] и к другим типам временных рядов [9,10].

Предположение о нормальности также очень распространено в медицинских исследованиях [11,12]. Однако во многих случаях допустимость этого предположения должна быть проверена соответствующими статистическими критериями, например, в случае изменчивости данных об экспрессии генов [13] или в случае проверки эффективности новых методов лечения при помощи клинических испытаний [14].

Проверка гипотез о принадлежности ошибок измерений нормальному закону востребована в задачах, рассматриваемых в области контроля качества [15,16,17], например, при использовании контрольных карт Шухарта, базирующихся на предположении о нормальности [18].

Кроме того, можно увидеть, что предположение о лог-нормальности, нередкое во многих исследованиях [19], также может быть проверено при помощи критериев нормальности после логарифмического преобразования данных [20,21,22].

Помимо нормального распределения, показательный закон является наиболее популярной моделью, используемой в задачах статистическом анализа, особенно в задачах анализа времени жизни и в теории надежности. В задачах анализа выживания и в теории надежности наблюдают случайные выборки данных типа времени жизни [23] или времена отказов определенных объектов или устройств [24], времена ремиссии заболеваний, времена смерти. Гипотеза о показательности эквивалентна гипотезе о том, что наблюдаемый объект имеет постоянную интенсивность отказов. С другой стороны, если наблюдается пуас-соновский процесс, то времена между наступлениями событий имеют показательное распределение. Среди процессов, генерирующих пуассоновские потоки, можно указать испускание радиоактивных частиц, землетрясения [25], отказы оборудования [26] и т.п.

В соответствии с поставленной целью решались следующие задачи:

- создание программного обеспечения для проверки гипотез критериями, рассматриваемыми в диссертационной работе, статистического моделирования распределений статистик критериев, вычисления оценок мощности критериев по отношению к различным конкурирующим гипотезам;

Д'Агостино, критериев согласия Колмогорова, Андерсона-Дарлинга, Кра

2 2 мера-Мизеса-Смирнова, X Пирсона и X Никулина (при проверке сложной гипотезы о нормальности) по отношению к близким конкурирующим гипотезам;

- сравнительный анализ мощности перечисленных критериев нормальности;

- исследование распределений статистик критериев показательности Гнеден-ко, Харриса, Холландера-Прошана, Гини, Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга, Дешпанде, Кокса-Оукса, Большева, Клара, Барингхауса-Хензе, Хензе, Хензе-Мейнтаниса и Эппса-Палли при справедливости проверяемой гипотезы;

- вычисление оценок мощности критериев показательности по отношению к конкурирующим законам с различной формой функции интенсивности отказов, проведение сравнительного анализа критериев.

Методы исследования. Для решения поставленных задач использовался аппарат теории вероятностей, математической статистики, статистического моделирования, математического программирования.

Научная новизна диссертационной работы заключается:

- в результатах сравнительного анализа мощности критериев нормальности;

- в результатах сравнительного анализа мощности критериев показательности;

- в выявленных отклонениях распределений статистик критериев показательности от теоретических;

- в рекомендациях по применению критериев показательности при ограниченных объемах выборок.

Основные положения, выносимые на защиту. На защиту выносятся:

2. Рекомендации по применению критериев нормальности.

4. Рекомендации по применению критериев показательности.

Обоснованность и достоверность научных положений, выводов и рекомендаций обеспечивается:

- совпадением результатов статистического моделирования с известными теоретическими результатами.

Практическая ценность и реализация результатов. Полученные модели распределений статистик критериев нормальности и показательности позвляют корректно применять их при ограниченных объемах выборок. Результаты сравнительного анализа критериев позволяют сделать обоснованный выбор критерия для проверки гипотез о нормальности и показательности как при наличии конкурирующих гипотез определенного вида, так и в их отсутствие. Результаты исследований и средства моделирования включены в программную систему «Интервальная статистика» ISW и используются в научных исследованиях и учебном процессе.

Апробация работы. Основные результаты работы были представлены на Всероссийской научной конференции молодых ученых "Наука. Технологии. Инновации" (Новосибирск, 2007, 2008 гг.), Международной научно-технической конференции «Актуальные проблемы электроники и приборостроения» (Новосибирск, 2008 г.), Международной конференции «Математические методы в теории надежности» (MMR'2009 — Mathematical Methods in Reliability. Theory. Methods. Applications. VI International Conference. Moscow, 2009); Международной конференции по ускоренным испытаниям, анализу и проектированию, основанным на теории надежности (The Third International Conference on Accelerated Life Testing, Reliability based Analysis and Design. Clermont-Ferrand, France, 2010); Российской НТК «Информатика и проблемы телекоммуникаций» (Новосибирск, 2011); Международном семинаре «Прикладные методы статистического анализа. Моделирование и статистические выводы» (The International Workshop "Applied Methods of Statistical Analysis. Simulations and Statistical Inference" — AMSA'2011. Novosibirsk, 2011); Российской НТК «Обработка информационных сигналов и математическое моделирование» (Новосибирск, 2012), Всероссийском, с международным участием, научном симпозиуме «НЕПАРАМЕТРИКА — XIV» (Томск, 2012).

Публикации. По теме диссертации опубликовано 14 печатных работ, в том числе 2 статьи в журналах, входящих в перечень изданий, рекомендуемых ВАК РФ, 1 статья в рецензируемом издании серии "Statistics for Industry and Technology", выпускаемом издательством Birkhauser, Boston (Springer), 1 статья в сборнике научных трудов, 9 работ в сборниках трудов конференций, 1 свидетельство о государственной регистрации программы для ЭВМ.

Заключение диссертация на тему "Исследование свойств некоторых критериев проверки статистических гипотез и обеспечение корректности их применения методами компьютерного моделирования"

5.5. Выводы

В данной главе показана необходимость применения распределенных вычислений для исследования свойств статистических критериев. В частности — для получения распределений статистик критериев однородности дисперсий при нарушении предположения о нормальности наблюдений, подтверждения выводов, полученных аналитическими методами, получения распределений статистик критериев согласия при проверке сложных гипотез.

Показана возможность проверки статистических гипотез в условиях, когда распределение статистики критерия не известно заранее и строится в ходе моделирования — в интерактивном режиме.

Программно реализована проверка гипотез о согласии с применением интерактивного моделирования в тех случаях, когда распределения статистик критериев согласия требуется находить в процессе проверки гипотезы с применением распределенных вычислений в каждом конкретном случае.

ЗАКЛЮЧЕНИЕ

В соответствии с целями исследований получены следующие результаты.

1. Исследованы распределения статистик критериев нормальности Фросини, Хегази-Грина, Гири, Дэвида-Хартли-Пирсона, Шпигельхальтера, Шапи-ро-Уилка, Ройстона, Эппса-Палли, Д'Агостино, критериев согласия Кол2 могорова, Андерсона-Дарлинга, Крамера-Мизеса-Смирнова, X Пирсона и X1 Никулина (при проверке сложной гипотезы о нормальности с вычислением ОМП параметров) при истинности проверяемой гипотезы.

2. Методами статистического моделирования исследована мощность критериев по отношению к близким конкурирующим гипотезам. Проведен сравнительный анализ критериев и сделаны рекомендации по применению критериев при наличии альтернатив того или иного вида. Показаны достоинства и недостатки отдельных критериев. Расширены таблицы процентных точек.

3. Исследованы распределения статистик критериев показательности Гне-денко, Харриса, Холландера-Прошана, Гини, Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга, Дешпанде, Кокса-Оукса, Боль-шева, Клара, Барингхауса-Хензе, Хензе, Хензе-Мейнтаниса и Эппса-Палли при справедливости проверяемой гипотезы.

4. Вычислены методами статистического моделирования оценки мощности перечисленных критериев показательности по отношению к конкурирующим гипотезам с различной формой функции интенсивности отказов. Проведен сравнительный анализ критериев, сделаны рекомендации по применению критериев при наличии альтернатив того или иного вида. Показаны достоинства и недостатки отдельных критериев. Расширены таблицы процентных точек.

5. Разработано программное обеспечение для проверки гипотез перечисленными критериями нормальности и показательности, статистического моделирования распределений их статистик и вычисления оценок мощности критериев по отношению к различным конкурирующим гипотезам.

6. Разработано программное обеспечение, позволяющее применять критерии согласия в тех случаях, когда распределения статистик, соответствующие справедливости проверяемой гипотезы, неизвестны и в каждом конкретном случае находятся с использованием интерактивного моделирования и распределенных вычислений в ходе проверки гипотезы.

7. Разработанное программное обеспечение для моделирования, проверки статистических гипотез и исследования статистических закономерностей, построенные таблицы процентных точек встроены в программную систему «Интервальная статистика» 18\У, развиваемую на кафедре прикладной математики. Разработанное программное обеспечение используется при проведении научных исследований и в учебном процессе факультета прикладной математики и информатики при проведении лабораторных работ по курсу «Компьютерные технологии анализа данных и исследования статистических закономерностей» для студентов, обучающихся по направлению подготовки 010400 — прикладная математика и информатика, что подтверждается актом о внедрении.

Библиография Рогожников, Андрей Павлович, диссертация по теме Теоретические основы информатики

1. Costa М., Cavaliere G., and Iezzi S. The role of the normal distribution in financial markets // In: New Developments in Classification and Data Analysis / Ed. by Vichi M., Monari P., Mignani S., and Mantanari A. Berlin: Springer, 2005. pp. 343-350.

2. Min I. A nonparametric test of the conditional normality of housing demand // Appl. Econ. Lett. 2007. Vol. 14. No. 2. pp. 105-109.

3. Liesenfeld R., Jung R.C. Stochastic volatility models: conditional normality versus heavy-tailed distributions // J. Appl. Econom. 2000. Vol. 15. No. 2. pp. 137-160.

4. Herbst A.H. Lunacy in the stock market — What is the evidence? // J. Bioeconomics. 2007. Vol. 9. No. 1. pp. 1-18.

5. Nematollahi A.R., Tafakori L. On comparison of the tail index of heavy-tail distributions using Pitman's measure of closeness // Appl. Math. Sci. 2007. Vol. 1. No. 19. pp. 909-914.

6. Giles D. Spurious regressions with time-series data: Further asymptotic results // Comm. Stat. Theory Methods. 2007. Vol. 36. No. 5. pp. 967-979.

7. Dufour J.M., Farhat A., Gardiol L., and Khalaf L. Simulations-based finite sample normality tests in linear regressions // Econom. J. 1998. Vol. 1. No. 1. pp. 154173.

8. Wilde J. A simple representation of the Bera-Jarque-Lee test for probit models // Econom. Lett. 2008. Vol. 101. No. 2. pp. 119-121.

9. Onder A.O., Zaman A. Robust tests for normality of errors in regression models // Econom. Lett. 2005. Vol. 86. No. 1. pp. 63-68.

10. Quddus M.A. Time series count data models: An empirical application to traffic accidents // Accid. Anal. & Prev. 2008. Vol. 40. No. 5. pp. 1732-1741.

11. Schoder V., Himmelmann A., and Wilhelm K.P. Preliminary testing for normality: Some statistical aspects of a common concept // Clin. Exp. Dermatol.2006. Vol. 31. No. 6. pp. 757-761.

12. Mathuz S., Dolo S. A new efficient statistical test for detecting variability in the gene expression data // Stat. Methods Med. Res. 2008. Vol. 17. No. 4. pp. 405419.

13. Tsong Y., Zhang J., and Levenson M. Choice of 5 noninferiority margin and dependency of the noninferiority trials // J. Biopharm. Stat. 2007. Vol. 17. No. 2. pp. 279-288.

14. Vannman K., Albing M. Process capability indices for one-sided specification intervals and skewed distributions // Qual. Reliab. Eng. Int. 2007. Vol. 23. No. 6. pp. 755-765.

15. Muttlak H.A., Al-Sabah W.S. Statistical quality control based on ranked set sampling // J. Appl. Stat. 2003. Vol. 30. No. 9. pp. 1055-1078.

16. Madan A., Borckardt J J., and Nash M.R. A parametric control chart adjustment for handling serial dependence in health care quality data // Qual. Manag. Health Care. 2008. Vol. 17. No. 2. pp. 154-161.

17. ГОСТ P 50779.42-99 (ИСО 8258-91). Статистические методы. Контрольные карты Шухарта. М.: Изд-во стандартов, 1999. 32 с.

18. Limpert Е., Stahel W.A., and Abbt М. Log-normal distributions across the sciences: keys and clues // Bioscience. 2001. Vol. 51. No. 5. pp. 341-352.

19. Halley J., Inchausti P. Lognormality in ecological time series // Oikos. 2002. Vol. 99. No. 3. pp. 518-530.

20. Bengtsson M., Stahlberg A., Rorsman P., and Kubista M. Gene expression profiling in single cells from the pancreatic islets of Langerhans reveals lognormal distribution of mRNA levels // Genome Res. 2005. Vol. 15. No. 10. pp. 13881392.

21. Singh AK et al., "The lognormal distribution in environmental applications," EPA/600/S-97/006, Environmental Protection Agency, Washington, DC, USA, 1997. 20 pp.

22. Lawless J.F. Statistical Models and Methods for Lifetime Data. 2nd ed. Hoboken, New Jersey: Wiley-Interscience, 2002. 664 pp.

23. Kalbfleisch J.D., Prentice R.L. The Statistical Analysis of Failure Time Data. 2nd ed. Hoboken, New Jersey: Wiley-Interscience, 2002. 462 pp.

24. Gardner J.K., Knopoff L. Is the sequence of earthquakes in Southern California, with aftershocks removed, Poissonian? // Bulletin of the Seismological Society of America. October 1974. Vol. 64. pp. 1363-1367.

25. Pham H. Handbook of Reliability Engineering. 1st ed. London: Springer, 2003. 704 pp.

26. Dong L.B., Giles D.E.A. An Empirical Likelihood Ratio Test for Normality // Communications in Statistics Simulation and Computation. 2007. Vol. 36. No. l.pp. 197-215.

27. Doornik J.A., Hansen H. An Omnibus Test for Univariate and Multivariate Normality // Oxford Bulletin of Economics and Statistics. 2008. Vol. 70. pp. 927939.

28. Scott W.F., Stewart B. Tables for the Lilliefors and Modified Cramer-von Mises tests of normality // Communications in Statistics Theory and Methods. 2011. Vol. 40. No. 4. pp. 726-730.

29. Martynov G. Weighted Cramer-von Mises Test with Estimated Parameters // Communications in Statistics Theory and Methods. 2011. Vol. 40. No. 19-20. pp. 3569-3586.

30. Voinov V., Pya N., and Alloyarova R. A comparative study of some modified chi-squared tests // Communications in Statistics Simulation and Computation. 2009. Vol. 38. No. 3. pp. 355-367.

31. Лемешко Б.Ю., Лемешко С.Б., Постовалов C.H. Мощность критериевсогласия при близких альтернативах // Измерительная техника. 2007. № 2. С. 22-27.

32. Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н. Сравнительный анализ мощности критериев согласия при близких альтернативах. II. Проверка сложных гипотез // Сибирский журнал индустриальной математики. 2008. Т. 11. №4(36). С. 78-93.

33. Лемешко Б.Ю., Лемешко С.Б., Постовалов С.Н. Сравнительный анализ мощности критериев согласия при близких конкурирующих гипотезах. I. Проверка простых гипотез // Сибирский журнал индустриальной математики. 2008. Т. 11. № 2(34). С. 96-111.

34. Лемешко Б.Ю., Лемешко С.Б. Сравнительный анализ критериев проверки отклонения распределения от нормального закона // Метрология. 2005. № 2. С.3-24.

35. Лемешко Б.Ю., Рогожников А.П. Исследование особенностей и мощности некоторых критериев нормальности // Метрология. 2009. № 4. С. 3-24.

36. Voinov V., Voinov Е. A statistical reanalysis of the classical Rutherford's experiment // Communications in Statistics Simulation and Computation. 2010. Vol. 39. No. 1. pp. 157-171.

37. Ascher S. A survey of tests for exponentiality // Communications in Statistics -Theory and Methods. 1990. Vol. 19. No. 5. pp. 1811-1825.

38. Henze N., Meintanis S.G. Recent and classical tests for exponentiality: a partial review with comparisons // Metrika. 2005. Vol. 61. pp. 29-45.

39. Henze N. A new flexible class of omnibus tests for exponentiality // Commun. Statist. Theory Meth. 1993. Vol. 22. No. 1. pp. 115-133.

40. Henze N., Meintanis S.G. Goodness-of-fit tests based on a new characterization of the exponential distribution // Comm. Statist. Theory Meth. 2002. Vol. 31. No. 9. pp. 1479-1497.

41. Spiegelhalter D.J. A test for normality against symmetric alternatives //

42. Biometrika. 1977. Vol. 64. No. 2. pp. 415-418.

43. Hosmer D.W., Lemesbow S. Goodness of fit tests for the multiple logistic regression model // Communications in Statistics Theory and Methods. 1980. Vol. 9. No. 10. pp. 1043-1069.

44. Dette H., Kusi-Appiah S., and Neumeyer N. Testing symmetry in non-parametric regression models // Journal of Nonparametric Statistics. 2002. Vol. 14. No. 5. pp. 477-494.

45. Mecklin C.J., Mundfrom D.J. A Monte Carlo comparison of the Type I and Type II error rates of tests of multivariate normality // Journal of Statistical Computation and Simulation. 2005. Vol. 75. No. 2. pp. 93-107.

46. Best D.J., Rayner J.C.W. Improved testing for the binomial distribution using chi-squared components with data-dependent cells // Journal of Statistical Computation and Simulation. 2006. Vol. 76. No. 1. pp. 75-81.

47. Shan G., Vexler A., Wilding G.E., and Hutson A.D. Simple and Exact Empirical Likelihood Ratio Tests for Normality Based on Moment Relations // Communications in Statistics Simulation and Computation. 2010. Vol. 40. No. l.pp. 129-146.

48. ГОСТ P ИСО 5479-2002. Статистические методы. Проверка отклонения распределения вероятностей от нормального распределения. М.: Изд-во стандартов, 2002. 30 с.

49. Frosini B.V. A survey of a class of goodness-of-fit statistics // Metron. 1978. Vol. 36. No. 1-2. pp. 3-49.

50. Hegazy Y.A.S., Green J.R. Some new goodness-of-fit tests using order statistics // Applied Statistics. 1975. Vol. 24. No. 3. pp. 299-308.

51. Geary R.C. The ratio of the mean deviation to the standard deviation as a test of normality // Biometrika. 1935. Vol. 27. pp. 310-322.

52. Geary R.C. Moments of the ratio of the mean deviation to the standard deviation for normal samples // Biometrika. 1936. Vol. 28. pp. 295-307.

53. Geary R.C. Testing for Normality // Biometrika. 1947. Vol. 34. pp. 209-242.

54. David H.A., Hartley H.O., and Pearson E.S. The distribution of the ratio, in a single normal sample, of range to standard deviation // Biometrika. 1964. Vol. 512. No. 3-4. pp. 484-487.

55. Лемешко Б.Ю., Постовалов C.H. Компьютерные технологии анализа данных и исследования статистических закономерностей: Учеб. пособие. Новосибирск: Изд-во НГТУ, 2004. 120 с.

56. Кобзарь А.И. Прикладная математческая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ, 2006. 816 с.

57. Epps T.W., Pulley L.B. A test for normality based on the empirical characteristic function // Biometrika. 1983. Vol. 70. pp. 723-726.

58. Shapiro S.S., Wilk M.B. An analysis of variance test for normality (complete samples) // Biometrika. 1965. Vol. 52. pp. 591-611.

59. Shapiro S.S., Francia R.S. An approximate analysis of variance test for normality // J. Amer. Statist. Assoc. 1972. Vol. 337. pp. 215-216.

60. D'Agostino R.B. Transformation to normality of the null distribution of gl // Biometrika. 1970. Vol. 57. pp. 679-681.

61. Никулин M.C. Критерий хи-квадрат для непрерывных распределений с параметрами сдвига и масштаба // Теория вероятностей и ее применение. 1973. Т. XVIII. № 3. С. 583-591.

62. Никулин М.С. О критерии хи-квадрат для непрерывных распределений // Теория вероятностей и ее применение. 1973. Т. XVIII. № 3. С. 675-676.

63. Stigler S.M. Do robust estimators work with real data? // The Annals of Statistics.1977. Vol. 5. No. 6. pp. 1055-1098.

64. Greenwood P.E., Nikulin M.S. A guide to chi-squared testing. New York: John Wiley & Sons, 1996. 280 pp.

65. Rao K.C., Robson D.S. A chi-squared statistic for goodness-of-fit tests within the exponential family // Communications in Statistics. 1974. Vol. 3. pp. 1139-1153.

66. Лемешко Б.Ю., Лемешко С.Б., Постовалов C.H., Чимитова Е.В. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход : монография. Новосибирск: Изд-во НГТУ, 2011. 888 с.

67. Лемешко Б.Ю., Лемешко С.Б. Модели распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием оценок максимального правдоподобия. 4.1 // Измерительная техника. 2009. № 6. С. 3-11.

68. Лемешко Б.Ю., Лемешко С.Б. Модели распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием оценок максимального правдоподобия. 4.II // Измерительная техника. 2009. № 8. С. 17-26.

69. Royston J.P. Approximating the Shapiro-Wilk W-test for non-normality // Statistics and Computing. 1992. Vol. 2(3). pp. 117-119.

70. Chernoff H., Lehmann E.L. The use of maximum likelihood estimates in yl test for goodness of fit // Ann. Math. Stat. 1954. Vol. 25. pp. 579-586.

71. P 50.1.033-2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. М.: Изд-во стандартов, 2002. 87 с.

72. Lemeshko B.Y., Lemeshko S.B., and Postovalov S.N. Statistic Distribution Models for Some Nonparametric Goodness-of-Fit Tests in Testing Composite

73. Hypotheses // Communications in Statistics Theory and Methods. 2010. Vol. 39. No. 3. pp. 460-471.

74. Лемешко Б.Ю. Группирование наблюдений как способ получения робастных оценок // Надежность и контроль качества. 1997. № 5. С. 26-35.

75. Бушакова А.Д., Лемешко Б.Ю. Исследование влияния вариантов асимптотической оптимальности группирования на мощность критериев типа %2 // Материалы Российской НТК «Информатика и проблемы телекоммуникаций». Новосибирск. 2009. Т. 1. С. 34-37.

76. Lin С.С., Mudholkar G.S. A test of exponentiality based on the bivariate F distribution // Technometrics. Feb 1980. Vol. 22. No. 1. pp. 79-82.

77. Harris C.M. A note on testing for exponentiality // Naval Research Logistics Quarterly. Mar 1976. Vol. 23. No. 1. pp. 169-175.

78. Hollander M., Proschan F. Testing whether new is better than used // The Annals of Mathematical Statistics. 1972. Vol. 43. No. 4. pp. 1136-1146.

79. Gail M.H., Gastwirth J.L. A scale-free goodness-of-fit test for the exponential distribution based on the Gini statistic // Journal of the Royal Statistical Society. Series В (Methodological). 1978. Vol. 40. No. 3. pp. 350-357.

80. Болыпев Л.Н. Асимптотические пирсоновские преобразования // Теория вероятностей и ее применения. 1963. Т. 8. № 2. С. 129-155.

81. Baringhaus L., Henze N. Tests of fit for exponentiality based on a characterization via the mean residual life function // Statistical Papers. 2000. No. 41. pp. 225-236.

82. Lemeshko B.Y., Lemeshko S.B. Construction of statistic distribution models for nonparametric goodness-of-fit tests in testing composite hypotheses: the computer approach // Quality Technology & Quantitative Management. 2011. Vol. 8. No. 4. pp. 359-373.

83. Deshpande V.J. A class of tests for exponentiality against increasing failure rate average alternatives // Biometrika. 1983. Vol. 70. No. 2. pp. 514-518.

84. Большее Л.Н. К вопросу о проверке «показательности» // Теориявероятностей и ее применения. 1966. Т. 11. № 3. С. 542-544.

85. Лемешко Б.Ю., Рогожников А.П. Исследование мощности критерия показательности Болыпева // Сборник научных трудов НГТУ. 2012. № 1(67).

86. Klar В. Goodness-of-fit tests for the exponential and the normal distribution based on the integrated distribution function // Ann. Inst. Statist. Math. 2001. Vol. 53. No. 2. pp. 338-353.

87. Baringhaus L., Henze N. A class of consistent tests for exponentiality based on the empirical Laplace transform // Ann. Inst. Statist. Math. 1991. Vol. 43. No. 3. pp. 551-564.

88. Henze N., Meintanis S.G. Tests of fit for exponentiality based on the empirifcal Laplace transform // Statistics. 2002. Vol. 36. No. 2. pp. 147-161.

89. Лемешко Б.Ю., Лемешко С.Б., Горбунова A.A. О применении и мощности критериев проверки однородности дисперсий. Ч. I. Параметрические критерии // Измерительная техника. 2010. № 3. С. 10-16.

90. Лемешко Б.Ю., Лемешко С.Б., Горбунова А.А. О применении и мощности критериев проверки однородности дисперсий. Ч. II. Непараметрические критерии // Измерительная техника. 2010. № 5. С. 11-18.

91. Кас М., Kiefer J., and Wolfowitz J. On tests of normality and other tests of goodness of fit based on distance methods // Ann. Math. Stat. 1955. Vol. 26. pp. 189-211.

92. Лемешко Б.Ю., Лемешко С.Б. Распределения статистик непараметрических критериев согласия при проверке гипотез относительно бета-распределений // ДАН ВШ России. 2007. № 2(9). С. 6-16.

93. Lemeshko B.Y., Lemeshko S.B. Distribution models for nonparametric tests for fit in verifying complicated hypotheses and maximum-likelihood estimators. Part 1 //Measurement Techniques. 2009. Vol. 52. No. 6. pp. 555-565.

94. Lemeshko B.Y., Lemeshko S.B. Models for statistical distributions in nonparametric fitting tests on composite hypotheses based on maximum-likelihood estimators. Part II // Measurement Techniques. 2009. Vol. 52. No. 8. pp. 799-812.

95. Lemeshko B.Y., Lemeshko S.B., Akushkina K.A., Nikulin M.S., and Saaidia N. Inverse Gaussian Model and Its Applications in Reliability and Survival Analysis

96. In: Mathematical and Statistical Models and Methods in Reliability / Ed. by Rykov V., Balakrishnan N., and Nikulin M. Boston: Birkhäuser, 2011. pp. 433453.

97. Sutter H. // Sutter's Mill. 2011. URL: http://herbsutter.com/welcome-to-the-jungle/ (дата обращения: 29.12.2011).

Похожие работы

Информатика, вычислительная техника и управление
05.13.00