автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Исследование распределений статистик дисперсионного анализа в условиях нарушения предположений нормальности
Автореферат диссертации по теме "Исследование распределений статистик дисперсионного анализа в условиях нарушения предположений нормальности"
и|||1
На права ,___
№
I
Волкова Виктория Михайловна
ИССЛЕДОВАНИЕ РАСПРЕДЕЛЕНИЙ СТАТИСТИК ДИСПЕРСИОННОГО АНАЛИЗА В УСЛОВИЯХ НАРУШЕНИЯ ПРЕДПОЛОЖЕНИЙ НОРМАЛЬНОСТИ
Специальность 05 13 17 - Теоретические основы информатики
Автореферат диссертации на соискание ученой степени кандидата технических наук
Новосибирск - 2007
Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Новосибирский государственный технический Университет»
Научный руководитель доктор технических наук, профессор
Лемешко Борис Юрьевич
Официальные оппоненты доктор технических наук, профессор
Загоруйко Николай Григорьевич
кандидат технических наук, доцент Фаддеенков Андрей Владимирович
Ведущая организация
Томский политехническии университет
Защита состоится 16 мая 2007г в 1200 часов на заседании диссертационного совета Д 212 173 06 при Новосибирском государственном техническом университете (630092, Новосибирск-92, пр Карла Маркса, 20)
С диссертацией можно ознакомиться в библиотеке Новосибирского государственного технического университета
Автореферат разослан апреля 2007 г
Ученый секретарь
диссертационного совета
Чубич В М
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследований Актуальность и эффективность применения аппарата дисперсионного анализа в различных областях знания (социологии, экономике, биологии, медицине, педагогике, и т п ) подчеркивается в работах Г Шеффе, С А Айвазяна, Дж Гласса, Ю Н Тюрина, В П Леонова, Ю П Адлера, В И Денисова, Е В Марковой, А А Попова, И А Полетаевой и других Наряду с научной сферой аппарат дисперсионного анализа используется при анализе процессов, возникающих в ходе промышленного производства (П А Рыжов, В Г Горский) Другими словами, методы дисперсионного анализа могут применяться всюду, где возникает необходимость в анализе влияния различных факторов на исследуемую переменную
Как свидетельствует мировая практика применения методов дисперсионного анализа, отсутствие уверенности в том, что наблюдения распределены по нормальному закону, вынуждают исследователя отказываться от использования параметрических критериев В то же время в отечественной практике широко распространено применение классических параметрических методов без предварительной проверки того, выполняются ли необходимые предположения А одним из основных является предположение нормальности наблюдений Такой подход зачастую приводит к некорректным статистическим выводам
Зачастую исследователи идут по пути построения теоретических оценок, характеризующих робастность имеющегося аппарата статистического анализа Но такие оценки, как, например, предложенные Шеффе для кчассических методов дисперсионного анализа, в большинстве случаев носят асимптотический характер, при этом далеко не всегда очерчивается граница области корректного применения критерия
Исследование свойств статистических критериев в условиях конкретной ситуации, в которой нарушаются классические предположения, с использованием ан&читических методов, как правило, представляет собой очень сложную задачу В то же время, количество и уровень сложности задач, постоянно выдвигаемых практикой, возрастают настолько быстро, что ресурсы человеческого интеллекта, его производительность просто не в состоянии обеспечить решение такого множества задач без создания и использования соответствующих вычислительных технологий
Накопленный опыт в рамках развиваемого направления исследований (Ле-мешко Б Ю , Постовалов С Н, Чимитова Е В , Помадин С С ) показывает, что для исследования статистических закономерностей наиболее эффективно применение компьютерных технологий моделирования С использованием методов статистического моделирования и последующего анализа можно получать результаты, не уступающие по точности аналитическим Применение данного подхода позволяет закрывать многие существующие в прикладной статистике «пробелы», используя при этом относительно простой вычислительный и математический аппарат Кроме того, методика компьютерного моделирования позволяет внедрять получаемые результаты исследований в программное обеспечение по статистическому анализу данных Важность применения современ-
ных достижений прикладной статистики в программных продуктах не раз подчеркивалась в работах А Афифи, С А Айвазяна, Л С Векслера, Ю Н Тюрина, А А Макарова и др
Методика компьютерного моделирования и анализа статистических закономерностей позволяет исследовать поведение распределений различных статистик при нарушении классических предположений о принадлежности ошибок измерений нормальному закону, при нарушении других предположений В результате могут вырабатываться рекомендации по практическому применению исследуемых критериев, строиться аппроксимации распределений статистик критериев при различных законах распределения наблюдений Цель и задачи исследований. Основная цель диссертационной работы заключалась в исследовании поведения законов распределений статистик дисперсионного анализа в случае принадлежности наблюдаемых случайных величин законам распределения, отличным от нормального В соответствии с поставленной целью решались следующие задачи
- исследование распределений статистики, используемой в моделях с постоянными уровнями факторов при проверке гипотез о «средних», в условиях нарушения предположений нормальности,
- исследование распределений статистики критерия Т-метода множественных сравнений в зависимости от числа уровней фактора и числа наблюдений на каждом уровне при законах ошибок наблюдения, отличающихся от нормального,
- исследование распределений статистики критерия Хартли в зависимости от закона ошибок наблюдения, исследование мощности критерия Хартли в нормальном случае,
- исследование распределений статистики и мощности критерия Шеффе, применяемого для проверки гипотезы о равенстве дисперсий выборок, при различных законах распределения ошибок наблюдения, выработка рекомендаций по применению критерия,
- исследование распределений статистик и мощности критериев, используемых в однофакторной и двухфакторной моделях компонент дисперсий, при отклонении закона распределения эффектов случайных уровней факторов и ошибок наблюдения от нормального
Методы исследований. Для решения поставленных задач использовался аппарат теории вероятностей, математической статистики, вычислительной математики, математического программирования, статистического моделирования Научная новизна диссертационной работы заключается
- в результатах исследования распределений статистики Т-метода множественных сравнений при различных законах распределения наблюдений в зависимости от числа и объемов сравниваемых выборок,
- в результатах сравнительного анализа мощности исследуемых критериев проверки однородности дисперсий,
- в построенных моделях распределения статистики критерия Хартли, расширяющих возможности критерия на случай ряда отличных от нормального законов распределения ошибок наблюдения,
- в построенных моделях законов распределения статистик, используемых в моделях дисперсионного анализа со случайными уровнями факторов, при различных значениях числа уровней факторов и числа наблюдений на каждом уровне фактора, различных законах распределения случайных эффектов уровней факторов и ошибок наблюдения
Основные положения, выносимые на защиту.
1 Результаты исследования распределений статистики, используемой в моделях с постоянными уровнями факторов при проверке гипотез о «средних», при неоднородности ошибок наблюдений по дисперсиям и по распределению в условиях нарушения предположений нормальности
2 Результаты исследования распределений статистики Т-критерия при различных законах распределения ошибок наблюдения в зависимости от числа уровней фактора Построенные модели законов распределений статистик критерия для ряда законов распределений ошибок
3 Результаты исследования распределений статистики критерия Хартли при различных законах распределения ошибок наблюдения в зависимости от числа уровней фактора Построенные модели распределения критерия Хартли для ряда законов распределений ошибок
4 Результаты исследования мощности критериев Хартли и критерия Шеффе для проверки гипотезы о равенстве дисперсий в зависимости от числа сравниваемых выборок и их объемов в нормальном случае
5 Результаты исследований и рекомендации по применению критерия Шеффе в зависимости от закона распределения ошибок наблюдения
6 Результаты исследований распределений статистик и мощности критериев, используемых в моделях со случайными уровнями факторов, построенные модели распределений статистик при различных законах распределения случайных эффектов модели
Обоснованность и достоверность научных положений, выводов и рекомендаций обеспечивается
- корректным применением методов статистического моделирования для исследования распределений статистик критериев,
- совпадением результатов статистического моделирования с известными теоретическими результатами
Личный творческий вклад автора заключается в проведении исследований, обосновывающих основные положения, выносимые на защиту Практическая ценность и реализация результатов Результаты исследований позволяют корректно применять критерии дисперсионного анализа в более широких границах, по сравнению с условиями, определяемыми классическими предположениями Выделены ситуации, в которых применение классического аппарата приведет к существенным ошибкам в статистических выводах, и возможные последствия таких ошибок Выработаны рекомендации по применению критерия Шеффе Разработано программное обеспечение, позволяющее строить модели распределений статистик в конкретной ситуации
Апробация работы Основные результаты исследований докладывались на Шестой всероссийской НТК «Информационные технологии в науке, проекти-
ровании и производстве» (Нижний Новгород, 2002), Международной НТК "Информатика и проблемы телекоммуникаций" (Новосибирск, 2003), Региональной научной конференции (с участием иностранных ученых) «Вероятностные идеи в науке и философии» (Новосибирск, 2003), Российских НТК "Информатика и проблемы телекоммуникаций" (Новосибирск, 2004, 2005, 2006) VI, VII и VIII международных конференциях "Актуальные проблемы электронного приборостроения" (Новосибирск, 2002, 2004, 2006), Седьмой международной конференции «Computer data analysis and modeling robustness and computer intensive methods» (Minsk, 2004), VIII Korea-Russia International Symposium on Science and Technology (Tomsk, 2004), IX Korea-Russia International Symposium on Science and Technology (Novosibirsk, 2005), Международном научно-техническом семинаре "Математическая, статистическая и компьютерная поддержка качества измерений" (Санкт-Петербург, 2006)
Исследования по теме диссертации явились составной частью работ, проводимых в рамках проектов "Математическое и алгоритмическое обеспечение задач статистического анализа данных и исследования статистических закономерностей при нарушении классических предположений", грант Министерства образования Российской Федерации № Т02-3 3-3356, 2003-2004 гт, "Развитие компьютерных технологий моделирования и исследования фундаментальных закономерностей математической статистики", раздел 3 3 программы "Развитие научного потенциала высшей школы" Министерства образования и науки РФ, код проекта 15378, 2005 г , "Развитие компьютерных технологий исследования статистических закономерностей" (контракт № 2005-РИ-19 0/002/091, 2005 г ) и "Применение компьютерных технологий исследования статистических закономерностей в задачах оценивания и различения близких гипотез о виде и свойствах распределений случайных величин" (контракт № 2006-РИ-19 0/001/119, 2006 г), ФЦНТП "Исследования и разработки по приоритетным направлениям развития науки и техники" на 2002-2006 годы по разделу "Проведение научных исследований молодыми учеными", "Расширение прикладных возможностей классических методов математической статистики", грант Российского фонда фундаментальных исследований, № 06-01-00059
Публикации. По теме диссертации опубликовано 13 печатных работ Из них 1 научная статья в рецензируемом журнале, входящем в перечень ВАК РФ, 2 - в сборниках научных трудов, 10 - материалы конференций (5 - международных, 5 - российск их) В конце автореферата приведен список основных работ Структура работы. Диссертация состоит го введения, 6 глав основного содержания и заключения, включает 51 таблицу, 50 рисунков и приложения Общий объем основной части диссертации - 193 страниц, список литературы содержит 138 наименований
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
В первой главе представлены основные определения, виды рассматриваемых моделей, статистических критериев и связанных с ними предположений
Моделью дисперсионного анализа с постоянными уровнями факторов называется модель вида ,
У = ХЗ + е, (1)
где У = (у,, ,уп) - вектор наблюдений, 9 = (ц1| | ^)Т - вектор фиксированных параметров, включающий в себя аддитивную постоянную р. и векторы эффектов уровней р фиксированных факторов, X - матрица планирования размерности (пкт), г = , е = (е,, ,еп)г - вектор случайных ошибок на-
блюдения Компоненты вектора е предполагаются независимыми случайными величинами, одинаково распределенными с общей функцией распределения, имеющей нулевое математическое ожидание и некоторую дисперсию ст2 В классическом случае к этим предположениям добавляется требование распределения ошибок е по нормальному закону
Двухфакторной сбалансированной моделью дисперсионного анализа со случайными уровнями факторов (двухфакторной моделью компонент дисперсии) без взаимодействий называется модель вида
уу1=ц + а1+Ьу+е1у1, I =1, ,/,./ = 1, ,./,/ = 1, ,Ь, (2)
где ц. - генеральное среднее в двумерной популяции, I - число уровней фактора А, выбранных случайным образом, а1 - эффект г -го уровнч, J - число выбранных случайным образом уровней фактора В , Ъ - эффект у -го уровня, I - номер опыта, Ь - число опытов в каждой ячейке Предполагается, что совокупности случайных величин {о,}, независимы и в каждой из групп
одинаково распределены с нулевыми средними и дисперсиями а2А а2в и а2е соответственно В классической постановке предполагается нормальность эффектов уровней факторов и ошибок наблюдений
Модель наблюдений однофакторной сбалансированной модели со случайными уровнями факторов записывается в виде
Л = ^ + ! = 1> = (3)
Линейную гипотезу относительно параметров модели (I) можно представить следующим образом
#0 КГ5 = Ь, (4)
где Кг- известная матрица размерности (кхт), = к < т, Ь - заданный
вектор размерности к Статистика критерия отношения правдоподобия, используемая для проверки гипотезы вида (4) имеет вид
(у-х6)г(у-ха) к
Здесь 8 - оценка вектора параметров модели 9, М~ - матрица, псевдообратная к матрице М = ХГХ При выполнении предположений нормальности ста-
тистика (5) подчиняется F -распределению Фишера со степенями свободы к и
n-r G{Q\H0) = FLn„r
Чтобы попарно сравнить средние значения вектора Y в модели (1) на различных уровнях фактора и выявить значимо отличающиеся друг от друга, используются методы множественного сравнения Статистика Т-метода
max", - mm", I j / ~
подчиняется распределению стьюдентизированного размаха qt ^ в случае выполнения предположений нормальности В формуле (б) п: - число наблюдений на z-м уровне фактора, |j. — математическое ожидание отклика на ;-м
2 I
уровне, Д, =—Xй'г = 1' >7
.=1
В модели (1) также проверяется гипотеза о равенстве дисперсий наблюдений на различных уровнях фактора Такая гипотеза имеет вид
Я0 С7,2=^= = а2, (7)
а конкурирующая с ней - //, ст^ ^ cr^ , 1 < г,,г2 </, г, ^ г2 При исследовании
мощности рассматривалась альтернатива вида //, <у2 = Сет2, öf = = = с2 Статистика критерия Хартли для проверки гипотезы (7) имеет вид maxs,2 1 jh i «i
1 j=l " y-I
' min s,2
Известны процентные точки распределения статистики (8) в нормальном случае
Критерий Шеффе для проверки гипотезы (7) основан на том, что множество значений каждой г -й выборки наблюдений |, _/ = 1, , л,, разбивается на групп объемом п , так что п: = Если обозначить совокупность значении, полученную путем разбиения | на подвыборки, через , I — 1, _/ = 1, ,/,,/ = 1, , и , то статистика критерия Шеффе может быть записана в виде
Т -2
V <=i /1=1 /I м
=ln<, (9)
1 1 7 1 "" 1
'—ZJ.z»>sl=—rZ^/-*^2'IX'
По предположению Шеффе статистика Т2 будет подчиняться F-pacпpe-
/
делению Фишера со степенями свободы 7-1 и Причем распреде-
1=1
ление статистики не должно зависеть от закона ошибок наблюдений }
В модели компонент дисперсии относительно случайного фактора А проверяется гипотеза вида
Нл 0О 90=со#и* (10)
В двухфакторной модели (2) для проверки гипотезы (10) при Ь > 1 используется статистика (11), которая при выполнении предположений нормальности и справедливости гипотезы НА а2А=дваге подчиняется F -распределению Фишера с числом степеней свободы /-1 и 7.7(7, -1)
Л „„ Л V1/ -\2
(1+ле0)_!_.ее (1+де0) 1 V (11)
IV IV -
Уу = т2Л' У- Уч' =7¿Л- У = -тЪУ>~
ъ ы и 1 г=1 1 .=1 J=\
В случае однофакторной модели (3) для проверки гипотезы вида (10) используется статистика вида
При выполнении предположений нормальности и справедливости гипотезы НА <у2а =&0о1 статистика (12) подчиняется распределению где .7 -
это число наблюдений на каждом уровне фактора
Вторая глава содержит исследования распределений статистики (5) критерия отношения правдоподобия при отклонениях наблюдаемого закона от нормального Исследуется, как влияет на распределение статистики (5) дополнительно присутствие неоднородности ошибок наблюдений по дисперсиям и по распределению Проверяется, насколько корректными будут статистические выводы в этих условиях Помимо этого во второй главе приводятся результаты исследования поведения распределения статистики (6) Т-критерия множественных сравнений в зависимости от наблюдаемого закона ошибок наблюдения, оценивается влияние ненормальности наблюдений на границы доверительных интервалов, вычисляемых на основании распределения статистики (6)
Исследования (преимущественно) проводились при следующих законах распределения случайных величин распределении максимальных значений с плотностью /(х,в2,вх) = ехр(-у/-ехр(-и>))/02 , = (х-9Х)/в2 , нормальном законе, и семействе распределений с плотностью
£>е(Х) = /(х,\,в2,в1) = -
(13)
27202Г(1Д)еХР| I -М'г У
при различных значениях параметра формы X (в работе приводятся результаты при значениях параметра формы X, равном 0 3, 0 5, 1, 3, 5 и 10)
Численные исследования распределения статистики (5) в случае нарушения предположений нормальности подтвердили предположения Шеффе распределение данной статистики устойчиво к существенным отклонениям распределения ошибок от нормального закона Значимые отклонения эмпирического распределения статистики (5) от соответствующего распределения Фишера наблюдаются только при законах ошибок с тяжелыми хвостами (Ве(0 3) и £>е(0 5))
Рис 1 иллюстрирует поведение распределения статистики в случае принадлежности ошибок наблюдения законам распределения с тяжелыми хвостами и различным уровнем шума На рис 1 приведена таблица с достигнутыми уровнями значимости при проверке гипотезы о согласии эмпирических законов распределения статистики (5) (при различных законах распределения ошибок) с распределением статистики (5) в нормальном случае (с распределением Фишера F23t¡) при уровне шума 20%
О(01Н„)
Ог(ОЗ) р=гт,,р=ш'/.
| Рг(0 :
. ________|______ .... ! .. ___'____ !
Критерий согласия Распределение ошибок наблюдений
Мах 1) Ое{ 5) Де(10)
Отясшения
правдоподобия 0 226 0 264 0 297 0 468
Пррсона 0 226 0 265 0 297 0 468
Колмогорова 0 241 0 281 0 272 0 539
со3 Мизеса 0 195 0 244 0 249 0 557
О2 Андерсона-Дарлинга 0 189 0 189 0 255 0 509
2 0
2.5
3.0
3.5
4.0
Рис 1 Функции распределения статистики (5) при различных законах ошибок наблюдений и различных уровнях шума р и соответствующее нормальному случаю теоретическое распределение Фишера ^ 30 ( к = 2, п - 3 6, г = б )
Исследования влияния неоднородности ошибок показали, что сильная неоднородность в дисперсиях может приводить к отклонению распределения
статистики (5) от соответствующего распределения Фишера Рассматриваемый вид неоднородности в дисперсиях может быть охарактеризован параметром С = о-,2/сг2, <т2 = 2, ,/, где сг2 - это дисперсия ошибок наблюдений на ;-м уровне фактора В таблице 1 представлены результаты исследований, связанных с влиянием неоднородности по дисперсиям дчя модели (1) при к = 2, п = 3 6, г = 6 В ней приведены два типа погрешностей, возникающих при вычислении вероятности ошибки 1-го рода по сравнению с заданным а Погрешности первого типа связаны с нарушением предположений нормальности и однородности Они обозначены как гр и определяются соотношением
где Р09 = Р{3<Ба} - вероятность, вычисленная по модели распределения статистики, а соответствующая квантиль Г220-
распределення при а = 0 1 гр показывает характер вчияния на распределение статистики При ер < 0 применение вместо действительного распределения статистики (5) "классического" Т7 -распределения Фишера будет приводить к увеличению вероятности ошибки 1-го рода по сравнению с заданным а И наоборот Погрешности второго типа связаны с точностью моделирования получаемой вероятности Р09 Такая погрешность в таблице обозначается как гм Она представляет собой точность оценки Р^9 с заданной достоверностью у = 0 99 при используемом объеме выборок статистик N = 100000 Прочерк в таблице означает, что в этом случае наблюдалось хорошее согласие эмпирического распределения статистики (5) с -распределением
Таблица 1
Распределение ошибок наблюдения С
02 1 2 5
eP % sP sp eP
De(0 3) 0 0186 0 0022 0 0238 0 0022 0 0237 0 0022 0 0205 0 0022
De(0 5) 0 0021 0 0024 00112 0 0023 0 0053 0 0024 -0 0007 0 0025
De( 1) -0 0059 0 0025 - - 0 0015 0 0024 -0 0154 0 0026
Max -0 0089 0 0025 _ - -0 0089 0 0025 -0 0177 0 0026
Norm -0 0087 0 0025 - - -0 0051 0 0025 -0 0087 0 0025
De( 5) -0 0092 0 0025 - - -0 0025 0 0025 -0 0132 0 0026
De(l 0) -0 0071 0 0025 - - -0 0026 0 0025 -0 0108 0 0026
Из таблицы 1 видно, что при очень большой степени неоднородности, когда дисперсии различаются в 5 раз, это различие сказывается на степени согласия распределения статистики (5) с теоретическим распределением, что выражается в изменении значения погрешности ер При этом характер влияния зависит от закона распределения ошибок наблюдения при распределении ошибок по закону £>е(0 3) неоднородность в дисперсиях приводит к снижению
степени расхождения распределения статистики (5) от Т7 -распределения (|г,| уменьшается), при значении X > 1 неоднородность в дисперсиях приводит к увеличению степени отклонения от Т*1 -распределения увеличивается)
В процессе исследований выявлено, что неоднородность по распределениям (как таковая) не оказывает существенного влияния на распределение статистики
Таким образом, проведенные во второй главе исследования поведения распределения статистики (5) расширяют сферу корректного применения классических результатов При проверке гипотез о «средних» в моделях с постоянными уровнями факторов нет настоятельной необходимости в проверке нормальности Достаточно убедиться в отсутствии «тяжелых хвостов» закона распределения ошибок и отсутствии существенной неоднородности в дисперсиях групп
Проведенные исследования статистики (6) показали, что предположение Шеффе об отсутствии устойчивости к нарушению предположений нормальности у Т-метода является оправданным Выявлено, что устойчивость Т-метода зависит от числа уровней факторов При малом числе уровней факторов значительное влияние на распределение статистики оказывает принадлежность ошибок законам с "тяжелыми" хвостами В этом случае построенные с использованием традиционного аппарата доверительные интервалы будут шире действительных
1 00 о
О 75 О БЗ О 50 О 38 О 25 О 13 О 00
: ; ; 1
.......- —- - ..............;.....]
" 1 " 'при Ве(10)" У" " при Ноггп^ Ж'/^ при Ъе(0 5) \......-1- .... ^
' ЖУ при Шх • , :
\ при Ое(1), , \ -!-&
0 00 0 75 1.50 2.25 3.00 3.75 4.50 5 25 Б 00
Рис 2 Функции распределения статистики (6) в случае принадлежности ошибок наблюдений законам распределения нормальному, максимальных значений и Ве(Х) с различными значениями параметра X при 1=10 и и(=40
При большом числе уровней факторов наблюдается высокая степень неустойчивости к нарушению предположений нормальности На рис 2 приведены эмпирические распределения статистики (6) при различных распределениях ошибок наблюдения для случая / =2, =40
Для ряда законов распределений ошибок наблюдений и тех чисел уровней фактора I, чисет наблюдений и,, при которых наблюдалось отклонение распределения статистики (6) от соответствующего распределения стьюдентизи-рованного размаха, построены модели распределения статистики В третьей главе методами компьютерного моделирования исследуются распределения статистик критериев Хартли и Шеффе, применяемых для проверки гипотезы о равенстве дисперсий нескольких выборок, в случае принадлежности наблюдений случайных величин различным законам распределения Проводится сравнительный анализ мощности критериев однородности
Проведенные исследования показали, что критерий Хартли крайне чувствителен к виду закона, которому принадлежат ошибки наблюдений Эта зависимость проиллюстрирована на рис 3
Для диапазона значений / = {2,3,4,5}, ^={4,5,6,8,10,20} построены модели законов распределений статистики (8) в случае принадлежности ошибок наблюдений законам распределения Ое( 1), £>е(5), Юе{ 10), экстремальных значений
Критерий Шеффе (в отличие от критерия Хартли) действительно весьма устойчив к нарушению предположений нормальности Однако вид закона распределения ошибок наблюдений влияет на объем выборки, начиная с которого достигается достаточно хорошее согласие распределения статистики с распределением Фишера Чем "легче" хвосты распределений, тем при больших объемах выборок достигается достаточно хорошее согласие
В нормальном случае минимальное значение я,, при котором допустимо использовать Т7-распределение в качестве распределения статистики (9), составляет 10-12 наблюдений в группе Необходимый для приемлемого согласия объем и, в наибольшей степени определяется выбором числа Например, при =2 минимально допустимый объем и, составляет 10-12, при ./, =4 - 1620, а при =6 - 20-25 Проведенные исследования показали, что при нормальном законе ошибок и числе наблюдений п1 в группах около 30, можно без риска совершения больших ошибок использовать Р -распределение в качестве распределения статистики (9) при условии, что будет выбрано разбиение, в котором пя > 4 Но, если объем выборок п: меньше этого числа, то для того, чтобы распределение статистики (9) хорошо согласовалось с соответствующим Р -распределением, следует выбирать такое разбиение на подгруппы, чтобы п1}
было наибольшим, & J¡ - наименьшим из возможных
Исследования мощности критерия Шеффе в зависимости от закона распределения ошибок наблюдения показали, что на мощность критерия Шеффе влияет также закон распределения наблюдений {лу }
Рис 3 Эмпирические функции распределения статистики (8) при справедливости гипотезы (7) в случае 1=3, и, =61 при различных законах ошибок наблюдений
СКТгГНО
Рис 4 Функции распределения статистики (9) при справедливости проверяемой гипотезы Н0 вида (7) и при справедливости конкурирующей гипотезы Я, вида а) = 1 2о2 при различных законах наблюдений при 1=5, У,=10, пи =-50
Рис 4 илчюстрирует влияние закона распределения наблюдений на распределение статистики при справедливости конкурирующей гипотезы и большом объеме выборки п, =500
Картина, представленная на рис 4, показывает, что чем "легче" хвосты распределений наблюдений }, тем выше мощность Влияние несимметричности закона распределения наблюдений на распределение статистики (9) при верной альтернативе схоже с влиянием распределения с более "тяжелыми" чем у нормального закона хвостами
Таблгща 2
Мощность критериев Кокрена, Бартлетга, Шеффе и Хартли относительно аль-2 2
тернативы вида Я, ст7 = 1 440! при 1=5 и различных значениях п, в случае _ принадлежности наблюдений нормальному закону_
а Разбиение на подгруппы в случае критерия Шеффе Критерий Шеффе Критерий Хартли Критерий Бартлетга Критерий Кокрена
J¡=2, и;у=100 0 362
У, =4. Пд=50 0 578
200 Jl =5, Пц =40 0 609 0 760 0 757 0 837
3= 10, П = 20 0 647
0 05 7, =20, Пу =10 0619
У,=5, И =100 0 967
У,=10, К =50 0 981
500 У, =20, и = 25 0 982 0 993 0 993 0 997
У, =25, Пу =20 0 8677
=50, И =10 0 172
В целом по результатам проведенных исследований поведения распределения статистики критерия Шеффе можно заключить следующее При использовании критерия сложен выбор "оптимальных" значений и при заданном , при которых распределение статистики близко к соответствующему р-распределению Этот выбор зависит от вида закона ошибок наблюдения Если ошибки подчиняются закону с «легкими» хвостами (например, ¿>е(10) или Ве{5)), следует выбирать разбиение с минимальным значением Это позволит с большей уверенностью использовать распределение Фишера в качестве распределения статистики (9) В случае законов ошибок с "тяжелыми" хвоста-
ми, следует выбирать разбиение с достаточно большим значением J Это позволит увеличить мощность критерия, которая мала в этих ситуациях
Таким образом, свойства критерия Шеффе зависят от вида закона ошибок наблюдения и от того, насколько удачно выбрано разбиение на подвыборки По результатам проведенных исследований были выработаны рекомендации по практическому применению критерия Шеффе в тех или иных ситуациях
Полученные результаты сравнительного анализа мощности критериев однородности дисперсий в нормальном случае иллюстрирует таблица 2
Мощность критерия Хартли при нормальном законе ошибок наблюдения сравнима с мощностью критерия Бартлетта, ниже мощности критерия Кокрена и выше мощности критерия Шеффе Мощность критерия Шеффе ниже мощности других критериев и зависит от того, каким образом наблюдения разбиваются на подгруппы
Четвертая глава содержит результаты исследования распределений статистик, применяемых в однофакторной модели (3) со случайными уровнями фактора при различных законах распределения входящих в модель случайных величин
На первом этапе методами статистического моделирования исследовались распределения статистик и 55^, входящих в соотношение (12) и подчиняющихся в нормальном случае распределению %2 со степенями свободы I -1 и /(./ -1) Исследование распределений статистик ББА и при нарушении предположений нормальности во многом объясняет поведение в этих условиях распределения статистики (12)
Далее проводились исследования распределения статистики (12) при выполнении условий гипотезы вида НА <з2А - 0 Показано, что распределение статистики (12) в этом случае устойчиво к нарушению предположений нормальности Данную ситуацию иллюстрирует рис 5 В таблице, приведенной на рисунке, приведены достигнутые уровни значимости при проверке согласия эмпирических распределений статистики (12) при различных законах распределения ошибок с распределением статистики (12) в нормальном случае (с распределением ^425) Из рисунка видно, что даже в тех случаях, когда согласие эмпирического распределения с Р -распределением ниже, чем в нормальном случае (законы распределения ошибок Ое( 1) и максимальных значений), применение соответствующего распределения Фишера в качестве закона распределения статистики (12) при проверке гипотезы вида НА <у2а=0 не приведет к существенным ошибкам в статистических выводах Этот факт существенно расширяет область корректного применения данного критерия при проверке гипотез такого вида
Напротив, распределение статистики (12) при справедливости гипотезы Н а2л = 90ст^, 90 т^ 0 неустойчиво к нарушениям предположений нормальности на поведение распределения статистики (12) оказывает влияние как распределение случайных эффектов уровней фактора, так и распределение ошибок
наблюдений Причем распределение случайных эффектов уровней фактора оказывает большее влияние Для диапазона значений I = (2, 3, 4, 5, 6}, J = (3, 4, 5, 6, 15} (кроме случая I = 2, 7 = 2), 0О = 0 5, 1, 2 при всех возможных сочетаниях законов (из числа De( 1), Лго/ти, £>е(5), £>е(10)), которым подчиняются ошибки наблюдений и эффекты уровней случайных факторов, были построены модели законов распределений статистики (12)
Было показано, что мощность критерия зависит от законов распределения ошибок и случайных факторов уменьшение величины эксцесса распределений {etJ j или | приводит к увеличению мощности
G(S|Ha)
А
--- F-/2S -
Критерий согласия Распределение ошибок наблюдений
Мах De( 1) Шт De( 10)
Отношения
правдоподобия 0 045 0 046 0 569 0 192
Пиэсона 0 045 0 047 0 569 0 191
Колмогорова 0 024 0 074 0 602 0 385
и2 Мизеса 0 069 0 065 0 535 0 384
Q2 Андерсона-Дарлинга 0 044 0 039 0 494 0 294
S
0 5 1.0
1 5
2.0 2.5
3.0
4 0
4.5 5 0
Распределения статистики (12) при справедливости гипотезы вида
- в <
! случае принадлежности распределению максимального значения, 2 - в случае принадлежности {е^ | закону Ое(1),
/ = 5, J -6
В пятой главе методами компьютерного моделирования исследуются распределения статистики (11), используемой в двухфакторной модели (2) со случайными уровнями факторов при проверки гипотезы (10), в условиях нарушения предположений нормальности
Показано, что, так же как и в случае однофакторной модели, распределение статистики устойчиво к отклонению от предположений нормальности при проверке гипотез о равенстве нулю дисперсии случайного фактора Повторяется ситуация, наблюдавшаяся в поведении распределения статистики однофакторной модели на распределение статистики (11) оказывает влияние распределение случайных эффектов уровней того фактора, относительно которого справедливы условия гипотезы вида НА а2А = 0ОС2, 90 Ф 0, а также распределение ошибок наблюдения модели Исследования показали, что, как и ожидалось,
распределение случайных эффектов уровней того фактора, относительно которого не проверяется гипотеза (10), не оказывает значительного влияния на распределение статистики (11) При этом в поведении статистики (11) сохраняются все тенденции, наблюдавшиеся в однофакторной модели компонент дисперсии
Более того, модели распределений статистики, полученные в случае одно-факторной модели, могут использоваться в качестве моделей распределений статистики в соответствующей двухфакторной модели Это справедливо для случаев, в которых при выполнении предположений нормальности теоретические распределения соответствующих статистик в однофакторной и двухфакторной моделях совпадают Эту ситуацию иллюстрирует рис б, на котором для некоторых отличных от нормального законах распределения случайных эффектов уровней фактора и ошибок наблюдения представлены получаемые эмпирические распределения статистики (12) и (11) моделей (3) и (2) соответственно На рисунке показано также распределение Фишера 20 , которому в нормальном случае подчиняется статистика (12) при I =5, J = 5 и статистика (13) при 1 = 5, J = 2, Ь = 3 Используемые в подрисуночной надписи обозначения расшифровываются, например, следующим образом С{Б{Ое{5),£)е(10))) соответствует распределению статистики 5", построенному при справедливости проверяемой гипотезы для случая, когда ошибки ({^1 в однофакторном случае, 1 в двухфакгорном случае) подчиняются закону распределения Ое(5),
- закону распределения Пе(10) С(81Н.)
Рис б Распределения статистики (11) (2 в скобках) и статистики (12)
(1 в скобках) при справедливости гипотезы вида НА агА — <з\ 1 - С(3(0е(10),0е(10))), 2 - 0), Ие(5))), 3 - 0(8(Вг(5),Пе(10))),
4 - 0(8(0е(5), Бе(5))), 5 - в(8(Ое(1),Ое(1)))
Для ряда случаев, в которых наблюдалось недостаточно хорошее согласие полученных моделей распределений статистики (12) и статистики (11) с помощью ряда критериев была проведена проверка на однородность выборок статистики (12) и статистики (11) Таблица 3 содержит результаты проверки, полученные для тех сочетаний законов распределений случайных величин, входящих в модели (3) и модели (2), которые представлены на рис б Результаты, представленные в таблице 3 говорят о том, что нет оснований для отклонения гипотезы об однородности
В целом полученные в ходе исследования результаты позволяют надеяться, что построенные в однофакторном случае модели распределений статистик можно без опасения совершения больших ошибок использовать для проверки гипотез в двухфакторном случае, если статистики (12) и (11) в нормальном случае подчиняются одному и тому же закону распределения Это существенно расширяет область применения критерия со статистикой (11) за счет разработанного для однофакторной модели компонент дисперсии математического аппарата
Также в пятой главе исследовалось поведение статистики, используемой в модели (2) при числе опытов в каждой ячейке ¿=1 Показано, что все получаемые в этом случае результаты поддерживают тенденцию, наблюдавшуюся в случае ¿>1
Таблица 3
Результаты проверки однородности эмпирических распределений статистики (11), полученных в двухфакторной модели (2), с соответствующими эмпирическими распределениями статистики (12), полученными в случае однофакторной модели (3), при различных законах распределения эффектов {я,} и ошибок на-
блюдения
Распределение {аД и (|еу | в случае однофакторной модели) Значения достигнутых уровней значимости
Ц}~Ое(1), {е^-ЦеО) Лемана-Розеблатта Смирнова Модифицированный Смирнова 0 177 0 179 0 185
(а,}~Ое(1), {е^-ОеОО) Лед[ана-Розеблатта Смирнова Модифицированный Смирнова 0 428 0 432 0 374
Лемана-Розеблатта Смирнова Модифицированный Смирнова 0413 0419 0 421
{я,}~Ое(Ю), {еу/}~Ое(5) Лемана-Розеблатта Смирнова Модифицированный Смирнова 0 152 0 153 0 124
Шестая глава содержит краткое описание разработанного программного обеспечения, которое использовалось для исследования распределений статистик
дисперсионного анализа, и примеры его применения для ряда практических задач
Вначале приводится описание возможностей разработанного комплекса программ Во всех программных модулях используются датчики программной системы ISW, что позволяет генерировать псевдослучайные величины, подчиняющиеся одному из 30 заложенных в ISW законов распределений Комплекс состоит из трех частей
1 Программный модуль для моделирования распределений статистик критерия отношения правдоподобия при различных законах распределения ошибок наблюдения, который позволяет задавать различные законы распределения (как по виду закона, так и по значениям параметров) на различных уровнях и сочетаниях уровней факторов при задаваемой пользователем матрице планирования произвольного вида
2 Программный модуль для моделирования распределений статистик критерия Хартли, критерия Шеффе, Т-критерия
3 Программный модуль для моделирования распределений статистик критериев моделей компонент дисперсии, позволяющий задавать различные по виду и значениям параметров законы распределения для различных случайных величин, входящих в модель компонент дисперсии
Все программное обеспечение реализовано на языке С++ в среде Borland С++ 6 с использованием объектно-ориентированного подхода
Далее приводится описание применения разработанного программного обеспечения к данным, приведенным в работе П А Рыжова «Математическая статистика в горном деле»
Дается описание применения разработанного программного обеспечения к медицинским данным, полученным в результате наблюдения за персоналом специализированной туберкулезной больницы № 2 г Новосибирска с целью выявления факторов устойчивости персонала к заболеванию туберкулезом
Приводимые примеры позволяют продемонстрировать принципы работы разработанного программного обеспечения, которое может применяться в любой сфере человеческой деятельности, в которой возникает необходимость решения задач дисперсионного анализа К таким сферам деятельности относятся и различные технические приложения, в которых традиционно широко используется классический аппарат дисперсионного анализа
Заключение
В соответствии с целями исследований получены следующие результаты 1 Методами статистического моделирования исследовано распределение статистики, используемой в моделях с постоянными уровнями факторов при проверке гипотез о «средних» Показано, что распределение статистики устойчиво к существенным отклонениям распределения ошибок наблюдения от нормального закона
2 Показано, что сичьная неоднородность наблюдений по дисперсиям может приводить к отклонению распределения статистики критерия отношения правдоподобия от соответствующего распределения Фишера Неоднородность по распределению (при однородности дисперсий) не оказывает существенного влияния
3 Впервые показано, что устойчивость Т-метода к нарушению предположений нормальности зависит от числа уровней факторов Для ряда значений числа уровней фактора и числа наблюдений на каждом уровне построены модели распределения статистики при разчичных законах ошибок наблюдения
4 Показано, что распределение статистики критерия Хартли неустойчиво к отклонениям закона распределения наблюдений от нормального Для ряда значений числа уровней фактора и числа наблюдений на каждом уровне построены модели распределения статистики при различных законах распределения ошибок наблюдения
5 Экспериментально исследовано поведение распределения статистики Шеф-фе при нарушении предположения нормальности Впервые показано, что, несмотря на устойчивость распределения статистики критерия к нарушению предположений нормальности (при справедливости проверяемой гипотезы), вид закона распределения наблюдений влияет на объем выборки, начиная с которого можно применять соответствующее распределение Фишера в качестве распределения статистики критерия
6 Показано, что мощность критерия Шеффе существенно зависит от вида разбиения набчюдений на подвыборки Закон распределения ошибок наблюдений также влияет на мощность критерия Даны рекомендации по выбору подразбиения, обеспечивающего максимальную мощность при соблюдении необходимого уровня согласия эмпирического распределения статистики с соответствующим распределением Фишера
7 Проведен сравнительный анализ мощности критериев однородности Хартли и Шеффе в нормальном случае Проведено сравнение мощности данных критериев с мощностью других критериев однородности дисперсий
8 Проведено экспериментальное исследование критериев, используемых для проверки гипотез о дисперсиях в моделях случайных компонент Показано, что распределения статистик данных критериев неустойчивы к нарушению предположений нормальности Исключение составляют случаи проверки гипотез о равенстве нулю дисперсии случайного фактора Для различных сочетаний законов ошибок измерений и уровней случайного фактора по ряду значений 1, J и в0 построены модели распределений статистики, используемой в однофакторной модели
9 Впервые показано, что модели распределений статистики, полученные в случае однофакторной модели, могут использоваться в качестве моделей распределений статистик в соответствующей двухфакторной модели при условии, что распределение соответствующих статистик в однофакторной и двухфакторной моделях при выполнении предположений нормальности одно и то же
Полученные результаты расширяют сферу корректного применения методов классического дисперсионного анализа в приложениях
Подученные результаты и разработанное программное обеспечение используется при проведении научных исследований, может испочьзоваться при решении различных прикладных задач Разработанное программное обеспечение было использовано при анализе медицинских данных, рассматриваемых в рамках подготовки двух кандидатских и одной докторской диссертации, что подтверждается актами о внедрении
Список основных публикаций
1 Пономаренко, В М. Влияние метода оценивания параметров модели на свойства оценок ФДО в условиях нарушения предположений о нормальности/В М Пономаренко//Сборник научных трудов НГТУ -2004 — № 1(35)
-С 35-40
2 Ponomarenko, V М Statistical hypotheses testing m variance analysis in case of classical assumptions failure /УМ Ponomarenko, В Yu Lemeshko // proceed-mgs of the Seventh International Conference «Computer data analysis and model-mg robustness and Computer intensive methods» - V 1 - Minsk 2004 - С 110-113 [Проверка статистических гипотез дисперсионного анализа в условиях нарушения основных предположений]
3 Пономаренко, В М Проверка гипотез о дисперсиях в рамках дисперсионного анализах при нарушении предположений нормальности / В М Пономаренко // Материалы VII международной конференции «Актуальные проблемы электронного приборостроения» -Т 6 - Новосибирск 2004 - С 312314
4 Lemeshko, В Yu Investigation of dependence variance analysis Statistical distn-butions on error and random factor distribution laws / В Yu Lemeshko, V M Ponomarenko // proceedings of the 9th Russian-Korean International Symposium on Science and Technology KORUS-2005 - Novosibirsk 2005 P 79-82 [Исследование зависимости распределений статистик дисперсионного анализа от распределения ошибок наблюдения и случайных уровней факторов]
5 Лемешко, Б Ю Проверка гипотез в моделях дисперсионного анализа со случайными факторами при нарушении предположений о нормальности / Б Ю Лемешко, В М Пономаренко // Доклады Академии наук высшей школы России -2005 -№2(5) - С 26-39
6 Лемешко, Б Ю. Исследование распределений статистик, используемых для проверки гипотез о равенстве дисперсий при законах ошибок наблюдений, отличных от нормального / Б Ю Лемешко, В М Пономаренко // Научный вестник НГТУ -2006 -№2(23) -С 21-33
7 Лемешко, Б Ю Исследование распределений статистики критерия Шеффе при законах ошибок наблюдений, отличающихся от нормального / Б Ю Лемешко, В М Пономаренко // Материалы VII международной конференции «Актуальные проблемы электронного приборостроения» - Т 6 - Новосибирск 2006 - С 87-91
8 Пономаренко, В М Исследование поведения статистики, используемой в Т-методе множественных сравнений при нарушении предположений о нормальности / В М Пономаренко, Б Ю Лемешко // Материалы Российской НТК «Информатика и проблемы телекоммуникаций» - Т 1 - Новосибирск 2006 - С 190-194
Отпечатано в типографии Новосибирского государственного технического университета 630092, г Новосибирск, пр К Маркса, 20, теч /факс (383) 346-08-57 формат 60x84/16, объем 1 5 п л , тираж 100 экз , заказ № 635 , подписано в печать 10 04 07 г
Оглавление автор диссертации — кандидата технических наук Волкова, Виктория Михайловна
Введение.
Глава 1. Постановка задач исследования.
1.1. Основные понятия и определения.
1.1.1. Модели с постоянными уровнями факторов.
1.1.2. Модели со случайными уровнями факторов.
1.1.3. Проверка гипотез о согласии.
1.1.4. Статистическое моделирование и связанные с ним понятия.
1.2. Задачи дисперсионного анализа.
1.2.1. Критерии проверки гипотез о «средних» в моделях с постоянными уровнями факторов.
1.2.2. Методы множественного сравнения.
1.2.3. Критерии проверки гипотез о «дисперсиях» в моделях с постоянными уровнями факторов.
1.2.4. Критерии проверки гипотез о «дисперсиях» в моделях со случайными уровнями факторов.
Глава 2. Исследование распределений статистик критериев проверки гипотез о «средних» в моделях с постоянными уровнями факторов, при вероятностных законах, отличающихся от нормального.
2.1. Исследование распределения статистики критерия отношения правдоподобия при законах, отличных от нормального.
2.1.1. Исследование влияния степени зашумленности на распределение статистики Q при различных распределениях ошибок наблюдения.
2.1.2. Исследование распределений статистики Q при нарушении предположения об однородности ошибок.
2.2. Исследование устойчивости методов множественного сравнения к нарушению предположений нормальности.
Выводы.
Глава 3. Исследование распределений статистик критериев проверки гипотез о «дисперсиях» в моделях с постоянными уровнями факторов, при вероятностных законах, отличающихся от нормального.
3.1. Исследование распределений статистики Хартли.
3.2. Исследование распределений статистики Г2 критерия Шеффе.
3.3. Исследование мощности критериев Хартли и Шеффе.
Выводы.
Глава 4. Проверка статистических гипотез в однофакторной модели компонент дисперсии без взаимодействий при нарушении предположений нормальности.
4.1. Исследование распределений статистик SSA и SSe.
4.2. Распределения статистики (1.33) при нарушении предположений нормальности.
4.2.1. Проверка качества моделирования.
4.2.2. Поведение распределения статистики (1.33) при отсутствии влияния эффектов уровней факторов.
4.2.3. Поведение распределения статистики (1.33) при различных законах распределения ошибок наблюдения и эффектов уровней факторов.
4.3 Исследование мощности критерия со статистикой (1.33).
Выводы.
Глава 5. Проверка статистических гипотез в двухфакторной модели компонент дисперсии в условиях нарушения предположений нормальности.
5.1. Распределения статистики (1.37) при нарушении предположений нормальности.
5.1.1. Проверка качества моделирования.
5.1.2. Поведение распределения статистики (1.37) в случае принадлежности эффектов уровней фактора В законам распределения, отличным от нормального.
5.1.3. Поведение распределения статистики при различных законах распределения ошибок наблюдения и эффектов уровней факторов.
5.1.4. Поведение распределения статистики (1.37) при отсутствии влияния эффектов уровней фактора А.
5.2. Распределения статистики (1.40) при нарушении предположений нормальности.
5.3. Распределения статистики (1.43) при нарушении предположений нормальности.
Выводы.
Глава 6. Описание программного комплекса и примеры его использования.
6.1. Общая характеристика программного комплекса.
6.2. Краткое описание интерфейса программного комплекса.
6.2.1 Программный модуль для моделирования распределений статистики критерия отношения правдоподобия.
6.2.2. Программный модуль для моделирования распределений статистик критериев Хартли, Шеффе, Т-метода множественных сравнений.
6.2.3. Программный модуль для моделирования распределений статистик критериев о дисперсиях в моделях со случайными уровнями факторов.
6.3. Пример использования разработанного программного комплекса на примере данных технического характера.
6.4. Пример использования разработанного программного комплекса на примере данных медицинского характера.
Выводы.
Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Волкова, Виктория Михайловна
Современное состояние и актуальность темы исследований. Методы прикладной статистики успешно применяются в различных отраслях народного хозяйства, практически во всех областях науки. Актуальность и эффективность применения аппарата дисперсионного анализа в различных областях знания подчеркивается в работах Г. Шеффе, С.А. Айвазяна, Дж. Гласса, Ю.Н. Тюрина, В.П. Леонова, Ю.П. Адлера, В.И. Денисова, Е.В. Марковой, А.А. Попова, И.А. Полетаевой и других [29, 31, 35, 47, 59, 61, 98, 120, 136, 137, 138]. Методы дисперсионного анализа находят применение во многих сферах человеческой деятельности: технических приложениях [51, 53, 122], в медико-биологических исследованиях [43, 106, 124], в педагогике и психологии [44, 125], в экономических приложениях [97].
Под дисперсионным анализом понимается статистический метод обработки результатов наблюдений, зависящих от различных одновременно действующих факторов [138]. Его задача состоит в оценке вклада этих факторов и их взаимодействий в измерение некоторой выходной величины, предположительно от них зависящей. Основы этого метода разработаны в 20-30-х годах прошлого столетия известным английским статистиком Р.Фишером и его учениками [5, 25]. Было обращено внимание на то, что в процедуре дисперсионного анализа должны иметься некоторые различия в зависимости от природы уровней фактора. Этот вопрос детально рассмотрен в 1947 г. Эйзенхартом, предложившим три вида моделей [4]: модель I - все факторы имеют постоянные уровни, модель II - все факторы имеют случайные уровни, модель III -одни факторы имеют постоянные, а другие случайные уровни. Большое внимание уделялось методам множественных сравнений средних. Завершение этой идеи можно видеть в концепции параметрических функций, допускающих оценку. Несколько обособленно стоят критерии проверки однородности дисперсий, которые могут рассматриваться и как часть аппарата дисперсионного анализа, использующегося в моделях типа I [59], и как один из элементов комплекса статистических методов обеспечения качества [103].
Русскоязычные книги по дисперсионному анализу появились в середине 40-х годов прошлого столетия [38, 63, 121]. Дисперсионный анализ определялся в них как статистический метод, основанный на разложении полной вариации экспериментальных данных на составляющие. При такой постановке задачи дисперсионный анализ трактовался несколько обособленно от регрессионного анализа.
В работах Налимова и Асатуряна [34, 104, 105] излагается анализ в терминах регрессионного анализа, что позволяет усилить четкость логических суждений, устранить многообразие вычислительных процедур, упростить процедуру анализа в случае пассивного эксперимента и пропущенных данных. Для разработки унифицированных алгоритмов дисперсионного анализа на ЭВМ широко используется идея обобщенного обращения матриц [98].
Исследования, проводившиеся относительно критериев, используемых в моделях типа I, в первую очередь связаны с оптимальным планированием эксперимента. Этим вопросам посвящены работы таких автором как Адлер Ю.П., Денисов В.И., Федоров В.В., Попов А.А., Лисицин Д.В. и др. [26, 39, 48, 50, 99, 117,135].
Относительно исследований критериев, используемых в моделях типа II и III, можно отметить следующих авторов: Шеффе Г., Pao С.Р., Рао Дж.Н.К., Сирл С., Клеффе Дж., Кох Г.Г., Хартли Г.О., Паттерсон Г.Д., Маркова Е.В., Полетаева И.А., Новиков А.С., Фаддеенков А.В. и др. [7, 9, 14, 17, 20, 100— 102, 113,134,138].
Однако в целом изучение вопросов применимости классических критериев дисперсионного анализа при нарушении базовых предположений оставалось за рамками исследований.
Как свидетельствует мировая практика применения методов дисперсионного анализа [95], отсутствие уверенности в том, что наблюдения распределены по нормальному закону, вынуждают исследователя отказываться от использования параметрических критериев. Например, в монографии «Statictical analysis of nonnormal data» [2] приведен обзор методов, используемых иностранными исследователями в такой ситуации. Там же можно найти обширную библиографию работ по анализу данных, не подчиняющихся нормальному закону распределения. В то же время в отечественной практике нередко встречаются примеры использования классических параметрических методов без предварительной проверки того, выполняются ли необходимые предположения. А одним из основных всегда является предположение нормальности наблюдений. На практике исследователь далеко не всегда имеет дело с нормальным законом [11, 95, 110, 111]. Например, в нашей жизни достаточно мало экономических процессов, отклонения которых от предполагаемых математических моделей распределены по нормальному закону. Поэтому данное ограничение приводит к сужению области применения дисперсионного анализа в экономике. Естественно, возникает вопрос о справедливости выводов, получаемых на основании результатов дисперсионного анализа, при нарушении этого основного предположения.
В доступной литературе ответ на данный вопрос найден не был, хотя можно найти указания на робастность некоторых критериев, применяемых в дисперсионном анализе [138].
Однако имеющиеся оценки, характеризующие робастность аппарата статистического анализа, как, например, предложенные Шеффе [138] для классических методов дисперсионного анализа, в большинстве случаев носят асимптотический характер. При этом далеко не всегда очерчивается граница области корректного применения критерия.
Анализ реферируемых отечественных и зарубежных изданий за 1996-2001 год также показал отсутствие публикаций на эту тему.
Исследование аналитическими методами свойств статистических критериев в условиях конкретной ситуации, в которой нарушаются классические предположения, как правило, представляет собой очень сложную задачу.
При этом в практике статистического анализа уже сейчас существенно больше постановок задач, чем предлагается решений в классической математической статистике [107].
В то же время, количество и уровень сложности задач, постоянно выдвигаемых практикой, возрастают настолько быстро, что ресурсы человеческого интеллекта, его производительность просто не в состоянии обеспечить решение такого множества задач без создания и использования соответствующих вычислительных технологий.
С другой стороны, для обнаружения закономерных связей можно использовать аппарат анализа данных [57, 58, 64, 65], когда рассматриваемые объекты представляются как «черные ящики». В этом случае на анализируемые данные не накладываются какие-либо строгие ограничения. Но применение такого подхода обычно привязано к определенному классу задач, и далеко не всегда удается использовать методы анализа при решении всё расширяющегося множества задач.
В настоящее время в связи с бурным развитием и внедрением персональных компьютеров особую актуальность приобретает задача обеспечения высокого качества пакетов прикладных статистических программ. Несмотря на то, что рынок насыщен различными пакетами программных систем статистического анализа [21, 127], реализуемые в них методы и алгоритмы сильно отстают от последних достижений в области статистических исследований. С одной стороны это объясняется тем, что подробное описание последних результатов исследований сложно отыскать в литературных источниках, поэтому они остаются труднодоступными для разработчиков программного обеспечения. К сожалению, в некоторых работах встречаются ошибки применения статистических методов [109], что также не облегчает быстрого внедрения новых методов в программные пакеты. Перспективы программного обеспечения по статистическому анализу данных обсуждались в работах [27-30, 41], современные проблемы внедрения прикладной статистики поднимались в [108]. Расширяющиеся использование ПЭВМ и их совершенствование, в свою очередь, отражается на развитии статистических методов и использовании статистических методов в приложениях [32, 35, 60, 112, 120, 129, 132].
Вышесказанное подчеркивает необходимость (а практика показывает и возможность [62, 66, 75, 85, 87, 90, 92]) развития компьютерных методов исследования статистических закономерностей, компьютерных методов исследования свойств оценок и статистик различных критериев проверки статистических гипотез, построения вероятностных моделей для исследуемых закономерностей. Это позволяет с меньшими интеллектуальными затратами получать фундаментальные знания в области математической статистики и, следовательно, осуществлять корректные статистические выводы при анализе данных в различных прикладных областях.
В последние годы при исследовании некоторых задач математической и прикладной статистики накоплено множество результатов, связанных с исследованием распределений статистик критериев согласия в случае проверки простых и сложных гипотез [86 - 89, 91], с исследованием статистических свойств различных оценок [68, 93, 94], распределений статистик критериев корреляционного анализа [72-75], критериев проверки отклонения распределения от нормального закона [70], критериев однородности [69], полученных как раз благодаря применению методов компьютерного моделирования. Накопленный опыт в данной области показал, что с использованием методов статистического моделирования и последующего анализа можно получать результаты, по точности не уступающие аналитическим. Например, при оценивании параметров распределений некоторых законов в случаях проверки сложных гипотез с использованием методов статистического моделирования [40, 54-56] были получены таблицы процентных точек для предельных распределений статистик непараметрических критериев [1, 15, 22, 23, 130-133]. В этой связи появилась обоснованная уверенность, что с использованием данного подхода можно закрывать многие существующие в прикладной статистике «пробелы», применяя относительно простой вычислительный и математический аппарат.
Методика компьютерного моделирования и анализа статистических закономерностей позволяет исследовать поведение распределений различных статистик при нарушении предположений нормальности. В результате могут вырабатываться рекомендации по практическому применению исследуемых критериев, строиться приближения законов распределений статистик критериев при различных законах распределения наблюдаемых величин. Цель и задачи исследований. Основная цель диссертационной работы заключалась в исследовании поведения законов распределений статистик дисперсионного анализа в случае принадлежности наблюдаемых случайных величин законам распределения, отличным от нормального. В соответствии с поставленной целью решались следующие задачи:
- исследование распределений статистики критерия отношения правдоподобия, используемой в моделях с постоянными уровнями факторов при проверке гипотез о «средних», в условиях нарушения предположений нормальности;
- исследование распределений статистики критерия Т-метода множественных сравнений в зависимости от числа уровней фактора и числа наблюдений на каждом уровне при законах распределения ошибок наблюдения, отличающихся от нормального;
- исследование распределений статистики критерия Хартли в зависимости от закона ошибок наблюдения, исследование мощности критерия Хартли в нормальном случае;
- исследование распределений статистики и мощности критерия Шеффе, применяемого для проверки гипотезы о равенстве дисперсий выборок, при различных законах распределения ошибок наблюдения, выработка рекомендаций по применению критерия;
- исследование распределений статистик и мощности критериев, используемых в однофакторной и двухфакторной моделях компонент дисперсий, при отклонении закона распределения эффектов случайных уровней факторов и ошибок наблюдения от нормального. и
Методы исследований. Для решения поставленных задач использовался аппарат теории вероятностей, математической статистики, вычислительной математики, математического программирования, статистического моделирования.
Научная новизна диссертационной работы заключается:
- в результатах исследования распределений статистики Т-метода множественных сравнений при различных законах распределения наблюдений в зависимости от числа и объемов сравниваемых выборок;
- в результатах сравнительного анализа мощности исследуемых критериев проверки однородности дисперсий;
- в построенных моделях распределения статистики критерия Хартли, расширяющих возможности критерия на случай ряда отличных от нормального законов распределения ошибок наблюдения;
- в построенных моделях законов распределения статистик, используемых в моделях дисперсионного анализа со случайными уровнями факторов, при различных значениях числа уровней факторов и числа наблюдений на каждом уровне фактора, различных законах распределения случайных эффектов уровней факторов и ошибок наблюдения.
Основные положения, выносимые на защиту.
1. Результаты исследования распределений статистики, используемой в моделях с постоянными уровнями факторов при проверке гипотез о «средних», при неоднородности ошибок наблюдений по дисперсиям и по распределению в условиях нарушения предположений нормальности.
2. Результаты исследования распределений статистики Т-критерия при различных законах распределения ошибок наблюдения в зависимости от числа уровней фактора. Построенные модели законов распределений статистик критерия для ряда законов распределений ошибок.
3. Результаты исследования распределений статистики критерия Хартли при различных законах распределения ошибок наблюдения в зависимости от числа уровней фактора. Построенные модели распределения критерия Хартли для ряда законов распределений ошибок.
4. Результаты исследования мощности критериев Хартли и критерия Шеффе для проверки гипотезы о равенстве дисперсий в зависимости от числа сравниваемых выборок и их объемов в нормальном случае.
5. Результаты исследований и рекомендации по применению критерия Шеффе в зависимости от закона распределения ошибок наблюдения.
6. Результаты исследований распределений статистик и мощности критериев, используемых в моделях со случайными уровнями факторов, построенные модели распределений статистик при различных законах распределения случайных эффектов модели.
Обоснованность и достоверность научных положений, выводов и рекомендаций обеспечивается:
- корректным применением методов статистического моделирования для исследования распределений статистик критериев;
- совпадением результатов статистического моделирования с известными теоретическими результатами.
Личный творческий вклад автора заключается в проведении исследований, обосновывающих основные положения, выносимые на защиту. Практическая ценность и реализация результатов. Результаты исследований позволяют корректно применять критерии дисперсионного анализа в более широких границах, по сравнению с условиями, определяемыми классическими предположениями. Выделены ситуации, в которых применение классического аппарата приведет к существенным ошибкам в статистических выводах, и возможные последствия таких ошибок. Выработаны рекомендации по применению критерия Шеффе. Разработано программное обеспечение, позволяющее строить модели распределений статистик в конкретной ситуации. Апробация работы. Основные результаты исследований докладывались на: Шестой всероссийской НТК «Информационные технологии в науке, проектировании и производстве» (Нижний Новгород, 2002); Международной НТК
Информатика и проблемы телекоммуникаций" (Новосибирск, 2003); Региональной научной конференции (с участием иностранных ученых) «Вероятностные идеи в науке и философии» (Новосибирск, 2003); Российских НТК "Информатика и проблемы телекоммуникаций" (Новосибирск, 2004, 2005, 2006); VI, VII и VIII международных конференциях "Актуальные проблемы электронного приборостроения" (Новосибирск, 2002, 2004, 2006); Седьмой международной конференции «Computer data analysis and modeling: robustness and computer intensive methods» (Minsk, 2004); VIII Korea-Russia International Symposium on Science and Technology (Tomsk, 2004); IX Korea-Russia International Symposium on Science and Technology (Novosibirsk, 2005); Международном научно-техническом семинаре "Математическая, статистическая и компьютерная поддержка качества измерений" (Санкт-Петербург, 2006).
Исследования по теме диссертации явились составной частью работ, проводимых в рамках проектов: "Математическое и алгоритмическое обеспечение задач статистического анализа данных и исследования статистических закономерностей при нарушении классических предположений", грант Министерства образования Российской Федерации № Т02-3.3-3356, 2003-2004 гг.; "Развитие компьютерных технологий моделирования и исследования фундаментальных закономерностей математической статистики", раздел 3.3 программы "Развитие научного потенциала высшей школы" Министерства образования и науки РФ, код проекта 15378, 2005 г.; "Развитие компьютерных технологий исследования статистических закономерностей" (контракт № 2005-РИ-19.0/002/091, 2005 г.) и "Применение компьютерных технологий исследования статистических закономерностей в задачах оценивания и различения близких гипотез о виде и свойствах распределений случайных величин" (контракт № 2006-РИ-19.0/001/119, 2006 г.), ФЦНТП "Исследования и разработки по приоритетным направлениям развития науки и техники" на 2002-2006 годы по разделу "Проведение научных исследований молодыми учеными"; "Расширение прикладных возможностей классических методов математической статистики", грант Российского фонда фундаментальных исследований, № 06-01-00059.
Публикации. По теме диссертации опубликовано 13 печатных работ. Из них 1 научная статья в рецензируемом журнале, входящем в перечень ВАК РФ; 2 - в сборниках научных трудов, 10 - материалы конференций (5 - международных, 5 - российских). В конце автореферата приведен список основных работ. Структура работы. Диссертация состоит из введения, 6 глав основного содержания и заключения, включает 51 таблицу, 50 рисунков и приложения. Общий объем основной части диссертации - 193 страниц, список литературы содержит 138 наименований.
Заключение диссертация на тему "Исследование распределений статистик дисперсионного анализа в условиях нарушения предположений нормальности"
выводы
1. В соответствии с целями диссертационной работы разработана программная система, которая позволяет идентифицировать распределения статистик критериев дисперсионного анализа посредством моделирования.
2. На примерах реальных данных технического и медицинского характера показана возможность использования разработанного программного обеспечения для исследования статистик дисперсионного анализа в некоторых конкретных ситуациях, наблюдающихся на практике.
3. Показано, что такие особенности, как несбалансированность и наличие пропусков данных может привести к неустойчивости критериев проверки гипотез о «средних», к нарушению предположений нормальности.
ЗАКЛЮЧЕНИЕ
В соответствии с целями исследований получены следующие результаты:
1. Методами статистического моделирования исследовано распределение статистики, используемой в моделях с постоянными уровнями факторов при проверке гипотез о «средних». Показано, что распределение статистики устойчиво к существенным отклонениям распределения ошибок наблюдения от нормального закона.
2. Показано, что сильная неоднородность наблюдений по дисперсиям может приводить к отклонению распределения статистики критерия отношения правдоподобия от соответствующего распределения Фишера. Неоднородность по распределению (при однородности дисперсий) не оказывает существенного влияния.
3. Впервые показано, что устойчивость Т-метода к нарушению предположений нормальности зависит от числа уровней факторов. Для ряда значений числа уровней фактора и числа наблюдений на каждом уровне построены модели распределения статистики при различных законах ошибок наблюдения.
4. Показано, что распределение статистики критерия Хартли неустойчиво к отклонениям закона распределения наблюдений от нормального. Для ряда значений числа уровней фактора и числа наблюдений на каждом уровне построены модели распределения статистики при различных законах распределения ошибок наблюдения.
5. Экспериментально исследовано поведение распределения статистики Шеффе при нарушении предположения нормальности. Впервые показано, что, несмотря на устойчивость распределения статистики критерия к нарушению предположений нормальности, вид закона распределения наблюдений влияет на объем выборки, начиная с которого можно применять соответствующее распределение Фишера в качестве распределения статистики критерия.
6. Показано, что мощность критерия Шеффе существенно зависит от вида разбиения наблюдений на подвыборки. Закон распределения ошибок наблюдений также влияет на мощность критерия. Даны рекомендации по выбору подразбиения, обеспечивающего максимальную мощность при соблюдении необходимого уровня согласия эмпирического распределения статистики с соответствующим распределением Фишера.
7. Проведен сравнительный анализ мощности критериев однородности Хартли и Шеффе в нормальном случае. Проведено сравнение мощности данных критериев с мощностью других критериев однородности дисперсий.
8. Проведено экспериментальное исследование критериев, используемых для проверки гипотез о дисперсиях в моделях случайных компонент. Показано, что распределения статистик данных критериев неустойчивы к нарушению предположений нормальности. Исключение составляют случаи проверки гипотез о равенстве нулю дисперсии случайного фактора. Для различных сочетаний законов ошибок измерений и уровней случайного фактора по ряду значений I, J и 00 построены модели распределений статистики, используемой в однофакторной модели.
9. Впервые показано, что модели распределений статистики, полученные в случае однофакторной модели, могут использоваться в качестве моделей распределений статистик в соответствующей двухфакторной модели при условии, что распределение соответствующих статистик в однофакторной и двухфакторной моделях при выполнении предположений нормальности одно и то же.
Полученные результаты расширяют сферу корректного применения методов классического дисперсионного анализа в приложениях.
Полученные результаты и разработанное программное обеспечение используется при проведении научных исследований, может использоваться при решении различных прикладных задач. Разработанное программное обеспечение было использовано при анализе медицинских данных, рассматриваемых в рамках подготовки двух кандидатских и одной докторской диссертации, что подтверждается актами о внедрении.
Библиография Волкова, Виктория Михайловна, диссертация по теме Теоретические основы информатики
1. Chandra М., Singpurwalla N.D., Stephens М.А. Statistics for test of fit for the Ex-trem-Value and Weibull distribution // J. Am. Statist. Assoc. 1981. - Vol. 76. - P. 375.
2. Deshpande J.V., Gore A.P., Shanubhogue A. Statistical analysis of nonnormal data. -N.-Y.: «JOHN WILEY & SONS», 1995. 245 p.
3. Dunnett C.W. A multiple comparison procedure for comparing several treatments with a control. // J. Amer. Statist. Assoc. 1955. - № 50. - P. 1096-1121.
4. Eisenhart C. The assumptions underlying the analysis of variance. Biomertics. -1947. -№3.- P. 1-21.
5. Fisher R.A. The desing of experiments. 2nd ed. Edinburgh; London: Oliver and Boyd, 1937.-269 p.
6. Hartley H.O. The maximum F-ratio as a short cut test for heterogeneity of variance. // Biometrika. 1950. - № 37. - P. 308-312.
7. Hartley H.O., Rao J.N.K. Maximum likelihood estimatin for the mixed analysis of variance models. Biometrica.- 1967.-v.54.-№1-2.-P. 93-108.
8. Keuls M. The use of the Studentized range in connection with an analysis of variance. //Euphytica. 1952.- № 1.-P. 112-122.
9. Koch. A general approach to the estimation of. variance components. -Technometrics. Vol. 9. -№1. 1967. P. 93-118.
10. Lumley Т., Diehr P., Emerson S. The importance of the normality assumption in large public health data sets // Annual Review of Public Health. 2002. - Vol. 23. -P. 151-169.
11. Newman D. The distribution of the range in samples from normal population, expressed in terms of an independent estimate of standard deviation. // Biometrika. -1939.-№31.-P. 20-30.
12. Pachares J. Table of the upper 10% points of the Studentized range. // Biometrika. 1959.-№46. -P. 461-466.
13. Patterson H.D., Thompson R. MLE of variance. // Biometrika. 1971. - Vol. 58. -P. 545-554.
14. Pearson E.S., Hartley H.O. Biometrica tables for Statistics. Cambridge: University Press, 1972. - Vol. 2. - 634 p.
15. Rao C.R., Kleffe J. Estimation of variance components and applications. N.Y.: 1988.-374 p.
16. Rao C.R., Mitra S.K. Generalized inverse of matrices and Its. Applications. N.Y.: Wiley, 1971.-256 p.
17. SAS/STAT. User's guide release 6.03 edition. Cary: SAS Inst. Inc., 1988. -1028 p.
18. SearleS.R. Linear models.- 1971.-532 p.
19. Stein P.G., Matey J.R., Pitts K. A review of statistical software for the Apple Macintosh // The American Statistician. 1997. - Vol. 32, № 1. - p. 67-82.
20. Stephens M.A. EDF statistics for goodness of fit and some comparisons // J. Am. Statist. Assoc. 1974. - Vol. 69. - P. 730-737.
21. Stephens M.A. Use of Kolmogorov-Smirnov, Cramer-von Mises and related statistics without extensive table // J. R. Stat. Soc. - 1970. - Vol. 32. - P. 115-122.
22. Student. Errors of routine analysis.//Biometrika. 1927.-№ 19.-P. 151-164.
23. Yates F. The design and analysis factorial experiments. Imp. Bur. Soil. Techn. Commun.- 1937.-№5.
24. Адлер Ю.П., Маркова E.B., Грановский Ю.В. Планирование эксперимента при поиске оптимальных условий. М.: Наука, 1976. - 279 с.
25. Айвазян С.А. Программное обеспечение персональных ЭВМ по статистическому анализу данных (проблемы, тенденции, перспективы отечественныхразработок) // Заводская лаборатория. Диагностика материалов. 1991. - Т. 57, № 1. - С. 54-58.
26. Айвазян С.А. Программное обеспечение персональных ЭВМ по статистическому анализу данных // Компьютер и экономика: экономические проблемы компьютеризации общества. М.: Наука, 1991. - С. 91-107.
27. Айвазян С.А., Енюков И.С., Мешалкин JI. Д. Прикладная статистика: Исследование зависимостей. М.: Финансы и статистика, 1985. - 487 с.
28. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983.-471 с.
29. Айвазян С.А., Мхитарян В. Прикладная статистика и основы эконометрики. Учебник для вузов. М.: ЮНИТИ, 1998. - 1022 с.
30. Александров А.Д., Алексеев А.И., Горский Н.Д. Анализ данных на ЭВМ (на примере системы СИТО). М.: Финансы и статистика, 1990. - 192 с.
31. Архангельский А. Программирование в С++ Builder 6. М.: Бином, 2002. -1152 с.
32. Асатурян В.И. Теория планирования эксперимента: Учеб. пособие для втузов. М.: Радио и связь, 1983 - 248 с.
33. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Пер. с анг. М.: Мир, 1982. - 488 с.
34. Болыиев J1.H., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983.-416 с.
35. Браунли К.А. Статистические исследования в производстве. М.: Изд-во иностр. лит., 1949.-228 с.
36. Бродский В.З. Введение в факторное планирование эксперимента. М.: Наука, 1976.-233 с.
37. Бусленко Н.П., Шрейдер Ю.А. Метод статистических испытаний Монте-Карло и его реализация в цифровых машинах. -М.: Физматгиз, 1961. -266 с.
38. Векслер JI.C. Статистический анализ на персональном компьютере // Мир ПК.- 1992.- №2.-С. 89-97.
39. Гандмахер Ф.Р. Теория матриц. М.: Наука, 1977.
40. Гланц С. Медико-биологическая статистика. М.: Практика, 1998. - 459 с.
41. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. -М. Прогресс, 1979.-496 с.
42. Губарев В.В. Вероятностные модели: Справочник в 2-х ч.// Ново-сиб. элек-тротехн. ин-т. Новосибирск, 1992. - 422 с.
43. Денисов В.И. Математическое обеспечение системы ЭВМ-экспериментатор (регрессионный и дисперсионный анализы). -М.: Наука, 1977.-251 с.
44. Денисов В.И., Лемешко Б.Ю., Постовалов С. Н. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим.Методические рекомендации. Часть I. Критерии типа % . -Новосибирск: Изд-во НГТУ, 1998. 126 с.
45. Денисов В.И., Лисицин Д.В. Планирование эксперимента с учетом появления пропусков в данных // Научный вестник НГТУ. Новосибирск, 2004. - № 1(16). - С. 53-61.
46. Денисов В.И., Полетаева И.А., Хабаров В.И. Экспертная система для анализа много факторных объектов. Дисперсионный анализ. Прецедентный подход. -Новосибирск, 1992. 103 с.
47. Денисов В.И., Попов А.А. Пакет программ оптимального планирования эксперимента. М.: Финансы и статистика, 1986. - 156 с.
48. Джонсон Н., Лион Ф. Статистика и планирование эксперимента в технике и науке. -М.: Мир, Т. 1, 1980.-610 е., Т.2, 1981.-520 с.
49. Дрейпер Н., Смит Н. Прикладной регрессионный анализ. М.: Статистика, 1973.-392 с.
50. Дэниел К. Применение статистики в промышленном эксперименте. М.: Мир, 1979.-299 с.
51. Ермаков С.М. Метод Монте-Карло и смежные вопросы. М.: Наука, 1975. -471 с.
52. Ермаков С.М., Михайлов Г.А. Курс статистического моделирования. М.: Наука, 1976.-320 с.
53. Ермаков С.М., Михайлов Г.А. Статистическое моделирование. М.: Наука, 1982.-296 с.
54. Загоруйко Н.Г. Анализ данных и анализ знаний // Анализ последовательностей и таблиц данных. Вып. 150: Вычислительные системы. Новосибирск: 1994.-С. 3-17.
55. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Ин-та математики, 1999. - 270 с.
56. Закс JI. Статистическое оценивание. М.: Статистика, 1976. - 598 с.
57. Кемени Д., Снелл Д. Кибернетическое моделирование. М.: Сов. радио. -1972.- 192 с.
58. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. М.: Наука, 1976. - 736 с.
59. Компьютерные методы исследований статистических закономерностей / Б.Ю. Лемешко, С.Н. Постовалов, С.С. Помадин и др. // Тезисы докладов всероссийской НТК «Информационные системы и технологии ИСТ-2001». Нижний Новгород: 2001. - С. 87-89.
60. Крамер Г. Математические методы статистики. М.; Мир, 1975. - 648 с.
61. Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981. - 157 с.
62. Лбов Г.С., Старцева Н.Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск: Изд-во Ин-та математики, 1999.-212 с.
63. Лемешко Б.Ю. Компьютерные методы исследований статистических закономерностей // Сб. «Моделирование, автоматизация и оптимизация наукоемких технологий». Новосибирск: Изд-во НГТУ, 2000. - С. 18-19.
64. Лемешко Б.Ю. Статистический анализ одномерных наблюдений случайных величин: Программная система. Новосибирск: Издательство НГТУ, 1995.125 с.
65. Лемешко Б.Ю., Гильдебрант С.Я., Постовалов С.Н. К оцениванию параметров надежности по цензурированным выборкам // Заводская лаборатория. Диагностика материалов. 2001. - Т. 67, № 1. - С. 52-64.
66. Лемешко Б.Ю., Лемешко С.Б. О сходимости распределений статистик и мощности критериев однородности Смирнова и Лемана-Розенблатта // Измерительная техника. 2005. № 12. - С. 9-14.
67. Лемешко Б.Ю., Лемешко С.Б. Сравнительный анализ критериев проверки отклонения распределения от нормального закона // Метрология. 2005. № 2. - С. 3-24.
68. Лемешко Б.Ю., Миркин Е.П. Критерии Бартлетта и Кокрена в измерительных задачах при вероятностных законах, отличающихся от нормального // Измерительная техника. 2004.-№ 10.-С. 10-16.
69. Лемешко Б.Ю., Помадин С.С. Корреляционный анализ наблюдений многомерных случайных величин при нарушении предположений о нормальности // Сибирский журнал индустриальной математики. 2002. - Т. 5, № 3(11). -С. 115-130.
70. Лемешко Б.Ю., Помадин С.С. Проверка гипотез о математических ожиданиях и дисперсиях в задачах метрологии и контроля качества при вероятностных законах, отличающихся от нормального // Метрология. 004. - № 4. - С. 3-15.
71. Лемешко, Б.Ю. Исследование распределений статистик, используемых для проверки гипотез о равенстве дисперсий при законах ошибок наблюдений, отличных от нормального / Б.Ю. Лемешко, В.М. Пономаренко // Научный вестник НГТУ. -2006. -№ 2(23). С. 21-33.
72. Лемешко, Б.Ю. Проверка гипотез в моделях дисперсионного анализа со случайными факторами при нарушении предположений о нормальности / Б.Ю. Лемешко, В.М. Пономаренко // Доклады Академии наук высшей школы России. 2005. - № 2(5). - С. 26-39.
73. Лемешко Б.Ю., Постовалов С.Н. Компьютерные технологии анализа данных и исследование статистических закономерностей: учеб. пособие. Новосибирск: Изд-во НГТУ, 2004. - 120 с.
74. Лемешко Б.Ю., Постовалов С.Н. Непараметрические критерии при проверке сложных гипотез о согласии с распределениями Джонсона // Доклады СО АН ВШ. 2002.-№ 1(5). - С. 65-74.
75. Лемешко Б.Ю., Постовалов С.Н. О зависимости распределений статистик непараметрических критериев и их мощности от метода оценивания параметров // Заводская лаборатория. Диагностика материалов. 2001. - Т. 67,№7.-С. 62-71.
76. Лемешко Б.Ю., Постовалов С.Н. Прикладные аспекты использования критериев согласия в случае проверки сложных гипотез // Надежность и контроль качества. 1997. - № 11. - С. 3-17.
77. Лемешко Б.Ю., Постовалов С.Н. О распределениях статистик непараметрических критериев согласия при оценивании по выборкам параметров наблюдаемых законов // Заводская лаборатория. 1998. - Т. 64, № 3. - С. 61-72.
78. Лемешко Б.Ю., Постовалов С.Н. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Методические рекомендации. Часть И. Непараметрические критерии. Новосибирск: Изд-во НГТУ, 1999.-85 с.
79. Лемешко Б.Ю., Постовалов С.Н. Применение непараметрических критериев согласия при проверке сложных гипотез // Автометрия. 2001. - № 2. - С. 88102.
80. Лемешко Б.Ю., Чимитова Е.В. Методика компьютерного моделирования в исследовании статистических закономерностей // Тезисы докладов региональной НТК «Наука. Техника. Инновации». Т. 2. - НТИ-2001, 2001. -С. 46-48.
81. Лемешко Б.Ю., Чимитова Е.В. Оптимальные L-оценки параметров сдвига и масштаба распределений по выборочным квантилям // Заводская лаборатория. Диагностика материалов. 2004. - Т. 70, № 1. - С. 54-66.
82. Лемешко Б.Ю., Чимитова Е.В. Построение оптимальных L-оценок параметров сдвига и масштаба распределений по выборочным квантилям // Сибирский журнал индустриальной математики. 2001. - Т. 4, № 2. - С. 166-183.
83. Леонов В.П., Ижевский П.В. Применение статистики в медицине и биологии: анализ публикаций 1990-1997 гг. // Сибирский медицинский журнал. 1997. -№ 3-4. - С. 64-74.
84. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учебник. 7-е изд., испр. - М.: Дело, 2005. - 504 с.
85. Малхотра, Нэреш К. Маркетинговые исследования. Практическое руководство, 3-е издание.: Пер. с англ. М.: Издательский дом "Вильяме", 2003. -960 с.
86. Маркова Е.В., Денисов В.И., Полетаева И.А., Пономарев В.В. Дисперсионный анализ и синтез планов на ЭВМ. М.: Наука, 1982. - 195 с.
87. Маркова Е.В., Лисенков А.Н. Комбинаторные планы в задачах многофакторного эксперимента. М.: Наука, 1979. - 345 с.
88. Маркова Е.В., Новиков А.С. //Вопросы кибернетики. Статистические методы в теории обеспечения эксплуатации. 1982. - С. 28-49.
89. Маркова Е.В., Новиков А.С. Анализ компонент дисперсии специфика, модели, виды оценок. // Заводская лаборатория - Т.50, №7. - С. 40-45.
90. Маркова Е.В., Новиков А.С. Проблемы алгоритмического обеспечения анализа компонент дисперсии //Вопросы кибернетики. Статистические методы в теории обеспечения эксплуатации. 1982. - С. 45-71.
91. Миттаг Х.-Й., Ринне X. Статистические методы обеспечения качества. М.: Машиностроение. 1995. -600 с.
92. Налимов В.В., Голикова Т.И. Логические основания планирования эксперимента.-М.: Металлургия, 1981.- 151с.
93. Налимов В.В., Чернова Н.А. Статистические методы планирования экстремальных экспериментов. М.: Наука, 1965. - 340 с.
94. Новиков Д.А., Новочадов В.В. Статистические методы в медико-биологическом эксперименте (типовые случаи). Волгоград: Издательство ВолГМУ, 2005. 84 с.
95. Орлов А.И. Некоторые нерешенные вопросы в области математических методов исследования // Заводская лаборатория. Диагностика материалов. -2002.-Т. 68, N2 3.-С. 52-56.
96. Орлов А.И. О современных проблемах внедрения прикладной статистики и других статистических методов // Заводская лаборатория. Диагностика материалов. 1992. - Т. 58., № 1. - С. 67-74.
97. Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат // Заводская лаборатория. Диагностика материалов.- 1985.-Т. 51, № 1.- С. 60-62.
98. Орлов А.И. Часто ли распределение результатов наблюдений является нормальным? // Заводская лаборатория. Диагностика материалов. 1991. - Т. 57,№7.-С. 64-66.
99. Ш.Орлов А.И. Эконометрика: Учеб. пособ. для вузов / А.И. Орлов М.: Издательство «Экзамен», 2002. - 576 с.
100. Петрович М.П., Давидович М.И. Статистическое оценивание и проверка гипотез на ЭВМ. М.: Финансы и статистика. - 1989. - 192 с.
101. Полетаева И.А. Математическое обеспечение дисперсионного анализа и планирования экспериментов с качественными факторами. Диссертация на соискание уч.степени к.т.н., Новосибирск, 1979. 186 с.
102. Пономаренко, В.М. Влияние метода оценивания параметров модели на свойства оценок ФДО в условиях нарушения предположений о нормальности / В.М. Пономаренко // Сборник научных трудов НГТУ. 2004. - № 1(35). - С. 35-40.
103. Попов А.А. Оптимальное планирование эксперимента в задачах структурной и параметрической идентификации моделей многофакторных систем): Авто-реф. дисс. д-ра тех. наук. / НГТУ. Новосибирск: 1997. - 39 с.
104. Р 50.1.033-2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. М.: Изд-во стандартов, 2002. - 87 с.
105. Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть И. Непараметрические критерии. М.: Изд-во стандартов, 2002. - 64 с.
106. Рао С.Р. Линейные статистические методы и их применения. Пер. с анг. М.: Наука, 1968.-548 с.
107. Романовский В.И. Математическая статистика. Кн. 2. Оперативные методы математической статистики. Ташкент: Изд-во АН УзССР, 1963. - 794 с.
108. Рыжов П.А. Математическая статистика в горном деле. Учебное пособие для вузов спец. «Маркшейдерское дело». М.: Высшая школа, 1973. - 287 с.
109. Себер Дж. Линейный регрессионный анализ. М.: Мир, 1980. - 456 с.
110. Сергиенко В.И., Бондарева И.Б. Математическая статистика в клинических исследованиях. М.: ГЭОТАР-МЕД, 2001. - 256 с.
111. Сидоренко Е.В. Методы математической обработки в психологии. СПб.: ООО "Речь", 2002. - 350 с.
112. Соболь И.М. Численные методы. -М.: Наука, 1973.-312 с.
113. Статистические и математические системы // Каталог «Тысячи программных продуктов». 1995. - № 2. - С. 88-92.
114. Страуструпп Б. Язык программирования С++. М.: 1991 - 348 с.
115. Тьюки Д.У. Анализ результатов наблюдений / Под ред. В. Э. Фигурнова. -М.: Мир, 1981.-693 с.
116. Тюрин Ю.Н. Исследования по непараметрической статистике (непараметрические методы и линейная модель): Автореф. дисс. д-ра физ.-мат. наук. / МГУ.-М., 1985.-33 с.
117. Тюрин Ю.Н. О предельном распределении статистик Колмогорова-Смирнова для сложной гипотезы // Изв. АН СССР. Сер. Матем. 1984. - Т. 48, № 6. - С. 1314-1343.
118. Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. -М.: ИНФРА-М, 1998.-528 с.
119. Тюрин Ю.Н., Саввушкина Н.Е. Критерии согласия для распределения Вейбулла-Гнеденко // Изв. АН СССР. Сер. Техн. Кибернетика. 1984. - № 3. -С. 109-112.
120. Фадцеенков А.В. Исследование алгоритмов оценивания параметров и проверки статистических гипотез в моделях компонент дисперсии // Сб. научных трудов НГТУ.-Новосибирск, 1999. №1 (14). С. 148-156.
121. Федоров В.В. Теория оптимального эксперимента. -М.: Наука, 1971. 182 с.
122. Хикс Ч. Основные принципы планирования эксперимента. М.: Мир,1967. -406 с.
123. Хьютсон. А. Дисперсионный анализ. -М.: Статистика, 1971. 230 с.
124. Шеффе Г. Дисперсионный анализ. М.: Физматгиз, 1980. - 512 с.
-
Похожие работы
- Математические модели и методы статистического анализа случайных показателей, имеющих распределение, отличное от нормального
- Исследование свойств некоторых критериев проверки статистических гипотез и обеспечение корректности их применения методами компьютерного моделирования
- Разработка и исследование метода нормализации клинических данных
- Модели многомерного статистического контроля технологического процесса в условиях нарушения нормальности распределения анализируемых показателей
- Применение компьютерного моделирования для расширения прикладных возможностей классических методов проверки статистических гипотез
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность