автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Исследование распределений статистик многомерного анализа данных при нарушении предположений о нормальности
Автореферат диссертации по теме "Исследование распределений статистик многомерного анализа данных при нарушении предположений о нормальности"
На правах рукописи
Помадин Сергей Сергеевич
ИССЛЕДОВАНИЕ РАСПРЕДЕЛЕНИЙ СТАТИСТИК МНОГОМЕРНОГО АНАЛИЗА ДАННЫХ ПРИ НАРУШЕНИИ ПРЕДПОЛОЖЕНИЙ О НОРМАЛЬНОСТИ
Специальность 05.13.17 —теоретические основы информатики
Автореферат диссертации на соискание ученой степени кандидата технических наук
Новосибирск - 2004
Работа выполнена в Новосибирском государственном техническом
университете
Научный руководитель: доктор технических наук, профессор
Лемешко Борис Юрьевич
Официальные оппоненты:
доктор технических наук, профессор Загоруйко Николай Григорьевич
Ведущая организация
кандидат технических наук, доцент Никитина Надежда Шагабановна
Сибирский государственный научно-исследовательский институт метрологии, г. Новосибирск
Защита состоится 29 сентября 2004 г. в 12 часов на заседании диссертационного совета Д 212.173.06 при Новосибирском государственном техническом университете по адресу 630092, г. Новосибирск, пр. К. Маркса, 20.
С диссертацией можно ознакомиться в библиотеке Новосибирского государственного технического университета.
Автореферат разослан "25" августа 2004 г.
Ученый секретарь диссертационного совета Д 212.173.06
Чубич В.М.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследований. Актуальность и эффективность применения аппарата многомерного статистического анализа в различных областях знания (экономика, биология, медицина и т.д.) подчеркивает множество работ, например, таких авторов как С. А. Айвазян, И. С. Енюков, Л. Д. Ме-шалкин, Б. Болч, С. А. Дубровский, И. И. Елисеева, В. П. Леонов. В то же время в практике статистического анализа возникает существенно больше постановок задач, чем предлагается решений в классической математической статистике. Например, разнообразие статистических гипотез, выдвигаемых в процессе статистического анализа в различных приложениях, оказывается существенно шире предлагаемого классическим аппаратом. Классический аппарат включает в себя ограниченный перечень задач проверки статистических гипотез, для которых найдены предельные распределения статистик, используемых в соответствующих критериях. Поэтому классические результаты оказываются применимыми при выполнении достаточно строгих предположений, которые на практике часто не имеют места.
Таким образом, можно говорить о наличии в математической статистике множества «пробелов», которые чаще всего связаны с проверкой разного рода статистических гипотез. В таких случаях вопрос обычно упирается в необходимость нахождения предельного распределения статистики построенного критерия или распределения статистики при заданном объеме выборки. Как правило, нахождение предельного закона для статистики критерия проверки конкретной гипотезы аналитическими методами оказывается чрезвычайно сложной задачей, а задач, требующих разрешения, — слишком много.
Можно констатировать, что количество и уровень сложности задач, выдвигаемых практикой, возрастают настолько быстро, что ресурсы человеческого интеллекта, его производительность просто не в состоянии обеспечить решение такого множества задач без создания и использования соответствующих вычислительных технологий.
В связи с бурным развитием и внедрением персональных компьютеров, особую актуальность приобретает задача обеспечения высокого качества пакетов прикладных статистических программ. Несмотря на то, что, рынок насыщен пакетами программных систем статистического анализа, реализуемые в них методы и алгоритмы сильно отстают от последних достижений в области статистических исследований.
Перспективы развития программного обеспечения по статистическому анализу данных и проблемы применения в нем современных достижений прикладной статистики поднимались в работах А. Афифи, С. А. Айвазяна, Л. С. Векслера, Ю. Н. Тюрина, А. А. Макарова. Расширяющееся использование компьютеров и их совершенствование в свою очередь отражается на
развитии статистических методов и их использовании в приложениях.
Вышесказанное подчеркивает необходимость развития компьютерных методов исследования статистических закономерностей, свойств оценок и статистик различных критериев проверки статистических гипотез, построения вероятностных моделей для исследуемых закономерностей. Компьютерные методы позволяют с меньшими интеллектуальными затратами получать фундаментальные знания в области математической статистики и, следовательно, в дальнейшем осуществлять корректные статистические выводы при анализе данных в различных прикладных областях.
В последние годы при исследовании некоторых задач математической и прикладной статистики благодаря применению методов компьютерного моделирования получен целый ряд результатов. Накопленный в данной области опыт показал, что с использованием методов статистического моделирования и последующего анализа можно получать результаты по точности не уступающие аналитическим. В этой связи появилась обоснованная уверенность, что с использованием данного подхода можно закрывать многие существующие в прикладной статистике «пробелы», применяя относительно простой вычислительный и математический аппарат.
При построении систем статистического моделирования центральным элементом является датчик, генерирующий псевдослучайные числа по равномерному закону. Вопросы реализации датчиков псевдослучайных величин, проверки их качества, генерации псевдослучайных векторов рассматривались в работах С. М, Ермакова, Г. А. Михайлова, Г. В. Рыдановой.
В различных приложениях статистического анализа многомерных случайных величин одну из ключевых позиций занимают задачи корреляционного анализа. В процессе решения задач корреляционного анализа выявляется наличие и характер взаимосвязи величин, взаимозависимости величин при устранении влияния совокупности других или зависимости одной случайной величины от группы величин. Вычисляются оценки коэффициентов и матриц парной, частной и множественной корреляции, проверяются различные статистические гипотезы относительно параметров многомерного распределения и коэффициентов корреляции. На основании результатов корреляционного анализа может делаться вывод о наличии и характере функциональной зависимости или предпочтительности для описания исследуемого объекта регрессионной модели того или иного вида.
В основе существующего аппарата корреляционного анализа лежит предположение о принадлежности наблюдаемого случайного вектора многомерному нормальному закону. Базируясь на этом, получены предельные распределения статистик, используемых в критериях многомерного анализа, которые можно найти в работах таких авторов как Т. W. Anderson, M Kendall, A. Stuart, R. A. Fisher, А. К. Gayen, H. Hotelling, S. S. Wilks.
Данное предположение приводит к ограничению области применения классического корреляционного анализа, так как на практике, исследователь далеко не всегда имеет дело с нормальным законом, что подчеркивается в работах А. И. Орлова, В. П. Леонова, С. А. Айвазяна, В. Н. Тамашевич. В тоже время многие исследователи либо вообще не придают значения проверке этого важного предположения корреляционного анализа, либо вынуждены «в силу обстоятельств» считать, что работают с многомерными величинами, имеющими нормальное распределение.
Естественно, возникает вопрос о справедливости выводов, получаемых на основании применения методов классического корреляционного анализа при нарушении основного предположения. В доступной литературе ответ на данный вопрос найден не был, хотя, например, в работах R. С Geary, А. К. Gayen, U. Zackrisson можно найти указания на робастность некоторых критериев, применяемых в многомерном анализе.
Цель данной диссертационной работы заключалась в выяснении того, что будет происходить с распределениями различных статистик корреляционного анализа, если наблюдаемый закон будет отличаться от многомерного нормального.
Немаловажно и то, что большинство наиболее весомых результатов в математической статистике имеет асимптотический характер. На практике же всегда имеют дело с ограниченными объемами наблюдений. И свойства используемых статистик в таких ситуациях порой существенно отличаются от асимптотических. Не являются исключением и предельные распределения статистик корреляционного анализа, которые получены для выборок многомерных величин с объемом На практике исследователю важно знать конечные объемы выборок, начиная с которых можно пользоваться найденными предельными законами. Поэтому в процессе проводимых исследований можно оценить объемы выборок, которые могут быть рекомендованы как достаточные для принятия корректного решения по соответствующему критерию корреляционного анализа.
Очевидно, что ответить на поставленные вопросы, используя аналитические методы, чрезвычайно сложно из-за нетривиальности возникающих задач. Поэтому в основу проводимого исследования положена развиваемая методика компьютерного моделирования и анализа статистических закономерностей.
Цели и задачи исследований. Основной целью диссертационной работы является исследование поведения законов распределений статистик многомерного анализа в случае принадлежности наблюдаемых случайных величин многомерным законам распределения, отличным от нормального.
Для достижения поставленной цели было предусмотрено решение следующих задач:
- исследование эмпирических распределений статистик корреляционного анализа в случае многомерного нормального закона для подтверждения классических результатов и выявления скорости сходимости распределений к соответствующим предельным;
- моделирование многомерных законов, отличных от нормального, с заданными вектором математических ожиданий, ковариационной матрицей и задаваемой мерой отклонения от нормального;
- исследование распределений статистик, используемых при проверке гипотез о векторе математических ожиданий и ковариационной матрице, в случае многомерных законов, отличающихся от нормального;
- исследование распределений статистик, используемых при проверке гипотез о парном, частном и множественном коэффициентах корреляции, в случае многомерных законов, отличающихся от нормального;
- исследование влияния способов группирования и количества интервалов на оценку корреляционного отношения, исследование критериев, используемых при проверке гипотез о корреляционном отношении;
- исследование критериев проверки гипотез о математическом ожидании и дисперсии в одномерном случае при наблюдениях, не подчиняющихся нормальному закону.
Методы исследования. Для решения поставленных задач использовался аппарат теории вероятностей, математической статистики, вычислительной математики, математического программирования, статистического моделирования.
Научная новизна диссертационной работы заключается в:
- результатах исследования распределений статистик многомерного анализа данных при нарушении предположений о нормальном законе многомерных случайных величин;
- результатах исследования распределений статистик критериев, используемых при проверке гипотез о математическом ожидании и дисперсии, в случае принадлежности наблюдений семейству симметричных распределений;
- методе моделирования многомерных случайных величин по законам, заданным образом отличающимся от нормального.
Основные положения, выносимые на защиту.
1. Результаты исследования сходимости распределений статистик многомерного анализа к предельным распределениям в зависимости от объема выборки при наблюдаемом нормальном законе случайных векторов.
2. Подход и алгоритм моделирования многомерного закона распределения, отличающегося от нормального, с заданными вектором математических ожиданий и ковариационной матрицей.
3. Результаты исследований распределений статистик многомерного анализа для ситуаций, когда наблюдаемый многомерный закон отличается от нормального.
4. Результаты исследований распределений статистик критериев, используемых для проверки гипотез о математическом ожидании и дисперсии.
Практическая ценность и реализация результатов. Результаты исследования распределений статистик классического корреляционного анализа позволяют существенно расширить сферу корректного применения ряда критериев на многомерные законы, в достаточно широких пределах отличающиеся от нормального (более островершинных или более плосковершинных). Для законов такого вида показано, что распределения статистик, используемых в критериях проверки гипотез о векторе математических ожиданий и о нулевых значениях парного, частного и множественного коэффициентов корреляции, по-прежнему хорошо описываются классическими предельными распределениями. В случае других исследуемых критериев выявлена явная зависимость от наблюдаемого многомерного закона. Предложен метод моделирования многомерных случайных векторов с задаваемым параметром отклонения от многомерного нормального закона. Разработанное программное обеспечение позволяет моделировать распределения статистик при различных многомерных законах, при необходимости находить приближения процентных точек или строить приближенные аналитические модели распределений статистик.
Апробация работы. Основные результаты исследований докладывались на межвузовской НТК «Интеллектуальный потенциал Сибири» (Новосибирск, 2000); Российской НТК «Информатика и проблемы телекоммуникаций» (Новосибирск, 2000, 2001, 2002, 2003, 2004); V и VI международных конференциях «Актуальные проблемы электронного приборостроения АП-ЭП» (Новосибирск, 2000, 2002); Региональной НТК студентов, аспирантов, молодых ученых «Наука. Техника. Инновации» (Новосибирск, 2001); Всероссийской НТК «Информационные системы и технологии» (Нижний Новгород, 2001, 2004); региональной конференции с международным участием «Вероятностные идеи в науке и философии» (Новосибирск, 2003). Исследования по теме диссертации были поддержаны грантом Минобразования РФ (проект № А0З-2.8-280), вошли составной частью в работы, поддержанные Российским фондом фундаментальных исследований (проект № 00-01-00913) и грантом Минобразования РФ (проект № Т02-3.3-3356).
Публикации. По теме диссертации опубликовано 16 печатных работ. В конце реферата приведен список 8 публикаций, в которых отражены основные результаты исследований.
Структура работы. Диссертация состоит из введения, 6 глав основного содержания, включая 11 таблиц и 48 рисунков, заключения, списка использованных источников (124 наименования) и приложения.
7
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Первая глава содержит основные определения и теоремы, на которых базируется классический аппарат корреляционного анализа. Рассмотрены проблемы моделирования многомерных псевдослучайных величин. Приводимые теоремы сформулированы в предположении о принадлежности наблюдаемого случайного вектора многомерному нормальному закону, при котором получены предельные распределения статистик, используемых в критериях классического корреляционного анализа.
Основные обозначения, используемые в работе:
А'1, Х%----,Хп — выборка из п наблюдений т-мерного случайного вектора;
М = [М,1™=1 — математическое ожидание случайного вектора X; £ = — ковариационная матрица случайного вектора X;
г1} — парный коэффициент корреляции между компонентами X, и X, случайного вектора
ТгзМ.-.т — частный коэффициент корреляции между компонентами X, и Xj случайного вектора X при исключении влияния компонент
г, |+1.. т — множественный коэффициент корреляции между X, и множеством компонент Хц.1,...,Хт случайного вектора X; ру — корреляционное отношение компоненты X, по Х} случайного вектора X;
М и £ — несмещенные оценки максимального правдоподобия (ОМП) математического ожидания и ковариационной матрицы;
г,3 г, .....т и — ОМП соответствующих величин.
Для проверки гипотезы вида 7/о : М = Мо в зависимости от априорной информации могут использоваться различные критерии.
1. Ковариационная матрица £ известна. В этом случае вычисляется ста-
Х1 = П(М-М^ТЪ-Х(М-М0), (1)
которая при справедливой гипотезе #о в качестве предельного распределения имеетх^аспределение, с числом степеней свободы тп.
2. Ковариационная матрица Е неизвестна. Тогда в критерии проверки гипотезы используется статистика
Т =
п(п — тп) тп{п — 1)
(М-МоГЕ'ЧМ-Мо).
(2)
которая при справедливости гипотезы в пределе подчиняется распределению Фишера с параметрами ткп — т: С(Т2|#о) = го*
В критериях проверки гипотез вида Нп : Е = Ео используются следующие статистики.
1. Если проверяется гипотеза //0 : Е = Е0 (математическое ожидание М0 неизвестно), то вычисляется статистика
где
Ьх = 77ш(1пп — 1) - п1п |ВЕо Ч + Ь (БЕд1) .
(3)
«=1
При справедливости гипотезы Щ данная статистика имеет х1-распределение с числом степеней свободы т(тп + 1)/2: С(1/1|#о) =
*"т(т+Х)/2'
2. Если проверяется гипотеза Но : Е = Ео, М = Мо. то используется статистика
Ь2 = тп(1пп- 1) -пЬ^Е^Ч +1г (^о1) +
+
п(м-Мо) Ео^М-Л/о)
(4)
которая при справедливой гипотезе Но в качестве предельного распределения С(Ьг\Щ) имеет Хт(т+1)/2+т " распределение, с числом степеней свободы т(гп + 1)/2 + т. В классическом корреляционном анализе относительно парного коэффициента корреляции могут проверяться два вида гипотез: о значимости коэффициента корреляции (Но : гу = 0) и о равенстве его номинальному значению (Но : гХ} = г0).
1. В критерии проверки гипотезы Но : гу = 0 используется статистика
г =
(5)
которая при справедливости гипотезы Но имеет в качестве предельного распределение Стьюдента с п — 2 степенями свободы: (7((|//о) = ¿п-2-2. В случае проверки гипотезы Щ : т,3 — го вычисляется статистика
которая при справедливости гипотезы Но в качестве предельного распределения С(го|#о) имеет стандартный нормальный закон N(0,1).
При проверке гипотез относительно частных коэффициентов корреляции
вида #0 : Гу/+].....ш = 0 и Яи : 1....,т = г0 используются аналогичные
статистики и 2ц, что и для парного коэффициента корреляции. Но в данном случае в соответствующих соотношениях л заменяется на п — т + 1.
Для проверки гипотезы о значимости множественного коэффициента корреляции #о : г,- ¡+1.....т = 0 вычисляется статистика
п — т + I — 1
.....т
т — I
' г-1+1.....т
(7)
предельным распределением С7(.Р|Яо) которой является —рас-
пределение Фишера с параметрами т — I и п~ тп +1 — 1.
Относительно корреляционного отношения могут проверяться два вида гипотез: о равенстве корреляционного отношения нулю (Я0 : ру = 0) и о равенстве корреляционного отношения квадрату коэффициента корреляции (Н0 : — г^ — критерий линейности регрессии по Х}).
1. В критерии проверки гипотезы Я0 : р^ = 0 используется статистика
п — к
Я
к —11-
,2 '
(8)
которая при справедливой гипотезе Но имеет распределение Фишера с числом степеней свободы к — 1 и п - к: =
2. При проверке гипотезы Яо : = г^ вычисляется статистика
к-2 1-%
(9)
которая при справедливой гипотезе Яо имеет /'—распределение Фишера с числом степеней свободы к — 2ип — к: С(Рг|Яо) = .п-к-Как уже говорилось, на практике предпосылки классического корреляционного анализа выполняются далеко не всегда. Что делать в случае, когда исследователь сталкивается с многомерным законом, который не является нормальным?
С практической точки зрения интересен вопрос о степени корректности выводов, формируемых на основании применения конкретных процедур классического корреляционного анализа, в случае нарушения основного предположения. Насколько корректны будут выводы статистического анализа, если истинная модель многомерного закона в той или иной мере отличается от нормального, и как такое отличие влияет на распределения исследуемых статистик?
Вторая глава содержит исследования, целью которых явилось стремление установить, что происходит с распределениями статистик, используемых в критериях проверки гипотез о математических ожиданиях и дисперсиях в одномерном случае (#о : у. = ^ и Hq : а2 = а^), если наблюдаемый закон в той или иной мере отличается от нормального; проверить, насколько будут корректны статистические выводы, базирующиеся на классических результатах, если нарушено предположение о нормальности; дать в руки исследователя необходимый математический аппарат, обеспечивающий корректность выводов при законах распределения, существенно отличающихся от нормального.
Проведенные в главе численные исследования подтвердили теоретические результаты, приведенные в работах М. Кендалла и А. Стьюарта об устойчивости к отклонениям наблюдаемого закона от нормального распределений статистик, используемых в критериях проверки гипотез о математических ожиданиях, и неустойчивости распределений статистик, используемых в критериях проверки гипотез о дисперсиях. При выполнении предположения о нормальности наблюдаемого закона эмпирические распределения статистик критериев проверки гипотез о математических ожиданиях и дисперсиях хорошо согласуются с предельными.
Это позволяет на практике корректно применять классические результаты при проверке гипотез о математическом ожидании в случае наблюдения законов, существенно отличающихся от нормального. В то же время, как предполагалось, распределения статистик, используемых в критериях проверки гипотез о дисперсиях, очень существенно зависят от вида наблюдаемого закона. Если наблюдаемый закон значимо отличается от нормального, использование классических результатов для данных критериев недопустимо, так как такая попытка неизбежно приведет к некорректным выводам.
Для тех ситуаций, когда хорошей моделью для наблюдаемых случайных величин оказывается семейство распределений с плотностью
'^'»^'■щщ-Нж)] (10)
и параметром формы Л, для статистик критериев проверки гипотез вида при известном и неизвестном математическом ожидании были построены таблицы процентных точек.
В третьей главе методами компьютерного моделирования исследуются распределения статистик критериев проверки гипотез о векторе математических ожиданий и ковариационной матрице при наблюдении случайных величин, подчиняющихся различным многомерным законам.
На первом этапе методами статистического моделирования исследовались распределения статистик корреляционного анализа при условии, что наблю-
дения принадлежат многомерному нормальному закону. Результаты исследования эмпирических распределений статистик, используемых в критериях проверки гипотез о векторе математических ожиданий и ковариационной матрице, при псевдослучайных величинах, подчиняющихся многомерному нормальному закону, показали, что они хорошо согласуются с теоретическими предельными распределениями, полученными в классическом корреляционном анализе, и подтвердили эффективность методики исследований.
Далее проводились исследования распределений статистик для законов многомерных величин, моделируемых в соответствии с предложенной и описанной в главе 6 процедурой. Процедура моделирования опирается на семейство распределений (10) и позволяет генерировать псевдослучайные векторы, подчиняющиеся многомерным симметричным законам, более островершинным (А < 2) или более плосковершин^МЭДпо сравнению с нормальным законом. Исследования были проведены при значениях параметра А > 1.
На рис. 1 показан вид распределения статистики (1) Хт(А) в случае закона, смоделированного при параметре А = 1., Высокие достигнутые уровни значимости по критериям согласия х2 Пирсона, Колмогорова, ш2 и П2 Мизе-са, приведенные на рисунке, и визуальная близость полученного эмпирического распределения статистики Х£,(А) и предельного в случае многомерного нормального закона х2 —распределения, позволяют утверждать, что вид предельного распределения статистики значимо не изменился.
Напротив, используемые в критериях проверки гипотез о ковариационной матрице статистики существенно зависят от наблюдаемого много-
мерного закона. Например, из представленной на рис. 2 картины очевид-
но, что эмпирические распределения статистики ¿1(А), смоделированные при значении параметра формы 1 и 10 семейства (10), существенно отличаются от предельного распределения статистики Ь1, полученного в случае принадлежности наблюдений многомерному нормальному закону. Это согласуется с полученными результатами при моделировании распределений аналогичных статистик в одномерном случае (при проверке гипотез вида Но : а1 = а^). Для распределений статистик были найдены аналитические
модели законов, описывающие распределения этих статистик при определенных значениях размерности т и параметре формы А. При необходимости аналогичные аналитические модели могут быть построены для любых интересующих нас значений параметров т и
Отметим, что при исследовании не было выявлено существенного влияния размерности случайного вектора т на сходимость распределений соответствующих статистик к предельным. Исследования проводились для размерности случайного вектора в диапазоне
Четвертая глава содержит результаты исследования распределений статистик, применяемых в критериях проверки гипотез о парном, частном и множественном коэффициентах корреляции.
Исследования эмпирических распределений статистик, используемых в критериях проверки гипотез о парных, частных и множественных коэффициентах корреляции, при псевдослучайных величинах, подчиняющихся многомерному нормальному закону, показали, что они хорошо согласуются с теоретическими предельными распределениями, полученными в классическом
о.оо
-3.00 -2.25 -1.50 -0.75 0.С0 0.75 1.50 2.25 3.00
Рис. 3. Теоретическая и эмпирические функции распределения статистики (5) при.проверке гипотезы Но : г,} — 0, построенных с использованием ОМП и робастных оценок (11) парного коэффициента корреляции: п = 30
корреляционном анализе.
Известно, что ОМП парного коэффициента корреляции, вычисляемая по негруппированным данным, не является устойчивой по отношению к нарушению предположения о нормальности распределения. Различные робастные аналоги оценки коэффициента приведены в работах В. Р. Пасмана, Г. Л. Шев-лякова. Например, одна из таких оценок имеет вид .
где — медиана компоненты X, случайного вектора X, вычисленная
по выборке
Нами показано, что использование робастной оценки (11) в статистике (5) приводит к явному изменению распределения статистики, что отражено на рисунке 3. Это говорит о том, что применяя критерии проверки гипотез о парном коэффициенте корреляции, следует использовать оценки по методам, указанным при построении критериев: в данном случае — по методу максимального правдоподобия.
Исследования распределений статистик, используемых в критериях проверки гипотез о равенстве нулевому значению парного, частного и множественного коэффициентов корреляции, в случае многомерных законов, отличающихся от нормального в достаточно широких пределах, показали, что
т {[Хь - т{Х,,}][Х^ - т{Хц})}
(П)
121^/2'
Ote, (Л) I Я.)
3.00 .2.00 -1.00 0.00 1.00 2.00 - 3.00
Рис. 4. Эмпирические распределения статистики ¿о(А), построенные для проверки гипотез на равенство коэффициента парной корреляции различным значениям, и классическое предельное ЛГ(0,1)—распределение статистики (6)
значимого изменения предельных распределений статистик не происходит. Эмпирические распределения данных статистик по-прежнему хорошо описываются предельными законами, полученными в классическом корреляционном анализе в предположении о нормальности наблюдаемого вектора. Это раздвигает границы корректного применения методов классического корреляционного анализа при проверке гипотез о нулевых значениях парного, частного и множественного коэффициентов корреляции.
В классическом случае распределение статистики (6) критерия проверки гипотез о равенстве парного или частного коэффициента корреляции заданному значению в пределе стремится к стандартному нормальному закону и не зависит от значения коэффициента корреляции. В то же время распределение статистик очень чувствительны к виду наблюдаемого закона. С ростом отклонения коэффициента корреляции от нулевого значения при прочих равных условиях происходит все более значимое отклонение распределения соответствующей статистики от классического предельного. При законах, отличных от нормального, и малых значениях парного (частного) коэффициента корреляции еще можно пользоваться стандартным нормальным законом как предельным для статистик го и z¡¡, но при значениях отклонения распределения статистик значимо отличаются от N(0,1). Сказанное иллюстрирует рисунок 4, на котором показано, как с увеличением абсолютного значения-коэффициента корреляции, изменяется
0,00 0.05 0.10 - 0.15 0.20 025 0.30 0.35 0.40
Рис. 5. Функции плотности распределения оценок корреляционного отношения, моделируемых при - 0, где использовалось АОГ, РИГ, РЧГ для различного числа интервалов группирования к, п= 100
распределение статистики данного критерия.
В пятой главе рассматриваются проблемы, связанные с вычислением оценки корреляционного отношения и влиянием различных способов группирования на получаемую оценку, исследуются критерии проверки гипотез о корреляционном отношении.
В диссертационной работе рассматривались три способа группирования: равноинтервальное (РИГ), равночастотное (РЧГ) и асимптотически оптимальное (АОГ). Влияние способа группирования и количества интервалов на оценку корреляционного отношения отражено на рисунке 5. Моделирование распределений р^- проводилось при р^ = 0 и объеме псевдослучайных величин п = 100. Для числа интервалов А; = 5 функции плотности оценок р^, вычисленных при различных способах группирования, совпадают. А с увеличением числа интервалов наблюдается расхождение функций плотности оценок для разных способов группирования. Например, при объеме п = 100, начиная с к = 10,. плотность распределения оценок, вычисленных при асимптотически оптимальном группировании, смещается влево относительно функций плотности оценок, вычисленных с использованием РИГ или РЧГ." Различие в распределениях оценок при РЧГ и РИГ наблюдается при п = 100, когда к > 20.
Исследование влияния способов группирования и количества интервалов на оценку корреляционного отношения показало, что оценка корреляционного отношения, прежде всего, сильно зависит от количества интервалов
группирования Как правило, уменьшение количества интервалов группирования приводит к уменьшению значений оценок корреляционного отношения, в то время как увеличение сопровождается ростом величины р\у При использовании асимптотически оптимального и равноинтервального группирования необходимо корректно выбирать число интервалов, избегая нулевых частот щ попадания в интервалы, приводящих к ухудшению свойств оценок корреляционного отношения Разбиение области определения на интервалы равной частоты показало себя как наиболее предпочтительное для вычисления оценок Р21}
Исследования распределения статистики (8), используемой в критерии проверки гипотезы вида при псевдослучайных величинах, под-
чиняющихся многомерному нормальному закону, показали, что оно хорошо согласуется с теоретическим предельным распределением, полученным в классическом корреляционном анализе. В случае многомерных законов, отличающихся от нормального в достаточно широких пределах (более островершинных или более плосковершинных), изменения предельного распределения статистики ^(А) не происходит (рис. 6). Эмпирическое распределение данной статистики по-прежнему хорошо описывается предельным законом, полученным в предположении о нормальности наблюдаемого вектора. Об этом же говорят высокие достигаемые уровни значимости при проверке согласия по критериям х2 Пирсона, Колмогорова, и2 и П2 Мизеса (рис. б).
Исследование распределений статистики (9) в случае многомерных нормальных величин показало, что распределение статистики плохо сходится
А*)
420.000
240.000
480.000
360.000
300.000
/(^Цг-бО)^ |
180.000
120.000
/(А; |*г = 30).
0.000
X
0.370 0.974 0.377 0.981 0.985 0.999 0.9Э2 0.996 1.000
Рис. 7. Функции плотности распределения оценок корреляционного отношения и квадрата парного коэффициента корреляции г^, моделируемых при линейной зависимости X; от Х}: РЧГ, п = 100
к Р*к-2.п~к—распределению. Полное исследование распределения статистики критерия,' используемого при проверке гипотезы вида Но : ру = гу, затруднено вследствие вычислительных проблем, заключающихся в том, что при линейной связи обязательное для теоретических величин соотношение ру > т^ может не выполняться для их оценок.
Возможность нарушения неравенства р^ > г^- для соответствующих оценок иллюстрирует рисунок 7, на котором представлены функции плотности квадрата оценки парного коэффициента корреляции г^ и плотности оценок корреляционного отношения р?, построенные для случая линейной зависимости X; от X] (г^ = ру = 1). При вычислении оценок корреляционного отношения использовались интервалы равной частоты при объемах выборок случайных величин п = 100. На приведенном рисунке видно, что для объема п = 100 с ростом числа интервалов группирования вероятность появления значений падает (плотности оценок «расходятся» друг от друга),
но остается положительной. Увеличение объемов выборок и числа интервалов группирования существенно не улучшает согласия между эмпирическим распределением статистики- и соответствующим предельным распределением.
В случае многомерного закона, отличного от нормального, есть основания утверждать, что распределение статистики Б2 не будет описываться Рк-г,п-к—распределением. Это следует, во-первых, из различия эмпирических распределений статистики для многомерного нормального закона
и законов, моделируемых на основе семейства распределений (10) с параметром формы А Ф 2., Во-вторых, из показанной ранее неустойчивости критерия проверки гипотез о парном коэффициенте корреляции вида к
отклонению от нормальности.
В шестой главе дано краткое описание разработанной программной системы и приведены методы моделирования псевдослучайных величин, предлагается метод моделирования многомерных случайных величин с заданным отклонением от многомерного нормального закона.
Хорошо известный алгоритм генерирования псевдослучайных нормальных векторов основан на линейном преобразовании вида
Х = А2 + М. (12)
где совокупность случайных величин = 1,тп, подчиняется стандартно-
му нормальному закону с параметрами (0, 1), а матрица А определяется из соотношения ЛЛГ = Е. Обычно полагают, что Л является нижней треугольной матрицей.
Предложена реализация процедуры моделирования многомерных величин, распределенных по законам, отличным от нормального, с некоторыми математическим ожиданием и ковариационной матрицей аналогично алгоритму, используемому для моделирования нормальных псевдослучайных векторов.
Для этой цели вместо вектора математических ожиданий М и ковариационной матрицы £ определим в качестве параметров процедуры вектор ©о и матрицу ©1. При условии, что матрица В определяется соотношением моделируемый псевдослучайный вектор будет даваться соотношением
X = В2 + ©0. (13)
где совокупность величин формируется уже не по стандартно-
му нормальному закону, а на основе некоторого одномерного распределения с нулевым математическим ожиданием и единичной дисперсией.
Для моделирования различных совокупностей {■2-,},» = 1,т, удобно использовать семейство распределений с плотностью (10) и параметром формы так как оно охватывает целый класс симметричных распределений. Частными случаями данного закона являются распределение Лапласа (при А = 1), нормальное (А = 2), а предельными — распределение Коши (А —> 0) и равномерное (А —► +оо). С помощью параметра формймы можем задавать непрерывное «удаление» моделируемого (наблюдаемого) многомерного закона от нормального, делая его более плосковершинным по сравнению с нормальным при А > 2 или более островершинным при 0 < А < 2. При А = 2 будут формироваться псевдослучайные векторы в соответствии с нормальным законом (см. рис. 8).
'(»У) 4« у) '(«V)
Рис. 8. Смоделированные плотности двумерных законов, построенных при различных значениях параметра формы: А = 1 (слева), А = 2 (в центре) и
А = 10 (справа)
В диссертационной работе показано, что заданные параметры алгоритма вектор ©о и матрица 01, используемые в процедуре моделирования вместо МиЕв случае моделирования нормальных векторов, будут также являться вектором математических ожиданий и ковариационной матрицей моделируемого многомерного закона.
Предложенная процедура не позволяет моделировать многомерный закон с произвольной функцией распределения, который находится на «заданном» расстоянии (определяемом в смысле некоторой меры) от многомерного нормального закона. Однако, при ее помощи можно генерировать псевдослучайные векторы по закону, заданным образом отличающемуся от нормального, с заданными математическим ожиданием и ковариационной матрицей. При этом описанное программное обеспечение может быть легко расширено за счет известных многомерных законов распределения, например, дополнительно была реализована и исследована процедура моделирования многомерного распределения Стьюдента.
Разработанное программное обеспечение реализует рассмотренные критерии классического корреляционного анализа, позволяет идентифицировать распределения статистик критериев через моделирование, осуществлять проверку гипотез для многомерных законов отличающихся от нормального по найденным распределениям статистик критериев.
Программное обеспечение используется в учебном процессе, а также было использовано при обработке и анализе результатов исследований в области биологии, медицины и технических приложениях.
ЗАКЛЮЧЕНИЕ
В соответствии с целями исследований на базе разработанного программного обеспечения получены следующие основные результаты:
1. Показано, что получаемые методами компьютерного моделирования эмпирические распределения статистик корреляционного анализа в случае многомерного нормального закона хорошо согласуются с классическими предельными распределениями этих статистик. Для статистик различных критериев получены оценки объемов выборок п, начиная с которых распределения соответствующих статистик хорошо согласуются с предельными.
2. Реализована универсальная процедура, позволяющая на базе семейства распределений (10) моделировать псевдослучайные величины с заданными математическим ожиданием и ковариационной матрицей, распределенные как по многомерному нормальному закону, так и по законам отличным от нормального.
3. Показано, что распределения статистик, используемых при проверке гипотез о векторе математических ожиданий, устойчивы к отклонениям многомерного закона от нормального в достаточно широких пределах: значимого изменения распределений статистик не происходит. Как в случае более островершинных по сравнению с нормальным, так и в случае более плосковершинных многомерных законах распределения данных статистик по—прежнему хорошо описываются классическими результатами, полученными в предположении о нормальности наблюдаемого вектора. Аналогичная ситуация наблюдается и в одномерном случае при проверке гипотез вида
4. Показано, что распределения статистик критериев, используемых при проверке гипотез о ковариационной матрице, существенно зависят от вида наблюдаемого многомерного закона. В случае принадлежности наблюдений т—мерным законам, хорошо описываемым моделями, получаемыми в соответствии с разработанной процедурой моделирования, для распределений статистик Ь1 и Ь2 найдены аналитические модели законов, описывающие распределения этих статистик при определенных значениях размерности т и параметре формы А.
Аналогичные результаты получены в одномерном случае для критериев проверки гипотез вида при известном и неизвестном ма-
тематическом ожидании: построены модели распределений и таблицы процентных точек для соответствующих статистик в случае принадлежности наблюдений семейству распределений (10).
5. Показано, что распределения статистик критериев, используемых при проверке гипотез вида для парных, частных и множествен-
ных коэффициентов корреляции, устойчивы к отклонениям наблюдаемого многомерного закона от нормального. Эмпирические распределения данных статистик по—прежнему хорошо описываются предельными законами, полученными в предположении о нормальности наблюдаемых величин.
В то же время, в случае многомерных законов с «тяжелыми хвостами» наблюдается значимое отличие распределений статистик и Р соответствующих критериев от предельных классических
6. Используемые в критериях проверки гипотез о равенстве заданному значению парного или частного коэффициента корреляции статистики го и 2д существенно зависят от наблюдаемого многомерного закона. В то же время показано, что при |го| < 0.15 для проверки гипотез вида
можно пользоваться классическими результатами.
7. Показано, что оценка корреляционного отношения сильно зависит от количества интервалов группирования. Показано, что разбиение области определения на интервалы равной частоты является наиболее предпочтительным для вычисления оценок
8. Показано, что распределение статистики критерия проверки гипотезы вида в случае многомерного нормального закона хорошо согласуется с теоретическим предельным распределением, полученным в классическом корреляционном анализе. В случае многомерных законов, отличающихся от нормального в достаточно широких пределах (более островершинных или более плосковершинных), изменения предельного распределения статистики F1 не происходит.
Показаны вычислительные проблемы, возникающие при проверке гипотез вида и плохая сходимость распределения статистики F2 к предельному.
Полученные результаты расширяют сферу корректного применения методов классического многомерного анализа в приложениях.
СПИСОК ПУБЛИКАЦИЙ
1. Лемешко Б. Ю., Помадин С. С. Исследование распределений статистик корреляционного анализа при отклонении многомерного закона от нормального // Материалы V международной конференции «Актуальные проблемы электронного приборостроения» АПЭП-2000. — Т. 7.— Новосибирск: 2000. - С. 184-187.
2. Лемешко Б. Ю., Помадин С. С. Корреляционный анализ наблюдений многомерных случайных величин при нарушении предположений о нормальности // Сибирский журнал индустриальной математики — 2002.— Т. 5, №3(11).-С. 115-130.
3. Лемешко Б. Ю., Помадин С. С. Распределения статистик корреляционного анализа при отклонении многомерного закона от нормального // Материалы VI международной конференции «Актуальные проблемы электронного приборостроения» АПЭП-2002. — Т. 6. — Новосибирск: 2002. — С. 32-35.
4. Лемешко Б. Ю., Помадин С. С. Исследование распределений статистик, используемых при проверке гипотез о математическом ожидании и дисперсии, в случае принадлежности наблюдаемых величин экспоненциальному семейству распределений // Материалы региональной конференции «Вероятностные идеи в науке и философии». — Новосибирск: 2003. — С. 102-105.
5. Помадин С. С. К проверке гипотез о математических ожиданиях и дисперсиях при законах, отличающихся от нормального // Сборник научных трудов НГТУ. - 2003. - № 4(34). - С. 41-46.
6. Лемешко Б. Ю., Помадин С. С. Корреляционный анализ многомерных случайных величин при нарушении предположений о нормальности // Труды 10-го юбилейного симпозиума по непараметрическим и робастным статистическим методам в кибернетике.— Томск: 2004. — С. 114-128.
7. Лемешко Б. Ю., Помадин С. С. Исследование распределений статистик, используемых при проверке гипотез о ковариационных матрицах, при наблюдаемых законах, отличных от нормального // Тезисы докладов МНТК «Информатика и проблемы телекоммуникаций»,— Т. 1.— Новосибирск: 2004.-С. 130-132.
8. Лемешко Б. Ю., Помадин С. С. Проверка гипотез о математических ожиданиях и дисперсиях в задачах метрологии и контроля качества при вероятностных законах, отличающихся от нормального // Метрология. — 2004. - № 4. - С. 3-15.
Подписано в печать Д?.08.2004 г. Формат 60 х 84 х 1/16 Бумага офсетная. Тираж 100 экз. Печ. л. 1,5. Заказ №
Отпечатано в типографии Новосибирского государственного технического университета 630092, г. Новосибирск, пр. К.Маркса, 20
»15869
Оглавление автор диссертации — кандидата технических наук Помадин, Сергей Сергеевич
Введение
ГЛАВА 1. Постановка задач исследования
1.1. Основные понятия и определения.
1.2. Задачи корреляционного анализа.
1.2.1. Критерии проверки гипотез о векторе математических ожиданий и ковариационной матрице.
1.2.2. Критерии проверки гипотез о коэффициентах корреляции
1.2.3. Критерии проверки гипотез о корреляционном отношении
1.3. Цели исследования распределений статистик корреляционного анализа при нарушении предположения о нормальности.
1.4. Проблемы моделирования многомерных псевдослучайных величин
1.5. Выводы
ГЛАВА 2. Исследование критериев проверки гипотез о математических ожиданиях и дисперсиях при вероятностных законах, отличающихся от нормального
2.1. Классические критерии проверки гипотез о математических ожиданиях и дисперсиях
2.2. Распределения статистик 71, Т2, ТА при нарушении предположений о нормальности.
2.3. Выводы.
ГЛАВА 3. Исследование критериев проверки гипотез о векторе математических ожиданий и ковариационной матрице
3.1. Классические критерии проверки гипотез о векторе математических ожиданий и ковариационной матрице.
3.1.1. Проверка гипотез о векторе математических ожиданий.
3.1.2. Проверка гипотез о ковариационной матрице.
3.2. Исследование распределений статистик критериев в случае принадлежности наблюдений нормальному закону
3.3. Исследование распределений статистик при законах, отличающихся от нормального
3.4. Уточнение моделей распределений статистик рассматриваемых критериев
3.5. Выводы.
ГЛАВА 4. Исследование критериев проверки гипотез о коэффициентах корреляции
4.1. Классические критерии проверки гипотез о коэффициентах корреляции
4.1.1. Проверка гипотез о коэффициентах парной корреляции.
4.1.2. Проверка гипотез о коэффициентах частной корреляции
4.1.3. Проверка гипотезы о коэффициенте множественной корреляции
4.2. Исследование распределений статистик критериев для различных многомерных законов.
4.2.1. В случае принадлежности наблюдений многомерному нормальному закону.
4.2.2. В случае принадлежности наблюдений многомерным законам, моделируемым на основе семейства симметричных распределений
4.2.3. Случай принадлежности наблюдений многомерному закону Стьюдента.
4.3. Выводы.
ГЛАВА 5. Исследование критериев проверки гипотез о корреляционном отношении
5.1. Классические критерии проверки гипотез о корреляционном отношении
5.2. Влияние различных способов группирования и количества интервалов на оценку корреляционного отношения.
5.3. Исследование распределений статистики критерия проверки гипотезы о незначимости корреляционного отношения.
5.4. Исследование распределений статистики критерия линейности регрессии Xi по Xj
5.5. Выводы
ГЛАВА 6. Описание программной системы
6.1. Общая характеристика программной системы
6.2. Краткое описание интерфейса программной системы.
6.2.1. Основная программа.
6.2.2. Вспомогательная программа.
6.3. Моделирование псевдослучайных величин.
6.3.1. Моделирование одномерных распределений.
6.3.2. Моделирование псевдослучайных нормальных векторов
6.3.3. Моделирование многомерных величин по законам, отличным от нормального.
6.3.4. Моделирование псевдослучайных векторов, подчиняющихся многомерному распределению Стьюдента
6.3.5. Моделирование функциональной линейной зависимости между Х{иХу.
6.4. Пример использования программной системы при обработке данных в медицине.
6.5. Выводы.
Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Помадин, Сергей Сергеевич
Современное состояние и актуальность темы исследований. Существует множество работ по многомерному статистическому анализу [13,31,36,44, 45,47,94,95,108,114], содержание которых указывает на актуальность и эффективность применения соответствующего математического аппарата в различных областях знаний, таких как экономика, биология и медицина. При этом в практике статистического анализа возникает существенно больше постановок задач, чем предлагается решений в классической математической статистике [101]. Разнообразие статистических гипотез, выдвигаемых в процессе статистического анализа в различных приложениях, оказывается существенно шире предлагаемого классическим аппаратом. Классический аппарат включает в себя ограниченный перечень задач проверки статистических гипотез, для которых найдены предельные распределения статистик, используемых в соответствующих критериях. Поэтому классические результаты оказываются применимыми при выполнении достаточно строгих предположений, которые на практике часто не имеют места.
С другой стороны, для обнаружения закономерных связей можно использовать аппарат анализа данных [53,54,63,64], когда рассматриваемые объекты представляются как «черные ящики». В данном случае на анализируемые данные не накладываются какие—либо строгие ограничения. Но применение такого подхода обычно привязано к определенному классу задач, например, распознавание образов, и поэтому далеко не всегда удается использовать методы анализа данных в растущем множестве различных статистических задач.
Таким образом, можно говорить о наличии в математической статистике множества «пробелов», которые чаще всего связаны с проверкой разного рода статистических гипотез. В этом случае вопрос обычно упирается в необходимость нахождения предельного распределения статистики построенного критерия или распределения статистики при заданном объеме выборки» Как правило, нахождение предельного закона для статистики критерия проверки конкретной гипотезы аналитическими методами оказывается чрезвычайно сложной задачей, а задач, требующих разрешения, — слишком много [124].
В большинстве случаев отсутствие необходимых теоретических результатов объясняется сложностью и трудоемкостью получения решений аналитическими методами. Можно констатировать, что количество и уровень сложности задач, выдвигаемых практикой, возрастают настолько быстро, что ресурсы человеческого интеллекта, его производительность просто не в состоянии обеспечить решение такого множества задач без создания и использования соответствующих вычислительных технологий.
Сегодня в связи с бурным развитием и внедрением персональных компьютеров, особую актуальность приобретает задача обеспечения высокого качества пакетов прикладных статистических программ. Несмотря на то, что, рынок насыщен различными пакетами программных систем статистического анализа [22,115], реализуемые в них методы и алгоритмы сильно отстают от последних достижений в области статистических исследований. С одной стороны это объясняется, прежде всего, тем, что подробное описание последних результатов исследований очень сложно отыскать в литературных источниках, поэтому они остаются труднодоступными для разработчиков программного обеспечения. К сожалению, с другой стороны необходимо отметить и то, что в некоторых работах встречаются ошибки применения статистических методов [98], что также не облегчает быстрое внедрение новых методов в программные пакеты.
Перспективы программного обеспечения по статистическому анализу данных обсуждались в работах [27-30,38], современные проблемы внедрения прикладной статистики поднимались в [100]. Расширяющиеся использование ЭВМ и их совершенствование в свою очередь отражается на развитии статистических методов и использовании статистических методов в приложениях [14,32,35,42,48,56,65,104,109,116,120].
Вышесказанное подчеркивает необходимость (а практика уже показывает возможность [61,67,81,82,86,89,90]) развития компьютерных методов исследования статистических закономерностей, компьютерных методов исследования свойств оценок и статистик различных критериев проверки статистических гипотез, построения вероятностных моделей для исследуемых закономерностей. Это позволяет с меньшими интеллектуальными затратами получать фундаментальные знания в области математической статистики, и, следовательно, осуществлять корректные статистические выводы при анализе данных в различных прикладных областях.
В последние годы при исследовании некоторых задач математической и прикладной статистики получено множество результатов, связанных с исследованием распределений статистик критериев согласия в случае проверки простых и сложных гипотез [84,86-88], с исследованием статистических свойств различных оценок [69,91], полученных как раз благодаря применению методов компьютерного моделирования. Накопленный опыт в данной области показал, что с использованием методов статистического моделирования и последующего анализа можно получать результаты по точности не уступающие аналитическим. Например, при оценивании параметров распределений некоторых законов в случаях проверки сложных гипотез с использованием методов статистического моделирования, когда наиболее часто применяют метод Монте-Карло [37,49,51,52,113], были получены таблицы процентных точек для предельных распределений статистик непараметрических критериев [5,17,23,24,117-119,121]. В этой связи появилась обоснованная уверенность, что с использованием данного подхода можно закрывать многие существующие в прикладной статистике «пробелы», применяя относительно простой вычислительный и математический аппарат.
В различных приложениях статистического анализа многомерных случайных величин одну из ключевых позиций занимают задачи корреляционного анализа [122]. В процессе решения задач корреляционного анализа выявляется наличие и характер взаимосвязи величин, взаимозависимости величин при устранении влияния совокупности других или зависимости одной случайной величины от группы величин. Вычисляются оценки коэффициентов и матриц парной, частной и множественной корреляции, проверяются различные статистические гипотезы относительно параметров многомерного распределения и коэффициентов корреляции. На основании результатов корреляционного анализа может делаться вывод о наличии и характере функциональной зависимости или предпочтительности для описания исследуемого объекта регрессионной модели того или иного вида.
В основе существующего аппарата корреляционного анализа лежит предположение о принадлежности наблюдаемого случайного вектора многомерному нормальному закону. Базируясь на этом, получены предельные распределения статистик, используемых в критериях многомерного анализа [2,16,33,57-59].
На практике, исследователь далеко не всегда имеет дело с нормальным законом [16,94,99]. Как правило, многие исследователи вообще не придают значения проверке этого важного предположения корреляционного анализа, либо они вынуждены «в силу обстоятельств» работать только с многомерными величинами, имеющим нормальное распределение, как это сделано в работах [31,114]. Например, в нашей жизни достаточно мало экономических процессов, отклонения которых распределены по нормальному закону. Поэтому данное ограничение приводит к сужению области применения корреляционного анализа в экономике. Естественно, возникает вопрос о справедливости выводов, получаемых на основании результатов корреляционного анализа при нарушении основного предположения. В доступной литературе ответ на данный вопрос найден не был, хотя можно найти указания на робастность некоторых критериев, применяемых в многомерном анализе.
Целью данной диссертационной работы явилось стремление разобраться, что будет происходить с распределениями различных статистик корреляционного анализа, если наблюдаемый закон будет отличаться от многомерного нормального.
Немаловажен и такой аспект. Большинство наиболее весомых результатов в математической статистике имеет асимптотический характер. На практике же всегда имеют дело с ограниченными объемами наблюдений. И свойства используемых статистик в таких ситуациях порой существенно отличаются от асимптотических. Не являются исключением и предельные распределения статистик корреляционного анализа, которые получены для выборок многомерных величин с объемом п —► оо [2,33,57,58]. На практике исследователю важно знать конечные объемы выборок, начиная с которых можно пользоваться найденными предельными законами. Поэтому в процессе проводимых исследований можно оценить объемы выборок, которые могут быть рекомендованы как достаточные для принятия правильного решения по соответствующему критерию корреляционного анализа.
Очевидно, что ответить на поставленные вопросы, используя аналитические методы, чрезвычайно сложно из-за нетривиальности возникающих задач. Поэтому в основу проводимого исследования положена развиваемая на кафедре прикладной математики НГТУ методика компьютерного моделирования и анализа статистических закономерностей.
Цели и задачи исследований. Основной целью диссертационной работы является исследование поведения (предельных) законов распределений статистик многомерного анализа в случае принадлежности наблюдаемых случайных величин многомерным законам распределения, отличным от нормального.
Для достижения поставленной цели было предусмотрено решение следующих задач:
- исследование эмпирических распределений статистик корреляционного анализа в случае многомерного нормального закона для подтверждения теоретических результатов и выявления скорости сходимости распределений к соответствующим предельным;
- моделирование многомерных законов, отличных от нормального, с заданными вектором математических ожиданий, ковариационной матрицей и задаваемой мерой отклонения от нормального;
- исследование распределений статистик, используемых при проверке гипотез о векторе математических ожиданий и ковариационной матрице, в случае многомерных законов, отличающихся от нормального;
- исследование распределений статистик, используемых при проверке гипотез о парном, частном и множественном коэффициентах корреляции, в случае многомерных законов, отличающихся от нормального;
- исследование влияния способов группирования и количества интервалов на оценку корреляционного отношения, исследование критериев, используемых при проверке гипотез о корреляционном отношении;
- исследование критериев проверки гипотез о математическом ожидании и дисперсии в одномерном случае при наблюдениях, не подчиняющихся нормальному закону.
Методы исследования. Для решения поставленных задач использовался аппарат теории вероятностей, математической статистики, вычислительной математики, математического программирования, статистического моделирования.
Научная новизна диссертационной работы заключается в:
- результатах исследования распределений статистик многомерного анализа данных при нарушении предположений о нормальном законе многомерных случайных величин;
- результатах исследования распределений статистик критериев, используемых при проверке гипотез о математическом ожидании и дисперсии, в случае принадлежности наблюдений семейству симметричных распределений;
- методе моделирования многомерных случайных величин по законам, заданным образом отличающихся от нормального.
Основные положения, выносимые на защиту.
1. Результаты исследования сходимости распределений статистик многомерного анализа к предельным распределениям в зависимости от объема выборки при наблюдаемом нормальном законе случайных векторов.
2. Подход и алгоритм моделирования многомерного закона распределения, отличающегося от нормального, с заданными вектором математических ожиданий и ковариационной матрицей.
3. Результаты исследований распределений статистик многомерного анализа для ситуаций, когда наблюдаемый многомерный закон отличается от нормального.
4. Результаты исследований распределений статистик критериев, используемых для проверки гипотез о математическом ожидании и дисперсии.
Практическая ценность и реализация результатов. Результаты исследования распределений статистик классического корреляционного анализа позволяют существенно расширить сферу корректного применения ряда критериев на многомерные законы, в достаточно широких пределах отличающиеся от нормального (более островершинных или более плосковершинных). Для законов такого вида показано, что распределения статистик, используемых в критериях проверки гипотез о векторе математических ожиданий и о нулевых значениях парного, частного и множественного коэффициентов корреляции, по-прежнему хорошо описываются классическими предельными распределениями. В случае других исследуемых критериев выявлена явная зависимость от наблюдаемого многомерного закона. Предложен метод моделирования многомерных случайных векторов с задаваемым параметром отклонения от многомерного нормального закона.
Апробация работы. Основные результаты исследований докладывались на Новосибирской межвузовской НТК «Интеллектуальный потенциал Сибири» (Новосибирск, 2000); Российской НТК «Информатика и проблемы телекоммуникаций» (Новосибирск, 2000, 2001, 2002, 2003, 2004); V международной конференции «Актуальные проблемы электронного приборостроения АПЭП-2000» (Новосибирск, 2000); Региональной НТК студентов, аспирантов, молодых ученых «Наука. Техника. Инновации» (Новосибирск, 2001); Всероссийской НТК «Информационные системы и технологии ИСТ-2001» (Нижний Новгород, 2001); VI международной конференции «Актуальные проблемы электронного приборостроения АПЭП-2002» (Новосибирск, 2002); Региональной конференции «Вероятностные идеи в науке и философии» (Новосибирск, 2003); всероссийской НТК «Информационные системы и технологии ИСТ-2004» (Нижний Новгород, 2004). Исследования по теме диссертации были поддержаны грантом Минобразования РФ (проект № А03-2.8-280), вошли составной частью в работы, поддержанные Российским фондом фундаментальных исследований (проект № 00-01-00913) и грантом Минобразования РФ (проект № Т02-3.3-3356).
Публикации. По теме диссертации опубликовано 16 печатных работ. Среди которых 8 публикаций отражают основные результаты исследований.
Структура работы. Диссертация состоит из введения, 6 глав основного содержания, включая 11 таблиц и 48 рисунков, заключения, списка использованных источников и приложения.
Заключение диссертация на тему "Исследование распределений статистик многомерного анализа данных при нарушении предположений о нормальности"
6.5. Выводы
1. В соответствии с целями диссертационной работы разработана программная система, которая реализует рассмотренные критерии классического корреляционного анализа, позволяет идентифицировать распределения статистик критериев через моделирование, осуществлять проверку гипотез для многомерных законов отличающихся от нормального по найденным распределениям статистик критериев.
2. В результате предложенного изменения метода моделирования псевдослучайных нормальных векторов реализована универсальная процедура, позволяющая на базе одномерного распределения моделировать многомерные псевдослучайные величины с заданными вектором математических ожиданий и ковариационной матрицей.
Для исследований выбрано семейство распределений (6.4), позволяющее моделировать псевдослучайные величины, подчиненные как многомерному нормальному закону (параметр формы = 2), так и по закону отличному от нормального. Это было подтверждено численными исследованиями, в том числе маргинальных функций распределения моделируемых многомерных законов.
3. Реализована процедура моделирования псевдослучайных векторов, подчиняющихся га—мерному распределению Стьюдента с р степенями свободы, с заданными вектором математических ожиданий и ковариационной матрицей.
Разработанная программная система была использована Илюшенко А. Е.
55] для расчета коэффициентов межвидовой сопряженности 4х-польной матрицы для массива данных в диссертационной работе на соискание ученой степени кандидата биологических наук «Группировки почвенных водорослей сосновых фитоценозов в режиме рекреационной нагрузки».
В диссертационной работе на соискание ученой степени кандидата медицинских наук Вихман Е. А. «Некоторые особенности изолированной систолической артериальной гипертензии у мужчин пожилого возраста» программная система применялась для уточнения наличия связей и их характера при рассмотрении показателей периферической, центральной гемодинамики, данных метаболизма у пациентов с изолированной систолической артериальной ги-пертензией пожилого возраста.
Программное обеспечение используется на факультете прикладной математики и информатики НГТУ при проведении лабораторных работ по курсу «Компьютерные технологии анализа данных и исследования статистических закономерностей» по специальности 010200 —прикладная математика и информатика, результаты исследований закономерностей многомерного анализа при нарушении предположений включены в курс «Методы статистического анализа», читаемых по направлению магистерской подготовки 510200 —прикладная математика и информатика.
ЗАКЛЮЧЕНИЕ
В соответствии с целями исследований на базе разработанного программного обеспечения получены следующие основные результаты:
1. Показано, что получаемые методами компьютерного моделирования эмпирические распределения статистик корреляционного анализа в случае многомерного нормального закона хорошо согласуются с классическими предельными распределениями этих статистик. Для статистик различных критериев получены оценки объемов выборок п, начиная с которых распределения соответствующих статистик хорошо согласуются с предельными.
2. Реализована универсальная процедура, позволяющая на базе семейства распределений (6.4) моделировать псевдослучайные величины с заданными математическим ожиданием и ковариационной матрицей, распределенные как по многомерному нормальному закону, так и по законам отличным от нормального.
3. Показано, что распределения статистик, используемых при проверке гипотез о векторе математических ожиданий, устойчивы к отклонениям многомерного закона от нормального в достаточно широких пределах: значимого изменения распределений статистик не происходит. Как в случае более островершинных по сравнению с нормальным, так и в случае более плосковершинных многомерных законах распределения данных статистик по—прежнему хорошо описываются классическими результатами, полученными в предположении о нормальности наблюдаемого вектора. Аналогичная ситуация наблюдается и в одномерном случае при проверке гипотез вида Но : ¡л — /но.
4. Показано, что распределения статистик критериев, используемых при проверке гипотез о ковариационной матрице, существенно зависят от вида наблюдаемого многомерного закона. В случае принадлежности наблюдений тп—мерным законам, хорошо описываемым моделями, получаемыми в соответствии с разработанной процедурой моделирования, для распределений статистик L\ и Ь2 найдены аналитические модели законов, описывающие распределения этих статистик при определенных значениях размерности га и параметре формы Л.
Аналогичные результаты получены в одномерном случае для критериев проверки гипотез вида #0 : а2 = Oq при известном и неизвестном математическом ожидании: построены модели распределений и таблицы процентных точек для соответствующих статистик в случае принадлежности наблюдений семейству распределений (6.4).
5. Показано, что распределения статистик критериев, используемых при проверке гипотез вида Hq : г^ = 0 для парных, частных и множественных коэффициентов корреляции, устойчивы к отклонениям наблюдаемого многомерного закона от нормального. Эмпирические распределения данных статистик по—прежнему хорошо описываются предельными законами, полученными в предположении о нормальности наблюдаемых величин.
В то же время, в случае многомерных законов с «тяжелыми хвостами» наблюдается значимое отличие распределений статистик t, tp и F соответствующих критериев от предельных классических.
6. Используемые в критериях проверки гипотез о равенстве заданному значению парного или частного коэффициента корреляции статистики; zq и Zq существенно зависят от наблюдаемого многомерного закона. В то же время показано, что при |го| < 0.15 для проверки гипотез вида Hq : Tij = го можно пользоваться классическими результатами.
7. Показано, что оценка корреляционного отношения сильно зависит от количества интервалов группирования. Показано, что разбиение области определения на интервалы равной частоты является наиболее предпочтительным для вычисления оценок р2^.
8. Показано, что распределение статистики критерия проверки гипотезы вида Но pfj = 0 в случае многомерного нормального закона хорошо согласуется с теоретическим предельным распределением, полученным в классическом корреляционном анализе. В случае многомерных законов, отличающихся от нормального в достаточно широких пределах (более островершинных или более плосковершинных), изменения предельного распределения статистики ^ не происходит.
Показаны вычислительные проблемы, возникающие при проверке гипотез вида Но : р^ = г?, и плохая сходимость распределения статистики к предельному.
Полученные результаты расширяют сферу корректного применения методов классического многомерного анализа в приложениях. Разработанное программное обеспечение используется при проведении научных исследований и в учебном процессе.
Библиография Помадин, Сергей Сергеевич, диссертация по теме Теоретические основы информатики
1. Alqallaf F. A., Konis К. P., Martin R. D. Scalable robust covariance and correlation estimates for data mining // Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. 2002. - Pp. 14-23.
2. Anderson T. W. An Introduction to Multivariate Statistical Analysis. — Third edition. — Wiley-Interscience, 2003. — 752 pp.
3. Bose R. C, Roy S. N. The exact distribution of the studentized D2-statistic // Sankhya. 1938. - Vol. 4. - Pp. 19-38.
4. Bose R. C., Roy S. N. The use and distribution of the studentized D2-statistic, when the variances and covariances are based on К samples // Sankhya.— 1938. Vol. 4. - Pp. 535-542.
5. Chandra M., Singpurwalla N. D., Stephens M. A. Statistics for test of fit for the Extrem-Value and Weibull distribution // J. Am. Statist. Assoc. — 1981.— Vol. 76.-P. 375.
6. Chen E. H. A random normal number generator for 32-bit-word computers // J. Am. Statist. Assoc. 1971. - Vol. 66. - Pp. 400-403.
7. Devlin S. J., Gnanadesikan R., Kettenring J. R. Robust estimation and outlier detection with correlation coefficient // Biometrika.— 1975.— Vol. 62.— Pp. 531-545.
8. Fisher R. A. The distribution of the partial correlation coefficient // Metron. — 1924. Vol. 3. - Pp. 329-332.
9. Fisher R. A. The general sampling distribution of the multiple correlation coefficient // Proc. Roy. Soc. 1928. - Vol. A121. - Pp. 654-673.
10. Gayen A. K. The frequency distribution of the Radial standard deviation // Ann. Math. Soc. 1951.-Vol. 2. - Pp. 188-202.
11. Hotelling H. A generalized T-test and measure of multivariate dispersion // Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability. — University of California Press, 1951. — Pp. 23-42.
12. Hotelling H. New light on the correlation coefficient and its transforms // J. Roy. Stat. Soc. 1953. - Vol. B 15. - Pp. 193-225.
13. Huseby J. R., Schwertman N. C., Allen D. M. Computation of the mean vector and dispersion matrix for incomplete multivariate data // Communs Statist. — 1980. Vol. 9. - Pp. 301-309.
14. Johnson M. E. Multivariate Statistical Simulation: A Guide to Selecting and Generating Continuous Multivariate. — John Wiley & Sons, 1987. — 240 pp.
15. L'Ecuyer P., Touzin R. On the Deng-Lin random number generators and related methods // Statistics and Computing. — 2004. — Vol. 14. — Pp. 5-9.
16. Lumley T., Diehr P., Emerson S. The importance of the normality assumption in large public health data sets // Annual Review of Public Health. — 2002. — Vol. 23.-Pp. 151-169.
17. Pearson E. S., Hartley H. O. Biometrica tables for Statistics. — Cambridge: University Press, 1972. — Vol. 2. — 634 pp.
18. Pearson K. On the coefficients of Racial likeness // Biometrika.— 1926,— Vol. 18.-Pp. 105-117.
19. Pearson K. Note on standardization of method using the coefficients of Racial likeness // Biometrika. 1928. - Vol. 20B. - Pp. 376-378.
20. Shevlyakov G. L. On robust estimation of a correlation coefficient // Journal of Mathematical Sciences. 1997. - Vol. 83, no. 3. - Pp. 90-94.
21. Shevlyakov G. L., Lee J. W. Robust estimators of a correlation coefficient: Monte Carlo and asymptotics // Korean Journal of Mathematical Sciences. — 1997.- Vol: 4.- Pp. 205-212.
22. Stein P. G., Matey J R., Pitts K. A review of statistical software for the Apple Macintosh // The American Statistician.— 1997.— Vol. 32, no. 1.— Pp. 67-82.
23. Stephens M. A. Use of Kolmogorov-Smirnov, Cramer-von Mises and related statistics without extensive table // J. R. Stat. Soc. — 1970.— Vol. 32.— Pp. 115-122.
24. Stephens M. A. EDF statistics for goodness of fit and some comparisons II J. Am. Statist. Assoc. — 1974. Vol. 69. - Pp. 730-737.
25. Wllks S. S. Moments and distribution of estimates of population parameters from fragmentary samples // Ann. Math. Stat. — 1932.— Vol. 3. — Pp. 163— 195.
26. Абусев P. А., Колегова H. В. Байесовские оценки для некоторых характеристик многомерного t-распределения стьюдента // Мат. межд. научн.-практ. конференции «САКС-2001». — Т. 2.— Красноярск: САА, 2001.— С. 291-292.
27. Айвазян С. А Программное обеспечение персональных ЭВМ по статистическому анализу данных // Компьютер и экономика: экономические проблемы компьютеризации общества, — М.: Наука, 1991.— С. 91-107.
28. Айвазян С. А. Программное обеспечение персональных ЭВМ по статистическому анализу данных (проблемы, тенденции, перспективы отечественных разработок) // Заводская лаборатория. Диагностика материалов.- 1991.-Т. 57, № 1.-С. 54-58.
29. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983. — 471 с.
30. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Исследование зависимостей. — М.: Финансы и статистика, 1985. — 487 с.
31. Айвазян С. А., Мхитарян В. Прикладная статистика и основы эконометрики. Учебник для вузов. М.: ЮНИТИ, 1998.- 1022 с.
32. Александров А. Д., Алексеев А. И., Горский Н. Д. Анализ данных на ЭВМ (на примере системы СИТО). — М.: Финансы и статистика, 1990. — 192 с.
33. Андерсон Т. Введение в многомерный статистический анализ. — М.: Физ-матгиз, 1963.— 500 с.
34. Архангельский А. Программирование в С++ Builder 6. — М.: Бином, 2002.- 1152 с.
35. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. М.: Мир, 1982. - 488 с.
36. Болч Б., Хуанъ К. Д. Многомерные статистические методы для экономики. — М.: Статистика, 1979. — 317 с.
37. Бусленко Н. П., Шрейдер Ю.А. Метод статистических испытаний Монте-Карло и его реализация в цифровых машинах. — М.: Физматгиз, 1961.— 266 с.
38. Векслер Л. С. Статистический анализ на персональном компьютере // Мир ПК.- 1992.- № 2. С. 89-97.
39. ГОСТ Р 50779.53-98. Приемочный контроль качества по количественному признаку для нормального распределения. Часть 1. Стандартное отклонение известно. — М.: Изд-во стандартов, 1998. — 23 с.
40. Губарев В. В. Вероятностные модели: Справочник. В 2-х ч.— Новосибирск: Изд-во НЭТИ, 1992.- Т. 2.- 188 с.
41. Губарев В. В. Вероятностные модели: Справочник. В 2-х ч. — Новосибирск: Изд-во НЭТИ, 1992.- Т. 1.- 198 с.
42. Давидович М.И., Петрович M. Л. Программное обеспечение ЭВМ: Библиотека прикладных программ БИМ. Вып. 20. (Прикладная статистика. Корреляционный анализ.). — Минск: Институт математики, АН БССР, 1989. 187 с.
43. Денисов В. И., Лемешко Б. Ю., Постовалов С. Н. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Методические рекомендации. Часть I. Критерии типа х2- — Новосибирск: Изд-во НГТУ, 1998.- 126 с.
44. Джонстон Д. Эконометрические методы. — М.: Статистика, 1980.— 446 с.
45. Дубровский С. А. Прикладной многомерный статистический анализ.— М.: Финансы и статистика, 1982. — 216 с.
46. Дьяконов В. Maple 6: учебный курс. — СПб.: Питер, 2001.— 608 с.
47. Елисеева И. И., Семенова Е. В. Основные процедуры многомерного статистического анализа. — Л.: УЭФ, 1993.— 78 с.
48. Енюков И. С. Методы, алгоритмы, программы многомерного статистического анализа: Пакет ППСА. — М.: Финансы и статистика, 1986. — 232 с.
49. Ермаков С. М. Метод Монте-Карло и смежные вопросы.— М.: Наука, 1975.-471 с.
50. Ермаков С. М. О датчиках случайных чисел // Заводская лаборатория. Диагностика материалов. — 1993. — Т. 59, № 7. — С. 48-50.
51. Ермаков С. М., Михайлов Г. А. Курс статистического моделирования. — М.: Наука, 1976.-320 с.
52. Ермаков С. М., Михайлов Г. А. Статистическое моделирование. — М.: Наука, 1982.-296 с.
53. Загоруйко Н. Г. Анализ данных и анализ знаний // Анализ последовательностей и таблиц данных. Вып. 150: Вычислительные системы. — Новосибирск: 1994.-С. 3-17.
54. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: Изд-во Ин-та математики, 1999. — 270 с.
55. Илюшенко А. Е. Группировки почвенных водорослей сосновых фитоценозов в режиме рекреационной нагрузки: Автореф. дисск-та биолог.наук. / ГУ. Н., 2003. - 21 с.
56. КемениД., СнеллД. Кибернетическое моделирование. — М.: Сов. радио,1972.- 192 с.
57. Кендалл М., Стъюарт А. Теория распределений, — М.: Наука, 1966.— 588 с.
58. Кендалл М., Стъюарт А. Статистические выводы и связи. — М.: Наука,1973.-900 с.
59. Кендалл М., Стъюарт А. Многомерный статистический анализ и временные ряды. — М.: Наука, 1976. — 736 с.
60. Кирьянов Б. Ф. К проблеме моделирования случайных векторов // Вестник НовГУ — № 3.- Новгород: 1996. С. 87-89.
61. Компьютерные методы исследований статистических закономерностей / Б. Ю. Лемешко, С. Н. Постовалов, С. С. Помадин и др. // Тезисы докладов всероссийской НТК «Информационные системы и технологии ИСТ-2001».- Нижний Новгород: 2001.- С. 87-89.
62. Куллдорф Г. Введение в теорию оценивания по группированным и частично группированным выборкам. — М.: Наука, 1966. — 176 с.
63. Лбов Г. С. Методы обработки разнотипных экспериментальных данных.— Новосибирск: Наука, 1981.— 157 с.
64. Лбов Г. С., Старцева Н. Г. Логические решающие функции и вопросы статистической устойчивости решений.— Новосибирск: Изд-во Ин-та математики, 1999. — 212 с.
65. Лемешко Б. Ю. Корреляционный анализ многомерных наблюдений случайных величин: Программная система. — Новосибирск: Изд-во НГТУ, 1995.- 39 с.
66. Лемешко Б. Ю. Статистический анализ одномерных наблюдений случайных величин: Программная система. — Новосибирск: Изд-во НГТУ, 1995.- 125 с.
67. Лемешко Б. Ю. Компьютерные методы исследований статистических закономерностей // Сб. «Моделирование, автоматизация и оптимизация наукоемких технологий». — Новосибирск: Изд-во НГТУ, 2000. — С. 1819.
68. Лемешко Б. Ю., Ванюкевич О. Н. Проверка гипотез о дисперсии при нарушении предположений о нормальности // Сб. научных трудов НГТУ. — Новосибирск: Изд-во НГТУ, 2002. № 3(29).- С. 27-32.
69. Лемешко Б. Ю., Гилъдебрант С. Я., Постовалов С. Н. К оцениванию параметров надежности по цензурированным выборкам // Заводская лаборатория. Диагностика материалов. — 2001. — Т. 67, № 1. — С. 52-64.
70. Лемешко Б. Ю., Помадин С. С. Корреляционный: анализ наблюдений многомерных случайных величин при нарушении предположений о нормальности // Сибирский журнал индустриальной математики. — 2002. — Т. 5, №3(11).-С. 115-130.
71. Лемешко Б. Ю., Помадин С. С. Проверка гипотез о математических ожиданиях и дисперсиях в задачах метрологии и контроля качества при вероятностных законах, отличающихся от нормального // Метрология. — 2004.-№4.-С. 3-15.
72. Лемешко Б. Ю:, Постовалов С. Я. О распределениях статистик непараметрических критериев согласия при оценивании по выборкам параметров наблюдаемых законов // Заводская лаборатория. — 1998. — Т. 64, № 3. — С. 61-72.
73. Лемешко Б. Ю:, Постовалов С. Н. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Методические рекомендации. Часть II. Непараметрические критерии. — Новосибирск: Изд-во НГТУ, 1999.- 85 с.
74. Лемешко Б. Ю., Постовалов С. Я. О зависимости распределений статистик непараметрических критериев и их мощности от метода оценивания параметров // Заводская лаборатория. Диагностика материалов. — 2001.- Т. 67, № 7.- С. 62-71.
75. Лемешко Б. Ю., Постовалов С. Н. Применение непараметрических критериев согласия при проверке сложных гипотез II Автометрия. — 2001. — №2.-С. 88-102.
76. Лемешко Б. Ю., Постовалов С. Н. Непараметрические критерии при проверке сложных гипотез о согласии с распределениями Джонсона // Доклады СО АН ВШ.- 2002. № 1(5).- С. 65-74.
77. Лемешко Б. Ю., Постовалов С. Я. Компьютерные технологии анализа данных и исследование статистических закономерностей: учеб. пособие. Новосибирск: Изд-во НГТУ, 2004.- 120 с.
78. Лемешко Б. Ю., Чимитова Е. В. Методика компьютерного моделирования в исследовании статистических закономерностей // Тезисы докладов региональной НТК «Наука. Техника. Инновации». — Т. 2.— НТИ-2001, 2001.-С. 46-48.
79. Лемешко Б. Ю., Чимитова Е. В. Построение оптимальных L-оценок параметров сдвига и масштаба распределений по выборочным квантилям // Сибирский журнал индустриальной математики. — 2001. — Т. 4, № 2. — С.166-183.
80. Лемешко Б. Ю., Чимитова Е. В. Оптимальные L-оценки параметров сдвига и масштаба распределений по выборочным квантилям // Заводская лаборатория. Диагностика материалов. — 2004. — Т. 70, № 1. — С. 54-66.
81. Леонов В. П., Ижевский П. В. Об использовании прикладной статистики при подготовке диссертационных работ по медицинским и биологическим специальностям // Бюллетень ВАК РФ. —1997. — № 5. — С. 56-61.
82. Леонов В. П., Ижевский П. В. Применение статистики в медицине и биологии: анализ публикаций 1990-1997 гг.// Сибирский медицинский журнал. 1997. - № 3-4. - С. 64-74.
83. Маленво Э. Статистические методы в эконометрии. — М.: Статистика, 1976.-325 с.
84. Манзон Б. М. Maple V Power Edition. — М.: Информационно-издательский дом «Филинъ», 1998. — 240 с.
85. Новицкий П. В., Зограф И. А. Оценка погрешностей результатов измерений. — JL: Энергоатомиздат, 1991. — 303 с.
86. Орлов А. И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат // Заводская лаборатория. Диагностика материалов. — 1985. — Т. 51, № 1. — С. 60-62.
87. Орлов А./f/. Часто ли распределение результатов наблюдений является нормальным? // Заводская лаборатория. Диагностика материалов. — 1991. Т. 57, № 7. - С. 64-66.
88. Орлов А. И. О современных проблемах внедрения прикладной статистики и других статистичесих методов // Заводская лаборатория. Диагностика материалов. — 1992. — Т. 58, № 1. — С. 61-1 А.
89. Орлов А. И. Некоторые нерешенные вопросы в области математических методов исследования П Заводская лаборатория. Диагностика материалов. 2002. - Т. 68, № 3. - С. 52-56.
90. Пасман В. Р., Шевляков Г. Л. Робастные методы оценивания коэффициента корреляции // Автоматика и Телемеханика. — 1987. — Т. 27, № 3. — С. 70-80.
91. Петрович M.JI. Численное исследование на ЭВМ некоторых алгоритмов прикладной статистики 7/ Заводская лаборатория. Диагностика материалов.- 1991.- Т. 57, № 7.- С. 56-64.
92. Петрович М. П., Давидович М. И. Статистическое оценивание и проверка гипотез на ЭВМ. — М.: Финансы и статистика, 1989. — 192 с.
93. Подбельский В: В. Язык Си++: Учеб. пособие. — М.: Финансы и статистика, 1995.-560 с.
94. Полляк Ю. /^ Вероятностное моделирование на электронных вычислительных машинах. — М.: Сов. радио, 1971. — 400 с.
95. Помадин С. С. К проверке гипотез о математических ожиданиях и дисперсиях при законах, отличающихся от нормального // Сборник научных трудов НГТУ. 2003. - № 4(34). - С. 41-46.
96. Райков Д. А. Многомерный математический анализ. — М.: Высшая школа, 1989.-271 с.
97. Pao С. Р. Линейные статистические методы и их применения.— М.: Наука, 1968.-548 с.
98. Рыданова Г. В. Методика изучения временных зависимостей в последовательностях случайных чисел // Заводская лаборатория. Диагностика материалов. — 1986. — Т. 52, № 1. — С. 56-58.
99. Р 50.1.033-2001. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат. — М.: Изд-во стандартов, 2002.-87 с.
100. Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. — М.: Изд-во стандартов, 2002. 64 с.
101. Соболь И. М. Численные методы. — М.: Наука, 1973. — 312 с.
102. СошниковаЛ. А., Тамашевич В. Н., УебеГ. Многомерный статистический анализ в экономике: Учеб. пособие для вузов / Под ред. В. Н. Тамаше-вича. М.: ЮНИТИ-ДАНА, 1999. - 598 с.
103. Статистические и математические системы // Каталог «Тысячи программных продуктов». — 1995. — № 2. — С. 88-92.
104. Тьюки Д. У. Анализ результатов наблюдений / Под ред. В. Э. Фигурнова.-М.: Мир, 1981.- 693 с.
105. Тюрин Ю. Н. О предельном распределении статистик Колмогорова-Смирнова для сложной гипотезы // Изв. АН СССР. Сер. Машем. — 1984.-Т. 48, №6.-С. 1314-1343.
106. Тюрин Ю. Н. Исследования по непараметрической статистике (непараметрические методы и линейная модель): Автореф. дисс. д-ра физ.-мат. наук. / МГУ. — М., 1985. — 33 с.
107. Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере. — М.: Финансы и статистика, 1995. — 384 с.
108. Тюрин Ю.Н., Макаров А. А. Статистический анализ данных на компьютере / Под ред. В. Э. Фигурнова. М.: ИНФРА, 1997. - 528 с.
109. Тюрин Ю: H., Саввушкина H. Е. Критерии согласия для распределения Вейбулла-Гнеденко // Изв. АН СССР. Сер. Техн. Кибернетика. — 1984. — № 3. — С. 109-112.
110. Ферестер Э., Ренц Б. Методы корреляционного и регрессионного анализа. — М.: Финансы и статистика, 1988. — 302 с.
111. Шметтерер Л. Введение в математическую статистику. — М.: Наука, 1976.-520 с.
112. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. — М.: Финансы и статистика, 1988. — 263 с.
-
Похожие работы
- Исследование распределений статистик дисперсионного анализа в условиях нарушения предположений нормальности
- Математические модели и методы статистического анализа случайных показателей, имеющих распределение, отличное от нормального
- Модели многомерного статистического контроля технологического процесса в условиях нарушения нормальности распределения анализируемых показателей
- Применение компьютерного моделирования для расширения прикладных возможностей классических методов проверки статистических гипотез
- Исследование свойств некоторых критериев проверки статистических гипотез и обеспечение корректности их применения методами компьютерного моделирования
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность