автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели

кандидата физико-математических наук
Пономарчук, Юлия Викторовна
город
Комсомольск-на-Амуре
год
2005
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели»

Автореферат диссертации по теме "Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели"

На правах рукописи

ПОНОМАРЧУК ЮЛИЯ ВИКТОРОВНА

ИССЛЕДОВАНИЕ ПОВЕДЕНИЯ ОСТАТКОВ ЛИНЕЙНОЙ ПО ПАРАМЕТРАМ ПОЛИНОМИАЛЬНОЙ РЕГРЕССИОННОЙ МОДЕЛИ

Специальность 05.13.18-Математическое моделирование, численные методы и комплексы программ

Автореферат

диссертации на соискание ученой степени кандидата физико-математических наук

Комсомольск-на-Амуре 2005

Диссертация выполнена на кафедре прикладной математики ГОУ ВПО «Дальневосточный государственный университет путей сообщения»

Научный руководитель: кандидат физико-математических наук, профессор

Чашкин Юрий Романович

Официальные оппоненты: доктор физико-математических наук, профессор

Булгаков Виктор Кирсанович

кандидат физико-математических наук, доцент Диреев Юрий Витальевич

Ведущая организация: Институт прикладной математики Дальневосточного отделения Российской академии наук, г. Владивосток

Защита состоится 28 октября 2005 г. в Ю00 на заседании диссертационного совета Д 212.092.03 в ГОУ ВПО «КнАГТУ» по адресу: 681013, г. Комсомолг-ск-на-Амуре, пр. Ленина, 27, ГОУ ВПО «КнАГТУ».

С диссертацией можно ознакомиться в библиотеке ГОУ ВПО «КнАГТУ». Автореферат разослан «28» сентября 2005 г.

Ученый секретарь диссертационного совета

Е.В. Могильников

гооь-4

¡49 Оь

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Задача обработки данных технического или естественнонаучного эксперимента очень часто заключается в подборе функциональной зависимости между двумя группами переменных, принимающих числовые значения. Одна из них - независима и неслучайна, известна точно и влияет на значения второй. В литературе значения независимой переменной (аргумента), в которых проводятся измерения, называют узлами, а значения зависимой (отклика) - опытными значениями. Предполагая, что наблюдаемые (опытные) значения отклика являются суммой значения какой-либо функции в узле и значения некоторой случайной величины, обычно именуемой ошибкой, задача регрессионного анализа заключается в выборе модели, описывающей зависимость отклика от аргумента. Решение такой задачи не будет полным без анализа остатков построенной регрессионной модели (эмпирической зависимости), т.е. разностей значений отклика и значений эмпирической зависимости в каждом узле. С помощью анализа остатков решаются следующие задачи:

— адекватна ли модель опытным данным;

— верны ли предположения об ошибках (например, независимы ли они, распределены ли нормально и т.д.);

— есть ли среди обрабатываемых данных промахи (измерения, содержащие грубую ошибку).

Здесь же необходимо отметить, что остатки представляют своего рода «оценку» случайных ошибок.

Хотя классический регрессионный анализ считается завершенной конструкцией, и исследованию остатков посвящено множество работ известных статистиков Дж. Тьюки, Дж. Анскомба, Н. Дрейпера, Г. Смита, Дж. Себера, Дж. Элленберга и других, в базовых положениях о поведении остатков нет четкости и математической строгости, встречаются такие слова, как «вероятно», «с большой долей вероятности», «по-видимому».

Так, известно, что остатки распределены нормально в каждом узле, но в совокупности не являются выборкой (совокупностью независимых, одинаково распределенных случайных величин), т.к. они коррелированны между собой, и дисперсии в каждом отдельном узле неодинаковы. Однако поскольку считается, что при большом числе узлов корреляция между остатками слаба, и дисперсии остатков «практически» равны, то к ним можно относиться, как к выборке, и, следовательно, к совокупности остатков можно применять выборочные методы исследования. Таким образом, учитывать ли особенности поведения остатков должен решать сам исследователь, что при отсутствии соответствующего опыта, скорее всего, приведет к ошибочным выводам.

Автором проанализировано влияние корреляции между остатками на их поведение, с целью дать практически реализуемые рекомендации для решения вышеупомянутых задач.

Цель работы. Целью диссертационной работы является исследование существующих и разработка новых методов анализа остатков, изучение интервала для остатков, полученных по одной серии измерений, вывод формулы коэффициента корреляции между остатками в произвольных узлах, вывод выражений для плотности распределения стьюдентизированных остатков при разных числах степеней свободы, написание программ для вычисления коэффициента корреляции между остатками, остатков и интервалов для них, а также исследование возможности применения полученных результатов в процессе обработки данных методом регрессионного анализа.

Объектом исследования являются проблемы, распространенные в практике регрессионного анализа, а именно в анализе остатков, связанные с тем, что совокупность остатков - это система коррелированных случайных величин.

Предмет исследования - поведение остатков полиномиальной регрессионной модели, полученных по одной серии измерений, с изменением числа степеней

(число степеней свободы равно П - р, где П - число узлов, р - число параметров).

Методика исследования. При решении поставленных задач были использованы методы математической статистики, а также математический эксперимент. Теоретические выкладки были проиллюстрированы методом математического эксперимента: сгенерированные непосредственно компьютером данные для обработки затем были исследованы согласно положениям регрессионного анализа и анализа остатков. В процессе реализации метода регрессионного анализа данных был применен метод наименьших квадратов (МНК) с использованием ортогональных и ортонормированных полиномов Чебышева. Графический метод был использован непосредственно в анализе остатков.

Научная новизна исследования. Новым результатом является формула для коэффициента корреляции между остатками для несмещенной линейной по параметрам регрессионной модели с использованием ортонормированных полиномов для дискретного переменного. Показано, что модуль коэффициента корреляции принимает наибольшие значения между остатками, находящимися в крайних узлах диапазона изменения аргумента.

Важным результатом представляется зависимость коэффициента корреляции от числа степеней свободы остаточной дисперсии (чем больше число- степеней свободы, тем меньше коэффициент корреляции между остатками). На основе данных работы Г.А. Иванова и И.А. Кривошеева (Иванов Г.А., Кривошеее И.А. Статистические методы обработки экспериментальных данных при восстановлении зависимости. / Вычислительный центр ДВО РАН. Владивосток: Дальнаука. - 133 с.) в диссертации развернуто показано и проиллюстрировано методом математического эксперимента преимущество точных интервалов для остатков перед широко распространенными Ьинтер валами.

свободы остаточной дисперсии Э? = —

п-р

регрессионной модели

Впервые получена общая формула для функции плотности распределения стьюдентизированных остатков, вычисленных в одной серии измерений, а особенно важным результатом представляется зависимость данной функции от числа степеней свободы остаточной дисперсии. При этом под одной серией измерений понимается совокупность данных, обрабатываемых совместно.

Предложенная процедура выявления промахов в совокупности остатков, позволяет обнаруживать их ниже уровня шумов.

Теоретическая значимость. В отличие от общепринятого подхода к остаткам как к выборке, подход к остаткам как к системе коррелированных случайных величин представляется новым. Кроме того, использование ортонормированных полиномов Чебышева позволяет значительно упростить и сократить теоретические выкладки, что, безусловно, удобно для использования на практике, а также для дальнейших исследований. В работе приведена формула коэффициента корреляции между остатками, что позволяет оценить зависимость этих величин. Доказано, что точный интервал для серии остатков уже, чем t-интервал, особенно при относительно малых числах степеней свободы. Показано, что распределение стьюде-тизированных остатков стремится к нормальному с увеличением числа степеней свободы остаточной дисперсии. Также теоретически значимой представляется общая формула плотности распределения стьюдентизированных остатков, полученных в одной серии измерений.

Практическая значимость. Несмотря на то, что использование ортонормированных полиномов Чебышева для дискретного переменного известно в регрессионном анализе, общепринятыми являются вычисления с помощью методов матричной алгебры. Однако применение ортонормированных полиномов позволило значительно упростить и сократить теоретические выкладки. Полученная формула коэффициента корреляции между остатками дает возможность исследователю оценить меру зависимости этих величин до проведения эксперимента, следовательно, данный результат может быть применен на стадии планирования опыта с целью уменьшить корреляцию остатков. Важным следствием из формулы коэффициента корреляции является вывод о том, что для выборки (число параметров

модели равно 1) коэффициент корреляции для выборочных остатков равен--—,

Г) — 1

где п - объем выборки. Это ставит под сомнение принятое в метрологической практике правило считать многократными измерения при п > 4 , т.к. р(е„ек) = -0.33(3).

Поскольку рассмотренный точный интервал для серии остатков уже, чем широко известный t-интервал, он позволяет эффективнее выявлять промахи среди остатков даже при достаточно сильной корреляции. Автором разработана приемлемая процедура выявления промахов в совокупности остатков, учитывающая их коррелированность между собой.

Все полученные результаты сопровождаются программными реализациями в математическом пакете прикладных программ Maple 8.0 (вычисление коэффициента корреляции между остатками линейной по параметрам, несмещенной поли-

номиальной регрессионной модели, построение линейной по параметрам полиномиальной регрессионной модели, вычисление остатков и построение интервалов для них, построение совместных доверительных интервалов Бонферрони для истинной зависимости).

Реализация результатов. Полученные в ходе исследований результаты используются в процессе обучения студентов Естественно-научного факультета и Института управления, автоматизации и телекоммуникации. Программные реализации изложенных в работе рекомендаций внедрены в научную и инженерную практику ФГУП ВНИИФТИ «Дальстандарт», где используются при обработке результатов совместных измерений и решении других метрологических задач, и зарегистрированы во ВНТИЦ.

Пути дальнейшей реализации. Примененный подход к остаткам как к системе коррелированных случайных величин позволяет более точно обрабатывать экспериментальные данные различных областей знания методом регрессионного анализа. Перспективами диссертационной работы являются построение критерия адекватности модели опытным данным при негауссовом распределении ошибок, развитие полученных результатов во множественном регрессионном анализе.

Апробация работа. Основные положения диссертационной работы докладывались на следующих конференциях и семинарах:

— 58-й научной конференции творческой молодежи «Научно-технические и экономические проблемы транспорта» (г. Хабаровск, ДВГУПС, 2000 г.);

— Международном конкурсе компьютерных программ студентов, аспирантов и молодых специалистов «Программист - 2000» (г. Владивосток, ДВГУ, 2000 г.);

— Региональной научной конференции студентов, аспирантов и молодых ученых «Молодежь и научно-технический прогресс» (г. Владивосток, ДВГТУ,

2000 г.);

— Второй международной научной конференции творческой молодежи «Научно-техническое и экономическое сотрудничество стран АТР в XXI веке» (г. Хабаровск, ДВГУПС, 2001 г.);

— Far-Eastern school-seminar on mathematical modeling and numerical analysis (r. Находка, 2001 г.);

— 60-й региональной научно-практической конференции творческой молодежи (г. Хабаровск, ДВГУПС, 2002 г.);

— Третьей международной научной конференции творческой молодежи «Научно-техническое и экономическое сотрудничество стран АТР в XXI веке» (г. Хабаровск, ДВГУПС, 2003 г.);

— научном семинаре Вычислительного центра Дальневосточного отделения Российской академии наук (г. Хабаровск, ВЦ ДВО РАН, 2004г.);

— XXX Дальневосточной математической школе-семинаре имени академика Е.В. Золотова (г. Хабаровск, ДВГУПС, 2005 г.).

По теме диссертации опубликовано 14 работ, список которых приведен в конце автореферата.

Автор выносит на защиту следующие положения и результаты:

— выведенная формула для вычисления коэффициента корреляции остатков несмещенной линейной по параметрам полиномиальной регрессионной модели, использующая ортонормированные полиномы;

— исследование интервалов для остатков регрессионной модели, полученных в одной серии измерений, сравнение их с широко известными t-интервалами;

— рекомендации для решения проблемы выявления промахов по графикам остатков с учетом их коррелированное™;

— выведенная общая формула для функции плотности распределения стью-дентизированных остатков, полученных в одной серии измерений, зависящая от числа степеней свободы остаточной дисперсии, а также иллюстрация ее частных случаев для малых чисел степеней свободы;

— варианты программной реализации теоретических результатов в задаче регрессионного анализа экспериментальных данных, а также их сравнение с уже существующими алгоритмами, реализованными в программных пакетах обработки данных SPSS и StatSoft Statistica.

Структура и объем диссертации. Диссертации состоит из введения, шести глав, заключения и двух приложений, иллюстрированных рисунками и графиками. Библиографический список включает 45 наименований.

Автор выражает благодарность своему научному руководителю, профессору кафедры «Прикладная математика» ДВГУПС Чашкину Юрию Романовичу и соавтору Иванову Геннадию Анатольевичу, старшему научному сотруднику ВЦ ДВО РАН за постоянное внимание и помощь в работе.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность проблемы, связанной с обработкой результатов измерений с помощью регрессионного анализа и анализа остатков. Показана важность графического метода анализа данных не только на этапе представления окончательных выводов, но и на этапе предварительного анализа данных. Дается общая постановка задачи классического регрессионного анализа -восстановление зависимости переменной отклика от аргумента - и приводятся общепринятые предположения данного метода. Вводится понятие остатка как разности между наблюдениями и значениями эмпирической зависимости в узлах фактора, а также стьюдентизированного (отношение значения остатка к квадратному корню из его оценки дисперсии) и шкалированного остатка (отношение значения остатка к квадратному корню из средней по всем узлам оценке дисперсии остатков). Далее постановка задачи конкретизируется: вводятся предположения о подчинении ошибок модели Гаусса-Маркова (тогда остатки становятся распределенными нормально с математическим ожиданием 0 и дисперсией D(e,), т.е. ej ~ N(0,D(ej))), существовании истинной зависимости в виде непрерывной дифференцируемой функции во всем диапазоне изменения фактора, и представлении ее в виде линейной комбинации базисных функций. В качестве базисных функций

взяты ортонормированные полиномы Чебышева для дискретного переменного. Поскольку важным показателем адекватности модели опытным данным является совокупность остатков, то предметом исследований является именно поведение остатков при разном числе узлов и разном числе параметров эмпирической зависимости.

В первой главе сделан аналитический обзор литературных данных, посвященных анализу остатков. Кратко рассмотрим вышеуказанные основные задачи анализа остатков и пути их решения.

Для проверки адекватности модели опытным данным чаще всего рекомендуется отойти от их привычного графического представления в виде точечного графика и изобразить их в виде полосы. В литературе указывается и приблизительная

ширина такой полосы - [- 2а, + 2а] (где ст2 - дисперсия ошибок). При этом считается, что остатки «должны вести себя как независимые (в действительности, почти независимые) одинаково распределенные случайные величины» (Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере / Под ред. В.Э. Фигурнова. -М.: ИНФРА-М, 2003. - 544 е.).

Если полоса расположения остатков в зависимости от независимой переменной напоминает по виду один из следующих графиков (рисунок 1), то исследователь должен заключить, что не учтены факторы, вызванные, скорее всего, одним из следующих обстоятельств:

— дисперсия опытных данных не постоянна, а увеличивается, поэтому необходимо применить взвешенный метод наименьших квадратов (рисунок 1а);

— в модель следовало бы включить линейный член, а если он включен, то график свидетельствует об ошибке в вычислениях (рисунок 16);

— в модель должен быть включен квадратичный или член с более высокой четной степенью (рисунок 1в).

Естественно, что могут иметь место сочетания и вариации этих эффектов (например, в случае (б) возможен наклон в противоположную сторону, а в случае (в) - полоса остатков может быть выпукла вниз и т.д.).

Вторая задача, для решения которой используются остатки, это проверка предположений об ошибках. У многих авторов встречается утверждение, что вектор остатков можно рассматривать как «оценку» вектора ошибок, что не всегда справедливо, поскольку на практике часты случаи, когда разность числа узлов и числа параметров мала. Классики регрессионного анализа утверждают, что в подавляющем числе ситуаций исследователь может пренебречь корреляцией остатков и их различным распределением. Но до того строгий язык математических терминов сменяется фразами «по-видимому», «с большой долей вероятности» и т.д. Читатель остается в недоумении, когда же необходимо учитывать корреляцию остатков, а когда можно подойти к ним как к выборке.

Рис. 1 Примеры ситуаций, характеризующих неудовлетворительное поведение остатков

Наконец, третья задача заключается в выявлении промахов на графиках остатков. Как указывалось выше, промахом считается наблюдение, содержащее грубую ошибку. Существуют различные параметрические и непараметрические критерии обнаружения промаха в выборке (но, как известно, остатки не всегда можно считать выборкой). Также были предложены правила отбрасывания выбросов, обнаруживаемых с помощью графического метода (т.е. правила, согласно которым исключают соответствующее наблюдение (или наблюдения) и затем снова анализируют данные без этих наблюдений). Подробнее об этом вопросе будет сказано ниже. Здесь еще раз отметим, что поскольку коэффициент корреляции между остатками обычно полагается малым и не вычисляется, возникает некоторая неуверенность в процедуре анализа остатков, включая проверку нормальности с помощью вероятностной бумаги, проверку на промахи и даже проверку адекватности опытным данным полученной эмпирической зависимости. В данной главе показано, что, несмотря на обилие рекомендаций, ставших уже классическими, исследователю, не обладающему соответствующим опытом, сложно применить обтекаемые фразы классиков регрессионного анализа к конкретным числовым значениям экспериментальных данных.

Указаны основные виды графиков остатков: общий; в зависимости от времени, если известна последовательность реализаций опытов; в зависимости от предсказываемых значений; в зависимости от фактора (или факторов); график остатков со сдвигом (по вертикальной оси расположены остатки е,, а по горизонтальной -остатки ем); гистограмма остатков; график остатков на нормальной вероятностной бумаге; кроме того, графики могут быть построены любым способом, который представляется целесообразным для рассматриваемой задачи. В дальнейшем в работе используется общий график остатков.

Графики остатков могут быть использованы для ответа на следующие вопросы: распределены ли остатки приблизительно нормально с фиксированной локализацией и размахом; есть ли промахи среди результатов измерений; адекватна ли модель опытным данным; предлагают ли остатки модель, более подходящую к данным, чем существующая.

Вторая глава диссертационной работы посвящена выводу формулы коэффициента корреляции между остатками несмещенной линейной по параметрам полиномиальной регрессионной модели и анализу влияния корреляции на поведение остатков. В соответствии с определением коэффициента корреляции между случайными величинами и с помощью ортонормированных полиномов в качестве базисных функций была получена следующая формула коэффициента корреляции:

¿уДх^Ы

" СЧ>

п соу(е!,ек)

'1-Ь?(х,)У1-£ч,?(хк) I н Ли

1, при I = к.

где е,, ек - остатки в соответствующих узлах х, и хк (¡,к = 1,п, п - число узлов), 0(е,) - дисперсия остатка в узле X,, р - число параметров модели, уДх,) - значение ортонормированного полинома с номером ] в узле Х( (} = 1,р).

Формула (1) позволяет сделать ряд важных заключений. Во-первых, множество остатков в(, ¡ = 1,2.....п, действительно не является выборкой. Это система

коррелированных случайных величин, распределенных нормально и имеющих разные дисперсии в разных узлах. Строго говоря, множество остатков, полученное в одной серии измерений, не есть выборка, это п выборок объемом 1. Ясно, что если коэффициент корреляции невелик, и им можно пренебречь, остатки в данной серии измерений после их стандартизации или «стьюдентизации» (т.е. деления на их среднее квадратическое отклонение в первом случае или его оценку во втором) можно считать выборкой. Можно даже указать некую меру малости коэффициента корреляции, хотя и не очень строгую, например, |р,к| < 0,3. Обычно считается, что такое значение коэффициента корреляции свидетельствует о слабой связи. Следует отметить, что речь идет не об оценке коэффициента корре-

ляции, а о его истинном значении, поскольку в (1) известны все величины, и какие-либо оценки отсутствуют.

Второе утверждение, следующее из формулы (1): коэффициент корреляции остатков (далее слова «в разных узлах в фиксированной серии измерений» будут опускаться) зависит только от узлов X, и не зависит от опытных данных. Этот факт был отмечен в работе Н. Дрейпера и Г.Смита (Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Кн. 1 / Перевод с англ.. - М.: Финансы и статистика, 1986. - 366 с.) на основе анализа общего выражения для коэффициента корреляции, но для большинства исследователей это не было очевидно. Если узлы, в которых экспериментатор намерен провести измерения, известны до опыта, значит коэффициент корреляции (1) можно вычислить заранее. Более того, можно до опыта определить число узлов п и управлять их расположением, чтобы обеспечить требуемый малый уровень корреляции, если это необходимо, т.е. планировать эксперимент по этому критерию.

Согласно полученным данным наиболее сильная корреляция имеет место для начальных и конечных узлов, следовательно, на графике остатков следует ожидать, что первый и последний остатки окажутся заметно ближе к нулю, чем это должно было бы быть без учета их коррелированности. Следовательно, экстраполяция эмпирической зависимости за крайние точки диапазона изменения аргумента недопустима. С увеличением числа узлов при фиксированном р модуль коэффициент корреляции уменьшается.

Таким образом, исследователю нет нужды делать предположений о коррелированности или некоррелированности остатков, он может просто вычислить коэффициент корреляции и принять решение о том, следует ли его учитывать при последующем анализе.

В третьей главе рассмотрены доверительные интервалы для остатков, рекомендуемые в работе Г.А. Иванова и И.А. Кривошеева (Иванов Г.А., Кривошеее И.А. Статистические методы обработки экспериментальных данных при восстановлении зависимости. / Вычислительный центр ДВО РАН. Владивосток: Даль-наука. - 133 е.), приведен вывод формулы для них с использованием ортонорми-рованных полиномов и сравнение с широко известными ^интервалами.

Рассматривая случайную величину

где е, - остаток в узле х, (i = 1, n, п - число узлов), о2 - дисперсия опытных данных, D(e,) - дисперсия остатка в узле х,, Qp- сумма квадратов всех остатков (остаточная сумма квадратов для модели с р параметрами), р - число параметров модели, и опуская теоретические выкладки, получено неравенство:

где V = П - р - число степеней свободы остаточной дисперсии, Эр - остаточная дисперсия модели с р параметрами, уДх,)- значение полинома Чебышева с номером ] в узле X, (} = 1,р), Ра (1, V -1) - процентная точка Р -распределения, а -критическое значение. Неравенство (3) выполняется (если модель не смещена) с вероятностью Р = 1 - а.

Таким образом, еще раз показано, что остатки в фиксированной серии измерений не ведут себя как выборка из N(0,0(6,)), их поведение в зависимости от аргумента X описывается выражением (3). Следовательно, нанося остатки на нормальную вероятностную бумагу, исследователь не должен получать прямую линию, даже если предположения об ошибках строго выполняются. Приблизительно прямая линия получится лишь в том случае, если коэффициент корреляции между остатками весьма мал, и множество полученных в серии остатков можно считать выборкой.

Сравнивая ширину интервала (3) с шириной ^интервала,

И«/2М

(4)

и

где ¡„/(у) - процентная точка распределения Стьюдента с «ислом степеней сво-72

боды V, очевидно, что интервал (4) шире точного интервала (3). Особенно это заметно при малых V.

Необходимо отметить еще один результат: при V = 1 Ра(1,0) не имеет смысла (не существует). Но интервал для остатков при V = 1 оказывается равным

1-Î>?(x,)

Sp . Этот результат получается из (3), если положить Fa(l,0) =

оо.

Интересно здесь то, что вероятность попадания в этот интервал оказывается равной 1. Следует ожидать, что все остатки расположатся на границах данного интервала.

В четвертой главе исследуются возможности обнаружения промахов по графикам остатков и даются рекомендации к использованию в практической деятельности. Промахом в регрессионном анализе называют наблюдение, остаток которого «... по абсолютной величине значительно превосходит остальные и отличается от среднего по остаткам на три, четыре или даже более стандартных отклонений» (Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Кн. 1 / Перевод с англ.. - М.: Финансы и статистика, 1986, с. 199). В справочнике Национального института стандартов и технологий Департамента коммерции США (N1 ST/SEM ATECH e-Handbook of Statistical Methods. - National Institute of Standards and Technology, Technology Administration, US Department of Commerce. http://www.itl.nist.gov/div898/handbook/ - 2003.) отмечается: «Обнаружение промахов очень важно для эффективного моделирования. Промахи должны исключаться до подбора модели... Если промах не включается в процесс подбора эмпи-

рической кривой, тогда соогветствие будет отличным практически везде (для всех точек за исключением промаха).» П.В. Новицкий и И.А. Зограф в своей работе (Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. - Л.: Энергоатомиздат, Ленингр. отд-ние, 1985.), рассматривая систему уравнений МНК, отмечают, что в случае включения в модель аддитивного члена линия регрессии проходит через «центр тяжести» группы экспериментальных точек. Это свойство обусловливает чувствительность МНК к наличию промахов в исходных данных. Оно также может являться причиной возникновения абсурдных решений при использовании метода даже тогда, когда промах единственен, но отстоит далеко от основной группы экспериментальных точек.

Существует множество критериев для проверки резко выделяющихся наблюдений (Таблицы математической статистики / Большее Л.Н., Смирнов Н.В. - М.: Наука, 1983.) в выборке из нормальной совокупности. Не углубляясь в подробности, связанные со статистическими свойствами этих критериев необходимо отметить, что промах как аномальный элемент выборки ошибок может быть обнаружен по остаткам тогда, когда сами остатки можно считать выборкой. Поскольку множество полученных в серии измерений остатков есть система коррелированных случайных величин, попадание конкретного остатка в тот или иной интервал зависит не только от его собственного значения, но и от того, какие значения приняли другие остатки (в первую очередь, конечно, соседние).

Исследователю рекомендуется попытаться обнаружить промахи непосредственно на графике опытных данных. Далее, если число параметров очень мало по сравнению с числом узлов (например, р < 0.1п, при этом очень мал и коэффициент корреляции, |р| < 0.1 ) промах хорошо виден и на графике остатков. Особое внимание следует обращать на первые и последние узлы, в которых промахи в (4-5) а практически не обнаружимы уже при р«0.2п . Проиллюстрируем это примером. На рисунке 2 приведен график остатков, число параметров р = 4, число узлов п = 20. Выборка ошибок цензурировалась: все ошибки не превышают по модулю 2а, а промахи величиной + 5о вводятся в узлы х, вместо погрешности 8,. Введенный промах изображен черной точкой.

На графике видно, что промах в первом узле (рисунок 2а) практически не выделяется, а остаток в следующем узле (не являющийся промахом на самом деле) оказался на границе интервала. В узле х5 (рисунок 26) промах виден четко.

На рисунке 3 изображены остатки для случая р = 4, п = 100. Выборка случайных ошибок в этом случае не цензурировалась и содержала одну ошибку + 3.20<т вблизи середины интервала по X. Она хорошо видна как выброс. Так же хорошо видны искусственно введенные промахи +5а в первом и пятом узлах. Отметим, что коэффициент корреляции между соседними остатками в этом случае был всюду меньше 0.1. Это случай, когда множество остатков можно без сомнений считать выборкой.

Л

30 40

+

V

2а, Е^ = 5а

г + Л

+

п + + + +

++ ,ь +2? + + 30 +40 + +

+ + +

V У

26, е5 = 5а

Рис. 2 Графики остатков и интервалов для них при введенном в выборку ошибок промахе, п=20

е, Т

Ч

+ + + ♦ +

♦ Л*" * < Л

♦ . » » ^ * + .

+ V

Г** * , * + у + ^

■►•♦л* • ™

♦ -ч ♦ # . ♦

За, е1 = 5а

36, е5 = 5а

Рис. 3 Графики остатков и интервалов для них при введенном в выборку ошибок промахе, п=1О0

Итак, при анализе остатков с целью определения, есть ли промах в выборке ошибок рекомендуется вычисление коэффициента корреляции между остатками наряду с построением интервала для них. В случае, если известно истинное число р0 параметров модели, выполнение этой процедуры труда не представляет (формула (1)). Если же число р0 неизвестно, то рекомендуется воспользоваться известным советом, и определить р по графику остаточной дисперсии (выбирается то число параметров модели, при котором остаточная дисперсия перестает заметно убывать и стабилизируется около некоторого значения).

Если максимальное значение модуля коэффициента корреляции позволяет считать остатки выборкой, то вылетевшие за границы интервалов остатки покажут промахи в выборке ошибок. Но уже при |р1к| > 0.3 промахи практически незаметны в крайних узлах. Остатки, соответствующие промахам втягиваются в интервал, построенный для них, в то время как за границу интервала могут вылететь соседние остатки, называемые ложными промахами. Поэтому при применении к ним известной рекомендации о цензурировании выборки, когда из рассмотрения

выбрасывают подозрительные данные и повторяют анализ, на графике остатков вновь появятся вылетевшие за границы интервала остатки. Но при выбрасывании значений, соответствующих действительному промаху, вновь построенный график остатков может сказать, что модель описывает данные адекватно.

В пятой главе проводится исследование функции плотности распределения стьюдентизированных остатков регрессионной модели, полученных по одной серии измерений. Выделив в (2) стьюдентизированный остаток, заменив Qp на остаточную дисперсию, умноженную на число степеней свободы S^v, в результате простых преобразований получим формулу вида:

..fei.,

V

ч2

°ост,р

чт

1-2>?(х,Ь . н

Таким образом, случайная величина, равная отношению квадрата стьюдентизиро-ванного остатка к числу степеней свободы остаточной дисперсии, имеет бета-

1 у-1

распределение с числами степеней свободы — и ^ .

Плотность распределения вероятности случайной величины известна, это плотность бета-распределения:

fßl) =

Г(а)Г(р) О, при ^¿[0,1],

причем в нашем случае а =

1

v-1

ß= . Решая задачу нахождения плотно-

2' ' 2

сти распределения вероятности f(x) случайной величины в|, значения которой х

9

V

связаны со значениями случайной величины следующим образом: Е,, получим:

fe,-M =

•ш

-Jnv г| —

v-3

1--

при X 6 [-Vv.Wv],

(5)

Ч 2

0, при X <£ [--/у,+л/у]. Видно, что плотность распределения вероятности (5) зависит от V. Из этой формулы следует ряд частных случаев, некоторые из которых приведены ниже.

1) При V = 1 распределение стьюдентизированных остатков дискретно, они могут принимать только значения X! = -1 и х2 = +1, причем эти значения прини-

маются поочередно, т.к. коэффициент корреляции между соседними остатками отрицателен. Каждое из этих значений принимается с вероятностью 0.5, так что математическое ожидание равно 0, а дисперсия равна 1. Более того, все нечетные моменты равны нулю, а четные 1.

2) Полагая v = 2 ijjj = Г(1) = t ^^г] = = Vît, получим

_ при х е [-V2.+V2]

Ь(х) =

0 при х « [-л/2,+л/2]

Это распределение известно как гармоническое. При х = ±-j2 f(х) = оо, при 1

х = 0 f(x) =

лл/2'

3) При v = 3 формула (5) примет вид:

f.(x) =

/3

— при х в [—s/з.+л/з] 6

0 при X £ [~Д+л/3]

Это равномерное распределение на интервале [-л/3,+-/3] с математическим ожиданием 0 и дисперсией 1. 4) При V = 9 получим:

f.<x>.»

w 96

1--

9

при хе[-3,+3],

вне этого интервала функция плотности вероятности равна нулю. Максимум плотности при Х = 0 оказывается равным примерно 0.365. Заметим, что функция f(x) еще довольно сильно отличается от нормальной.

5) Ниже рассмотрен предельный случай v -> 00. Рассматривая второй сомножитель в (5) и используя второй замечательный предел, получим:

v-3

lim

v->0O

1-*1

= lim 1- —

v-Mol

,2 "S

1--

= f» 2

Используя известную асимптотическую формулу (Уилкс С. Математическая статистика. -М.: Мир, 1967.):

Г(д) = W*.-, гф = 1 Г^1) «

и опуская промежуточные преобразования, окончательно получаем:

у-2 -1] 2 —

v-1

Нт„

•ф

1

72я

72тс

"2

т.е. с ростом V распределение стьюден-тизированных остатков стремится к стандартному нормальному распределению.

Таким образом, мы знаем законы распределения остатков, полученных в одной серии измерений, для любых значений числа узлов П, числа параметров модели р (еще раз напомним, что модель должна быть несмещенной, р > р0 и, следовательно, для любых значений V = п - р, оно дается формулой (5). На рис. 4 приведены графики функций плотности вероятности для рассмотренных выше примеров, иллюстрирующие эволюцию функций плотности с увеличением числа степеней свободы.

Отметим, что при любом числе степеней свободы математическое ожидание стьюдентизированного остатка равно О,

как и все нечетные моменты, а дисперсия равна 1. Особое внимание следует обратить на то, что закон распределения стьюдентизированных остатков зависит только от числа степеней свободы V.

В работе был поставлен среди других вопрос: какое число степеней свободы следует считать малым. Ответ на него зависит от решаемой задачи. Если задача состоит в том, чтобы плотность распределения вероятности стьюдентизированного остатка считать равной плотности стандартного нормального распределения, то число степеней свободы окажется достаточно большим (оно зависит от требуемой точности). Для метрологии и вообще для измерительной практики особый интерес представляют интервалы для остатков е,. Для частных значений V эти интервалы можно вычислить и по формуле (5). Согласно результатам проведенного анализа можно утверждать, что при V = 9 интервал, соответствующий вероятности 0.95, всего на 3% уже нормального, т.е. для сформулированной выше задачи число степеней свободы 9 допускает использование нормального интервала вместо точного с ошибкой 3%. Обратим внимание, что 90%-ный интервал, даже при числе степеней свободы 5, лишь на 1% уже нормального. Это еще одно подтверждение правильности известной рекомендации П.В.Новицкого (Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. - Л.:

Рис. 4 График функций плотности вероятное гей распределения стьюдентизированных остатков в зависимости от числа степеней свободы

Энергоатомиздат, Ленингр. отд-ние, 1985.) не стремиться использовать на практике большие значения вероятностей, особенно при не слишком больших выборках, т.е. когда закон распределения установлен недостаточно надежно.

Итак, было показано, что стьюдентизированные остатки, полученные по единственной серии измерений, отнюдь не подчиняются закону распределения Стью-дента. Их распределение (формула (5)) зависит только от числа степеней свободы

п-р

v = П - р, так что говорить о малости отношения -- (Дрейпер Н., Смит Г.

п

Прикладной регрессионный анализ. Кн. 1 / Перевод с англ.. - М.: Финансы и статистика, 1986.) в данном случае некорректно. Относительно интервалов для остатков важно отметить то, что точные интервалы, подтвержденные выше непосредственным вычислением по функции плотности распределения вероятности, всегда уже, чем стандартные нормальные и, тем более, уже t-интервалов. С ростом числа степеней свободы и точные интервалы, и t-интервалы асимптотически сходятся к стандартным нормальным, но с разных сторон - первые снизу, а вторые сверху. Этот вывод важен при проверке адекватности модели опытным данным, при анализе данных на наличие промахов, а также при построении совместных доверительных интервалов для неизвестной истинной зависимости.

В шестой главе кратко излагаются алгоритмы программ приложений, которые сравниваются с достаточно известными статистическими пакетами программ с точки зрения их возможностей в анализе остатков.

Программы Приложения А и Приложения Б, созданные в математическом пакете прикладных программ Maple 8, снабжены комментариями. Пакет Maple удобен в использовании, а подробная справка, множество встроенных функций, а также практически неограниченная точность вычислений делают его еще более предпочтительным при проведении расчетов и математических экспериментов.

Программа Приложения А вычисляет коэффициент корреляции между остатками несмещенной линейной по параметрам регрессионной модели. Исходными данными являются: список узлов, число узлов и число параметров модели. Программа строит ортонормированные полиномы в соответствии с исходными данными и вычисляет значения элементов матрицы коэффициента корреляции. Результаты - значения коэффициента корреляции между остатками в зависимости от их номеров и его график изменения - выводятся на экран.

Программа Приложения Б, также созданная в пакете Maple, обрабатывает опытные данные методом регрессионного анализа. Исходными данными являются результаты эксперимента - список узлов фактора, список соответствующих значений отклика и число узлов. Программа выводит на экран график опытных значений и далее строит эмпирическую зависимость в соответствии со стандартной процедурой МНК, используя ортонормированные полиномы Чебышева. Вычисляются значения остаточной дисперсии Sj^р, р = 1,П-1, строится их график в зависимости от числа параметров р. Программа позволяет выбирать вид модели в процессе выполнения процедуры МНК. По графику остаточной диспер-

сии исследователь может сделать вывод о числе параметров модели. После определения числа параметров модели, делается проверка значимости параметров по критерию (Чашкин Ю.Р. Статистика для инженеров. Основы регрессионного анализа: Монография. - Хабаровск: Изд-во ДВГУПС, 2003. - 162 е.):

^L<Fa(i,n-P) ] = гтп, (6)

ост

где S^ - несмещенная оценка дисперсии опытных данных, fflj - МНК-оценка для данного j, a - уровень значимости критерия, Fa(l,n-p) - критическое значение распределения Фишера-Снедекора с числами степеней свободы 1 и п - р. Необходимо подчеркнуть, что при этом предполагается р > р0, поскольку в этом случае модель сохраняет свойство несмещенности. Заметим, что прежде чем пользоваться критерием проверки значимости параметров, было определено число р.

Далее на экран выводится построенная эмпирическая зависимость и ее график с нанесенными опытными значениями. Вычисляются остатки и строятся точные (3) и t-интервалы (4) для них. Необходимые табличные значения функций вычисляются с помощью встроенных функций пакета. После построения графика остатков и интервалов для них, вычисляется коэффициент корреляции между остатками р(е,, ej (1) и выводится его график в зависимости от номеров остатков i и j. При необходимости может быть выведена на экран вся таблица, содержащая значения коэффициента корреляции между остатками в разных узлах.

Программа заканчивается построением совместных доверительных интервалов Бонферрони для истинной зависимости:

y(xi)-t„. V°[y(xi )1 ^ У о ) ^ У(х,) + V°ly(xi)l i = V>,

—,v —,v

2 2

где y(x,) и y0 (x,) - значения эмпирической и истинной зависимостей в узлах _ ^ р

Х|, i = 1, п соответственно, б[у(х,)] = S^. ■ £ vf (xi) - оценка дисперсии эмпири-

J=1

ческой зависимости (в узле Х| ), р - выбранное число параметров модели, v = п-р - число степеней свободы остаточной дисперсии, ta. - критическое

Tv

значение распределения Стьюдента с числом степеней свободы v. Если вероятность накрытия истинной зависимости интервалами не меньше 1 - а устраивает

исследователя, тогда за уровень значимости критерия следует принять а* = .

После вычисления всех значений интервалов, на экран выводится график эмпирической зависимости с нанесенными интервалами.

Сравнение программ приложений было проведено с достаточно широко известными статистическими пакетами SPSS и StatSoft Statistica с точки зрения анализа остатков. В отличие от предлагаемых реализаций, при обработке данных в

статистических пакетах необходимо сразу задавать вид модели и ее число параметров. Это создает определенные трудности, если исследователь не обладает достаточными знаниями о виде модели, описывающей данные эксперимента. Одним из недостатков пакета Statistica является то, что полученная эмпирическая зависимость на экран не выводится, в отчет вносятся лишь ее значения в узлах. Пакет SPSS по сравнению с пакетом Statistica предоставляет больше возможностей для проверки адекватности модели данным (построение опытных данных и разных видов моделей на одном графике, вывод графика остатков с нанесенными интервалами для них и т.д.) Подход к остаткам как к выборке в SPSS не позволяет определить промахи в исходных данных, если корреляция между остатками велика, тогда как реализованный подход в программе Приложения Б решает эту задачу.

В Приложении А приводится листинг программы расчета коэффициента корреляции между остатками несмещенной линейной по параметрам полиномиальной регрессионной модели с исходными и выходными данными.

В Приложении Б приведен листинг программы обработки данных методом регрессионного анализа с исходными и выходными данными.

ЗАКЛЮЧЕНИЕ

В результате выполненной работы были сформулированы задачи исследования, получены и проанализированы новые данные, относящиеся к исследованию остатков. В работе остатки рассматриваются как система коррелированных случайных величин, распределенных нормально с математическим ожиданием 0 и различной дисперсией в разных узлах, в отличие от широко распространенного подхода к ним как к выборке. Исходя из этого, автору удалось получить результаты, уточняющие некоторые положения теории регрессионного анализа, помогающие понять поведение остатков, а следовательно, и применять полученные знания в инженерной практике, анализе технических и естественнонаучных экспериментов, а также в математической статистике при уточнении известных и разработке новых статистических методов анализа.

1. Предложенная формула для вычисления коэффициента корреляции между остатками несмещенной линейной по параметрам полиномиальной регрессионной модели позволяет исследователю оценить зависимость остатков до проведения эксперимента.

2. В работе исследованы точные выражения для интервалов для остатков регрессионной модели. Отмечено, что остатки (в одной серии измерений) не имеют t-распределения, как считалось до сих пор. Причем распределение стьюдентизиро-ванных остатков, полученных в одной серии измерений, зависит от числа степеней свободы остаточной дисперсии. Также подтверждено, что с ростом v распределение стьюдентизированных остатков стремится к стандартному нормальному распределению.

3. Разработана процедура выявления промахов в совокупности остатков при малых числах степеней свободы остаточной дисперсии, учитывающая их корреляцию между собой и различные дисперсии в разных узлах.

4. Разработана программа вычисления коэффициента корреляции остатков несмещенной полиномиальной регрессионной модели, линейной по параметрам.

5. Разработана программа обработки опытных данных методом регрессионного анализа с построением эмпирической зависимости полиномиального вида, линейной по параметрам, вычислением остатков и построением интервалов для них, вычислением коэффициента корреляции между остатками и построением совместных доверительных интервалов Бонферрони для истинной зависимости.

Результаты проведенных исследований позволяют более точно анализировать экспериментальные данные, а также дают направления дальнейшего изучения этого раздела регрессионного анализа. Наиболее важными из них являются: более точное оценивание погрешности эмпирической зависимости, ограничение степени полинома сверху и разработка более строгой процедуры проверки на промахи.

СПИСОК РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Пономарчук Ю.В. Восстановление зависимостей методом наименьших квадратов (регрессионный анализ) / Ю.В. Пономарчук // Материалы региональной научной конференции «Молодежь и научно-технический прогресс». - Владивосток: Изд-во ДВГТУ, 2000. - С. 73-75.

2. Пономарчук Ю.В. Восстановление зависимостей методом наименьших квадратов (регрессионный анализ) / Ю.В. Пономарчук // Труды 58-ой научной конф. творческой молодежи «Научно-технические и экономические проблемы транспорта». - Хабаровск: изд-во ДВГУПС, 2000. - Т. 2.

3. Пономарчук Ю.В. Восстановление зависимостей методом наименьших квадратов (регрессионный анализ) / Ю.В. Пономарчук // Труды Международного конкурса компьютерных программ студентов, аспирантов и молодых специалистов «Программист 2000». - Владивосток: изд-во ДВГУ, 2000.

4. Пономарчук Ю.В. О корреляции остатков линейной по параметрам регрессионной модели / Ю.В. Пономарчук, Ю.Р. Чашкин // Тез. докл. Второй международной научной конференции творческой молодежи 11-12 апреля 2001 г. - Хабаровск: изд-во ДВГУПС, 2001. - Т. 2. - С.144-145.

5. Ponomarchuk Yu.V. On the behavior of remainders of linear regression model with increase of number of it's parameters / Yu.V. Ponomarchuk, Yu.R. Chashkin // Proceedings and Abstracts of 2001 Far-Eastern School-Seminar on Mathematical Modeling and Numerical Analysis (FESS-MMNA'01). - Хабаровск: Изд-во ДВГУПС, 2001.-C. 129-130.

6. Пономарчук Ю.В. О проблеме обнаружения промахов по графикам остатков / Ю.В. Пономарчук, Ю.Р. Чашкин // Труды 60-ой региональной научно-практической конф. творческой молодежи 10-11 апреля 2002 г. - Хабаровск: изд-во ДВГУПС, 2002. - Т. 2. - С. 209-211.

7. Иванов Г.А. Поведение остатков линейной по параметрам регрессионной модели с увеличением числа параметров. Часть 1. Состояние вопроса. Коэффициент корреляции между остатками / Г.А. Иванов, Ю.В. Пономарчук, Ю.Р. Чашкин // Измерительная техника. - 2002. - № 10. - С. 20-24.

8. Иванов Г.А. Поведение остатков линейной по параметрам регрессионной модели с увеличением числа параметров. Часть 2. Интервал для серии остатков. Проблема промахов / Г.А. Иванов, Ю.В. Пономарчук, Ю.Р. Чашкин // Измерительная техника. - 2002. - № 11. - С. 6-9.

9. Иванов Г.А. Плотность распределения стьюдентизированных остатков регрессионной модели, полученных по одной серии измерений / Г'.А. Иванов, Ю.В. Пономарчук, Ю.Р. Чашкин // Метрология. - 2002. -№ 11. - С. 3-10

10. Иванов Г.А. Плотность распределения стьюдентизированных остатков регрессионной модели, полученных по одной серии измерений / Г.А. Иванов, Ю.В. Пономарчук, Ю.Р. Чашкин // Тез. докл. Третьей международной научной конференции творческой молодежи 11-12 апреля 2003 г. - Хабаровск: изд-во ДВГУПС, 2003. - Хабаровск: изд-во ДВГУПС, 2003. - Т. 2.

11. ¡Иванов ГА] Робастный критерий проверки однородности двух негауссовых выборок относительно дисперсий / ¡Г.А. Иванов], Ю.В. Пономарчук, Ю.Р. Чашкин // Измерительная техника. - 2005. - № 2. - С. 9-12.

12. Пономарчук Ю.В. Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели / Ю.В. Пономарчук // Тез. докл. XXX Дальневосточной математической школы-семинара имени академика Е.В. Золотова - Хабаровск: изд-во ДВГУПС, 2005. - С. 100-101.

13. Инвентарный номер ВНТИЦ 50200501154. Программа расчета коэффициента корреляции между остатками несмещенной линейной по параметрам полиномиальной регрессионной модели / Ю.В. Пономарчук. - 2005.

14. Инвентарный номер ВНТИЦ 50200501153. Программа обработки данных методом регрессионного анализа / Ю.В. Пономарчук. - 2005.

Пономарчук Юлия Викторовна

ИССЛЕДОВАНИЕ ПОВЕДЕНИЯ ОСТАТКОВ ЛИНЕЙНОЙ ПО ПАРАМЕТРАМ ПОЛИНОМИАЛЬНОЙ РЕГРЕССИОННОЙ МОДЕЛИ

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

Отпечатано методом прямого репродуцирования

Технический редактор ИЛ. Нильмавр

ИД Ne 05247 от 2.07 2001 г. Сдано в набор 23.09 2004 Подписано в печать 26 09.2005 Формат 60x841/1в Бумага тип № 2 Гарнитура Anal Печать плоская Уел печ л 1 3 Зак 220 Тираж 100 экз

Издательство ДВГУПС 680021, г Хабаровск, ул Серышева, 47

РНБ Русский фонд

2006-4 14905

Оглавление автор диссертации — кандидата физико-математических наук Пономарчук, Юлия Викторовна

Введение.

1 Анализ литературных данных.

• 1.1 Задачи, в решении которых используются графики остатков.

1.1.1 Проверка адекватности модели данным.

1.1.2 Проверка предположений об ошибках.

1.1.3 Выявление промахов.

1.2 Виды графиков остатков.

2 Коэффициент корреляции между остатками несмещенной, линейной по параметрам регрессионной модели.

2.1 Общие сведения о коэффициенте корреляции.

2.2 Вычисление коэффициента корреляции между остатками.

2.3 Влияние корреляции на поведение остатков.

3 Исследование интервала для серии остатков, полученных по одной серии измерений. ф 3.1 Формула интервала для серии остатков.

3.2 Сравнение точного интервала с t-интервалом для остатков.

4 Проблема обнаружения промахов.

5 Плотность распределения стьюдентизированных остатков регрессионной модели, полученных по одной серии измерений.

5.1 Вывод общей формулы функции плотности распределения стьюдентизированных остатков регрессионной модели, полученных по одной серии измерений. 5.2 Частные случаи функции плотности распределения стьюдентизированных остатков.

6 Описание алгоритмов программ.

6.1 Сравнение возможностей предлагаемых программ и существующих пакетов обработки данных.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Пономарчук, Юлия Викторовна

Актуальность темы. Задача обработки данных технического или естественнонаучного эксперимента очень часто заключается в подборе функциональной зависимости между двумя группами переменных, принимающих числовые значения х-,, х2, ., хп и y1t у2, ., ут, которые можно объединить в векторы х, у. Одна из переменных, х - независима и неслучайна, известна точно и влияет на значения второй, у. В литературе, например, в [1], значения xh i = 1,n независимой переменной (аргумента), в которых проводятся измерения, называют узлами, а значения зависимой (отклика) значения ук, к = 1,т - опытными значениями, зависящими от Xj.

Таким образом, исходными данными являются пары значений (xj, уj), i = 1,п, которые являются результатами измерений. В общем случае число узлов может отличаться от числа откликов, так как измерения могут проводиться несколько раз в одном и том же узле, т.е. n < т.

Будем предполагать, что наблюдаемые (опытные) значения отклика являются суммой значения какой-либо функции в узле и значения некоторой случайной величины s:

У( =f(xj)+Si, i = 1,п. (1)

При этом, согласно [1], случайное слагаемое в, отражает либо присущую отклику изменчивость, либо влияние на него одного или нескольких неучтенных факторов, либо то и другое вместе. Случайную величину s называют ошибкой эксперимента, подразумевая несовершенство метода измерения у, что может включать в себя недостаточную точность измерительных устройств, сбой аппаратуры, ошибки оператора и подобные этим причины.

В классическом регрессионном анализе предполагается, что: а) все опыты проводятся независимо друг от друга, т.е. случайное слагаемое в одном опыте не влияет на результат другого опыта; б) случайные составляющие принадлежат к одному распределению с конечной дисперсией.

Далее мы должны определить семейство моделей f(х,в), предполагая, что оно является параметрическим, где 0 е 0 - вектор-параметр семейства, и функция f(x,§) линейно зависит от параметра 0. Тогда соотношение (1) можно представить в следующем виде:

У( =f(Xj, 0)+ 8j, i = 1, n.

Отсюда типичная задача линейного регрессионного анализа - восстановление зависимости у от х при сделанных выше предположениях, эквивалентна поиску оценки параметра 0 (0) по исходным данным х|, у,), i = 1,n. Знание 0 позволяет предсказывать значение отклика по заданному значению фактора.

Решение такой задачи не будет полным без использования методов математической и прикладной статистики, которые широко применяются в современной инженерной практике. При этом инженерам нужны по возможности простые и наглядные, но достаточно строгие и правильные решения и рекомендации. Можно сказать, что наибольшей популярностью в анализе данных пользуется графический метод.

Во многих случаях построение различного рода графиков и диаграмм оказывается весьма эффективным средством исследования [2-5]. Известный статистик Дж.Тьюки посвятил построению различных графиков и диаграмм книгу объемом около 700 страниц [2]! Уместно также привести высказывание другого крупного статистика Дж.Себера: «Представляется., что графики являются более информативными, чем соответствующие им критерии, так что построение критериев после построения графиков может оказаться и не нужным. С другой стороны, требуется достаточное мастерство в интерпретации графиков» [3, с. 168].

Графические методы важны как в предварительном анализе данных, так и в представлении окончательных выводов. Графический анализ помогает также и при интерпретации [4, 6].

Когда графические методы используются на стадии предварительного анализа, точная форма выбираемого расположения решающего значения не имеет. Например, в качестве минимального предварительного анализа данных можно рассматривать график точек (xh У|) [6]. Как правило, такой анализ указывает, например, целесообразно ли какое-нибудь преобразование переменных до анализа в терминах модели или существуют ли изолированные резко выделяющиеся наблюдения, для включения или исключения которых необходимы специальные исследования. После анализа данных в предположении справедливости модели необходимо вычислить остаточные разности, то есть разности между наблюденными значениями и значениями, оцененными на основе модели. Далее, численный или графический анализ этих остатков может дать возможность предложить другое семейство моделей. Исходное семейство может оказаться слишком сложным, и, возможно, есть надежда перейти к более простому семейству, содержащему, например, значительно меньше неизвестных параметров.

С другой стороны, при заключительном представлении выводов желательно тщательное соблюдение формата графиков. При этом в [4] предлагается придерживаться следующих рекомендаций: на осях должны быть четко обозначены названия переменных и единиц измерения; должны использоваться разрывы осей для обозначения «искусственного» начала координат; сравнение сходных программ нужно облегчить, используя, например, идентичные шкалы для их представления и располагая сходные диаграммы на одной и той же странице или развороте страниц; ф — шкалы нужно выбирать так, чтобы точные и приближенно линейные

Ч' зависимости рисовались бы приблизительно под углом 45° к координатным осям; надписи должны, насколько это возможно, превращать диаграммы в почти не требующий дополнительных разъяснений материал анализа, то есть, независимый от текста; на интерпретацию не должна влиять техника представления результатов; на один график не следует помещать слишком много информации: нанесением ли слишком большого числа точек или сопровождением чрезмерно обширной дополнительной информацией.

В задачах обработки экспериментальных данных наряду с графическими методами широко используются и методы, основанные на количественных характеристиках величин. Поэтому работа посвящена не только анализу графиков и диаграмм, но и исследованию существующих и разработке новых критериев, которые можно применить в исследовании поведения остатков.

Регрессионный анализ считается неполным без анализа остатков ej построенной регрессионной модели (эмпирической зависимости), т.е. раз

• ностей значений отклика у, и значений эмпирической зависимости у(х}) здесь и далее у(х) = f(x, в)) в каждом узле xji ei = У\~ y(xi )• (2)

В литературе (например, в [7], [8] (ссылка по [7])) также рассматриваются так называемые «стьюдентизированные» (dj) и «шкалированные» (Cj) в- в- в- -остатки: dj = , ' Cj = ' -= '-, где D(ej) - оценка диспер

VD(ei) рср(е) о2П-р

V р п сии обычного остатка a Dcp(e) - средняя по всем узлам оценка дисперсии остатков, Sp - оценка дисперсии опытных данных (остаточная дисперсия), р - число параметров модели.

С помощью анализа остатков решаются следующие задачи: адекватна ли модель опытным данным; верны ли предположения об ошибках (например, независимы ли они, распределены ли нормально и т.д.); есть ли среди обрабатываемых данных промахи (измерения, содержащие грубую ошибку).

Здесь же необходимо отметить, что остатки представляют своего рода «оценку» случайных ошибок.

Хотя классический регрессионный анализ считается завершенной конструкцией и исследованию остатков посвящено множество работ известных статистиков Дж. Тьюки, Дж. Анскомба, Н. Дрейпера, Г. Смита, Дж. Се-бера, Дж. Элленберга и других, в базовых положениях о поведении остатков нет четкости и математической строгости, встречаются такие слова, как «вероятно», «с большой долей вероятности», «по-видимому».

Так, известно, что остатки распределены нормально в каждом узле, но в совокупности не являются выборкой (совокупностью независимых, одинаково распределенных случайных величин), т.к. они коррелированны между собой, и дисперсии в каждом отдельном узле неодинаковы. Однако поскольку считается, что при большом числе узлов корреляция между остатками слаба, и дисперсии остатков «практически» равны, то к ним можно относиться, как к выборке, и, следовательно, к совокупности остатков можно применять выборочные методы исследования. Таким образом, учитывать ли особенности поведения остатков должен решать сам исследователь, что при отсутствии соответствующего опыта, скорее всего, приведет к ошибочным выводам.

Автором проанализировано влияние корреляции между остатками на их поведение, с целью дать практически реализуемые рекомендации для решения вышеупомянутых задач.

Постановка задачи. Оставаясь в рамках классического регрессионного анализа, уточним статистическую задачу, которая будет рассматриваться в работе. Пусть задан массив пар значений (х,,у,), i = 1, 2,., п. Значения аргумента xf известны точно, а значения отклика yj содержат только случайные ошибки: =У|-Уо(х|). (3) т.е. У| = y0(xj)+ 6j, где y0(xj) - истинное значение в узле х,.

Относительно ошибок Sj предположим, что они подчиняются схеме Гаусса-Маркова: а) центрированы, т.е. их математическое ожидание равно нулю, М(е,) = 0; б) гомоскедастичны, т.е. данные yj равноточны, их дисперсии в разных узлах одинаковы, D(y,) = D(sj) = а2; в) ошибки в разных узлах некоррелированы, т.е. cov(sj,8k) = 0, i^k и распределены нормально.

Относительно неизвестной истинной зависимости у0(х) сделаем общепринятые предположения: а) истинная зависимость существует в виде непрерывной дифференцируемой функции во всем диапазоне изменения аргумента, т.е. у0(х)еС1[х1, хп]; б)она представима в виде

Уо(х) - Zajfj(x)> (4) j=i где aj - неизвестные истинные параметры, число которых р0 полагается известным, a fj(х) - известные функции (базисные функции).

Иными словами, истинная зависимость представима в виде линейной комбинации базисных функций. В случае метода наименьших квадратов чаще всего применяют модель полиномиального вида у0(х) = Р(х) = а0 + а-|Х + . + amxm, где коэффициенты а0, а-,,. ат подлежат оценке методом наименьших квадратов [9]. Обычно говорится, что если на самом деле верна другая модель у0(х) = д(х), где непрерывная на отрезке функция д(х) отлична от многочлена, то можно воспользоваться теоремой Вейерштрасса (например, [10]), в силу которой функцию д(х) можно приблизить многочленом Р(х) с любой точностью. Но ссылка на теорему Вейерштрасса здесь не совсем уместна, потому что любая непрерывная функция согласно этой теореме может быть приближена многочленом достаточно высокой степени. На практике, однако, степень m многочлена Р(х) стараются выбирать не высокой, а низкой. Действительно, если п - число экспериментальных точек, то многочлен степени (п -1) пройдет через все точки (хь y-J (х2> у2), ••• ,(хт уп). включив тем самым случайные ошибки s-,, s2,., еп. Авторы [11] отмечают, что «при ограниченных объемах выборки . с увеличением сложности модели . точность оценивания падает». Таким образом, многочлен более высокой степени оказывается дальше от истины, чем многочлен более низкой степени.

В рамках сделанных выше предположений регрессионную модель истинной зависимости (4) естественно записать в виде

9(x) = iajfj(x)J (5) j=i где неизвестные коэффициенты находят по массиву данных (х|, у|) , i = 1, 2,., п методом наименьших квадратов, а число р определяют с помощью статистических критериев.

В работе в качестве базисных функций fj(x) использовались ортонормированные на системе узлов базисные функции \|/j(x), такие, что

V Л, W \ [0 при j ^ I l4'j(XiVi(Xi)= , . (6)

М J [1 при J = I

В качестве \|/j(x) в работе были использованы ортонормированные полиномы Чебышева дискретного переменного. Этот выбор был сделан по рекомендации авторов [10 - 14]. Был реализован следующий метод: сначала были построены ортогональные полиномы Чебышева h(x) = 1, ф2 = х-х. Далее полиномы строились по следующей рекуррентной формуле: h(x) = x'-1-Zi=L--фк(х), к=1 1Фк2М i=l

1 п где х = -£х, - среднее значение по узлам, j = 3, р. Затем проводилась П их нормировка:

VjW = т==' J =РhfM i=1

Таким образом, мы вместо модели (5) будем рассматривать модель р y(x)=y>j\|/j(x), (7) j=i где ©j =Zyill/j(xi) " МНК-оценки некоторых преобразованных к ортонорi=1 мированному базису истинных параметров со,.

Использование ортонормированных полиномов дает существенные преимущества: резко упрощаются вычисления; результаты приобретают наглядность; МНК-оценки параметров coj в (7) оказываются статистически независимыми и распределенными (при сделанных выше предположениях об ошибках) по закону N(c0j,a2) и т.д. [15-17].

Такое преобразование модели всегда возможно, если выполняется первое предположение об истинной зависимости у0(х). Если исходная модель является полиномом (а это наиболее распространенный на практике случай), то и число р в моделях (5) и (7) совпадает. Более подробно проблема выбора числа параметров модели будет затронута ниже.

Итак, задача будет состоять в анализе поведения остатков при разном числе параметров р, построении и исследовании интервала для остатков, полученных по одной серии измерений, выводе формулы коэффициента корреляции между остатками в произвольных узлах, выводе выражений для плотности распределения остатков при разных числах степеней свободы, написании программ для вычисления коэффициента корреляции, остатков и интервалов для них.

Таким образом, работа посвящена стохастическому моделированию [18], где неизвестные факторы - ошибки Sj, являются случайными величинами, для которых известны вид функции распределения и математическое ожидание.

Цель работы. Целью диссертационной работы является исследование существующих и разработка новых методов анализа остатков, изучение интервала для остатков, полученных по одной серии измерений, вывод формулы коэффициента корреляции между остатками в произвольных узлах, вывод выражений для плотности распределения стьюдентизирован-ных остатков при разных числах степеней свободы, написание программ для вычисления коэффициента корреляции между остатками, остатков и

12 интервалов для них, а также исследование возможности применения полученных результатов в процессе обработки данных методом регрессионного анализа.

Объектом исследования являются проблемы, распространенные в практике регрессионного анализа, а именно в анализе остатков, связанные с тем, что совокупность остатков - это система коррелированных случайных величин.

Предмет исследования - поведение остатков полиномиальной регрессионной модели, полученных по одной серии измерений, с изменением числа степеней свободы остаточной дисперсии регрессионной модели (число степеней свободы равно n-р, где п - число узлов, р - число параметров).

Методика исследования. При решении поставленных задач были использованы методы математической статистики, а также математический эксперимент. Теоретические выкладки были проиллюстрированы методом математического эксперимента: сгенерированные непосредственно компьютером данные для обработки затем были исследованы согласно положениям регрессионного анализа и анализа остатков. В процессе реализации метода регрессионного анализа данных был применен метод наименьших квадратов (МНК) с использованием ортогональных и ортонорми-рованных полиномов Чебышева. Графический метод был использован непосредственно в анализе остатков.

Автор выносит на защиту следующие положения и результаты: выведенная формула для вычисления коэффициента корреляции остатков несмещенной линейной по параметрам полиномиальной регрессионной модели, использующая ортонормированные полиномы Чебышева; исследование интервалов для остатков регрессионной модели, полученных по одной серии измерений, сравнение их с широко известными t-интервалами; рекомендации для решения проблемы выявления промахов по графикам остатков с учетом их коррелированности; выведенная общая формула для функции плотности распределения стьюдентизированных остатков, полученных по одной серии измерений, зависящая от числа степеней свободы остаточной дисперсии, а также иллюстрация ее частных случаев для малых чисел степеней свободы; варианты программной реализации теоретических результатов в задаче регрессионного анализа экспериментальных данных, зарегистрированные во Всероссийском научно-техническом информационном центре [19-20], а также их сравнение с уже существующими алгоритмами, реализованными в программных пакетах обработки данных SPSS и StatSoft Statistica.

Структура и объем диссертации. Диссертации состоит из введения, шести глав, заключения и двух приложений, иллюстрированных рисунками, таблицами и графиками. Библиографический список включает 56 наименований.

Заключение диссертация на тему "Исследование поведения остатков линейной по параметрам полиномиальной регрессионной модели"

ЗАКЛЮЧЕНИЕ

В результате выполненной работы был сделан аналитический обзор литературы по заданной теме, позволивший сформулировать задачи исследования, получены и проанализированы новые данные, относящиеся к исследованию остатков. В работе остатки рассматриваются как система коррелированных случайных величин, распределенных нормально с математическим ожиданием 0 и различной дисперсией в разных узлах, в отличие от широко распространенного подхода к ним как к выборке. Исходя из этого, автору удалось получить результаты, уточняющие некоторые положения теории регрессионного анализа, помогающие понять поведение остатков, а следовательно, и применять полученные знания в инженерной практике, анализе технических и естественнонаучных экспериментов, а также в математической статистике при уточнении известных и разработке новых статистических методов анализа.

Подведем итоги выполненных исследований.

1. Предложенная формула для вычисления коэффициента корреляции между остатками несмещенной линейной по параметрам полиномиальной регрессионной модели позволяет исследователю оценить зависимость остатков до проведения эксперимента. Следовательно, экспериментатор может планировать опыт с целью уменьшения корреляции остатков, что в свою очередь, даст возможность сделать более правильные выводы об адекватности модели данным, существовании промахов среди измерений, истинности предположений об ошибках.

Важным следствием из этой формулы является вывод о том, что для выборки (р = 1, v|/-|(Xj) = -p=) коэффициент корреляции для выборочных л/П остатков равен--, где п - объем выборки. Это ставит под сомнение п-1 принятое в метрологической практике правило считать многократные измерения при п > 4, т.к. р(в|, ек) = -0.33(3).

2. В работе исследованы точные выражения для интервалов для остатков регрессионной модели. Отмечено, что остатки (в одной серии измерений) не имеют t-распределения, как считалось до сих пор. Причем распределение стьюдентизированных остатков, полученных в одной серии измерений, зависит от числа степеней свободы остаточной дисперсии. Подтверждено, что с ростом v распределение стьюдентизированных остатков стремится к стандартному нормальному распределению.

3. Разработанная процедура выявления промахов в совокупности остатков при малых числах степеней свободы остаточной дисперсии, учитывающая их корреляцию между собой и различные дисперсии в разных узлах, использует не только точные интервалы для остатков, но и значения коэффициента корреляции, предлагает цензурирование выборки наблюдений и последующую обработку данных без наблюдения, соответствующего подозрительному остатку.

4. Выведенная функция плотности вероятности стьюдентизированных остатков, полученных по единственной серии измерений, позволяет узнать их распределение даже до проведения эксперимента (если можно предположить число параметров модели). Следовательно, исследователь, зная закон распределения, сможет более точно анализировать их поведение.

5. Разработана и зарегистрирована во ВНТИЦ [19] программа вычисления коэффициента корреляции остатков несмещенной полиномиальной регрессионной модели, линейной по параметрам.

6. Разработана и зарегистрирована во ВНТИЦ [20] программа обработки опытных данных методом регрессионного анализа с построением эмпирической зависимости полиномиального вида, линейной по параметрам, вычислением остатков и построением интервалов для них, вычислением коэффициента корреляции между остатками и построением совместных доверительных интервалов Бонферрони для истинной зависимости.

Результаты проведенных исследований позволяют более точно анализировать экспериментальные данные, а также дают направления дальнейшего изучения этого раздела регрессионного анализа. Наиболее важными из них являются: более точное оценивание погрешности эмпирической зависимости, ограничение степени полинома сверху и разработка более строгой процедуры проверки на промахи, разработка методов анализа остатков для случая, когда ошибки не имеют нормального распределения.

Научная новизна исследования. Новым результатом является формула для коэффициента корреляции между остатками для несмещенной линейной по параметрам регрессионной модели с использованием ортонорми-рованных полиномов для дискретного переменного. Показано, что модуль коэффициента корреляции принимает наибольшие значения между остатками, находящимися в крайних узлах диапазона изменения аргумента.

Важным результатом представляется зависимость коэффициента корреляции от числа степеней свободы остаточной дисперсии (чем больше число степеней свободы, тем меньше коэффициент корреляции между остатками). На основе данных работы Г.А. Иванова и И.А. Кривошеева [41] в диссертации развернуто показано и проиллюстрировано методом математического эксперимента преимущество точных интервалов для остатков перед широко распространенными t-интервалами.

Впервые получена общая формула для функции плотности распределения стьюдентизированных остатков, вычисленных по одной серии измерений, а особенно важным результатом представляется зависимость данной функции от числа степеней свободы остаточной дисперсии. При этом под одной серией измерений понимается совокупность данных, обрабатываемых совместно.

Предложенная процедура выявления промахов в совокупности остатков, позволяет обнаруживать их ниже уровня шумов на графике остатков.

Теоретическая значимость. В отличие от общепринятого подхода к остаткам как к выборке, подход к остаткам как к системе коррелированных случайных величин представляется новым. Кроме того, использование ор-тонормированных полиномов Чебышева позволяет значительно упростить и сократить теоретические выкладки, что, безусловно, удобно для использования на практике, а также для дальнейших исследований. В работе приведена формула коэффициента корреляции между остатками, что позволяет оценить зависимость этих величин. Математически доказано, что точный интервал для серии остатков уже, чем t-интервал, особенно при относительно малых числах степеней свободы. С математической точностью показано, что распределение стьюдетизированных остатков стремится к нормальному с увеличением числа степеней свободы остаточной дисперсии. Также теоретически значимой представляется общая формула плотности распределения стьюдентизированных остатков, полученных по одной серии измерений.

Практическая значимость. Несмотря на то, что использование орто-нормированных полиномов для дискретного переменного известно в регрессионном анализе, общепринятыми являются вычисления с помощью методов матричной алгебры. Однако применение ортонормированных полиномов позволило значительно упростить и сократить теоретические выкладки. Полученная формула коэффициента корреляции между остатками дает возможность исследователю оценить меру зависимости этих величин до проведения эксперимента, следовательно, данный результат может быть применен на стадии планирования опыта с целью уменьшить корреляцию остатков. Важным следствием из формулы коэффициента корреляции является вывод о том, что для выборки (число параметров модели равно 1) коэффициент корреляции для выборочных остатков равен 1

--, где п - объем выборки. Это ставит под сомнение принятое в метп-1 рологической практике правило считать многократными измерения при п > 4, т.к. р(е,, ек) =-0.33(3).

Поскольку рассмотренный точный интервал для серии остатков уже, чем широко известный t-интервал, он позволяет эффективнее выявлять промахи среди остатков даже при достаточно сильной корреляции. Автором разработана приемлемая процедура выявления промахов в совокупности остатков, учитывающая их коррелированность между собой.

Все полученные результаты сопровождаются программными реализациями в математическом пакете прикладных программ Maple 8.0 (вычисление коэффициента корреляции между остатками линейной по параметрам, несмещенной полиномиальной регрессионной модели, построение линейной по параметрам полиномиальной регрессионной модели, вычисление остатков и построение интервалов для них, построение совместных доверительных интервалов Бонферрони для истинной зависимости).

Полученные результаты публиковались в журналах, сборниках трудов, сборниках тезисов докладов региональных и международных конференций [19-20, 52-56], внедрены в научную и инженерную практику ФГУП ВНИИФТИ «Дальстандарт» и используются при обработке результатов совместных измерений и решении других метрологических задач.

Библиография Пономарчук, Юлия Викторовна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Тюрин Ю.Н. Анализ данных на компьютере / Ю.Н. Тюрин,

2. А.А. Макаров; Под ред. В.Э. Фигурнова. М.: ИНФРА-М, 2003. - 544 с.

3. Тьюки Дж. Анализ результатов наблюдений / Дж. Тьюки. М.: Мир, 1981.-693 с.

4. Себер Дж. Линейный регрессионный анализ / Дж. Себер. М.: Мир, 1980.-456 с.

5. Кокс Д.Р. Прикладная статистика: Принципы и примеры / Д.Р. Кокс, Э.Дж. Снелл; Перевод с англ. Е.В. Чепурина; Под ред. Ю.К. Беляева. М.: Мир, 1984.-200 с.

6. Мелник М. Основы прикладной статистики / М. Мелник; Перевод с англ. Л.А. Клименко, В.В. Манахина; Под ред. Г.Г. Пирогова. М.: Энерго-атомиздат, 1983. -414 с.

7. Кокс Д.Р. Теоретическая статистика / Д.Р. Кокс, Д.В. Хинкли; Перевод с англ. Е.В. Чепурина; Под ред. Ю.К. Беляева. М.: Мир, 1978. - 560 с.

8. Дрейпер Н. Прикладной регрессионный анализ. Кн. 1 / Н. Дрейпер, Г. Смит; Перевод с англ. М.: Финансы и статистика, 1986. - 366 с.

9. Behnken D.W. Residuals and Their Variance Patterns / D.W. Behnken, N.R. Draper//Technometrics. 1972. - 14. - P. 101-111.

10. Тутубалин B.H. Статистическая обработка результатов наблюдений. / B.H. Тутубалин. М.: Знание, 1973. - 64 с.

11. Демидович Б.П. Численные методы анализа. Приближение функций, дифференциальные и интегральные уравнения / Б.П. Демидович, И.А. Марон, Э.З. Шувалова. М.: Наука, 1967. - 368 с.

12. Айвазян С.А. Прикладная статистика: Исследование зависимостей: Справ, изд. / С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин; Под ред. С.А. Айвазяна. М.: Финансы и статистика, 1985. - 487 с.

13. Лебедев В.И. Функциональный анализ и вычислительная математика.: Учебное пособие / В.И. Лебедев. М.: ФИЗМАТЛИТ, 2000. - 296 с.

14. Гмурман В.Е. Теория вероятностей и математическая статистика / В.Е. Гмурман. М.: Высшая школа, 1997.

15. Хазанова Л.Э. Математическое моделирование в экономике / Л.Э. Хазанова. М.: Издательство БЕК, 1998. - 141 с.

16. Инвентарный номер ВНТИЦ 50200501154. Программа расчета коэффициента корреляции между остатками несмещенной линейной по параметрам полиномиальной регрессионной модели / Ю.В. Пономарчук. -2005.

17. Инвентарный номер ВНТИЦ 50200501153. Программа обработки ф данных методом регрессионного анализа / Ю.В. Пономарчук. 2005.

18. Levine J.H. Introduction to Data Analysis: The Rules of Evidence / J.H. Levine, T.B. Roos. Dartmouth: Dartmouth College, http://www.dartmouth.edu/ ~mss/data analysis/index.html - 1997.

19. NIST/SEMATECH e-Handbook of Statistical Methods. National1.stitute of Standards and Technology, Technology Administration, US Department of Commerce, http://www.itl.nist.gov/div898/handbook/ 2003.

20. Новицкий П.В. Оценка погрешностей результатов измерений / П.В. Новицкий, И.А. Зограф. П.: Энергоатомиздат, Ленингр. отд-ние, 1985.-248 с.

21. Джонсон Н. Статистика и планирование эксперимента в технике и науке: Методы планирования и эксперимента / Н. Джонсон, Ф. Лион; Перевод с англ.; Под ред. Э.К. Лецкого, Е.В. Марковой. М.: Мир, 1981. - 516 с.

22. Бикел П.Дж. Математическая статистика / П.Дж. Бикел, К. Доксам; Перевод с англ. Ю.А. Данилова. М.: Финансы и статистика, 1983. - 278 с.

23. Р 50.2.004 2000. Определение характеристик математических моделей зависимостей между физическими величинами при решении измерительных задач. Государственная система обеспечения единства измерений. - М.: Госстандарт России, 2000. - 12 с.

24. Справочник по прикладной статистике. Т.1 / Перевод с англ.; Под ред. Э.Ллойда, У.Ледермана, Ю.Н.Тюрина. М.: Финансы и статистика, 1989.-508 с.

25. Вучков И. Прикладной линейный регрессионный анализ / И. Вучков, Л. Бояджиева, Е. Солаков; Перевод с болг. и предисл. Ю.П. Адлера. М.: Финансы и статистика, 1987. - 238 с.

26. Anscombe F.J. The Examination and Analysis of Residuals / F.J. Anscombe, J.W. Tukey. //Technometrics. 1963. - 5. - P. 141-160.

27. Шеффе Г. Дисперсионный анализ / Г. Шеффе; Перевод с англ. Б.А. Севастьянова и В.П. Чистякова. М: Наука, 1980. - 512 с.

28. Иванов Г.А.[ Робастный критерий проверки однородности двух негауссовых выборок относительно дисперсий /|Г.А. Иванов), Ю.В. Пономарчук, Ю.Р. Чашкин // Измерительная техника. 2005. - № 2. - С. 9-12.

29. Иванов Г.А.| Статистические процедуры применения приближенного критерия равенства дисперсий при неизвестных эксцессах распределений

30. Г.А. Иванов!, Ю.В. Пономарчук, Ю.Р. Чашкин // Измерительная техника. -2005. -№ 4. -С. 7-10.

31. Anscombe F.J. Rejection of Outliers / F.J. Anscombe. // Technometrics. 1960.-2.-P. 123-147.

32. Osborne J.W. The power of outliers (and why researchers should always ф check for them) / J.W. Osborne, A. Overbay // Practical Assessment, ResearchV

33. Evaluation. 2004. - v. 9. - № 6.

34. Stefansky W. Rejecting Outliers in Factorial Designs / W. Stefansky // Technometrics. 1972. - 14. - P. 469-479.

35. Пустыльник Е.И. Статистические методы анализа и обработки наблюдений / Е.И. Пустыльник. М.: Наука, 1968. - 288 с.

36. Боровков А.А. Теория вероятностей / А.А. Боровков. М.: «Наука», 1976.-352 с.

37. Крамер Г. Математические методы статистики / Г. Крамер. М.:• Мир, 1975.-648 с.

38. Кендалл М. Статистические выводы и связи / М. Кендалл, А. Стьюарт. М.: Наука, 1973. - 890 с.

39. Иванов Г.А. Статистические методы обработки экспериментальных данных при восстановлении зависимости. / Г.А. Иванов, И.А. Кривошеев.ф Владивосток: Дальнаука, 1998. 133 с.

40. Уилкс С. Математическая статистика / С. Уилкс. М.: Мир, 1967. -632 с.

41. Худсон Д. Статистика для физиков / Д. Худсон. М.: Мир, 1970.v. 296 с.

42. Hawkins D.M. Identification of outliers / D.M. Hawkins. London: Chapman and Hall. - 1980.

43. Dixon W. J. Analysis of extreme values / W.J. Dixon // Annals of Mathematical Statistics. 1950. - 21. - P. 488-506.

44. Wainer H. Robust statistics: A survey and some prescriptions /ф H. Wainer // Journal of Educational Statistics. 1976. - 1 (4). - P.285-312.v .

45. Большев Л.Н. Таблицы математической статистики / Л.Н. Большев, Н.В. Смирнов. М.: Наука, 1983.-416 с.

46. Максимей И.В. Математическое моделирование больших систем / И.В. Максимей. Мн.: Высшая школа, 1985. - 119 с.

47. Клепиков Н.П. Анализ и планирование экспериментов методом мак-Y симума правдоподобия / Н.П. Клепиков, С.Н. Соколов. М.: Наука, 1964.184 с.

48. Пономарчук Ю.В. Восстановление зависимостей методом наименьших квадратов (регрессионный анализ) / Ю.В. Пономарчук // Материалы региональной научной конференции «Молодежь и научно-технический прогресс». Владивосток: Изд-во ДВГТУ, 2000. - С. 73-75.

49. Ponomarchuk Yu.V. On the behavior of remainders of linear regression ~r. model with increase of number of it's parameters / Yu.V. Ponomarchuk,

50. Yu.R. Chashkin // Proceedings and Abstracts of 2001 Far-Eastern School

51. Seminar on Mathematical Modeling and Numerical Analysis (FESS-MMNA'01). -Хабаровск: Изд-во ДВГУПС, 2001.-С. 129-130.

52. Пономарчук Ю.В. О проблеме обнаружения промахов по графикам остатков / Ю.В. Пономарчук, Ю.Р. Чашкин // Труды 60-ой региональной научно-практической конф. творческой молодежи 10-11 апреля 2002 г. Хабаровск: изд-во ДВГУПС, 2002. - Т. 2. - С. 209-211.

53. Иванов Г.А. Плотность распределения стьюдентизированных остатков регрессионной модели, полученных по одной серии измерений / Г.А. Иванов, Ю.В. Пономарчук, Ю.Р. Чашкин // Метрология. 2002. - № 11. -С. 3-10.т