автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Проверка адекватности регрессионных схем непараметрическими методами
Автореферат диссертации по теме "Проверка адекватности регрессионных схем непараметрическими методами"
московский государственный авиационныи институт
_(технический университет)_
Р Г 5 ОД
2 2 ДПР 1998 На правах рукописи
удк 519.22
ГОРЯИНОВА Елена Рудольфовна
ПРОВЕРКА АДЕКВАТНОСТИ РЕГРЕССИОННЫХ СХЕМ НЕПАРАМЕТРИЧЕСКИМИ МЕТОДАМИ
Специальность 05.13.16 - Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях
Автореферат диссертации на соискание ученой степени кандидата физико-математических наук
Москва - 1996
Работа выполнена на кафедре теории вероятностей факультета прикладной математики Московского государственного авиационного института
Научный руководитель — кандидат физико-математических наук
доцент М.В. Болдин
Официальные оппоненты — доктор физико-математических наук
профессор A.B. Бернштейн
— кандидат технических наук
старший научный сотрудник М.Е. Шайкин
Ведущая организация — Институт космических исследований РАН
Защита состоится « » $ju4Z*£L- 1996 года в ¿О часов на заседании диссертационного Совета ССД 053.04.11 Московского государственного авиационного института по адресу: 125871, Москва, ГСП, Волоколамское шоссе, 4.
С диссертацией можно ознакомиться в библиотеке Московского государственного авиационного института.
Автореферат разослан «
iS » Оуп^млЯ-- 1996 года.
Отзывы просим направлять в двух экземплярах, заверенных печатью, по адресу: 125871, Москва, ГСП, Волоколамское шоссе, 4.
Ученый секретарь диссертационного совета доктор физико-математичес: профессор
Аржененко
Актуальность работы
Во многих областях науки и техники встречаются явления, которые важно изучать в их развитии и изменении во времени. Временные ряды, то есть совокупности упорядоченных во времени измерений некоторой переменной, распространены в геофизике (метеорология, сейсмология), медицинских исследованиях (электрокардиограммы, ряды заболеваемости), экономике (ряд изменения цен), демографии (прирост населения), технических дисциплинах (оценивание траекторий летательных аппаратов, управление производственными процессами). Статистический анализ временных рядов, основными задачами которого являются адекватное описание структуры и прогнозирование временного ряда, начал развиваться в сороковых годах. К настоящему моменту хорошо известны классические процедуры, разработанные Т.Андерсоном, Дж.Дурбиным, Э.Хеннаном, Дж.Боксом и Г. Дженкинсом, позволяющие решать задачи идентификации и прогнозирования моделей временных рядов, описываемых уравнениями авторегрессии-скользящего среднего (АРСС). Эти процедуры являются асимптотически эффективными, если процессы АРСС моделируются гауссовскими шумами. Я.З.Цыпкиным и Б.Т. Поляком построены минимаксные на классе распределений шумов алгоритмы оценивания параметров моделей АРСС и рассмотрены методы идентификации для некоторых типовых классов распределений. На практике, как правило, даже класс распределения шумов бывает неизвестен. С этим связана потребность в разработке соответствующих непараметрических процедур. Асимптотически эффективные оценки параметров моделей АРСС в условиях непараметрической модели шумов построены Дж.П. Крейссом с использованием адаптивного подхода. Существование этих оценок доказано при условии симметричной плотности и конечного четвертого момента шумов. Однако, многие экономические данные, например, колебание цен на сельскохозяйственную продукцию, описываются временными рядами с бесконечной дисперсией. Непараметрические знаковые процедуры для модели авторегрессии с бесконечной дисперсией шумов разработаны Ю.Н.Тюриным и М.В. Болдиным. Представляется актуальным распространение указанных подходов на другие классы моделей временных рядов и, в частности, на модели скользящего среднего.
Кроме того, многочисленные исследования указывают на то, что любые реальные данные содержат аномальные ошибки, к наличию которых классические процедуры весьма чувствительны. В связи с этим возникает необходимость в разработке робастных методов, которые лишь незначительно уступают в эффективности классическим методам при точном выполнении условий их оптимальности, и, в отличие от них, сохраняют достаточно высокую эффективность при нарушении
этих условий.
К числу методов, обладающих свойством робастности, принадлежат знаковые методы. Оптимальные знаковые процедуры разработаны и применяются при решении многочисленных статистических проблем: в задачах проверки гипотезы о симметрии плотности распределения независимых случайных величин (Э.Леман); проверки гипотезы о сдвиге в одновыборочной задаче (Р.Фишер); проверке гипотез о сдвиге в двувыборочной задаче (А.П.Муд); проверки гипотез и оценивания в модели линейной регрессии с независимыми погрешностями (Ю.Н.Тюрин) и в модели авторегрессии (Ю.Н.Тюрин и М.В.Болдин).
Настоящая работа посвящена разработке оптимальных знаковых методов идентификации моделей скользящего среднего (СС) и моделей линейной регрессии с автокоррелированными погрешностями в условиях априорной статистической неопределенности непараметрического типа.
Цели и задачи работы
Целью работы является построение асимптотических и точных (для выборок конечного объема) знаковых критериев для проверки адекватности описания наблюдений моделями СС и линейной регрессии с коррелированными погрешностями при неизвестном распределении шумов.
Для достижения сформулированной цели ставятся следующие задачи:
— построить асимптотические и точные локально оптимальные знаковые критерии для проверки гипотезы о независимости наблюдений против различных альтернатив об их автокоррелированности;
— построить знаковый критерий для проверки адекватности описания наблюдений уравнением СС заданного порядка и оценить коэффициенты этого уравнения;
— построить знаковые критерии для проверки адекватности описания данных схемами линейной регрессии с автокоррелированными шумами в случае, когда альтернативные схемы имеют число неизвестных параметров равное числу наблюдений.
Методы исследования
В работе использованы современные методы теории вероятностей, теории случайных процессов, математической статистики, а также методы математического моделирования на ЭВМ.
Научная новизна
В работе получены следующие новые научные результаты:
— построена знаковая оценка вектора неизвестных параметров
уравнения СС без предположения о конечности дисперсии шумов, моделирующих процесс СС;
— найдено асимптотическое распределение построенной оценки и вычислена ее асимптотическая эффективность;
— вычислен функционал влияния знаковой оценки, доказана ее ро-бастность;
— установлена оптимальность знаковых критериев для проверки гипотезы о независимости наблюдений против альтернативы об их ав-токоррелированности;
— доказано, что построенные знаковые критерии являются свободными от распределения шумов.
Практическая ценность
Разработаны алгоритмы и программное обеспечение для ЭВМ, позволяющие решать задачи идентификации динамических объектов, описываемых уравнениями СС. Компьютерные программы применены для описания динамики и прогнозирования эпидемического процесса гепатита А в г.Новомосковске Тульской области.
Апробация работы
Материалы диссертации докладывались и обсуждались на Зеи Всесоюзной школе-семинаре «Динамика полета, управление и исследование операций» в 1990 году, на семинаре кафедры «Теория вероятностей» механико-математического факультета МГУ (руководитель проф. Ю.К. Беляев) в 1993 году и на научных семинарах кафедры «Теория вероятностей» МАИ. Материалы третьей главы опубликованы в трудах Международной конференции «Signals and Systems» в Варшаве в 1991 году.
Публикации
По теме диссертации опубликовано 5 печатных работ. Структура и объем работы
Диссертация состоит из введения, четырех глав и заключения. Содержание работы изложено на 195 страницах машинописного текста, иллюстрированного 9 рисунками и 5 таблицами. Список использованных источников составляет 87 наименований.
Содержание диссертации
Во введении дан обзор современного состояния проблемы и кратко изложено содержание диссертации.
В первой главе исследуется стационарная последовательность
«1,И2, • • •, Un,
описываемая уравнением СС первого порядка
щ = е,- + «£,•_ 1, |а| < 1, г = 0, ±1, ±2,... (1)
где Si — независимые одинаково распределенные случайные величины с неизвестной функцией распределения такой, что G(0) = 0,5 и
Ее 1 = 0.
В §1.2 построен локально наиболее мощный (JIHM) критерий в классе всех знаковых критериев для проверки гипотезы Но : а = 0 о независимости наблюдений, против односторонних альтернатив Н\ : а > 0 и Н2 : а < 0. Эти критерии построены в условиях неизвестной функции распределения G(x) и без предположения о конечности дисперсии шумов. Они основаны на статистике
п
7i = sk = sign(ufc), к = 1,2,..., п.
к= 2
В теореме 1.1 указан вид критериев и распределение статистики 71, которое даже при конечном объеме выборки не зависит от G(x), принадлежащей некоторому непараметрическому семейству распределений ¡С. При больших объемах выборок для получения требуемых квантилей используется нормальная аппроксимация.
В §1.3 построен JIHM несмещенный знаковый критерий для проверки гипотезы Но против двусторонней альтернативы Нз : а ф 0. В теореме 1.2 установлено точное и асимптотическое распределение соответствующей этому критерию статистики.
В §1.4 предложен знаковый критерий для проверки гипотезы Но о том, что наблюдения описываются уравнением (1), в котором а = а о есть известный коэффициент, против альтернативы
Н4:а=ао + Кп-1/2,
где К — некоторая постоянная. В теореме 1.3 установлено асимптотическое распределение статистики этого критерия при гипотезе и альтернативе Н4.
В §1.5 строится знаковая оценка неизвестного параметра а уравнения (1). Леманомбыло показано, что непараметрические оценки «наследуют» свойства порождающих их критериев, поэтому знаковая оценка строится на основе некоторого знакового критерия, который обладает свойствами оптимальности. Введем случайную функцию
п
71 (/?) = п-1'2 sign {Р) sign 1 (/?), k = 2
где
£к{Р) = и*-/?£*_!(/?), £о(/3)=0, А = 1.....г», |/?|<1.
Асимптотически статистика (/?) при /3 = 0 совпадает со статистикой ЛНМ несмещенного критерия для проверки гипотезы Но : а = 0, а при (3 = ао статистика 71(0:0) совпадает со статистикой для проверки гипотезы Но : а = ао против альтернативы Д4. В качестве знаковой оценки а* параметра а предлагается рассматривать решение уравнения
71(0)4-0, Щ < 1, (2)
где символ означает, что под решением понимаются те значения /?, в которых ступенчатая функция 71 (0) переходит через точку 0. Обосновывает такое определение оценки а*п теорема 1.4, которая устанавливает равномерную сходимость на компакте [—Л, с/], 0 < в, < 1, случайной функции п~1^2'у(Р) к неслучайной непрерывной функции А(/?), такой что А(а) = 0, где а — истинное значение параметра модели СС(1). В §1.5 вычислена производная функции А(/3) в точке а
А'0%=в = -2О'(0)Я|е1|< 0,
а полученные путем моделирования графики функции 71(/3) показывают, что А(/?) имеет единственный ноль в интервале (—1,1).
Таким образом, из теоремы 1.4 следует состоятельность оценки а* . Вычисление оценки а* может быть проведено с помощью стандартной численной процедуры деления отрезка пополам, которая позволяет найти ноль функции 71 (/?).
В теореме 1.5 доказано существование оценки а* и найдено ее асимптотическое распределение, что позволяет строить доверительные интервалы для параметра а.
В §1.6 вычислена асимптотическая эффективность по Питмену ЛНМ знакового критерия для проверки гипотезы Но : а = 0 против Н1 : а > 0. Асимптотическая эффективность критерия 71 есть
Асимптотической относительной эффективностью е(а*,а) оценки а* к а назовем отношение дисперсий предельных распределений этих оценок. В §1.7 исследована асимптотическая относительная эффективность знаковой оценки а* к оценке максимального правдоподобия а, оценке Хеннана а,, Дурбина а<г и оценке ат, полученной методом моментов.
Показано, что если 3{д) — информация Фишера распределения С, сг2 — дисперсия еь С = 2С(0)Е\е1\, то
е(а*п,а)=С2(1-а2и-1(д)а-1,
еК.З^еК.З^^!-«2),
еК,2т) = С2(1 + а2 + 4а4 + а6 + а8)(1 - а2)"2. В частности, если С — гауссовское распределение, то
е(а*, а) = е(а*,аг) = е(а*, ал) = 4тг"2(1 - а2).
Если С — распределение Лапласа, то
е«>3») = е«>2<г) = 1 - а2,
и при а = 0 эффективности а*, а5 и а^ равны. Если С — распределение Тьюки с плотностью
= ЛЕ ((1 "Л)ехр ("£) + ("5ЛР)) ■
ТО
е«, 3.) = е(а*п!ал) = 4тГ2(1 - а2)(1 - 6 + 6к)2( 1 - <5 + 5/к)2
и при больших к, то есть для распределений с «тяжелыми хвостами», е(а*, а5) существенно больше 1. Отметим, что модель Тьнжи является стандартной для описания ситуации, когда измерения содержат «выбросы» (аномальные наблюдения). Численные значения е(а* , а,) для различных а, 6 и к приведены в таблице 1.
Таблица 1.
а 0.0 0.4 0.8
X 10 50 100 10 50 100 10 50 100
0.05 0.78 4.4 12 0.65 3.7 И 0.28 1.6 4.7
0.1 1.21 И 39 1.02 9.6 33 0.44 4.1 14
В §1.8 исследуется робастность знаковой оценки а* при «загрязнении» наблюдений щ независимыми аддитивными «выбросами». Пусть при наличии загрязнений наблюдаются случайные величины у1, ■ ■■ ,Уп вида
= щ + (3)
где щ описываются уравнением (1), г/ имеет распределение Бернулли с вероятностью успеха 6, ш,- — «загрязняющий» стационарный эргодиче-ский процесс с конечным математическим ожиданием. Последовательности щ, г,- и ю( — независимы между собой.
Количественной характеристикой робастности оценки является функционал влияния, который измеряет асимптотическое смещение
оценки, вызываемое определенным типом «загрязнения» в наблюдениях. Если функционал влияния ограничен, то это смещение не может быть сколь угодно большим, и оценка является робастной.
В теореме 1.6 вычислен функционал влияния оценки а* при «загрязнении» вида (3) и доказана его ограниченность.
В §1.8 устойчивость знаковой оценки проиллюстрирована численным примером. Методом Монте-Карло смоделирована случайная последовательность г>200) такая что
_ Г щ + К, г = 100
г" ^ 100,
где щ удовлетворяют уравнению СС (1), в котором е,- — независимые гауссовские случайные величины с нулевым математическим ожиданием и дисперсией 3, а Л' — некоторое неслучайное число. По наблюдениям VI,..., г>2оо была вычислена знаковая оценка а* и оценка наименьших модулей а„ параметра а уравнения СС(1). Полученные результаты для различных а и К представлены в таблице 2.
Таблица 2.
а -0.1 0.2 0.5 0.8
К ап < а„ < <*п < (*п <
10 -0.12 -0.20 0.27 0.27 0.36 0.40 0.69 0.76
100 -0.02 -0.19 0.03 0.12 0.12 0.46 0.34 0.72
1000 0.00 -0.06 0.00 0.06 0.00 0.55 0.00 0.47
Из таблицы 2 видно, что при «засорении» наблюдений единичным неслучайным выбросом оценка, построенная по методу наименьших модулей, претерпевает сильные искажения, а знаковая оценка а* этого «выброса» практически не чувствует. Заметим, что этот пример описывает ситуацию неправильно поставленного десятичного знака при вводе данных в ЭВМ.
Во второй главе рассматривается минимально-фазовая модель СС порядка д (СС(д)):
ui=ei+a 1£,-_1 + ... +аде,-_д, г = 0, ±1, ±2,... (4)
где и1,...,ип — наблюдения, £¿ — независимые одинаково распределенные случайные величины с неизвестной функцией распределения такой что С?(0) = 1/2 и Ее\ = 0, а = (ах,..., ад) — вектор неизвестных параметров, такой, что все корни характеристического уравнения
я
^а^--7'= 0, а0 = 1, (5)
лежат внутри единичного круга.
В §2.1 построены асимптотические и точные JIHM в классе всех знаковых критерии для проверки гипотезы Но : («i,..., aq) = 0 о независимости наблюдений и\,... ,ип против частных односторонних альтернатив Hij : aj > 0 и #2j '• Oj < 0 и ЛНМ несмещенные знаковые критерии для проверки Но против частных двусторонних альтернатив H3j : aj ф 0, j = 1,..., q.
В §2.1 доказано, что асимптотический критерий, основанный на статистике
T* = f¡ + ... + 7g2,
где
п
7t = n~1/2 sign uh sign Uk-t, fc=t+l
имеет наибольшую среди всех знаковых критериев среднюю кривизну функции мощности в окрестности точки а = 0. В этом смысле критерий Тд является локально-оптимальным в классе знаковых для проверки гипотезы Но : а = 0 против На а ф 0.
В этом параграфе предложен также критерий для проверки гипотезы Но '■ а = а0, где а0 = ... ,а°) есть известный вектор, против альтернативы
НА:а = а° + К/у/И,
где К — (К i,..., Kq), Kj, j = 1,... ,q — некоторые неизвестные постоянные. Этот критерий основан на статистике
T9V)=712(«0) + -.- + 792(a°),
где
П
7t(a°) = и'1'2 Y, signet (a0) sign ek-t{a°), t = l,...,q, k=t+1
efc(a°) = uk- a\ek_ i(a°) - ... - a°qek^q(a°), k-l,...,n,
£o(a°) = ... — £i_g(a°) = 0.
Асимптотическое распределение статистики T2(a°) при гипотезе и альтернативе найдено. Статистика Т2(а°) при а — 0 совпадает со статистикой локально-оптимального асимптотического знакового критерия для проверки гипотезы о независимости Но : а = 0.
В §2.2 доказана теорема 2.2, которая устанавливает локальное асимптотическое разложение случайной функции 7t(/3), t = 1,... ,q.
Определим числовую последовательность
я
ак = — ^^ ajak-j при к > О, ао = 1, ак = 0 при к < О, j=i
векторы-столбцы 7 = (71,... ,fq)T, ~у(а) = (7!(а),..., 7д(а))т и q х q матрицу А с элементами A{j = a,_j, i,j = l,...,q.
Теорема 2.2. Пусть функция G(x) удовлетворяет условиям
С(0) = 1/2, G'(0) > 0, £?ei = 0, supG» < 00,
X
Е|ei|1+á < 00 для некоторого 8 > О, |G'(xi) — G'(x2)I < L\x\ — ж2| для некоторого L > 0.
Если оценка 2n = (3i„,..., aq„) такова, что \fñ(an — а) = Ор(1) при п —> оо, то для 7(S,i) справедливо следующее асимптотическое разложение:
7(3„) = 7 + nl¡2CA{an - а) + ор(1),. С = -2G'{Q)E\Sl\.
В §2.3 без предположения о конечности дисперсии шумов построена знаковая оценка неизвестного параметра а. Определяется указанная оценка ап = (ai„,..., aqn) как решение экстремальной задачи
T2(¡3)^ пип, (6)
где вектор /3 = (/?i,..., ¡3q) удовлетворяет условию минимальной фа-зовости (5). Однако при q > 1 даже численное решение задачи (6) затруднительно из-за немонотонности функций 7t(/?)- Поэтому при q > 1 задача (6) не решается непосредственно, а строится оценка а* асимптотически эквивалентная (в смысле предельного распределения) оценке ап. В теореме 2.3 найдено асимптотическое распределение оценки ап. В качестве оценки а* предлагается использовать
а*п =ап-п-1/2С~1А-17(ап),
где ап = (Sin,... ,адп) — любая ^/ñ-состоятельная оценка параметра а, матрица А получена из матрицы А путем замены ее элементов на их -^/ñ-состоятельные оценки а^, a С — -y/ñ-состоятельная оценка С — —2G'(0)E\£i\. В лемме 2.6 доказано, что в условиях теоремы 2.2 предельные распределения оценок ап и а* совпадают и при п —> оо
асимптотическое распределение вектора у/п(а — а*) является нормальным с нулевым математическим ожиданием и ковариационной матрицей С~2 (А? А)~1. Зная распределение оценки а*, можно построить доверительные области неизвестного параметра а и проверять гипотезы о порядке уравнения СС.
Пусть гипотеза Но состоит в том, что порядок уравнения (4) равен д и а^ = = 1,..., 5, — неизвестные коэффициенты, а альтернатива — в том, что
НА : а, = + 3 = 1. • • •, ™> д,
а^+1 = ... = а^ = 0 и ,..., Кт — некоторые постоянные. Для проверки гипотезы На используется статистика
/ = (а*+1,..., а*т)С2ВТВ(а*я+1,..., а*т)т,
где В — матрица размера (т — д) х (т — д), полученная из матрицы А вычеркиванием первых д строк и д столбцов. Как показано в §2.3, при альтернативе На статистика I асимптотически имеет х2-распределение с т — д степенями свободы и параметром нецентральности
{Кч+1Кт)С2ВТВ(Кч+1Кт)т.
При гипотезе Но параметр нецентральности равен нулю.
В §2.4 рассматривается временной ряд и\,..., ип с неизвестным ненулевым средним Ещ = Ь, описываемый моделью
ик - Ъ = ек + а1£к-1 + ... + ач£к-д, к = О, ±1, ±2,----
Если Ь есть д/п-состоятельная оценка неизвестного 6, то, как показано в теореме 2.4, все результаты §§2.1-2.3 остаются справедливыми для ряда л
— Ь, и2 — Ь,..., ип — Ь.
В §2.5 исследована асимптотическая относительная эффективность знакового критерия, основанного на статистике Т2{(3), и знаковой оценки а*.
В главе 3 строятся знаковые критерии проверки адекватности регрессионных моделей с автокоррелированными погрешностями.
Проверяется гипотеза Но, согласно которой наблюдаются скалярные величины у1-д,.. .,уп, удовлетворяющие регрессионной схеме
ук- стгк+ик, к- 1-5, ...,п, (7)
где ст = (с1,...,сг) — вектор неизвестных параметров, Zk = (гк\,..., гкг)т — известные неслучайные векторы, а случайные погрешности ик удовлетворяют устойчивому уравнению авторегрессии
порядка q
«fe + PlUk-l + • • • + PqUk_q = ek, к = ...,-1,0,1,... (8)
Предполагается, что порядок q уравнения (8) известен, вектор /? = (/?1,..., Рд) неизвестен, а ек - независимые одинаково распределенные случайные величины с Ее\ =0, Ее\ < оо и неизвестной функцией распределения G(x).
Альтернативная гипотеза Н\ заключается в том, что наблюдения ук описываются схемой
ук = ст Zk + ек +ик, k=l-q,...,n, (9)
в которой неизвестный вектор е = (ei,...,en) ортогонален матрице плана (Z\,..., Zn)T и имеет единичную длину.
Обычно рассматривается ситуация, когда ик — независимые случайные величины, ек = dFХк, где d = (c¿i,..., ds)T — неизвестный вектор параметров, а Хк = ..., zks)T —известные векторы, s > 0. Тогда проверка Но против Н\ сводится к проверке соотношения d = 0 против альтернативы d ф 0. Локально оптимальные знаковые критерии для проверки гипотезы d = 0 против d ф 0 в схеме линейной регрессии с независимыми погрешностями ик построены Ю.Н.Тюриным.
Постановка задачи главы 3 существенно отличается от упомянутой стандартной тем, что в ней, во-первых, погрешности ик автокоррели-рованы, а во-вторых, неизвестных ек столько же, сколько и наблюдений ук. Эти два обстоятельства не позволяют применять стандартные методы.
Предлагаются критерии, статистики которых являются функционалами от знаковых процессов типа рассматриваемых в принципе инвариантности Донскера-Прохорова. Эти процессы строятся по оценкам ненаблюдаемых величин Е\,...,еп. Метод, используемый при построении критериев, основан на работах М.В.Болдина, в которых изучались эмпирические процессы, построенные по остаткам в схемах линейной регрессии с автокоррелированными погрешностями.
В §3.2 рассматривается ситуация, когда значение р = G(0) известно, а в §3.3 - случай неизвестного р. Обозначим через Dn — диагональную матрицу с элементами главной диагонали
dj
Ей. ^
к = 1
Пусть сп — любая оценка вектора с, для которой при гипотезе Но и тг —> оо Оп(с^ — с) = Ор( 1). В частности, если Zk удовлетворяют условиям Гренандера, то в качестве с можно использовать оценку наименьших квадратов, ранговую или М-оценку.
Обозначим
XV ___IJ-I
Uk-Ук-Сп Zk, k=l-q,...,n.
Пусть f3n = (/?in,..., (3qn — любая оценка вектора /?, для которой вектор у/п(рп — /3) = Ор(1) при п —> оо. В частности, годится оценка наименьших квадратов, построенная по щ как по самим Uk- Пусть
£к =Uk+ /?1п«А-1 + • • • + fiqnUk-q, к = 1, . . . , Tl,
— оценки ненаблюдаемых е\,..., еп. Построим случайный процесс
[nt]
Vn{t) =n-1/2^(/(efe <0)-рп), 0 < i < 1, к=1
где
П к = 1
Обозначим
[nt]
Sn{t) = -n~1/2J2ek, 0<t<l, к = 1
М*) = Sn(t)-tsn{l), V(t) = W{t)-tW{ 1), 0<i<l,
где W(t) — винеровский процесс.
В теореме 3.4 установлено асимптотическое распределение процесса Vn(t).
Теорема 3.4. Пусть верны сделанные выше предположения и условия
1 "
sup \G'(x) + G"(x) \ < оо, max \Zk \ < C\, lim -J"Zk = C2,
X 1 <k<n n-yoo n z—'
k = 1
где C\ и C'2 не зависящие от n постоянные, и ¿(t) при тг —> оо равномерно по t сходится к непрерывной функции ¿(t). Тогда при гипотезе Hi и п —>■ оо статистики
Sn = sup |K,(i)| = maxn
t k<n
< 0)-p„)
i=i
^ = Г (Ш)3 dt = E f £,№ < 0) - Pn)
J° ¿=1 \j=l
слабо сходятся в пространстве Скорохода к
sup |V(i) + и f {V{t)+6{t))2 dt. t J о
соответственно.
При гипотезе Но и п —> оо статистики Sn и Q2 будут иметь, соответственно, распределения Колмогорова-Смирнова и ш2, и, таким образом могут быть использованы для проверки адекватности описания наблюдений у\,..., уп схемой (7)-(8) против альтернативы, что у\,..., уп удовлетворяют уравнениям (8)-(9).
В главе 4 построена математическая модель эпидемического процесса гепатита А в г.Новомосковске Тульской области. Задача построения модели состоит в аналитическом описании временного ряда заболеваемости и построении прогноза заболеваемости по имеющимся ежемесячным данным о заболеваемости с января 1970 по июнь 1994г. График зависимости заболеваемости vt, t = 1,..., 294 от времени представлен на рис. 1. Предполагается, что структуру ряда заболеваемости vt можно описать моделью, в которой наблюдаемый временной ряд рассматривается как сумма некоторой неслучайной детерминированной составляющей yt и случайной составляющей ut
vt = Vt + Щ-
Поэтому на первом этапе исследования методами регрессионного анализа выделяется систематическая составляющая (тренд). На втором этапе (после удаления тренда) исследуются остатки щ = Vt — yt- Второй этап включает следующие задачи.
1. Установить, является ли ряд щ последовательностью независимых случайных величин (гипотеза Но). В качестве альтернативы к гипотезе Но обычно рассматривают гипотезы На о том, что наблюдения описываются моделью авторегрессии или моделью скользящего среднего или авторегрессии-скользящего среднего. Однако, если наблюдения удовлетворяют уравнению авторегрессии, то зависимыми являются даже бесконечно удаленные друг от друга наблюдения. В данной задаче, где рассматривается ряд заболеваемости, такое допущение по медицинским соображениям неверно. Поэтому в качестве альтернативы к Но выбирается гипотеза На о том, что остаточный ряд описывается моделью СС(q), так как у наблюдений, удовлетворяющих уравнению скользящего среднего (4), зависимыми являются только q соседних наблюдений.
2. Если гипотеза о независимости отвергается в пользу альтернативы На, то необходимо построить:
— оценки неизвестных параметров уравнения СС;
— проверить гипотезу о порядке уравнения СС;
От-СЧСО-^ЮСОГ-ООГООт-СМО^ЮШ^СООТОт-СММ^-г^г^^г^г^г^г^г^г^г^сосососососососососоототспгоа) 0)6)00)6)0)0)0)0)0)0)0)0)610)0)0)00)0)0)010)0)0
Рис. 1. График заболеваемости гепатитом А в г.Новомосковске
— построить прогноз временного ряда, учитывая систематическую и случайную составляющие.
На графике заболеваемости г>( (рис. 1) можно заметить «выбросы» в наблюдениях. Кроме того, гистограмма остатков щ (рис. 2) и эксцесс распределения щ равный 3,61 указывают на то, что распределение щ имеет «тяжелые хвосты». В этих случаях применение классических методов нецелесообразно, а знаковые критерии, как показано в §1.8, устойчивы к «выбросам». Поэтому дальнейший анализ проводился с помощью знаковых методов, разработанных в главе 2. ЛНМ знаковый критерий, основанный на статистике
Ъ =
-1/2
к=] + 1
для проверки Но о независимости остатков против альтернативы Н^ о том, что в уравнении (4) aj > 0, отвергает на уровне значимости 0,05 гипотезу Но при альтернативах Н^, ] = 1,..., 6. Поэтому для описания остатков была выбрана модель СС шестого порядка, описываемая уравнением (4), в котором 9 = 6. Затем была построена знаковая оценка
п
-20 -15 -10 -5 0 5 10 15 20 25 30 35 40 45
Рис. 2. Гистограмма остатков
а* = неизвестного вектора параметров а = (о1,...,аб) и
вычислена ковариационная матрица вектора а*. Поскольку оценки параметров а4, с*5 и Об приняли значения близкие к нулю, то была проверена гипотеза Но о том, что ряд щ описывается уравнением СС третьего порядка против альтернативы На о том, что порядок уравнения СС равен 6. На уровне значимости 0,05 была принята гипотеза Но.
Прогноз заболеваемости гепатитом А в г.Новомосковске с учетом систематической и случайной составляющих на три месяца вперед (июль, август и сентябрь 1994 года), построенный по знаковой оценке, составляет 10,97,12,1, 16,2, а построенный по МНК-оценке — 11,9,11,3, 15,2. Полученные к настоящему моменту реальные данные о заболеваемости гепатитом А в соответствующие месяцы следующие: 10, 12 и 17 человек.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. В условиях априорной статистической неопределенности непараметрического типа построены точные и асимптотические локально наиболее мощные знаковые критерии для проверки гипотезы о независимости наблюдений против частных односторонних альтернатив об автокоррелированности ¿-го порядка и точные и асимптотические локально наиболее мощные несмещенные знаковые критерии для проверки гипотезы о независимости наблюдений против двусторонних частных альтернатив об автокоррелированности ./-го порядка. Показано, что как асимптотические, так и точные локально наиболее мощные и локально наиболее мощные несмещенные знаковые критерии являются свободными от распределения.
2. Построен локально-оптимальный знаковый критерий для проверки гипотезы о независимости наблюдений против альтернативы о том, что наблюдения удовлетворяют уравнению скользящего среднего порядка q.
3. Предложен знаковый критерий для проверки гипотезы о порядке уравнения скользящего среднего.
4. Без предположения о конечности дисперсии шумов, моделирующих процесс скользящего среднего, построена знаковая оценка неизвестного вектора параметров уравнения скользящего среднего произвольного порядка. Доказано существование и состоятельность знаковой оценки. Найдено ее асимптотическое распределение. Предложены алгоритмы вычисления знаковой оценки.
5. Проведено сравнение асимптотической эффективности знаковой оценки с некоторыми известными оценками. Показана высокая асимптотическая эффективность знаковой оценки по отношению к оценкам Хеннана, Дурбина, оценкам по методу моментов в случае, когда шумы, моделирующие процесс скользящего среднего, имеют распределение с «тяжелыми хвостами». Вычислена асимптотическая эффективность знаковых критериев для проверки гипотезы о независимости наблюдений.
6. Для уравнения скользящего среднего первого порядка вычислен функционал влияния знаковой оценки при загрязнении наблюдений изолированными аддитивными выбросами. Доказана робастность (в смысле ограниченности функционала влияния) построенной знаковой оценки.
7. Построены знаковые критерии для проверки гипотезы о том, что наблюдения описываются регрессионным уравнением с автокоррелированными ошибками против альтернативы о том, что наблюдения, описываемые этим уравнением, искажены аддитивным воздействием неизвестных постоянных, число которых равно числу наблюдений. Найдена
мощность построенных критериев.
8. Построена математическая модель и трехмесячный прогноз эпидемического процесса гепатита А в г. Новомосковске Тульской области.
Основное содержание диссертации опубликовано в следующих работах
1. Boldin M.V., Goryainova E.R. Sign test to check adequacy of the regression models with autocorrelation errors. Advances in modelling & analysis, A, 1992, vol.11, N1, p. 29-39.
2. Goryainova E.R. Locally optimal sign test in the moving average model. Advances in modelling & analysis, B, 1993, vol.27, N4, p.43-55.
3. Горяинова E.P. Знаковые оценки в модели скользящего среднего. Деп. в ВИНИТИ 28.06.93 N1776-B93.
4. Горяинова Е.Р. Локально-оптимальные знаковые критерии в модели скользящего среднего. Деп. в ВИНИТИ 28.06.93 N1777-B93.
5. Горяинова Е.Р. Знаковые оценки в модели скользящего среднего с бесконечной дисперсией. Автоматика и телемеханика, 1996, N11 (в
печати).
-
Похожие работы
- Разработка и исследование непараметрических алгоритмов идентификации и управления для динамических процессов
- Разработка и исследование непараметрических вероятностных моделей стохастических систем
- Разработка и исследование непараметрических алгоритмов идентификации и управления многомерными стохастическими процессами
- Математическое моделирование аэротенков на очистных сооружениях с привлечением знаковых методов
- Оптимизация минимально контрастного оценивания нелинейной однопараметрической парной регрессии
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность