автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Алгоритмы оценивания параметров регрессионных моделей и планирования эксперимента при наличии выбросов и неоднородности распределения ошибок

кандидата технических наук
Хайленко, Екатерина Алексеевна
город
Новосибирск
год
2013
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Алгоритмы оценивания параметров регрессионных моделей и планирования эксперимента при наличии выбросов и неоднородности распределения ошибок»

Автореферат диссертации по теме "Алгоритмы оценивания параметров регрессионных моделей и планирования эксперимента при наличии выбросов и неоднородности распределения ошибок"

На правах рукописи ХАЙЛЕНКО ЕКАТЕРИНА АЛЕКСЕЕВНА

Алгоритмы оценивания параметров регрессионных моделей и планирования эксперимента при наличии выбросов и неоднородности распределения ошибок

Специальность 05.13.17 — Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

005060604

1З МАП 2013

НОВОСИБИРСК - 2013

?

005060604

Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Новосибирский государственный технический университет»

Научный руководитель: доктор технических наук, доцент

Тимофеев Владимир Семенович

Официальные оппоненты: Хабаров Валерий Иванович

доктор технических наук, профессор Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Сибирский государственный университет путей и сообщений», заведующий кафедрой «Информационные технологии на транспорте»;

Осипов Александр Леонидович кандидат технических наук, доцент Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Новосибирский государственный университет экономики и управления», заведующий кафедрой «Прикладные информационные технологии»

Ведущая организация: Федеральное государственное образовательное

бюджетное учреждение высшего профессионального образования «Сибирский государственный университет телекоммуникаций и информатики»

Защита состоится «23» мая 2013 г. в 14-00 часов на заседании диссертационного совета Д 212.173.06 при Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Новосибирский государственный технический университет» по адресу: 630073, Новосибирск, пр-т К. Маркса, 20.

С диссертацией можно ознакомиться в библиотеке Новосибирского государственного технического университета.

Автореферат разослан « 19 » апреля 2013 г. д

Ученый секретарь

диссертационного совета Мао--

Чубич Владимир Михайлович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В различных отраслях науки и техники исследователям часто приходится сталкиваться с необходимостью анализа данных и получения достоверной, максимально согласуемой с его природой, информации об исследуемом процессе (явлении). При современном уровне развития науки и техники это приводит к постановке сложных и дорогостоящих экспериментов. При их проведении исследователь пытается извлечь наибольшее количество информации об изучаемых процессах при наименьших затратах. Одним из способов получения такой информации является решение задачи оценивания параметров регрессионных моделей, которое позволяет спрогнозировать поведение наблюдаемого объекта в дальнейшем.

Классическим методом оценивания параметров регрессионных зависимостей является метод максимального правдоподобия (ММП), однако его применение требует наличие априорной информации о виде распределения ошибок наблюдений. Другим популярным методом оценивания параметров является метод наименьших квадратов (МНК), преимущество которого состоит в простоте вычислительной процедуры получения оценок. Однако при появлении в выборке грубых ошибок наблюдений (выбросов) либо при отклонении распределения ошибок от нормального закона оценки, полученные классическими методами, перестают обладать оптимальными свойствами. Для решения проблемы оценивания параметров регрессионного уравнения при появлении выбросов был разработан ряд устойчивых методов оценивания. Исследованиями в данной области занимались Хьюбер П., Хампель Ф., Rousseeuw P.J, К. van Driessen, Болдин М.В., Тюрин Ю.Н и др. При негауссовском распределении ошибок наблюдений возможно применение адаптивных методов оценивания параметров регрессионных зависимостей. В данной области можно отметить работы Hogg R.V., Lenth R.V., Денисова В.И., Лисицина Д.В. Многообразие возможных распределений случайной ошибки привело к идее применения ММП на основе универсальных распределений, одним из которых является обобщенное лямбда-распределение (Gb-распределение), описывающее целый класс рас-

пределений, таких как нормальное, экспоненциальное, Вейбулла, Гамма-, Бета- и др. В результате появляется возможность оценивания параметров регрессионных моделей для любых распределений случайных ошибок, представимых в рамках GL-распределения.

Хорошо известно, что качество оценок параметров также зависит от информативности точек, в которых проводились измерения, т.е. можно получить большее количество информации об исследуемом процессе путем использования планов эксперимента. Наиболее известными исследователями в данной области являются Федоров В.В., Адлер Ю.П., Фишер Р., Налимов В.В., Денисов В.И., Попов A.A., Хабаров В.И. и др. Однако классические алгоритмы построения оптимальных планов эксперимента позволяют учитывать лишь неоднородность дисперсий на области планирования, но в ряде случаев на различных ее участках могут быть разные распределения. Поэтому необходимы алгоритмы синтеза оптимальных планов в условиях неоднородности формы распределения ошибок наблюдений на всей области планирования, построение которых также предлагается провести на основе GL-распределения.

Цель работы состоит в обеспечении возможности устойчивого и адаптивного оценивания параметров регрессионных моделей и синтеза оптимальных планов эксперимента при различных распределениях ошибок наблюдений.

Для достижения данной цели поставлены и решены следующие задачи:

• разработка, реализация и исследование модификаций метода наименьших уравновешенных квадратов (LTS), рангового метода и алгоритмов построения оценочных подмножеств, близких к А- и D-оптимальному плану для схемы LTS-оценивания;

• разработка, реализация и исследование адаптивного метода оценивания параметров регрессионного уравнения на основе GL-распределения;

• вывод соотношений для вычисления элементов информационной матрицы Фишера на основе GL-распределения и реализация на их основе нового алгоритма построения оптимального плана эксперимента;

• разработка программной системы устойчивого и адаптивного оценивания параметров регрессионных моделей и планирования эксперимента;

• применение разработанных алгоритмов устойчивого, адаптивного оценивания параметров и планирования эксперимента для задачи оценивания кривой провисания троса и прогнозирования покупательского спроса.

Методы исследования. Исследование проводилось с использованием методов регрессионного анализа, теории планирования эксперимента, математического анализа и линейной алгебры, численных методов, методов оптимизации и методов статистического моделирования.

Достоверность и обоснованность научных выводов и рекомендаций подтверждается корректными применением аналитических методов, соответствием выводов хорошо известным теоретическим законам, а также путем подтверждения полученных выводов и работоспособности алгоритмов результатами вычислительных экспериментов.

Научная новизна состоит в следующем:

• предложены модификации рангового метода на основе расстояния Маха-ланобиса и метода ЬТБ на основе расстояний Махаланобиса, Кука, Велша-Куха и робастного расстояния, способ формирования оценочного подмножества исходя из критериев А- и О-оптимальности, применение предложенных алгоритмов позволяет проводить устойчивое оценивание параметров уравнения регрессионной зависимости по наиболее информативным наблюдениям;

• разработан алгоритм адаптивного метода оценивания параметров на основе ОЬ-распределения, применение которого позволяет получить оценки максимального правдоподобия параметров регрессионных моделей при различных распределениях ошибок наблюдений на участках области планирования;

• получены соотношения для вычисления элементов информационной матрицы Фишера на основе универсального лямбда-распределения, предложен обобщенный алгоритм планирования эксперимента, который позволяет учитывать форму распределения ошибок;

• разработана программная система устойчивого и адаптивного оценивания параметров регрессии и планирования эксперимента.

Практическая значимость. Разработанные подходы позволяют восстанавливать регрессионные зависимости и планировать эксперимент в условиях отклонения ошибок от нормального закона, что дает возможность применять предложенные алгоритмы для широкого спектра практических задач. Разработанная программная система, позволяющая применить алгоритмы оценивания параметров регрессии и планирования эксперимента на практике, зарегистрирована в виде объекта интеллектуальной собственности как программа ЭВМ (№ гос. per. 2011614692).

Реализация результатов работы. Научные и практические результаты нашли свое применение в ООО «ЗапСибГеоПроект» и в учебном процессе НГТУ, о чем имеются соответствующие акты внедрения.

Основные положения, выносимые на защиту:

• алгоритмы формирования оценочных подмножеств метода LTS на основе расстояний Кука, Велша-Куха, Махаланобиса и робастного расстояния;

• алгоритм построения оценочного подмножества, близкого к оптимальному плану, для схемы LTS-оценивания;

• алгоритм метода адаптивного оценивания параметров регрессионных зависимостей на основе обобщенного лямбда-распределения;

• способ вычисления элементов информационной матрицы Фишера на основе GL-распределения, обобщенный алгоритм синтеза планов с использованием универсального лямбда-распределения.

Апробация работы. Основные результаты работы докладывались и обсуждались на пятой международной научно-практической конференции «Высокие технологии, фундаментальные и прикладные исследования, образование», Санкт-Петербург, 2008г; на всероссийской научной конференции молодых ученых «Наука. Технологии. Инновации», Новосибирск, 2008-20 Югг; на десятой международной научно-технической конференции «Актуальные проблемы электронного приборостроения» АПЭП-2010, Новосибирск, 2010г. Так-

же некоторые результаты проведенных исследований опубликованы в депонированных отчетах по научно-исследовательской работе.

Работа выполнена при поддержке стипендии Президента Российской Федерации на 2011-2012 учебный год согласно приказу Министерства образования и науки Российской Федерации № 2659 от 11.10.2011 г., ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг. (проекты № П263, № 14.В37.21.0698), стипендии Правительства Новосибирской области на 2011г., научного студенческого гранта НГТУ 2008-2009 гг.

Публикации. По результатам исследований опубликовано 15 научных работ, общим объемом 5,49 п.л. (из них авторских 3,03 п.л.), включая: входящие в перечень рецензируемых научных журналов и изданий - 6, сборники научных трудов - 1, материалы трудов научно-технических конференций - 7, свидетельство о государственной регистрации программы для ЭВМ — 1.

Структура и объем работы. Диссертация состоит из введения, 5 разделов, заключения и списка литературы, состоящего из 95 источников, 3 приложений. Диссертация изложена на 175 страницах основного текста, содержит 46 рисунков и 41 таблицу.

СОДЕРЖАНИЕ РАБОТЫ

В разделе 1 представлен обзор наиболее известных подходов к поиску оценок неизвестных параметров регрессионного уравнения. В п.1.1 описана модель «черного ящика» и приведена постановка задач регрессионного анализа, планирования эксперимента в рамках активного и пассивного эксперимента.

Рассмотрим регрессионное уравнение вида

у = Хв + е, (1)

'А (хщ) ••■ /ш (xlim)' где X = i ' ■. : - матрица плана, имеющая полный столбцо-fl (xniy ) "" fm (xnim ) J

вый ранг, т.е. rg(X) = m, т — количество регрессоров, п — количество испытаний, fi(x),..., fm(x) - известные действительные функции, Xjij - заданные зна-

чения входных факторов 7^,7^,...,7^ в п наблюдениях, - номера вход-

ных факторов, У = (У1,...,У„)Т - вектор значений отклика, в = (&1,...,вт)Т -

вектор неизвестных параметров, подлежащих оцениванию; е = (е1,...,еп)Т -вектор независимых ошибок наблюдений. Имеют место предположения:

Е(е) = О, Е(££Т) = сг27 , а2 < оо,г8(Х) = т. (2)

Кроме того для распределения случайной ошибки существуют и конечны первые четыре момента.

В диссертационной работе рассматриваются две схемы проведения эксперимента: пассивная и активная. В рамках пассивного эксперимента оценивание параметров регрессионных зависимостей проводится по заданной выборке наблюдений, полученной в соответствии с нормированным планом Гхг х2 ... * щ

Ц--) Л, где > р; =1, Р; = —, 5 - КОЛИЧеСТВО ТОЧеК в Спектре

Р2 - Р*] ^ п

плана и п. - число повторных наблюдений в / -ой точке. Если измерения проводились по случайным наблюдениям, то л = и, р1 =1/п, г =1,2,...,«. Задача регрессионного анализа состоит в том, чтобы по имеющимся исходным данным (значениям отклика и входных факторов) как можно точнее оценить вектор неизвестных параметров уравнения регрессии (1). Задача планирования в рамках активного эксперимента состоит в том, чтобы по имеющимся исходным данным построить оптимальный нормированный план эксперимента Е,.

В п. 1.2-1.8 рассмотрены наиболее известные подходы и методы поиска оценок вектора неизвестных параметров регрессионного уравнения, такие как МНК, ММП, метод наименьших модулей, М-оценки, оценки Хьюбера, знаковый метод, метод ЬТБ, метод ЬМБ, Ьу -оценки, оценки на основе универсальных распределений и др. Также рассмотрены базовые понятия теории планирования эксперимента, рассмотрены критерии А-, Б-, Е-оптимальности плана эксперимента и критерий экстраполяции в точку, приведено описание классического алгоритма построения планов эксперимента. В данном разделе также

проведен обзор существующих программных систем, применимых для оценивания параметров регрессии и построения планов эксперимента.

Раздел 2 посвящен описанию предложенных автором модификаций метода ЬТБ, рангового метода и алгоритма адаптивного оценивания на основе СЬ-распределения.

Рассмотрим модель наблюдений вида (1). При классической реализации метода ЬТБ формирование оценочного подмножества размерности й ((и + т+1)/2<А<л) производится только исходя из величины остатков. Однако при формировании оценочного подмножества можно использовать информацию о разбросе и точности наблюдений, например, сопоставляя расстояния Махаланобиса и соответствующие стандартизированные остатки.

Расстояние Махаланобиса А/Е)- вычисляется для каждой точки исходных данных по соотношению:

М£>; = ^¡Ри(п-1)-1 + 1/п, 1 = 1 ,...,п, где Рц - /-й диагональный элемент проекционной матрицы Р = Х(ХТХ)~1 Хт.

_ в: „

В зависимости от величины стандартизованных остатков = ~г (<? -

а

оценка среднеквадратического отклонения г,-, е,- — 1-й остаток) и соответствующих значений наблюдения можно подразделить на четыре класса: регулярные наблюдения, вертикальные выбросы, «хорошие» горизонтальные выбросы, «плохие» горизонтальные выбросы. Автором предлагается в оценочное подмножество добавлять наблюдения как представлено на рис.1. Особенностью данного способа формирования оценочного подмножества является то, что в первую очередь в него включаются регулярные наблюдения, затем «хорошие» горизонтальные выбросы и далее наблюдения из зон вертикальных и «плохих» горизонтальных выбросов, соответствующие минимальным значениям г\.

Для учета разброса наблюдений вместо расстояния Махаланобиса можно использовать робастное расстояние, которое в каждой точке вычисляется следующим образом:

где - вектор, элементами которого являются г -ые реализации каждого входного фактора (см. п. 1.1), Т - вектор, состоящий из робастных оценок средних, которые при использовании метода ЬТБ следует определять по к близким наблюдениям для каждого входного фактора Fj, / = !,...,£, - ковариа-

ционная матрица входных факторов Fj. В оценочное подмножество наблюдения предложено добавлять как представлено на рис. 1.

Рис. 1. Схема формирования оценочного подмножества с использованием иформации о характере наблюдений

Учитывать разброс наблюдений и величину остатков можно путем вычислений расстояний Кука и Велша-Куха, которые определяются по формулам:

и ИЖ,= I РЕ ¿=1,...,», где стьюдентизированные остатки г/ и внешние стьюдентизированнные остат-

4*

ки Г; вычисляются по формулам:

г е, /* I / п-т-1 . _ П = , с-— и = я /--—у, 2=1,...,п.

В этом случае в оценочное подмножество автором предлагается добавлять наблюдения с минимальным значением расстояния Кука либо Велша-Куха.

Кроме того в работе [12] предложена модификация рангового метода на основе расстояния Махаланобиса, алгоритм которой представлен ниже. Такой подход позволяет учесть величину остатков и разброс наблюдений, используя информацию о ранге остатка и о расстоянии Махаланобиса.

Шаг 1. В качестве начального приближения выбирается МНК-оценка ё°=[хТх} 1 Ху.

Шаг 2. Вычисляются остатки е( и расстояния Махаланобиса МО,-, г' = 1,...,и. Шаг 3. Остатки упорядочиваются по модулю и вычисляются их ранги л-(г'). Шаг 4. Вычисляются веса каждого наблюдения м>,■ 1, если тг(0 < И*,

0.75, если Ь* < л(г) < й и МО/ < Хкр(а>т)> п + т + 1

где И* --.

0.5, если Ь* < ?г(г) </) и МЮ1 > х1р(а,т), 2

0, если я"(/) > И,

Шаг 5. Вычисляется оценка в1 = (ХГИгХ)~1 ХТИУ, где IV - diag{\vi);

в" — ] = 1,..,/И , в =в .

Шаг 7. Если не достигнута требуемая точность 8 (А >8), переход на шаг 2,

иначе вычисления заканчиваются и в = в®. Для ситуации, когда распределение ошибок наблюдений отклоняется от нормального закона, в данном разделе предложен алгоритм адаптивного метода оценивания параметров регрессионных зависимостей на основе вЬ-распределения, который представлен на рис.2.

Так как ошибки наблюдений являются независимыми, то логарифм функции правдоподобия в данном случае имеет вид:

п

1пГгег

1=1

где функция плотности GL-распределения определяется как 8Ч= М-1 ^-ТГТ' 0 < < 1,

гг = J'/ ~XtQ = £>г/ (и,Яі,Л2,Л3,Л4) = л1+ —

¿2

Величина шага Авк задается алгоритмом решения оптимизационной задачи поиска максимума логарифма функции правдоподобия, в качестве которого автором использовался симплексный метод Нелдера-Мида.

V3 (1 -И//4

Вычисление

начального

приближения

,0.

в'

'=(4°.....«)

Вычисление параметров Вычисление остатков

в* е=(е1.....

Вычисление

Идентификация распределения остатков с использованием GL-распредепения

ммл

Рис.2. Алгоритм адаптивного оценивания параметров регрессионных моделей

В п. 2.5. представлены результаты исследования предложенных алгоритмов. В качестве исследуемой использовалась следующая модель:

у1 = вх + в2ха + 6з*/3 + е/ - ' = 1,->«, (3)

где т = 3, л = 200, значения входных факторов ху выбирались из интервала

(ОД), 6

ист —(25,25,25) , е, независимые случайные величины, функция распределения которых имеет вид:

Р(х) = (1-11)'';1(;,£:'0>ст1) + М^;2(л:'0>а2)> (4)

где 0,ст,-) - функция нормального распределения с нулевым математическим ожиданием и дисперсией а}, ц - доля выбросов, це[0Д], ¿=1,2. При

моделировании задавались не сами значения дисперсий, а соответствующие уровни шума, которые определяются отношением «шум»/«сигнал» в %.

В качестве показателя точности оценивания неизвестных параметров использовалась величина:

у/-.

Для различных комбинаций ц и h проводилось по 100 вычислительных экспериментов. Каждый эксперимент заключался в моделировании выборки исходных данных в соответствии с моделью (3) и последующим оцениванием ее параметров. В качестве итоговых показателей точности оценивания ц/ использовалось усредненное по 100 экспериментам значение.

На рис. 3 представлены зависимости качества оценивания параметров от размера оценочного подмножества для случаев, когда в выборке присутствуют выбросы, доля которых составляет 10% (см. рис.3 а)) и 20% (см. рис.3 б)) соответственно, с уровнем шума ошибок р^ = 5% и выбросов — Р2 = 50% .

д „г™,™ fa чт г TS * Алгоритм метода LTS Алгоритм рангового метода

-»- лширшн rrtoi i^io На основе расстояния Махаланобиса на основе расстояния Махачанобиса

.Алгоритм метода LTS -*-Алгоритм метода LTS -»-Алгоритм метода LTS

на основе расстояния Кука на 0снове робастного расстояния на основе расстояния Велша-Куха

(5)

а) б)

Рис.3. Зависимость качества оценивания параметров регрессии от размера оценочного подмножества, доля выбросов а) - 10%; б) - 20%

По рис. 3 видно, что при малых размерах оценочного подмножества наилучшие оценки параметров дают методы ЬТБ на основе расстояний Махаланобиса и робастного. Все модификации метода ЬТБ показали наиболее точ-

13

ные результаты оценивания при размере оценочного подмножества й = (1 При размере оценочного подмножества /г>(1 — наиболее точ-

ные результаты оценивания показывают алгоритмы метода ЦТ Б на основе расстояний Кука и Велша-Куха. В работах [1,11] представлены более полные результаты проведенных исследований.

В п. 2.5.2 — 2.5.4 приведены результаты исследования алгоритмов метода ЬТБ, ЬМБ и рангового метода при различных распределениях ошибок наблюдений. В частности показано, что при асимметричном распределении ошибок наблюдений методы ЬТБ и ЬМБ дают менее точные результаты оценивания, чем в случае представления ошибок в виде (4), поэтому в таком случае для оценивания можно предложить использовать адаптивный метод. В табл.1 приведены результаты оценивания параметров регрессионной модели (1), полученные с использованием алгоритмов методов ЬТБ, ЬМБ, МНК и адаптивного оценивания для случаев, когда функция распределения ошибки представлена в виде (4) с уровнями шума Р] =5% и р2 =15%, долей выбросов // = 0.1 и когда ошибка имеет ОЬ-распределение с параметрами (0,1,0.04,0.3).

Таблица 1

Точность оценивания параметров при различных распределениях ошибок

Распределение ошибок Смесь двух нормальных, р!=5% и р2=15%, /¿ = 0.1 СЬБ(0Д,0.04,0.3)

Метод оценивания 4 4 4 V 4 4 4 V

МНК 25,02 24,92 25,06 1,07Е-02 24,77 25,22 25,00 9,96Е-02

ЬТБ 24,99 24,96 24,95 4,63Е-03 25,04 25,15 25,18 5,59Е-02

ЬМБ 25,15 24,82 24,84 8,05Е-02 25,03 24,96 25,05 4.82Е-03

Адаптивное оценивание 25,00 24,96 25,04 3,48Е-03 25,03 25,22 25,05 5.05Е-02

Как видно из табл.1, при появлении выбросов наиболее точные результаты дают методы адаптивного оценивания и ЪТБ. Это свидетельствует о том, что предложенный алгоритм адаптивного оценивания тоже обладает свойством устойчивости и его можно рекомендовать для оценивания при наличии в выборке выбросов. Также из табл.1 видно, что применение предложенного метода

адаптивного оценивания при асимметричном распределении ошибок приводит к более точным результатам по сравнению с МНК и методом ЬТБ. Наиболее точные результаты в данном случае дает метод ЬМБ. Однако, несмотря на незначительный проигрыш в точности, оценки, полученные адаптивным методом, обладают свойствами асимптотической эффективности. Другие результаты проведенных исследований представлены в работах [6,7].

В разделе 3 описаны подходы к построению планов в рамках активного и пассивного эксперимента.

В п.3.1 показано, что наличие выбросов оказывает влияние не только на оценки неизвестных параметров, но и на информационную матрицу Фишера. Это означает, что если рассматривать оценочное подмножество как самостоятельный план эксперимента, то появляется возможность совместного использования вычислительной схемы ЬТБ-оценивания и методов планирования эксперимента. Действительно, процесс формирования оценочных подмножеств можно проводить не только исходя из условия минимальных остатков схемы ЬТБ, но и с учетом выбранного критерия оптимальности плана эксперимента. Полученный в результате алгоритм управления выборкой позволяет максимально приблизить фактически используемый план эксперимента (соответствующий текущему оценочному подмножеству) к оптимальному. Эффект использования таких алгоритмов будет более ощутимым если процесс сбора исходных данных соответствовал оптимальному плану.

Дело в том, что как только появляются выбросы, оценки дисперсии случайной ошибки в каждой точке спектра плана становятся достаточно большими и различными, в результате классические условия оптимальности не выполняются. В связи с этим для оценивания степени отклонения текущего плана в схеме ЬТ8-оценивания от оптимального предложены следующие меры близости для критериев Б- и А-оптимальности соответственно:

• = шах 7>.(х)Ы(х, - тт Х(х)с1(х, £);

хеЪ, х<=£,

. = max X(x)fT (x)M~2{l)f(x) - min \{x)fT (x)hr2(^)f(x).

Очевидно, что если план § является оптимальным, то ср(§) = 0.

Для того чтобы максимально возможно сохранить оптимальные свойства исходного плана эксперимента автором предложен алгоритм построения оценочного подмножества, близкого к оптимальному плану, представленный ниже.

• Для заранее заданного И выполняется метод КГБ до сходимости.

• В каждой точке спектра начального плана Е0 производится сортировка наблюдений в порядке возрастания остатков.

• Вычисляется количество точек, входящих в оценочное подмножество, которым соответствуют минимальные остатки:

где а — минимальное число точек в оценочном подмножестве, например, если используется линейное регрессионное уравнение, то а = 2, квадратическое -а = 3 и так далее; конкретное значение г| выбирается заранее. Такое представление позволяет учитывать два граничных случая. При г) = 1 в оценочное подмножество входят только те наблюдения, которые соответствуют минимальным остаткам; при т) = 0 оценочное подмножество формируется, используя только алгоритмы планирования эксперимента.

• В новое оценочное подмножество для каждой точки спектра плана записываются по пу/ б наблюдений, соответствующие минимальным остаткам в этих точках. В результате получается равновесный план, содержащий 5 точек

Х1 х2 ••• xs 1/5 1 /S ... 1/S

Значение счетчика к устанавливается равным пу. • Пока к < h выполняется следующая последовательность действий: о находится точка, для которой выполняется х* = Arg max ф(х, Q,

где Е, - план, состоящий из А: +1 точек, в который входят к точек плана ^ и точка х из плана £0, которая не вошла в %%;

( Л 1

о X* добавляется в оценочное подмножество = 1--н—t(x*)',

\ к) к

о увеличиваем значение счетчика на единицу к = к +1. Функционал ф(х, {;) для критерия А-оптимальности имеет вид

Ф(x,^) = fT{x)M~2(^)f(x), для D-оптимальности: ф(х,£) = fT(x)M'1(Qf(x),

т

где f{x) = (fl{x),...,fm{x)) .

В качестве исследуемой была взята модель (3), где значения входных факторов Xjj выбирались в соответствие с являющимся одновременно А- и D-

Г<-1,-1) (-1Д) (1-1) (14)1 _ „ ,

оптимальным планом с = •< >. Случайные ошибки

[ 1/4 1/4 1/4 1/4 J

8,-, / = 1,...,и моделировались независимыми и одинаково распределенными с функцией распределения вида (4). В качестве показателя точности оценивания параметров регрессии было взято соотношение (5). В качестве итоговых результатов представлены усредненные по 150 экспериментам значения.

На рис. 4 представлены результаты, полученные для случая с 10% выбросов {/и = 0.1), уровнями шума р^ = 5% и Р2 =50% .

V 0,16

0,12 0,08

0,04

начальный план

план близкий к D-оптимальному план близкий к А-оптимальному

но

170

190

130 150

Рис.4. Зависимость точности оценивания параметров регрессии от размера оценочного подмножества

По рис.4 видно, что при построении оценочного подмножества в соответствии с предложенным алгоритмом точность оценивания параметров выше. Наиболее точными получаются оценки, полученные на плане близкому к D-оптимальному. Другие результаты исследования работы алгоритма построения оценочного подмножества для метода LTS, представлены в работах [2,4,5].

В рамках активного эксперимента в п.3.2 предложен способ вычисления элементов информационной матрицы Фишера, который позволяет учитывать на области планирования как неоднородность дисперсии, так и неоднородность формы распределения. Для этого были сформулированы следующие утверждение и следствие [9,10], доказательства которых приведены в [10].

Утверждение. Для регрессионной модели (1) с независимыми и имеющими одинаковое GL-распределение ошибками s,-, г=1,...,«, элементы информационной матрицы вычисляются по следующей формуле:

п 1

Mjk = - 2 fj(xij)fk 0,*)i 8si (zi)g£j (zj)du, j = 1 ...m, k = 1 ...m.

/=1 0

Следствие. В условиях использования нормированного плана эксперимента элементы информационной матрицы вычисляются по формуле:

M=il(xi)Pif(xi)fT(xi) i=l

где соотношение для вычисления функции эффективности имеет вид:

1

Я(*,-) = -Jg"£.(Zi)g£. (z-)du , i = 1,...,î . (6)

0

На основе утверждения и следствия автором был разработан и реализован алгоритм планирования эксперимента, который обобщает классический алгоритм, предложенный В.В.Федоровым, на случай, когда ошибки имеют GL-распределение. В предложенном алгоритме вычисление функции эффективности проводится по формуле (6) с использованием метода трапеций, поскольку интеграл (6) не выражается в элементарных функциях.

В п.3.4 приведены результаты построения оптимальных планов с использованием разработанного алгоритма. В качестве истинной зависимости использовалась следующая модель:

у ¡ = 6>0 + в^хц + е1, / = 1,...,л, (7)

где количество регрессоров т = 2, область планирования [~1Д]>

в"ст = (25,25)^, случайные ошибки с,-, г' = 1независимые и имеют вЬ-распределение. Задача состоит в построении оптимального плана Е,.

В случае, когда ошибки имеют нормальное распределение и имеет место лишь неоднородность дисперсий на области планирования, результаты синтеза оптимального плана с использованием классического и предложенного алгоритмов совпадают, что подтверждает корректность работы последнего.

Для случая, когда распределение ошибок на области планирования различно были получены следующие результаты. В качестве исследуемых были взяты следующие ОЬ-распределения: несимметричное с левой асимметрией б/, £>2 (0,1,0.002,0.5), несимметричное с правой асимметрией 0££>2 (0,1,0.5,0.002), симметричное СЫ>$(р, 1,0.5,0.5) и близкое к распределению Вейбулла <3££>4(0,1,0.04,0.3). Распределения ошибок /=1,...,« на области планирования имеет вид:

I. ОЫ\, при х е [-1,0) и С?££>2, при * б[0,1]; :

II. бЮ], при х е [-1,-0.5), при х е [—0.5,0.5], ОЮ2, при х е(0.5Д];

III. ЫЕ^, при хе[-1,-0.5), в103, при * е [-0.5,0), <71£>4, при л: е [0,0.5] и вШ2, при х е (0.5,1].

На рис.6 представлены графики функции эффективности, вычисленной при помощи соотношения (6), Следует отметить, что ее значения характеризуют неоднородность формы распределения на области планирования.

Л(.ї)

Мх)

-1 -0.5 0 0.5 1 х

-1 -0.5 0 0.5 х

Л(х)

6 4 2

О _

-1 -0.5 0 0.5 1

х

а) б) в)

Рис.6. Функции эффективности для случаев а) -1; б) — II; в) - III

В табл.2 представлены результаты применения обобщенного алгоритма планирования эксперимента. В случае I построенный план совпадает с классическим планом, что объясняется постоянной функцией эффективности (см. рис.6 а)). В случаях II и III построенные оптимальные планы отличаются от классических, что является следствием неоднородности формы распределения (см. рис.6 б)-в)). Также следует отметить, что для всех трех случаев выполняется условие Б-оптимальности плана эксперимента. Это свидетельствует о том, что построенные планы являются оптимальными.

Таблица 2

Результаты построения оптимальных планов и точность оценивания параметров при отличном от нормального распределении ошибок наблюдений

Распределение ошибок Случай I Случай II Случай III

Оптимальный план «-і"1 ч [0.5 0.5] Ґ-1 -0.5 0.5 11 [0.30 0.20 0.19 0.31] Г-1 -0.5 11 10.12 0.39 0.49]

Я(х)сі(х,4'), х е 2.001 2.002 2.002

МНК V 2.654Е-02 9.650Е-02 1.213Е-01

й^М'1 2.851Е-01 5.188Е+00 3.560Е+00

Адаптивный метод 2.654Е-02 2.272Е-02 6.798Е-02

сЫМ-1 4.564Е-02 8.439Е-03 8.589Е-02

Ф 0.4001 0.400 0.289

1 В табл.2 показано, что использование построенных планов позволяет повысить качество оценивания. Для регрессионной модели (7), при и = 1000 приведены результаты исследования качества оценивания параметров, значения

определителя дисперсионной матрицы и эффективности плана. При этом использовались методы наименьших квадратов и адаптивного оценивания на основе ОЬ-распределения. Измерения проводились в соответствии с построенными оптимальными планами (см. табл.2). Оценка эффективности плана определялась следующим образом:

В качестве итоговых показателей точности у/, эффективности плана ф и определителя дисперсионной матрицы использовались усредненные по 100 экспериментам значения. По табл.2 видно, что построенные планы являются эффективными и применение на этих планах адаптивного метода оценивания дает более точные результаты. Также результаты исследования обобщенного алгоритма представлены в работе [10].

Также в п.3.4 представлены результаты синтеза планов для других моделей, в том числе на двумерной области планирования.

В разделе 4 приведено описание разработанной программной системы оценивания параметров регрессионных моделей и планирования эксперимента.

В п.4.1 описаны задачи, которые решаются с ее использованием, перечислены режимы работы, показаны взаимосвязи между ними. Также представлено алгоритмическое наполнение программной системы.

В п. 4.2 и в работах [3,8,15] приведено подробное описание каждого из режимов работы программной системы.

В разделе 5 показано применение методов ЬТБ, его модификаций и ЬМБ для реальной технической задачи оценки параметров кривых провисания троса, приведены результаты идентификации ОЬ-распределения остатков, применен алгоритм планирования эксперимента на основе вЬ-распределения для нахождения координат максимально информативных точек [13,14]. Также применены методы планирования к задаче прогнозирования покупательского спроса, построены Б-оптимальные планы.

В заключении сформулированы основные результаты работы, которые сводятся к следующему.

1. Сформулировано и доказано утверждение о вычислении элементов информационной матрицы Фишера с использованием GL-распределения, на его основе предложен обобщенный алгоритм планирования эксперимента.

2. Предложены, реализованы и исследованы схемы формирования оценочного подмножества для метода LTS на основе расстояний Кука, Велша-Куха, Ма-халанобиса и робастного расстояния и модификация рангового метода на основе расстояния Махаланобиса.

3. Разработан и исследован алгоритм адаптивного оценивания неизвестных параметров регрессионного уравнения, основанный на идентификации распределения остатков с использованием универсального GL-распределения.

4. Предложен, реализован и исследован алгоритм формирования оценочного подмножества на основе критериев А- и D- оптимальности для схемы LTS-оценивания.

5. Разработанные алгоритмы включены в программную систему устойчивого и адаптивного оценивания параметров регрессионных моделей и планирования эксперимента.

6. С помощью разработанных алгоритмов решены техническая и экономическая практические задачи.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Вострецова Е. А. Устойчивое оценивание параметров регрессионных моделей с использованием идей метода наименьших квадратов / B.C. Тимофеев, Е.А. Вострецова // Научн. вестн. НГТУ. — Новосибирск: Изд-во НГТУ, 2007. - N2(27). - С.57-67.

2. Вострецова Е.А. Устойчивое оценивание параметров регрессии при использовании оптимальных планов эксперимента /Е.А. Вострецова // Материалы всерос. научной конф. молодых ученых «Наука. Технологии. Инновации» в 7 частях. - Новосибирск: Изд-во НГТУ, 2007. - 4.1. - С.27-28.

3. Вострецова Е.А. Программная система планирования эксперимента и устойчивого оценивания параметров регрессионных моделей / Е.А. Вострецова // Материалы всерос. научной конф. молодых ученых «Наука. Технологии. Инновации» в 7 частях. - Новосибирск: Изд-во НГТУ, 2008. - 4.1. - С.7-9.

4. Вострецова Е.А. Адаптация алгоритмов метода наименьших взвешенных квадратов к использованию на оптимальных планах эксперимента / В. С. Тимофеев, Е.А. Вострецова // Высокие технологии, фундаментальные и прикладные исследования, образование. Сб. трудов пятой междунар. научн.-практич. конф. СПб., 28-30апр.2008г. - СПб.: Изд-во Политех. Ун-та, 2008. -Т.12. - С.120-121.

5. Вострецова Е.А. Использование алгоритмов планирования эксперимента в схеме LTS-оценивания / B.C. Тимофеев, Е.А. Вострецова // Научн. веста. НГТУ. - Новосибирск: Изд-во НГТУ, 2009. - N1(34). - С.95-105.

6. Хайленко Е.А. Исследование распределений остатков при устойчивом оценивании с использованием обобщенного лямбда-распределения / Е.А. Хайленко // Материалы всерос. научной конф. молодых ученых «Наука. Технологии. Инновации» в 6 частях. — Новосибирск: Изд-во НГТУ, 2009.-Ч.1. -С.55-56.

7. Хайленко Е.А. Адаптивное оценивание параметров регрессионных моделей с использованием обобщенного лямбда - распределения / B.C. Тимофеев, Е. А. Хайленко//Доклады академии наук высшей школы РФ. - Новосибирск: Изд-во НГТУ, 2010. - N2 (15). - С.25-36.

8. Тимофеев В. С. Программная система устойчивого и адаптивного оценивания параметров регрессии и планирования эксперимента / B.C. Тимофеев, Е.А. Хайленко // Актуальные проблемы электронного приборостроения АПЭП-2010: Материалы X междунар. конф., Новосибирск, 22-24 сент. 2010г. - Новосибирск: Изд-во НГТУ, 2010. - Т.6. - С.73-79.

9. Хайленко Е.А. Построение информационной матрицы для регрессионных моделей с использованием обобщенного лямбда-распределения / Е.А. Хайленко // Материалы всерос. научной конф. молодых ученых «Наука. Технологии. Инновации» в 6 частях. - Новосибирск: Изд-во НГТУ, 2010.-Ч.1- С.39-40.

t

10. Хайленко E.A. Оптимальное планирование эксперимента для регрессионных моделей с обобщенным лямбда-распределением ошибок / B.C. Тимофеев, Е.А. Хайленко // Научн. вестн. НГТУ,'2011. - N1(42). - С.27-37.

11. Хайленко Е.А. Модификации метода LTS для устойчивого оценивания параметров регрессионных моделей / Е.А. Хайленко // Сборник научных трудов НГТУ, 2011. - N1(63). - С.75-82.

12. Хайленко Е.А. Модификации рангового метода для устойчивого оценивания параметров регрессионных моделей / Е.А. Хайленко // Материалы всерос. научной конф. молодых ученых «Наука. Технологии. Инновации» в 6 частях. — Новосибирск: Изд-во НГТУ, 2011. -4.1. -С.133-134.

13. Хайленко Е.А. Планирование уточняющих наблюдений при контроллинге воздушных линий по данным лазерного сканирования / В.И. Денисов, B.C. Тимофеев, Е.А. Хайленко // Сибирский журнал индустриальной математики. - Новосибирск: СО РАН, 2012. - T.XV. - № 2(50). - С.75-85.

14. Оценивание уравнений кривых провисания воздушных линий устойчивыми методами / B.C. Тимофеев, В.Ю. Щеколдин, Е.А. Хайленко, Д.В. Харьковский // Прикладная информатика, 2012. - N3(39). - С.33-42

15. Свидетельство на программу для ЭВМ 2011614692 Российская Федерация. Программная система устойчивого и адаптивного оценивания параметров регрессионных моделей и планирования эксперимента / В.И. Денисов, B.C. Тимофеев, Е.А. Хайленко; правообладатель НГТУ. - 2011613035; заявл. 28.04.11; зарегистрировано 15.06.11. - 1с. - Тип ЭВМ: IBM PC - совместимый с ПК; язык: С++; ОС: Microsoft Windows 9X/NT/2000/2003/XP; объем: 1,56 Мб.

Отпечатано в типографии Новосибирского государственного технического университета 630092, г. Новосибирск, пр. К. Маркса, 20,

тел./факс (383) 346-08-57 формат 60 X 84/16 объем 1.5 п.л. тираж 100 экз.

Заказ № 621 подписано в печать 15.04.2013 г

Текст работы Хайленко, Екатерина Алексеевна, диссертация по теме Теоретические основы информатики

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

АЛГОРИТМЫ ОЦЕНИВАНИЯ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ И ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА ПРИ НАЛИЧИИ ВЫБРОСОВ И НЕОДНОРОДНОСТИ РАСПРЕДЕЛЕНИЯ ОШИБОК

Специальность 05ЛЗЛ7 -Теоретические основы информатики

Диссертация на соискание ученой степени кандидата технических наук

На правах рукописи

Хайленко Екатерина Алексеевна

Научный руководитель Тимофеев В.С.

Новосибирск-2013

СОДЕРЖАНИЕ

ВВЕДЕНИЕ............................................................................................................................................6

1. ОСНОВНЫЕ МЕТОДЫ ОЦЕНИВАНИЯ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ И ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА.......13

1.1. Модель черного ящика и постановка задачи 13

1.2. Классические методы оценивания параметров 16

1.2.1. Метод наименьших квадратов 16

1.2.2. Наилучшие линейные оценки.......................................................................17

1.2.3. Метод максимального правдоподобия 18

1.2.4. Метод наименьших модулей 23

1.3. Устойчивые методы оценивания параметров.......................................................24

1.3.1. Метод наименьшей медианы квадратов (ЬМБ)....................................26

1.3.2. Метод наименьших уравновешенных квадратов (ЬТБ)....................27

1.3.3. Оценки Хьюбера.................................................................................................31

1.3.4. Знаковый метод...................................................................................................32

1.3.5. Ранговый метод...................................................................................................34

1.4. Адаптивные методы оценивания параметров......................................................34

1.4.1. Оценки, минимизирующие вектор остатков в Ьу -метрике 35

1.4.2. Адаптивные оценки на основе универсальных семейств распределений (кривые Пирсона, ряд Грама-Шарлье, устойчивые распределения)...................................................................................................................36

1.5. Планирование эксперимента........................................................................................38

1.5.1. Этапы решения задачи построения планов............................................38

1.5.2. Базовые понятия теории планирования эксперимента......................39

1.5.3. Последовательный алгоритм синтеза планов........................................42

1.6. Обзор программных систем оценивания параметров регрессионных уравнений и планирования эксперимента.......................................................................43

1.7. Анализ существующих методов оценки параметров регрессионных моделей и планирования эксперимента и обоснование

задач диссертационного исследования 45

1.8. Выводы 47

2. УСТОЙЧИВОЕ И АДАПТИВНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ..............................................................................................48

2.1. Влияние выбросов на линию регрессии 48

2.2. Модификации метода LTS на основе расстояний Махаланобиса, Кука, Велша-Куха и робастного расстояния.................................................................................52

2.3. Модификации рангового метода на основе расстояния Махаланобиса 55

2.4. Метод адаптивного оценивания параметров на основе обобщенного лямбда-распределения................................................................................................................56

2.5. Результаты вычислительных экспериментов..........................................................57

2.5.1. Зависимость точности оценивания параметров регрессионных моделей от изменения размера оценочного подмножества.......................59

2.5.2. Исследование точности нахождения неизвестных параметров уравнения регрессии методами LMS, LTS, ранговым и МНК при различных условиях проведения эксперимента..............................................61

2.5.3. Исследование времени выполнения алгоритмов метода LTS при различных объемах выборки....................................................................................65

2.5.4. Исследование точности оценок неизвестных параметров при ассиметричном распределении ошибок..............................................................66

2.5.5. Идентификация обобщенного лямбда-распределения остатков..............68

2.5.6. Исследование адаптивных оценок неизвестных параметров

при различных распределениях ошибок наблюдений..................................72

2.6 Выводы.....................................................................................................................................74

3. СИНТЕЗ ОПТИМАЛЬНЫХ ПЛАНОВ ПРИ НЕОДНОРОДНОСТИ РАСПРЕДЕЛЕНИЯ ОШИБКИ И ПОСТРОЕНИИ ОЦЕНОЧНЫХ ПОДМНОЖЕСТВ............................................................................................................................76

3.1. Адаптация алгоритмов планирования эксперимента к схеме LTS-оценивания 76

3.2. Вычисление элементов информационной матрицы Фишера с использованием обобщенного лямбда-распределения 81

3.3. Применение алгоритма планирования эксперимента для построения оценочных подмножеств в схеме LTS-оценивания 85

3.4. Построение оптимальных планов с использованием обобщенного алгоритма на основе универсального лямбда-распределения 89

3.4.1. Планирование эксперимента при нормальном распределении ошибок 90

3.4.2. Построение планов при отличном от нормального распределении ошибок наблюдений 93

3.4.3. Синтез планов на двумерной области планирования 97

3.5. Выводы 100

4. ПРОГРАММНАЯ СИСТЕМА УСТОЙЧИВОГО И АДАПТИВНОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ И ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА 102

4.1. Структура программной системы 102

4.2. Режимы работы программной системы 106

4.2.1. Режим моделирования 107

4.2.2. Режим оценивания параметров регрессионных моделей 109

4.2.3. Режим планирования эксперимента 115

4.3. Выводы 119

5. ПРИМЕНЕНИЕ УСТОЙЧИВЫХ МЕТОДОВ ОЦЕНИВАНИЯ, ИХ МОДИФИКАЦИЙ И МЕТОДОВ ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА

ПРИ РЕШЕНИИ ПРАКТИЧЕСКИХ ЗАДАЧ 121

5.1. Применение устойчивых методов оценивания, их модификаций и методов планирования эксперимента при исследовании состояния воздушных линий 121

5.1.1. Постановка задачи 122

5.1.2. Устойчивое оценивание уравнений кривых провисания воздушных линий (ВЛ) по данным лазерного сканирования..................129

5.1.2.1.Оценки параметров уравнения кривой провисания ВЛ 130

5.1.2.2.0ценки параметров с фиксированной точкой 132

5.1.2.3.Вычисление расстояния Махаланобиса для идентификации

типа выбросов 134

5.1.2.4.Результаты вычисления расстояний между В Л 140

5.1.3. Планирование уточняющих наблюдений при исследовании состояний воздушных линий по данным лазерного сканирования 145

5.1.3.1.Оценивание параметров ОЬ-распределения остатков 146

5.1.3.2.Результаты планирования уточняющих наблюдений......................147

5.1.3.3.Результаты планирования эксперимента при идентификации распределения остатков на основе несмещенных оценок моментов.......153

5.2. Применение методов планирования эксперимента для прогнозирования покупательского спроса....................................................................156

5.2.1. Постановка задачи................................................................................................157

5.2.2. Построение оптимальных планов на основе ОЬ-распределения.....159

5.3. Выводы.................................................................................................................................163

ЗАКЛЮЧЕНИЕ...............................................................................................................................166

СПИСОК ЛИТЕРАТУРЫ...........................................................................................................167

Приложения

ВВЕДЕНИЕ

В различных отраслях науки и техники исследователям часто приходится сталкиваться с необходимостью анализа данных и получения достоверной, максимально согласуемой с его природой, информации об исследуемом процессе (явлении). При современном уровне развития науки и техники это приводит к постановке сложных и дорогостоящих экспериментов. При их проведении исследователь пытается извлечь наибольшее количество информации об изучаемых процессах при наименьших затратах. Одним из способов получения такой информации является решение задачи оценивания параметров регрессионных моделей, которое позволяет спрогнозировать поведение наблюдаемого объекта в дальнейшем.

Классическим методом оценивания параметров регрессионных зависимостей является метод максимального правдоподобия (ММП), однако его применение требует наличие априорной информации о виде распределения ошибок наблюдений. Другим популярным методом оценивания параметров является метод наименьших квадратов (МНК), преимущество которого состоит в простоте вычислительной процедуры получения оценок. Однако при появлении в выборке грубых ошибок наблюдений (выбросов) либо при отклонении распределения ошибок от нормального закона оценки, полученные классическими методами, перестают обладать оптимальными свойствами. Для решения проблемы оценивания параметров регрессионного уравнения при появлении выбросов был разработан ряд устойчивых методов оценивания. Исследованиями в данной области занимались Хьюбер П., Хампель Ф., Rousseeuw P.J, К. van Driessen, БолдинМ.В., Тюрин Ю.Н и др. [10,50,74,77,80,88-93]. При негауссовском распределении ошибок наблюдений возможно применение адаптивных методов оценивания параметров регрессионных зависимостей. В данной области можно отметить работы Hogg R.V., Lenth R.V., Денисова В.И., Лисицина Д.В. [22,84,85]. Многообразие возможных распределений случайной ошибки привело к идее применения

ММП на основе универсальных распределений, одним из которых является обобщенное лямбда-распределение (GL-распределение) [86,95], описывающее целый класс распределений, таких как нормальное, экспоненциальное, Вейбулла, Гамма-, Бета- и др. В результате появляется возможность оценивания параметров регрессионных моделей для любых распределений случайных ошибок, пред ставимых в рамках GL-распределения.

Хорошо известно, что качество оценок параметров также зависит от информативности точек, в которых проводились измерения, т.е. можно получить большее количество информации об исследуемом процессе путем использования планов эксперимента. Наиболее известными исследователями в данной области являются Федоров В.В., Адлер Ю.П., Фишер Р., Налимов В.В., Денисов В .И., Попов A.A., Хабаров В.И. и др. [1,21,24,25,42,67,82]. Однако классические алгоритмы построения оптимальных планов эксперимента позволяют учитывать лишь неоднородность дисперсий на области планирования, но в ряде случаев на различных ее участках могут быть разные распределения. Поэтому необходимы алгоритмы синтеза оптимальных планов в условиях неоднородности формы распределения ошибок наблюдений на всей области планирования, построение которых также предлагается провести на основе GL-распределения.

Цель работы состоит в обеспечении возможности устойчивого и адаптивного оценивания параметров регрессионных моделей и синтеза оптимальных планов эксперимента при различных распределениях ошибок наблюдений.

Для достижения данной цели поставлены и решены следующие задачи: о разработка, реализация и исследование модификаций метода наименьших уравновешенных квадратов (LTS), рангового метода и алгоритмов построения оценочных подмножеств, близких к А- и D-оптимальному плану для схемы LTS-оценивания;

о разработка, реализация и исследование адаптивного метода оценивания параметров регрессионного уравнения на основе вЬ-распределения;

о вывод соотношений для вычисления элементов информационной матрицы Фишера на основе ОЬ-распределения и реализация на их основе нового алгоритма построения оптимального плана эксперимента;

о разработка программной системы устойчивого и адаптивного оценивания параметров регрессионных моделей и планирования эксперимента;

о применение разработанных алгоритмов устойчивого, адаптивного оценивания параметров и планирования эксперимента для задачи оценивания кривой провисания троса и прогнозирования покупательского спроса.

Методы исследования. Исследование проводилось с использованием методов регрессионного анализа, теории планирования эксперимента, математического анализа и линейной алгебры, численных методов, методов оптимизации и методов статистического моделирования.

Достоверность и обоснованность научных выводов и рекомендаций подтверждается корректными применением аналитических методов, соответствием выводов хорошо известным теоретическим законам, а также путем подтверждения полученных выводов и работоспособности алгоритмов результатами вычислительных экспериментов.

Научная новизна состоит в следующем: о предложены модификации рангового метода на основе расстояния Махаланобиса и метода ЬТБ на основе расстояний Махаланобиса, Кука, Велша-Куха и робастного расстояния, способ формирования оценочного подмножества исходя из критериев А- и Б-оптимальности, применение предложенных алгоритмов позволяет проводить устойчивое оценивание параметров уравнения регрессионной зависимости по наиболее информативным наблюдениям;

о разработан алгоритм адаптивного метода оценивания параметров на основе ОЬ-распределения, применение которого позволяет получить оценки

максимального правдоподобия параметров регрессионных моделей при различных распределениях ошибок наблюдений на участках области планирования;

о получены соотношения для вычисления элементов информационной матрицы Фишера на основе универсального лямбда-распределения, предложен обобщенный алгоритм планирования эксперимента, который позволяет учитывать форму распределения ошибок;

о разработана программная система устойчивого и адаптивного оценивания параметров регрессии и планирования эксперимента.

Практическая значимость. Разработанные подходы позволяют восстанавливать регрессионные зависимости и планировать эксперимент в условиях отклонения ошибок от нормального закона, что дает возможность применять предложенные алгоритмы для широкого спектра практических задач. Разработанная программная система, позволяющая применить алгоритмы оценивания параметров регрессии и планирования эксперимента на практике, зарегистрирована в виде объекта интеллектуальной собственности как программа ЭВМ (№ гос. per. 2011614692) [19].

Реализация результатов работы. Научные и практические результаты нашли свое применение в ООО «ЗапСибГеоПроект» и в учебном процессе НГТУ, о чем имеются соответствующие акты внедрения.

Основные положения, выносимые на защиту:

• алгоритмы формирования оценочных подмножеств метода LTS на основе расстояний Кука, Велша-Куха, Махаланобиса и робастного расстояния;

• алгоритм построения оценочного подмножества, близкого к оптимальному плану, для схемы LTS-оценивания;

• алгоритм метода адаптивного оценивания параметров регрессионных зависимостей на основе обобщенного лямбда-распределения;

• способ вычисления элементов информационной матрицы Фишера на основе ОЬ-распределения, обобщенный алгоритм синтеза планов с использованием универсального лямбда-распределения.

Апробация работы. Основные результаты работы докладывались и обсуждались на пятой международной научно-практической конференции «Высокие технологии, фундаментальные и прикладные исследования, образование», Санкт-Петербург, 2008г; на всероссийской научной конференции молодых ученых «Наука. Технологии. Инновации», Новосибирск, 2008-20 Югг; на десятой международной научно-технической конференции «Актуальные проблемы электронного приборостроения» АПЭП-2010, Новосибирск, 2010г. Также некоторые результаты проведенных исследований опубликованы в депонированных отчетах по научно-исследовательской работе [54-56].

Работа выполнена при поддержке стипендии Президента Российской Федерации на 2011-2012 учебный год согласно приказу Министерства образования и науки Российской Федерации № 2659 от 11.10.2011 г., ФЦП «Научные и научно-педагогические кадры инновационной России» на 20092013 гг. (проекты № П263, № 14.В37.21.0698), стипендии Правительства Новосибирской области на 2011г., научного студенческого гранта НГТУ 20082009 гг.

Публикации. По результатам исследований опубликовано 15 научных работ, общим объемом 5,49 п.л. (из них авторских 3,03 п.л.), включая: входящие в перечень рецензируемых научных журналов и изданий - 6 [18,43,60,61,64,65], сборники научных трудов - 1 [70], материалы трудов научно-технических конференций - 7 [12,13,62,63,69,71,72], свидетельство о государственной регистрации программы для ЭВМ - 1 [19].

Структура и объем работы. Диссертация состоит из введения, 5 разделов, заключения и списка литературы, состоящего из 95 источников, 3 приложений. Диссертация изложена на 175 страницах основного текста, содержит 46 рисунков и 41 таблицу.

В разделе 1 показаны наиболее известные подходы к поиску вектора неизвестных параметров уравнения регрессии, такие как МНК, ММП, метод наименьших модулей, М-оценки, оценки Хьюбера, знаковый метод, метод ЬТБ, метод ЬМЭ, Ьу -оценки, оценки на основе универсальных распределений и др. Также рассмотрены базовые понятия теории и планирования эксперимента, рассмотрены критерии А-, Э-, Е-оптимальности плана эксперимента и критерий экстраполяции в точку, приведено описание классического алгоритма построения планов эксперимента. В данном разделе проведен обзор существующих программных систем, применимых для оценивания параметров регрессии и построения планов эксперимента.

В разделе 2 показано влияние грубых ошибок наблюдений на линию регрессии, предложены модификации устойчивого метода ЬТЭ для устойчивого оценивания параметров регрессии на основе расс�