автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка и исследование методов оценивания и планирования экспериментов на основе генерирующих выборок

кандидата технических наук
Эрнандес Симон Луис Мануэль
город
Москва
год
1989
специальность ВАК РФ
05.13.01
Автореферат по информатике, вычислительной технике и управлению на тему «Разработка и исследование методов оценивания и планирования экспериментов на основе генерирующих выборок»

Автореферат диссертации по теме "Разработка и исследование методов оценивания и планирования экспериментов на основе генерирующих выборок"

МОСКОВСКИЙ ордена ЛЕНИНА и ордена ОКТЯБРЬСКОЙ РЕВОЛЮЦИИ ЭНЕРГЕТИЧЕСКИЙ ИНСТИТУТ

На правах рукописи

ЭРНАНДЕС Симон Луис Мануэль

УДК 519.224.011(043)

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ОЦЕНИВАНИЯ И ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТОВ НА ОСНОВЕ ГЕНЕРИРУЮЩИХ ВЫБОРОК

Специальность 05.13.01 - Управление в технических системах

Автореферат диссертации на соискание ученой степени кандидата технических наук

Москва - 1989

Работа выполнена на кафедре автоматики Московского ордена Ленина к ордена Октябрьской Революции энергетического института.

Научный руководитель

- доктор технических наук, профессор КРУГ Г.К.

Официальные оппоненты

- доктор технических наук, профессор ДМИТРИЕВ А.Н., кандидат технических наук доиент АДЛЕР Ю.П.

• ♦

Ведущая организация

- Институт проблем управления

Защита состоится "/ г " 1990 г. в кЗ час.

6 ° мин. в аудитории Г-^го на заседании специализированного Совета К 053.16.09 в Московском энергетическом институте.

Отзывы (в двух экземплярах, заверенные печатью) просим направлять по адресу: 105835, ГСП, Москва, Е-250, ул.Красноказарменная, д.К, Ученый Совет МЭИ.

С диссертацией можно ознакомиться в библиотеке МЭЙ.

Автореферат разослан " 1989 г.

Ученый секретарь специализированного Сов---

К 053.15.09 к.т.н., доцент

БОЧКОВ А.2.

Актуальность темы. Одна из центральных задач экспериментальных исследований - нахождение математической модели объекта по результатам измерения его входных и выходных величин. Для её решения на практике широко используется регрессионный анализ с целью определения оценок неизвестных параметров путем анализа экспериментальных данных. Использование статистических методов позволяет представить полученные экспериментальные данные в компактном, удобном и наглядном виде, обобщить их с помощью математических моделей и выработать оптимальное решение.

За последние годы был предложен ряд новых статистических методов, основанных на концепции рандомизации. Прогресс в развитии вычислительной техники и появление профессиональных персональных компьютеров обусловил появление новых "машинно-ориентированных" методов анализа данных, нспользущих принцип управления выборкой (методы генерирующих выборок). Одним из них является метод бутстрепа предложенный Б.Эфроном в начале 80-х годов. Появление нового подхода к анализу данных вызывает естественное желание очертить область его применения, дать теоретическое обоснование корректности и целесообразности его применения, дать детальную оценку используемым в нём алгоритмам и процедурам, выявить его недостатки и ограничения и рассмотреть возможные пути его дальнейшего развития. Поэтому любое исследование, рассматривающее в той или иной мере указанный круг проблем метода бутстрепа, представляется весьма актуальным.

Цель работы. Целью работы является систематизация и анализ современных методов статистической обработки данных, а также теоретическое обоснование и экспериментальное подтверждение возможности применения метода управляемых выборок (НУВ) в задачах регрессионного анализа планирования эксперимента.

Научная новизна •работы.

1. Проведена систематизация и сравнительный анализ современных методов статистического анализа данных, основанных на методе управляемой выборки.

2. Предложен и обоснован оригинальный подход бутстреп-ана-лиза, позволяющий использовать теорию планирования эксперимента, fía его базе получено теоретическое обоснование того, что во многих практических случаях можно получить более точные доверительные интервалы для оценок параметров, чем с помощью классических методов.

3. Показана применимость МУВ к линейному регрессионному анализу. На основе анализа линейной регрессионной модели показано, что формальное использование методов управления выборкой (и особенно бутстрепа) может приводить к серьезному смещению оценки искомого параметра.

4. Предложена методика исследования поведения МУВ, позволяющая непосредственно сравнивать его результаты .с результатами классического анализа.

5. На конкретных примерах проведено исследование поведения бутстрепа на линейной регрессионной модели.

6. Разработано программно-алгоритмическое обеспечение

на основе метода бутстрепа в задачах планирования эксперимента, с помощь» которого предложен способ формирования бутстрел-выбо-рок, а также на примере проведён сравнительный анализ результатов оценивания параметров модели объекта по методу бутстрепа и по классическим методам.

Практическая ценность работы и реализация результатов.

1. Разработан метод непосредственной рандомизации матрицы наблюдений и ггредлокены модифицированные методы получения оценки параметров регрессионной модели на основе процедуры бутстрепа, которые реализованы в виде составной части диалогового пакета прикладных программ Вопан для персональных компьютеров, совместимых с ШЛ РСДТ/АТ.

2. Результаты диссертации использованы при построении статистического пакета прикладных программ , с помощью которого исследованы результаты применения бутстрепа и проведено их сравнение с результатами классических методов.

Апробация работы. Основные результаты диссертационной работы докладывались и обсувдались на XI научной конференции болгарских аспирантов в СССР с международным участием "Актуальные проблемы современной науки - 89" (Москва, 22-23 июня 1989 г.).

Публикации. По результатам работы опубликована I печатная работа.

Структура и объем габота. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 55 наименований, к приложений. Диссертационная работа содержит

страниц машинописного текста, в том числе страниц

основного текста, включая четыре рисунка и 6 таблиц.

Во введении кратно рассмотрена история и обоснована актуальность решаемой в диссертационной работе задачи, излогается содержание работы и приводятся основные положения, выносимые на защиту, а также сформулированы общие проблемы, стоящие перед специалистами в этой области.

В первой главе проводится анализ классических методоз идентификации и планирования эксперимента. Цель главы - указать основные идеи, на которых базируется теория планирования эксперимента, ее современное состояние и основные направления развития. Рассмотрены критерии оптимальности планов регрессионного эксперимента (для линейных: и нелинейных по параметрам моделей). Проведен анализ концепции рандомизации, условий, способствующих её возникновению и развитию и ограничений, накладываемые на неё при планировании эксперимента. Выделены общие статистические критерии, свободные от распределения и критерии рандомизации через . призму теории планирования эксперимента. Проводится обзор новых методов обработки статистических данных: метода управления выборкой, метода "складного ножа" и метода перекрестной проверки достоверности, метода сбалансированного повторения экспериментов и метода бутстрепа. Подробно проанализированы методы бут-стрепа и "складного ножа".

В тех случаях, когда не выполняются предпосылки, лежащие в основе классических методов математической статистики, концепция рандомизации является весьма эффективным средством планирования и анализа эксперимента. Сам по себе факт рандомизации обеспечивает вероятностную основу статистического вывода, при этом не требуется выполнение предпосылок нормальной теории. Данные положения используются в первом непараметрическом методе - рандомизированном анализе Фишера. Быстрое развитие и удешевление вычислительной техники, приведшее к появлению персональных компьютеров обусловило появление целого ряда новых машинно-ориентированных методов анализа данных, использующих принцип управления выборкой.

Между данными методами существует тесная взаимосвязь. Все они основаны на генерировании множества гипотетических выборок из реальных данных. Основное отличие между ниш заключается в способе получения этих выборок.

Данные методы можно объединить на основе концепции рандоми-

зации. Она нашла свое полное воплощение в методе бутстрепа, где как бы происходит рандомизация рандомизации. Проиллюстрируем применение концепции рандомизации к генерированию выборок на следующей схеме.

Выборки , уг Хт,} генерируются на основе данных реальной выборки х=(Х > х* > — ¡Хп) так, что все единицы новой выборки имеют одну и ту ке вероятность принять любое значение из реальной выборки: для каждого j= 1,2.....п методом

статистических испытаний (Монте-Карло) определяется случайный номер К , равномерно распределенный на множистве {1,2,..п\ и образуется выборка

Уе- = (> *к(г)>---^к(п^)

При этом предполагается, что номера К Л) , к (г).....м<пЧ

выбираются независимо друг от друга. Другими словами берется выборка объема " из эмпирического распределения *

В задачах прикладной статистики для оценки точности вывода используются непараметрическое оценивание смешения, дисперсии и более общие меры погрешности. Исторически они восходят к методу "складного нота", а для бутстрепа выводятся асимптотически из результатов для метода "складного нока".

Пусть дана независимая повторная выборка (данные состоят из независимых и одинаково распределенных (НОР) случайных величин) объема п

х"= > X* %г>) (I)

с неизвестным распределением вероятностей р на действительной прямой.

Пусть - выборочное среднее данных, из которых исклю-

чена 1 -я точка

п-1 п-1 4—, -1 ^ '

Пусть Хм - среднее арифметическое этих средних

V - *<1> ,

л,.,-^--(3)

г

Оценка методом складного нока для стандартного отклонения:

Пусть 9 (F) - некоторый действительный параметр, который оценивается с помощью статистики в = Q (f) , где F - эмпирическое распределение вероятностей F : масса 0» в точках х, , х* В методе "складного ножа" удаление точки X;

приводит к распределению F(a : масса в точках х, , xz ,

• •• »*«-< » *;+' »•••»*" (и новому занчению статистики eù^âCÂMyzâfx.^r.X;.,,^,,..^. Пусть Û оценка

дисперсии мо методу "складного ножа", тогда оценка смещения $„ (n-,t<Sfn-S)

ем

л " л Л 2

£>сн — (&"> (5)

¡г!

В диссертации оценка (5) сравнивается с обычной оценкой матрицы ковариаций МНК-оценки параметра fi регрессионной модели ¿i >

где ¿^¿éï <S)

¿s!

оцененный остаток ( ¿V = - с,- р)

Оценки (5) и (6) асимптотически совпадают в случае, если все <?/ одинаковы по величине.

Аналогично анализу метода "складного нока" рассмотрим бут-стреп-оценки стандартного отклонения. При заданном объеме выборки * стандартное отклонение является функцией от неизвестного распределения вероятностей F ; Sn = л, , бутс треп

оценкой стандартного отклонения является величина ¿о> , вычисленная при F-F

S„--S(F) (7)

Функцию f (rt нельзя записать в явном виде. Поэтому для вычисления S„ используется алгоритм метода Монте-Карло.

X. Подобрать параметрическую оценку наибольшего правдоподобия для F

F : масса ^г в точках , = Г..... о . (8)

2. При фиксированном извлечь из него случайную выборку объема п ("бутстреп-внборш")

14 f А

I ВЫЧИСЛИТЬ 9*= & ( X,"..... ).

3. Независимо выполнить шаг 2 много раз (V) получив при

^ Л Я2 ?»V-

этом "бустреп-повторенкя" ° , в и вычислить

\} 1777 ± 1$"-$-]' 4 1

в"' ¿Г

(Ю) (II)

При V —»о , оценка (10) в точности совпадает с (V).

Стандартное отклонение только иллюстрирует метод бутстрепа, но не играет особой роли при его применении. Поэтому на шаге 3 можно находить лгобуи другую оценку вместо 5„ . В диссертации рассматривается случай общей одновыборочной задачи, где к ( х , ? ) -случайная величина, зависящая от независимой повторной выборки

* = (х,,х,......х„ } и от неизвестного распределения . Бутст-

реп-оценка смещения представляет собой математическое ожидание к = К ( X , Я) для выборочной процедуры бутстрепа ( .....Уд

(12)

и аппроксимируется величиной

.когда

В случае, если б =3 {р) - квадратичный функционал, то Вп = _ />-/ " *с П см *

Во второй главе изложены вопросы теоретического анализа бутстрепа для задачи регрессионного анализа и планирования эксперимента. В основе анализа лежит алгоритм бутстрепа для построения регрессионной модели на основе вышеописанного алгоритма, его обобщение на матричные регрессионные модели и получение доверительных интервалов .для определенных преобразований параметра . Проводится сравнение доверительных интервалов в случае заданного нормального распределения и в случае полученного бустреп-распределения, доказана теорема, позволяющая получить центральный доверительный интервал уровня (I - 2*) для в при использовании процедуры бутстрепа.

Для удобства дальнейшего изложения представим регрессионную модель в векторном виде:

у = Х^а + е (13)

где

Допустим, что XX не вырождена. Обычный МНК имеет вид:

/}-(Х7Х)~\гу (14)

Первый метод бутстреп основан на извлечении КОР выборки { е2}( с нормализованных остатков вида

М=4

I I,

(15)

где - у- ~ У.Iр - I -ый остаток.

МНК-оценка вектора параметров р при использовании бут-стрепа имеет вид:

Л\{*тх)' хтр» (15)

В диссертации предложен метод для использования выборочных остатков. В нем -ый остаток используется с ошибкой, соот-

ветствующей наблюдению уг . Определим

хГбс7хГ'^ ч (Ш)

при ограничениях = О , =

Выводы о уЗ или & "2 (А? могут быть сделаны на основе /»* в (16).

При линейных параметрах откуда следует, что из

(18) легко получить

ОпВ =

хтх

(19)

При нелинейных оценка Опа зависит от выбора

метода управления выборкой.

Предложенная схема вычисления ошибки позволяет получить несмещенные оценки коэффициентов и . Данный подход можно ис-

пользовать во всех методах управления выборкой, где выполняется условие (18).

Второй бутстреп метод основан на извлечении НОР выборки {у* I из КОР {(у,-, Х;)^" . В этом случае МКК-оценка

параметра ¿3 определяется так:

V" • «т

А* ЛЕГ*!*!

Не взвешенная бутстреп-оценка дисперсии равна

(9"-§}(е"-3)г 9 =2 (А)

В диссертации подробно рассмотрено получете вышеописанных оценок. Приведенные выводы распространяются и на остальные методы управляемой выборки.

Для дальне&лего изложения необходимо более подробно рассмотреть концепцию управления выборкой. Выборка с возвращением 2, = = Су., х,),..., 2„ = (ул, хя) представляет собой выборку (2 с пересчитанными весами Р* > О - Вектор Р » (??> •• • Рп) называется вектором вероятности выборок. Для кавдого Р , соответствующая ему оценка МНК р* определяется следующим образом

(21)

о"= ,..., рХ)

То есть имеем взЕезенную :/.НК-оценку с весам, пропорциональными р? . Обычная "НХ-оцекка соответствует величине Р1 -Предположим, что

I) в, (/7,"- / Р*)=ап>о (22)

независимо от подшокества , - вдело параметров в

формуле (13). Легко заметить, что следующее предположение вялю-

чает в себя предположение I.

2) а) п -случайные переменные {/'/} взаимозаменяем, б) Р > О (если размер Р* Ъ К ), где размер Р" представляет собой все числа Ус Ъ > О.

Условие 2а утвернсдает симметричность управления выборкой.

Условие 26 является минимальным гарантом того, что некоторые выборки имеют размерность ^ К .

Предположения I) и 2) представляют собой предпосылки применения процедуры управления выборкой. Условие 2) более общее, чем условие I), следовательно, достаточно выполнения условия 2).Условие 2а утверждает симметричность управления выборкой, а условие 26 слугат минимальной.

Гарантией того, что хотя бы некоторые выборки тлеют объем не меньший, чем количество переменных:. Выполнение этих условий позволяет сформулировать и доказать теорему, дающую связь ме;кду '.ЯК-оценкой р , где матрица входных данных >< состоит уже из сгенерированных выборок, и взвеиенной МНК-оценкой,'полученной на основе выборки исходного объема с учетом особенностей генерации.

Теорема I. Если выполняется условие (22), то для всех ?

°ЦеНКа^ В ьЦх^х!/"} (23)

£„|Х*0«*| ^

где р* - МНК-оценка с весами /}* , = Р„ ) ,

совпадает с невзвешенной МНК-оценкоЯ вектора , полученной на базе сгенерированной выборки.

Данная теорема позволяет распространять рандомизацию и на входные данные, т.е. получается как бы двойное применение бут-стрепа. Она обосновывает применение последовательного бутстреп анализа данных, что позволяет применить метод бутстрепа в задачах планирования эксперимента. Для этого информационную матрицу следует представить в виде

М^хт0х) (24)

для использования в модели

у£ = <=< + X?/} + в;

В диссертации показано, что из невзвесенной оценки дисперсии бутстрепа молю получить хорошую несмещенную оценку й'„а .

1 » у

Если в формулу для дисперсии бутстрепа подставить 2И р/ ,

основнваясь на условиях £,(Р/) = 1 , и Ж. ъ* О , то тогда сценку = £", (р' -/) мокно^аппроксимировать

внракением

, ' "12 JZ

У~ X,T \ Xi Xi /

-_-L- Y_ (25)

Л ¿rj vrx

что приводит к некоторой простой модификации :

=-D„B (27)

Член п/п-к корректирует смещение оценки . Такой

не коэффициент может быть добавлен к оценке А?а .^В случае, если не игнорировать бутстреп-дисперсию в выражении £ X; X; , оценка Опв будет больше, чем (23) из-за выпуклости".

Не меньший интерес для статистики представляют доверительные интервалы оценки рараметров. В диссертации расширена методика получения корректного доверительного интервала единым образом для любого оцениваемого параметра.

Пусть д - монотонное преобразование, - константа смещения, с - константа "ускорения". Построение доверительных интервалов требует от статистика, чтобы он вычислил бутстреп-распределение ( 6 ), а также "значения констант и Я . В диссертации доказана теорема, позволяющая получать бутстреп-доверитеяьные интервалы.

Теорема 2. Предположим, что существует такое <j , Д» и а , что преобразование , ф = удовлетворяет

условиям ф + e+Oi-Zo)

(Z~N(0,l)), ft-l+аф

Пусть -0oO°t) % _ Kax точка бутстреп-функции распределения. Тогда корректный центральный доверительный интервал уровня (t-Zoc) для б имеет вид

*6[е.(#№3»; в-'О?(г[>-*])>]

где ■?[<*] = го +--

Аналогично определяется Z [>-с<]

Бутстреп-распределение G находится непосредствено из кумулятивной функции распределения (КФР) для него. Для этого нет необходимости знать преобразование % , встречающееся в

теореме 2. Консганты и а тамокко получить или по крайней мере аппроксимировать непосредственно, когда построено бут-стреп-распределение.

В третьей главе описан статистический пакет 30Р1АЫ" , разработанный с- использованием метода бутстрепа для персональных компьютеров, совместимых с 1ВМ ГСДТ/АТ. Рассмотрена структура пакета, назначение отдельных модулей и взаимосвязь мекду ними.

В диссертации приведен краткий обзор состояния статистических программных средств для персональных компьютеров, совместимых с 1Ш РС. Данное исследование показало необходимость в простом обращении пакета для планирования эксперимента с использованием бутстреп-метода, с целью не только планировать эксперимент и обрабатывать результаты, но и исследовать сам метод бутстрепа.

Пакет прикладных программ ВОР1АЫ" реализует алгоритм для уточнения оценок параметров линейных моделей, полученных по методу бутстрепа, а такке по стандартному методу планирования эксперимента для тйго, чтобы сравнить полученные результаты,и оценить работу новых методов. Пакет состоит из нескольких взаимодействующих друг с другом модулей, использующих общие данные. Программа работает в диалоговом ре;глме с помощью системы меню.

Структура пакета прикладных программ ВОР1.А!Ч приведена

на рис. I.

Ríe. I

Назначение составных частей пакета ВО PL Л N I. 30PLAN - про грамма-мено для управления ьызова модулей 301 и , EDIT , QOHIS , K.OL М .

программа редактирования входных данных, формирования файлов данных.

программа для построения гистограмм по результатам Во lu , Вор ас и любых данных, обработанных программой ËDIT

программа для проверки адекватности функции распределения (нормальное, экспоненциальное, равномерное) по критерию Колмогорова-Сшрнова. программа для генерации выборки бутстрепа по методу-Монте-Карло .

программа для оценки параметров модели, для полного факторного эксперимента и для дробного факторного эксперимента.

программа для оценки параметров модели в случае ортогонального центрального композиционного планирования.

Архитектура пакета открытая, что делает возможным добавление других модулей формата 0OFAC ц воокт для оценки параметров модели в других случаях (например, для ротатабельного центрального композиционного планирования). Такая структура позволяет создавать различные версии пакета в случае его распространения в качестве коммерческого продукта и легко наращивать его

MOEîHOCTb .

В диссертации подробно рассмотрена структура каждого модуля.

Модуль 3oiu позволяет генерировать определенное количество выборок бутстрепа по методу Монте-Карло, используя набор экспериментальных данных, полученных по оптимальному плану. Случайная выборка объема п извлекается на основе совершенно неизвестного распределения вероятностей.

Алгоритм работы модуля.

I. Ввод входных данных модуля:

а) вводится величина для функции генерации через оператор RhNOOMizB . Обычно алгоритм генерации случайных чисел опирается на стартовое "порождающее" значение, которое вводится и изменяется оператором RANPomize . Сама же случайная последовательность генерируется с помощью функции яле t которая и использует введенное с помощью xandomizz стартовое значение. Поэтому

с целью получения различных последовательностей и предоставлен пользователю ввод аргумента f\ANDOMiz.£ ;

б) ввод количества повторений бутстрепа. В диссертации показано, что заметных улучшений оценок с ростом числа црвторошП

2. £DJT -

3. BOHIS -

4. KOLM

5. &OLU

6. BOFAC _

7. &DOH7 _

(после ТОО повторений) не наблюдается. А на практике даяе 2530 повторений достаточно для получения хоросих результатов; в) ввод матрицы данных (наблюдений) эксперимента. 2. Генерация бутстреп-выборки на матрицы наблюдений. В диссертации предложена блок-схема алгоритма нахождения бутстреп-выборки из матрицы:

а) выбирается 1-я строка матрицы наблюдения;

б) генерируются V бутстрел-выборок из этой строки;

в) находятся V средних значений в каждой выборке для

hi — (г) — fv)\

данной строки (у,- , у,- ) I

г) вычисляется среднее значение для всех V значений, найденных на шаге в);

д) вычисляется дисперсия On для ка'.хдой выборки

где & - количество бутстреп-выборок;

Yi - среднее значение для каждой бутстреп-выборки;

—. >j

У» - среднее значение всех: Х^ для i -той строки

матрицы;

е) выбирается новая строка матрицы и повторяются действия б) 5- д);

к) после перебора всех строк, найденные значения записываются в файле, который используется программами BOFAC , ZDHls ,

KOLM .

Аналогичным образом обрабатывается информационная матрица. Данная версия пакета разработана для персональные компьютеров (ПК), совместимых с ПК IR1 PC, IS' PC/XT и IS' PC/AT. Программы написаны на версии языка Basic дЛЯ ш' PC, но не содержат операторы, работающие непосредственно с ячейками памяти маыины (типа Роке , psak ), что позволяет без особых затрат реализовать ее на версиях языка basic для других ГК.

Программа скомпилирована с помощью компилятора Quick Basic версия 4.0 фирмы Micro Soft , что увеличило ее быстродействие более чем з 5 раз. Возможна компиляция с использованием сопроцессора, что заметно улучшает скоростные характеристики работы программы.

3 пакете "Воplan предусмотрена отработка различных возникающих системных отгибок, как и «зябок пользователя, без выхода из пакета, что значительно позкнает надежность его работы.

Пакет оформлен в виде коммерческого продукта. В диссертации показаны основные критерии, позволяющие отнести данный пакет к коммерческим продуктам. Описана вторая версия пакета, использующая интерфейсную оболочку для пакетов прикладных программ для ПК, совместимых с Ш.1 РС, разработанную на кафедре Автоматики МЭИ. В данной версии вместо модуля Еыт используется встроенный в сболочиу редактор, а такие файловые форматы оболочки. Дано подробное описание всех меню системы. Приведены практические рекомендации по применению пакета на некоторых наиболее распространенных, совместимых с 1ЕМ РС ПК, с учетом особенностей клавиатуры с кириллицей.

В четвёртой главе проводится анализ техники бутстрепа на примерах. Даны конкретные предпосылки использования метода управляемых выборок на нелинейных регрессионных моделях. Предложена методика сравнения различных методов управляемой выборки, на базе относительного смещения оценки дисперсии.

С помощью данной методики проанализированы семь наиболее распространенных методов управляемой выборки: обычный бутстреп (а ), невзвешенный "складной нож" ( б ), "складной нож" с отбрасыванием одного элемента выборки ( в ), хинклевский "складной нож" с отбрасыванием одного элемента выборки ( г ), групповой "складной нож" ( д ), невзвешенный бутстреп ( е ), взвешенный бутстреп (ж).

Вектор , минимизирующий

является МНК-оценкой параметра 9 , основанной на п- первых значениях и X; регрессионной модели (13).

I. Необходимым условием состоятельности оценок в„ является выполнение следующих условий для данной модели:

а) функция ^ С ¡С, 3) должна быть непрерывной ,

б) помехи , £ = I, 2,...,/т являются независимыми, одинаково распределенными случайными величинами с нулевым средним и конечной дисперсией, 6"\

в) функция

(29)

(30)

равна 0 только для_ §=&„ .В случае,когда а + в удовлетворяются, 9п и Бп-Ц„(В„) являются сильно состоятельными оцен-

каш Щ, и Б1 ,

11. Чтобы оценки были асимптотически нормальными, модель (13) должна удовлетворять более жестким условиям. . Ус-

ловие 1а) должно быть заменено условием Па), а) у (х, в) есЧЛуУ-^)

Кроме этого необходимо добавить следующие условия: 1.е) во - внутренняя точка в- ,

1.к) матрица Л = Ь/я Ал не является вырожденной. Элемент Матрица Д" определяется по формуле

/ ^Г^гх-е)

п fr-L ЭР; äs;

При удовлетворении условий Па), 16), 1в), 1е), распределение величины (Sn-B^tsP)' стремится к Р -мерному нормальному распределению В А (9,)~'Ул Л п явйяетея сильно состоятельной оценкой АГ&я) .

В диссертации рассмотрен простой пример квадратичной регрессионной модели,на базе которого проведено исследование применения различных методов управляющей выборки, сравнение результатов и оценок.

Рассмотрим два случая:

1) Случайные помехи е4- гадают разные дисперсии

2) Случайные помехи ei имеют одинаковые дисперсии А; = I.

В диссертации приведено сравнение семи вышеуказанных методов управляющей выборки с помощью предложенной методики на базе относительного смещения оценки дисперсии, определяемого по формуле (£(D-D(ß)/\DCß)\ . Приведена таблица полученных результатов, на базе которой можно сделать следующие выводы:

1. Самые плохие оценки дают (б) и (е) с относительным смещением в интервале бО1?, 210* . Саш смещения этих оценок очень близки. Данный факт отмечает довольно серьезную слабость невзвешенных процедур при несбалансированных ситуациях.

2. Следующая по качеству оценка (2) с относительным смещением в интервале 13°?, 4?^ . Знаки смещения оценки (2) противоположно знакам смсщспия onci ю;; (б) я (с).

3. Оценки (в) и (д) почти несмещены. Этот факт говорит о том, что оба взвешенных метода ведут к довольно значительной раз-

- Г8 _

нице в результатах при несбалансированных ситуациях.

4. (ж) работает приблизительно так же хорошо, как (в) и (д).

5. Обычный бутстреп (а 1 дает довольно хорошую оценку

в случаях одинаковых дисперсий, в; , но имеет серьезное смещение при оценке £>„ (/3.) при неодинаковых дисперсиях, е;

В диссертации приведены оценки доверительных интервалов для нелинейного параметра , максимизирующего квадрати-

чную функцию X1 относительно х . Анализ результа-

тов указывает на некоторые особенности при использовании данных методов в нелинейном регрессионном анализе.

1. Эффект нелинейности параметров - с ростом нелинейности параметра в доверительные интервалы расширяются и соответственно доверительная вероятность уменьшается.

2. Эффект неоднородности дисперсии ошибок - поведение указанных методов худе в случае неодинаковости дисперсии. Оба групповых метода "складного нона" меньше попадают под влияние неоднородности дисперсии. При одинаковых дисперсиях все методы работают хорошо даже для самого нелинейного из рассмотренных случаев.

В диссертации проводится сравнительное исследование построения доверительных интервалов с использованием классического метода и классического бутстреп-метода.

Пусть X,,—, ~ Р , Пусть д - параметрическая функция и T=t (X,,—, статистическая оценка, которая используется в качестве оценки £ (Р) . Тогда

ЗСГ, Х)=Т(32) где Х=^Х,,—, Хя) называется "ошибка оценки". Обозначим через С* (Р) ее функцию распределения:

при у-ь 6Я

В качестве примера рассмотрена

п - '

Тогда для ск, >0)ск1 + <хг < I бутстреп интервал

(33)

(34)

(35)

- 1Я' -

= ] т - I-ее,), т- с;'«,) [ (3б)

удовлетворяет условию

ГР(бг(Р)6]к) * /-«* (37)

Для определения классического интервала в диссертации рассмотрен пример

(V - б' (р)) __ N (О, ЛГ)) , (38)

✓я

где /я =0, (С X,-£/•#,»*)

Доверительный интервал имеет вид

В диссертации приведены значения частот попадакий в доверительный интервал на дисперсию для трех распределений (нормального , равномерного, экспоненциального). Для сравнения 1с,« и 1а» были сделаны N = 1500 выборок размером п для получения стандартного нормального и равномерного распределений. Исследования проводились соответственно для п = 10, 20, 35 и 100. Во всех случаях проверялось попадание истинной дисперсии в соответствующий интервал. Были вычислены соответствующие уроши со стандартным отклонением меньстм, чем 0,01. Для вычисления

Сиспользовались N = 300 Еыборок.

В итоге можно сделать вывод о тем, что при малых объемах выборки бутстреп дает несколько лучше результаты в случаях нормального и равномерного распределения ( и почти одинаковый при экспоненциальном распределении), чем классический метод. С ростом объема выборки в первых двух случаях оба метода стремятся к 0,9. В случае экспоненциального распределения бутстреп работает довольно плохо.

Основные результаты работы

1. Проведен анализ классического и нетрадиционного методов статистической обработки данных и нсзых идей я концепций з области рандокизаши и методов генерирующих выборок.

2. Проанализировано современное состояние теории бутстрепа

и других методов генерирующих выборок.

3. Дана постановка задачи приминения бутстрепа к регрессионной модели и применимости к планированию эксперимента. Доказана теорема, позволяющая строить доверительный интервалы по методу бутстрепа.

4. Показана применимость бутстрепа к линейному регрессионному анализу. Предложен оригинальный подход бутстреп-анализа через теорию планирования эксперимента, позволяющий сделать вывод об устойчивости доверительных интервалов бутстрепа и о применимости кевзвешенного метода бутстрепа при наличии постоянной компоненты модели.

5. Разработано статистическое программное обеспечение

для персональных компьютеров, совместимых с ГЕ.1 РС, с использованием бутстреп-процедуры, позволяющее решать задачи анализа регрессий с помоцью бутстрепа и непосредственно сравнивать результаты с результатами классического анализа.

6. С помощью пакета ео Я/лдУ проведен анализ бутстрепа применительно к линейной регрессионной модели и сравнение на основе статистического моделирования классического метода и метода бутстрепа.

Основные результаты диссертации опубликованы в работе:

Эрнандес Л.М. Применение метода генерирующих выборок в задачах: планирования эксперимента.// XI научной конференции болгарских аспирантов в СССР с межд.'участием: Тез.докл. 7 М. 1989,

Подпитию к пгч.пи

.1 /^¿Г _ 'Тираж /СЮ ____

Тнлографпя МЭИ, Кр.'кноки м|>\и-инан, 13.