автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Модифицированные оценки линейных функционалов от распределений вероятностей с учетом дополнительной информации
Автореферат диссертации по теме "Модифицированные оценки линейных функционалов от распределений вероятностей с учетом дополнительной информации"
На правах рукописи
Головчинер Ольга Николаевна
МОДИФИЦИРОВАННЫЕ ОЦЕНКИ ЛИНЕЙНЫХ ФУНКЦИОНАЛОВ ОТ РАСПРЕДЕЛЕНИЙ ВЕРОЯТНОСТЕЙ С УЧЕТОМ ДОПОЛНИТЕЛЬНОЙ ИНФОРМАЦИИ
05 13 01 - Системный анализ, управление и обработка информации (по отраслям информатики, вычислительной техники и автоматизации)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
Томск - 2007
003176444
Работа выполнена в ГОУ ВПО "Томский государственный университет", кафедра теоретической кибернетики, и ТНЦ СО РАН
Научный руководитель:
доктор физико-математических наук,
профессор
Дмитриев Юрий Глебович
Официальные оппоненты:
доктор физико-математических наук, профессор кафедры ВМиММ ТГУ
Воробейников Сергей Эрикович
доктор технических наук, профессор
кафедры АСУ ТУСУР
Сергеев Виктор Леонидович
Ведущая организация:
Томский политехнический университет
Защита состоится:
20 декабря 2007 г в 10 30 на заседании диссертационного совета Д 212 267 12 при Томском государственном университете по адресу 634050, г Томск, пр Ленина, 36
С диссертацией можно ознакомиться
в Научной библиотеке Томского государственного университета Автореферат разослан: 12 ноября 2007 г
Ученый секретарь диссертационного совета д.тн., профессор
В.И Смагин
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. Одной из основных задач статистической обработки данных является определение вероятностных характеристик исследуемого явления или системы Математическая формулировка таких задач обычно сводится к оцениванию функционалов от неизвестного распределения вероятностей наблюдаемой случайной величины, которое приходится оценивать по результатам проводимых экспериментов, наблюдений и измерений
Практически всегда исследователь, кроме выборки, обладает какой-либо дополнительной информацией об оцениваемом функционале или распределении Например, о функционале или других, с ним связанных, может быть известно, что они могут принимать значения из заданного множества, а распределение может быть симметричным, иметь известные моменты заданных уровней и тп Стремление повысить качество оценок или уменьшить объем экспериментальных данных, требуемых для достижения заданной точности, приводит к необходимости рационального учета всех имеющихся сведений
Начиная с середины прошлого века, проблема привлечения дополнительной априорной информации в процедуры статистического оценивания широко обсуждается в научной литературе В работах Н Н Hansen, Н О Hartley, Ю Н Тюрина, Е F. Schuster, Б Я Левита, Ю.А Кошевника, В Н Пугачева, ФП Тарасенко, ЮГ Дмитриева, ГМ Кошкина, ЮК. Устинова, J Chen, В. Zhang, A Arcos, J N К Rao, В А Гуревича и многих других исследуются как теоретические аспекты проблемы, так и прикладные вопросы, возникающие в различных приложениях в радиофизике, статистической радиотехнике, теории надежности, обработке медицинских, социологических, демографических, экономических данных и др
Но, рассматривая различные виды дополнительной информации, практически все авторы исходят из предположения, что имеющиеся сведения являются достоверными, точными и однозначными Однако на практике исследователь не всегда может быть абсолютно уверен в полноте и точности априорной информации, особенно когда речь идет об оценках экспертов
Данная диссертационная работа является логическим продолжением исследований, проводимых на кафедре теоретической кибернетики ТГУ (Ю Г Дмитриев, П Ф Тарасенко), посвященных проблеме учета при статистической обработке данных многозначной дополнительной информации и информации со смещениями Многозначной здесь называется информация, заданная в виде конечных множеств возможных значений некоторых функционалов Смещения появляются, если истинные значения функционалов
не содержатся в заданных множествах Такую информацию еще называют априорной догадкой
Цель работы. Построение статистических оценок функционала с учетом многозначности в априорных условиях, исследование свойств этих оценок при конечных объемах наблюдении методом имитационного моделирования Методик» исследования. При решении поставленных задач применялись методы математического анализа, теории вероятностей, математической статистики и имитационного моделирования на ЭВМ Научная новизна работы состоит в
- обобщении постановки задачи условного оценивания на случай разного количества значений до юлнительных бункцконалов, задающих априорную информацию,
- построении оценок, обладающих свойством сходимости к истинному значению оцениваемого параметра в среднеквадратическом,
- построении адаптивной оценки функционала для учета дополнительных условий со смещениями,
- исследовании свойств услоеркх оценок линейного функционала при конечных объемах наблюдений;
- построении оценок функцио -галов от симметричного распределения с центром симметрии, заданным с точностью до конечного множества значений.
Практическое значение работы состоит в том, что полученные результаты могут быть использованы для построения более точных по среднеквад-ратической ошибке оценок различных вероятностных характеристик систем или сокращения объема выборки, необходимого для достижения заданной точности оценок, в задачах выборочного контроля качества, обработки технических, социологических и других экспериментальных наблюдений
Достоверность полученных результатов подтьерждаетсч строгими математическими выкладками, прозеднныки с применением апгарата теории вероятности, математической статистики и теории матриц. Правильность и работоспособность полученных формул подтверждена имктаинонкым моделированием на ЭВМ
Результаты, выноси иые ка защиту.
1 Ртуляризованные оценки функционала для учета несмещенной априорной инфоомации, доказательстве их сходимости в среднеьвадратическом
2 Адаптивная оценка функционала для дополнительных условий та смещениями, сочетающая оценивание параметра с проверкой априорных условий на несмещенность
3 Результаты исследования свойств оценок при конечных объемах наблюдений, полученные методом имитационного моделирования
4 Оценки функционалов от симметричного распределения с центром симметрии, заданным с точностью до конечного множества значений, результаты исследования их свойств Апробация работы. Работа докладывалась и обсуждалась на научных семинарах кафедры теоретической кибернетики факультета прикладной математики и кибернетики ТГУ, а также на следующих научных конференциях и симпозиумах VIII Всероссийская научно-практическая конференция "Научное творчество молодежи"(Томск, 2004), V Всероссийский симпозиум по прикладной и промышленной математике (Сочи, 2004, Осенняя сессия), Международная конференция, посвященная 70-летию профессора, доктора физ -мат наук ГА Медведева (Минск, 2005), III Всероссийская научно-практическая конференция "Информационные технологии и математическое моделирование"(Анжеро-Судженск, 2005), VI Всероссийский симпозиум по прикладной и промышленной математике Весенняя сессия (С -Петербург, 2005), I Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых "Инноватика-2005"(Томск, 2005), VI Всероссийский симпозиум по прикладной и промышленной математике Осенняя сессия (Сочи, 2005), IV Всероссийская научно-практическая конференция "Информационные технологии и математическое моделирование"(Анжеро-Судженск, 2005),
Публикации. По результатам выполненных исследований опубликовано 12 печатных работ
Личным вкладом диссертанта в совместные работы является вывод теоретических результатов, разработка вычислительных алгоритмов моделирования и анализ полученных результатов. Постановка изложенных в диссертации задач и формулировка общего подхода к их решению принадлежит научному руководителю соискателя
Структура и объем диссертации. Работа состоит из введения, четырех глав, заключения, списка использованной литературы и пяти приложений Объем диссертации без приложений — 156 страниц, иллюстрированных 76 рисунками Объем приложений — 58 страниц, содержащих 113 таблиц Список использованной литературы включает 82 наименования
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертации, проведен обзор литературы по проблеме учета дополнительной информации в статистическом оценивании, определены цели и методы исследования и сформулированы основные положения, выносимые на защиту
В первой главе рассматривается задача построения оценки функционала 0(Р) — Мр^Л^) = /рп '¿(х)Р{<1х) по независимой выборке Л'ь , Д'л. из неизвестного распределения Р на й", п ^ 1, при наличии дополнительной информации о том, что каждый из т других функционалов Ьа(Р) — МрУг №) = /д„ ■0в(т)Р{<1х), 5 = 1 77!, 777 ^ 1, ПрИНИЧаеТ ОДНО из ка известных значений З3\ /352) Здесь полагается, что с^ и Ф3, я = 1 ,пг — заданные скалярные функции на ГС1, числа > 1 — количества возможных значений дополнительных функционалов — могут быть различными для разных я, и для каждого из функционалов Ь5(Р) известны все возможные значения.
В силу последнего условия, если обозначить Д5((Р) — Ь3(Р) - ¡35( и Д„(Р) = П^! &АР) ддя всех í = 1 ,ка, я = 17т, то
Д.(Я) = У /П(^)-А^) Ж*О = 0 (1)
Л" Я" 4=1
Таким образом, исходная задача сводится к построению условных оценок линейного функционала 8{Р) — с учетом полилинейных условий (1) Подчеркивая равенство нулю в (1), будем называть эти условия несмещенными. Вектор А = (Ах(Р), , Дт(Р))7 назовем вектором смещений В рассматриваемом случае Д = О
Для решения поставленной задачи применяется метод коррелированных процессов В Н Пугачева, согласно которому строятся условные оценки вида
т
в(х) = 0ЛГ - £ АЛ = 9Ы ~ АТД, (2)
5=1
где 0дг = Л'""1 ^(^г) ~~ безусловная эмпирическая оценка в(Р), Д = ^Д], , Дт) — оценка вектора смещений Д, а вектор коэффициентов Ат = (А1, , Ат) выбирается из условия минимума среднеквадратиче-ской ошибки оценки Эр = Мр - 0(Р)]2 (СКО) Вид оптимального коэффициента определяется используемым типом оценок компонент вектора смещений В диссертационной работе рассматриваются два вида оценок величин А3(Р) — и-статистики (Уд'3 и функционалы Мизеса
Оценку ) при коэффициенте А*, доставляющем для фиксированного Р минимум СКО на классе оценок и К*/,, назовем оптимальной
При использовании и-статистик Д = Дь = (Ум, ,и,\т)Т, оценка (2) принимает вид = — А^Ду, а главная часть оптимального
коэффициента при условиях
Мр^2 (А'О < оо, Мр (Л'1) < ос $ = Тт (3)
определяется выражением
Ао = VIх С и = А~1У1С - дГТуИ'АС (4)
где диагональная (т х гп) матрица А = —' а также матри-
цы У - Уи = АГ1 [АУТА + (М - 1Г1^£/},
И^о = ||2соУр(г^3, р/)а{,')а,2)Цз предполагаются невырожденными; А'1, У-1, И7^1 и соответствующие им обратные матрицы, = ЛГЫС, ТУ = [{АУА)ХУй\АУА) + {Ы-\)~1АУА]~\ С = |]соур — вектор-столбец,
41' = Е П Д*. аР =Е1 П
Д = 7=1 9=1 4=1,Мл я
При использовании статистик Мизеса получаем оптимальную оценку
^^ \ гу> Л Л Л"»
= — А^Дг с вектором А = Ду = (Уууь , Унт) и коэффициентом, главная часть которого совпадает с главной частью (4) (точное выражение не приводится вследствие его громоздкости) Эта оценка определена, если
М^2№)<оо, Мр^4(Х1)<оо, (5)
Вычисление оптимальных коэффициентов с точностью до слагаемых порядка Лг 1 потребовалось для исследования свойств оценок при конечных объемах наблюдений
В действительности оптимальные коэффициенты, как правило, неизвестны, что затрудняет практическое применение оценок и Этот факт приводит к построению соответствующих адаптивных оценок
ви — вы — АуДу и ву = вы - А^Д V с коэффициентами А и и Ау, вычисляемыми путем замены неизвестных матриц А,С,У,}№,С2яНю1 эмпирическими оценками А, С, У, \¥, ф и Н, построенными по исходной выборке
Теорема 1 Пусть для распределения Р выполняются условия (3), сЫ У ^ О и (?1 = ВР ч> - СТУ~1С > О
Тогда, при N сю £ (уМ{ви -в)^ (0, а\), где К (0, - нормальное распределение с нулевым математическим ожиданием и дисперсией
Если выполняются условия (5), аналогичное утверждение справедливо для оценки в\ С
При конечном объеме наблюдений (М V может принимать нулевое значение с положительной вероятностью, и тогда у адаптивных оценок не существуют моменты Применение метода кусочно-гладкой аппроксимации оценок позволяет получить регуляризованные оценки, обладающие конечными моментами до второго порядка включительно Рассмотрены два вида регуляризации
1) Кусочно-гладкая аппроксимация всей оценки вц, приводящая к
Мс1Ь(с1ивк~с1у'и АЬ)
9и =-*-(6)
Щ + (¿ц в* - Ду)
где ¿ц = Vу и Уу — матрица, присоединенная к Уц
2) Кусочно-гладкая аппроксимация коэффициента А и, приводящая к Оцен-
ГА \ -Т ^
ке ви' = бд' - АуАи с регуляризованным коэффициентом \ц =
(АьА2, ,Ат)Т, где
й ,а=1,т (7)
+ Си)
Теорема 2 Пусть сЫ V 0 и для распределения Р существуют моменты функций < оо, Мр ^(Л'^Ц^Х]) < ос,
< 00, и для всех кв > 3 МРф^{к<~1]{Х1) < оо, ч, / =- 1 т Тогда при N оо рел'ляриюванная оценка 6ц сходится к истинному значению оцениваемого параметра в среднеквадратическом и ее среднеквадратическая ошибка определяется выражением
Брви =МР[вь-~в]2 = ЛГ1 +0(Ы~3/2)
Аналогичная теорема доказывается для оценки
Применение метода кусочно-гладкой аппроксимации для регуляризации оценки 9\, основанной на функционалах Мизеса, приводит к регуляри-зованной оценке 0\, подобной (6) Если выполнены условия теоремы 2,
< оо, < оо, и для всех к3 > 4 Мр Ф^'^Ч^!) < 00> ' = 1, "г, то при N ос распределение 0у совпадает с распределением оценок с и-статистиками
Таким образом, разные методы оценивания вектора смещений приводят к построению оценок с одинаковыми асимптотическими свойствами Оценки, основанные на и-статистиках, гораздо удобнее для аналитических исследований, чем оценки с функционалами Мизеса, вследствие большей простоты и компактности соответствующих выражений, но практическое
применение этих оценок оказывается затруднительным из-за исключительной вычислительной трудоемкости и-статистик Сравнение свойств оценок при конечных объемах наблюдений проводилось методом имитационного моделирования, описанного в главе 3
Во второй главе рассматривается проблема учета дополнительной информации при наличии смещений в условиях (1)
Такая ситуация возникает, когда исследователю известны не все возможные значения дополнительных функционалов, и равенств нулю в (I) может не быть В этом случае ДЯ{Р), 5 = 1, т принимают неизвестные, отличные от нуля значения, вектор смещений в априорных условиях Д ф О, причем исследователю неизвестно, какие из компонент вектора отличны от нуля Те дополнительные условия, для которых равенство нулю в (1) не выполняется, назовем смещенными
Применение метода коррелированных процессов с и-статистиками в качестве оценок компонент вектора смещений приводит к оптимальной оценке ^ ' = Ок — (А*)ТД с коэффициентом
У!" д^'А (8)
и среднеквадратическим отклонением дгч 9(Л*)_П , гту-1р , СТА\УЛС АГ(СТАУ?А)2 1
Свойства этой оценки зависят от наличия ненулевых компонент в векторе смещений
Теорема 3 Пусть для распределения Р выполняются условия (3), <3е1 V ф О и ар > 0, где
Вр^-СТУ~1С при Д = О,
А V уА
Тогда, при N ^ ос £ (у.N{9^ (0, ¿¡)
Адаптивная оценка, построенная методом замены неизвестных матриц их выборочными оценками, не сходится по распределению к оптимальной, поэтому строится оценка
вг = вц - А^Д = вм- ДГАд, (10)
с коэффициентом
ЛГ-1+Д V. А
Компоненты вектора Д вычисляются по формуле
Д, = Д, 1 -
V «„ + ЛГ«Д2 )
где ?а, — эмпирическая оценка «-го диагонального элемента матрицы V и, а 1/2 < 6 < 1. Особенностью этих оценок является наличие статистики Лг5 Д;, осуществляющей "проверку"равенств Д5 — 0 Если равенство выполняется, Д , сходится к нулю с большей скоростью, чем и-статистика Д., Д, = О (Л^3/2) при N -> оо и Д, = 0.
Пусть г из т априорных условий являются несмещенными, а остальные т-г условий имеют смещения Без потери общности будем считать несмещенными первые г условий Тогда
Mil
(Дг+Ь
, Ат) , состоит из ком-
где Дт = (Д1 , Дг) г 0, а Д(2] понент, не равных нулю, г = 0, т
В соответствии с этим векторы и матрицы, используемые при построении 0$, могут быть разбиты на блоки. С^ = (с^и С^]).
Уи =
Теорема 4 Пусть дм распределения Р выполняются условия (3), сМ V ф О и 1/2 < <5 < 1 Тогда, при N —* ос адаптивная оценка асимптотически нормальна £ (уЫ{в!> где
Vn Vi2 VZ1 = Yn Yl2
V21 V22 > v и Y 21 Y 22 Y\ 2]
ol] = DP<p-CTV-1C +
Д?2|^22Д[2]
У 22 -
НУ22 + У22И7
V22 Д [21
+
+
HV27H1
(Д[2)У22Д(
(13)
у [21 Си
Н = Дг2)Д^У2
Следствие. В случае полностью несмещенных априорных условий, те при Д Г}| = Д = О, <тр1| - (для Д = 0) Если же все компоненты вектора смещений - не нулевые, те Д[2) = Д, сг^, = Т)г¥
Кроме того, если только одно из априорных условий является смещенным (Д'2] = Д,п) при любом т, то асимптотическая дисперсия адаптивной оценки а^ совпадает с дисперсией оптимальной оценки для ненулевого вектора смещений
Таким образом, построенная адаптивная оценка в^ сочетает оценивание неизвестного параметра 9[Р) с проверкой априорных условий на несмещенность, при этом она имеет асимптотически нормальное распределение с дисперсией, соответствующей несмещенным условиям
В третьей главе проводится имитационное моделирование построенных в предыдущих главах оценок с целью исследования их свойств при конечных объемах наблюдений
Все численные эксперименты проводились для функционалов, определенных через с-функции на основе псевдослучайных выборок из стандартного нормального распределения, сгенерированных средствами пакета Бш^йса 6 0 Результаты представлены в виде таблиц и графиков, отображающих значения среднеквадратических ошибок безусловных, адаптивных, регуляризованных и оптимальных оценок функционала в{Р) = в(Ф) = Ф(гц), го = —1,1 при различных дополнительных условиях и объемах исходных выборок Дополнительные функционалы задавались в виде Ь$ (Г) =
Анализ полученных результатов показал
1 Рассмотренные процедуры условного оценивания позволяют получить оценки, обладающие меньшими среднеквадратическими ошибками, чем безусловные, при конечных объемах наблюдений (до 100 включительно), несмотря на неопределенность в задании дополнительной информации (2-3 возможных значения) В некоторых (наилучших) случаях точность построенных оценок оказалась в 2-3 раза выше, чем у безусловной, при /V = 25, и до 10 раз выше при N = 100
2 Согласно полученным аналитически выражениям, среднеквадратическая ошибка оценок, построенных с учетом дополнительной информации, зависит от вида оценки, объема выборки и от "ценности"информации, которая определяется величиной ковариации между подынтегральными функциями (р и ц>3 При конечных объемах наблюдений значительное влияние на точность условных оценок оказывают и другие особенности привлекаемой дополнительной информации
а) Число возможных значений каждого из функционалов Ь5(Р) - числа к3 , Большее количество значений функционала может трактоваться как более высокая неопределенность в имеющейся дополнительной информации, которая существенно уменьшает выигрыш в точности оценивания
б) Количество учитываемых дополнительных функционалов - величина тп Каждое из дополнительных условий содержит информацию об оцениваемом распределении, привлечение которой позволяет снизить неопределенность, обусловленную множественностью заданных значений функ-
ционалов, и повысить точность оценок, в) Расхождение между возможными значениями дополнительных функционалов - абсолютные значения величин Así, s = 1, m, t — 1 ,ks. Чем дальше друг от друга расположены заданные значения, тем меньше СКО полученных оценок. Это свойство объясняется особенностями применяемого алгоритма: далеко расположенные значения четко различимы, поэтому истинное значение распознается лучше, характеристики адаптивных и регуляризованных оценок с ростом объема исходной выборки сходятся к оптимальным значениям значительно быстрее. В случае близких значений повышение точности условной оценки может быть незначительным даже при известном оптимальном коэффициенте.
и-статастика. Рег.оценка, m=2, k =3, dellar{0, 0.08, -0.05 }, zf=0,55, ddta2={0,0.4 }
0.28 0.26 0.24 0.22 0.20 0.18 0.16 0 14 0.12 0 10 0,08 0.06 о,« 0.02 0.00
-1.00 -0 7 5 -0,50 -0.25 0.00 С.25 0.50 0.75 1.00
Рис. I: СКО оценки 9ц при т 2, к\ -- 3, к2 = 2
Графики, приведенные на рисунке 1, позволяют сравнить среднеквадра-тические ошибки регуляризованной оценки ву с двумя дополнительными условиями при 25 и 50 наблюдениях с СКО безусловной и оптимальной оценок при N = 100 (по оси абсцисс указаны значения zo).
3. Замена оптимальных коэффициентов эмпирическими оценками их главных частей (адаптация) заметно ухудшает точность оценок, особенно при небольших объемах наблюдений {N — 25). Негативное влияние адаптации убывает с ростом N, но скорость убывания зависит от расстояния между заданными значениями дополнительных функционалов 3S ь ,3S2i..., ßsks-
,'р-/ .■'
Л-'
*
orrr.N=100 ■ • "» 25 i- 50 -< безусл.Ы=100
ч Л • \
. \ : \ . V
Л-
/
V '
4. Регуляризация оценок не снижает их точность по сравнению с адаптивными, а в некоторых случаях приводит к заметному уменьшению СКО оценок.
5. Применение формул, учитывающих возможные ненулевые смещения, даже к полностью несмещенным условиям заметно (на 5-20%) снижает точность оценок при конечных объемах наблюдений (до 100) по сравнению с ранее рассмотренными условными оценками. Учет смещенных априорных условий, в некоторых случаях, приводит к оценке даже менее точной, чем безусловная (при указанных объемах наблюдений). Графики СКО оценок, учитывающих два дополнительных условия, одно из которых - смещенное, приведены на рисунке 2.
0.28 0,26 0,24 0,22 0.20 0,18 0,16 0,14 0,12 0,10 0.08 0,06 0.04 0.02 0,00
-'.00 -0,75 -0,50 -0.25 0.С0 0,25 0,50 0.75 1.00
Рис. 2: СКО оценки при т = 2, k¡ = кп = 2 и разных N В четвертой главе метод коррелированных процессов применяется для привлечения дополнительной информации о том, что оцениваемое распределение является симметричным относительно одной из нескольких заданных точек.
Рассматривается задача оценивания линейного функционала 0(F) = MfvK-X) — fRi <p(x)dF(x) от заданной скалярной функции <р{х) на ñ1 по результатам N независимых наблюдений /Yj..... Ху над случайной величиной Л' с функцией распределения F(x), симметричной относительно точки а, принимающей одно из т заданных значений: а е {a¿}¿_и
z¡=0.05. Celta, = ( 0. 0 4), z¡=0J5, Dekci" (-C.2, C.25}, alia = 0.75 Третья адалтивная оценка, разные N
-ir om.N-100 я
■ »-50 N/
. -г 1С0 / "" •
• 6оуи.Ы=100 . ' . а 4 - q.
/' ,9-
«V
i *S .____* * - '
■ Ч,ч ■ У.......,<>
"о /
\/
Р(х) =■ 1 - Г(2а - г), Ух € Д1
При известном центре симметрии, то есть при т — 1 и а = аь для оценивания 0(Р) с учетом дополнительной информации применяется несмещенная оценка
с дисперсией
Рр <р(Х) - соур^Х),у?(2а - Л')) а% Ър9ца ---=
не превышающей дисперсию безусловной эмпирической оценки (здесь /<л (х) — эмпирическая функция распределения)
Для случая т > 1, то есть если центр симметрии задан с точностью до конечного множества значений, рассматриваются два подхода, основанные на методе коррелированных процессов, приводящие к двум разным типам оценок параметра в(Р)
Согласно первому подходу, для каждого из т заданных значений центра симметрии определяется вспомогательная функция
и величина А, = фг(х)(1 Р(х), принимающая нулевое значение, если аг = а Таким образом, имеющаяся дополнительная информация о функции распределения сводится к равенству
ПА'=/ /м*!) Ы*т)<1Р(х 0 с1Р(хт) = 0 (15)
,= 1 я1 я1
Если Мр Ч>~{Х) < ос, то оценка * = 9^ - А* и к с коэффициентом Е,=1Д(,) сот
где
3 = (Е Е л1и) *>,))" + Е Е (л(ч))"^ V. я? +
1=1^=1 1=1^=1
о>1 .?>»
п т т
+2ЕЕЕД(и) АЫ +
1 р/»
г
А<«> = ТГ ДА, Д<*'> = ГГ А,,
4=1^ —1р/г
является оптимальной с точки зрения минимума дисперсии
Свойства адаптивной оценки ва = 0Л - А С,у, полученной заменой оптимального коэффициента А* на эмпирическую оценку его главной части Л, определяются теоремой Теорема 5 Пусть Мк^2(А') < эо и
4 = \ Юр уЧА') - соур (<р(Х) <р(2а - А'))] > О Тогда при N — ос 1 0а ^
2 И (уЫ(да - 0]^ -*?{ (О.ст,]), где К (О.стд) - нормальное распределение с нулевым математическим ожиданием и дисперсией ст2
Оценка 6а\, = вц — А' Уд-, в которой для оценивания условия (15) вместо и-статистики используется функционал Мизеса, обладает такими же асимптотическими свойствами
Второй подход к построению условных оценок функционала от симметричного распределения заключается в том, что метод коррелированных процессов применяется дм оценивания центра симметрии а с учетом дополнительной информации о его возможных значениях- а е {ог}г=Гт Оценивая функционал а(Р) = Мр А'х = /Д1 х <1Е(х) при условии
П(а-а,)= / / (гх-а^ {хт - ат)йГ{х{) хт)-Ъ,
-'я1
получаем оценку центра симметрии вида (2) с оптимальным коэффициентом
2 а2 Бр-А
7 =
<31 + ■
+ О (М-2),
где а! = х П™ .Да - аг), а2 = ^7=1 £™=1 ГГ^ ~ а«) Соответствующая адаптивная оценка
адг — а -7 иа, (16)
при IV А' = М^(А'—а)2 < ос и N -* оо сходится к оцениваемому значению быстрее, чем обычная эмпирическая оценка у/Й [ак - а) —0.
Подставляя (16) вместо неизвестного центра симметрии а в (14), получим оценку
^ = ¿7 Е^М*') + ^2йЛ - (17)
асимптотические свойства которой совпадают со свойствами оценок первого типа, если функция ¿>(г) непрерывна в окрестности точки а и имеет непрерывные производные до второго порядка включительно, М^1тг2(А') < ос, МРу'{Х) < оо, МгУ-"(Л') < ос
Исследование свойств оценок при конечных объемах наблюдений проводилось с помощью численного моделирования в системе БгаШйса 6.0, при котором адаптивные оценки первого и второго типов сравнивались с безусловной и оценкой с известным центром симметрии, вычисленными для функционала в(Р) = е* ¿Е(х) и стандартного нормального распределения с учетом дополнительной информации о двух или трех возможных значениях центра симметрии.
Результаты моделирования показали, что различия в точности условных оценок, обусловленные их видом и влиянием адаптации, быстро уменьшаются с ростом объема наблюдений и становятся несущественными при N > 50. На рисунке 3 приведены графики среднеквадратических ошибок рассмот-
5,0 4.5 4,0 3.5
зр 25 2,0
1,5 1,0
Рис. 3: ЛгСКО разных оценок для N = 100
ренных оценок для N = 100 и двух возможных значений центра симметрии: а е {а 1. ат}, где = а — 0, а величина ло, отображенная по оси абсцисс, принимает значения в диапазоне [—1.5,1.5].
В приложениях приведены таблицы с данными, полученными в результате имитационного моделирования, описанного в третьей и четвертой главах работы.
Сравнение оценок при N=100
О-О-О-О-О-о-о-о-о--< .^Ог- безусловная'............;.........; ..... к с изв центром ■ . ' птапа ■ 1иша(иу г ' ¿; -■ i типа (v) ¿' ............; '"'" ........... У' 1 "'■...... У / \
..... ■" : Т "Г;.....V ......;.......-V- е .. - \ > ; , .•": 4 * \ \ ..................■ ...... -".V •П.....-О......о-- П- ••- ■с- .....О-.- .-• Г- Ь.-ч.
-1.50 1,25 -1.Ш -0.75 -0,50 -0.25 0.00 0,25 0.5С 0.75 1.00 125 150
ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ
В настоящей работе рассмотрена задача условного оценивания функционала при наличии многозначности и смещений в априорных условиях
Получены следующие резулктаы:
1 Постановка задачи обобщена на случай разного количества возможных значений дополнительных функционалов
2 Для несмещенных априорных условий найдены оптимальные в смысле минимума среднеквадратической ошибки оценки двух типов — на основе и~статисткк и функционалов Мизеса и соответствующие адаптивные оценки — асимптотически нормальные и сходящиеся по распределению к оптимальным
3 Методом кусочно-гладкой аппроксимации оценок построены регуляри-зозанные оценки, сходящиеся к оцениваемому значению функционала в среднекзадрагаческом
4 Для априорных условий со смешениями построена адаптивная оценка, асимптотическая дисперсия которой соответствует несмещенным условиям, если они присутствуют Показано, что при наличии смещения не более чем в одном условии эта оценка эквивалентна оптимальной (в смысле слабой сходимости), а если все априорные условия имеют смещения, ее предельное распределение совпадает с распределением безусловной оценки
5 Имитационное моделирование в системе Бшвйса б 0 показало, что исследуемые алгоритмы условного оценивания при конечных объемах наблюдений (до 100) позволяют существенно (до ) 0 раз) повысить точность оценок при несмещенных априорных условиях, несмотря на многозначность в привлекаемой информации.
Сравнение доасимптотических свойств оценок при разных распределениях и подынтегральных функциях, а также детальное исследование евсйств оценок со смещениями в априорных условиях не проводилось вследствие технической сложности Эти вопросы требуют дополнительных исследований с применением другого программного и аппаратного обеспечения
5 Для решения задачи условного оценивания функционала от симметричной функции распределения с центром симметрии, заданные с точностью до юнечного множества значений, построены адаптивные оценки, асимптотические распределения которых совпадгют с предельным распределением оценки с известным центром симметрии Проведенное имитационное моделирование показало, что для выбранных условий раз-
личия в точности построенных оценок становятся несущественными при N > 50
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
Результаты работы были опубликованы в следующих статьях и материалах научных конференций
1 Головчинер О Н , Дмитриев Ю Г. Об условной оценке функционала // Вестник Томского государственного университета Приложение - 2004 -№ 9 (II) - с 145-150
2 Головчинер О Н, Дмитриев Ю.Г Оценивание функционалов от распределений с учетом априорных догадок // Обозрение прикладной и промышленной математики - 2004. - Т11 - вып.4 - с 785-786
3 Головчинер О.Н, Дмитриев Ю Г О сходимости в среднеквадратиче-ском оценки функционала // Материалы VIII Всероссийской научно-практической конференции "Научное творчество молодежи" Ч1 -Томск Изд-во ТГУ, 2004, с 24-25
4 Головчинер О Н , Дмитриев 10 Г Условное оценивание функционала на основе U-статистшс // Теория вероятностей, случайные процессы, математическая статистика и приложения сборник научных статей международной конференции, посвященной 70-летию проф Медведева - Минск Изд-во БГУ, 2005 - с 52-59.
5 Головчинер О Н, Дмитриев Ю.Г. Оценивание линейного функционала при смещениях в априорных условиях // Обозрение прикл. и промышленной математики. - 2005. - Т12. - вып.1 - с. 138-139.
6 Головчинер О Н, Дмитриев Ю Г. Статистики Мизеса в условном оценивании линейного функционала // Обозрение прикладной и промышленной математики - 2005 - Т12. - вып. 4 - с.935-936
7 Головчинер О Н, Дмитриев Ю Г Об оценке функционала при наличии смещений в априорных условиях // Вестник Томского государственного университета Приложение - 2005 - № 14 - с 280-285
8 Головчинер О.Н, Дмитриев ЮГ. Условное оценивание функционала на основе статистики Мизеса // Материалы 111 Всероссийской научно-практической конференции "Информационные технологии и математическое моделирование"Анжеро-Судженск 2005. - Томск Изд-во ТГУ, 2005 -42 -с 11-12
9. Головчинер О.Н Об условной оценке доли объектов // Инноватика-2005 сб материалов I Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых - Томск Изд-во ТГУ, 2005. -с 22-24
10. Головчинер О H Статистическое моделирование условных оценок функционалов // Материалы IV Всероссийской научно-практической конференции "Информационные технологии и математическое моделирование", ч 2 - Томск Изд-во ТГУ, 2005 - с 6-8
11 Головчинер О H , Дмитриев Ю Г Об оценке функционала от симметричного распределения // Вестник Томского государственного университета Приложение - 2006. - № 17 - с 280-285
12 Головчинер О H , Дмитриев Ю Г Статистическое оценивание функционала с учетом симметрии распределения // Вестник Томского государственного университета Серия "Информатика Кибернетика Математика" -2006.-№293 - с 84-88
Тираж 100 экз Заказ 1513
Отпечатано в Томском государственном университет
систем управления и радиоэлектроники 634050, г. Томск, пр Ленина, 40 Тел (3822)533018
Оглавление автор диссертации — кандидата физико-математических наук Головчинер, Ольга Николаевна
Введение
Глава 1. Статистические оценки функционалов при несмещенных априорных условиях
1.1 Постановка задачи.
1.2 Условное оценивание на основе 11-статистик.
1.2.1 Оптимальная оценка.
1.2.2 Адаптивная оценка.
1.2.3 Регуляризованная оценка.
Сходимость в среднеквадратическом.
1.2.3.1 Регуляризация оценки вц.
1.2.3.2 Регуляризация коэффициента Хц- ■ •
1.3 Условное оценивание на основе статистик Мизеса
-1.3.1 Оптимальная оценка.
1.3.2 Адаптивная оценка.
1.3.3 Регуляризованная оценка.
Сходимость в среднеквадратическом
1.4 Сравнение оценок на основе 11-статистик и. статистик Мизеса.
1.5 Пример .;.
1.6 Выводы.
Глава 2. Статистические оценки функционалов при априорных условиях со смещениями
2.1 Постановка задачи.
2.2 Оптимальная оценка.
2.3 Адаптивные оценки.
2.4 Выводы.
Глава 3. Имитационное моделирование
3.1 Введение. Постановка задачи.
3.2 Моделирование оценок с несмещенными априорными условиями
3.2.1 Оценивание с двумя возможными значениями априорного функционала.
3.2.2 Оценивание с тремя возможными значениями априорного функционала.
3.2.3 Оценивание с двумя априорными функционалами.
3.3 Моделирование оценок со смещениями в априорных условиях.
3.4 Выводы.
Глава 4. Учет симметрии в оценивании функционала
4.1 Постановка задачи.
4.2 Оценка первого типа.
4.3 Оценка второго типа.
4.4 Имитационное моделирование.
4.5 Выводы.
Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Головчинер, Ольга Николаевна
Одной из основных задач статистической обработки данных является определение вероятностных характеристик исследуемого явления, системы и т.д. Математическая формулировка таких задач обычно сводится к оцениванию функционалов от распределения вероятностей наблюдаемой случайной величины, и решение сводится к нахождению значений этих функционалов по результатам проводимых экспериментов, наблюдений и измерений. Подстановка распределения вероятностей в функционал однозначно определяет его значение, но, поскольку в реальных ситуациях это распределение обычно неизвестно, его приходится оценивать по выборке и заменять реальное распределение эмпирическим (метод подстановки).
Практически всегда исследователь, кроме выборки, обладает какой-либо дополнительной информацией об оцениваемом распределении. Это могут быть сведения о непрерывности, симметричности, моментах и квантилях, характеристиках некоторой дополнительной переменной и т.п. Источниками такой информации могут служить теоретические выводы, физический смысл наблюдаемой величины, условия эксперимента или результаты ранее проведенных исследований, экспертные оценки и т.д. В любом случае, независимо от вида и источника информации, возникает проблема рационального учета имеющихся сведений с целью повышения качества оценок (уменьшения их дисперсии) или уменьшения объема выборки, требуемой для достижения заданной точности. Проблема усложняется тем, что доступная информация зачастую является неточной, неполной, неоднозначной, особенно когда речь идет об оценках экспертов, но именно такие классы априорной информации представляют наибольший интерес и наименее исследованы.
Обзор литературы
Задачи статистического оценивания, в которых имеется существенная априорная информация, получили название условных. Первые работы, посвященные задачам условного оценивания, появились в зарубежной печати в середине прошлого века ( [70]). Большое количество возникших в то время практических задач, решаемых методами статистических испытаний, способствовало росту объемов исследований и количества публикаций за-рубежых и отечественных ученых: Н.О. Hartley [71], Ю.Н. Тюрина [60,61], E.F. Schuster [80,81], Б.Я. Левита [50-52], Ю.А. Кошевника [45,46], В.Н. Пугачева [56], Ф.П. Тарасенко [32,33], Ю.Г. Дмитриева [17-22,27,28,32,33,36], Г.М. Кошкина [27,28], Ю.К. Устинова [36].
Многие идеи и подходы, предложенные перечисленными авторами, были использованы и развиты в последующих работах, что привело к появлению различных направлений в области условного статистического оценивания.
Так, метод привлечения дополнительной переменной и расслоения выборки, примененный в [70] для уменьшения дисперсии оценки среднего, был развит в работах [71], [72] и др.
Идея использования ортогонального проектирования для оценивания функции распределения с учетом информации о ее моментах и симметрии развивалась как в перечисленных выше работах Б.Я.Левита, Ю.А.Кошевника, Ю.Г.Дмитриева, Ф.П.Тарасенко и Ю.К.Устинова, так и в исследованиях их последователей, например, [25,39,40].
Метод эмпирического правдоподобия, предложенный A.B. Owen в [76] и ряде последующих работ, послужил основой целого направления в статистической обработке данных, в том числе, с привлечением разных видов априорной информации. Так, в [67] рассматривается применение метода эмпирического правдоподобия для уточнения статистических оценок характеристик случайной величины y в конечных совокупностях. Предложенные оценки, кроме выборки, основаны на информации о значении математического ожидания заданной векторной функции от дополнительной переменной X, некоторые характеристики которой известны. Использованный метод привлечения априорной информации был усовершенствован и обобщен в статье [78], в которой авторы предложили алгоритм получения оценок как неизвестного параметра, так и исследуемого распределения, определили асимптотически нормальное распределение функций оценок и показали, что статистика отношения эмпирического правдоподобия для параметров имеет асимптотическое %2-распределение. На базе этих результатов, а также на идеях использования априорной информации при непараметрическом оценивании функционала, изложенных в [69], B.Zhang [84-86] разработал модифицированное - "ргоШе"отношение эмпирического правдоподобия и основанную на нем альтернативную эмпирическую функцию распределения. Эта функция, в отличие от традиционной, приписывает разные веса имеющимся наблюдениям, в соответствии с привлекаемой дополнительной информацией, и позволяет получить, например, более точные доверительные интервалы. Рассмотренные методы эмпирического правдоподобия позволяют использовать практически любую априорную информацию об оцениваемом распределении, но при условии ее определенности и точности, они очень чувствительны к ошибкам в привлекаемых априорных данных.
Другое направление исследований, освещаемое в зарубежных источниках, связано с дополнительной информацией в оценивании характеристик конечных совокупностей. Так, целая серия статей различных авторов [66,73,79,83] посвящена построению и сравнению между собой оценок функций распределения наблюдаемой случайной величины при условии, что известны все значения, принимаемые другой, дополнительной переменной. Изложенные в этих работах идеи использованы и развиты другими авторами. Например, в [74] строится оценка медианы, в [63] рассматриваются способы привлечения информации о нескольких дополнительных переменных, а в [64] для оценивания дисперсии комбинируются методы, изложенные как в [66,79], так и в упоминавшейся ранее [72].
Многие публикации касаются применения дополнительной информации для решения задач, возникающих в определенных сферах науки и техники. Например, в статистической радиотехнике [19,30,49], теории надежности [55], оценке качества [4,42,43] и т.д.
Одним из базовых методов, используемых в настоящей работе, является метод коррелированных процессов, впервые предложенный
B.Н.Пугачевым [56] для оценивания вероятностных характеристик путем комбинирования результатов натурных испытаний с дополнительной информацией об исследуемой системе, полученной в результате теоретических изысканий и статистического моделирования. Этот метод развивался и обобщался разными авторами и в разных направлениях. Так, В.А.Гуревичем [16] была предложена техника привлечения в качестве дополнительной информации при оценивании функционалов оценок, полученных в ходе предыдущих экспериментов. Ю.Г.Дмитриевым и П.Ф.Тарасенко [17,18,20,24,29,31,58] метод коррелированных процессов развивался для задачи условного оценивания при наличии смещений и многозначности значений в априорных условиях. Применению этого же метода для обработки данных с пропусками посвящены работы Ю.Г.Дмитриева,
C.С.Таримы и А.А.Князевой [26,34,35,37,43,59,82].
Настоящая работа продолжает исследование задачи привлечения многозначной дополнительной информации и информации со смещениями для уточнения статистической оценки функционала от распределения вероятностей, начатое Ю.Г.Дмитриевым. В качестве дополнительной информации здесь рассматриваются значения других функционалов от того же распределения, заданные с точностью до конечных множеств значений (многозначность априорной информации), причем эти множества могут и не содержать истинных значений (смещения в априорных условиях). Автору не встречались публикации других исследователей, затрагивающие эту проблему.
Целью работы является уточнение и модификация оценок функционалов, предложенных в [24], с целью улучшения их асимптотических свойств, а также исследование свойств построенных оценок при конечных объемах наблюдений методом имитационного моделирования.
Для построения оценок в работе использовались метод коррелированных процессов [24, 56] и метод кусочно-гладкой аппроксимации оценок [2,47]. Свойства полученных оценок анализировались с помощью аппарата математического анализа, теории вероятностей и математической статистики. Для анализа качества оценок при конечных объемах наблюдений проводилось имитационное моделирование на ЭВМ с применением пакетов Statistica 6.0 и Ма^етайса 5.0.
Положения, выносимые на защиту.
1. Регуляризованные оценки функционала с учетом дополнительной априорной информации, доказательство их сходимости в среднеквад-ратическом.
2. Адаптивная оценка функционала для дополнительных условий со смещениями, сочетающая оценивание параметра с проверкой априорных условий на несмещенность,
3. Результаты исследования свойств оценок при конечных объемах наблюдений, полученные методом имитационного моделирования.
4. Оценки функционалов от симметричного распределения с центром симметрии, заданным с точностью до конечного множества значений, результаты исследования их свойств.
Структура диссертации
Работа состоит из введения, четырех глав, заключения, списка использованной литературы и пяти приложений.
Во введении обоснована актуальность проблемы, определены цели и методы исследования, выполнен обзор литературы по проблеме учета дополнительной информации в статистическом оценивании и сформулированы основные положения, выносимые на защиту.
Первая глава посвящена проблеме учета многозначной дополнительной информации при несмещенных дополнительных условиях. В первом параграфе главы приводится общая постановка задачи, дается определение несмещенных априорных условий и описывается метод построения оценок. По сравнению с [24], постановка задачи обобщена на случай разного количества возможных значений дополнительных функционалов. В двух следующих параграфах рассматриваются условные оценки, основанные на разных способах оценивания вектора смещений - 11-статистиках и функционалах Мизеса. Приводятся формулы оптимальных (в смысле минимума средне-квадратической ошибки) и адаптивных оценок, более точные, чем в [24]. Повышение точности вычисления коэффициентов оказалось необходимым для исследования свойств оценок при конечных объемах наблюдений. Доказывается состоятельность и асимптотическая нормальность оценок для случая произвольного количества значений дополнительных функционалов. Методом кусочно-гладкой аппроксимации строятся регуляризованные оценки, для которых доказывается свойство сходимости в среднеквадра-тическом к истинному значению оцениваемого параметра. В заключение главы проводится сравнение рассмотренных способов оценивания вектора смещений априорных условий.
Во второй главе рассматривается аналогичная задача, но при наличии ненулевых компонент в векторе смещений - со смещениями в априорных условиях. После постановки задачи и определения оптимальной оценки, рассматриваются разные методы адаптации, поскольку использованный ранее традиционный метод приводит к оценке, которая не сходится к оптимальной. Строится адаптивная оценка, сочетающая оценивание неизвестного параметра с проверкой априорных условий на несмещенность. Доказывается, что при наличии нулевых компонент в векторе смещений построенная оценка имеет асимптотически нормальное распределение с дисперсией, соответствующей несмещенным условиям, а в худшем случае, когда все априорныеусловия имеют смещения, ее предельное распределение совпадает с распределением безусловной оценки.
В третьей главе описывается имитационное моделирование построенных в предыдущих главах оценок, проведенное с целью исследования их свойств при конечных объемах наблюдений. Полученные результаты приводятся в виде выводов, иллюстрирующих их графиков среднеквадратиче-ских ошибок оценок, и таблиц, размещенных в приложениях А-Е.
В четвертой главе рассматриваются два способа применения метода коррелированных процессов для привлечения дополнительной информации о том, что оцениваемое распределение является симметричным относительно одной из нескольких заданных точек. Строятся оптимальные и адаптивные оценки с одинаковыми асимптотическими распределениями. Свойства оценок при конечных объемах наблюдений исследуются и сравниваются методом имитационного моделирования.
В приложениях приведены таблицы с данными, полученными в результате имитационного моделирования, описанного в третьей и четвертой главах работы.
Публикации по работе
Результаты работы были опубликованы в следующих статьях и материалах научных конференций:
1. Головчинер О.Н., Дмитриев Ю.Г. Об условной оценке функционала Вестник ТГУ. Приложение. - 2004.- № 9 (II). - с. 145-150.
2. Головчинер О.Н., Дмитриев Ю.Г. Оценивание функционалов от распределений с учетом априорных догадок // Обозрение прикладной и промышленной математики. - 2004. - Т.Н. - вып.4. - с.785-786.
3. Головчинер О.Н., Дмитриев Ю.Г. О сходимости в среднеквадратиче-ском оценки функционала // Материалы VIII Всероссийской научно-практической конференции "Научное творчество молодежи". 4.1. -Томск: Изд-во ТГУ, 2004, с.24-25.
4. Головчинер О.Н., Дмитриев Ю.Г. Условное оценивание функционала на основе U-статистик. // Теория вероятностей, случайные процессы, математическая статистика и приложения: сборник научных статей международной конференции, посвященной 70-летию проф. Медведева. - Минск: Изд-во БГУ, 2005. - с.52-59.
5. Головчинер О.Н., Дмитриев Ю.Г. Оценивание линейного функционала при смещениях в априорных условиях // Обозрение прикладной и промышленной математики. - 2005. - Т.12. - вып.1. - с.138-139.
6. Головчинер О.Н., Дмитриев Ю.Г. Статистики Мизеса в условном оценивании линейного функционала // Обозрение прикладной и промышленной математики. - 2005. - Т.12. - вып. 4. - с.935-936
7. Головчинер О.Н., Дмитриев Ю.Г. Об оценке функционала при наличии смещений в априорных условиях // Вестник ТГУ. Приложение. - 2005. - № 14. - с.280-285
8. Головчинер О.Н., Дмитриев Ю.Г. Условное оценивание функционала на основе статистики Мизеса // Материалы III Всероссийской научно-практической конференции "Информационные технологии и математическое моделирование"Анжеро-Судженск. 2005. -Томск: Изд-во ТГУ, 2005. - 4.2. - с.11-12.
9. Головчинер О.Н. Об условной оценке доли объектов // Инноватика-2005: сб. материалов I Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых. - Томск: Изд-во ТГУ, 2005. - с.22-24.
10. Головчинер О.Н. Статистическое моделирование условных оценок функционалов // Материалы IV Всероссийской научно-практической конференции "Информационные технологии и математическое моделирование"(ИТММ-2005),ч.2 - Томск: Изд-во ТГУ, 2005. - с.6-8.
И. Головчинер О.Н., Дмитриев Ю.Г. Об оценке функционала от симметричного распределения // Вестник ТГУ. Приложение. - 2006. - № 17. - с.280-285.
12. Головчинер О.Н., Дмитриев Ю.Г. Статистическое оценивание функционала с учетом симметрии распределения // Вестник ТГУ. Серия "Информатика. Кибернетика. Математика". - 2006. - № 293. - с.84-88.
Апробация работы
Работа докладывалась и обсуждалась на научных семинарах кафедры теоретической кибернетики факультета прикладной математики и кибернетики ТГУ, а также на следующих научных конференциях и симпозиумах:
• VIII Всероссийская научно-практическая конференция "Научное творчество молодежи "(Томск, 2004);
• V Всероссийский симпозиум по прикладной и промышленной математике (Сочи, 2004, Осенняя сессия);
• Международная конференция, посвященная 70-летию профессора, доктора физ.-мат. наук Г.А. Медведева (Минск, 2005);
• III Всероссийская научно-практическая конференция "Информационные технологии и математическое моделирование"(Анжеро-Судженск, 2005);
• VI Всероссийский симпозиум по прикладной и промышленной математике. Весенняя сессия (С.-Петербург, 2005);
• I Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых "Инноватика-2005"(Томск, 2005);
• VI Всероссийский симпозиум по прикладной и промышленной математике. Осенняя сессия (Сочи, 2005);
• IV Всероссийская научно-практическая конференция "Информационные технологии и математическое моделирование "(Анжеро-Судженск, 2005);
Заключение диссертация на тему "Модифицированные оценки линейных функционалов от распределений вероятностей с учетом дополнительной информации"
заключение
В настоящей работе рассмотрена задача условного оценивания функционала при наличии многозначности и смещений в априорных условиях. Получены следующие результаты:
1. Постановка задачи обобщен а на случай разного количества возможных значений дополнительных функционалов.
2. Для несмещенных априорных условий в классе линейных оценок (1.4) найдены оптимальные в смысле минимума среднеквадратиче-ской ошибки оценки двух типов — на основе 1)-статистик и функционалов Мизеса. Получены более точные, чем в предшествующих работах [23,24], выражения оптимальных коэффициентов (1.26) и (1.54), необходимые для исследования свойств оценок при конечных объемах наблюдений.
Показано, что привлечение дополнительной информации не увеличивает среднеквадратическую ошибку оценки по сравнению с безусловной, определены параметры, влияющие на величину выигрыша в точности оценивания при конечных объемах наблюдений. Доказаны асимптотическая нормальность адаптивных оценок и их сходимость по распределению к оптимальным.
3. С помощью метода кусочно-гладкой аппроксимации адаптивных оценок построены регуляризованные оценки (1.35), (1.40) и (1.59), обладающие свойством сходимости в среднеквадратическом к оцениваемому значению функционала.
4. Для априорных условий со смещениями и произвольным количеством возможных значений дополнительных функционалов построена оценка, оптимальная в смысле минимума среднеквадратической ошибки, доказана ее асимптотическая нормальность, получено выражение оптимального коэффициента (2.9) с точностью до слагаемых более высокого порядка малости, чем в [17,24].
5. Построена адаптивная оценка (2.16), асимптотическая дисперсия которой соответствует несмещенным априорным условиям, если они присутствуют. Показано, что при наличии смещения не более чем в одном условии эта оценка эквивалентна оптимальной (в смысле слабой сходимости), а если все априорные условия имеют смещения, ее предельное распределение совпадает с распределением безусловной оценки. ■
6. Имитационное моделирование, проведенное в системе 31а1л81лса 6.0 для исследования свойств построенных оценок при конечных объемах наблюдений, показало, что исследуемые алгоритмы условного оценивания позволяют существенно (до 10 раз) повысить точность оценок при несмещенных априорных условиях, несмотря на многозначность в привлекаемой информации.
Большая часть асимптотических свойств оценок оказалась справедливой при рассмотренных конечных объемах наблюдений (от 10 до 100), а предложенная регуляризация позволила повысить точность и устойчивость адаптивных оценок.
Показано, что увеличение числа возможных значений дополнительных функционалов значительно снижает выигрыш от привлечения априорной информации при рассмотренных конечных объемах наблюдений.
7. Рассмотрены два способа решения задачи условного оценивания функционала от симметричной функции распределения с центром симметрии, заданным с точностью до конечного множества значений. Построены состоятельные и асимптотически нормальные адаптивные оценки (4.7), (4.9) и (4.11). Показано, что их асимптотические распределения совпадают с предельным распределением оценки при известном центре симметрии (4.1). Проведенное имитационное моделирование показало, что для выбранных условий различия в точности адаптивных оценок становятся несущественными при N > 50.
Следует отметить, что вследствие технической сложности, не проводилось сравнение доасимптотических свойств оценок при разных распределениях и подынтегральных функциях, а также детальное исследование свойств оценок со смещениями в априорных условиях. Эти вопросы требуют дополнительных исследований с применением другого программного и аппаратного обеспечения.
В качестве других возможных направлений продолжения работы можно указать поиск методов уменьшения количества учитываемых значений дополнительных функционалов и исключения условий со смещениями (например, с помощью предварительной проверки гипотез); а также рассмотрение других видов оценивания оптимальных коэффициентов, вместо адаптации с последующей регуляризацией оценки.
Библиография Головчинер, Ольга Николаевна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Боровков A.A. Математическая статистика. Проверка гипотез. Оценка параметров М.: Наука, 1984.- 472 с.
2. Васильев В.А., Добровидов A.B., Кошкин Г.М. Непараметрическое оценивание функционалов от распределений стационарных последовательностей. М.: Наука, 2004. - 508 с.
3. Гантмахер Ф.Р. Теория матриц.- М.: Наука, 1966.- 576 с.
4. Головчинер О.Н. Об условной оценке доли объектов // Инноватика-2005: сб. материалов I Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых. Томск: Изд-во ТГУ, 2005. - с.22-24.
5. Головчинер О.Н. Статистическое моделирование условных оценок функционалов // Материалы IV Всероссийской научно-практической конференции "Информационные технологии и математическое моделирование"(ИТММ-2005),ч.2 Томск: Изд-во Том. Ун-та, 2005. -с. 6-8.
6. Головчинер О.Н., Дмитриев Ю.Г. О сходимости в среднеквадратиче-ском оценки функционала // Материалы VIII Всероссийской научно-практической конференции "Научное творчество молодежи". 4.1. -Томск: Изд-во Том. Ун-та, 2004, с.24-25.
7. Головчинер О.Н., Дмитриев Ю.Г. Об оценке функционала от симметричного распределения // Вестник ТГУ. Приложение. 2006. - JVe 17.- с.280-285.
8. Головчинер О.Н., Дмитриев Ю.Г. Об оценке функционала при наличии смещений в априорных условиях // Вестник ТГУ. Приложение. 2005.- № 14. с.280-285
9. Головчинер О.Н., Дмитриев Ю.Г. Об условной оценке функционала // Вестник ТГУ. Приложение. 2004.- № 9 (II). - с. 145-150.
10. Головчинер О.Н., Дмитриев Ю.Г. Оценивание линейного функционала при смещениях в априорных условиях // Обозрение прикладной и промышленной математики. 2005. Т.12. - вып.1. - с.138-139.
11. Головчинер О.Н., Дмитриев Ю.Г. Оценивание функционалов от распределений с учетом априорных догадок // Обозрение прикладной и промышленной математики. 2004. - Т.Н. - вып.4. - с.785-786.
12. Головчинер О.Н., Дмитриев Ю.Г. Статистики Мизеса в условном оценивании линейного функционала // Обозрение прикладной и промышленной математики. 2005. - Т.12. - вып. 4. - с.935-936
13. Головчинер О.Н., Дмитриев Ю.Г. Статистическое оценивание функционала с учетом симметрии распределения // Вестник ТГУ. Серия "Информатика. Кибернетика. Математика". 2006. - № 293. - с.84-88.
14. Дмитриев Ю.Г. Непараметрические алгоритмы обнаружения постоянного сигнала при наличии априорной информации о помехе // Математическая статистика и ее приложения. Томск: Изд-во Том.ун-та. -1979. - Вып. 5. - с. 52-60.
15. Дмитриев Ю.Г. О свойствах оценок функций распределения и функционалов при дополнительной априорной информации // Математическая статистика и ее приложения. Томск: Изд-во Том.ун-та. - 1976.- Вып. 4. -. с. 63-76.
16. Дмитриев Ю.Г. Об оценках параметров распределений при дополнительной информации // Математическая статистика и ее приложения.- Томск: Изд-во Том.ун-та. 1987. - Вып. 11.-е. 39-46.
17. Дмитриев Ю.Г. Об условном оценивании функционалов от распределений // Обозрение прикладной и промышленной математики. 2001.- Т. 8. вып. 1. - с. 159-160
18. Дмитриев Ю.Г., Зенкова Ж.Н. Неравноплечная симметризация выборки в методе Монте-Карло // Вестник ТГУ. Томск: ТГУ, 2006. -№ 293. - с. 290-294
19. Дмитриев Ю.Г., Князева A.A. Оценивание вероятностей событий по данным с пропусками // Вестник ТГУ. Томск: ТГУ, 2006. - с. 295-297
20. Дмитриев Ю.Г., Кошкин Г.М. Использование дополнительной информации при непараметрическом оценивании функционалов плотности // Автоматика и телемеханика. 1987. - № 10. - С. 47-59.
21. Дмитриев Ю.Г., Кошкин Г.М., Симахин В.А. и др. Непараметрическое оценивание функционалов по стационарным выборкам. Томск: Изд-во Том. ун-та, 1974. - 93 с.
22. Дмитриев Ю.Г., Тарасенко П.Ф. Использование априорной информации в статистической обработке экспериментальных данных // Известия ВУЗов "Физика". 1992. - № 9. - С.10-15.
23. Дмитриев Ю.Г., Тарасенко П.Ф. О непараметрических оценках функционалов // Материалы VII Всесоюз. семинара Непараметрические и робастные методы в кибернетике и информатике. - Томск: Изд-во Том.ун-та. - 1990. - Ч. 1. - с. 199-204.
24. Дмитриев Ю.Г., Тарасенко Ф.П. Об использовании априорной информации при оценивании линейных функционалов // Математическая
25. Дмитриев Ю.Г., Тарасенко Ф.П. Применение функционального подхода к оцениванию функционалов с учетом априорной информации // Математическая статистика и ее приложения. Томск: Изд-во Том.ун-та. - 1979. - Вып. 5. - с. 128-141.
26. Дмитриев Ю.Г., Тарима С.С. Nonimputational Technique for Parameter Estimation on Missing Data // JSM. Toronto: JSM. - 2004.
27. Дмитриев Ю.Г., Устинов Ю.К. Статистическое оценивание функций распределения с использованием априорной информации // Математическая статистика и ее приложения. Томск: Изд-во Том.ун-та. -1986. - Вып. 10. - с. 62-76
28. Дмитриев, Ю.Г. Оценивание вероятностей событий по данным с пропусками // Вестник ТГУ. 2006. - № 290. - с. 295-297
29. Ермаков С.М., Жиглявский A.A. Математическая теория оптимального эксперимента. М.: Наука, 1987. - 320 с.
30. Зенкова Ж.Н. б^-неравноплечная симметрия логнормального распределения // Обозрение прикладной и промышленной математики. -2004. Т. 11, вып. 4. - с. 812-813.
31. Зенкова Ж.Н, Статистическая обработка экспериментальных данных с учетом различных типов симметрии распределения: Диссертация на соискание ученой степени кандидата физико-математических наук. -Томск: ТГУ. 2005. - 179 с.
32. Кнут Д.Э. Искусство программирования, том 2. Получисленные алгоритмы. 3-е изд. - М.: Издательский дом "Вильяме", 2000. - 832 с.
33. Князева A.A. О статистических оценках по данным с пропусками // Сборник материалов I Всероссийской научно-практической конференции Инноватика-2005. Томск: ТГУ, 2005. - с. 45-47
34. Князева A.A. Проверка гипотез однородности на основе данных с пропусками // III Всеросс. науч.-практ. конф. "Инноватика-2007". -Томск: ТГУ, 2007. с. 141-143
35. Королюк B.C., Боровских Ю.В. Теория U статистик. Киев: Наукова Думка, 1981. - 384 с.
36. Кошевник Ю.А. О некоторых предельных свойствах непараметрических оценок функций распределения // Теория вероятностей и ее применения. 1984. - Т. 29. - Вып. 4. - с. 772-778.
37. Кошевник Ю.А. Об асимптотическом распределении непараметрических оценок функций распределения при условии симметрии // Статистические методы. Межвузовский сборник. Пермь: Изд-во Пермского ун-та. - 1978. - с. 39-57.
38. Кошкин Г.М. Моменты отклонений оценки подстановки и ее кусочно-гладких аппроксимаций // Сиб. матем. журнал. 1999. - Т.40. - J№ 3. -с.605-618
39. Крамер Г.-Математические методы статистики. М.: Мир, 1975. - 648 с.
40. Левин Б.Р. Теоретические основы статистической радиотехники. М.: Советское радио, 1976.
41. Левит Б.Я. Об оценке нелинейных функционалов // Проблемы передачи информации. 1978. - Т. 14. - Вып. 3. - с. 65-72.
42. Левит Б.Я. Об эффективности одного класса непараметрических оценок // Теория вероятностей и ее применения. 1975. - Т. 20. - Вып. 4. - с. 738-754.
43. Левит Б.Я. Условное оценивание линейных функционалов // Проблемы передачи информации. 1975. - Т. 11. - Вып. 4. с. 39-54.
44. Методологическое положение по статистике: Вып. 1. М.: Госкомстат России, 1996. - 674 с.
45. Мониторинг ситуации в сфере здравоохранения и социального развития. Аналитическая информация Электронный ресурс. // Официальный сайт Министерства здравоохоанения и социального развития РФ. http://www.mzsrrf.ru
46. Прохоренко В.А., Голиков В.Ф. Учет априорной информации при оценке надежности. Минск: Наука и техника, 1979.
47. Пугачев В.Н. Комбинированные методы определения вероятностных характеристик. М.: Сов.Радио, 1973. - 256 с.
48. Социальная статистика / Э.К. Васильева, И.И. Елисеева, О.Н. Кашина и др. М.: Финансы и статистика, 1999. - 414 с.
49. Тарасенко П.Ф. Разработка алгоритмов вовлечения априорной информации в процедуры статистического оценивания: Диссертация на соискание ученой степени кандидата физико-математических наук. -Томск: ТГУ, 1994. 208 с.
50. Тарима С.С. Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента : Диссертация на соискание ученой степени кандидата технических наук. Томск: ТГУ, 2001. - 149с.
51. Тюрин Ю.Н. Линейная модель в многомерной непараметрической статистике //В сб.: Ученые записки по статистике. 1974. - Т. 26. - с. 7-24.
52. Тюрин Ю.Н. Об оценивании функции распределения // Теория вероятностей и ее применения. 1970. - Т. 15, Вып. 3. с. 567-568.
53. Эконометрическое моделирование: учебное пособие для вузов. Выпуск 1: Айвазян С.А.,Колеников С.О. Уровень бедности и дифференциация по расходам населения России. - М., 2002. - 74 с.
54. Abu-Dayyeh W. A., Ahmed M.S., Ahmed R.A., Muttlak H.A. Some estimators of a finite population mean using auxiliary information // Applied Mathematics and Computation. 2003. - V. 139. - p.287-298.
55. Arcos A., Rueda M., Martinez M.D., Gonzalez S., Roman Y. Incorporating the auxiliary information available in variance estimation // Applied Mathematics and Computation. 2005. - V. 160. - p.387-399
56. Box G.E.P., Muller M.E., Marsaglia G. A Note on the Generation of Random Normal Deviates // Annals of Mathematical Statistics. 1958. -№ 29. - c.610-611.
57. Chambers R.L., Dunstan R. Estimation distribution functions from survey data // Biometrika. 1986. - V. 73. - p.597-604.
58. Chen J., Qin J. Empirical Likelihood Estimation for Finite Population and the Effective Usage of Auxiliary Information // Biometrika. 1993. - V. 80. - Issue 1. - p.107-116.
59. Devroye L. Non-Uniform Random Varíate Generation. New York: Springer-Verlag, 1986. - 843 c.
60. Haberman S.J. Adjustment by minimum discriminant information // The Annals of Statistics. 1984. - V. 12. - p.971-988
61. Hansen H.H., Hurwitz W.N., Madow W.G. Sampling survey methods add theory. New York: John Wiley, 1953. - V 1,2.
62. Hartley H.O., Rao J.N.K., Keifer G. Variance estimation with one unit per stratum // J. of the Americam Statistical Association. 1969. - V. 64. -p.841-851
63. Isaki C.T. Variance estimation using auxiliary information // J. of the Americam Statistical Association. 1983. - V. 78. - p.117-123
64. Kuk A. A Kernel Method for Estimating Finite Population Distribution Functions Using Auxiliary Information. // Biometrika. 1993. - V. 80. -Issue 2. - p.385-392.
65. Owen А. В. Empirical Likelihood Ratio Confidence Intervals for a Single Functional // Biometrika. 1988. - V. 75. - Issue 2. h. 237-249.
66. Press, W.H., Flannery, B.P, Teukolsky, S.A. and Vetterling, W.T. Numerical Recipes. The Art of Scientific Computing. New York: Cambridge University Press, 1992.
67. Qin J., Lawless J. Empirical Likelihood and General Estimating Equations // The Annals of Statistics. 1994. - V. 22. - Issue 1. - p.300-325.
68. Rao J.N.K., Kovar J.G., Mantel H.J. On estimation distribution functions and quantiles from survey data using auxiliary information // Biometrika.- 1990. V. 77. - p.365-375.
69. Schuster E.F. Estimating the distribution function of a symmetric distribution // Biometrika. 1975. - V. 62, № 3. - P. 631-635.
70. Schuster E.F. On the goodness-of-fit problem for continuous symmetric distributions //J. of the Americam Statistical Association. 1973. - V. 68.- p. 713-714.
71. Tarima S., Pavlov D. Using auxiliary infiometion in statistical function estimation // Probability and Statistics. 2006. -V. 10. - p.11-23.
72. Wang S., Dorfman A.H. A New Estimator for Finite Population Distribution Functions // Biometrika. -1996. V. 83. - Issue 3. - p.639-652.
73. Zhang B. Bootstrapping with auxiliary information // Canadian Journal of Statistics. 1999. - V. 27(2). - p.237-249.
74. Zhang B. Empirical Likelihood Confidence Intervals for M-functionals in the presence of auxiliary information. // Statistics and Probability Letters. -1997. -V. 32. p.87-97.
-
Похожие работы
- Статистическая обработка данных с использованием априорной информации
- Статистическая обработка экспериментальных данных с учетом различных типов симметрии распределения
- Разработка алгоритмов вовлечения априорной информации в процедуры статистического оценивания
- Использование дополнительной информации при оценке вероятностей и интерпретации натурного эксперимента
- Непараметрическое оценивание функционалов от распределений случайных последовательностей
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность