автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы оценивания характеристик тяжело-хвостовых случайных величин по конечным выборкам
Автореферат диссертации по теме "Методы оценивания характеристик тяжело-хвостовых случайных величин по конечным выборкам"
РОССИЙСКАЯ АКАДЕМИЯ НАУК
ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ им. В .А. ТРАПЕЗНИКОВА
УДК 519.234 На правах рукописи
МАРКОВИЧ Наталья Михайловна
МЕТОДЫ ОЦЕНИВАНИЯ ХАРАКТЕРИСТИК ТЯЖЕЛО-ХВОСТОВЫХ СЛУЧАЙНЫХ ВЕЛИЧИН ПО КОНЕЧНЫМ ВЫБОРКАМ
Специальность 05.13.01 — Системный анализ, управление
и обработка информации (в отраслях информатики, вычислительной техники и автоматизации)
Автореферат
диссертации на соискание ученой степени доктора физико-математических наук
Москва — 2004
Работа выполнена в Институте проблем управления им. В.А. Трапезникова Российской академии наук.
Официальные оппоненты:
доктор физико-математических наук А.В. Добровидов, доктор физико-математических наук А.А. Гущин, доктор физико-математических наук А.В. Крянев .
Ведущая организация:
Физический факультет Московского государственного университета им. М.В. Ломоносова.
Защита диссертации состоится 21 октября 2004 г. в 13 часов на заседании диссертационного Совета Д 002.226.02 при Институте проблем управления им. В.А. Трапезникова РАН по адресу: 117997 Москва, ул. Профсоюзная 65, ИПУ РАН.
С диссертацией можно ознакомиться в библиотеке Института проблем управления РАН.
Автореферат разослан_2004 г.
Ученый секретарь диссертационного Совета
кандидат технических на
Лебедев
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы.
В последние годы возрос интерес к задачам прогноза рисков от экстремальных явлений. Измерения в Интернете (продолжительности сессий, длины передаваемых по Интернету файлов и др.), размеры страховок при катастрофах, наблюдаемые очень низкие или высокие температуры, уровень воды в реках при наводнениях, сильные ветры, концентрации редких полезных ископаемых и озона в атмосфере, разброс размеров пылевых частиц у комет могут быть описаны с помощью тяжело-хвостовых распределений.
К тяжело-хвостовым распределениям могут быть отнесены те распределения, хвост которых убывает на бесконечности медленнее, чем экспоненциальный хвост. Такие распределения могут не иметь конечного второго или даже первого моментов, и это, в частности, определяет специфику их исследования.
Например, центральная предельная теорема о сходимости распределения сумм независимых одинаково распределенных случайных величин (ол.в.) к нормальному распределению выполняется для огромного числа распределений: все, что нам нужно - это конечность дисперсии для слагаемых суммы. Если же эта дисперсия бесконечна, то в качестве предельных распределений для нормированных сумм мы получаем так называемые устойчивые распределения, Levy, (1925); Khintchine, Levy, (1936); Гнеденко, (1939). Условие Крамера о существовании производящей функции моментов не выполняется для тяжело-хвостовых распределений. Поэтому многие результаты теории больших уклонений, требующие выполнения этого условия (например, теорема Крамера о сходимости хвоста распределения суммы
рос. национальна:! биклиотехл
С.ПетсрЬург -ОЭ 200т акт о Яи
конечного числа независимых случайных величин к хвосту нормального распределения), нарушаются. В отсутствии 2-го момента изменяется линейная аппроксимация функции восстановления для больших времен наблюдения. В статистическом рассмотрении, анализ характеристик случайных величин, распределение которых описывается тяжело-хвостовыми моделями, также требует специальных, отличных от классических, статистических методов. Например, гистограммы хорошо оценивают легкохвостовые (без тяжелых хвостов) плотности распределения вероятностей (ПР), но на тяжело-хвостовых ПР и для конечных выборок дают результаты, вводящие в заблуждение: переглаживают ПР или показывают пики в хвостовой части ПР. Этот эффект наблюдается и для других неиараметрических оценок таких, как ядерные, проекционные, сплайн оценки Чепцом, (1972): Silvermani, (1986); Деврой и Дьерфи, (1985). Оценивание высоких квантилей для тяжело-хвостовых распределений не может быть проведено с помощью эмпирических функций распределения или взвешенных эмпирических квантильных оценок, использующих порядковые статистики выборки, как это обычно делается.
Игнорирование тяжело-хвостовости в данных, использование легко-хвостовых моделей- могут привести к серьезным ошибкам в оценивании и управлении системами. Цель работы - разработка статистических методов анализа характеристик сл.в., распределенных с тяжелыми хвостами, по выборкам независимых одинаково распределенных сл.в. ограниченного объема.
Задача восстановления ПР по эмпирическим данным является центральной в математической статистике. ПР используется как для описания генеральной совокупности.
так и для решения задач классификации, разладки, оценивания функционалов, как например, интенсивности отказов и многих других. В литературе предлагаются модели хвоста распределения, которые используются для построения оценок высоких квантилей, вероятностей и среднего числа превышения случайной величиной некоторого высокого уровня - характеристик, необходимых для оценки риска потерь от редких событий. Для этого используются параметрические модели, основанные на асимптотических моделях поведения максимума выборки, или "почти параметрические" (с точностью до функций со специально заданными свойствами) модели распределений параметры которых (хвостовые индексы) оцениваются по выборкам непараметрическими методами. На практике (например, в задаче классификации или при оценивании математического ожидания) часто необходимо иметь оценку ПР в целом, т.е. хвостовой и основной части ПР. Параметрические модели хвоста для получения таких оценок не подходят. Необходимость различного сглаживания в разных областях тяжело-хвостовых ПР привела к ядерным оценкам с переменной шириной окна Abramson, (1982); Hall, (1992); Silverman, (1986). Однако эти оценки непригодны, по-крайней мере, для ядер с ограниченным носителем для оценивания хвостовой части ПР, где наблюдения отсутствуют. Актуальны развиваемые в работе подходы к оцениванию тяжело-хвостовых ПР с использованием предварительного преобразования (трансформации) данных и параметрико-непараметрического раздельного оценивания хвостовой и основной частей ПР. Оба подхода нацелены на хорошее оценивание хвостовой и основной частей ПР. В диссертации предлагается трансформировать данные к ограниченному интервалу (к выборке с удобной
для оценивания ПР), оценить ПР непараметрическим методом по трансформированным данным и растянуть эту оценку обратным преобразованием. Полученные оценки с фиксированными параметрами сглаживания работают как локально-адаптивные. Этот подход реализуется при использовании логарифмического преобразования. Однако преобразования, независящие от исходного распределения, как логарифмическое, могут привести к разрывным ПР трансформированных сл.в., трудным для оценивания.
В диссертации много внимания уделяется предложению трансформаций и оценок ПР для трансформированных сл.в. обеспечивающих наименьшую интегральную среднеквадратичную ошибку оценивания и правильный порядок убывания оценки ПР в хвостовой области.
Другой рассматриваемый подход - смешанное параметрико-непараметрическое оценивание, когда хвост ПР оценивается параметрической моделью, а основная часть ПР - непараметрической оценкой. Похожая идея реализована в оценках Barron, Gyorfi & van der Meulen, (1992), где параметрическая модель хвоста "накладывается" на. гистограммную оценку основной части ПР. Оценки чувствительны к выбору параметрической модели и плохо оценивают основную часть ПР для выборок ограниченного объема. Между тем на практике часто встречаются многомодальные тяжело-хвостовые распределения. Поэтому актуально предложение комбинированных оценок, нацеленных на хорошее восстановление одновременно многомодальной основной части и хвоста ПР.
Необходимость непараметрических оценок ПР с правильным поведением в хвостовой области очевидна. Это особенно важно, если сравниваются ПР нескольких классов. При использовании эмпирического байесовского
классификатора наблюдения классифицируются путем сравнения оценок ПР каждого класса. Так как наблюдение может появиться как в области хвоста, так и в основной части ПР, точность оценивания на хвостах принципиальна для классификации. Известно много методов классификации, использующих оценки ПР, Silverman, (1986); Айвазян, (1989). Для тяжело-хвостовых наблюдений актуально рассмотреть процедуру, позволяющую усилить влияние редких наблюдений в хвостовой области на качество классификатора и, тем самым, предотвратить, возможно большие потери от маловероятных событий.
Оценки квантилей высоких порядков (например. 99, 99.9-процентных квантилей) для тяжело-хвостовых распределений применяются для определения значений характеристик наблюдаемых объектов, приводящих к редким, но возможно большим потерям, при установке порогов изменения параметров технических систем. Высокие квантили обычно располагаются на границе или за пределами выборки. Ввиду отсутствия наблюдений за пределами разброса выборки использование эмпирической функции распределения или взвешенных оценок, использующих порядковые статистики выборки, для оценивания таких квантилей невозможно. Оценивание высоких квантилей основано на выборе предварительной квантили внутри разброса выборки (порога) и экстраполяции ее к некоторому значению за пределами выборки. Для этого, как правило, используются асимптотические модели поведения хвостов распределения, основанные на асимптотическом распределении максимума выборки. Недостаток оценок высоких квантилей - их чувствительность к выбору порога и модели хвоста. Актуально предложение более точных оценок высоких квантилей.
Хвостовой индекс - другая характеристика, важная для анализа тяжело-хвостовых данных. С помощью него можно определить наличие в данных тяжелых хвостов, а также количество конечных моментов. Все оценки характеристик тяжело-хвостовых сл.в. так или иначе базируются на оценке хвостового индекса. Известно много оценок хвостового индекса: оценка Хилла; момент-оценки, Dekkers, Einmahl, de Haan, (1989); UH-оценки, Berlinet, (1998); ядерные оценки, Csorgo, Deheuvels, Mason, (1985); оценка отношения, Goldie, (1987). Однако эти оценки не обладают свойством рекурсивности, важным для организации вычислений в режиме реального времени (on-line).
В диссертации исследуется оценка хвостового индекса, предложенная в Davydov, Paulauskas, Rackauskas. (2000), которая использует независимые отношения вторых наибольших порядковых статистик к наибольшим порядковым статистикам в подгруппах наблюдений и обладает свойством рекурсивности. Выбор параметра метода - числа наблюдений в подгруппах выборки, по выборкам ограниченных объемов, авторами не исследовался. Это было реализовано в диссертации.
При решении задач популяционного анализа, связанных с выяснением причин наступления каких-то событий в популяции (например, заболеваемости, смертности), важную роль играет функция риска смерти. При исследовании надежности технических систем эта функция называется интенсивностью отказов. При оценивании этой функции по независимым экспериментальным данным часто применяется какая-либо параметрическая модель. Однако описать данные достаточно точно с ее помощью, привлекая в качестве параметров то или иные влияющие факторы, бывает трудно. Параметрический
подход проблематичен и при анализе популяционных процессов средствами полумарковских моделей, когда интенсивность наступления событий интерпретируется как интенсивность перехода из одного состояния в другое [3, 5, 17]. Следует учесть, что поведение интенсивности отказов на правом конце действительной оси разнится в зависимости от класса распределения: для финитных и легко-хвостовых распределений интенсивность отказов стремится к при х —> оо, для экспоненциального распределения эта функция постоянна, а для тяжело-хвостовых распределений она стремится к 0 при х —► оо. Это вызывает проблемы для непосредственного применения непараметрических методов при оценивании этой функции: предварительного оценивания ПР и функции распределения (ФР); ядерных оценок или оценок гистограммного типа, Prakasa Rao, (1983); метода регуляризации, Stephaniuk, (1992). Для тяжело-хвостовых распределений можно провести предварительное преобразование выборки к конечному интервалу и оценивать интенсивности наступления событий, соответствующие финитным распределениям, непараметрическими методами. Это сделано в диссертации. При анализе устойчивости технических систем, гарантийном контроле качества приборов, часто необходимо оценить функцию восстановления (ФВ), которая показывает среднее число появлений события (например, отказа прибора) за фиксированный интервал времени. Обычно измеряется число наступлений событий в интервале времени фиксированной длины, например, число звонков в фиксированное время в течение нескольких дней. В этом случае для оценивания ФВ необходимо иметь несколько реализаций процесса. В диссертации оценивание ФВ проводится по наблюдаемым временным промежуткам
между событиями только одной реализации процесса, что важно при гарантийном контроле качества или, если многократное наблюдение процесса требует больших затрат. В аналитическом виде ФВ получена лишь для немногих распределений. Имеется много работ по численному восстановлению ФВ в случае, когда распределение временных интервалов между событиями известно. Так как предварительное оценивание ФР или ПР, если последняя существует, затруднительно особенно, когда распределение имеет тяжелые хвосты, актуально предложение методов непосредственного оценивания ФВ. Работы но этому направлению крайне немногочисленны, Frees, (1986); Grubel, Pitts, (1993); Schneider, Lin & O'Cinneide, (1990). Оценка Фриза требует большого объема вычислений уже при выборках объема 20-30 точек. Важно предложение непараметрических оценок ФВ, обеспечивающих хорошую точность оценивания при небольшом количестве вычислений и позволяющих вести расчеты для достаточно больших выборок. Это сделано в диссертации. Цели работы:
1. Разработать более точные непараметрические и параметрико-непараметрические методы оценивания тяжело-хвостовых ПР.
2. Применить полученные оценки ПР для задачи классификации.
3. Получить и исследовать оценки для квантилей высоких порядков тяжело-хвостовых распределений.
4. Предложить выбор параметра для оценки хвостового индекса, предложенной в Davydov, Paulauskas, Raekauskas, (2000).
5. Получить и исследовать непараметрические оценки функции интенсивности отказов (риска смерти в популяции).
6. Разработать непараметрический метод оценивания функции восстановления с хорошей точностью оценивания при небольшом количестве вычислений.
7. Продемонстрировать работу полученных методов на модельных и реальных данных.
Общая методика исследований базируется па результатах теории вероятностей, математической статистики, теории экстремальных величин, теории решения некорректных задач. Для исследования точности методов применяются как результаты теоретических исследований, так и моделирование на ЭВМ.
Научная новизна работы заключается в том, что:
1. Предложен параметрико-непараметрический метод оценивания тяжело-хвостовых ПР, где основная часть ПР оценивается конечным разложением по базисным функциям, а хвостовая часть - параметрической моделью типа Парето.
2. Разработаны и исследованы методы восстановления тяжело-хвостовых ПР при помощи трансформаций данных, позволяющие сохранить порядок убывания хвоста истинной ПР и имеющие наименьшие интегральные среднеквадратичные ошибки.
3. Рассмотрено использование предложенных оценок ПР в задаче классификации.
4. Разработана и исследована новая оценка для квантилей высоких порядков в предположении, что хвост распределения типа Парето. Доказано, что распределение логарифма отношения предлагаемой оценки (и оценки-Вайссмана, Weissman, (1978)) к истинной квантили асимптотически нормально.
5. Для оценки хвостового индекса, предложенной в Davydov, Paulauskas, Rackauskas, (2000), предложен и исследован бутстреп-метод для оценки параметра метода. Показана
рекурсивность оценки для расчетов в реальном времени.
6. Рассмотрено оценивание интенсивности отказов для распределений с тяжелыми хвостами. Используя трансформации данных к ограниченному интервалу, предлагается свести оценивание к оцениванию интенсивности отказов (риска смерти) для финитной ПР.
7. Для финитных ПР предложены оценки функции риска смерти из двух интегральных уравнений с разными ядрами и правыми частями методом стохастической регуляризации. При определенном выборе параметра регуляризации доказана сходимость оценок в С, а также скорость сходимости в L2 в случае ограниченного изменения k-ой производной функции риска смерти.
8. Получены оценки функций отношения рисков смерти и ПР продолжительности жизни в двух популяциях для финитных ПР как решение интегральных уравнений с неточно заданными правыми частями и операторами методом регуляризации. Оценки применяются для выявления эффекта гормезиса (т.е. "стимулирующего эффекта малых доз каких-либо веществ, которые в больших дозах вредны" British medical dictionary, (1961)) в популяции по эмпирическим данным.
9. Разработана непараметрическая оценка функции восстановления для ограниченных временных интервалов [0, t] по независимым наблюдениям временных промежутков между событиями с неизвестной ПР, требующая меньшего объема вычислений по сравнению с известными оценками ФВ. Доказана равномерная сходимость оценки почти наверное к истинной ФВ для легко- и тяжело-хвостовых распределений временных промежутков между событиями. Для распределений с экспоненциальными и правильно меняющимися хвостами доказана скорость равномерной
сходимости. Предложен выбор параметра оценки по выборке методом бутстреп и из графика зависимости оценки ФВ от этого параметра.
Практическая ценность работы определяется
1.) созданием новой методологии оценивания тяжелохвостовых ПР по выборкам ограниченного объема, работоспособность которой продемонстрирована для задач классификации в Интернете, на многочисленных примерах имитационного моделирования и на реальных данных измерений в Интернете;
2.) созданием непараметрической оценки квантилей высоких порядков, для применения, например, в контроле риска потерь от сужения области определения наблюдаемых случайных параметров в технических системах (например, в Интернете) до конечного интервала;
3.) созданием точного и экономичного в смысле вычислений метода оценивания ФВ, который может быть применен для контроля загрузки телефонных сетей. Интернета, гарантийного контроля качества приборов;
4.) выработкой рекомендаций по практическому определению параметров для одной оценки хвостового индекса, являющегося базовой характеристикой при анализе данных, распределенных с тяжелыми хвостами;
5.) выработкой практических рекомендаций по оцениванию интенсивностей наступления событий в популяционных системах, позволяющих выявлять влияние различных факторов на них;
6.) выработкой рекомендаций по статистическому анализу данных, распределенных с тяжелыми хвостами. Апробация работы. Основные результаты работы доложены на 24 конференциях: International Heart Health Conference Barcelona (Catalonia-Spain) May-June 1995;
10th European Simulation Multiconference Budapest, Hungary, June 2-6, 1996; 3rd International Conference on Applied Informatics Eger-Noszvaj, Hungary, August 25-28,1997; Conference Inverse and ill-posed problems Moscow University, June 16-17, 1998; Workshop Heavy tails and queues, Eurandom, the Netherlands, April 1999; International Conferences on Control Problems Moscow,SICPRO'1999, 2000, 2003; 10th INFORMS Applied Probability Conference University of Ulm, July 26-28, 1999; First International IEEE/Popov Workshop on Internet Technologies and Services. October 25-28, 1999, Moscow; на Всероссийской научной конференции "Алгоритмический анализ неустойчивых задач" Екатеринбург, 26.02-2.03.2000; Workshop IP Netzplanung, IP Netzmanagement und Optimierung. 20.-21. Juli 2000, Universitat Wiirzburg (Германия): Workshop Mathematical Modelling in Finance and Telecommunication Nagu/Nauvo,Finland, 18-22 August 2000: ECUMN 2000, Colmar, October, 2000; International Symposium Extreme Value Analysis Theory and Practice Leuven, August. 2001: IFAC Workshop Preprints Adaptation and Learning in Control and Signal Processing Cernobbio-Como (Italy), 29,30,31 August 2001; First Teletraffic congress, Brazil, Salvador, December 2001; International Gnedenko Conference, Kyiv June 2002; International Symposium Managing and analyzing data streams: towards unifying approaches from mathematical statistics and computer science 13-15 June 2002, Marburg, Germany; MASCOTS Workshop on Design and Performance Evaluation of 3G Internet Technologies 2002, Fort Worth, Texas, October 2002; Seminar Stochastic Dynamical Systems, Sudac, Crimea, Ukraine, 2003; Колмогоров и современная математика, МГУ, июнь, 2003; Teletraffic congress, Berlin, 2003; Conference on Asymptotic Statistics, Barcelona. Bellaterra. 2003. а также на семинарах в Институте проблем передачи
информации РАН (1991), Max Planck Institute, Rostock, Germany (1997), Московском Государственном Университете им.М.В.Ломоносова (1998, 2001, 2004), Munich Technical University (1998, 1999), University (1998-2003), Международном Институте Eurandom, Eindhoven, Нидерланды (1999), Lund University (Sweden) (2000), Wurzburg University (Germany) (2000), Brunei University, London (2002), Weierstrass-Institute, Berlin (2003), ENTS, Paris (2004), ETH, Zurich (2004). Публикации. Результаты работы представлены в 40 публикациях.
Структура диссертации. Диссертация состоит из
введения, восьми глав, заключения, списка цитируемой литературы (188 наименований), общим объемом 20G страниц.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность, научная новизна и практическая ценность работы, дается общая характеристика работы, изложены основные результаты диссертации.
В первой главе даются определения тяжело-хвостовых распределений, принадлежащих к ним субэкспоненциальных распределений и распределений с правильно меняющимися хвостами.
Пусть Xp Х2,..., Хп - независимые одинаково распределенные ел.в. с ФР F(x) и Мп = max(Xj, X2,... ,Xn). Известно, Gnedenko, (1943); Дэйвид, (1979), что если предельное распределение максимума Мп существует, то при некотором удобном выборе нормировочных констант а,, Ьп
причем может относиться только к одному из трех
типов
Определение 1. Параметр 7 называется индексом экстремальной величины (extreme value index, EVI) и определяет форму хвоста распределения сл. в. X. Величина <2 = 1/7 называется хвостовым индексом (tail index). Будем рассматривать только неотрицательные сл.в. Определение 2. Распределение F (или сл.в. X) называется тяжело-хвостовым, если для ее хвоста - функции F(x) — 1 — F(x) > 0, х > 0 выполняется следующее свойство для любых у > 0:
Определение 3. ФР F(x) (или сл. в. X), определенная на (0,оо), называется субэкспон^ЩьшБн^йесли
для всех п > 2 выполняется !P{Sn > х} ~ п1Р{Х\ > я} ~ 1Р{МП > х} при х —* оо, где Sn = Xi + ...Хп, Мп = max<=i.....„{XJ.
Определение 4. Распределение F (или сл. в. X) называется правильно меняющимся с индексом а = 1/7, 7 > О (X 6 если
где I - некоторая медленно меняющаяся функция, т.е. lim*-.«, £(tx)/£{x) = 1, Vi > 0.
Приводятся свойства тяжело-хвостовых распределений: невыполнимость условия Крамера, условия конечности моментов, замкнутости относительно операции свертки и др.
Рассматривается задача восстановления ПР по случайной независимой выборке Х = (X1...,XJ объема п. Обсуждаются общие подходы к оцениванию ПР. Дается обзор методов для легко- и тяжело-хвостовых ПР. Проблема состоит в том, что среди известных непараметрических методов (это гистограмма, ядерные, проекционные, сплайн оценки), которые успешно оценивают финитные и легкохвостовые ПР, только ядерные оценки
Ш = И)-1 ¿ Щх - Xi)/h), (3)
где К(х) - ядерная функция, могут быть адекватно использованы на бесконечном интервале. Но и они оценивают тяжело-хвостовые ПР плохо для выборок ограниченных объемов. Так как сглаживающий параметр h в Д(х) фиксирован, эти оценки показывают острые пики на точках, соответствующих редким событиям ("outliers"), или переглаживают основную часть ПР и не обеспечивают правильного порядка убывания на бесконечности. Ядерная оценка с переменной шириной окна, Abramson (1982)
и ее модификации Hall, Marron, (1988), Novak (1999). Naitu (2001), обеспечивают различное сглаживание для различных областей тяжело-хвостовых ПР. Преимущество этих оценок с ядрами 4-го порядка заключается в оптимальном порядке интегральной среднеквадратичной ошибки для ПР,
имеющих непрерывную 4-ую производную, с сохранением неотрицательности. Такой порядок может быть достигнут и для ядерных оценок с ядром 4-го порядка, которые
могут принимать отрицательные значения. Подход в оценивании тяжело--хвостовых ПР, развиваемый в диссертации, использует предварительное преобразование исходных данных X1,...,Xn к новым Y1,...,Yn (Y = T(Xi)) с помощью некоторой монотонно возрастающей взаимнооднозначной функции трансформации Т(х) (Т' предполагается непрерывной). Оценив ПР g(x) сл.в. Y, можно получить оценку ПР сл.в. Х по формуле:
Полученные оценки с фиксированными параметрами сглаживания работают как локально-адаптивные оценки. Так как ФР сл.в. Y равна
то очевидно, что Т(х) определяется ФР G(x) и F(x). "Целевая" ФР G(x) может быть задана, ФР F(x) неизвестна. Приводится обзор фиксированных, независящих от F, трансформаций (как например, ln x или трансформации из параметрического семейства
ÏAOr) = ( fеаШ \ t n Wand, Marron & Ruppert I ln Xy если Л — и,
(1991); Yang, Marron (1999), направленные на улучшение
оценивания многомодальных, скошенных, не обязательно
тяжело-хвостовых ПР) и адаптивных, в которых вместо F(x)
используется какая-то параметрическая модель. В. Деврой,
Дьерфи, (1988) доказано, что трансформация T(r) = F(x),
где в качестве G(x) берется равномерная на [0,1]. ФР, и
трансформация
( 1 - F{x) > 0.5,
где G(x) - треугольная ФР, обеспечивают соответственно
для гистограммы и ядерных оценок наименьшую величину IE J I fh(x) — f(x)\dx для любых распределений. Дается обзор комбинированных оценок тяжело-хвостовых ПР, связанных с идеей раздельного оценивания хвостовой и основной части ПР соответственно параметрическими и непараметрическими оценками (Barron, Gyorfi & van der Meulen, (1992); Ks, Vajda, (1996)).
Глава завершается обзором методов оценивания хвостового индекса, определяющего форму хвоста распределения и играющего ключевую роль в анализе тяжело-хвостовых наблюдений. Хвостовой индекс используется для оценивания высоких квантилей (т.е. 99%, 99.9% и т.д.), ПР, позволяет определить число существующих моментов и проверить гипотезу, является ли распределение тяжело-хвостовым. Приводятся методы выбора параметра - количества наибольших порядковых статистик к, для наиболее часто используемой оценки Хилла:
где - порядковые статистики выборки
Х„..., Хп.
Во второй главе предлагаются комбинированные и непараметрические трансформированные оценки тяжелохвостовых ПР. В комбинированной оценке [14]
f(t-rN)-* f {t)' i€l°'*<»-*>l' П,ъ Mth i €(*(„-«, 00),
(6)
хвост ПР оценивается параметрической моделью типа Парето
где вместо хвостового индекса I/7 используется его оценка Хилла, для оценки параметра к которой применяется бутстреп-метод, имеющий близкую к минимальной среднеквадратичную ошибку (Hall, (1990)). Основная часть ПР, определенная на ограниченном интервале [0, Х^^)] (X(nk) - некоторая от.в., например, (п—к)-я порядковая статистика), представляется непараметрической оценкой, конечным разложением по базисным функциям <fk(t), k= 1,2,...:
где коэффициенты разложения Xj и их число N вычисляются методом структурной минимизации риска, Вапник, (1979), что обеспечивает минимум оценки среднего риска оценивания.
Другой подход - в использовании непараметрических трансформированных оценок. Основная цель - получение непараметрических оценок ПР с правильным поведением в хвостовой области. Это особенно важно при сравнении ПР нескольких популяций, как в задаче классификации. Приводятся два типа трансформаций: фиксированные, не зависящие от исходного распределения, и адаптивные к эмпирическим данным, использующие априорную информацию о форме хвоста. Исследуется фиксированная трансформация средствами имитационного
моделирования. Показывается, что эта трансформация обеспечивает состоятельность оценивания для ядерной оценки с ядром Епанечникова и полиграммы (гистограммы с переменным окном) в L¡ и L2- Трансформированная ядерная оценка с гауссовым ядром расходится для тяжело-хвостового распределения Вейбулла. Гарантировать правильный
порядок убывания ПР на бесконечности фиксированные трансформации не могут без информации о предполагаемом поведении ФР.
Предлагается адаптивная трансформация в предположении, что исходная сл.в. имеет распределение Парето
а целевая сл.в., к которой производится трансформация, треугольно распределена на [0,1] с ФР Ф+'гг(х) = (2х — х2)1{х € [0,1]} + 1{х > 1}. Согласно (5) трансформация имеет вид:
Щх) = (Ф-"")-1^*)) = 1-у/1-Щ{х) = l-(i+iyx)-1/(2;f)
Tij(x) обеспечивает ПР трансформированной сл.в., непрерывную вблизи 1 для типичных распределений с тяжелыми хвостами (с правильно меняющимися хвостами, логнормального и Вейбулла) при уклонениях в оценках хвостового индекса. Хотя в Деврой, Дьерфи, (1988) была доказана оптимальность в Lt трансформированных ядерных оценок с трансформациями к треугольно распределенным сл.в., вопрос о точности в L2 остается открытым. Исследуется точность трансформированных ядерных оценок в смысле интегральной среднеквадратичной ошибки MISE на интервале
где Ü* = д(х) = - оцениваемая
ПР, а - ядерная оценка g(x) со сглаживающим
если х > 0, если х < О,
(7)
параметром h. Если Т(Т'(х)) ограничена или Т(х) - фиксированная трансформация и П* - неслучайный интервал, то MISE трансформированной оценки определяется среднеквадратичной ошибкой MSE оценок ПР трансформированных сл.в. Для оценок (3) и (4) MSE ~ гГ4'5 и ~ п"8'9, если h = п"1'5 и h = гГ1'9, а д<2> и g4 непрерывны, соответственно.
Сравниваются точности в случае применения трансформаций (7), логарифмической и 2/7rarctanx к ядерным оценкам (3). Фиксированные трансформации могут привести к разрывным ПР трансформированных сл.в., трудным для оценивания. Для класса с правильно меняющимися хвостами с ПР
/(х)= | Ф0(1 + 7Я)~(1/7+1),
х > с > О, х < с,
(8)
где l(x) медленно меняющаяся функция, устанавливаются ограничения на применимость фиксированных трансформаций. Оптимальный порядок для MISE может быть получен, если g"{x) существует. Поэтому он достигается для любой ПР из класса (8): при использовании трансформации имеются ограничения на логарифмичес-
кой трансформации - на l(x). Для логарифмической и адаптивной трансформаций имеются ограничения на интервал на котором рассматривается MISE. Для ядерных трансформированных оценок с трансформациями 2/7rarctana: и (7) в классе (8) предлагаются пограничные ядра, применяемые на правой границе интервала fl* = [0,1] - области определения трансформированной сл.в. Эти ядра обеспечивают порядок убывания оценки по на хвостах, как у истинной ПР.
В третьей главе полученные с помощью трансформаций (7) и 2/7Г агс1ап х оценки ПР сравниваются по эффективности решения задачи классификации, т.е. но качеству эмпирического байесовского классификатора ///;«:
г]ев(х) = к, если %Чк{х)1к{х) > для всех I Ф к.
Последнее означает, что классификатор относит
объект со свойством х к классу к, если произведение оценки априорной вероятности класса оценки ПР класса и штрафа за ошибку классификации ц(х) максимально для к-го класса. Так как наблюдения в хвостовой области редки, улучшение классификации на хвосте незначительно уменьшает риск ошибочной классификации. В задачах, где оценивание хвоста важно, штрафы д/х) должны быть больше на хвосте и меньше в основной части ПР, т.е. qk{x) —* оо при х —* оо. Оценки ПР различной точности могут определять один классификатор и иметь одну величину риска ошибочной классификации:
М . оо М .
¿=1 ^0 1=1 ->ЧЕв(х)=1
Поэтому в качестве характеристики оценок ПР предлагается эмпирический риск ошибочной классификации эмпирического байесовского классификатора:
Ь{г]ев) = ^Р» £ 4\{х)%{х)^х - J тахш{х)/1(х)<Ь.
Ь(т)ев) - это риск байесовского классификатора, когда /г(х) и г = 1,..., М - истинные ПР и априорные вероятности классов соответственно. Чем точнее оценки ПР /,-(х), тем
ближе L{t)eb) к L(Vb) - риску байесовского классификатора (минимально возможному). 1]д определяется, как и t]i;u, но при истинных f(x) и р(Х) вместо оценок ft(x) и рг(х). Доказывается, что асимптотические скорости сходимости
L(Veb) к L(i]b) одинаковы для полиграммы и ядерной оценки с компактным ядром. Именно, пусть рассматриваются только положительные ел.в., a qk(x) удовлетворяют условию:
jf q?(x)dT(x) < оо, (9)
Т : —* [0,1] - строго монотонно возрастающая
взаимнооднозначная функция.
Теорема 1. Пусть X15...,Xn - независимые одинаково распределенные сл. в. с ПР f(x), рассматривается трансформация к треугольной ПР д(х) — 2(1 — х)1{х 6 [0,1]}. Если ПР трансформированной сл.в. У - Т(Х) оценивается ядерной оценкой <?(х) = ^ ^ ((х ~ -
для остальных х, Кь(х) = l/hK(x/h)l{\x\ < h}, f^hKh(x)dx = j]_xK(u)du = 1 для 0 < h < 1, параметр сглаживания h = n"A/? > 0; 0 < d < min(0,5;/i), штрафные функции удовлетворяют (9), то верно
где Cj - константа, не зависящая от п. Теорема 2. Пусть Хр...,Хп - независимые одинаково распределенные сл.в. с ПР f{x). Если ПР. д(х) трансформированной сл.в. Y = Т{Х) такая, что д(х) < с < оо, < оо для {х : д(х) > 0},
оценивается полиграммой Тарасенко, (1976), где m = = vP,0 < /? < 1 - параметр сглаживания,
О < d < f, штрафные функции удовлетворяют (9), то верно
где сj - константа, не зависящая от п.
Приводятся результаты моделирования но сравнению качества классификатора (по риску ошибочной классификации Ь{г}ев) относительно L{t)b)) и качества трансформированных
ядерных оценок и полиграммы, (по Ь{г}ев) относительно Ь(г]в)) для различных тяжело-хвостовых распределений. Четвертая глава посвящена, оцениванию квантилей высоких порядков, т.е. решений х = хр уравнения
1 - F(x) = р (Ю)
для р, близких к 0 в ситуации, когда F(x) имеет тяжелый хвост. Проблема состоит в том, что такие квантили могут располагаться на границе или за пределами разброса выборки, где наблюдения, отсутствуют. Для р < 1/п классический подход с использованием эмпирической ФР Fn(x) в (10) не подходит для "высоких" квантилей также, как и взвешенные эмпирические квантильные оценки, использующие порядковые статистики выборки, так как
- максимальная порядковая статистика выборки). Главная идея всех методов оценивания "высоких" квантилей состоит в выборе предварительной оценки квантили внутри разброса выборки (это может быть одна из порядковых статистик, близких к границе) и затем перемещение ее вправо. Очевидно, чтобы экстраполировать "промежуточную" квантиль к некоторой за пределами выборки необходимо использовать какую-то модель хвоста распределения. Во многих приложениях такая модель недоступна. Поэтому используют асимптотические модели
поведения хвостов, основанные на распределении Х(п). Часто используют обобщенное распределение Парето (ОРБ)
где о > 0 и х > 0, если 7 > 0; 0 < х < —о/-), если 7 < 0, или
модели "типа Парето"
(11)
где 7, /3 > 0, с > 0 и —00 < d < 00 для моделирования хвоста распределения F.
В РОТ-методе (the peaks-over-threshold (POT)) GPD используется как распределение выходов за пределы некоторого высокого порога и:
где а и 7 - оценки параметров GPD McNeil, (1997). Оценка Weissman, (1978) получена для модели хвоста класса Парето (т.е. 1-го типа из (1)):
где порядковые статистики,
соответствующие выборке X.
В диссертации предлагается оценка высоких квантилей, основанная на оценке - комбинированная оценка (6):
х% = X(n_fc) (-0.5 + х/0.25 + рпс(7)/А:)
-7
Оценка хср отличается от х™ нормализующим множителем 0(7) « 1 + + отражающим тот факт, что оценка
ФР F(x) включает не только параметрическую оценку хвостовой области (как в х™), но и оценку основной части распределения.
Недостатком оценок квантилей является их чувствительность к выбору порога (это, например, v в ХрОТ) или, что эквивалентно, к выбору к в х™ и Определение к также необходимо для оценки EVI 7. Теоретически оптимальное к должно минимизировать среднеквадратичную ошибку MSE = IE (хр(к) — хр)2. Получить точное выражение для MSE трудно, поэтому обычно предлагается минимизировать по к асимптотическую MSE (когда математическое ожидание берется по предельному распределению) или, точнее, ее бутстрен-оценку. Доказывается, что распределение логарифмов отношения к истинной квантили асимптотически
нормально. Для получения асимптотики необходимо потребовать, следуя Dekkers, de Haan, (1989), чтобы к/(р-п) имело положительный предел при
Теорема 3. Пусть истинное распределение хвоста - "типа п —> со. Тогда
Моделирование на тяжело-хвостовых распределениях показывает/ что предложенная квантильная оценка лучше, чем ХрОТ и Хр для более высоких квантилей и демонстрирует меньшее среднеквадратичное отклонение. Оценка ХрОТ существенно проигрывает в точности из-за необходимости оценивания параметров GPD помимо порога В пятой главе исследуется оценка для хвостового индекса, предложенная в Davydov, Paulauskas. Rafkauskas, (2000). Пусть Х = {XX} независимые одинаково распределенные от.в., распределенные с тяжело-хвостовой ФР F(x). Выборка делится на l групп V1,...,Vl, каждая из которых содержит т случайных величии. Оценка использует независимые отношения вторых наибольших порядковых статистик к наибольшим порядковым статистикам в подгруппах наблюдений. А именно, статистика « = (1/0 Ell Ьи где ки = MiP = тах{Х,- :
Xj € Щ, a MfP - второй наибольший элемент в той же группе Vj, служит оценкой для 1/(1 + 7). Это основано на результате, доказанном в Davydov, Paulauskas, Rafckauskas, (2000): в предположении, что F(x) типа Парето
1 - F(x) = Схх'а + С2х~/3 + о(х~0),
с параметрами 0<а</?<оои для I — т — [\/н] Ъ = щ, а при р = 2а, ^Е^Л ~ +
or)"1) -*р iV(0, а2) с а2 = а(а + 1)"2(а + 2)"1 при п оо/ Результат сохраняется не только для равных I и т, но и для I = т = где £„—►() при п —> ос
и С = {0 ~ о)/а. Эти результаты асимптотические и их применение для выборок ограниченных объемов требует дополнительного исследования.
Сравнивая точность Zi с другими оценками хвостового индекса, можно только рассмотреть асимптотические MSE этих оценок для известных распределений. Показано, например, что для распределений Парето и Коши- MSE рассматриваемой оценки те же, что и у оценки отношения Goldie, (1987).
Показана рекурсивность оценки z, важная для оценивания в режиме реального времени, on-line. Под on-line оценкой понимается такая оценка, которая требует только фиксированного числа операций 0(1) для пересчета при появлении каждого нового наблюдения. Получив следующую группу наблюдений Vj+i можно записать
а после получения дополнительных г групп, каждая с m элементами Vi+i,Vj+i, -
т.е. 7i+i получается, используя ji за 0(1) операций (7; -оценка, полученная по V1,...,Vl группам). Оценивание т па каждом шаге неразумно, пока мы уверены, что эта величина не должна сильно измениться, так как это требует больших затрат. Точность оценки хвостового индекса будет хуже при использовании рекурсивных выражений, чем если бы т менялось с каждой новой порцией наблюдений. Параметр оценки т может определяться из графика
{(т, гп/т),тпо < тп < М0}, т0 > 2, М0 < п/2 (аналогично НШ-графику {(А;,7я(п, к)), 1 < к < п— 1}), выбирая оценку
%п/т из интервала, в котором функция гп/т демонстрирует стабильность. Для автоматического выбора т предлагается метод бутстреп, заключающийся в минимизации по га эмпирической бутстреп-оценки среднеквадратичной ошибки
Бутстреп-оценка строится по В нодвыборкам с возвращением из имеющейся выборки X. Используются подвыборки {•Х^,Х^} меньшего размера nt<n, чем исходная выборка Xn, чтобы избежать ситуации, когда бутстреп-оценка смещения (или его асимптотическая форма) равна О, в то время, как истинное смещение оценки ненулевое Hall, (1990). Величины nl и п могут соотноситься как n = nd, 0 < d < 1. Подвыборка делится на групп: 1t = [п/т]. Размеры подгрупп m1 и m соотносятся, как
Так как ФР ¥(х) неизвестна, то можно минимизировать эмпирическую оценку
по т1 и использовать полученное m1, чтобы вычислить оптимальное m из (12). Здесь
m = mi(n/ni)c, 0 < cr< 1.
(12)
MSE*(li, mi) = (b'(lumi)y + var'(li,rni)
- эмпирические бутстреп-оценки смещения и дисперсии. Проблема в том, какое cud выбирать. Исследование относительных смещений и MSE оценки z\ методом Монте-Карло для различных распределений и значений cud показывает, что наилучшими величинами с для фиксированного d = 0.5 являются 0.3 -г 0.5. Приводятся доверительные интервалы для бутстреи-оценок. В шестой главе по выборке X = {X1,...,Xn} независимых одинаково распределенных ел. и. с ПР f(x) и ФР F(x) оценивается функция интенсивности отказов (или в популяционном анализе функция риска смерти) h(x) = iLf(x) ■ Трудность восстановления h(x) связана с ее различным поведением на правом конце действительной оси для разных классов распределений. Для тяжелохвостовых распределений предлагается использовать подход с предварительным преобразованием выборки к интервалу [0,1], и тем самым свести оценивание h{x) к оцениванию риска отказов для финитных распределений. Пусть наблюдения ел.в. X принимают значения на ограниченном интервале [0,d], причем F(x) Ф 1 при х € [0, d]. ДЛЯ таких финитных распределений рассматривается решение методом регуляризации, Тихонов, Арсенин, (1974), следующего уравнения относительно h(x):
или в операторной форме где
U и V - нормированные пространства. Для приближенного решения (13) неизвестную ФР F(x) можно заменить на
[0,d) ее эмпирической оценкой, построенной по выборке X. Если используется эмпирическая ФР Fjx), то правая часть уп(х) = — ln(l — ВД) может быть неограниченной на [0,d), если выборка занимает интервал, меньший [0,d). Пусть искомая функция h(t) рассматривается на [0,:са] и F(xa) = а, 0 < а < 1. Для t е [0,ха] заменим -ln(l - F(t)) на
- отрезок прямой, соединяющей точки (A'(n), F„(X(n_i))) и (za,a), Х(п) > X(n_i) > ... > X(i) - порядковые статистики выборки Хп, 1{А) - характеристическая функция события А,
Согласно методу регуляризации регуляризованная оценка ^(х) для h(x) находится минимизацией функционала
где 7 > 0 - параметр регуляризации; - стабилизирующий функционал со свойствами: 1) i7[/i] определен на некотором множестве D С U\ 2) f2[/ij принимает вещественные неотрицательные значения и полунепрерывен снизу на D; 3) все множества Мс — {Л < с} являются компактами
в U. Следующая теорема касается равномерной сходимости оценок №(х). Пусть U = V = С[0,а:а].
Теорема 4. Если х € [0,а;о], где F(xa) = а, 0 < а < 1, /i7(x) - регуляризованная оценка функции h(x), а параметр регуляризации j определяется так, что *) = 7(л.)—>0,
71—3С
Для доказательства теоремы доказывается лемма.
Лемма 1. Если х G [0,хо], где F(xa) = а, 0 < а < 1, то
Величину, соответствующую максимуму ПР статистики Реньи.Яп(0, а) = sup , можно учесть в оценке ¿(л).
F(x)<a
Величина 1 — а), 0 < а < 1, соответствующая
наибольшему значению ПР, равна 0,9. Тогда
(14)
Пусть II — V = £-2[0,яа]> а в качестве приближения к Н(х) используется №(х] А, уп) - глобальный минимум в и функционала
при заданном значении параметра регуляризации 7 > 0.-Регуляризованное решение имеет вид
где А* - оператор, сопряженный к Л. Оператор А*А самосопряжен с ядром К(т, з) = J <И = ха — шах (г, в),
0 < т, 5 < ха. Обозначим систему характеристических чисел операторов АА* и А*А через 0 < А1 < < ..., а соответствующие ортонормированные в ¿2[0, ха] системы собственных функций через {<рь{х),к — 1,2,...}
Выберем ортонормированную в £2 [0, ха] систему функций
= С08 (¥) 'к = ■2. ■-}• ТогДа
о о
' соэ
—^ **=(й)2
/
(15)
Предположим, что к-я производная (к > 1) функции И(х) существует и имеет ограниченное изменение на [0,хЛ]. Функция к(х) может быть продолжена на [—ха,0) с помощью полинома (2/с — 1)-й степени т(х), определяемого из условий г(0) = 0, г'(0) = О,...,^*-1^) = 0; г(-ха) = Н(ха),г'(-ха) = к'(ха),...,г^~^(-ха) = и потом
периодически на всю действительную ось. Множество функций, удовлетворяющих этому условию, обозначим Рк. В классе Рк. доказывается скорость сходимости в L2 регуляризованных решений.
Теорема 5. Пусть Хп = {^1, - выборка
сосредоточенных на [0, ё] независимых одинаково распределенных сл.в. с ПР^) и ФР F(x). Пусть х Е [0..ти]. F(Xa) = а, 0 < а < 1, Д(х) 6 Р*, характеристические, числа операторов АА* и А*А удовлетворяют (15). Если в регуляризованной оценке И?(х\ Л, уп) решения уравнения (13)
асимптотическая скорость сходимости оценки №(х\А,уп) к И(х) задается выражением
Р{и : Шп(,\\К,(х;А,уп) - Ь(я)|| < с} = 1,
где с - независящая от п величина, а под норма в смысле /^[О, ха].
понимается
,-1/2
Замечание 1. Выбирая г(п) из (14), т.е. е(п) ~ п' можно заметить, что при к = 0 (случай функции h(x) с ограниченным изменением) и к = 1 скорость сходимости будет оптимальной в классе Р^: п-(*:+0-5)/(2(а-и.5))_ Далее рассматривается другое интегральное, уравнение относительно h(x), используемое, например, при оценивании риска смерти от выделенного заболевания для больных людей средствами полу марковских моделей [5, Ю, 17) :
(16)
где К (у) = Ду)(1 — Н(у)). Здесь наблюдаются выборка Хп1 = {Ха,...,ХП1} одной сл.в. с ПР у(х) и ФР Щх) и выборка Х^2 — {Х1,...,ХП2} другой сл.в. с ПР ^) на [0,ё]. Вместо (16) сначала решается уравнение относительно ПР
момента смерти
(17)
а затем h(z) получается по формуле: h(z) = g(z)/(l —
f Q{y)dy)- Правая часть и ядро (17) неизвестны и о
оцениваются из эмпирических данных: вместо у(х) и f(x) используются гистограммы по Хт и X™2, для чего [0,d] подразделяется на S равных отрезков длины h = а Н (у) заменяется эмпирической ФР по выборке X"2. Теорема 6. Пусть плотности распределения f(x) и у(х) имеют па [0, d] ограниченную производную, min у(х) =
фиксированного £1 > 0, при возрастании и 5
выполняются соотношения:
(18)
функция §(х) оценивается методом регуляризации из (17),
Г2т1П = т£П(р) > О (£1{д) - стабилизирующий функционал), д ео
а параметр регуляризации 7 определяется следующим образом: где
С1 > 0, С2 > 0, с > 0 - произвольные постоянные, п = шт(п15 п2), п определяется из уравнения
Тогда
Условия (18) выполнены, если положить £ = (шах{п1,п2})а, I < а < 1, а в качестве 7 можно взять
8(1п8)3/тах{п1,п2}. Пусть = /<?(т)с*г.
Теорема 7. Если х € [0,ха], причем =
а, 0 < а < 1, функция д(х) ограничена на [0. ха] и Р{и : Нт„_оо ||97(х) ~ яС^Ис^] = 0} = 1, то
Далее рассматривается непараметрическое оценивание функции отношения рисков смерти г{х) — Ц\{х) / ^{х) и отношения ПР времен жизни д(х) = ¡(х)/^(х) в двух независимых популяциях как некорректно поставленная задача решения уравнений
£ Г(и)\- = И £ «М^М =
соответственно. Правые части и операторы чадами неточно, поскольку неизвестные ФР обоих популяций Р(х) — !о и = д(и)(!и заменяются их
эмпирическими ФР, построенными по независимым наблюдениям двух сл.в. (например, это времена жизни индивидуумов в стресс- и контрольной группах). Для получения оценок применяются метод регуляризации и метод невязки для выбора параметра регуляризации, позволяющие получить состоятельные оценки неизвестных функций по эмпирическим данным. Функции отношений между рисками смерти (ПР момента смерти) в группе, находящейся под стрессом, и в контрольной группе, не подверженной стрессу, применяются для выявления гормезиса по эмпирическим данным. Оценки рассматриваются для однородной и неоднородной популяций и демонстрируются на модельных данных. В седьмой главе предлагается непараметрическая оценка
функции восстановления (ФВ). При анализе устойчивости, планировании и контроле технических систем таких, как Интернет, гарантийном контроле качества приборов, важно оценивать среднее число наблюдаемых событий до фиксированного момента времени, т.е. ФВ. Обычно подсчитывается число каких-то событий, например, число вызываемых и перемещаемых Web страниц, входящих и выходящих звонков, передаваемых пакетов и ячеек в интервалах времени фиксированной длины. Для оценивания ФВ необходимо иметь несколько реализаций процесса, например, числа звонков в течении нескольких дней. Предлагаемая оценка использует временные промежутки между событиями только одной реализации процесса. Пусть F(i) = IP {r„ < t} - ФР независимых одинаково распределенных временных интервалов между событиями {тп,п — 1,2,...}, причем F(0+) = 0. Процессом восстановления {Nt,t > 0} называется число событий, происшедших до момента времени t, Nt = max{n : tn < t} для моменты наступления
событий. ФВ H(t) выражается как
для t > 0, где F*n обозначает n-кратную свертку Стильтьеса от F. Точные выражения для ФВ получены для немногих распределений, например, равномерного, экспоненциального, Эрланга. Имеются различные методы оценивания ФВ в случае известного распределения временных интервалов между событиями. Если математическое ожидание и дисперсия распределения F существуют, то для больших времен t ФВ H(t) может
быть аппроксимирована выражением
Если а2 = оо, то H(t) = t/p + GF{t) + о(1),
GF(t) = frfi (fy°°(l-F(x))dx)dy> GF(t) - оо при
t —► oo, Sgibnev, (1981). Выражения неприменимы для.малых относительно (х времен t, важных для гарантийного контроля качества приборов. Предлагается оценивать ФВ для малых временных интервалов [0, t] без знания распределения интервалов между событиями (отказами), используя лишь эмпирическую выборку Т1 = {тп,п = 1,2,... ,1} неотрицательных независимых одинаково распределенных временных интервалов между событиями длины 1. Чтобы оценить IE(Nt) заменим ФР Р {t,t < t) на ее несмещенную оценку - эмпирическую ФР
Здесь t*n = Eq2i+n{i-i)r4> i = 1.-.-Л = Ш. п = 1,...,к
наблюдения случайной величины - целая часть числа
r. Предложена следующая оценка ФВ H(t) по выборкам независимых наблюдений времен появления событий
{i},..., ij1 },..., ifc = |ijt) • • • » t*k }:
Заметим, что Я(£,/с) = к, если t > tm&x(k), где tinAX(k) — maxi<n<fc maxi<j<jn tln и к фиксированное число. Оценка
позволяет существенно сократить объем вычислений по сравнению с известной оценкой Frees, (1986),
= (20) использующей U-статистику
в качестве оценки ФР времен наступления событий. Здесь - это сумма по всем ^ ^ ^ различным комбинациям
является несмещенной оценкой F*n(t) с минимальной дисперсией. В предлагаемой оценке используется несмещенная, но более грубая в смысле дисперсии оценка F*n(t). Неточность оценивания компенсируется выбором к по выборке наблюдений и использованием данных больших объемов. Доказывается равномерная сходимость оценки к истинной ФВ для легко- и тяжело-хвостовых распределений времен между событиями. Теорема 8. Пусть {ti,...,7i} последовательность независимых одинаково распределенных случайных величин, ut € [0, tmax(k)]. Предположим, что 1Е\тг\т < оо для т > 1, Шъ — д, шг(т,) = а2, а параметр к удовлетворяет условию
Тогда выполняется
Скорость равномерной сходимости может быть доказана для класса S распределений интервалов между отказами такого, что:
для любого t 6 [О, Т] и некоторого и > 0. Класс S включает, например, экспоненциальное распределение (и следовательно, теорема 9 покрывает пуассоновский процесс) и легко-хвостовое распределение Вейбулла с параметром формы больше 1.
Теорема 9. Если {ti,...,tj} выборка случайных независимых наблюдений с ФР F € S, t € [0,1] и параметр к = с • 1р (с = а,р, /) >
-Г'((1/ + аЫ)/1п(1-ехр(-*/)) + 1) > 0), Q < р <
1/3 — (2/3)а, 0 < а < 1/2, то асимптотическая скорость сходимости оценки Н (i, к) к H(t) задается выражением
JP jw : Jim sup la\H(t) - H{t,k) \ < ca| = 1,
где Cj - константа, независящая от l.
Отсюда для ФВ можно построить доверительный интервал. Следствие 1. В предположениях теоремы 9, по меньшей мере с вероятностью 1 — 1 верны следующие
неравенства:
H{t,k)-D<H(t)<H(t,k) + D, (22)
Интервалы между отказами часто распределены с тяжелыми хвостами. Для этих распределений ]P{tn > i} можно аппроксимировать для небольших t
хвостом стандартного нормального распределения, т.е.
Итп^oosup0<t<^|£^i _ i| = о, если t е (0,^)
для любого выбора последовательности hn оо, когда п оо. Граничные последовательности cn предложены для различных тяжело-хвостовых распределений, см. Mikosch, Nagaev, (1998).
Теорема 10. Если {ti,'...,tJ последовательность одинаково распределенных независимых случайных величин с тяжело-хвостовой ФР F(t), ¿64= (O.inin (£,,,,„(£). и параметр к удовлетворяет (21), то выполняется
Доказывается скорость равномерной сходимости для класса распределений с правильно меняющимися хвостами (2). Медленно меняющаяся функция 1(х) может быть представлена в форме
для некоторого х0 > 0, где с(-) измеримая неотрицательная функция такая, что Игн с(х) = с0 € (0, оо) и е(х)
непрерывная функция,
В теореме 11 предполагается, что с(х) монотонно убивающая или возрастающая функция, а неположительная
функция.
Теорема 11. Пусть {T\,...,Ti} последовательность одинаково распределенных независимых случайных величин, распределенных с правильно меняющимися хвостами, т.е. хвост имеет вид F(x) = i{x)x~a, х > 0, а > 0. Параметр
где c1 - константа, независящая от I
Следствие 2. В предположениях теоремы 11 и при > (1—1пи(1г11)1{а—е*), по меньшей мере с вероятностью 1-й, О < и < 1 верно неравенство (22), где
Теоремы определяют величины к как функции объема выборки 1. На практике важно находить к из данных. Для этого предлагается выбор к по методу бутстрен, что обеспечивает минимум бутстрен-оценки среднеквадратичной ошибки оценивания, а также из графика зависимости оценки ФВ от k, когда выбирается минимальное k, соответствующее интервалу постоянства на графике. Точность оценки (19) сравнивается с оценкой Frees (20) методом Монте Карло для различных распределений. Выбор к из графика наряду с вычислительной простотой обеспечивает меньшие смещение и среднеквадратичную ошибку для больших Т и объемов выборок, чем у бутстреп-метода. Среднеквадратичная ошибка становится меньше, чем у оценки Frees уже
при увеличении: выборки с 30 точек до 100.
Оценки H(t,k,l) и H3n(t) сравниваются по числу операций. Оценка Я3п(<) требует А\ = Q1 операций, а #(£, к, I) -А2 = Sn=i Ш • Тогда, например, при к = 10,1 = 20 получим Л1/Л2 « 9105.
В восьмой главе приводится статистический анализ характеристик движения данных и Интернете по реальным измерениям. Применяются как известные методы проверки распределений на наличие тяжелых хвостов, так и методы, предложенные в диссертации: восстановления ПР, ФВ, высоких квантилей. Обсуждается возможность применения классификаторов к задачам Интернета: классификации http запросов и созданию "умного" браузера (browber), выбирающего по информации о размере страницы, какой образ следует загрузить в зависимости от типичного поведения пользователя.
В заключении сформулированы основные выводы и результаты работы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Рассмотрено оценивание тяжело-хвосювых ПР по выборкам независимых одинаково распределенных величин ограниченного объема.
2. Разработана комбинированная параметрико-непараметрическая оценка для тяжело-хвостовых ПР. При этом основная часть ПР на конечном интервале от нуля до некоторой порядковой статистики оценивается непараметрически, линейной комбинацией базисных функций. Число членов и коэффициенты в разложении оцениваются методом структурной минимизации риска, Вапник, (1984), что дает минимум оценки среднего риска оценивания. Хвостовая часть ПР от некоторой порядковой статистики до бесконечности, оценивается параметрической
моделью типа Парето, где хвостовой индекс - параметр формы хвоста, оценивается методом Хилла. Параметр метода Хилла - число наибольших порядковых статистик, определяется методом бутстрен, что обеспечивает близкую к минимальной среднеквадратичную ошибку оценивания хвостового индекса. Оценка предназначена, прежде всего. для оценивания многомодальных тяжело-хвостовых ПР.
3. Разработаны методы оценивания тяжело-хвостовых ПР при помощи трансформаций. Предложена адаптивная трансформация от Парето-распределенной сл. в. к сл. в. с треугольным распределением, обеспечивающая непрерывную вблизи 1 ПР трансформированной сл.в., удобную для оценивания, для разных типов хвостов и при уклонениях в оценках хвостового индекса. В классе распределений с правильно меняющимися хвостами для адаптивной, логарифмической и агс1ап трансформаций получены ограничения для получения наименьшей интегральной среднеквадратичной ошибки. Для улучшения оценивания хвостовой области ПР ядерными оценками предложены пограничные ядра.
4. Предложено использовать трансформированные ядерные оценки и полиграмму (гистограмму с переменным окном) для построения эмпирических байесовских классификаторов в случае, когда распределения классов тяжело-хвостовые. В качестве характеристики оценки тяжело-хвостовой ПР предлагается эмпирический риск ошибочной классификации эмпирическим байесовским классификатором. Доказывается, что скорость сходимости этого риска к байесовскому риску (минимально возможному) одинакова для полиграммы и ядерной оценки. Для адаптивной и агс1ап трансформаций качество оценок ПР и классификаторов для разных оценок ПР сравнивается
по эмпирическому риску и риску ошибочной классификации, соответственно, методом Монте-Карло.
5. Разработана оценка квантилей высоких порядков для распределений с тяжелыми хвостами, более точная, чем известные методы: РОТ- метод и оценка Вайссмана. Доказана асимптотическая нормальность логарифма отношения этой оценки (и оценки Вайссмана) к истинной квантили.
6: Предложен и исследован метод бутстреп для оценивания параметра оценки хвостового индекса, предложенной в Баууёоу, Раи1ашка8, Ка6кашка8, (2000), по конечным выборкам. Установлено рекурентное свойство оценки для анализа тяжело-хвостовых наблюдений в реальном времени.
7. Трансформационный подход распространен на оценивание функции интенсивностей отказов для тяжело-хвостовых распределений. Это позволяет свести оценивание к случаю финитных распределений. Предложены оценки функции интенсивностей отказов для финитных распределений методом стохастической регуляризации Тихонова из интегральных уравнений. Доказываются теоретические свойства регуляризованных оценок: равномерная сходимость, скорость сходимости в пространстве L2 в случае ограниченного изменения к-ой производной функции риска смерти. Получены оценки функций отношения рисков смерти и ПР продолжительностей жизни в двух популяциях как решения интегральных уравнений с неточно заданной правой частью и оператором методом регуляризации. Оценки применяются для выявления эффекта гормезиса в популяции.
8. Разработана непараметрическая оценка функции восстановления для ограниченных временных интервалов [0, ^ по независимым наблюдениям временных промежутков
между событиями с неизвестной ПР. Доказывается равномерная сходимость оценки почти наверное к истинной ФВ для легко- и тяжело-хвостовых распределений временных промежутков между событиями. Для распределений с экспоненциальными и с правильно меняющимися хвостами доказана скорость равномерной сходимости. Новая оценка позволяет значительно сократить объем вычислений по сравнению с известной оценкой Фриза, и добиться лучшего среднеквадратичного отклонения за счет незначительного увеличения объема выборки. Предложен выбор параметра предлагаемой оценки по конечным выборкам методом бутстрен и из графика зависимости предлагаемой оценки ФВ от этого параметра. 9. Предложенные в диссертации оценки применены к анализу реальных данных измерений в Интернете. Список основных опубликованных работ по теме диссертации
1. Маркович. Н.М. (1989). Экспериментальный анализ непараметрических оценок плотности вероятности и методов их сглаживания. Автоматика и телемеханика. 7, с. 110-119;
2. Вапник, В.Н., Маркович, Н.М., Стефанюк, А.Р. (1992). О скорости сходимости в Ы проекционной оценки плотности вероятности. Автоматика и телемеханика, 5, с.64-74.
3. Маркович, Н.М., Михальский, А.И. (1995). Оценки показателей здоровья по данным выявленной заболеваемости. Автоматика и телемеханика 7, с. 151-161.
4. Маркович, Н.М. (1998). Регуляризация некоторых линейных интегральных уравнений популяционного анализа. Автоматика и телемеханика 3, с. 139-155.
5. Маркович, Н.М., Михальский, А.И., Моргенштерн, В. (1998). Оценивание эпидемиологических показателей заболеваемости по косвенным данным. Автоматика и
о
телемеханика 6, с. 153-162.
6. Маркович, Н.М. (2000). Выявление эффекта гормезиса по эмпирическим данным как некорректно поставленная задача. Автоматика и телемеханика. 1, с.133-143.
7. Маркович, Н.М. (2002). Трансформированные оценки плотностей распределения с тяжелыми хвостами и классификация. Автоматика и телемеханика. 4, с.109-123.
8. Маркович, Н.М. (2002). Оценивание квантилей высоких порядков для распределений с тяжелыми хвостами. Автоматика и телемеханика. 8, с.63-79.
9. Krieger, U.R., Markovitch, N.M., Vicari N. (2001). Analysis of World Wide Web traffic by nonparametric estimation techniques. In K. Guto et al., eds., Performance and QoS of Next Generation Networking, Springer, London, pp. 67-83.
10. Markovitch, N.M., Krieger U.R. (2000). Nonparametric estimation of long-tailed density functions and its application to the analysis of World Wide Web traffic. Performance Evaluation, 42(2-3), pp. 205-222.
11. Markovich, N.M., Krieger, U.R. (2001). Retransformed heavy-tailed density estimates and classification problem. IF.А С Workshop Preprints Adaptation and Learning in Control and Signal Processing, Cernobbio-Como (Italy), 29,30,31 August, pp. 187-192.
12. Markovitch, N.M., Krieger, U.R. (2001). The estimation of heavy-tailed probability density functions and their mixtures. In: J.Moreira de Souza et al., eds., Teletraffic engineering in the Internet Era, Teletraffic Science and Engineering, vol.4, Elsevier, Amsterdam, pp. 1113-1126.
13. Markovitch N.M., Krieger, U.R.. (2002). Estimating Basic Characterestics of Arrival Processes in Telecommunication Network by Empirical Data. Telecommunication Systems. 20:1,2, pp. 11-31.
14. Markovitch, N.M. and Krieger, U.R. (2002). The estimation of heavy-tailed probability density functions, their mixtures and quantiles. Computer Networks, Vol. 40, Issue 3, pp. 459-47-1.
15. Maiboroda R.E., Markovich N.M. (2004). Estimation of heavy-tailed probability density function with application to Web data. Computational Statistics, 4.
16. Markovich N.M. (1995). Mathematical Concepts, In the book: Morgenstern, W., Ivanov, V.K., Michalski, A.I., Tsyb, A.F., Schettler, G., eds., Mathematical modelling with Chernobyl Registry Data, Springer, Heidelberg, pp. 65-110.
17. Markovich, N.M., Morgenstern, W., Michalski, A.I. (199G). Semi-Markov identification based on the small samples approach. In Proceedings of the 1996 10th European Simulation Multiconference (Budapest, Hungary, June 2-G), pp. 791-795.
18. Markovitch, N.M., Krieger, U.R. (1999). Estimating Basic: Characteristics of Arrival Processes in Advanced Packet-Switched Networks by Empirical Data, in: Proceedings of First IEEE/Popov Workshop on Internet Technologies and Services, October 25-28 Moscow, Russia, pp. 70-78.
19. Markovitch, N.M. (1999). Nonparametric estimation of probability density: the restoration of heavy-tailed distribution. Proceedings of the International Conference on Control Problems, Moscow, June 29 - July 2, vol.2, pp. 66-67.
20. Markovitch, N.M. (1999). Nonparametric probability density and hazard rate estimation by the regularization method.Proceedings of the 10th INFORMS Applied Probability Conference University, Ulm, July 26-28, p. 228.
21. Markovitch, N.M., Krieger, U.R. (2000). Estimation Of The Renewal Function: A Bayesian Approach, hi Proceedings ECUMN 2000, Colrnar, October, pp. 293-300.
22. Markovitch, N.M., Krieger, U.R. (2000). Nonparametric estimation of long-tailed density functions and its application
to the analysis of World Wide Web traffic. In Proceedings of the Workshop Mathematical Modelling in Finance and Telecommunication, Nagu/Nauvo, Finland,18-22 August,p. 11.
23. Markovitch, N.M. (2000). Nonparametric estimation of long-tailed distribution density function. In Proceedings of the International Conference System Identification and Control л Problems, SICPRO'2000, Moscow, Russia, 26-28 September, [t p.48.
24. Маркович, Н.М. (2001). Об одной оценке функции восстановления по эмпирическим данным. Тезисы докладов Всероссийской научной конференции, Екатеринбург, 26 февраля-2 марта, с.45-46.
25. Markovich, N.M. (2001). Nonparametric estimation of a heavy-tailed probability density function. In Proceedings of International Symposium Extreme Value Analysis Theory and Practice, Leuven, August, p.54.
26. Markovitch, N.M. (2002). High quantile estimation for heavy-tailed distributions. In Proceedings of the International Gnedenko Conference, Kyiv, June 3-7, p.73.
27. Markovitch, N.M. (2002). Measurements analysis in the case of heavy-tailed distributions. Proceeding of International Symposium "Managing and analyzing data streams: towards unifying approaches from mathematical statistics and computer science' 13-15 June, Marburg Germany, pp.37-38.
28. Markovitch, N.M., Krieger, U.R. (2002). Statistical characterization of mobile user behavior and its application to resource management in next generation networks. In Proceedings of (ha MASCOTS Workshop on Design and Performance Evaluation of 3G Internet Technologies 2002, Fort Worth, Texas, October, pp.23-40. '
29. Markovitch N.M. (2003). Estimation principles of heavy-
tailed distribution density function. In Proceedings of the II 4*
International Conference "System Identification and Control Problems"SICPRO '2003. Moscow, Russia, 29-31 January, pp.2122-2124.
30. Markovitch N,M- (2003). Retransformed nonparametric density estimators with reduced bias. Proceedings of the International Summer Seminar Stochastic Dynamical Systems, May 30- June 7, Sudac, Crimea, Ukraine, p.54.
31. Markovitch N.M. (2003). Accuracy of retransformed kernel estimators for heavy-tailed densities. Proceedings of the International Conference Kolmogorov and Contemporary Mathematics, June, Moscow, p.494.
32. Markovitch N.M., U.R.Krieger. (2003). On-Lino Estimation of Heavy-Tailed Traffic Characteristics in Web Data Mining. In Proceedings of 18th International Teletraffic Congress, Berlin, Germany, 31 August - 5 September, vol. 5a, pp.571-580.
33. Markovich N.M. (2003). Estimation of heavy-tailed densities by a transformation. Proceedings of the Barcelona Conference on Asymptotic Statistics, 2-6 September, Barcelona, Bellaterra, pp.35-36.
34. Markovich N.M. (2004). Nonparametric renewal function estimation and smoothing by empirical' data. Preprint Forschungsinstitut fur mathematik ETH, Zurich.
Заказ 72. Тир. 100. ИПУ.
»16745
Оглавление автор диссертации — доктора физико-математических наук Маркович, Наталья Михайловна
Введение
1 Принципы оценивания плотности.
1.1 Основные определения.
1.2 Схемы и принципы оценивания плотности.
1.3 Оценки финитных и легко-хвостовых плотностей.
1.4 Оценки тяжело-хвостовых плотностей.
1.4.1 Трансформированные оценки.
1.4.2 Ядерные оценки с переменной шириной окна.
1.4.3 Комбинированные оценки
1.5 Методы оценивания хвостового индекса.
2 Оценивание плотностей с тяжелыми хвостами.
2.1 Комбинированные параметрико-непараметрические оценки.
2.1.1 Описание оценки.
2.1.2 Оценивание хвостового индекса методом бутстреп.
2.1.3 Непараметрическое оценивание плотности методом структурной минимизации риска.
2.1.4 Примеры оценивания смесей плотностей.
2.2 Оценки, основанные на фиксированном трансформировании.
2.2.1 Описание оценок.
2.2.2 Исследование оценок методом Монте-Карло.
2.3 Оценки, основанные на адаптивном трансформировании.
2.3.1 Введение.
2.3.2 Алгоритм оценивания ПР с помощью адаптивной трансформации
2.3.3 Анализ алгоритма.
2.4 Точность трансформированных ядерных оценок плотностей распределения с тяжелыми хвостами.
2.4.1 Введение.
2.4.2 MISE трансформированных ядерных оценок.
2.4.3 Пограничные ядра.
2.5 Выводы и замечания.
3 Применение оценок тяжело-хвостовых плотностей для классификации.
3.1 Риск классификатора и качество оценивания ПР.j^j. • • • •
3.2 Скорость сходимости оценки риска классификации L(t]eb) к байесовскому риску L(r¡B).
3.3 Моделирование.
3.3.1 Исследование качества оценок ПР.
3.3.2 Исследование качества классификатора
Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Маркович, Наталья Михайловна
4.2 Результаты моделирования.98
4.3 Распределения для оценок квантилей высоких порядков.99
4.4 Приложение .100
4.5 Выводы и замечания .103
5 Непараметрическое оценивание хвостового индекса (on-line оценивание). 105
5.1 Введение.105
5.2 Оценивание хвостового индекса.106
5.3 Оценивание в режиме on-line.108
5.3.1 Метод бутстреп для оценивания га.109
5.3.2 Применение к смоделированным данным.110
6 Непараметрическое оценивание функции интенсивности отказов. 114
6.1 Интенсивность отказов для распределений с тяжелыми хвостами. . . . 114
6.2 Интенсивность отказов для распределений с компактным носителем. . 116
6.2.1 Введение.117
6.2.2 Оценивание риска смерти из определения.118
6.2.3 Оценивание риска смерти из уравнения со специальным видом ядра.123
6.2.4 Приложение.125
6.3 Оценивание отношения функций интенсивностей отказов в двух популяциях. Применение к задаче выявления гормезиса в популяции.133
6.3.1 Введение.133
6.3.2 Оценивание функции отношения рисков смерти как некорректно поставленная задача.135
6.3.3 Численное решение интегральных уравнений по эмпирическим данным.138
6.3.4 Методы выбора параметра сглаживания.139
6.3.5 Примеры.140
6.3.6 Заключение.143
7 Непараметрическое оценивание функции восстановления. 145
7.1 Введение.145
7.2 Гистограммная оценка функции восстановления .148
7.2.1 Сходимость гистограммной оценки функции восстановления . . 149
7.2.2 Выбор к методом бутстреп.152
7.2.3 Визуальный выбор к.155
7.3 Экспериментальное исследование.155
7.4 Выводы и замечания.159
7.5 Приложение .159
8 Статистический анализ реальных данных измерений в Интернете. 170
8.0.1 Описание процесса передачи данных в Интернете.170
8.0.2 Проверка данных на тяжелые хвосты.171
8.0.3 Результаты анализа \¥еЬ-характеристик.173
8.0.4 Результаты анализа с помощью комбинированной оценки ПР. . . 174 8.0.5 Результаты анализа с помощью трансформированных оценок ПР. 175
8.1 Оценка высоких квантилей.186
8.2 Оценка функции восстановления.187
8.3 Применение классификации в Интернете.187
Заключение 191
Литература
193
Список иллюстраций
1.1 Оценка Хилла для 15 реализаций распределений Вейбулла (слева), Парето (середина) и Фреше (справа), все с параметром а = 0.5. Объем выборки п — 1000. 42
2.1 Оценивание смешанной ПР распределений гамма и Бурр комбинированной оценкой. 56
2.2 Оценивание смешанной ПР распределений гамма и Парето комбинированной оценкой. 57
2.3 Оценивание смешанной ПР двух гамма распределений комбинированной оценкой. 57
2.4 ПР трансформированной сл.в., генерируемые трансформацией (2.16). . 58
2.5 Ядерная оценка для различных значений параметра сглаживания h для распределения Фреше. 78
2.6 Ядерная оценка с ядром Епанечникова вблизи 1 при различном параметре сглаживания h: hi < 1 — T7(X(n)), h2 = 1 — T7(X(n)),
ДЗ > 1 - T7(X(n)), T7(X(n)) = 0.8. 79
2.7 (Слева) основная часть и (справа) хвостовая область оценки ПР Фреше (Frechet). 79
3.1 Выбор штрафных функций. 85
3.2 Jc(9eb) • Ю3 на [0, оо) для оценок PI, Plf, Ке, Kef: (слева) пара ПР Pareto(l)-Pareto(3) и (справа) пара ПР Frechet(l)-Frechet(2).89
3.3 Jc(gEB) • Ю3 для пары ПР Pareto(2)-Frechet(0.3) для оценок PI, Plf,
Ке, Kef: (слева) на [0, оо) и (справа) на [6, оо). 89
5.1 График {(m,l/zm — 1)} для распределения Парето с 7 = 1, истинное значение 7 показано пунктирной линией. Размеры выборок п = {150,500,1000}.108
5.2 Результаты моделирования оценки 7 для ПР Парето с 7 = 1 и различными с по 500 выборкам с п наблюдениями. Относительное смещение и квадратный корень из среднеквадратичного отклонения для оценки EVI 7 (первые два графика слева). Среднее и стандартное уклонение параметра т (последние два графика справа).112
5.3 Результаты моделирования оценки 7 для ПР Фреше с 7 = 0.3 и различными с по 500 выборкам с п наблюдениями. Относительное смещение и квадратный корень из среднеквадратичного отклонения для оценки EVI 7 (первые два графика слева). Среднее и стандартное уклонение параметра m (последние два графика справа).112
5.4 Результаты моделирования оценки 7 для ПР Вейбулла с 7 = 0.5 и различными с по 500 выборкам с п наблюдениями. Относительное смещение и квадратный корень из среднеквадратичного отклонения для оценки EVI 7 (первые два графика слева). Среднее и стандартное уклонение параметра m (последние два графика справа).113
6.1 Интенсивность отказов (hazard rate) для распределений: Ж экспоненциального, нормального, Коши и Вейбулла с параметром s = 0.3.115
6.2 Модельные риски смерти (вверху) и соответствующие плотности распределения (внизу) в стресс- и контрольной группах для разных стрессов. Кривая 1 - контрольная группа, кривые 2-4 - стресс-группа при дозах 0.5; 2.5 и 4.2.142
6.3 Модельное отношение r(x,m) = ^д™) в зависимости от дозы стресса: слева - во время стресса для фиксированного возраста х — 7; справа -после стресса для фиксированного возраста х = 12.143
6.4 Кривые 1 и 2 - оценки ßs{x/z) для неоднородностей z = {1.25; 1.5}, •fy рассчитанных по формуле (6.39); кривые 3 и 4 - сгенерированный и модельный риск смерти fxs(x) в стресс-группе под стрессом m = 2.5. . 144
6.5 Кривые 1-3 - оцененное, сгенерированное и модельное отношение рисков смерти г(х) = для стресс-группы под стрессом m = 2.5. . . 144
7.1 Зависимость оценки гистограммного типа ФВ от к для распределения Вейбулла.155
7.2 Зависимость оценки гистограммного типа ФВ от к для распределения Вейбулла(в = 3) (вверху) и для распределения Гамма(в = 0.55, А = 1) (внизу) и соответствующие ФВ. к выбирается методом бутстреп (графики "Bootstrap к") и из графика (графики "Plot к"). Величины ФВ ("Weibull rf", "Gamma rf") взяты из таблиц работы Baxter, Мсф; Conalogue, Scheuer, Blischke, (1982). 156
7.3 Оценивание функции восстановления для распределения Вейбулла: зависимость оценки (7.4) от времени t при к = 1,3,5,8 и к, вычисленном методом бутстреп.160
7.4 Оценивание функции восстановления для распределения Парето: зависимость оценки (7.4) от времени t при к — 1,3,5,8 и Л;, вычисленном методом бутстреп.161
7.5 Оценивание функции восстановления для экспоненциального распределения: зависимость оценки (7.4) от времени t при k = 1,3,5,8 и к, вычисленном методом бутстреп.162
8.1 Графики функции е(и) для некоторых распределений. Для тяжело-хвостовых распределений типично, что е(и) стремится к бесконечности. Линейный график е(и) указывает на распределение Парето.176
8.2 График зависимости функции среднего превышения от уровня и для продолжительности подсессий (d.s.s.).177
8.3 График зависимости функции среднего превышения от уровня и для размера подсессий (s.s.s.).177
8.4 График зависимости Rn(p) от п при различных значениях р для продолжительности подсессий (d.s.s.).178
8.5 График зависимости Rn(p) от п при различных значениях р для размера подсессий (s.s.s.).178
8.6 Хилл-график для продолжительности подсессий (d.s.s.).179
8.7 Хилл-график для размеров подсессий (s.s.s.).179
8.8 QQ-графики для продолжительности подсессий (d.s.s.). Слева: экспоненциальные квантили и квантили GPD против порядковых статистик выборки d.s.s. Справа: эмпирические ФР сл.в. Ui = F(Xi). В качестве предполагаемых моделей для распределения d.s.s. F используются экспоненциальное, Парето, Вейбулла, логнормальное, нормальное распределения. График эмпирической ФР в случае экспоненциальных F и Xi близок к линейному.180
8.9 QQ-графики для продолжительности подсессий (s.s.s.). Слева: экспоненциальные квантили и квантили GPD против порядковых статистик выборки s.s.s. Справа: эмпирические ФР сл.в. Ui = F(Xi). В качестве предполагаемых моделей для распределения s.s.s. F используются экспоненциальное, Парето, Вейбулла, логнормальное, нормальное распределения. График эмпирической ФР в случае экспоненциальных F и Х{ близок к линейному.181
8.10 Оценивание ПР размеров подсессий (sub-session size) комбинированной оценкой.182
8.11 Оценивание ПР продолжительности подсессий (duration of sub-sessions) комбинированной оценкой.182
8.12 Оценивание ПР размера ответа (response size) комбинированной оценкой. 182
8.13 Оценивание ПР временных интервалов между ответами (inter-response time) комбинированной оценкой.183
8.14 Оценивание ПР размеров подсессий (s.s.s.) трансформированной ядерной оценкой (Ке) с параметрами h и hl и адаптивной трансформацией Т^(х) и полиграммой (PI).183
8.15 Оценивание ПР продолжительностей подсессий (d.s.s.) трансформированной ядерной оценкой (Ке) с параметрами h и hi и адаптивной трансформацией Ту(х) и полиграммой (Р1).184
8.16 Оценивание ПР временных промежутков между ответами (i.r.t.) трансформированной ядерной оценкой (Ке) с параметрами h и hi и адаптивной трансформацией Т7(а;) и полиграммой (Р1).185
8.17 Оценивание ПР размеров ответов (s.г.) трансформированной ядерной оценкой (Ке) с параметрами h и hi и адаптивной трансформацией Т^х) и полиграммой (Р1).186
8.18 Оценивание функции восстановления для времени между ответами, i.r.t.: зависимость оценки (7.4) от времени t при к = 1,3,5,8 и к, вычисленном из графика к — plot для каждого t.187
8.19 Оценивание функции восстановления для продолжительностей подсессий, d.s.s.: зависимость оценки (7.4) от времени t при к — 1,3,5,8 и к, вычисленном из графика к — plot для каждого t.188
Список таблиц
2.1 Сравнение методов оценивания для распределения гамма.62
2.2 Сравнение методов оценивания для логнормального распределения. . . 62
2.3 Сравнение методов оценивания для распределения Вейбулла.63
3.1 Качество оценок ПР.87
3.2 Качество классификатора.90
4.1 Точность оценивания квантилей.104
5.1 Доверительные интервалы для бутстреп-оценок 7 для различных тяжело-хвостовых распределений и различных с по 500 выборкам с п = 1000 наблюдений каждое.111
7.1 Качество оценки (7.4): Gamma (s = 2, А = 1, Er = 2), объем выборки
1 = 50.166
7.2 Качество оценки (7.4): Ехр (Л = 1, IEr = 1), объем выборки I = 50 . 167
7.3 Часть I: Gamma (s = 0.55, Л = 1, Er = 0.55) .168
7.4 Часть II: Gamma (s = 0.55, Л = 1, Er = 0.55) .168
7.5 Часть I: Weibull (s = 3, Er = 0.89) .169
7.6 Часть II: Weibull (s = 3, Er = 0.89) .169
8.1 Моделирование Web-traffic.171
8.2 Описание данных.171
8.3 Функция среднего превышения для некоторых распределений.172
8.4 Параметры комбинированной оценки.174
8.5 Векторы оптимальных коэффициентов.174
8.6 Параметры трансформированных оценок, полученных с помощью адаптивной трансформации.175
8.7 Высокие квантили для данных Web-traffic.187
Введение
Актуальность проблемы.
В последние годы возрос интерес к задачам прогноза рисков от экстремальных явлений. Измерения в Интернете (продолжительности сессий, длины передаваемых по Интернету файлов и др.), размеры страховок при катастрофах, наблюдаемые очень низкие или высокие температуры, уровень воды в реках при наводнениях, сильные ветры, концентрации редких полезных ископаемых, концентрации озона в атмосфере, разброс размеров пылевых частиц у комет могут быть описаны с помощью тяжело-хвостовых распределений.
К тяжело-хвостовым распределениям могут быть отнесены те распределения, хвост которых убывает на бесконечности медленнее, чем экспоненциальный хвост. Такие распределения могут не иметь конечного второго или даже первого моментов, и это, в частности, определяет специфику их исследования.
Например, центральная предельная теорема о сходимости распределения сумм независимых одинаково распределенных случайных величин (сл.в.) к нормальному распределению выполняется для огромного числа распределений: все, что нам нужно - это конечность дисперсии для слагаемых суммы. Если же эта дисперсия бесконечна, то в качестве предельных распределений для нормированных сумм мы получаем так называемые устойчивые распределения, Levy, (1925); Khintchine, Levy, (1936); Гнеденко, (1939). Условие Крамера о существовании производящей функции моментов не выполняется для тяжело-хвостовых распределений. Поэтому многие результаты теории больших уклонений, требующие выполнения этого условия (например, теорема Крамера о сходимости хвоста распределения суммы конечного числа независимых случайных величин к хвосту нормального распределения), нарушаются. В отсутствии 2-го момента изменяется линейная аппроксимация функции восстановления для больших времен наблюдения.
В статистическом рассмотрении, анализ характеристик случайных величин, распределение которых описывается тяжело-хвостовыми моделями, также требует специальных, отличных от классических, статистических методов. Например, гистограммы хорошо оценивают легко-хвостовые (без тяжелых хвостов) плотности распределения вероятностей (ПР), но на тяжело-хвостовых ПР и для конечных выборок дают результаты, вводящие в заблуждение: переглаживают ПР или показывают пики в хвостовой части ПР. Этот эффект наблюдается и для других непараметрических оценок таких, как ядерные, проекционные, сплайн оценки Ченцов, (1972); Silverman, (1986); Деврой и Дьерфи, (1985). Оценивание высоких квантилей для тяжело-хвостовых распределений не может быть проведено с помощью эмпирических функций распределения или взвешенных эмпирических квантильных оценок, использующих порядковые статистики выборки, как это обычно делается.
Игнорирование тяжело-хвостовости в данных, использование легко-хвостовых моделей могут привести к серьезным искажениям в оценивании и ошибкам в управлении системами.
Цель работы - разработка статистических методов анализа характеристик сл.в., распределенных с тяжелыми хвостами, по выборкам независимых одинаково распределенных сл.в. ограниченного объема.
Задача восстановления ПР по эмпирическим данным является центральной в математической статистике. ПР используется как для описания генеральной совокупности, так и для решения задач классификации, разладки, оценивания различных функционалов, как например, интенсивности отказов и многих других. Обычно в литературе предлагаются модели хвоста распределения, которые используются для построения оценок высоких квантилей, вероятностей и среднего числа превышения случайной величиной некоторого высокого уровня -характеристик, необходимых для оценки риска потерь от редких событий. Для этого используются параметрические модели, основанные на асимптотических моделях поведения максимума выборки, или "почти параметрические" (с точностью до функций со специально заданными свойствами) модели распределений, параметры которых (хвостовые индексы, "tail index") оцениваются по выборкам непараметрическими методами. На практике же (например, в задаче классификации или при оценивании математического ожидания) часто необходимо иметь оценку ПР в целом, т.е. хвостовой и основной части ПР. Параметрические модели хвоста для получения таких оценок не подходят.
Необходимость различного сглаживания в разных областях тяжело-хвостовых ПР привела к использованию ядерных оценок с переменной шириной окна Abramson, (1982); Hall, (1992); Silverman, (1986). Однако эти оценки непригодны, по-крайней мере для ядер с ограниченным носителем, для оценивания хвостовой части ПР, где наблюдения отсутствуют.
Поэтому актуальны развиваемые в работе подходы к оцениванию тяжело-хвостовых ПР с использованием предварительного преобразования (трансформации) данных и параметрико-непараметрического раздельного оценивания хвостовой и основной части ПР. Оба подхода нацелены на хорошее оценивание хвостовой и основной частей ПР.
В диссертации предлагается трансформировать данные к ограниченному интервалу (к выборке с более удобной для оценивания ПР), оценить ПР непараметрическим методом по трансформированным данным и растянуть эту оценку обратным преобразованием. Полученные оценки с фиксированными параметрами сглаживания работают как локально-адаптивные оценки. Этот естественный подход часто реализуется при использовании логарифмического преобразования. Однако преобразования, независящие от исходного распределения, как логарифмическое, могут привести к разрывным ПР трансформированных сл.в., трудным для оценивания.
В диссертации много внимания уделяется предложению трансформаций и оценок ПР для трансформированных сл.в. таких, чтобы обеспечить наименьшую интегральную среднеквадратичную ошибку оценивания и правильный порядок убывания оценки ПР в хвостовой области.
Другая рассматриваемая идея - смешанное параметрико-непараметрическое оценивание, когда хвост ПР оценивается параметрической моделью, а основная часть ПР - какой-то непараметрической оценкой. Похожая идея реализована в оценках Barron, Györfi & van der Meulen, (1992), где параметрическая модель хвоста "накладывается" на гистограммную оценку основной части ПР. Оценки чувствительны к выбору параметрической модели хвоста и плохо оценивают основную часть ПР для выборок ограниченного объема. Между тем на практике часто встречаются многомодальные тяжело-хвостовые распределения. Поэтому актуально предложение комбинированных оценок, нацеленных на хорошее восстановление одновременно многомодальной основной части и хвоста ПР. Необходимость непараметрических оценок ПР с правильным поведением в хвостовой области очевидна. Это особенно важно, если сравниваются ПР нескольких классов. При использовании эмпирического байесовского классификатора наблюдения классифицируются путем сравнения оценок ПР каждого класса. Так как наблюдение может появиться как в области хвоста, так и в основной части ПР, точность оценивания на хвостах принципиальна для классификации. Известно много методов классификации, использующих оценки ПР, Silverman, (1986); Айвазян, (1989). Для тяжело-хвостовых наблюдений актуально рассмотреть процедуру, позволяющую усилить влияние редких наблюдений в хвостовой области на качество классификатора и, тем самым, предотвратить, возможно большие потери от маловероятных событий.
Оценки квантилей высоких порядков (т.е., например, 99, 99.9-процентных квантилей) для тяжело-хвостовых распределений применяются для определения значений характеристик наблюдаемых объектов, приводящих к редким, но возможно большим потерям, при установке порогов изменения параметров технических систем. Высокие квантили обычно располагаются на границе или за пределами выборки. Ввиду отсутствия наблюдений за пределами разброса выборки использование эмпирической функции распределения или взвешенных оценок, использующих порядковые статистики выборки, для оценивания таких квантилей невозможно. Оценивание высоких квантилей основано на выборе предварительной квантили внутри разброса выборки (порога) и затем экстраполяции ее к некоторому значению за пределами выборки. Для этого, как правило, используются асимптотические модели поведения хвостов распределения, основанные на асимптотическом распределении максимума выборки. Недостатком оценок высоких квантилей является их чувствительность к выбору порога и модели хвоста. Актуально предложение новых более точных оценок высоких квантилей.
Хвостовой индекс - другая характеристика, важная для анализа тяжело-хвостовых данных. С помощью него можно определить наличие в данных тяжелых хвостов, а также количество конечных моментов. Наконец, все оценки характеристик тяжелохвостовых сл.в. так или иначе базируются на оценке хвостового индекса. Известно много оценок хвостового индекса: оценка Хилла; момент-оценки, Dekkers, Einmahl, de Haan, (1989); UH-оценки, Berlinet, (1998); ядерные оценки, Csörgö, Deheuvels, Mason, (1985); оценка отношения, Goldie, (1987). Однако эти оценки не обладают свойством рекурсивности, важным для организации вычислений в режиме реального времени (on-line).
В диссертации исследуется оценка хвостового индекса, предложенная в Davy-dov, Paulauskas, Rackauskas, (2000), которая использует независимые отношения вторых наибольших порядковых статистик к наибольшим порядковым статистикам в подгруппах наблюдений и обладает свойством рекурсивности. Выбор параметра метода - числа наблюдений в подгруппах выборки, по выборкам ограниченных объемов, авторами не исследовался. Это было реализовано в диссертации. При решении задач популяционного анализа, связанных с выяснением причин наступления каких-то событий в популяции (например, заболеваемости, смертности), важную роль играет функция риска смерти. При исследовании надежности технических систем эта функция называется интенсивностью отказов. При оценивании этой функции по независимым экспериментальным данным часто применяется какая-либо параметрическая модель. Однако описать данные достаточно точно с ее помощью, привлекая в качестве параметров те или иные влияющие факторы бывает трудно. Параметрический подход проблематичен и при анализе популяционных процессов средствами полумарковских моделей, когда интенсивность наступления событий интерпретируется как интенсивность перехода из одного состояния в другое [3, 5, 17]. Следует учесть, что поведение интенсивности отказов на правом конце действительной оси разнится в зависимости от класса распределения: для финитных и легко-хвостовых распределений интенсивность отказов стремится к оо при х оо, для экспоненциального распределения эта функция постоянна, а для тяжело-хвостовых распределений она стремится к 0 при х —> оо. Это вызывает проблемы для непосредственного применения непараметрических методов при оценивании этой функции: предварительного оценивания ПР и функции распределения (ФР); ядерных оценок или оценок гистограммного типа, Prakasa Rao, (1983); метода регуляризации, Stephaniuk, (1992).
Для тяжело-хвостовых распределений можно провести предварительное преобразование выборки к конечному интервалу и оценивать интенсивности наступления событий, соответствующие финитным распределениям, непараметрическими методами. Это сделано в диссертации.
При анализе устойчивости технических систем, гарантийном контроле качества приборов, часто необходимо оценить функцию восстановления (ФВ), которая показывает среднее число появлений события (например, отказа прибора) за фиксированный интервал времени. Обычно измеряется число наступлений событий в интервале времени фиксированной длины, например, число звонков в фиксированное время в течение нескольких дней. В этом случае для оценивания ФВ необходимо иметь несколько реализаций процесса. В диссертации оценивание ФВ проводится по наблюдаемым временным промежуткам между событиями только одной реализации процесса, что важно при гарантийном контроле качества или, если многократное наблюдение процесса требует больших затрат. В аналитическом виде ФВ получена лишь для немногих распределений. Имеется много работ по численному восстановлению ФВ в случае, когда распределение временных интервалов между событиями известно. Так как предварительное оценивание ФР затруднительно особенно, когда распределение имеет тяжелые хвосты, актуально предложение методов непосредственного оценивания ФВ. Работы по этому направлению крайне немногочисленны, Frees, (1986а), (1986b); Grübel, Pitts, (1993); Schneider, Lin & O'Cinneide, (1990). Оценка Фриза требует большого объема вычислений уже при выборках объема 20-30 точек. Важно предложение непараметрических оценок ФВ, обеспечивающих хорошую точность оценивания при небольшом количестве вычислений и позволяющих вести расчеты для достаточно больших выборок. Это сделано в диссертации.
Общая характеристика диссертации.
Цели работы:
1. Разработать более точные непараметрические и параметрико-непараметрические методы оценивания тяжело-хвостовых ПР.
2. Применить полученные оценки ПР для задачи классификации.
3. Получить и исследовать оценки для квантилей высоких порядков тяжелохвостовых распределений.
4. Предложить выбор параметра для оценки хвостового индекса, предложенной в Davydov, Рагйаизкав, Наскаивкав, (2000).
5. Получить и исследовать непараметрические оценки функции интенсивности отказов (риска смерти в популяции).
6. Разработать непараметрический метод оценивания функции восстановления с хорошей точностью оценивания при небольшом количестве вычислений.
7. Продемонстрировать работу полученных методов на модельных и реальных данных.
Общая методика исследований базируется на результатах теории вероятностей, математической статистики, теории экстремальных величин, теории решения некорректных задач. Для исследования точности методов применяются как результаты теоретических исследований, так и моделирование на ЭВМ.
Научная новизна работы заключается в том, что:
1. Предложен параметрико-непараметрический метод оценивания тяжелохвостовых ПР, в котором основная часть ПР оценивается конечным разложением по базисным функциям, а хвостовая часть - параметрической моделью типа Парето.
2. Разработаны и исследованы методы восстановления тяжело-хвостовых ПР при помощи трансформаций данных, позволяющие сохранить порядок убывания хвоста истинной ПР и имеющие наименьшие интегральные среднеквадратичные ошибки.
3. Рассмотрено использование предложенных оценок ПР в задаче классификации.
4. Предложена и исследована новая оценка для квантилей высоких порядков в предположении, что хвост распределения типа Парето. Доказано, что распределение логарифма отношения предлагаемой оценки (и оценки Вайссмана, Weissman, (1978)) к истинной квантили асимптотически нормально.
5. Для оценки хвостового индекса, предложенной в Davydov, Paulauskas, Rackauskas, (2000), предложен и исследован бутстреп-метод для оценки параметра метода. Показана рекурсивность оценки для расчетов в реальном времени.
6. Рассмотрено оценивание интенсивности отказов для распределений с тяжелыми хвостами. Используя трансформации данных к ограниченному интервалу, предлагается свести оценивание к оцениванию интенсивности отказов (риска смерти) для финитной ПР.
7. Для финитных ПР предложены оценки функции риска смерти из двух интегральных уравнений с разными ядрами и правыми частями методом стохастической регуляризации. При определенном выборе параметра регуляризации доказана сходимость оценок в С, а также скорость сходимости в Z/2 в случае ограниченного изменения к-ой производной функции риска смерти.
8. Получены оценки функций отношения рисков смерти и ПР продолжительности жизни в двух популяциях для финитных ПР как решение интегральных уравнений с неточно заданными правыми частями и операторами методом регуляризации. Оценки применяются для выявления эффекта гормезиса (т.е. "стимулирующего эффекта малых доз каких-либо веществ, которые в больших дозах вредны" British medical dictionary, (1961)) в популяции по эмпирическим данным.
9. Разработана непараметрическая оценка функции восстановления для ограниченных временных интервалов [0, t] по независимым наблюдениям временных промежутков между событиями с неизвестной ПР, требующая меньшего объема вычислений по сравнению с известными оценками ФВ. Доказана равномерная сходимость оценки почти наверное к истинной ФВ для легко- и тяжело-хвостовых распределений временных промежутков между событиями. Для распределений с экспоненциальными и правильно меняющимися хвостами доказана скорость равномерной сходимости.
Предложен выбор параметра оценки по выборке методом бутстреп и из графика зависимости оценки ФВ от этого параметра.
Практическая ценность работы определяется
1.) созданием новой методологии оценивания тяжело-хвостовых ПР по выборкам ограниченного объема, работоспособность которой продемонстрирована для задач классификации в Интернете, на многочисленных примерах имитационного моделирования и на реальных данных измерений в Интернете;
2.) созданием непараметрической оценки для квантилей высоких порядков, которая может быть применена, например, для контроля риска потерь от сужения области определения наблюдаемых случайных параметров в технических системах (например, в Интернете) до конечного интервала;
3.) созданием точного и экономичного в смысле вычислений метода оценивания ФВ, который может быть применен для контроля загрузки телефонных сетей, Интернета, гарантийного контроля качества приборов;
4.) выработкой рекомендаций по практическому определению параметров для одной оценки хвостового индекса, являющегося базовой характеристикой при анализе данных, распределенных с тяжелыми хвостами;
5.) выработкой практических рекомендаций по оцениванию интенсивностей наступления событий в популяционных системах, позволяющих выявлять влияние различных факторов на них;
6.) выработкой рекомендаций по статистическому анализу данных, распределенных с тяжелыми хвостами.
Апробация работы. Основные результаты работы доложены на 24 международных конференциях:
• International Heart Health Conference Barcelona (Catalonia-Spain) May-June 1995;
• 10th European Simulation Multiconference Budapest, Hungary, June 2-6, 1996;
• 3rd International Conference on Applied Informatics Eger-Noszvaj, Hungary, August 25-28,1997;
• Conference Inverse and ill-posed problems Moscow University, June 16-17, 1998;
• Workshop Heavy tails and queues, Eurandom, the Netherlands, April 1999;
• International Conferences on Control Problems Moscow,SICPRO'1999, 2000, 2003;
• 10th INFORMS Applied Probability Conference University of Ulm, July 26-28, 1999;
• First International IEEE/Popov Workshop on Internet Technologies and Services. October 25-28, 1999, Moscow;
• на Всероссийской научной конференции "Алгоритмический анализ неустойчивых задач" Екатеринбург, 26.02-2.03.2000;
• Workshop IP Netzplanung, IP Netzmanagement und Optimierung. 20.-21. Juli 2000, Universität Würzburg (Германия);
• Workshop Mathematical Modelling in Finance and Telecommunication Nagu/Nauvo,Finland, 18-22 August 2000;
• ECUMN 2000, Colmar, October, 2000;
• International Symposium Extreme Value Analysis Theory and Practice Leuven, August, 2001;
• IFAC Workshop Preprints Adaptation and Learning in Control and Signal Processing Cernobbio-Como (Italy), 29,30,31 August 2001;
• First Teletraffic congress, Brazil, Salvador, December 2001;
• International Gnedenko Conference, Kyiv June 2002;
• International Symposium Managing and analyzing data streams: towards unifying approaches from mathematical statistics and computer science 13-15 June 2002, Marburg, Germany;
• MASCOTS Workshop on Design and Performance Evaluation of 3G Internet Technologies 2002, Fort Worth, Texas, October 2002;
• Seminar Stochastic Dynamical Systems, Sudac, Crimea, Ukraine, 2003;
• Колмогоров и современная математика, МГУ, июнь, 2003;
• Teletraffic congress, Berlin, 2003;
• Conference on Asymptotic Statistics, Barcelona, Bellaterra, 2003, а также на семинарах
• в Институте проблем передачи информации РАН (1991),
• Max Planck Institute, Rostock, Germany (1997),
• Московском Государственном Университете им.M.B.Ломоносова (1998,2001, 2004),
• Munich Technical University (1998, 1999),
• Frankfurt Goethe University (1998-2003),
• Международном Институте Eurandom, Eindhoven, Нидерланды (1999),
• Lund University (Sweden) (2000),
• Würzburg University (Germany) (2000),
• Brunei University, London (2002),
• Weierstrass-Institute, Berlin (2003)
• ENTS, Paris (2004),
• ETH, Zürich (2004).
Публикации. Результаты работы представлены в 40 публикациях. Структура диссертации. Диссертация состоит из введения, восьми глав,
Заключение диссертация на тему "Методы оценивания характеристик тяжело-хвостовых случайных величин по конечным выборкам"
Основные результаты и выводы настоящей работы можно сформулировать следующим образом.
1. Рассмотрено два подхода к оцениванию тяжело-хвостовых плотностей по выборкам независимых одинаково распределенных случайных величин ограниченного объема: параметрико-непараметрическое раздельное оценивание хвостовой и основной части плотности и с использованием предварительного преобразования (трансформации) данных.
2. Разработана комбинированная параметрико-непараметрическая оценка для тяжело-хвостовых ПР. При этом основная часть ПР на конечном интервале от нуля до некоторой порядковой статистики оценивается непараметрически, линейной комбинацией базисных функций. Число членов и коэффициенты в разложении оцениваются методом структурной минимизации риска, Вапник, (1984), что дает минимум оценки среднего риска оценивания. Хвостовая часть ПР от некоторой порядковой статистики до бесконечности оценивается параметрической моделью типа Парето, где хвостовой индекс - параметр формы хвоста, оценивается методом Хилла. Параметр метода Хилла - число наибольших порядковых статистик, определяется методом бутстреп, что дает близкую к минимальной среднеквадратичную ошибку оценивания хвостового индекса. Оценка предназначена для оценивания многомодальных тяжелохвостовых ПР.
3. Разработаны методы оценивания тяжело-хвостовых ПР при помощи трансформаций. Предложена адаптивная трансформация от Парето-распределенной сл.в. к сл.в. с треугольным распределением, обеспечивающая непрерывную вблизи 1 ПР трансформированной сл.в., удобную для оценивания, для разных типов хвостов и при уклонениях в оценках хвостового индекса. В классе распределений с правильно меняющимися хвостами для адаптивной, логарифмической и аг^ап трансформаций получены ограничения для получения наименьшей интегральной среднеквадратичной ошибки. Для улучшения оценивания хвостовой области ПР ядерными оценками предложены пограничные ядра.
4. Трансформированные ядерные оценки и полиграмма (гистограмма с переменным окном) используются для построения эмпирических байесовских классификаторов, когда распределения классов тяжело-хвостовые. В качестве характеристики оценки тяжело-хвостовой ПР предлагается эмпирический риск ошибочной классификации эмпирическим байесовским классификатором. Доказывается скорость сходимости этого риска к байесовскому риску (минимально возможному) для полиграммы и ядерной оценки. Для адаптивной и ап^ап трансформаций качество оценок ПР и классификаторов для разных оценок ПР сравнивается по эмпирическому риску и риску ошибочной классификации, соответственно, методом Монте-Карло.
5. Разработана оценка квантилей высоких порядков для распределений с тяжелыми хвостами, более точная по сравнению с известными методами: РОТ- методом и оценкой Вайссмана. Доказана асимптотическая нормальность логарифма отношения этой оценки (и оценки Вайссмана) к истинной квантили.
6. Предложен и исследован метод бутстреп для оценивания параметра оценки хвостового индекса, предложенной в работе Оауус1оу, РаикиБкаэ, Яабкаизказ, (2000), по конечным выборкам. Установлено рекурентное свойство оценки, важное для анализа тяжело-хвостовых наблюдений в реальном времени.
7. Трансформационный подход распространен на оценивание функции интенсивностей отказов в случае тяжело-хвостовых распределений. Это позволяет свести оценивание к случаю финитных распределений. Предложены оценки функции интенсивностей отказов для финитных распределений методом стохастической регуляризации Тихонова из интегральных уравнений. Доказываются теоретические свойства регуляризованных оценок: равномерная сходимость, скорость сходимости в пространстве Ь2 в случае ограниченного изменения к-ой производной функции риска смерти. Получена оценка функции отношения рисков смерти в двух популяциях как решение интегрального уравнения с неточно заданной правой частью и оператором методом регуляризации. Оценка применяется для выявления эффекта гормезиса в популяции по эмпирическим данным.
8. Разработана непараметрическая оценка функции восстановления для ограниченных временных интервалов [0, ¿] по независимым наблюдениям временных промежутков между событиями с неизвестной ПР. Доказывается равномерная сходимость оценки почти наверное к истинной ФВ для легко- и тяжело-хвостовых распределений временных промежутков между событиями. Для распределений с экспоненциальными, а также правильно меняющимися хвостами доказана скорость равномерной сходимости. Новая оценка позволяет значительно сократить объем вычислений по сравнению с известной оценкой Фриза, и добиться лучшего среднеквадратичного отклонения за счет незначительного увеличения объема выборки и выбора сглаживающего параметра. Предложен выбор параметра предлагаемой оценки по конечным выборкам методом бутстреп и из графика зависимости предлагаемой оценки ФВ от этого параметра.
9. Предложенные в диссертации методы обработки информации применены к анализу реальных измерений в Интернете - продолжительностей и размеров сессий и страниц. Обсуждается применение построенных классификаторов для повышения эффективности управления Интернетом путем создания "умного"браузера и классификации Ьир-запросов.
Заключение
Библиография Маркович, Наталья Михайловна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Айвазян, С.А., Бухштабер, В.М., Енюков, И.С., Мешалкин Л.Д. (1989). Прикладная статистика: классификация и снижение размерности. М.: Финансы и статистика. 607 с.
2. Айду, Ф.А., Вапник, В.Н. (1989). Оценивание плотности вероятностей на основе метода стохастической регуляризации. Автоматика и телемеханика. 4, с.84-97.
3. Бернштейн, С.Н. (1934). Теория вероятности. ГТТИ, Москва, Ленинград.
4. Болынев, Л.Н., Смирнов, Н.В. (1965). Таблицы математической статистики. Наука.
5. Вапник, В.Н., Стефанюк, А.Р. (1978). Непараметрические методы восстановления плотности вероятностей. Автоматика и телемеханика. 8. с.38-52.
6. Вапник, В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука. 1979. 448 с.
7. Алгоритмы и программы восстановления зависимостей/под ред. Вапник В.Н. М.: Наука, 1984.
8. Вапник, В.Н. Индуктивные принципы поиска эмпирических закономерностей. Распознавание. Классификация. Прогноз. М.: Наука, 1988а. с.16-76.
9. Вапник, В.Н. (1988). Принципы оценивания плотности распределения вероятностей. Дополнение к книге Деврой и Дьерфи, с.362-396.
10. Вапник, В.Н., Маркович, Н.М., Стефанюк, А.Р. (1992). О скорости сходимости в ¿2 проекционной оценки плотности вероятности. Автоматика и телемеханика, 5, с.64-74.
11. Гнеденко, Б.В. (1939). К теории областей притяжения устойчивых законов. Ученые записки МГУ. Математика, кн.З. Т.ЗО, с.61-81.
12. Дэйвид, Г. (1979). Порядковые статистики. М.: Наука, 336 с.
13. Деврой, JL, Дьерфи, JL (1988). Непараметрическое оценивание плотности. L\-подход. М.: Мир, 408 с.
14. Дубов, И.Р. (1998). Формирование наблюдений и аппроксимация функции плотности распределения непрерывной случайной величины. Автоматика и телемеханика. 4, с.84-93.
15. Иванов, В.К., Васин, В.В., Танана, В.П. (1978). Теория линейных некорректных задач и ее приложения. М.: Наука, 206 с.
16. Кириллов, A.A., Гвишиани, А.Д. (1979). Теоремы и задачи функционального анализа. М.Наука.
17. Маркович, Н.М. (1989). Экспериментальный анализ непараметрических оценок плотности вероятности и методов их сглаживания. Автоматика и телемеханика. 7, с.110-119.
18. Маркович, Н.М. (1991). Непараметрическое оценивание плотности распределения вероятности методом стохастической регуляризации. Кандидатская диссертация.
19. Маркович, Н.М., Михальский, А.И. (1995). Оценки показателей здоровья по данным выявленной заболеваемости. Автоматика и телемеханика 7, с. 151161.
20. Маркович, Н.М. (1998). Регуляризация некоторых линейных интегральных уравнений популяционного анализа. Автоматика и телемеханика 3, с. 139155.
21. Маркович, Н.М., Михальский, А.И., Моргенштерн, В. (1998). Оценивание эпидемиологических показателей заболеваемости по косвенным данным. Автоматика и телемеханика 6, с. 153-162.
22. Маркович, Н.М. (2000). Выявление эффекта гормезиса по эмпирическим данным как некорректно поставленная задача. Автоматика и телемеханика. 1, с.133-143.
23. Маркович, Н.М. (2001). Об одной оценке функции восстановления по эмпирическим данным. Тезисы докладов Всероссийской научной конференции, Екатеринбург, 26 февраля-2 марта, с.45-46.
24. Маркович, Н.М. (2002а). Трансформированные оценки плотностей распределения с тяжелыми хвостами и классификация. Автоматика и телемеханика. 4, с.109-123.
25. Маркович, Н.М. (2002b). Оценивание квантилей высоких порядков для распределений с тяжелыми хвостами. Автоматика и телемеханика. 8, с.63-79.
26. Маркович, Н.М. (2004). Точность трансформированных ядерных оценок плотностей распределения с тяжелыми хвостами. Автоматика и телемеханика, (в печати).
27. Морозов, В.А. (1968). О принципе невязки при решении операторных уравнений методом регуляризации. Журн.вычисл. математики и мат.физики. Т.8, 2. с. 295-309.
28. Надарая, Э.А. (1965). О непараметрических оценках плотности вероятности и регрессии. Теория вероятностей и ее примен. Т.10. Вып.1. с.199-203.
29. Стефанюк, А.Р. (1979). О скорости сходимости одного класса оценок плотности вероятности. Автоматика и телемеханика. 11, с.187-192.
30. Стефанюк, А.Р. (1986). Об оценивании отношения правдоподобия. Статистические проблемы управления. Вып.83. Вильнюс: ИМК АН Лит.ССР. с.127-131.
31. Стефанюк, А.Р. (1986). Оценка функции отношения правдоподобия в задаче о "разладке"случайного процесса. Автоматика и телемеханика. 9, с. 53-59.
32. Стефанюк, А.Р., Карандеев, Д.А. (1996). Выбор параметров настройки алгоритма при восстановлении функции плотности вероятности по эмпирическим данным. Автоматика и телемеханика. 10, с.95-111.
33. Стратонович, P.JI. (1969). Быстрота сходимости алгоритмов оценки плотности распределения вероятностей. Изв.АН СССР, сер.техн.киберн. 6(1), с.3-15.
34. Танана, В.П. (1981). Методы решения операторных уравнений. М.: Наука.
35. Тарасенко, Ф.П. (1976). Непараметрическая статистика. Томск. Изд-во. ТГУ, 294 с.
36. Тихонов, А.Н., Арсенин, В.Я. (1974). Методы решения некорректных задач. М.: Наука, 288 с.
37. Туманян, С.Х. (1955). О максимальном уклонении эмпирической плотности распределения. Научные труды Ереванского гос.университета, том.48, вып.2.
38. Фихтенгольц, Г.М. (1966). Курс дифференциального и интегрального исчисления. М. Наука.
39. Ченцов, H.H. (1972). Статистические решающие правила и оптимальные выводы. М.: Наука, 520 с.
40. Хасьминский, Р.З. (1978). О границе снизу рисков непараметрических оценок плотности в равнепараметрическихномерной метрике. Теория вероятностей и ее примен. Т.23. Вып.4. с.824-828.
41. Ширяев, А.Н. (1980). Вероятность. М.: Наука, 576 с.
42. Abramson, I.S. (1982). On bandwidth estimation in kernel estimators A square root law. Ann. Statist., 10, 1217-1223.
43. Asmussen, S. (1996). Renewal Theory and Queueing Algorithms for Matrix-Exponential Distributions, in: Matrix-Analytic Methods in Stochastic Models, S.R. Chakravarthy and A.A. Alfa, eds., New York, 313-341.
44. Athreya, K.B., Ney, P.E. (1972). Branching Processes. Springer-Verlag, Berlin.
45. Barron, A.R., Györfi, L., van der Meulen, E. (1992). Distribution estimation consistent in total variation and in two types of information divergence. IEEE Trans.Inform Theory, 38, 1437-1454.
46. Barron,A.R., Chyong-Hwa Sheu. (1991). Approximation of density functions by sequences of exponential families. Annals of statistics, 19, 3, 1317-1369.
47. Baxter, L.A., McConalogue, D.J., Scheuer, E.M., Blischke, W.R., 1982. On the Tabulation of the Renewal Function. Technometrics, 24, 2, 640-648.
48. Berlinet, A., Vajda, I., van der Meulen, E.C. About the asymptotic accuracy of Barron density estimates. IEEE Trans. Inf. Theory, 1998. N44. pp.999-1009.
49. Bickel, P.J., Sakov, A. (2002). Equality of Types for the Distribution of the Maximum for Two Values of n Implies Extreme Value Type. Extremes 5:1, 45-53.
50. Bolotin, V.A., Levy, Y., Liu, D. (1999). Characterizing data connection and messages by mixtures of distributions on logarithmic scale. In P. Key and D. Smith, eds., Teletraffic Engineering in a Competitive World, Vol. 3b, 887-896, Elsevier, Amsterdam.
51. British medical dictionary. (1961). Caxton Publ.Co.
52. Breiman, L. (1965). On some limit theorems similar to the arc-sin law. Theory of Probability and its Applications. 10, 323-331.
53. Breiman, L., Meisel, W., Purcell, E. (1977). Variable kernel estimates of multivariate densities. Technometrics, 19, 135-144.
54. Bowman, A.W. (1982). A comparative study of some kernel-based nonparametric density estimators. Manchester-Sheffield School of Probability and Statistics, Research Report No.84/AWBll.
55. Caers, J., Van Dyck, J. (1999). Nonparametric tail estimation using a double bootstrap method. Computational Statistics & Data Analysis, 29, 191-211.
56. Chaudhry, M.L. (1995). On Computations of the Mean and Variance of the Number of Renewals: a Unified Approach. Journal of the Operational Research Society, 46, 1352-1364.
57. Chistyakov, V.P. (1964). A theorem on sums of independent positive random variables and its applications to branching random processes. Theory Probab. Appl., 9, 640-648.
58. Chow, Y.-S., Geman, S., L.-D.Wu. (1983). Consistent cross-validated density estimation. Annals of Statistics, 11, 25-38.
59. Cox, D.R. and Dakes, D. (1984). Analysis of Survival Data. Chapman and Hall.
60. Csorgo, S., Deheuvels, P., &; Mason, D. (1985). Kernel estimates for the tail index of a distribution. Annals of Statistics. 13, 1050-1077.
61. Danielsson, J., de Haan, L., Peng, L. and de Vries, C. (1997). Using a bootstrap method to choose the sample fraction in tail index estimation. Technical report TI 97-016/4, Tinbergen Institute, Rotterdam.
62. Davydov, Yu., Paulauskas, V., Rackauskas, A. (2000). More on P-stable convex sets in Banach spaces. J.Theoret. Probab., 13, no.l, 39-64.
63. Dekkers, A.L.M., de Haan, L. (1989). On the estimation of the extreme-value index and large quantile estimation. Annals of Statistics 17(4), 1795-1832.
64. Dekkers, A.L.M., Einmahl, J.H.J., de Haan, L. (1989). A moment estiamtor for the index of an extreme-value distribution. Annals of Statistics 17, 1833-1855.
65. Delignul, Z.S. (1985). An approximate solution of the integral equation of renewal theory. J. Appl. Prob., 22, 926-931.
66. Devroye, L. (1986). A universial lower bound for the kernel estimate. Technical Report, School of Computer Science, McGill Univ.
67. Devroye, L. (1988). Asymptotic performance bounds for the kernel estimate. The Annals of Statistics, Vol.16. 3, 1162-1179.
68. Dielman T., Lowry C., Pfaffenberger R. (1994). A comparison of quantile estimators. Commun. Statist.-Simula. 23(2), 355-371.
69. Dietrich, D., de Haan, L., Husler, J. (2002). Testing Extreme Value Conditions. Extremes 5:1, 71-85.
70. Drees, H., Kaufmann, E. (1998). Selecting the optimal sample fraction in univariate extreme value estimation. Stochastic Processes and their Applications 75, 149-172.
71. Efron, B. and Tibshirani, R.J. (1993). An Introduction to the Bootstrap. Chapman & Hall, New York.
72. Embrechts, P., Goldie, C.M., Veraverbeke, N. (1979). Subexponentiality and infinite divisibility. Probability Theory and Related Fields 49, 335-347.
73. Embrechts, P., Klüppelberg, C., Mikosch, T. (1997). Modelling Extremal Events for Finance and Insurance. Springer, Berlin.
74. Engl, H.W., Gfrerer, H. (1988). A posteriori parameter choice for general regulariza-tion methods for solving linear ill-posed problems. Appl.Numer.Math. V. 4. 395-417.
75. Feinendegen L.E., Bond V.P., Booz J. and Muhlensiepen H. (1988). Biochemical and cellular mechanisms of low-dose effects. International Journal of Radiation Biology and Related Studies in Physics, Chemistry and Medicine. V.53(l), 23 -37.
76. Feller, W. (1941). On the integral equation of renewal theory. Ann. Math. Statist. 12, 243-267.
77. Feller, W. (1966). An Introduction to Probability Theory and Its Applications, Vol. 2. John Wiley, New York.
78. Ferreira, A., de Haan, L., Peng, L. (2000). Adaptive estimators for the endpoint and high quantiles of a probability distribution. Eurandom: Research Report No. 99-042.
79. Fisher, R.A. Theory of statistical estimation. (1925). Proc. Cambridge Phil.Soc. 700725.
80. Frees, E.W., (1986a). Warranty Analysis and Renewal Function Estimation. Nav. Res. Logist. Quart., 33, 361-372.
81. Frees, E.W., (1986b). Nonparametric renewal function estimation. Ann. Statist. 14, 1366-1378.
82. Gnedenko, B.V.(1943). Sur la Distribution Limite du Terme Maximum d'une Série Aléatoire. Annals of Mathematics 44, 423-453.
83. Gnedenko, B.W., Kowalenko, I.N. (1971). Einführung in die Bedienungstheorie. Oldenbourg Verlag, München.
84. Gomes, M.I., Oliveira, O. (2000). The bootstrap methodology for statistical extremes Choice of the optimal sample fraction. Notas e Comunica3yes, 04/2000, University of Lisbon.
85. Goldie, C.M., Klüppelberg, C. (1998). Subexponential distributions, in: A Practical Guide to Heavy Tails: Statistical Techniques for Analysing Heavy Tailed Distributions, R. Adler, R. Feldman and M.S. Taqqu, eds., Birkhäuser, Boston, 435-459.
86. Goldie, C.M., Smith, R.L. (1987). Slow variation with remainder: theory and applications. Quart. J.Math. Oxford. 38, 45-71.
87. Grama, I., Spokoiny, V. (2003). Pareto approximation of the tail by local exponential modeling. Weierstrass-Institute, Preprint, No. 819, Berlin.
88. Grübel, R., Pitts, S.M., (1993). Nonparametric estimation in renewal theory 1: the empirical renewal function. Ann. Statist. 21, 3, 1431-1451.
89. Györfi, L., Liese, F., Vajda, I. and van der Meulen, E.C. (1998). Distribution estimates consistent in x2-divergence, Statistics 32, 31-57.
90. Haan, L., de (1994). Extreme value statistics. In: Galambos et al. (Eds.) Extreme Value Theory and Applications, 93-122.
91. Hall, P. (1983a). Large-sample optimality of least squares cross-validation in density estimation. Ann.Statist., 11, 1156-1174.
92. Hall, P. (1983b). Asymptotic theory of minimum integrated square error for multivariate density estimation. Proceedings of the Sixth Intern. Symposium on Multivariate Analysis, Pittsburg.
93. Hall, P., Marron, J.S. (1988). Variable window width kernel estimates of probability densities. Probab. Theory Rel.Fields, 80, 1, 37-49.
94. Hall, P. (1990). Using the Bootstrap to Estimate Mean Squared Error and Select Smoothing Parameter in Nonparametric Problems. Journal of Multivariate Analysis, 32, 177-203.
95. Hall, P. (1992). On global properties of variable bandwidth density estimators. Annals of Statistics, 20, 2, 762-778.
96. Hall, P., Weissman, I. On the estimation of exreme tail probabilities. Annals of Statistics, 1997, 25(3), 1311-1326.
97. Häusler, E., &; Teugels, J. (1985). On the asymptotic normality of Hill's estimate for the exponent of regular variation .Annals of Statistics 13, 743-756.
98. Hall, P., & Welsh, A.H. (1985). Adaptive estimates of parameters regular variation. Annals of Statistics 13, 331-341.
99. Hill, B.M. (1975). A simple general approach to inference about the tail of a distribution. Ann. Statist., 3, 1163-1174.
100. Horväth, A., Telek, M. (2000). Approximating heavy tailed behaviour with Phase type distributions. In Proc. Matrix-Analytic Methods in Stochastic Models, July.
101. JureÊkovâ, J., Picek, J. (2001). A class of tests on the tail index. Extremes. 4, 165-183.
102. Krieger, U.R., Markovitch, N.M., Vicari N. (2001). Analysis of World Wide Web traffic by nonparametric estimation techniques. In K. Guto et al., eds., Performance and QoS of Next Generation Networking, 67-83, Springer, London.
103. Khazaeli, A.A., Tatar, M., Pletcher, S.D., and Curtsinger J.W. (1997). Heat-Induced Longevity Extension in Drosophila. I. Heat Treatment, Mortality, and Thermotol-erance. Journal of Gerontology: Biological Sciences. Vol.52A. No.l. B48-B52.
104. Khintchine, A., Levy, P. (1936). Sur les lois stables. Comptes rendus Acad. Sei. Paris Vol.202, No.5, 374-376.
105. Knuth, D.E. (1973). The art of computer programming. 3, Addisow Wesley Publishing Company, London.
106. Koo, J.-Y., Kim, W.-C. (1996). Wavelet density estimation by approximation of log-densities. Statistics and Probability Letters. 26. 271-278.
107. Kooperberg, C., Stone, C.J., Truong Y.K. (1994). Hazard regression. Technical Report No. 389, May 1, University of California, Berkeley.
108. Ks, V., Vajda, I. (1996). A comparative study of nonparametric density estimates. Res. rep. 1892, Inst, of Inform. Theory, Czech Acad.ScL, Prague.
109. Leslie, J. (1989). On the non-closure under convolution of the class of subexponential distributions. Journal of Applied Probability 26, 58-66.
110. Levy, P. (1925). Calcul des probabilités. Paris: Ganthier - Villars.
111. Luckey T.D. (1980). Hormesis with Ionizing Radiation, CRC Press, Boca Raton, FL.
112. Maiboroda R.E., Markovich N.M. (2004). Estimation of heavy-tailed probability density function with application to Web data. Computational Statistics, 4.
113. Markovich N.M. (1995). Mathematical Concepts, In the book: Morgenstern, W., Ivanov, V.K., Michalski, A.I., Tsyb, A.F., Schettler, G., eds., Mathematical modelling with Chernobyl Registry Data, Springer, Heidelberg.
114. Markovich, N.M., Michalski, A.I., Morgenstern, W. (1995). Estimation of cardiovascular morbidity in risk groups, Proceedings of 2nd International Heart Health Conference, Barcelona, Catalonia, Spain, May-June.
115. Markovich, N.M., Morgenstern, W., Michalski, A.I. (1996). Semi-Markov identification based on the small samples approach. In Proceedings of the 199610th European Simulation Multiconference (Budapest, Hungary, June 2-6), 791-795.
116. Markovich, N.M., Morgenstern, W., Michalski, A.I. (1997). Nonparametric estimation of transition rate on empirical data. Proceedings of the 3rd International Conference on Applied Informatics, Eger-Noszvaj, Hungary, August 25-28.
117. Markovitch, N.M. (1998). Nonparametric estimation of the probability density and its functions by regularization method. Proceedings of the Conference Inverse and Ill-posed Problems, Moscow University, June 16-17.
118. Markovitch, N.M. (1999a). Estimation of heavy-tailed probability density and hazard rate functions and their application in teletraffic theory. Proceedings of the Workshop Heavy tails and queues, Eurandom, The Netherlands, April.
119. Markovitch, N.M. (1999b). Nonparametric estimation of probability density: the restoration of heavy-tailed distribution. Proceedings of the International Conference on Control Problems, Moscow, June 29 July 2, vol.2, 66-67.
120. Markovitch, N.M. (1999c). Nonparametric probability density and hazard rate estimation by the regularization method.Proceedings of the 10th INFORMS Applied Probability Conference University, Ulm, July 26-28, 228.
121. Markovitch, N.M., Krieger U.R. (2000a). Nonparametric estimation of long-tailed density functions and its application to the analysis of World Wide Web traffic. Performance Evaluation, 42(2-3), 205-222.
122. Markovitch, N.M., Krieger, U.R. (2000b). Estimation Of The Renewal Function: A Bayesian Approach. In Proceedings ECUMN 2000, Colmar, October, 293-300.
123. Markovitch, N.M. (2000). Nonparametric estimation of long-tailed distribution density function. In Proceedings of the International Conference System Identification and Control Problems, SICPRO'2000, Moscow, Russia, 26-28 September, 48.
124. Markovich, N.M. (2001). Nonparametric estimation of a heavy-tailed probability density function. In Proceedings of International Symposium Extreme Value Analysis Theory and Practice, Leuven, August.
125. Markovich, N.M., Krieger, U.R. (2001a). Retransformed heavy-tailed density estimates and classification problem. IF AC Workshop Preprints "Adaptation and Learning in Control and Signal Processing", Cernobbio-Como (Italy), 29,30,31 August, 187-192.
126. Markovitch N.M., Krieger, U.R. (2002a). Estimating Basic Characterestics of Arrival Processes in Telecommunication Network by Empirical Data. Telecommunication Systems, 20:1,2,11-31.
127. Markovitch, N.M. and Krieger, U.R. (2002b). The estimation of heavy-tailed probability density functions, their mixtures and quantiles. Computer Networks, Vol. 40, Issue 3, 459-474.
128. Markovitch, N.M. (2002a). High quantile estimation for heavy-tailed distributions. In Proceedings of the International Gnedenko Conference, Kyiv, June 3-7, 73.
129. Markovitch N.M. (2003a). Estimation principles of heavy-tailed distribution density function. In Proceedings of the II International Conference "System Identification and Control Problems"SICPRO'2003. Moscow, Russia, 29-31 January, 2122-2124.
130. Markovitch N.M. (2003b). Retransformed nonparametric density estimators with reduced bias. Proceedings of the International Summer Seminar Stochastic Dynamical Systems, May 30- June 7, Sudac, Crimea, Ukraine, 54.
131. Markovitch N.M. (2003c). Accuracy of retransformed kernel estimators for heavy-tailed densities. Proceedings of the International Conference Kolmogorov and Contemporary Mathematics, June, Moscow, 494.
132. Markovitch N.M., U.R.Krieger. (2003). On-Line Estimation of Heavy-Tailed Traffic Characteristics in Web Data Mining. In Proceedings of 18th International Teletraf-fic Congress, Berlin, Germany, 31 August 5 September vol. 5a, 571-580.
133. Markovich N.M. (2003). Estimation of heavy-tailed densities by a transformation. Proceedings of the Barcelona Conference on Asymptotic Statistics, 2-6 September, Barcelona, Bellaterra, 35-36.
134. Markovich, N.M. (2004a). Nonparametric renewal function estimation and smoothing by empirical data. Preprint Forschungsinstitut fur mathematik ETH, Zurich.
135. Markovich, N.M. (2004). Estimation of Heavy-Tailed Densities by a Transformation. SORT, (Submitted).
136. Markovich, N.M., Krieger, U.R. (2004). Nonparametric Estimation of the renewal function by empirical data. Stochastic Models, (Submitted).
137. Mason, D. (1982). Laws of large numbers for sums of extreme values. Annals Probability 10, 754-764.
138. McConalogue, D.J. (1981). Numerical treatment of convolution integrals involving distributions with densities having singularities at the origin. Comm. in Statistics, Series B10, 265-280.
139. McNeil, A.J. (1997). Estimating the tails of loss severity distributions using extreme value theory. Astin Bulletin. 27(1), 117-137.
140. Mikosch, T., Nagaev, A.V. (1998). Large deviations for heavy-tailed sums with applications to insurance. Extremes, 1, 81-110.
141. Mikosch, T. (1999). Regular Variation, Subexponentiality and Their Applications in Probability Theory. Technical Report 99-013, ISSN: 1389-2355, University of Groningen.
142. Mohan, N.R. (1976). Teugels' renewal theorem and stable laws. The Annals of Probability, 4(5), 863-868.
143. Murthy, V.K. (1966). Nonparametric estimation of multivariate densitites with applications. Multivariate Analysis, P.R.Krishnaiah, Ed. New York: Academic, 43-48.
144. Nabe, M., Murata, M., Miyahara, H. (1998). Analysis and modelling of World Wide Web traffic for capacity dimensioning of Internet access lines. Performance Evaluation, 34, 249-271.
145. Naito, K. (2001). On a certain class of nonparametric density estimators with reduced bias, and Probability Letters, 51, 71-78.
146. Novak, S.Y. (1998). Berry-Esseen inequalities for a ratio of sums of random variables. University of Sussex: Research Report No 98/07 SMS/CSSM.
147. Novak, S.Y. (1999). Generalised kernel density estimator. Theory Probab. Appl., 44 (3), 570-583.
148. Novak, S.Y. (2002). Inference on heavy tails from dependent date. Siberian Advances in Mathematics, 12 (2), 73-96.
149. Parzen, E. (1962). On estimation of a probability density function and mode. Ann.Math.Statist., 33, 3, 1065-1076.
150. Paulauskas, V. (2003). A new estimator for tail index. Acta Applicandae Mathe-matica. 79 (1/2) 167-175.
151. Petrov, V.V. (1975). Sums of Independent Random Variables. Springer, New York.
152. Pickands, J. (1975). Statistical inference using extreme order statistics. Annals of Statistics, 3, 119-131.
153. Planel, H. et al. (1966). Essai demonstration experimentale de l'activité biologigue des radiations ionisantes naturalle. Comptes Rendus de L Academie des Sciences. Serie III, Sciences de la Vie. V.262, P.27-67.
154. Polzehl, J., Spokoiny, V. (2002). Local likelihood modeling by adaptive weights smoothing. Weierstrass-Institute, Preprint, No. 181, Berlin.
155. Prakasa Rao, B.L.S. (1983). Nonparametric Functional Estimation. Academic, Orlando, Fla.
156. Reiss, R.-D. (1975). Consistency of a certain class of empirical density functions. Metrika, Vol.22, 4, 189-203.
157. Reiss, R.-D. ( 1989).Approximate distributions of order. Springer.
158. Resnick, S., Stàricà, С. (1999). Smoothing the Moment Estimate of the Extreme Value Parameter. Extremes, 1(3). 263-294.
159. Roppel, C. (1999). Estimating Cell Transfer Delay and Cell Delay Variation in ATM Networks: Measurement Techniques and Results. European Trans, on Telecommunications, 10(1), 13-21.
160. Rosenblatt, M. (1956). Remarks on some nonparametric estimates of a density function. Ann.Math.Statist. V.27, 3, 832-837.
161. Rudemo, M. (1982). Empirical choice of histogram and kernel density estimators. Scandinavian Journal of Statistics 9, 65-78.
162. Sachs, R.K., Hlatky, L., Hahnfeldt, P. and Chen, P.L. (1990). Incorporating doserate effects in Markov radiation cell-survival models. Radiation Research. V.124(2), 216-226.
163. Sagan, L.A. (1987). What is hormesis and why haven't we heard about it before? Health Physics. Vol.52, 5 (May), 521-525.
164. Schneider, H., Lin, B.-S., O'Cinneide, C., (1990). Comparison of Nonparametric Estimators for the Renewal Function. Appl. Statist. 39, 1, 55-61.
165. Schuster, E.F., Gregory, G.G. (1981). On the nonconsistency of maximum likelihood nonparametric density estimators. In: Computer Science and Statistics: Proceedings of 13th Symposium on the Interface. Ed.W.F.Eddy, 295-298, Springer Verlag, New York.
166. Scott, D.W. (1992). Multivariate Density Estimation Theory, Practice and Visualization. N.Y., Wiley.
167. Sigman, K. (1999). Appendix: A primer on heavy-tailed distributions. Queueing Systems 33, 261-275.
168. Silverman, B.W. (1986). Density Estimation for Statistics and Data Analysis, New York: Chapman&Hall.
169. Simonoff, J.S. (1996). Smoothing Methods in Statistics, Springer, New York.
170. Sgibnev, M.S. (1981). Renewal theorem in the case of an infinite variance. Siberian Math. J. 22, 787-796.
171. Stephaniuk, A.R. (1992). The Problem of Nonparametric Estimation of Mortality Risk function. Proceedings of a conference held in Sopron, Hungary, July, 53-67.
172. Teugel, J.L. (1968). Renewal theorems when the first or the second moment is infinite. Ann.Math.Statis. 39, 1210-1219.
173. Vapnik, V.N. (1982). Estimation of Dependences Based on Empirical Data. Springer, New York.
174. Vaupel, J.W., Manton, K.G. and Stallard, E. (1979). The Impact of Heterogeneity in Individual Frailty on the Dynamics of Mortality. Demography. V.16, 439-454.
175. Vicari, N. (1997). Measurement and modelling of WWW-sessions, Technical Report No. 184, Institute of Computer Science, University of Wiirzburg, September.
176. Wahba, G. (1981). Data-Based Optimal Smoothing of Orthogonal Series Density Estimates.Ann.Statist. 9, 146-156.
177. Wand, M.P., Marron, J.S., Ruppert, D. (1991). Transformations in density estimation Journal of American Statistical Association, Theory and Methods 86, 414, 343-353.
178. Weissman, I. (1978). Estimation of parameters and large quantiles based on the k largest observations. Journal of American Statistical Association, 73, 812-815.
179. Xie, M. (1989). On the solution of renewal-type integral equations. Commun. Statist.-Simula., 18, 1, 281-293.
180. Yakovlev, A.Yu., Tsodikov, A.D. and Bass, L. (1993). A stochastic model of horme-sis. Mathematical Biosciences. 116:197-21 9.
181. Yang, L., Marron, J.S. (1999). Iterated transformation-kernel density estimation. Journal of the American Statistical Association. 94(446), 580-589.
182. Yashin, A. I., Andreev, K.F., Khazaeli, A., Curtsinger, J. W. and Vaupel, J. W. (1996). Death-after- stress- data in the analysis of heterogeneous mortality. Proc. of a symposium, i anvendt statistik, Odense University. Jan 22-24, 24-36.
-
Похожие работы
- Идентификация стохастических систем авторегрессионного типа с нелинейностями и бесконечной дисперсией шума
- Математические модели и методы количественного анализа фондовых рынков с высокой волатильностью
- Оценивание параметров нелинейных стохастических динамических систем с дискретным временем
- Экспериментально-теоретическая оценка ресурсоспособности элементов вертолетных конструкций
- Идентификация и классификация процессов авторегрессии со случайными коэффициентами
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность