автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба
Автореферат диссертации по теме "Робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба"
На правах рукописи
СМИРНОВ Павел Олегович
РОБАСТНЫЕ МЕТОДЫ И АЛГОРИТМЫ ОЦЕНИВАНИЯ КОРРЕЛЯЦИОННЫХ ХАРАКТЕРИСТИК ДАННЫХ НА ОСНОВЕ НОВЫХ ВЫСОКОЭФФЕКТИВНЫХ И БЫСТРЫХ РОБАСТНЫХ ОЦЕНОК МАСШТАБА
Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ
АВТОРЕФЕРАТ
диссертации на соискание учёной степени кандидата физико-математических наук
Санкт-Петербург - 2013
- 6 НАР 2014
005545659
Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Санкт-Петербургский государственный политехнический университет».
Научный руководитель:
доктор физико-математических наук, профессор, ШЕВЛЯКОВ Георгий Леонидович
Официальные оппоненты:
НИКИТИН Яков Юрьевич, доктор физико-математических наук, профессор, заведующий кафедрой теории вероятностей и математической статистики ФГБОУ ВПО «Санкт-Петербургский государственный университет»
ПРОУРЗИН Владимир Афанасьевич, кандидат физико-математических наук, старший научный сотрудник лаборатории методов анализа надёжности ФГБУН «Институт проблем машиноведения» Российской академии наук
Ведущая организация:
ФГБУН «Институт проблем управления
им. В.А.Трапезникова» Российской академии
наук
Защита состоится 26 марта 2014 г. в 18 часов на заседании диссертационного совета Д 212.229.13 при ФГБОУ ВПО «Санкт-Петербургский государственный политехнический университет», расположенном по адресу: 195251, Санкт-Петербург, Политехническая ул., д. 29, I уч. корп., ауд. 41.
С диссертацией можно ознакомиться в фундаментальной библиотеке ФГБОУ ВПО «Санкт-Петербургский государственный политехнический университет» по адресу 195251, Санкт-Петербург, Политехническая ул., д. 29. Автореферат диссертации доступен на официальном сайте СПбГПУ (http://www.spbstu.ru/).
Автореферат разослан « » февраля 2014 г.
Ученый секретарь
диссертационного совета Д 212.229.13, доктор технических наук, профессор
Григорьев Борис Семёнович
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследования. При исследовании закона распределения одномерных случайных величин по результатам наблюдений основное внимание уделяется описанию таких двух главных характеристик как его мера положения (некоторое типичное значение) и мера разброса значений вокруг этой центральной точки. Так, широко использующийся нормальный закон распределения случайных величин полностью характеризуется первыми двумя моментами — математическим ожиданием (положением) и дисперсией (масштабом), и для их оценки в классической статистике чаше всего используются выборочные аналоги: среднее арифметическое и среднеквадратичное отклонение.
При наличии нескольких случайных величин или одной многомерной величины встаёт вопрос о взаимосвязи составляющих этой системы. Мерой их линейной зависимости является коэффициент корреляции или, в случае размерности больше двух, корреляционная матрица, которая наряду с математическим ожиданием и дисперсией полностью описывает нормально распределённые случайные величины.
Тем не менее, любые модели лишь приближённо описывают реальные явления, и на практике мы сталкиваемся с различными отклонениями от них. В силу этого, использование классических параметрических моделей распределений для оценивания их параметров не всегда оправдано, может привести к некорректным результатам, и, соответственно, поставить под сомнение обоснованность применения связанных с ними процедур. Возникшая на смену классическим моделям непараметрическая статистика, отказавшись от всяких предположений о конкретном виде закона распределения случайных величин, позволила находить приемлемое решение части задач по сравнению законов распределения и некоторых их производных характеристик. В то же время, полное игнорирование параметрических моделей приводит к большой потере информации о форме распределения.
Компромиссное решение предложила робастная статистика, возникшая в середине XX века. Сам термин «робастный» («грубый, сильный, крепкий») ввёл Дж. Бокс в 1953 году, но систематическое развитие она получила с работы Дж. Тьюки. исследующей модели загрязнения распределений. Полноценный теоретический подход к робастности в статистике был предложен Дж. П. Хьюбером в 1964 году, и получил широкую известность в 1981 году с выходом книги, посвященной минимаксным методам поиска оценок, оптимальных в окрестности предполагаемого распределения. Альтернативный подход через функции влияния был предложен Ф. Хампелем в диссертации в 1968 году и рассмотрен
более подробно в книге 1986 года.
Основная идея робастности — это построение статистических процедур, устойчивых к возможным отклонениям от принятых вероятностных моделей распределений данных. Подходы Хьюбера и Хампеля отличаются различным выбором используемых мер устойчивости рассматриваемых робастных оценок, но, несмотря на эти различия, как правило, «хорошие» робастные оценки в смысле Хьюбера практически близки «хорошим» робаст-ным оценками в смысле Хампеля, а иногда они и совпадают.
В нашей стране теория устойчивых статистических методов также активно развивается, одной из первых вех была вышедшая в 1931 году статья А. Н. Колмогорова «Метод медианы в теории ошибок», подробно рассматривающая преимущества медианы перед средним арифметическим в том случае, если «гипотеза нормального распределения не удовлетворяет фактам». Изучение и дальнейшая разработка вероятностно-статистических методов, их внедрение в научную, инженерную и медицинскую практику было одной из задач, поставленных перед Межфакультетской («колмогоровской») лабораторией статистических методов при кафедре теории вероятностей МГУ. Похожие на хьюберовские оценки параметров многомерных распределений, при которых занижается вклад выдающихся значений на периферии, рассматривал Л. Д. Мешалкин, предложивший в 1970 году экспоненциальное взвешивание наблюдений. Этот подход и связанные с ним результаты развил А. М. Шурыгин, исследуя применимость методов классической статистики и теории вероятностей к решению реальных задач геофизики.
Значительный вклад в теорию робастного (учитывающего фактор неопределённости) управления внёс Я. 3. Цыпкин, с 1956 года и до своей кончины в 1997 году заведующий лабораторией №7 Института автоматики и телемеханики (в настоящее время — лаборатория адаптивных и робастных систем им. Я. 3. Цыпкина Института проблем управления РАН). За цикл работ «Робастность в задачах оценивания, оптимизации и устойчивости» Я. 3. Цыпкин и Б. Т. Поляк были награждены премией А. А. Андронова.
Научная школа непараметрической и робастной статистики была создана в Томске Ф. П. Тарасенко, первоочередное внимание в которой уделялось непараметрическим методам. Характерной особенностью томской группы статистиков является последовательное использование функционального представления статистических процедур, при которой статистики порождаются путем подстановки различных оценок распределений в характеристический функционал рассматриваемой задачи. Много усилий на обобщение и развитие именно робастных статистических процедур направил В. П. Шуленин, в 1993 году
опубликовавший монографию по робастной статистике, и совсем недавно, в 2012 году, выпустивший учебное пособие в трёх томах, посвящённых отдельно достижениям в параметрической, непараметрической и робастной статистике.
Ю. С. Харин в связи с организацией кафедры теории вероятностей и математической статистики был приглашён в Минск, где впоследствии занял пост заведующего новой кафедрой математического моделирования и анализа данных Белорусского государственного университета и директора НИИ прикладных проблем математики и информатики БГУ. Тематика научных интересов основанной им кафедры связана с разработкой математических моделей, методов, алгоритмов и программных средств робастного распознавания и анализа стохастических данных для компьютерных систем защиты информации и информационных технологий.
В связи с развитием теории ошибок измерений, изучения случайных ошибок и грубых промахов, возникших в ходе эксперимента, наиболее полно исследованным оказалось робастное оценивание параметра положения распределений случайных величин. В чуть менее разработанной области робастного оценивания параметра масштаба, а тем более, коэффициента корреляции двух зависимых случайных величин остаётся ещё потенциал для исследования с точки зрения увеличения эффективности алгоритмов оценивания (уменьшения разброса значений вычисленных по выборкам оценок).
Внедрение и практическое использование предлагаемых новых робастных методов оценивания параметра масштаба и корреляционных характеристик данных предполагает разработку программно-алгоритмического комплекса, их реализующего.
Цель работы. Целью настоящей диссертационной работы является разработка комплекса новых методов, алгоритмов и программ робастного оценивания корреляционных характеристик данных, обладающих высокой устойчивостью к загрязнениям данных и другим отклонениям от предполагаемой параметрической модели при сохранении высокой асимптотической эффективности.
Задачи исследования.
1. Изучить различные робастные методы оценивания коэффициента корреляции и корреляционных матриц, включая оценки, основанные на оценках масштаба.
2. Исследовать поведение асимптотического смещения и дисперсии оценок коэффициента корреляции, определённых через оценки масштаба,»на семействе распределений
в независимых компонентах (которое включает в себя двумерное нормальное распределение).
3. Построить оценки максимального правдоподобия для коэффициента корреляции семейства распределений в независимых компонентах.
4. Предложить быструю высокоэффективную оценку параметра масштаба для использования при оценивании коэффициента корреляции и связанных с ним величин.
5. Исследовать применение предложенных оценок параметра масштаба и коэффициента корреляции в других статистических методах (многомерном статистическом анализе, теории временных рядов).
Научная новизна. В диссертационной работе получены и обоснованы следующие новые результаты, выносимые на защиту:
1. Разработаны робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба.
2. Предложено параметрическое семейство новых робастных .и-оценок масштаба с абсолютной асимптотической эффективностью на нормальном распределении от 80 до 95%, максимально возможной пороговой точкой 50% и асимптотически линейным ростом времени работы алгоритма 0(п) при увеличении размера выборки п.
3. Исследовано применение оценок масштаба для оценивания коэффициента корреляции и корреляционных матриц многомерных распределений из класса распределений с независимыми компонентами, и доказана прямо пропорциональная зависимость асимптотического смещения и дисперсии оценки коэффициента корреляции от асимптотической дисперсии используемой оценки масштаба.
4. Получены оценки максимального правдоподобия и Л/-оценки для коэффициента корреляции семейства распределений в независимых компонентах, уравнение правдоподобия выражено через оценочную функцию параметра масштаба, и доказана прямо пропорциональная зависимость асимптотической дисперсии оценки коэффициента корреляции от асимптотической дисперсии используемой оценки масштаба.
5. Предложено теоретическое и практическое обоснование необходимого числа повторений эксперимента 5(1(10(1) в исследованиях оценок методом Монте-Карло.
6. Разработаны алгоритмы и комплекс программ и библиотек функций, реализующих предлагаемые оценки параметров масштаба, корреляции и корреляционных матриц случайных распределений, а также предоставляющих экспериментальную среду для проведения испытаний Монте-Карло.
Теоретическая и практическая значимость. Доказанная зависимость между асимптотическими дисперсиями оценок коэффициента корреляции и параметра масштаба, на которых они основаны, позволяет повышать статистическую эффективность корреляционных алгоритмов оценивания за счет использования более эффективных оценок масштаба.
Полученные робастные, высокоэффективные оценки параметра масштаба, коэффициента корреляции и корреляционных матриц помогают с большей точностью и устойчивостью к помехам и ошибкам измерений проводить статистический анализ данных.
Методология и методы исследования. Для решения поставленных задач использовался аппарат теории алгоритмов, линейной алгебры, вычислительной математики, математического анализа, теории вероятностей, параметрической и робастной математической статистики.
Степень достоверности результатов. Приведённые в диссертации теоретические результаты подтверждаются как аналитическими исследованиями, так и прямым имитационным моделированием Монте-Карло для различных, в том числе и больших, размеров выборок.
Внедрение результатов исследования. Подготовлена к публикации в свободном доступе библиотека функций для широко используемой бесплатной программной среды статистических вычислений и обработки данных R Project, содержащая предложенные в данной работе процедуры оценивания масштаба распределений, коэффициентов корреляции и корреляционных матриц многомерных случайных величин, автоковариационных функций и коэффициентов авторегрессии случайных временных рядов [13].
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на международных конференциях: «International Conference on Robust
Statistics» (Чехия, Прага, 2010 год; Испания, Вальядолид, 2011 год), «International Conference on Computer Data Analysis and Modeling» (Беларусь, Минск, 2010 и 2013 год), «IEEE International Conference on Acoustics, Speech and Signal Processing» (Канада, Ванкувер, 2013 год). По материалам диссертации опубликовано двенадцать печатных работ и одна работа в электронном виде, из них две — в ведущих российских изданиях, включённых в перечень ВАК, и две работы опубликованы в международных профильных реферируемых журналах.
Структура и объем работы. Диссертация состоит из введения, трёх глав и заключения, содержит 157 страниц основного текста, включая 18 рисунков и 15 таблиц. Приложение содержит распечатки программных реализаций основных алгоритмов. В списке литературы 128 наименований.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность диссертационной работы, сформулирована цель и аргументирована научная новизна исследований, показана практическая значимость полученных результатов, представлены выносимые на защиту научные положения.
В первой главе рассмотрена задача оценивания параметра масштаба случайных распределений, введены основные определения, проведён обзор классических и робастных оценок параметра масштаба, методов их построения. Также предложены новые высокоэффективные робастные оценки MQ„ и FQn, изучены их характеристики и проведено имитационное моделирование методом Монте-Карло для потверждения теоретических выводов на практике. Эти оценки анонсированы на международной конференции по робастной статистике [5] и опубликованы в журнале [1] из списка рекомендованных ВАК.
В качестве робастной оценки масштаба случайных распределений обычно используется медиана абсолютных отклонений MAD,,, которая достигает максимального значения пороговой точки и имеет достаточно простой, понятный и быстрый алгоритм вычисления. Основным её недостатком является низкая эффективность (т.е. высокая дисперсия) на нормальном распределении, всего 37% по сравнению с классическим среднеквадратичным отклонением SD„. Рауссеу и Крукс предложили альтернативную оценку с большей эффективностью и такой же высокой пороговой точкой, квартиль абсолютных разностей
Qu, которая из-за своих характеристик приобрела большую известность в современной робастной статистике.
Одним из препятствий к использованию этой оценки является высокая (по сравнению с другими оценками) асимптотическая сложность алгоритма её вычисления. Нахождение порядковой статистики среди примерно п(п — 1)/2 пар элементов выборки в общем случае требует 0(п2) времени и столько же памяти. Несмотря на то, что для случая попарных разностей авторы предложили более эффективный алгоритм, требующий только 0(/i log//) времени и О(п) памяти, на больших выборках разница становится существенной.
В данной работе предлагаются новые оценки, основанные на функции влияния Q„ и наследующие от неё локальные робастные свойства и асимптотическую эффективность.
Определение 1.1. Оценкой M(j„, построенной для выборки (¿i____,.г„) из распределения с плотностью /(.г ), будем называть параметрическое семейство Л/-оценок масштаба, являющихся решением уравнения
и
22хМ-</л/у„) = о. (1.1)
1=1
где оценочная функция \п задаётся формулой
\„(.r) = гп - 2/(.r) - icr'/'M- С„: J \..;.г П.п,/г П. (1.2)
Для нормального распределения с плотностью у (.г) = (2тг)~1'"2 ехр( — У2/2)
\,,W|-о2(.г-1)),г(.г). сп = Ц-(1.3)
■> 1 ¿\/ТТ
в важном частном случае при о ^ 0 выражение принимает вид
\o(.r) = -i=-2y-W- (1.4)
Вычисление оценки М(}„ как решения неявного уравнения (1.1) затруднительно, но возможно применение итеративных схем. В частности, можно ограничиться первой итерацией метода Ньютона, получив, так называемую, одношаговую М-оценку.
Определение 1.2. Оценкой F(}n (Fast Q„), построенной для выборки из нормального распределения, будем называть параметрическое семейство одношаговых Л/-оиенок масштаба, задаваемых формулой
где
1=1
В важном частном случае при о = 0 оценка принимает вид
Теорема 1.1. Пороговая точка оценки М()п для значений а е [0. v/2] задаётся формулой
,> = 12(у/2-1)-а2(2у^-1) (ü-a2)2v/2
достигая максимума с* = 1 — l/v/2 « 0.2929 (т.е. чуть меньше 30%) при а = О и уменьшаясь при увеличении параметра о.
Пороговая точка оценки FQn не зависит от а и составляет 50%.
Теорема 1.2. Оценки MQn и FQn при о е [0, >/2] на нормальном модельном распределении являются В-робастными. Функции влияния оценок ограничены и имеют вид
IF(x; А/У.Ф) = IF(.r; FQ. Ф) = ~ - ^(0 + а^ - 1)) ,(,) ^ g)
.5(4 — а-)
Теорема 1.3. Асимптотическая дисперсия оценок МЦп и FQn на нормальном распределении задаётся формулой
Асимптотическая эффективность при а = 0 составляет 80.8%, возрастая при увеличении а и достигая своего максимума в 95.9% при п = 1.-1028.
Теорема 1.4. Вариант оценки MQ„, построенный исходя из формулы (1.2) для распределения Коши с плотностью /(.г) = (1/ж)/(1 + .г2), является оценкой максимального правдоподобия для данного распределения с максимально возможной асимптотической эффективностью (100%) и пороговой точкой (50%).
Имитационное моделирование методом Монте-Карло подтверждает хорошие характеристики предложенной оценки. В случае отсутствия загрязнения на нормальном распределении FQn и по смещению, и по дисперсии (за исключением очень больших выборок) ведёт себя лучше, чем Qn. Это особенно заметно на малых выборках (п = 20), где смещение сравнимо с лучшим результатом, на порядок превосходя оценку Q„, а дисперсия
становится наименьшей, показывая наилучшую эффективность среди рассматриваемых робастных оценок.
Проведённые измерения времени вычисления оценок показывают преимущество линейных алгоритмов, в том числе и F(j„, над более медленным алгоритмом вычисления оценки Q„, основанной на попарных разностях наблюдений. При размере выборки п = 1000 время работы алгоритма Q„ превышает время вычисления оценки FQn более чем в 9 раз.
На нормальном распределении с 10%-ным загрязнением в модели больших ошибок Тьюки предлагаемая оценка F(}n занимает второе место по смещению после наиболее В-робастной .U-оценки MAD,,, и имеет лучший результат по дисперсии как для малых, так и для больших выборок. При увеличении доли загрязнения оценка Q„ лишь незначительно обходит её по дисперсии. При подмене нормального распределения на распределение Коши, имеющее тяжёлые хвосты, оценка FQn также занимает второе место по смещению после MAD,,, немного уступая Q„ по дисперсии.
В целом, на рассмотренных моделях оценка F(jn имеет хорошие характеристики как при наличии, так и при отсутствии загрязнения. Это позволяет рекомендовать её как
• более быструю альтернативу используемой в последние годы робастной оценке Qn\
• более эффективное уточнение давно известной робастной оценки MAD,,.
Предложенную оценку можно использовать как непосредственно для оценивания масштаба симметричных распределений, так и в качестве базового алгоритма в других статистических процедурах (в задачах регрессии, корреляционного анализа [8], и т.п.).
Во второй главе рассмотрена задача оценивания коэффициента корреляции и корреляционных матриц распределений случайных величин, проведён обзор основных классических и робастных опенок. Отдельно изучен класс распределений в независимых компонентах и для него на базе оценок масштаба построены оценки коэффициента корреляции, изучены их характеристики и проведено имитационное моделирование методом Монте-Карло для потверждения теоретических выводов на практике. Также в работе в качестве вспомогательного шага оценивания исследована проблема исправления (приведения к положительно определённому виду) оценок корреляционных матриц, полученных поэлементно при помощи попарных корреляций. Результаты второй главы анонсированны на конференциях [4. 6] и опубликованы в международных рецензируемых журналах [8, 9].
Рассмотрим семейство двумерных распределений вероятностей, определяемое фак-торизуемой плотностью
где и, V — главные компоненты, которые задаются поворотом системы координат, ортогональным преобразованием
» = (.!• +у)/ч/2. v = (x-u)/y/2.
параметры п, b играют роль параметров масштаба для некоторой симметричной плотности вероятности g(t).
Простые преобразования показывают, что коэффициент корреляции задаётся формулой
= а2 - Ь2 = Р(£/)-Р(Г) Р а2+Ь2 D(f) + D(V)
Заметим, что если в качестве базовой плотности взять плотность нормального закона
распределения g(t) = <p(t) = (2тг)_1/2<-хр(—i2/2), то формула (2.1) как частный случай
даст плотность двумерного нормального распределения
,, , _1 / -г2 - 2рхц + у2 \
ПХ'У) = 2тта2 \J\ — р2 ^'Г 2(Т2(1 — р2) ) •
Выражение коэффициента корреляции (2.2) приводит к естественной оценке для данного класса
- = = S;,(n) - 5» Р" Ъ+Ц SJ(W) + SJ(V)'
где îi„ = S„(u), b„ = S„(v) — некоторые оценки параметров масштаба п и Ь по трансформированным выборкам
u = («1.....и,,), и, = (.с, + т)/^-
V = (i.'i.....c„). l'i = (х, — ijj)/ \/2.
Теорема 2.1. Пусть g(t) — непрерывная, симметричная плотность распределения вероятностей с конечной дисперсией Рэ = 1, a S;'(t) — состоятельная, асимптотически несмещённая оценка дисперсии g(t) по выборке t = .....t„) с математическим ожиданием û„ = М9..[Sjj(t)] и конечной дисперсией S2 = Ра-[S;(t)], имеющей порядок 1 /п. Тогда оценка рп, вычисляемая по формуле (2.3), является состоятельной, асимптотически несмещённой оценкой коэффициента корреляции для закона распределения (2.1)
со смещением и дисперсией, определяемыми формулами
Щр,,)-р= -D (р„)
2
(1 -Р2)2
01
+ о | -
п
+ 0
(2.4)
(2.5)
Теорема 2.2. Пусть git) — непрерывная, симметричная плотность распределения вероятностей с конечной дисперсией Ds = 1, a S„(t) — состоятельная, асимптотически несмещённая, асимптотически нормальная оценка масштаба g(t) по выборке
t = (/].....t„), которую можно представить в виде функционала S от эмпирического
закона распределения S'„(t) = S[G„) с существующей функцией влияния IF(t.S.G) и асимптотической дисперсией \'(S.G). Тогда оценка р„, вычисляемая по формуле (2.3), является состоятельной, асимптотически несмещённой оценкой коэффициента корреляции для закона распределения (2.1) со смещением и дисперсией, пропорциональными ]'(S.G), и определяемыми формулами
п \п/
(2.6) (2.7)
На данном классе помимо естественной оценки коэффициента корреляции (2.3) можно рассмотреть и уравнение правдоподобия для р. Оно может быть записано в привычном для ,1/-оценок виде
¿¡.'К. г,-;/>) = <). (2.8)
1=1
где оценочная функция г = д\и} ¡др для коэффициента корреляции связана с оценочной функцией \ параметра масштаба базового распределения:
Lilt. r:p) = i
1
1
• \
(2.9)
1 + Р + р; 1 -р V \/1 - Р/
Подобная форма записи позволяет легко перейти к .1/-оценкам коэффициента корреляции (оценкам типа максимального правдоподобия) путём выбора произвольной подходящей функции \.
Вычислиение Л/-оценки возможно при помощи итерационного алгоритма
1 ( 14 \ 1
№+1 = Рк + , ■ , -,,„ ' >
"U +n)Ox jri
\
где
1 + Рк \s/l + pk) 1 -h V Vx/1 ~Рк
X
j t\'(t)g(t)dt.
(2.10)
Чтобы получить робастные оценки корреляции в качестве базовых разумно брать робаст-ные высокоэффективные оценки масштаба, такие как предложенная Р(}п.
Теорема 2.3. Асимптотическая дисперсия М-оценки коэффициента корреляции р семейства двумерных распределений в независимых компонентах, задаваемой формулами (2.8) и (2.9), пропорциональна асимптотической дисперсии Г(\.(7) М-оценки параметра масштаба, лежащей в её основе, и определяется формулой
Корреляционная матрица системы р случайных величин (в том числе и выборочная) является матрицей из коэффициентов попарных корреляций, поэтому очевидный подход к её робастному оцениванию заключается в замене выборочного коэффициента корреляции Пирсона на его робастные аналоги. Недостатком такого подхода является невозможность обеспечить необходимую положительную определённость матрицы, составленной из произвольных оценок. Тем не менее, состоятельные оценки коэффициента корреляции в пределе дают матрицы, удовлетворяющие всем необходимым условиям, т.е. оценка П лежит «близко» к искомой матрице Я и может быть скорректирована должным образом.
Этим недостатком не обладают алгоритмы оценивания корреляционных или ковариационных матриц в целом, такие как эллипсоид минимального объёма (МУЕ) или минимальный ковариационный определитель (МСЭ). Корректное вычисление этих оценок, основанных на переборе всех возможных вариантов, требует больших вычислительных затрат, поэтому реальное их использование оказалось возможным только благодаря приближённым алгоритмам, дающим адекватные результаты. К сожалению, даже использующийся в настоящее время робастный алгоритм оценивания РаяШС£) подразумевает большое количество вычислительно непростых итераций, поэтому попарные оценки корреляционных матриц всё ещё представляют интерес.
Среди всех возможных псевдокорреляционных матриц размерности .4 х 3. т.е. симметричных матриц с единичной диагональю и элементами, ограниченными по модулю единицей, доля положительно полуопределённых (ППО) корреляционных матриц составляет 01.7%. Как было показано экспериментально, эта доля быстро уменьшается с ростом размерности, при р = 5 доля не-ППО матриц уже возрастает до 97.8%. Разумеется, не все они могут быть получены в результате оценивания. Так, оценка коэффициента корреляции (2.3), основанная на предлагаемой оценке масштаба при р = 5 для умеренных выборок (п = 1(10) порождает 8% матриц, требующих коррекции. Эта доля увеличивается
с ростом размерности и с уменьшением количества элементов в выборке (т.е., с ростом неопределённости). Алгоритмы коррекции включают в себя как методы прямой правки элементов или собственных чисел матрицы, так и решение задачи поиска ближайшей корреляционной матрицы.
В имитационном моделировании методом Монте-Карло были рассмотрены разные оценки коэффициента корреляции двумерного нормального закона распределения, включая предложенные в данной работе: оценку через независимые компоненты rFQ и ^/-оценку I'm fq* вычисленные по формулам (2.3) и (2.10) соответственно, с использованием введённой оценки масштаба FQ„. Эксперимент подтверждает хорошие характеристики предложенных оценок.
В случае отсутствия загрязнения на двумерном нормальном распределении оценки показывают умеренное смещение и не самую лучшую, но ожидаемо высокую эффективность, обусловленную низкой асимптотической дисперсией оценки FQn. При этом эффективность i'm-fq по отношению к выборочному коэффициенту корреляции превышает 100% для существенных корреляций (р ^ 0.5).
При сферическом засорении в модели больших ошибок Тьюки оценка rFq показывает наибольшую эффективность среди всех рассматриваемых оценок, с точки зрения смещения уступая оценке, основанной на MAD,,, и двумерному варианту алгоритма FastMCD. Тем не менее, последняя оценка имеет слишком низкую эффективность, т.е. её суммарная среднеквадратичная ошибка оказывается велика. Кроме того, как подтвердил эксперимент, оценка гд/со легко подвержена внутреннему загрязнению, теряя все свои преимущества.
В целом, на рассмотренных моделях оценка vFq имеет хорошие характеристики как при наличии, так и при отсутствии загрязнения. Это позволяет рекомендовать её как более быструю альтернативу используемой в последние годы робастной оценке по алгоритму FastMCD на больших выборках и как более эффективную — на выборках небольшого размера.
В третьей главе рассмотрены возможные приложения полученных робастных высокоэффективных оценок параметра масштаба и коэффициента корреляции распределений в теории временных рядов и дескриптивной статистике.
Предложены робастные методы оценивания автоковариационной функции и спектральной плотности мощности стационарных временных рядов, коэффициентов процесса авторегрессии. Предварительные результаты робастного оценивания спектра по методу
Юла-Уолкера, основанному на робастной оценке масштаба F(jn, показывают устойчивость предложенных оценок к редкой импульсной помехе высокой амплитуды, но для окончательных выводов требуется серьезный сравнительный анализ существующих робастных методов оценивания спектров.
Имитационное моделирование Монте-Карло показывает, что применение новых оценок в разведочном анализе при построении робастных одномерных и двумерных бокспло-тов приводит к статистически более эффективным результатам. Отбраковка данных по критерию, основанному на предложенной оценке масштаба F(Jn. превосходит результаты, полученные по боксплоту Тьюки, и значительно превосходит классический тест Граббса при различных видах и долях засорения.
Результаты третьей главы анонсированны на конференциях [2. 7, 10-12] и опубликованы в журнале [3], входящем в список ведущих рецензируемых журналов, рекомендованных ВАК.
В заключении сформулированы основные результаты работы, даны рекомендации и перспективы дальнейшей разработки темы. В приложении А приведены основные распечатки программных реализаций предложенных методов и алгоритмов.
ЗАКЛЮЧЕНИЕ
В ходе данного исследования были выполнены все поставленные задачи. Предложенные методы и алгоритмы оценивания параметра масштаба и коэффициента корреляции случайных распределений по сравнению с робастными оценками, широко применяющимися на практике в настоящее время, обладают конкурентными преимуществами: высокой статистической эффективностью и скоростью работы при сохранении робастных свойств.
Рассмотренные методы дают хорошие результаты непосредственно как оценки соответствующих характеристик распределений, так и в других задачах математической статистики: при оценивании корреляционных и ковариационных матриц многомерных распределений, автоковариационных функций и спектров плотности мощности стационарных временных рядов, при первичной отбраковке данных в дескриптивной статистике.
Созданный программный комплекс подготовлен к открытой публикации в интернете [13] в виде библиотеки процедур для среды статистических вычислений R Project, широко использующейся для статистического моделирования и робастного анализа данных.
СПИСОК РАБОТ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ
1. Смирнов, П. О. Приближение оценки Q„ параметра масштаба с помощью быстрых .U-оценок [Текст] / П. О. Смирнов, Г. Л. Шевляков // Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева. — 2010,- Т. 31, № 5,- С. 83-85.
2. Смирнов, П. О. Визуализация данных двумерными ^„-боксплотами [Текст] / К. Андрее, Г. М. Лаврентьева, П. О. Смирнов, Г. Л. Шевляков // Высокие технологии, фундаментальные исследования, экономика, — Т. 1,— Санкт-Петербург, Россия : Изд-во Политехи, ун-та, 2011— С. 59-66.
3. Смирнов, П. О. Двумерный боксплот на основе высокоэффективных робастных оценок масштаба и корреляции [Текст] / К. Андреа, П. Смирнов, Г. Шевляков // Вестник Томского государственного университета. Управление. Вычислительная техника и информатики. - 2013. - Т. 22, № 1. - С. 25-31.
4. Smirnov, Р. О. Highly efficient robust estimators of a correlation coefficient for bivariate independent component distributions [Text] / G. L. Shevlyakov, P. O. Smirnov // Book of Abstracts: International Conference on Robust Statistics (ICORS 2010).— Prague, Czech Republic : Charles University, 2010,- P. 93-94.
5. Smirnov. P. O. On approximation of the Q„-estimate of scale by fast .U-estimates [Text] / P. O. Smirnov, G. L. Shevlyakov // Book of Abstracts: International Conference on Robust Statistics (ICORS 2010).- Prague, Czech Republic : Charles University, 2010,— P. 94-95.
6. Smirnov, P. O. Robust estimation of a correlation coefficient: An attempt of survey [Text] / G. L. Shevlyakov, P. O. Smirnov // Proceedings of the 9th International Conference on Computer Data Analysis and Modeling.— Vol. 1,— Minsk, Belarus : Publishing center oi BSU. 2010. - P. 108-115.
7. Smirnov, P. О. Fast low-complexity bivariate boxplots based on highly efficient and robust estimates of dispersion and correlation [Text] / G. Shevlyakov, K. Andrea, G. Lavrentyeva, P. Smirnov // Book of Abstracts: International Conference on Robust Statistics (ICORS 2011). - Valladolid, Spain : University of Valladolid, 2011. - P. 72.
8. Smirnov, P. O. Robust estimation of the correlation coefficient: An attempt оГ survey [Text] / G. L. Shevlyakov, P. O. Smirnov // Austrian Journal of Statistics. — 2011. — Vol. 40. по. 1&2. - P. 147-156.
9. Smirnov, P. O. Asymptotically minimax bias estimation of the correlation coefficient for bivariate independent component distributions [Text] / G. L. Shevlyakov. P. O. Smirnov. V. I. Shin, K. Kim // Journal of Multivariate Analysis. — 2012. — Vol. 111. — P. 59-65.
10. Smirnov, P. O. Detection of outliers with boxplots [Text] / K. Andrea. G. L. Shevlyakov, P. O. Smirnov // Proceedings of the 11th International Conference on Computer Data Analysis and Modeling.— Minsk, Belarus : Publishing center of BSU, 2013. — P. 141-144.
11. Smirnov, P. O. Robust versions of the Tukey boxplot with their application to detection of outliers [Text] / Georgy L. Shevlyakov, Kliton Andrea, Lakshminarayan Choudur [et al.] // IEEE International Conference on Acoustics, Speech, and Signal Processing. — Vancouver, Canada : IEEE, 2013,- P. 6506-6510.
12. Smirnov, P. O. Some remarks on robust estimation of power spectra [Text] / G. L. Shevlyakov, N. S. Lyubomishchenko, P. O. Smirnov // Proceedings of the 11th International Conference on Computer Data Analysis and Modeling. — Minsk, Belarus : Publishing center of BSU, 2013. - P. 97-104.
13. Smirnov, P. O. robcor: Robust correlations. R package version 0.1-5 [Electronic resource].— Vienna, Austria : The Comprehensive R Archive Network, 2013,— URL: http: //CRAN .R-project. org/package=robcor (online; accessed: 06.12.2013).
Подписано в печать 13.02.2014. Формат 60x84/16. Печать цифровая. Усл. печ. л. 1,0. Тираж 100. Заказ 11557Ь.
Отпечатано с готового оригинал-макета, предоставленного автором, в типографии Издательства Политехнического университета. 195251, Санкт-Петербург, Политехническая ул., 29. Тел.:(812)550-40-14 Тел./факс: (812)297-57-76
Текст работы Смирнов, Павел Олегович, диссертация по теме Математическое моделирование, численные методы и комплексы программ
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования «Санкт-Петербургский государственный политехнический университет»
РОБАСТНЫЕ МЕТОДЫ И АЛГОРИТМЫ ОЦЕНИВАНИЯ КОРРЕЛЯЦИОННЫХ ХАРАКТЕРИСТИК ДАННЫХ НА ОСНОВЕ НОВЫХ ВЫСОКОЭФФЕКТИВНЫХ И БЫСТРЫХ РОБАСТНЫХ ОЦЕНОК МАСШТАБА
Н :и
СМИРНОВ Павел Олегович
Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ
ДИССЕРТАЦИЯ на соискание учёной степени кандидата физико-математических наук
Научный руководитель д. ф.-м. н., проф. Шевляков Г. Л.
Санкт-Петербург - 2013
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ..................................................................6
Общая характеристика работы..........................................6
ГЛАВА 1. РОБАСТНЫЕ ВЫСОКОЭФФЕКТИВНЫЕ ОЦЕНКИ
МАСШТАБА ............................................................14
1.1 Оценивание параметра масштаба в параметрической статистике..........................................................14
1.1.1 Основные определения....................................14
1.1.2 Метод моментов..........................................16
1.1.3 Метод квантилей..........................................17
1.1.4 Метод максимального правдоподобия..................18
1.2 Робастные подходы к оцениванию масштаба распределений . 23
1.2.1 Основные определения....................................23
1.2.2 Медиана абсолютных отклонений МАБп..............26
1.2.3 Квартиль абсолютных разностей ....................30
1.2.4 Класс М-оценок параметра масштаба..................33
1.3 Новые оценки масштаба МС£п и ............................39
1.3.1 Построение новой М-оценки ............................39
1.3.2 Одношаговый алгоритм оценивания....................41
1.3.3 Пороговые точки предложенных оценок................43
1.3.4 Функции влияния........................................45
1.3.5 Асимптотическая дисперсия и эффективность .... 47
1.3.6 Поведение оценок на распределении Коши............48
1.3.7 Оценка параметра масштаба для распределения Коши 51
1.4 Имитационное моделирование методом Монте-Карло..........53
1.4.1 Предварительные соображения..........................53
1.4.2 Оценивание числа повторений эксперимента..........56
1.4.3 Оценивание параметра масштаба нормального распределения ............................................58
1.4.4 Оценивание параметра масштаба в модели больших ошибок Тьюки ............................................63
1.4.5 Оценивание масштаба распределения Коши............69
1.5 Выводы..............................................................71
ГЛАВА 2. РОБАСТНЫЕ ВЫСОКОЭФФЕКТИВНЫЕ ОЦЕНКИ
КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ................................74
2.1 Оценивание коэффициента корреляции в классической статистике..........................................................74
2.1.1 Выборочный коэффициент корреляции Пирсона ... 74
2.1.2 Оценка максимального правдоподобия..................77
2.2 Робастные аналоги коэффициента корреляции ................80
2.2.1 Квадрантный коэффициент корреляции................80
2.2.2 Коэффициент ранговой корреляции Кендалла .... 81
2.2.3 Коэффициент ранговой корреляции Спирмена .... 84
2.2.4 Комедианный коэффициент корреляции................85
2.3 Альтернативные подходы к оцениванию коэффициента корреляции..........................................................89
2.3.1 Оценивание коэффициента корреляции через регрессию..................................................89
2.3.2 Оценивание коэффициента корреляции через оценки масштаба..................................................90
2.4 Класс распределений в независимых компонентах............91
2.4.1 Определение ..............................................91
2.4.2 Естественная оценка коэффициента корреляции ... 94
2.4.3 Асимптотические смещение и дисперсия.......100
2.4.4 Оценка максимального правдоподобия и М-оценки . 104
2.4.5 Минимаксное асимптотическое смещение и дисперсия 108
2.5 Робастное оценивание корреляционных и ковариационных матриц...............................110
2.5.1 Классическая оценка корреляционной матрицы ... 110
2.5.2 Попарные корреляции..................111
2.5.3 Эллипсоид минимального объема ...........112
2.5.4 Минимальный определитель ковариационной матрицы 113
2.5.5 Класс распределений в независимых компонентах . . 115
2.6 Методы коррекции псевдокорреляционных матриц......118
2.6.1 Общие соображения...................118
2.6.2 Исправление собственных чисел корреляционной матрицы..........................121
2.6.3 Исправление элементов корреляционной матрицы . . 122
2.6.4 Поиск ближайшей корреляционной матрицы.....123
2.7 Имитационное моделирование методом Монте-Карло.....125
2.7.1 Оценивание коэффициента корреляции нормального распределения ............................................125
2.7.2 Оценивание коэффициента корреляции в модели больших ошибок Тьюки.................133
2.8 Выводы...............................138
ГЛАВА 3. ПРИЛОЖЕНИЯ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ В СТАТИСТИКЕ МНОГОМЕРНЫХ ДАННЫХ И ВРЕМЕННЫХ РЯДОВ..................................142
3.1 Применение в теории временных рядов.............142
3.1.1 Робастные оценки автоковариационной функции . . . 142
3.1.2 Робастные непараметрические оценки спектральной плотности мощности^...................143
3.1.3 Робастные оценки спектральной плотности процесса
авторегрессии.......................144
3.2 Применение в разведочном анализе...............146
3.2.1 Новые варианты боксплотов ..............146
3.3 Выводы...............................151
ЗАКЛЮЧЕНИЕ..............................152
СПИСОК ЛИТЕРАТУРЫ.........................158
СПИСОК ИЛЛЮСТРАЦИЙ.......................173
СПИСОК ТАБЛИЦ............................175
ПРИЛОЖЕНИЕ А. РАСПЕЧАТКИ ПРОГРАММ.........177
ВВЕДЕНИЕ
Общая характеристика работы
Актуальность темы исследования. При исследовании закона распределения одномерных случайных величин по результатам наблюдений основное внимание уделяется описанию таких двух главных характеристик как его мера положения (некоторое типичное значение) и мера разброса значений вокруг этой центральной точки. Так, широко использующийся нормальный закон распределения случайных величин полностью характеризуется первыми двумя моментами — математическим ожиданием (положением) и дисперсией (масштабом), и для их оценки в классической статистике чаще всего используются выборочные аналоги: среднее арифметическое и среднеквадратичное отклонение.
При наличии нескольких случайных величин или одной многомерной величины встаёт вопрос о взаимосвязи составляющих этой системы. Мерой их линейной зависимости является коэффициент корреляции или, в случае размерности больше двух, корреляционная матрица, которая наряду с математическим ожиданием и дисперсией полностью описывает нормально распределённые случайные величины.
Тем не менее, любые модели лишь приближённо описывают реальные явления, и на практике мы сталкиваемся с различными отклонениями от них. В силу этого, использование классических параметрических моделей распределений для оценивания их параметров не всегда оправдано, может привести к некорректным результатам, и, соответственно, поставить под сомнение "обоснованность применения связанных с ними процедур. Возникшая на смену классическим моделям непараметрическая статистика [126], отказавшись от всяких предположений о конкретном виде закона распреде-
ления случайных величин, позволила находить приемлемое решение части задач по сравнению законов распределения и некоторых их производных характеристик. В то же время, полное игнорирование параметрических моделей приводит к большой потере информации о форме распределения.
Компромиссное решение предложила робастная статистика, возникшая в середине XX века. Сам термин «робастный» («грубый, сильный, крепкий») ввёл Дж. Бокс в 1953 году [41], но систематическое развитие она получила с работы Дж. Тьюки [123], исследующей модели загрязнения распределений. Полноценный теоретический подход к робастности в статистике был предложен Дж. П. Хьюбером в 1964 году [72], и получил широкую известность в 1981 году с выходом книги, посвящённой минимаксным методам поиска оценок, оптимальных в окрестности предполагаемого распределения. Альтернативный подход через функции влияния был предложен Ф. Хампелем в диссертации в 1968 году и рассмотрен более подробно в книге 1986 года [15].
Основная идея робастности — это построение статистических процедур, устойчивых к возможным отклонениям от принятых вероятностных моделей распределений данных. Подходы Хьюбера и Хампеля отличаются различным выбором используемых мер устойчивости рассматриваемых робастных оценок, но, несмотря на эти различия, как правило, «хорошие» робастные оценки в смысле Хьюбера практически близки «хорошим» ро-бастным оценками в смысле Хампеля, а иногда они и совпадают [15, 25].
В нашей стране теория устойчивых статистических методов также активно развивается, одной из первых вех была вышедшая в 1931 году статья А. Н. Колмогорова «Метод медианы в теории ошибок» [10], подробно рассматривающая преимущества медианы перед средним арифметическим в том случае, если «гипотеза нормального распределения не удовлетворяет фактам». Изучение и дальнейшая разработка вероятностно-статистических
методов, их внедрение в научную, инженерную и медицинскую практику было одной из задач, поставленных перед Межфакультетской («колмого-ровской») лабораторией статистических методов при кафедре теории вероятностей МГУ. Похожие на хьюберовские оценки параметров многомерных распределений, при которых занижается вклад выдающихся значений на периферии, рассматривал Л. Д. Мешалкин [1, 89], предложивший в 1970 году экспоненциальное взвешивание наблюдений. Этот подход и связанные с ним результаты развил А. М. Шурыгин [32, 33], исследуя применимость методов классической статистики и теории вероятностей к решению реальных задач геофизики.
Значительный вклад в теорию робастного (учитывающего фактор неопределённости) управления внёс Я. 3. Цыпкин [26, 27], с 1956 года и до своей кончины в 1997 году заведующий лабораторией №7 Института автоматики и телемеханики (в настоящее время — лаборатория адаптивных и робастных систем им. Я. 3. Цыпкина Института проблем управления РАН). За цикл работ «Робастность в задачах оценивания, оптимизации и устойчивости» Я. 3. Цыпкин и Б. Т. Поляк [12-14] были награждены премией А. А. Андронова.
Научная школа непараметрической и робастной статистики была создана в Томске Ф. П. Тарасенко [17], первоочередное внимание в которой уделялось непараметрическим методам. Характерной особенностью томской группы статистиков является последовательное использование функционального представления статистических процедур, при которой статистики порождаются путем подстановки различных оценок распределений в характеристический функционал рассматриваемой задачи [18]. Много усилий на обобщение и развитие именно робастных статистических процедур направил В. П. Шуленин, в 1993 году опубликовавший монографию по робастной статистике [28], и совсем недавно, в 2012 году, выпустивший учебное
пособие в трёх томах [29-31], посвящённых отдельно достижениям в параметрической, непараметрической и робастной статистике.
Ю. С. Харин в связи с организацией кафедры теории вероятностей и математической статистики был приглашён в Минск, где впоследствии занял пост заведующего новой кафедрой математического моделирования и анализа данных Белорусского государственного университета и директора НИИ прикладных проблем математики и информатики БГУ. Тематика научных интересов основанной им кафедры связана с разработкой математических моделей, методов, алгоритмов и программных средств робастного распознавания и анализа стохастических данных для компьютерных систем защиты информации и информационных технологий [21-24].
В связи с развитием теории ошибок измерений, изучения случайных ошибок и грубых промахов, возникших в ходе эксперимента, наиболее полно исследованным оказалось робастное оценивание параметра положения распределений случайных величин. В чуть менее разработанной области робастного оценивания параметра масштаба, а тем более, коэффициента корреляции двух зависимых случайных величин остаётся ещё потенциал для исследования с точки зрения увеличения эффективности алгоритмов оценивания (уменьшения разброса значений вычисленных по выборкам оценок).
Внедрение и практическое использование предлагаемых новых ро-бастных методов оценивания параметра масштаба и корреляционных характеристик данных предполагает разработку программно-алгоритмического комплекса, их реализующего.
Цель работы. Целью настоящей диссертационной работы является разработка комплекса новых методов, алгоритмов и программ робастного оценивания корреляционных характеристик данных, обладающих высокой устой-
чивостью к загрязнениям данных и другим отклонениям от предполагаемой параметрической модели при сохранении высокой асимптотической эффективности.
Задачи исследования.
1. Изучить различные робастные методы оценивания коэффициента корреляции и корреляционных матриц, включая оценки, основанные на оценках масштаба.
2. Исследовать поведение асимптотического смещения и дисперсии оценок коэффициента корреляции, определённых через оценки масштаба, на семействе распределений в независимых компонентах (которое включает в себя двумерное нормальное распределение).
3. Построить оценки максимального правдоподобия для коэффициента корреляции семейства распределений в независимых компонентах.
4. Предложить быструю высокоэффективную оценку параметра масштаба для использования при оценивании коэффициента корреляции и связанных с ним величин.
5. Исследовать применение предложенных оценок параметра масштаба и коэффициента корреляции в других статистических методах (многомерном статистическом анализе, теории временных рядов).
Научная новизна. В диссертационной работе получены и обоснованы следующие новые результаты, выносимые на защиту:
1. Разработаны робастные методы и алгоритмы оценивания корреляционных характеристик данных на основе новых высокоэффективных и быстрых робастных оценок масштаба.
2. Предложено параметрическое семейство новых робастных М-оценок масштаба с абсолютной асимптотической эффективностью на нормальном распределении от 80 до 95%, максимально возможной пороговой точкой 50% и асимптотически линейным ростом времени работы алгоритма 0{п) при увеличении размера выборки п.
3. Исследовано применение оценок масштаба для оценивания коэффициента корреляции и корреляционных матриц многомерных распределений из класса распределений с независимыми компонентами, и доказана прямо пропорциональная зависимость асимптотического смещения и дисперсии оценки коэффициента корреляции от асимптотической дисперсии используемой оценки масштаба.
4. Получены оценки максимального правдоподобия и М-оценки для коэффициента корреляции семейства распределений в независимых компонентах, уравнение правдоподобия выражено через оценочную функцию параметра масштаба, и доказана прямо пропорциональная зависимость асимптотической дисперсии оценки коэффициента корреляции от асимптотической дисперсии используемой оценки масштаба.
5. Предложено теоретическое и практическое обоснование необходимого числа повторений эксперимента 50000) в исследованиях оценок методом Монте-Карло.
6. Разработаны алгоритмы и комплекс программ и библиотек функций, реализующих предлагаемые оценки параметров масштаба, корреляции и корреляционных матриц случайных распределений, а также предоставляющих экспериментальную среду для проведения испытаний Монте-Карло.
Теоретическая и практическая значимость. Доказанная зависимость между асимптотическими дисперсиями оценок коэффициента корреляции и параметра масштаба, на которых они основаны, позволяет повышать статистическую эффективность корреляционных алгоритмов оценивания за счет использования более эффективных оценок масштаба.
Полученные робастные, высокоэффективные оценки параметра масштаба, коэффициента корреляции и корреляционных матриц помогают с большей точностью и устойчивостью к помехам и ошибкам измерений проводить статистический анализ данных.
Методология и методы исследования. Для решения поставленных задач использовался аппарат теории алгоритмов, линейной алгебры, вычислительной математики, математического анализа, теории вероятностей, параметрической и робастной математической статистики.
Степень достоверности результатов. Приведённые в диссертации теоретические результаты подтверждаются как аналитическими исследованиями, так и прямым имитационным моделированием Монте-Карло для различных, в том числе и больших, размеров выборок.
Внедрение результатов исследования. Подготовлена к публикации в свободном доступе библиотека функций для широко используемой бесплатной программной среды статистических вычислений и обработки данных R Project, содержащая предложенные в данной работе процедуры оценивания масштаба распределений, коэффициентов корреляции и корреляционных матриц многомерных случайных величин, автоковариационных функций и коэффициентов авторегрессии случайных временных рядов [116].
Апробация работы. Основные положения и результаты диссертации докладывались и обсуждались на международных конференциях: «International Conference on Robust Statistics» (Чехия, Прага, 2010 год; Испания, Ва-льядолид, 2011 год), «International Conference on
-
Похожие работы
- Методы робастного оценивания корреляционных связей, отбраковки недостоверных данных и их программная реализация
- Повышение эффективности обработки измерительной информации в системах статистического управления процессами в машиностроении на основе рекуррентного робастноо оценивания
- Гарантированное оценивание сигналов с ограниченными дисперсиями производных: исследования во временной и частотной областях
- Методы устойчивого оценивания параметров моделей по статистическим данным
- Адаптивное робастное управление в 4 постановке
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность