автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Методы и алгоритмы разведочного анализа данных, основанные на робастных модификациях боксплотов
Автореферат диссертации по теме "Методы и алгоритмы разведочного анализа данных, основанные на робастных модификациях боксплотов"
На правах рукописи
АНДРЭА Клитон
Методы и алгоритмы разведочного анализа данных, основанные на робастных модификациях боксплотов
Специальность 05.13.18 — Математическое моделирование, численные методы и комплексы программ
Автореферат
диссертации на соискание ученой степени кандидата технических наук
2 7 ФЕВ 2014
Санкт-Петербург — 2013
005545523
005545523
Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Санкт-Петербургский государственный политехнический университет»
Научный руководитель: ШЕВЛЯКОВ Георгий Леонидович
доктор физико-математических наук, профессор
Официальные оппоненты: ФИЛИМОНОВ Руслан Петрович
доктор физико-математических наук, профессор ФГБОУ ВПО «Санкт-Петербургский государственный университет кино и телевидения», профессор кафедры научной и прикладной фотографии
КОКОРИН Сергей Владимирович
кандидат технических наук ФГБУН Санкт-Петербургский институт информатики и автоматизации РАН (СПИИРАН) младший научны!! сотрудник
Ведущая организация: ФГБОУ ВПО «Санкт-Петербургский государственный
университет»
Защита состоится 26 марта 2014 г. в 16 ч. 00 мин. на заседании диссертационного совета Д 212.229.13 при ФГБОУ ВПО «Санкт-Петербургский государственный политехнический университет», расположенном по адресу: 195251, Санкт-Петербург, Политехническая ул., д. 29, I уч. корп., ауд. 41.
С диссертацией можно ознакомиться в фундаментальной библиотеке ФГБОУ ВПО «Санкт-Петербургский государственный политехнический университет» по адресу: 195251, Санкт-Петербург, ул. Политехническая, д. 29, главный учебный корпус. Автореферат диссертации доступен на официальном сайте СПбГПУ (http://www.spbstu.ru/).
Автореферат разослан «. » февраля 2014 г.
Ученый секретарь
диссертационного совета Д 212.229.13 доктор технических наук, профессор
Григорьев Борис Семенович
Общая характеристика работы
Актуальность темы. Разведочный анализ данных (РАД; Exploratory data analysis) - относительно новый раздел статистики, появление которого связано с развитием вычислительной аппаратуры и автоматизацией вычислений, сделавших возможным графическое представление больших объемов данных. Многие методы, лежащие в основе разведочного анализа данных, были известны задолго до появления работы' Дж. Тьюки (J. W. Tukey) в 1977 году, по которой и был назван этот раздел статистики. Вместе с Дж. Тыокн свой вклад в развитие и формирование РАД внесли Ф. Мостеллер2 (F. Mosteller), Д. Хоаглнн (D. Hoaglin), П. Веллеман (Р. Vellcman)3. В российской литературе этот раздел статистики был дополнен трудами4 С. А. Айвазяна, В. М. Бухштабера, И. С. Енюкова и J1. Д. Мешалкипа. Хотя и не существует строгого (точного) определения термина «разведочный анализ данных», основное назначение РАД заключается в следующем:
• Максимальное «проникновение в данные»;
• Выявление основных структур данных;
• Обнаружение отклонений и аномалий в данных;
• Проверка основных гипотез о распределении данных;
• Разработка начальных моделей распределений данных.
Задача обнаружения отклонений и аномалий является одной из целей разведочного анализа данных. В литературе представлены несколько трактовок понятия отклонений (выбросов), что сильно расширяет область исследования задачи выявления аномалий в данных.
Возможность сбора и хранения больших объемов информации в настоящее время требует применения эффективных методов первичного анализа и подготовки данных для дальнейшего изучения. Наше исследование направлено на разработку новых и улучшение существующих методов по обнаружению и отбраковке аномалий в данных. Классические методы обнаружения аномалий построены на статистических оценках, недостаточно устойчивых к выбросам. Предложенные нами методы основываются на новых робастных высокоэффективных оценках параметра масштаба.
В задачах статистической классификации оценка качества классификации связана со значениями критерия мощности и вероятности ложной тревоги согласно подходу Неймана-Пирсона. Проведение сравнения качества классификации исследуемых методов по двум параметрам затруднительно. Согласно подходу
'Tukey J. W. Exploratory Data Analysis. Reading, MA: Addison-Wesley, 1977.
2Mostcl!cr F.. Tukey J. W. Data Analysis and Regression. Addison-Wesley. 1977.
3Velleman P.. Hoaglin D. The ABC's of EDA: Applications. Basics, and Computing of Exploratory Data Analysis. Duxbnry Press. 1981. P. 354.
4Прикладная статистика: Основы моделирования и первпчпая обработка данных / С.А. Айвазян, В.М. Бухштабер, И.С. Ешоков [и др.]. Москва: Финансы н статистика, 1983.
Неймана-Пирсона, для сравнения качества классификации разных методов необходимо обеспечить стабильно низкий уровень вероятности ложной тревоги. Такое требование автоматически позволяет сравнивать лишь оценки критерия мощности для того, чтобы интерпретировать полученные результаты, однако на практике по разным причинам не удается обеспечить одинаково стабильный уровень ложной тревоги одновременно для всех исследуемых методов. В задачах информационного поиска (Information Retrieval) одним из критериев оценки качества классификации является F-мера, комбинирующая оценку полноты (recall) и точности (precision). Но в литературе до сих пор нет исследований статистических методов классификации, оценка качества классификации которых являлась бы комбинацией критерия мощности и вероятности ложной тревоги. В данной работе вводится новая мера качества классификации Н-мера, с помощью которой проводится сравнение улучшенных и новых предложенных методов для одномерных, двумерных и многомерных данных.
Практическое применение новых методов разведочного анализа данных основывается на их эффективной реализации, поэтому разработка программно-алгоритмического обеспечения предложенных методов является весьма актуальной задачей.
Целью данной работы является разработка комплекса методов, алгоритмов и программ реализации новых инструментов визуализации одномерных, двумерных и многомерных данных и отбраковка их аномальных значений на основе высокоэффективных робастных оценок параметров положения, масштаба и корреляции.
Для достижения поставленной цели необходимо было решить следующие
задачи:
1. Определить и обосновать критерии качества методов классификации, по которым предлагается проводить сравнение эффективности модификации боксплотов для отбраковки аномальных значений в данных.
2. Исследовать и сравнить качество различных методов отбраковки аномальных значений данных.
3. Построить и исследовать двумерный боксплот на основе быстрых высокоэффективных робастных оценок масштаба и провести сравнение двумерных боксплотов.
4. Применить предложенный двумерный боксплот для обнаружения аномалий в многомерных данных.
5. Разработать программный комплекс, реализующий:
• алгоритмы вычисления критериев качества отбраковки аномалий в данных;
• алгоритмы визуализации на основе предложенных новых методов отбраковки аномальных данных;
• алгоритмы отбраковки аномалий в данных.
6. Применить предложенные методы к отбраковке реальных данных.
Основные положения, выносимые на защиту:
1. Оценка качества отбраковки аномалий в данных в виде Н-меры, ее свойства и интерпретация в терминах критериев мощности и вероятности ложной тревоги.
2. Выявление аномалий в данных робастными версиями одномерных боксплотов, основанных на высокоэффективных оценках параметра масштаба по Н-мере.
3. Двумерный 1'0„-боксплот: алгоритм построения; подбор параметров с помощью Н-меры. Сравнительный анализ воспроизведения эллиптической формы [;0„-боксплотом и другими двумерными боксплотами. Выявление аномалий на плоскости применением 1г0,,-боксги1ота и сравнение с остальными двумерными методами. Визуализация данных с использованием РО„-бокс плота.
4. Многомерные методы выявления аномалий в данных и их сравнение по Н-мере. Использование двумерных боксплотов для выявления аномалий в многомерных данных.
5. Разработка алгоритмов для обнаружения точек разладки временных рядов.
6. Разработка прикладных программных модулей, реализующих алгоритмы методов классификации и отбраковки аномалий в данных, а также обеспечивающих их визуализацию.
Научная новизна:
1. Предложена новая оценка качества методов отбраковки аномалий в данных на основе Н-меры, зависящей от значений мощности метода и вероятности ложной тревога. Аналитически показано, что высокие значения Н-меры гарантируют достаточно высокие значения мощности и низкие значения вероятности ложной тревоги рассматриваемого метода отбраковки.
2. Разработаны и исследованы новые модификации классических одномерных боксплотов Тьюки, основанные на робастных высокоэффективных оценках параметра масштаба.
3. Впервые исследован тип засорения «всплеск» и предложен метод спейсингов для его отбраковки.
4. Предложен новый двумерный боксплот, ориентированный на отбраковку аномалий и визуализацию двумерных данных, распределенных по нормальному закону.
5. Разработаны методы отбраковки аномалий в многомерных данных, основанные на предложенном двумерном РО„-боксплоте.
Практическая значимость. Разработан и реализован ряд алгоритме!! для выявления аномалий, их отбраковки и визуализации данных для одномерного, двумерного и многомерного случая. Предложены оптимальные коэффициенты внешних границ робастных боксплотов в общем случае. Продемонстрировано применение одномерных боксплотов для решения задачи об определении точки разладки временного ряда для реальных данных.
Методы исследования. В работе использованы методы теории вероятностей, математической статистики, методы оптимизации и статистические методы, а также технологии параллельных и распределенных вычислений. Моделирование данных методом Монте-Карло позволило экспериментально проверить теоретически обоснованные алгоритмы. Для реализации алгоритмов использована статистическая среда программирования R.
Достоверность изложенных в работе результатов обеспечивается корректностью постановок рассматриваемых задач и адекватностью алгоритмов и моделирующих программ рассматриваемым математическим моделям.
Апробация работы. Основные результаты работы докладывались и обсуждались на следующих конференциях:
• XII международная научно-практическая конференция "Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности".
• Симпозиум НЕПАРАМЕТРИКА - XIV, Томск, I - 3 июля 2012
• Международная конференция по робастной статистике (International Conference on Robust Statistics - ICORS 'II).
• 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
• Международная конференция по робастной статистике (International Conference on Robust Statistics - ICORS '13).
• 10th International Conference on Computer Data Analysis & Modeling 2013 (CDAM ' 13).
Публикации. Основные результаты по теме диссертации изложены в 6 печатных изданиях, 2 из которых изданы в журналах, рекомендованных ВАК, 4 — в тезисах и трудах российских и международных конференций.
Объем и структура работы. Диссертация состоит из введения, шести глав, заключения и приложения. Полный объем диссертации 164 страницы текста с 60 рисунками и 22 таблицами. Список литературы содержит 88 наименований.
Содержание работы
Во введении обосновывается актуальность исследований, проводимых в рамках данной диссертационной работы, приводится обзор научной литературы по изучаемой проблеме, формулируется цель, ставятся задачи работы, сформулированы научная новизна и практическая значимость представляемой работы.
Первая глава посвящена методам разведочного анализа данных (РАД) для их наглядного представлен™, а также возможностям обнаружения аномальных наблюдений с помощью предложенных инструментов. РАД включает в себя множество визуальных инструментов, но данная работа изучает только боксплоты. Боксплот
- это графическое представление 5-числовой характеристики рассматриваемой выборки. Рассматриваемое графическое представление (боксплот) определяется медианой, нижним и верхним квартилями, а также двумя экстремумами:
хь - -лглф-,.!.(.) V)/,'}. Хи = 1пш {х^иЯ+^ЩЩ, (1)
где и ир соответствуют нижнему и верхнему квартилям, а 1С]Я = /У<3 ~ ЬО
— интерквартильный размах. Все наблюдения, выходящие за пределы экстремумов, являются выбросами (аномальными наблюдениями). Графически (см. Рис. 1) внутренняя часть боксплота представлена как коробчатая конструкция с границами, равными нижнему и верхнему квартилям, содержащая 50% центральных значений выборки, то есть ближайших к выборочной медиане. Ширину коробчатой конструкции принято определять как равную квадратному корню размера выборки. Медиана обозначается линией внутри коробки и делит интерквантильную область на две части. Прямые, исходящие из противоположных сторон коробки, обозначают «хвосты» распределения выборки, их длина определяется экстремумами.
Рис. I: Построение боксплота
Было предложено множество модификаций боксплота, в основном для представления большего количества характеристик выборки, чем в классическом варианте. Однако в литературе встречается очень мало работ, посвященных улучшению качества робастности одномерного боксплота.
Визуализация информации на плоскости потребовала обобщения понятия параметра масштаба для построения двумерного боксплота. Двумерный боксплот определяется параметром сдвига, внутренней границей (hinge) и внешней границей (fence). Для двумерного нормального закона распределения желательно иметь представление о степени корреляции между исследуемыми параметрами.
Вторая часть первой главы рассматривает существующие в настоящее время понятия об аномалиях в данных и о выбросах, а также методы их отбраковки в одномерном и многомерном случаях.
Вторая глава посвящена критериям качества различных методов отбраковки аномалий в данных. По сути, задача отбраковки аномалий в данных сводится к задаче бинарной классификации. Рассматриваемые критерии качества классификации берут свое начало в теории обработки сигналов и распознавания образов. По результатам работы алгоритма бинарной классификации, применяемого к тестовой выборке, собирается статистика правильного отнесения наблюдений к соответствующему классу при помощи матрицы сопряженности. Процедура классификации в статистических задачах заключается в проверке нулевой гипотезы //ц против альтернативной Н\. В результате работы классификационного метода, тестовое наблюдение х заносится в матрицу сопряженности в одну из следующих четырех возможных групп: 1) х € Я() — правильная классификация; 2) х € Ну — правильная классификация; 3) х £ Як — неправильная классификация; 4) х Е Н\ — неправильная классификация. В нашей работе проверяется нулевая гипотеза У/о, которая гласит, что наблюдение принадлежит «регулярным» данным, а ее альтернатива состоит в проверке принадлежности наблюдения к «выбросам». Критерий мощности метода определяется вероятностью правильной классификации наблюдения как выброса. Вероятность ложной тревоги относится к случаю, когда «регулярное» наблюдение ошибочно классифицируется как «выброс». С помощью матрицы сопряженности вычисляются значения критерия мощности и вероятности ложной тревоги. В методологии используется кривая ошибок (Receiver Operating Characteristic; ROC-кривая) для полученных значений критерия мощности и вероятности ложной тревоги. Чаще всего, кривая ошибок строится как зависимость критерия мощности от дополнения вероятности ложной тревоги. Оценкой качества классификации с помощью кривой ошибок служит значение площади под этой кривой: чем больше занимаемая площадь под кривой, тем лучше работает алгоритм классификации. В нашей работе вводится оценка качества классификации в виде Н-меры как гармонического среднего между критерием мощности Рд и вероятностью ложной тревоги Рр следующим образом:
На Рис. 2 представлена геометрически связь между кривой ошибок и значениями Н-меры. Максимально возможное значение Н-меры достигается в случае, когда кривая ошибок касается изолинии для фиксированного значения Н*.
Для каждой точки кривой ошибок можно с легкостью вычислить оценку Н-меры с помощью уравнения (2). Максимальные значения Н-мсры достигаются для значений критерия мощности и дополненной вероятности ложной тревоги, одновременно стремящихся к 1. Такое свойство существенно важно для практики оценки классификации методов. Построение кривой ошибок требует большого объема вычислений, в то время как применение Н-мсры ограничивает такие усилия
\!
_ь
0 1 Рр 1
Рис. 2: Интерпретация Н-меры и ее связь с графиком ЯОС-кривой.
до минимально возможного объема вычислений. Сравнение классификационных методов можно провести по оптимизированным значениям Н-меры. По значению Н-меры возможно определить нижнюю границу критерия мощности метода и верхнюю границу вероятности ложной тревоги.
Теорема 1 .Для фиксированного значения Н-меры II значения критерия мощности и вероятности ложной тревоги определяются следующими соотношениями:
С помощью последней теоремы можем вычислить минимальные значения критерия мощности и максимальные значения ложной тревоги при заданном значении Н-меры. В табл. 1 представлены типичные для статистического сравнительного анализа значения.
II 0.5 0.6 0.7 0.8 0.9 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 0.999 Р0.33 0.43 0.54 0.67 0.82 0.83 0.85 0.87 0.87 0.90 0.92 0.94 0.96 0.98 0.998 Р 0.67 0.57 0.46 0.33 0.18 0.17 0.15 0.13 0.11 0.095 0.08 0.058 0.04 0.02 0.002
Таблица 1: Минимальные значения критерия мощности и максимальные значения ложной тревоги при фиксированных значениях Н-меры.
В третьей главе рассматривается отбраковка аномалий в одномерных данных как классическими, так и предложенными новыми методами.
Аналитически и экспериментально исследовалась зависимость качества отбраковки по Н-мере от параметра сдвига и масштаба для различных параметров в модели распределения Тьюки (gross итог model) типа «сдвиг»
и «масштаб»
Г(а:) = (1-е)Ф-1-еФ(.г-/0 7
ад = (1-е)Ф+еФ(ж/Л)1 (4)
где — параметр сдвига, к — параметр масштаба, 0 < е < 1 — вероятность появления выбросов (аномалий), а Ф(х) — функция Лапласа.
На практике, при исследовании различных процессов информация о параметрах заложенного в модели распределения процесса отсутствует. В этом случае параметры закона распределения оцениваются статистическими методами. В нашей работе особое внимание уделяется робастным высокоэффективным оценкам положения и масштаба, таким как выборочная медиана, МАО — пгсс1\х—тес1х\ и К_),,Л Сравнительное исследование качества отбраковки по классическому методу отбраковки Граббса6 и его робастной модификации с заменой выборочного среднего на выборочную медиану и среднеквадратичного отклонения на робастную оценку масштаба Г О,, показывает, что метод Граббса сильно проигрывает его робастной модификации как по Н-мере (см. табл. 2), так и по мощности и вероятности ложной тревоги.
Параметры масштаба />■ и сдвига // Уровень значимости (»> Засорение типа «масштаб» Засорение типа «сдвиг»
Робастным метод Метод Граббса Робастный метод Метод Граббса
2 0.9 0.468 0.394 0.728 0.444
2 0.95 0.298 0.236 0.617 0.288
2 0.99 0.104 0.072 0.394 0.142
5 0.9 0.997 0.784 0.999 0.799
5 0.95 0.994 0.674 0.998 0.625
5 0.99 0.986 0.465 0.965 0.283
10 0.9 1.0 0.880 1.0 0.766
10 0.95 0.999 0.822 1.0 0.621
10 0.99 0.999 0.666 1.0 0.325
Таблица 2: Сравнение качества классификации по Н-мере для засорения типа «сдвиг» и «масштаб».
Боксилот является не только инструментом визуализации данных, с его помощью также можно выделить выбросы, лежащие за пределами его экстремумов. Оценки параметра положения — выборочная медиана — и внутренней границы — интер-квартильный размах (IQR) — являются обоснованными оценками, не подлежащими какой-либо модификации для повышения качества отбраковки аномалий в данных.
В нашей работе внешние границы боксплота задаются следующим образом: xL =max{x(i )-,LQ-ks,Su}, xv = min {x^JJQ+ks.S,,), (5)
^Shevlyakov G. I... Smimov P. O. On Approximation of the (},, —estimate of Scale by l ast M estimates // Int. Conf. on Robust Statistics. Parma, Italy: 2010.
f,Gnibbs F. E„ Beck G. Extension of sample sizes and percentage points for significance tests of outlying observations // Technometrics. 1972. Vol. 14. no. 4. P. 847-854.
где к,ч„ — константа, a Sn — робастная высокоэффективная оценка масштаба. Значения ks„ определены с помощью оптимизации качества отбраковки робасгных модификаций боксплотов по Н-мере. Рекомендуется использовать оптимальные по Н-мере значения k¡\IAD = 1.44 для MAD-боксплота и kpQ„ = 0.97 для одномерного FQ„-боксплота. В результате сравнительного анализа по Н-мере наблюдается улучшение качества отбраковки с помощью предложенных модификаций классического боксплота.
Данные, подчиняющиеся асимметрическому закону распределения, создают определенные трудности для выявления и отбраковки аномалий. Трудность отбраковки аномалий в этом случае связана с асимметричностью распределения данных на хвостах. Как правило, на стороне более тяжелого хвоста статистические методы отбраковки аномалий не в состоянии отличить наблюдения, принадлежащие «регулярной» группе данных, от выбросов, вследствие чего сильно растет вероятность ложной тревоги. В литературе встречаются работы, нацелены на разработку боксплотов, учитывающих асимметрию в данных, таких как SIQR-боксплот7 и настраиваемый боксплот8 (adjusted boxplot). Мы провели сравнительное исследование классического боксплота, SIQR-боксплота и настраиваемого боксплота по качеству отбраковки аномалий по Н-мерс для данных, распределенных по асимметрическому закону. В результате проведения 1000 испытаний на выборках объемом 1000 с засорением типа «сдвиг» при е = 0.05 для пяти групп асимметричных распределений самые высокие показатели Н-меры принадлежат SIQR-боксплоту.
В четвертой главе приведено описание простого в построении двумерного боксплота, определение коэффициента корреляции которого является устойчивым к выбросам. На основе приведенного двумерного боксплота предлагается новый алгоритм построения двумерного боксплота, ориентированного на модели двумерного закона распределения. В предлагаемом алгоритме двумерного FQ„-60Kcrui0Ta применяется высокоэффективная робастная оценка параметра масштаба FQ„, значение которой влияет на определение внешней границы двумерного боксплота, а также с ее помощью вычисляется робастный коэффициент корреляции.
Было проведено исследование параметров FQ„-боксплота для выбора параметра положения и для выбора коэффициента внешней границы. В результате в качестве параметра положения выбрана пространственная медиана. Для подбора коэффициента внешней границы проводили численное моделирование выборок объемами 50, 100 и 1000.
7Kimber А. С. Exploratory data analysis for possibly censored data from skewed distributions // Applied Statistics. 1990. Vol. II, no. 1. P. 21-30.
Я11nbert M„ Vandervieren E. An adjusted boxplot for skewed distributions // Computational Statistics & Data Analysis. 2008. Vol. 52. no. 12. P. 5186-5201.
По аналогии с параметрическими и непараметрическими методами можем выделить боксплоты, ориентированные на данные, и модельно-ориентированные боксплоты. В нашем случае, предложенный Р(}„-боксшют наряду с гс1р1о!-ом и цие1р1о1-ом9 являются модельно-ориентированными боксплотами, предназначенными для обнаружения двумерной нормально распределенной структуры данных. В качестве двумерного боксплота, ориентированного на данные, можем привести Ьа§р1о110. Нами было проведено исследование способности воспроизведения эллиптической формы для засоренной двумерной выборки, закон распределения которой подчиняется нормальному закону, для четырех двумерных боксплотов: Р<3„-боксплот, bagplot, цие!р1о1 и ге1р1о1. Способность воспроизведения эллиптической формы оценивается с помощью вычисления среднеквадратичной относительной ошибки путем интегрирования квадрата относительной ошибки по всем возможным направлениям (0;2л)
Рис. 3: Вычисления меры отклонения внешней области боксплота от эллиптической формы.
В результате исследования по воспроизведению эллиптической формы установлено, что в большинстве случаев предложенный нами боксплот обладает более низкими показателями среднеквадратичной относительной ошибки по сравнению с bagptot-ом, quelplot-oM и relplot-ом.
Нами был проведен сравнительный анализ качества отбраковки выбросов по Н-мере для FQ„-6oKcrmoTa и для bagplot-a, в случае засорения типа «сдвиг» и «масштаб». Численное моделирование состояло в воспроизведении выборок объемом 50, 100 и 1000 по 10000 повторений. Результаты качества отбраковки по Н-мере для предложенного FQ„-6oKciuiora достигают значения Н=0.84 в случае малых засорений, в то время как для bagplot-a такие показатели находятся на уровне Н=0.72.
Необходимо еще раз подчеркнуть, что боксплоты являются средствами визуализации данных. В разведочном анализе данных боксплоты в первую очередь дают
^Goldberg К. М„ Iglewicz В. Bivariate extensions of the boxplot // Technometrics. 1992. Vol, 34. P. 307-320.
"'Rousseeuw P. J., Ruts I., Tukey J. W. The bagplot, a bivariate boxplot // The American Statistician. 1999. Vol. 53. P. 382-387.
10
Рис. 4: Визуализация двумерных FQn-60KCiij[0T0B.
Представление зависимости значений разгона аг мощности автомобилей, сгруппированных по разным представителям автопромышленности на разных континентах: Северная Америка(Вшск Dodge. Chrysler, GM, Ford, Oldsmobile, Chevrolet), Европа (Citroen, VW, Peugot, Audi, Saab. BMW, Fiat, Volvo, Renault, Mercedes) и Азия (Datsun, Toyota, Mazda, Subaru, Honda)
представление о статистических характеристиках данных. С помощью одномерного боксплота возможны исследование и сравнение нескольких выборок. По аналогии с одномерными боксплотами, мы предлагаем следующий вариант визуализации FQ„-60Kcmi0T0B (см. Рис. 4). Предложенный нами вариант упорядочивает двумерные боксплоты горизонтально по пространственным медианам, сохраняя общий масштаб для оси ординат. В последнем разделе отображаются внешние выпуклые оболочки всех боксплотов, что позволяет получить представление об их взаимном расположении на плоскости. Для визуализации многомерных данных высоких размерностей рекомендуется построить графическую матрицу, составленную из двумерных бокс-плотов по всем возможным плоскостям, при этом по главной диагонали будут располагаться одномерные боксплоты, а вне главной диагонали — двумерные боксплоты.
Пятая глава посвящена отбраковке аномалий в многомерных данных, размерность которых от трех и более. На практике широко известен подход к отбраковке в этом случае, основанный на мере отдаленности многомерных наблюдений от выборочного параметра положения с помощью расстояния Махаланобиса. Однако, с увеличением размерности пространства исследование данных при помощи расстояния Махаланобиса для выявления аномалий усложняется. Переход в пространство большей размерности сопровождается нарушением структуры связей между случайными величинами, что не позволяет судить о принадлежности наблюдения только по оценке расстояния. Для устранения проблем, возникающих при высоких значениях размерности, предложены различные методы, группирующиеся по следующим категориям: методы, основанные на оценках расстояния,
методы, использующие главные компоненты для снижения размерности, методы кластеризации и пространственные методы.
Согласно методам, основанным на анализе расстояний, наблюдения, расстояние которых от остальной части данных больше, чем заранее определенное пороговое значение, обозначаются аномальными (выбросами). Мерой отдаленности наблюдений служит расстояние Махаланобиса или его робастные модификации. В случае исследования данных не очень высоких размерностей эти методы дают хорошие результаты.
Применение метода главных компонент помогает снизить размерность пространства за счет подбора более информативных признаков. Главные компоненты представляют собой направления, которые максимизируют дисперсию вдоль каждой компоненты при условии ортогональности. Наличие выбросов в данных способствует увеличению дисперсии в своем направлении, остальные направления являются малоинформативными. В нашем исследовании был выбран для исследования эффективный метод PCOUT, предложенный Филцмозером" (P. Filzmoscr). Алгоритм этого метода состоит из двух частей: первый шаг специализируется на выбросах типа «сдвиг», второй шаг эффективен для выбросов типа «масштаб». Для снижения размерности применяется метод главных компонент и в первой, и во второй части алгоритма.
Методы кластеризации относятся к разделу статистической обработки данных для выявления структур наблюдений в пространстве любой размерности. Применение таких методов для выявления аномалий основывается на предположении, что аномальное наблюдение принадлежит кластеру с единственным представителем. Для нашего исследования мы выбрали метод кластеризации DBSCAN (density reachability and connectivity clustering). В отличие от других методов кластеризации, выбранный нами метод не ограничен сферической формой кластера. Алгоритм DBSCAN основан на понятии наличия плотности определенного значения внутри кластеров. Наблюдения, выходящие за пределы окрестности, в которой не нарушается установленное значение плотности в кластере, создают новый кластер.
Предложенные нами методы выявления аномалий в многомерных данных основываются на исследовании двумерных проекций по главным осям координат исследуемой выборки. Если обрабатываемые данные имеют размерность р, то число полученных проекций равно числу сочетаний из р по 2: С*. Для каждой проекции отбраковываем выбросы с помощью двумерного ГгО„-боксплота. По сути данная процедура отбраковки выбросов в многомерном пространстве заключается в построении графической р х р матрицы, элементы которой являются двумерными FQ„-6oKcrmoTaMii.
"Filzmoser P., Maronna R., Wemer M. Outlier identification in high dimensions // Computational Statistics & Data Analysis. 2008. Vol. 52,no. 3. P. 1694-1711.
Модификация вышеприведенного алгоритма выявления выбросов в многомерных данных состоит в добавлении уточняющего шага (второй итерации). Во второй итерации предполагаем, что степень засорения — г — заранее известна. Если количество выбросов, полученных в результате алгоритма, меньше предполагаемой степени засорения е • N, где N - размер выборки, тогда результат остается без изменений. В противном случае выбросы упорядочиваются по расстоянию Махаланобиса в убывающем порядке и выбираются первые £ - N элементов.
Экспериментально сравнивались пять методов выявления аномалий в многомерных данных: два предложенных нами метода, PCOUT, DBSCAN и настраиваемый метод квантилей (adjusted quantile method). Для оценки времени выполнения и значений Н-меры использовались сгенерированные данные размерностей 3, 4 и 5 для двух типов засорения: «сдвиг» и «масштаб». Был проведен эксперимент для многомерных данных размерностью 10, но полученные результаты еще раз подтвердили ухудшение качества отбраковки аномалий при очень больших размерностях.
Самым быстрым в вычислительном смысле алгоритмом является PCOUT. Метод адаптивного квантиля или кластерный метод DBSCAN с высокой точностью справляются с засорением типа «сдвиг». Предложенный нами итерационный метод дает лучшие результаты и может быть рекомендован для использования в случае засорения типа «масштаб» при размерностях 3-5.
В шестой главе рассматривается метод решения реальной задачи с помощью одномерных боксплотов.
В нефтедобывающей промышленности для эффективной эксплуатации месторождений необходимо обеспечить плавный бесперебойный режим работы откачивания нефти. Одним из показателей этого режима является скорость потока жидкости, откачиваемой из скважины. Скорость откачиваемой жидкости может варьироваться в зависимости от изменения физических свойств жидкости (от более густого до газообразного), а также в результате таких физических явлений, как постоянно появляющиеся турбулентные потоки.
По скорости откачиваемой жидкости в нефтедобывающей промышленности выделяются следующие основные режимы: 1) высокоамплитудный колебательный режим (High Amplitude Oscillation — НАО), 2) низкоамплитудный колебательный режим (Low Amplitude Oscillation — LAO ) и 3) нормальный режим без колебаний.
Для обеспечения эффективной работы нефтедобывающего комплекса требуется определить за минимальное время переход из одного режима в другой. Результаты измерений скорости откачиваемой жидкости представляют собой временной ряд. На языке теории временных рядов здесь требуется решить задачу определения точки разладки.
Временной ряд скорости потока откачиваемой жидкости подвергается множеству воздействий, поэтому необходимо предварительная обработка. Быстрый
просмотр реализации временного ряда выявляет нестационарность исследуемого процесса, а также выбросы в виде отдельных элементов, сильно отличающихся от остальных близких по времени результатов наблюдений. С помощью сглаживающего медианного фильтра и последующего центрирования результатов наблюдений устранены одиночные выбросы и временной ряд преобразован к приближению стационарной модели.
Описанная выше задача определения точки разладки по результатам измерений скорости откачиваемой жидкости до сих пор не имеет эффективного решения и остается предметом для исследования. Было предложено несколько методов классификации режимов, но для их правильной классификации необходимо собрать достаточно большую выборку, что приводит к задержке определения точки разладки.
В нашей работе для определения точки разладки предлагается решение, основывающееся на алгоритмах отбраковки аномалий. Рассматривается фиксированный по размеру набор ближайших к исследуемой точке результатов наблюдений. После предварительной обработки данных желательно сохранить значения параметров положения, масштаба и размаха текущей выборки. Часто применяемый на практике метод скользящей медианы не в состояшш справиться с решением этой задачи. Предложенный нами метод скользящего боксплота представляет особый интерес, так как он является не только средством отбраковки аномалий, но также дает большую информацию о характеристиках выборки.
С помощью метода скользящего боксплота возможно исследование различных правил для выявления перехода из одного режима в другой. Критерием оценки для выявления точки разладки в виде аномалии служит матрица сопряженности и задержка в ее определении. Лучшим правилом в отношении критерия матрицы сопряженности и задержки определения режима является алгоритм скользящих боксплотов с использованием размеров ящика боксплота (нижнего и верхного квантилей) и выбросов с размером окна в 31 отсчет.
Метод скользящих боксплотов рекомендуется использовать совместно с правилами классификации на основе оценок спектров данных.
В заключении приведены следующие основные результаты работы:
1. Разработан комплекс методов, алгоритмов и программ разведочного анализа данных для визуализации и выявления аномалий. Эта цель была достигнута модификацией классических и созданием новых инструментов визуализации одномерных, двумерных и многомерных данных и отбраковки их аномальных значений на основе высокоэффективных робастных оценок параметров положения, масштаба и корреляции.
2. Предложена оценка качества метода отбраковки аномалии в данных в виде гармонического среднего, зависящая от критерия мощности и вероятности ложной тревоги.
3. На основе Н-меры впервые исследовалось качество отбраковки аномалий в данных для одномерных, двумерных и многомерных методов выявления аномалий.
4. Математическое моделирование показало преимущество применения робастной высокоэффективной Р(3„ оценки параметра масштаба дня робастных модификаций традиционных методов выявления аномалий в данных и построения новых алгоритмов. На основе Р0„ оценки параметра масштаба предложена робастная модификация одномерного боксплота, введен одномерный метод «А сигм», вычисляется робастный коэффициент коррелящш, а также на ее основе задается алгоритм построения двумерного 1:0„-боксплота.
5. Для предложенного одномерного метода «А сигм» установлены пороговые значения А, для которых достигаются максимальные оценки по Н-мере.
6. Предложены робастные модификации одномерного боксплота Тьюки на основе робастных высокоэффективных оценок параметра масштаба: МАО и ГО,,-
7. Было проведено исследование качества отбраковки аномалий по Н-мере асимметричных одномерных боксплотов: БК^И-бокс плота, классического боксплота Тыоки и настраиваемого боксплота. Для сравнения асимметричных боксплотов смоделированы различные по виду распределения выборки (пять групп асимметричных распределений).
8. Впервые было исследовано засорение типа «всплеск» и предложен метод спейсин-гов для выявления такого вида аномалий. Для метода спейсингов оценка качества выявления аномальных наблюдений типа «всплеск» по Н-мере гарантировано больше, чем 0.9, когда размер выборки превышает 200.
9. Предложен модельно-ориентированный двумерный 1:0,,-боксилот. Проведено исследование на способность воспроизведения эллиптической формы для двумерного нормального закона распределения. Исследование качества отбраковки аномалий в данных и последующее сравнение с Ьа£р1о1-ом подтверждает преимущество предложенного двумерного Р<3„-боксплота.
10. Предложены два алгоритма выявления выбросов для многомерных данных: метод проекций и его итеративная модификация (итеративный метод). Проведен сравнительный анализ предложенных и существующих методов. Для размерностей данных 3-5 предложенные методы дают хорошие результаты. Лучшие результаты итеративного метода по сравнению с проекционным объясняются тем, что на последующих итерациях уменьшаются ошибки проекционного метода.
СПИСОК РАБОТ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ
1. Аидрэа, К. Визуализация данных двумерным! FQn-боксплотами [Текст] / К. Ан-дреа, Г. М. Лаврентьева, П. О. Смирнов, Г. Л. Шевляков // Высокие технологии, фундаментальные исследования, экономика. — Т. 1. — Санкт-Петербург, Россия : Изд-во Политехи, ун-та, 2011. — С. 59 - 66.
2. Аидрэа, К. Двумерный боксплот на основе высокоэффективных робастных оценок масштаба и корреляции [Текст] /К. Андреа, П. О. Смирнов, Г. Л. Шевляков // Вестник Томского Государственного Университета. Управление. Вычислительная техника и информатика. — 2013. — Т. 22, № 1. — С. 25 - 31.
3. Аидрэа, К. Обнаружение выбросов с помощью боксплотов, основанных на новых высокоэффективных робастных оценках масштаба [Текст] / К. Андреа, Г. Л. Шевляков // Научно-технические ведомости Санкт-Петербургского Государственного Политехнического Университета. Информатика. Телекоммуникации. Управление. - 2013. - Т. 5, № 181. - С. 39 - 45.
4. Andrea, К. Fast low-complexity bivariate boxplots based on highly efficient and robust estimates of dispersion and correlation [Text] / G. Shevlyakov, K. Andrea, G. Lavrentyeva, P. Smirnov // Book of Absracts: International Conference on Robust Statistics (ICORS 2011). - Valladolid, Spain : University of Valladolid, 2011. - P. 72.
5. Andrea, K. Robust versions of the Tukey boxplots with their application to detection of outliers [Text] / Georgy L. Shevlyakov, Kliton Andrea, Lakshminarayan Choudur [et al.] // IEEE International Conference on Acoustics, Speech, and Signal Processing. — Vancouver, Canada : IEEE, 2013. - P. 6506 - 6510.
6. Andrea, K. Detection of outliers with boxplots [Text] / K. Andrea, G. L. Shevlyakov, P. O. Smimov // Proceedings of the 11th International Conference on Computer Data Analysis and Modeling. — Minsk, Belarus : Publishing center of BSU, 2013. — P. 141 - 144.
Подписано в печать 13.02.2014. Формат 60x84/16. Печать цифровая. Усл. печ. л. 1,0. Тираж 100. Заказ 1 1558Ь.
Отпечатано с готового оригинал-макета, предоставленного автором, в типографии Издательства Политехнического университета. 195251, Санкт-Петербург, Политехническая ул., 29. Тел.:(812)550-40-14 Тел./факс: (812)297-57-76
Текст работы Андрэа Клитон, диссертация по теме Математическое моделирование, численные методы и комплексы программ
Федеральное государственное бюджетное образовательное учреждение
высшего професионального образования «Санкт-Петербургский государственный политехнический университет»
На правах рукописи
04201456578
Андрэа Клитон
Методы и алгоритмы разведочного анализа данных, основанные на робастных модификациях боксплотов
Специальность 05.13.18 — Математическое моделирование, численные методы и комплексы программ
Диссертация на соискание учёной степени кандидата технических наук
Научный руководитель: д.ф-м.н., проф. Шевляков Г. Л.
Санкт-Петербург - 2013
Содержание
Введение........................................................................6
1 Обзор литературы........................................................12
1.1 Одномерные боксплоты..............................................12
1.1.1 Классический боксплот Тьюки..............................13
1.1.2 Модификации одномерных боксплотов....................14
1.2 Двумерные боксплоты................................................17
1.2.1 Ва§рк*........................................................18
1.2.2 11аг^еАпс1ег боксплот ........................................19
1.2.3 Ромбовидный двумерный боксплот ........................20
1.2.4 Ке1р1о1 и С)ие1р1о1..............................................21
1.2.5 Двумерный боксплот Еаш....................................22
1.3 Аномалии в данных и методы их выявления......................24
1.3.1 Типы аномалий................................................25
1.3.2 Методы отбраковки аномалий в одномерных данных . . 28
1.3.3 Методы отбраковки аномалий в многомерных данных . . 35
1.4 Сравнение методов отбраковки аномальных данных..............38
2 Классические критерии качества отбраковки и Н-мера............39
2.1 Классические критерии сравнения методов отбраковки..........39
2.1.1 Статистика результатов классификации....................39
2.1.2 Сравнение классификаторов................................41
2.2 Н-мера..................................................................43
2.3 Связь Н-меры с традиционными характеристиками качества классификации........................................................49
2.4 Выводы................................................................51
3 Одномерные робастные модификации боксплотов иа основе высокоэффективных оценок масштаба и обнаружение аномалий . . 53
3.1 Вводные замечания ..................................................53
3.2 Робастные оценки масштаба........................................55
3.3 Методы отбраковки по критерию Граббса..........................57
3.3.1 Метод Граббса и робастный Z-показатель..................59
3.3.2 Правило отбраковки «А сигма»..............................61
3.4 Робастные боксплоты................................................67
3.5 Сравнительный анализ качества обнаружения выбросов в асимметричных моделях распределения данных........................72
3.6 Засорения типа «всплеск» и методы их выявления................74
3.6.1 Выбор метода решения......................................75
3.6.2 Основные результаты........................................76
3.7 Выводы................................................................79
4 Двумерные боксплоты....................................................83
4.1 FQn — двумерный боксплот, основанный на .¿^„-оценках масштаба и коэффициента корреляции..................................85
4.2 Подбор параметров ..................................................86
4.3 Основные результаты................................................88
4.3.1 Воспроизведение эллиптической формы ..................89
4.3.2 Сравнительный анализ качества отбраковки аномалий в данных для FQn-боксплота и bagplot-a ....................93
4.4 Визуализация двумерного боксплота................................94
4.5 Выводы................................................................96
5 Методы отбраковки многомерных данных............................98
5.1 Статистические методы отбраковки аномалий в многомерных данных ................................................................98
5.1.1 Метод Гаррета................................................98
5.1.2 PCOut..........................................................101
5.1.3 Методы интеллектуального анализа данных (data-mining) ........................................................103
5.2 Выбор метода решения..............................................105
5.2.1 Метод проекций..............................................105
5.2.2 Итеративный метод..........................................106
5.3 Основные результаты................................................106
5.4 Выводы................................................................110
6 Обнаружение аномалий в реальных данных с помощью скользящих боксплотов............................................................112
6.1 Вводные замечания ..................................................112
6.2 Постановка задачи....................................................115
6.3 Предварительная обработка данных................................115
6.4 Скользящие боксплоты ..............................................117
6.5 Реализация алгоритма выявления точек разладки на R............119
6.6 Основные результаты................................................122
6.7 Выводы................................................................126
Заключение..................................127
Список рисунков...............................134
Список таблиц................................136
Литература ..................................137
А Результаты моделирования.......................145
А.0.1 Вычисление оптимальных границ и Н-меры при засорении типа «сдвиг»..............................................145
А.0.2 Экспериментальные результаты оптимальных по Н-мере
коэффициентов внешних границ боксплота Тьюки .... 146 А.0.3 Экспериментальные результаты оптимальных по Н-мере
коэффициентов внешних границ MAD-боксплота .... 147 А.0.4 Экспериментальные результаты оптимальных по Н-мере
коэффициентов внешних границ FQn-боксплота..... 148
А.0.5 Экспериментальные значения Н-меры для модели засорения Тьюки-Хьюбера одномерных данных. Степень засорения с = 0.05. Размер выборки п — 100........ 148
А.0.6 Результаты сравнения оценок моды............ 150
В Реализация алгоритмов в статистической среде программирования К ....................................151
В.1 Алгоритм поиска оптимальных по Н-мере значений коэффициентов внешних границ боксплотов ..................................151
В.2 Алгоритм построения БС)П боксплота..............................154
В.З Алгоритм скользящего боксплота для выявления точки разладки 160
Введение
Актуальность работы. Разведочный анализ данных (РАД; Exploratory data analysis) - относительно новый раздел статистики, появление которого связано с развитием вычислительной аппаратуры и автоматизацией вычислений, сделавших возможным графическое представление больших объемов данных. Многие методы, лежащие в основе разведочного анализа данных, были известны задолго до появления работы Дж. Тьюки (J. W. Tukey) в 1977 году [1], по которой и был назван этот раздел статистики. Вместе с Дж. Тьюки свой вклад в развитие и в формирование РАД внесли Ф. Мостеллер (F. Mosteller) [2], Д. Хоаглин (D. Hoaglin), П. Веллеман (P. Velleman) [3]. В российской литературе этот раздел статистики был дополнен трудами С. А. Айвазяна, В. М. Бухштабера, И. С. Енюкова и JI. Д. Мешалкина [4-6]. Хотя и не существует строгого (точного) определения термина «разведочный анализ данных», основное назначение РАД заключается в следующем:
• Максимальное «проникновение в данные»;
• Выявление основных структур данных;
• Обнаружение отклонений и аномалий в данных;
• Проверка основных гипотез о распределении данных;
• Разработка начальных моделей распределений данных.
Задача обнаружения отклонений и аномалий является одной из целей разведочного анализа данных. В литературе представлены несколько трактовок понятия отклонений (выбросов), что сильно расширяет область исследования задачи выявления аномалий в данных.
Возможность сбора и хранения больших объемов информации в настоящее время требует применения эффективных методов первичного анализа и под-
готовки данных для дальнейшего изучения. Данное исследование направлено на разработку новых и улучшение существующих методов по обнаружению и отбраковке аномалий в данных. Классические методы обнаружения аномалий построены на статистических оценках, недостаточно устойчивых к выбросам. Предложенные нами методы основываются на новых робастных высокоэффективных оценках параметра масштаба.
В задачах статистической классификации оценка качества классификации связана со значениями критерия мощности и вероятности ложной тревоги согласно подходу Неймана-Пирсона. Проведение сравнения качества классификации исследуемых методов по двум параметрам затруднительно. Согласно подходу Неймана-Пирсона, для сравнения качества классификации разных методов необходимо обеспечить стабильно низкий уровень вероятности ложной тревоги. Такое требование автоматически позволяет сравнивать лишь оценки критерия мощности для того, чтобы интерпретировать полученные результаты, однако на практике по разным причинам не удается обеспечить одинаково стабильный уровень ложной тревоги одновременно для всех исследуемых методов. В задачах информационного поиска (Information Retrieval) одним из критериев оценки качества классификации является F-мера, комбинирующая оценку полноты (recall) и точности (precision). Но в литературе до сих пор нет исследований статистических методов классификации, оценка качества классификации которых являлась бы комбинацией критерия мощности и вероятности ложной тревоги. В данной работе вводится новая мера качества классификации Н-мера, с помощью которой проводится сравнение улучшенных и новых предложенных методов для одномерных, двумерных и многомерных данных.
Практическое применение новых методов разведочного анализа данных основывается на их эффективной реализации, поэтому разработка программно-алгоритмического обеспечения предложенных методов является весьма актуальной задачей.
Целью диссертационной работы является разработка комплекса методов, алгоритмов и программ реализации новых инструментов визуализации одномерных, двумерных и многомерных данных и отбраковка их аномальных значений на основе высокоэффективных робастных оценок параметров положения, масштаба и корреляции.
Методы исследования. В работе использованы методы теории вероятностей, математической статистики, методы оптимизации и статистические методы, а также технологии параллельных и распределенных вычислений. Моделирование данных методом Монте-Карло позволило экспериментально проверить теоретически обоснованные алгоритмы. Для реализации алгоритмов использована статистическая среда программирования Я.
Для достижения поставленной цели необходимо было решить следующие задачи:
1. Определить и обосновать критерии качества методов классификации, по которым предлагается проводить сравнение эффективности модификаций боксплотов для отбраковки аномальных значений в данных.
2. Исследовать и сравнить качество различных методов отбраковки аномальных значений данных.
3. Построить и исследовать двумерный боксплот на основе быстрых высокоэффективных робастных оценок масштаба и провести сравнение двумерных боксплотов.
4. Применить предложенный двумерный боксплот для обнаружения аномалий в многомерных данных.
5. Разработать программный комплекс, реализующий:
• алгоритмы вычисления критериев качества отбраковки аномалий в данных;
• алгоритмы визуализации на основе предложенных новых методов отбраковки аномальных данных;
• алгоритмы отбраковки аномалий в данных.
6. Применить предложенные методы к отбраковке реальных данных.
Основные положения, выносимые на защиту:
1. Оценка качества отбраковки аномалий в данных в виде Н-меры, ее свойства и интерпретация в терминах критериев мощности и вероятности ложной тревоги.
2. Выявление аномалий в данных робастными версиями одномерных бокс-плотов, основанных на высокоэффективных оценках параметра масштаба по Н-мере.
3. Двумерный РС)7г-боксплот: алгоритм построения; подбор параметров с помощью Н-меры. Сравнительный анализ воспроизведения эллиптической формы БС)п-боксгаютом и другими двумерными боксплотами. Выявление аномалий на плоскости применением РС>п-боксплота и сравнение с остальными двумерными методами. Визуализация данных с использованием БС)п-боксплота.
4. Многомерные методы выявления аномалий в данных и их сравнение по Н-мере. Использование двумерных боксплотов для выявления аномалий в многомерных данных.
5. Разработка алгоритмов для обнаружения точек разладки временных рядов.
6. Разработка прикладных программных модулей, реализующих алгоритмы методов классификации и отбраковки аномалий в данных, а также обеспечивающих их визуализацию.
Научная новизна:
1. Предложена новая оценка качества методов отбраковки аномалий в данных на основе Н-меры, зависящей от значений мощности метода и вероятности ложной тревоги. Аналитически показано, что высокие значения Н-меры гарантируют достаточно высокие значения мощности и низкие значения вероятности ложной тревоги рассматриваемого метода отбраковки.
2. Разработаны и исследованы новые модификации классических одномерных боксплотов Тьюки, основанные на робастных высокоэффективных оценках параметра масштаба.
3. Впервые исследован тип засорения «всплеск» и предложен метод спей-сингов для его отбраковки.
4. Предложен новый двумерный боксплот, ориентированный на отбраковку аномалий и визуализацию двумерных данных, распределенных по нормальному закону.
5. Разработаны методы отбраковки аномалий в многомерных данных, основанные на предложенном двумерном FQn-60Kcrai0Te.
Научная и практическая значимость. Разработан и реализован ряд алгоритмов для выявления аномалий, их отбраковки и визуализации данных для одномерного, двумерного и многомерного случаев. Предложены оптимальные коэффициенты внешних границ робастных боксплотов в общем случае. Продемонстрировано применение одномерных боксплотов для решения задачи об определении точки разладки временного ряда для реальных данных.
Степень достоверности изложенных в работе результатов обеспечивается корректностью постановок рассматриваемых задач и адекватностью алгоритмов и моделирующих программ рассматриваемым математическим моделям.
Апробация работы. Основные результаты работы докладывались и обсуждались на следующих конференциях:
• XII международная научно-практическая конференция "Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности".
• Симпозиум НЕПАРАМЕТРИКА - XIV, Томск, 1 - 3 июля 2012.
• Международная конференция по робастной статистике (International Conference on Robust Statistics - ICORS '11).
• 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
• Международная конференция по робастной статистике (International Conference on Robust Statistics - ICORS '13).
• 10th International Conference on Computer Data Analysis & Modeling 2013 (CDAM ' 13).
Публикации. Основные результаты по теме диссертации изложены в 6 печатных изданиях [7-12], 2 из которых изданы в журналах, рекомендованных
ВАК [9,12], 4 — в тезисах и трудах российских и международных конференций [7,8,10,11].
Объем и структура работы. Диссертация состоит из введения, шести глав, заключения и двух приложений. Полный объем диссертации составляет 164 страницы с 60 рисунками и 22 таблицами. Список литературы содержит 88 наименований.
Глава 1
Обзор литературы
Современный статистический анализ практически невозможно представить без дескриптивной статистики, целью которой является наглядное представление статистических данных в форме графиков и таблиц, а также описание общих свойств исследуемой статистической совокупности. Графики важны тем, что наглядно представляют большое количество информации в компактной форме. Они являются схематичным отображением статистической информации при помощи различных геометрических образов, таких как линии, точки, различные фигуры, символы и т.д. Графики позволяют с наименьшими временными затратами выявлять закономерности в развитии того или иного явления (процесса), наглядно представлять взаимосвязи показателей, а также без труда визуально сравнивать различные множества данных.
1.1 Одномерные боксплоты
Одним из эффективных и наиболее наглядных способов графического представления данных в статистике является боксплот (Ьохр1о1). До сегодняшнего дня в русскоязычных источниках не существует устоявшегося термина для определения боксплотов. Различные сайты и форумы, посвященные статистической обработке данных, предлагают огромное количество вариантов перевода термина ЬохрЫ на русский язык. В большинстве случаев используют термин боксплот, а также ящик с усами и коробчатая диаграмма (график). В единичных случаях описанные диаграммы именуются ящичковыми диаграммами, коробами с усами, ящиковыми графиками, диаграммами размаха и
другими, образованными от указанных, словосочетаниями. Несмотря на такое значительное множество предлагаемых вариантов, официальные русскоязычные научные статьи в 80% случаев употребляют термин боксплот. Поэтому в дальнейшем будет использоваться именно он.
1.1.1 Классический боксплот Тьюки
Одномерный боксплот был предложен Дж. Тьюки в 1977 г. [1] и до сегодняшнего дня считается очень удобным средством описания распределений одномерных данных, так как он предоставляет информацию о параметрах положения, масштаба, асимметрии, - хвостах и выбросах распределения, более того, на данный момент он доступен для использования в различных статистических пакетах. Первоначальный вариант построения боксплотов, предложенный Дж. Тьюки [1], использует 5-числовые сводки.
5-числовая сводка - это 5 чисел, которые характеризуют рассматриваемую выборку:
• крайние значения выборки х^ и х(п), где х^ - 1-я порядковая статистика
• выборочная медиана
Использование именно этих хара
-
Похожие работы
- Модели и алгоритмы робастных систем управления нестационарными объектами
- Адаптивные и робастные системы управления в условиях возмущений и запаздывания
- Робастное управление непрерывными технологическими процессами
- Модели и алгоритмы робастного управления нелинейными объектами в системах с быстродействующим эталоном
- Построение модальных робастных регуляторов для многосвязных систем
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность