автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Методы робастного оценивания корреляционных связей, отбраковки недостоверных данных и их программная реализация

кандидата технических наук
Хватова, Татьяна Юрьевна
город
Санкт-Петербург
год
1999
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Методы робастного оценивания корреляционных связей, отбраковки недостоверных данных и их программная реализация»

Текст работы Хватова, Татьяна Юрьевна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

! Ф гО х У

/ ч^/ (л... С ■■•■■/

САНКТ-ПЕТЕРБУРГСКИИ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

На правах рукописи

Хватова Татьяна Юрьевна

Методы робастного оценивания корреляционных связей, отбраковки недостоверных данных и их программная реализация

Специальность 05.13.18. Теоретические основы математического моделирования, численные методы и комплексы программ

Диссертация

на соискание ученой степени кандидата технических наук

Научный руководитель -доктор физ.-мат. наук, профессор Г. Л. Шевляков

Сднкт-Петербург, 1999

Содержание

Глава 1. Введение...............................................................................................................5

1.1. Общая характеристика диссертационной работы и обзор ее содержания..................5

1.2. Робастные методы обработки и анализа данных - основные подходы......................8

1.2.1. Общие замечания.................................................................................................8

1.2.2. Количественная робастность: минимаксный подход Хубера...........................11

1.2.3. Качественная робастность: подход на основе функций влияния Хампеля......13

Глава 2. Алгоритмы робастного оценивания коэффициента корреляции..............15

2.1. Общие замечания.........................................................................................................15

2.2. Описание различных групп робастных алгоритмов оценивания коэффициента корреляции...................................................................................................................18

2.2.1. Робастизация структуры выборочного коэффициента корреляции.................18

2.2.2. Робастные алгоритмы, основанные на решении вспомогательной задачи регрессии............................................................................................................20

2.2.3. Робастные алгоритмы, основанные на линейных преобразованиях данных ..23

2.2.4. Алгоритмы оценивания коэффициента корреляции, предложенные Л.Д.Мешалкиным и А.М.Шурыгиным..............................................................25

2.3. Статистическое моделирование поведения предложенных алгоритмов..................26

2.3.1. Свойства алгоритмов при нормальном распределении данных.......................26

2.3.2. Свойства алгоритмов в условиях засорения.....................................................31

2.4. Асимптотическое поведение предложенных алгоритмов.........................................32

2.4.1. Выборочный коэффициент корреляции............................................................32

2.4.2. Квадрантный (знаковый ) коэффициент корреляции и ранговый коэффициент корреляции Спирмена........................................................................................38

2.4.3. Медианная оценка коэффициента наклона линии регрессии...........................39

2.4.4. Медианный коэффициент корреляции..............................................................40

2.4.5. Некоторые численные результаты.....................................................................43

2.5. Минимаксные свойства робастных алгоритмов, основанных на линейных преобразованиях данных.............................................................................................44

2.5.1. Класс двумерных распределений, допускающих преобразования к главным

осям.....................................................................................................................44

2.5.2. Класс М-оценок параметров масштаба в главных осях и соответствующий класс оценок коэффициента корреляции..........................................................46

2.5.3. Наименее информативные распределения и соответствующие минимаксные оценки.................................................................................................................49

2.6. Сравнительный анализ предложенных алгоритмов...................................................52

Выводы по главе 2..............................................................................................................54

Глава 3. Алгоритмы отбраковки недостоверных данных в многомерном случае . 55

3.1. Обзор методов и алгоритмов отбраковки...................................................................55

3.1.1. Введение.............................................................................................................55

3.1.2. Алгоритм эллипсоидальной отбраковки с использованием расстояний Махаланобиса (МУТ).........................................................................................60

3.1.3. Алгоритм отбраковки с использованием весовых коэффициентов (МЬТ)......61

3.1.4. Методы борьбы с маскирующим эффектом, предложенные Рауссеу и

Ван Зомереном...................................................................................................63

3.1.5. Алгоритм отбраковки, предложенный Аткинсоном.........................................64

3.1.6. Комплексный алгоритм с отбраковки, предложенный Рокке и Вудрафом......66

3.2. Алгоритмы отбраковки „сорных" данных в двумерном случае................................69

3.2.1. Двумерный боксплот.........................................................................................69

3.2.2. Алгоритм отбраковки в главных осях по правилу прямоугольника................70

3.2.3. Алгоритм отбраковки с переходом к главным координатам, усовершенствованный Виндзоризацией............................................................74

3.2.4. Алгоритм отбраковки по правилу эллипса в главных координатах и две его модификации......................................................................................................74

3.2.5. Адаптивный алгоритм отбраковки....................................................................76

3.3. Двухэтапные алгоритмы робастного оценивания коэффициента корреляции, основанные на предварительной отбраковке выбросов в данных............................77

3.4. Асимптотическое исследование поведения алгоритмов отбраковки........................78

3.4.1. Правило отбраковки по прямоугольнику..........................................................79

3.4.2. Правило отбраковки по эллипсу........................................................................81

3.5. Результаты моделирования на конечных выборках...................................................81

Выводы по главе 3............................................................................................................103

Глава 4. Алгоритмы робастного оценивания корреляционных матриц................104

4.1. Адаптивный алгоритм отбраковки...........................................................................105

4.2. Процедура отбраковки по двумерных сечениям......................................................106

4.3. Результаты моделирования.......................................................................................106

Выводы по главе 4............................................................................................................109

Глава 5. Программно-алгоритмическое обеспечение предложенных методов и их приложения в задачах обработки медико-кардиологических данных...................110

5.1. Программный комплекс............................................................................................110

5.2. Классический и робастный статистический анализ факторов риска внезапной смертности от сердечно-сосудистых заболеваний...................................................113

Выводы по главе 5............................................................................................................119

Литература........................................................................................................................120

Приложения......................................................................................................................124

1. ВВЕДЕНИЕ

1.1. Общая характеристика диссертационной работы и обзор ее содержания

Одним из важнейших направлений прикладной математики является разработка методов и алгоритмов обработки данных, устойчивых к возможным отклонениям от принятых моделей их распределений, и обеспечение на их основе надежности принятия решений в условиях неопределенности. Статистические алгоритмы анализа данных широко применяются как в системах автоматизации научных исследований, так и при построении компьютерных систем принятия решений в таких областях науки, как физика, экономика, социология, медицина и т.д. Устойчивость статистических процедур обеспечивается при использовании робастных методов и алгоритмов, теория и приложения которых интенсивно развиваются в последние годы. В этой области уже выделилось и сформировалось несколько направлений, связанных с фундаментальными работами Л.Д.Мешалкина [34,35], Поляка [11], Я.З.Цыпкина [11], А.М.Шурыгина [14,15], Дж.Тьюки [39], П.Хубера [10], Ф.Хампеля [31]. Тем не менее, здесь имеется ряд нерешенных задач, имеющих как самостоятельное значение, так и важных с прикладной и вычислительной сторон. Отметим, что в рамках разных подходов к робастному оцениванию характеристик и параметров распределений гораздо полнее проработаны задачи робастного оценивания характеристик средних и рассеяния, или параметров положения и масштаба распределений, по сравнению с характеристиками взаимосвязи данных, например, коэффициентом корреляции. Представляется актуальным классифицировать известные и новые алгоритмы оценивания корреляционных связей (коэффициента корреляции, корреляционных матриц), проанализировать их поведение на моделях распределений, имитирующих отклонение от принятой базовой модели (как правило, гауссовской), и выявить наилучшие среди них.

Широкое внедрение в практику научных и прикладных исследований электронно-

вычислительной техники с сопутствующей автоматизацией обработки данных на всех этапах наряду с очевидными преимуществами породило ряд новых проблем. Одной из них является обеспечение надежности статистических выводов в условиях возможных сбоев в функционировании этих систем. Эти сбои зачастую могут проявляться в виде появления недостоверных, сомнительных или резко выделяющихся из основной массы данных. Они возникают на этапах сбора данных, их регистрации, обработки, интерпретации выводов и принятия решений.

Многие из такого рода недостоверных данных могли бы быть отбракованы визуально или при ручной отбраковке, но они легко могут быть незамечены при автоматической обработке данных, особенно больших массивов. Таким образом, актуальной является разработка алгоритмов автоматической отбраковки и выявления недостоверных (сомнительных) наблюдений, особенно в случае анализа многомерных данных, так как их отбраковка намного сложнее, чем в одномерном случае.

Различные критерии отбраковки сомнительных наблюдений рассматривали в своих работах Г.Дейвид [3, 26], Ф.Граббс [28] в случае одномерных наблюдений, и А.Аткинсон [21], П.Раусеу [38], Д.Роке и Д.Вудрафф [36] для многомерных данных.

Проблема отбраковки сомнительных наблюдений напрямую связана с построением робастных процедур обработки данных: во-первых, большинство известных роба-стных методов предусматривает автоматическое уменьшение статистического веса части данных, рассматриваемых как выбросы; во-вторых, предварительная отбраковка и чистка данных с последующим применением к оставшимся классических (неробаст-ных) процедур обработки может быть одним из подходов к обеспечению надежности статистических выводов.

В диссертационной работе рассматриваются и используются многие известные в настоящее время подходы к построению робастных алгоритмов оценивания корреляционных характеристик данных. Существенной особенностью рассматриваемых задач является то, что в литературе практически отсутствуют строгие математические результаты, достаточно исчерпывающе решающие задачу робастного оценивания коэффициента корреляции, аналогично тому, как это сделано в задачах робастного оценивания параметров положения и масштаба распределений или в задачах регрессии, например, в рамках минимаксного подхода Хубера [10]. По этой причине некоторые предлагаемые алгоритмы имеют эвристический характер, но базой для эвристики служат точные результаты в близких задачах.

В работе рассматриваются четыре группы робастных алгоритмов оценивания коэффициента корреляции. В литературе известны строгие результаты лишь для одной из этих групп оценок. В диссертации установлены оптимальные робастные свойства алгоритмов еще одной группы, позволяющие обоснованно рекомендовать их для практического использования.

В работе большое внимание уделяется развитию и анализу статистических процедур отбраковки многомерных данных - эти задачи, как было уже отмечено выше, помимо их непосредственной связи с робастными процедурами, имеют и самостоятельное значение.

Диссертационная работа состоит из списка обозначений, пяти глав, включающих вводную главу, выводы, списка использованной литературы из 47 наименований и приложений. Общий объем диссертации 140 страниц машинописного текста, включающих 27 рисунков и 40 таблиц.

Во вводной главе отмечается актуальность темы исследования, дается общая характеристика работы, а также приводится краткий обзор основных подходов к роба-стному оцениванию параметров распределений, используемых в дальнейшем в диссертации.

Во второй главе классифицируются и анализируются различные группы алгоритмов робастного оценивания коэффициента корреляции. Приводятся аналитические результаты, описывающие их асимптотическое поведение, и результаты статистического моделирования на конечных выборках. Выявляются наилучшие по робастным и вычислительным свойствам алгоритмы.

Третья глава посвящена разработке новых и усовершенствованию известных алгоритмов отбраковки сомнительных данных. В ней дается достаточно подробный обзор существующих критериев отбраковки. На различных моделях засорения анализируются аналитически и моделируются свойства известных и предложенных алгоритмов, выявляются наилучшие среди них. Особое внимание уделяется двухэтапным робастным алгоритмам оценивания коэффициента корреляции, основанным на предварительной отбраковке недостоверных данных с последующим использованием классического выборочного коэффициента корреляции для оставшихся данных. Показывается, что такой двухэтапный алгоритм имеет лучшие робастные свойства, чем многие прямые алгоритмы, описанные во второй главе.

В четвертой главе рассматривается ограниченный набор алгоритмов робастного

оценивания корреляционных матриц и их спектральных характеристик (собственных чисел и векторов), поведение которых моделируется на конечных выборках в условиях различных типов засорения базового нормального распределения.

В пятой главе описывается разработанный программно-алгоритмический комплекс, реализующий известные и разработанные в диссертации методы, а также приводится пример использования классических и робастных методов оценивания корреляционных связей в задаче выявления факторов риска внезапной смертности от сердечно-сосудистых заболеваний.

Результаты диссертационной работы докладывались на Международной конференции по стохастическим методам (Вологда, 1996, 1997), на Международной научно-технической конференции по применению многомерного статистического анализа в экономике и оценке качества продукции (Москва, 1997), на Международной научной конференции по математическому и программному обеспечению анализа данных (Минск, 1998), на Международной конференции „Электроника в медицине" (Санкт-Петербург, 1998), на Международной конференции MODA-5 (Model Oriented Data Analysis), (Марсель, 1998).

По материалам диссертации опубликовано 8 работ и 1 работа находится в печати.

1.2. Робастные методы обработки и анализа данных -основные подходы

1.2.1. Общие замечания

В последнее время в математической статистике развиваются методы построения статистических процедур, слабо зависящих от априорной неопределенности в описании распределений данных и устойчивых к возможным отклонениям от принятых моделей распределений. Свойство робастности проявляется в высокой помехозащищенности оптимальных процедур, в частности, в их нечувствительности к редким, но большим выбросам в результатах наблюдений.

„Робастность" метода в целом означает его слабую чувствительность к малым отклонениям от принятой модели распределения данных. В диссертации основное внимание уделено изучению робастности на распределениях, отклоняющихся от принятой базовой модели, в частности от нормального распределения.

Главными целями использования робастных статистических методов и алгоритмов являются [10]:

(1) Описание структуры наилучшей подгонки массива данных. Для достижения этой цели условно принимают параметрическую модель, а затем пытаются как можно лучше оценить параметры модели и проверять для них гипотезы, учитывая тот факт, что модель может быть искаженной. Сделанный вывод будет обусловлен той мерой, в которой мы можем сохранить модель как приближение для большинства данных; он будет безопасен в том смысле, что подвержен влиянию со стороны любого меньшинства данных в ограниченной степени.

(2) Определение отклоняющихся значений данных (резко выделяющихся наблюдений) или, если это необходимо, выделяющихся структур. Для решения этой задачи применяется робастная подгонка. Получающиеся в ней остатки позволяют автоматически отделять резко выделяющиеся наблюдения, не затрагивая „хороших" данных, гораздо лучше, чем, например, остатки в методе наименьших квадратов. На данный момент некоторые формальные правила обнаружения выделяющихся наблюдений очень ненадежны. Необходимость в надежном и быстром обнаружении этих наблюдений, а также в средствах их коррекции очевидна. Проблема состоит в том, что далеко не всегда резко выделяющиеся наблюдения являются „плохими" данными, появившимися вследствие больших ошибок; часто среди всех данных они оказываются наиболее ценными. Их автоматическое удаление без установления причины их появления оправдано только тогда, когда модель хорошо обкатана. Всегда можно назвать методы лучшие, чем полное принятие данных или их „жесткое" удаление, если они лежат за определенной чертой, например, те методы, в которых предусмотрена промежуточная зона, где вопрос о т�