автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка и исследование методов построения регрессионных моделей на основе алгоритма опорных векторов и его модификаций

кандидата технических наук
Саутин, Александр Сергеевич
город
Новосибирск
год
2010
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование методов построения регрессионных моделей на основе алгоритма опорных векторов и его модификаций»

Автореферат диссертации по теме "Разработка и исследование методов построения регрессионных моделей на основе алгоритма опорных векторов и его модификаций"

На правах рукописи

00461

5881

Саутин Александр Сергеевич

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ПОСТРОЕНИЯ РЕГРЕССИОННЫХ МОДЕЛЕЙ НА ОСНОВЕ АЛГОРИТМА ОПОРНЫХ • ВЕКТОРОВ И ЕГО МОДИФИКАЦИЙ

05.13.17 - Теоретические основы информатики

Автореферат диссертации на соискание ученой степени кандидата технических наук

~ 9 ЛЕК 2010

Новосибирск - 2010

004615881

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Новосибирский государственный технический университет»

Научный руководитель:

Официальные оппоненты:

доктор технических наук, профессор Попов Александр Александрович

доктор технических наук, профессор Загоруйко Николай Григорьевич

Ведущая организация:

кандидат технических наук, доцент Фаддеенков Андрей Владимирович

Государственное образовательное учреждение высшего профессионального образования «Томский государственный университет систем управления и радиоэлектроники», г. Томск

Защита состоится « 17 » декабря 2010 г. в 10ю часов на заседании диссертационного совета Д 212.173.06 при Государственном образовательном учреждении высшего профессионального образования «Новосибирский государственный технический университет» (630092, Новосибирск-92, пр. К. Маркса, 20).

С диссертацией можно ознакомиться в библиотеке Новосибирского государственного технического университета.

Автореферат разослан «ноября 2010 г.

Ученый секретарь диссертационного совета

Чубич В.М.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследований. Задача восстановления зависимостей по эмпирическим данным была и, вероятно, всегда будет одной из главных в прикладном анализе. Эта задача является математической интерпретацией одной из основных проблем естествознания: как найти существующую закономерность по разрозненным фактам.

В наиболее общей постановке проблема восстановления зависимости приводит к задаче подбора модели оптимальной сложности. Изначально данная задача была как бы внешней и не встраивалась сразу в одну общую задачу. Примером нового подхода является подход по самоорганизации моделей, в свое время развитый школой А. Г. Ивахненко, а впоследствии и А. А. Поповым, принесшим в него идеи оптимального планирования эксперимента, в частности, разбиения выборки на обучающую и проверочную, в целом - идею активной структурной идентификации. Пожалуй, одним из первых подходов, когда организуется одна общая задача, в параметрическом случае является метод LASSO, предложенный Р. Тибширани. В непараметрическом случае одним из подходов является алгоритм опорных векторов (Support Vector Machines - SVM).

Изначально SVM был использован для решения задачи классификации данных. Позже, в 1996 году В. Вапником, X. Драккером, К. Берджесом, JI. Кауфман и А. Смолой была предложена модификация SVM применительно к задаче построения регрессионных моделей. Метод SVM активно развивался в последующие годы такими учеными как А. Смола, Дж. Сайкенс, К. Кортес, Т. Джоатимс и др.

За небольшой промежуток времени алгоритм опорных векторов был использован для решения задач классификации данных и восстановления зависимостей во многих областях. Особенно успешным его применение было в таких областях как распознавание лиц, категоризация текстов, построение регрессионных моделей, предсказание временных рядов и распознавание рукописных символов.

При восстановлении зависимостей изначально в SVM использовалась функция потерь Вапника, которая представляет собой расширение функции потерь Лапласа путем добавления зоны нечувствительности. Впоследствии Дж. Сайкенсом было предложено расширение SVM, где использовалась квадратичная функция потерь (Гаусса). Данная модификация SVM получила название LS-SVM. Подробное исследование LS-SVM в задаче построения регрессионных моделей было проведено Дж. Бранбантером. Исследования LS-SVM в условиях автокорреляции ошибок наблюдений проводились М. Эспинозой, Дж. Сайкенсом и Б. Де Муром. Подробные исследования аппарата ядерных функций, предложенного М. А. Айзерманом, который позволил расширить применение SVM для восстановления нелинейных зависимостей, проводились А. Смолой, Б. Шелкопфом и К. Берджесом. Также в этой области исследований активно работали Н. Кристианини, Дж. Шов-Тейлор и др.

В связи с тем, что SVM сравнительно недавно разработанный метод, остается целый ряд вопросов его применения в задаче построения регрессионных

моделей. Этот ряд вопросов включает в себя использование БУМ при различных моделях ошибок наблюдений, в условиях мультиколлинеарности данных, при нарушении предположений о независимости и постоянстве дисперсии ошибок наблюдений.

Цель и задачи исследований. Основной целью диссертационной работы является дальнейшее развитие, на основе использования компьютерного моделирования, 8 УМ в задачах построения регрессионных моделей, и разработка его модификаций для более адекватного описания реальной ситуации. В соответствии с поставленной целью решались следующие задачи:

- исследование возможностей использования БУМ при построении регрессионных моделей в условиях наличия сильных выбросов в данных;

- разработка модификаций БУМ для учета асимметричности ошибок наблюдений;

- разработка методов построения разреженных решений на основе 5УМ;

- исследование БУМ в условиях мультиколлинеарности данных;

- построение модификаций 8УМ, направленных на возможность учета гетеро-скедастичности и автокорреляции ошибок наблюдений;

- разработка на основе БУМ методов для построения квантильной регрессии и оценок неизвестной дисперсии ошибок наблюдений;

- разработка эффективных методов выбора гиперпараметров БУМ. Методы исследований. Для решения поставленных задач использовался аппарат теории вероятностей, математической статистики, вычислительной математики, математического программирования, статистического моделирования. Научная новизна диссертационной работы заключается в:

- формулировках двойственных задач 5УМ для применения данного метода в условиях наличия сильных выбросов в данных и асимметричного засорения;

- результатах исследования БУМ при асимметричных распределениях ошибок наблюдений и обобщении модификации 8УМ для построения квантильной регрессии на случай произвольной функции потерь;

- модификациях 8УМ для: получения разреженных решений, учета эффекта гетероскедастичности и автокорреляции ошибок наблюдений;

- результатах численных исследований предложенных методов с использованием технологии статистического моделирования.

Основные положения, выносимые на защиту.

1. Формулировки двойственных задач ЙУМ при использовании адаптивных функций потерь и алгоритмы их решения.

2. Результаты исследования БУМ в условиях асимметричных распределений ошибок наблюдений.

3. Расширение возможностей БУМ при построении разреженных решений за счет использования адаптивных функций потерь.

4. Результаты исследования возможности использования БУМ в условиях мультиколлинеарности данных, гетероскедастичности и автокорреляции ошибок наблюдений, а также при построении параметрических и полупараметрических моделей.

5. Результаты исследования возможности использования квантильного варианта SVM для построения доверительных интервалов и оценки неизвестной дисперсии.

Обоснованность и достоверность научных положений, выводов и рекомендаций обеспечивается:

- корректным применением аналитических методов исследования свойств построенных моделей;

- подтверждением аналитических выводов и рекомендаций результатами статистического моделирования.

Личный творческий вклад автора заключается в проведении исследований, обосновывающих основные положения, выносимые на защиту. Практическая ценность и реализация результатов. Разработанные модификации SVM позволяют строить регрессионные модели в условиях наличия выбросов в данных и асимметричных распределений ошибок наблюдений. Предложенные методы на основе адаптивных функций потерь позволяют получать разреженные модели при использовании SVM на выборках данных большого объема. Проведенные исследования позволяют корректно использовать SVM в условиях мультиколлинеарности данных, а также в условиях гетероскедастич-ности и автокорреляции ошибок наблюдений. Созданное программное обеспечение позволяет эффективно строить регрессионные модели, применяя разработанные подходы.

Апробация работы. Основные результаты исследований, проведенных автором, докладывались и обсуждались на Российской НТК «Информатика и проблемы телекоммуникаций» (Новосибирск, 2008 и 2010); Всероссийской конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2008); Третьем международном форуме по стратегическим технологиям IFOST (Новосибирск, 2008); Четвертом международном форуме по стратегическим технологиям IFOST (Хошимин, 2009); IX международной конференции «Актуальные проблемы электронного приборостроения АПЭП-2008» (Новосибирск, 2008).

Публикации. Основные научные результаты диссертации опубликованы в 11 печатных работах, из которых 2 - в журналах, рекомендованных ВАК, одна - в докладах АН ВШ РФ, 5 - в сборниках научных работ, 3 - в материалах конференций.

Структура работы. Диссертация состоит из введения, пяти глав, заключения, списка использованных источников (106 наименований) и двух приложений. Общий объем диссертации составляет 177 страниц, включая 21 таблицу и 58 рисунков.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Глава 1. Постановка задач исследования

В п. 1.1 представлена формулировка задачи построения математической модели явления.

Пусть имеются результаты п наблюдений за некоторой измеряемой величиной у. Известно, что свои значения она принимает в зависимости от набора входных данных х, которые в каждом из п опытов известны. В этом случае регрессионная модель наблюдения может быть записана в виде

где еУсЯ - г-ое наблюдение; i,eXc Rci - значение входных данных в г-ом эксперименте; г(х) - неизвестная функция; - случайная ошибка.

Задача состоит в том, чтобы, располагая значениями входных данных и результатами проведенных наблюдений за измеряемой величиной у, как можно точнее оценить зависимость г(х). Оценка этой зависимости производится на основе конечного числа наблюдений (jq, д),...,(хп,уп)е XxY, где п - общее число наблюдений.

Для решения поставленной задачи используется теория машинного обучения. В п. 1.2 приводится краткое описание данной теории.

В п. 1.3 описывается алгоритм опорных векторов, который используется для решения поставленной задачи.

В п. 1.4 рассматривается вопрос получения разреженных решений на основе алгоритма опорных векторов.

В п. 1.5 описывается метод ядерных функций, который используется для расширения SVM на нелинейный случай.

Задача, возникающая при использовании алгоритма опорных векторов, является задачей квадратичного программирования. В п. 1.6 приводится обзор подходов к решению данной оптимизационной задачи.

Алгоритм опорных векторов имеет ряд настраиваемых параметров. В п. 1.7 приводится обзор подходов к выбору этих параметров.

В п. 1.8 представлен исторический обзор алгоритма опорных векторов. Проанализированы основные существующие на данный момент недостатки алгоритма.

В п. 1.9 обосновываются задачи исследований.

Глава 2. Конструирование двойственной задачи SVM с адаптивными функциями потерь

В данной главе приводится формулировка двойственной задачи для предложенных адаптивных функций потерь.

В п. 2.1 описывается методика построения квазиоптимальных функций потерь.

В п. 2.2 предлагаются адаптивные функции потерь для построения регрессионных моделей в условиях асимметричных засорений. За основу предлагаемой адаптивной функции потерь берется функция потерь Хьюбера. При этом изменяется второй сегмент этой функции. Он определяется как линейная комбинация линейно-возрастающей функции и горизонтальной прямой. Такая модификация дает возможность посредством скалярного параметра г изменять угол наклона линейного участка функции потерь, что снижает ее чувствитель-

ность к асимметричных засорениям. Скомбинированная функция потерь имеет вид:

2

2ад '

И* *

т^-^Ла-т)^, ><т,

(1)

(2)

где г - угол наклона линейного участка функции потерь, а - параметр функции потерь Хьюбера, £ - невязка.

Другим вариантом параметризации является использование в качестве основы функции потерь Лапласа. В этом случае функция потерь принимает вид:

ад.

|г|£| + (1-Г)<7, > ст.

По аналогии с функцией потерь Вапника в предложенные адаптивные функции потерь можно добавить зону е-нечувствительности. Тогда адаптивная функция Лапласа будет определяться выражением

О, < г,

Щ)= |£-4 ей\£\й<т, (3)

т\^-£\ + {\-т){а-£), |£|><т, а адаптивная функция Хьюбера - выражением

О, \£\<е,

е)2, (4)

т\$-£\ + {\-т)(о-е), \£\>ст.

Здесь коэффициент е определяет ширину зону нечувствительности. Графики адаптивных функции потерь с зоной в-нечувствительности показаны на рис. 1.

Щ)-

гЛ«>

.......т = 0.5

--г = 0.25

-г = 0.1

Ч

-5 -4 -3 -2 -1

18гЦ?)

1 е -

14 12 1 08 06 04 0 2 0,

1 = 0.5 т = 0.25

т=0.1

а)

б)

Рис. 1. Вид адаптивных функций потерь при различных т: а) Лапласа (б = 1, о = 2); б) Хьюбера (е = 1, а = 3)

Стоит отметить, что адаптивные функции потерь Хьюбера и Лапласа в общем случае не являются выпуклыми функциями. Однако данные функции на интервале те (ОД] удовлетворяют определению строго квазивыпуклой функции. Для задачи квадратичного программирования со строго квазивыпуклой целевой функцией и множеством ограничений, которое является выпуклым, локальный оптимум является глобальным и единственным. Следовательно, задача квадратичного программирования, возникающая при использовании данных функций потерь в алгоритме опорных векторов, также как и в случае с выпуклой функцией потерь, будет иметь единственный локальный минимум, и можно перейти к ее двойственной формулировке, и использовать для ее решения обычный метод оптимизации подобных задач.

В п. 2.3 формулируются двойственные задачи для предложенных адаптивных функций потерь. Для адаптивной функции потерь Лапласа задача принимает вид:

тах* "^ХЕ^/ ~а*)(а] +

'=1У=1

1=1

¡'=1 1=1

(5)

Т{щ) =

I0'

1(1 ~т)а,

с ограничениями

' [[0,Сг], ><7, ' Цо, Сг], %>о.

Для адаптивной функции потерь Хьюбера меняются лишь выражения

(6)

Т(щ)-

а}о

2'

1

•Ю-

(1-2Г)-С7,£><7,

2'

6.*

2 С

Стоит отметить, что в двойственных задачах появляются дополнительные динамические ограничения, и требуется вносить изменения в классический алгоритм оптимизации алгоритма опорных векторов. Предлагаются два алгоритма решения подобных задач. Первый алгоритм решения полученной двойственной задачи (5), (6) можно сформулировать следующим образом. Шаг 1. Найдем некоторое начальное решение /(х), используя функцию потерь Лапласа.

Шаг 2. Вычислим значения , ^ как расстояние от элементов выборки до по-[/(*/)-У/. /(*,)-Л >О

лученного решения ¿у = •!

' [О, /(*,)-)>,•< О

Ь-/(*,), у{-/(хО>о .

С-, , 1 = 1,...,п.

[о, у/-/(*/)< о

Шаг 3. Используя вычисленные значения ^, ^, зафиксируем ограничения (6) и решим задачу (5), используя, например, алгоритм последовательной оптимизации (БМО алгоритм).

Шаг 4. Вычислим значения ^, для нового решения. Если для полученных

значений , ограничения (6) изменяются и на предыдущих шагах подобной их комбинации не встречалось, то переходим на шаг 3. В противном случае решение, полученное на шаге 3, является окончательным.

Для предотвращения возможного зацикливания в предложенной выше оптимизационной процедуре для всех точек выборки ведется учет типов ограничений, которые фиксируются на шаге 3, для двойственных переменных на каждой итерации алгоритма. При появлении уже встречавшейся ранее комбинации ограничений, работа алгоритма заканчивается. Очевидно, что в силу конечного числа возможных комбинаций ограничений, гарантируется завершение алгоритма. Многочисленные проведенные вычислительные эксперименты показывают, что алгоритм сходится за несколько шагов. Дополнительно для контроля достижения точки оптимума используется сравнение значений целевых функций прямой и двойственной задачи. В точке оптимума их значения должны совпадать.

Альтернативный алгоритм, основанный на использовании функции е-нечувствительности Вапника, приводится в п. 2.3.4.

В п. 2.4 приводятся результаты исследований робастности алгоритма опорных векторов с различными функциями потерь на нескольких модельных примерах. Показано, что предложенные адаптивные функции потерь Лапласа и Хьюбера обеспечивают робастность в условиях не только «тяжелых хвостов», но и в условиях асимметричных засорений.

Глава 3. Конструирование двойственной задачи БУМ с асимметричными функциями потерь

В данной главе приведена теоретическая основа восстановления зависимостей на основе 5УМ для случая ошибок наблюдений, имеющих асимметричное распределение.

Существует целый ряд задач, в которых распределение ошибок наблюдений не является симметричным. В п. 3.1 приводятся примеры подобных задач.

Можно выделить два основных класса асимметричных распределений: изначально асимметричные распределения (например, распределение экстремального значения) и скошенные распределения, полученные на основе базового симметричного распределения (скошенное Лапласа, Стьюдента и т.д.).

Опираясь на вид оптимальных функций потерь для различных плотностей распределений ошибок наблюдений, для практического использования можно конструировать их аппроксимации. При этом следует учитывать, что в алгоритме опорных векторов для поиска решения традиционно используется задача квадратичного программирования, что сужает класс используемых для аппроксимации функций до линейных и квадратичных. Получаемые таким способом аппроксимации функций потерь будем называть квазиоптимальными.

В п. 3.2 показывается построение квазиоптимальных функций потерь на основе линейно-квадратичных аппроксимаций для использования их в БУМ. В случае несимметричного закона распределения ошибок наблюдений оптимизационную задачу в 8УМ можно сформулировать следующим образом

шш

иФ44*

1 г

— Ц! Ы +

2 *=1

с±(щк)+ь'ф)

при ограничениях

ук-у7 (р{хк)-ъ<е + %к,

-ук+ыТ<р{хк)+Ъ<е + %1,

4>0, &*>0, * = 1,...,и, где Ц£) и Ь'(^) - функции потерь, используемые при отклонении наблюдений в ту или другую сторону от линии регрессии, <р(х) - используемое нелинейное отображение исходных данных в пространство большей размерности.

Возможны следующие варианты параметризации этих функций потерь:

1) 1(£) = Й7(£), =

2) Ц£) = тЦв£), = ?? ((1

3) Ц£) = Й7(£), 1'^) = {\-в)т]'(4)-

Здесь т](д) и г)'(д) - некоторые функции потерь, например, Гаусса, Лапласа или Хьюбера, а параметр в е. (0,1) призван учитывать разницу в углах наклона правой и левой ветвей аппроксимируемой функции потерь.

В п. 3.3 приводится формулировка двойственной задачи для случая асимметричных функций потерь в БУМ:

п п , , , . п

1/ * \ / * \ / * \

тах* - ~ Е X (а1 - а*1) (а] -а)) (х' Нх/)+Цаг< - а*) У1

Щ 1=1 ]=\ /=1

/

(7)

Для функции потерь Лапласа 7](£) = , используя вариант параметризации №1, получаем

1 п п I *\1 11 *\ "/ *

тах* - а)) / (-V, )(р (* /)+ X ( а1 - «Г)}'; -£Ц(а1 + а1

¿=1 ./=1 /=1 /=1

при ограничениях

£(щ -а*) = 0, а{ е [0, Св\а* е [О, С( 1 - 6»)]. /=1

(В)

Аналогично, подставляя в качестве т](£) функцию потерь Хьюбера, для вариантов параметризации №1 и №2, соответственно, получаем следующий вид последнего слагаемого в (7):

1)

СТ(а) = -

2 С

2) СТ(а) = ——-2 С

I

л

I

/=1

а,-

а,-

*2

1-<9

Л

(X;

а -ву

Ограничения, накладываемые на переменные щ и щ , совпадают с (8).

Для варианта параметризации №3, когда левая ветвь аппроксимируется функцией потерь Лапласа, а правая - функцией потерь Хьюбера, т.е. //(£) = \д\ и

^ и*'

получаем СТ(а) = -

2 С

а,

*2

I" 2

. Ограничения,

накладываемые на переменные а,- и ог,- , также совпадают с (8).

В п. 3.4 приводятся исследования алгоритма опорных векторов с различными функциями потерь в условиях асимметричных распределений ошибок наблюдений на основе нескольких модельных примеров. Показано, что использование асимметричных функций потерь позволяет существенно уменьшить среднеквадратичную ошибку аппроксимации в сравнении с симметричными функциями потерь.

В п. 3.5 рассматривается вопрос оценки параметра скошенности распределения в. Приводятся различные методы оценки в зависимости от степени априорной информации.

В п. 3.6 приводится формулировка квантильной регрессии на основе БУМ с использованием асимметричных функций потерь. Дается двойственная формулировка задачи БУМ для этого случая. Рассматриваются различные варианты учета асимметрии функции потерь.

Двойственная задача для построения квантильной регрессии на основе БУМ при использовании функции потерь Хьюбера принимает вид

1 п п *\/ *\ п / *\ тах* ~а*])(рт {хМхМца1 ~а*)У'

а,-,«,- ¡=17=1 1=1

о,- | а* в2 (1-0)2

при ограничениях (8). В данном случае ве (0,1) - заданная квантиль.

В п. 3.7 рассматривается вопрос построения доверительных интервалов на основе квантильной регрессии. В частности, задавая различные значения параметра в, можно строить доверительные интервалы для отклика. В условиях постоянства дисперсии ошибок наблюдений (рис. 2(а)), построенные на основе БУМ интервалы оказываются близки к интервалам, построенным на основе классического подхода с использованием метода наименьших квадратов (МНК). При этом, в отличие от классического подхода, предложенный метод построения доверительного интервала для отклика можно использовать также и в условиях, когда дисперсия ошибок наблюдений не является постоянной (рис. 2(6)).

Рис. 2. 95% доверительные интервалы для отклика когда: а) дисперсия ошибок постоянная; б) дисперсия ошибок переменная (линейно возрастает вдоль оси абсцисс)

В п. 3.8 показывается, как квантильная регрессия на основе БУМ может быть использована для построения оценок неизвестной дисперсии ошибок наблюдений.

Глава 4. Построение разреженных решений

В данной главе приводятся методы построения разреженных решений при построении регрессионных моделей на основе БУМ.

В п. 4.1 формулируется задача построения компактной модели регрессии. Приводится обзор подходов к решению данной задачи.

В п. 4.2 рассматривается механизм получения разреженных решений на основе функции е-нечувствительности Вапника.

1 л

1 (Т-^-1

2 с

А и ¿=1

В п. 4.3 описывается использование предложенных адаптивных функций потерь для получения разреженных решений. Если говорить о разреженности в терминах функции потерь , или точнее относительно ее графика от аргумента то возникновение разреженных решений обусловлено наличием участков постоянства (зон нечувствительности). Решение формируется на опорных векторах х,-, не попадающих на участки постоянства функции Цд). Недостатком функции потерь е -нечувствительности Вапника является то, что эти участки непостоянства при относительно широкой полосе е могут приходиться на хвосты распределения ошибок наблюдений.

Для устранения данного недостатка предлагается расширение функции е -нечувствительности Вапника на случай нескольких зон нечувствительности, которые располагаются на различном удалении от нулевой точки. Для этого предлагается использовать адаптивные функции потерь Лапласа и Хьюбера с параметром г = 0. На рис. 3(а) представлен график адаптивной функции потерь Лапласа.

Подход, описанный в п. 4.3, обобщается на случай произвольного числа зон нечувствительности в п. 4.4. Данный метод назван «решето» Лапласа. Функция потерь для этого метода показана на рис. 3(6).

ц?)

5цЦУ

4 5 -4

35 3 25 2 15 1

0.5

.......е - нечувствительности

-«Решето» Лапласа

---Лапласа

а)

б)

Рис. 3. Вид функций потерь для построения разреженных решений: а) адаптивная функция потерь Лапласа при т = 0 (£ = 1, сг = 3); б) функция потерь метода «решето» Лапласа

В п. 4.5 представлен другой метод получения разреженных решений -двухшаговый метод аппроксимации. Суть данного метода заключается в следующем. Сначала строится обычное неразреженное решение на основе какой-либо функции потерь, например, Лапласа или Хьюбера. Полученное решение должно удовлетворять исследователя по качеству аппроксимации, степени гладкости и другим необходимым свойствам. Данное базовое или исходное решение будет на втором шаге аппроксимировано разреженным решением, которое формируется при использовании функции потерь е-нечувствительности Вапника. Для этого по полученной исходной модели генерируется необходимое число наблюдений, по возможности равномерно размещенных во всем про-

странстве определения исходных переменных. Эти наблюдения образуют множество виртуальных опорных векторов, на базе которых и будет построено разреженное решение.

Основную идею данного метода иллюстрирует рис. 4. Здесь окружностями обозначены опорные векторы, сплошной линией - истинная функция, пунктирной - 5УМ-рсгрсссия. Очевидно, что в силу конструкции метода, наибольшая разреженность, при сохранении высокой точности, будет достигаться для слабо осциллирующих функций.

В п. 4.6 рассматривается проблема построения разреженных решений в условиях гетероскедастичности ошибок наблюдений. Для учета гетероскедастич-ности необходимо чтобы ширина зоны нечувствительности менялась в зависимости от величины дисперсии. Чем выше величина дисперсии, тем шире должна быть зона нечувствительности. На участках, где дисперсия мала, зона нечувствительности должна быть узкой. Показано, что благодаря учету гетероскедастичности, удается не только существенно уменьшить среднеквадратичную

Рис. 4. Двухшаговый метод аппроксимации: а) начальное решение; б) аппроксимация решения на основе сгенерированных наблюдений

В п. 4.7 приводятся исследования различных методов построения разреженных решений. В качестве моделей, порождающих данные, использовались

две функции: /1(х) = ехр|-(х-3)2 /0.4^ и Г2(х) = ^т(х)со^(х^). Результаты исследований представлены в таблице 1.

Исследования показали, что предложенные методы предоставляют возможность получения разреженных решений при сохранении высокой точности аппроксимации данных (низком значении среднеквадратичной ошибки аппроксимации - МБЕ). Их важным отличием от существующих методов является стабильность относительного числа опорных векторов (Я) при увеличении объема выборки и степени зашумления данных.

Таблица 1

Используемая функция потерь /метод Уровень помехи П(х) Ч(х)

М5Е 5 A1.SE 5

Лапласа 10% 0.0489 100.0% 0.1066 100.0%

20% 0.0680 100.0% 0.1473 100.0%

30% 0.0964 100.0% 0.1683 100.0%

е-нечувстителыюсти Вапника 10% 0.0700 9.1% 0.1559 13.8%

20% 0.0778 17.8% 0.1438 19.6%

30% 0.0738 24.1% 0.1746 29.1%

Адаптивная функция потерь Лапласа 10% 0.0451 14.3% 0.1021 28.4%

20% 0.0769 14.4% 0.1489 28.2%

30% 0.0808 13.1% 0.1699 26.9%

Двухшаговый метод аппроксимации 10% 0.0519 10.6% 0.0889 23.7%

20% 0.0586 11.1% 0.1331 25.4%

30% 0.0815 12.0% 0.1801 25.4%

Глава 5. Применение БУМ в задачах восстановления зависимостей

В данной главе исследованы возможности БУМ для построения параметрических и полупараметрических моделей регрессии. Приведены модификации БУМ для учета автокорреляции и гетероскедастичности ошибок наблюдений. На реальных данных продемонстрировано использование предложенных модификаций БУМ для построения регрессионных моделей.

В п. 5.1 показана возможность построения параметрических моделей на основе БУМ при использовании полиномиальных ядерных функций. Если использовать в БУМ функцию потерь Лапласа, то в случае зашумления с тяжелыми хвостами (Лапласа, Коши), БУМ существенно превосходит МНК как по точности оценок параметров, так и по значению среднеквадратичной ошибки аппроксимации. Очевидно, что если в БУМ использовать функцию потерь Гаусса, то результаты окажутся близки к тем, что получаются в результате использования МНК. Таким образом, используя БУМ для построения параметрических моделей, можно оценивать параметры моделей также как и в классических параметрических методах (например, МНК). Основным преимуществом БУМ в данном случае можно считать возможность получения решений с использованием различных функций потерь и гарантию единственности решения.

В п. 5.2 приводится метод построения полупараметрических моделей на основе БУМ. Предложенный подход базируется на использовании комбинации ядерных функций. Как известно, линейная комбинация ядер с положительными весами также является ядром. Благодаря этому свойству ядер можно комбинировать различные ядерные функции. Иногда на практике встречаются ситуации, когда в рассматриваемой зависимости явно прослеживается некий глобальный тренд (к примеру, в финансовых рядах, когда идет восходящий тренд с периодическими колебаниями). В этом случае целесообразно использовать смесь ядер: первое ядро будет описывать глобальный тренд, второе - локаль-

ные колебания. К примеру, если взять комбинацию полиномиального и Гауссова ядер:

2 Л

K(Xj,Xj) = jUQXp

2s2

-(l-M)(xixj+l)d,

где d - степень полинома, s - ширина ядра, jug [0,1] - параметр смеси, то получим возможность описывать основной тренд гладкими полиномами, а локальные осцилляции зависимости будут описываться с использованием Гауссова ядра.

В п. 5.3 представлены модификации SVM для построения регрессионных моделей в условиях гетероскедастичности ошибок наблюдений. Предложены три подхода для учета эффекта гетероскедастичности в SVM, два из которых позволяют использовать SVM в условиях отсутствия априорных знаний о характере изменения дисперсии ошибок наблюдений.

Первый подход основан на использовании с-нечувствительной функции потерь с зоной нечувствительности, пропорциональной дисперсии наблюдений.

Второй подход, не связанный с параметризацией функции, описывающей поведение дисперсии отклика, состоит в следующем. Это обычная многошаговая схема (минимум два шага), когда на первом шаге оцениваются остатки, а на втором шаге идет окончательная (или промежуточная) оценка решения с учетом величин этих остатков. В этом случае весь интервал оцененных на первом шаге остатков разбивается на несколько равночастотных интервалов, и для наблюдений из этих интервалов назначается свой коридор нечувствительности. В этом случае влияние наблюдений с различной дисперсией уравнивается. Число интервалов разбиения может варьироваться. Чем выше темп изменения дисперсии, тем больше интервалов разбиения должно быть для более точного учета этих изменений. Данный подход можно считать непараметрическим вариантом учета гетероскедастичности.

Третий подход заключается в использовании оценок величины дисперсии на основе квантильной регрессии, которые были представлены в главе 3. Данный подход также можно считать непараметрическим, поскольку он не требует наличия априорной информации о характере изменения дисперсии ошибок наблюдений.

В п. 5.4 исследуется применение SVM в условиях мультиколлинеарности данных. Явление мультиколлинеарности возникает, если между объясняющими переменными существуют почти точные линейные зависимости (в интервале их изменения в эксперименте). В условиях мультиколлинеарности данных при использовании МНК приходится иметь дело с близкой к вырожденной матри-т

цей £i = Z Z, где Z - матрица регрессоров. Одним из вариантов решения проблемы вырожденности матрицы Q является использование регуляризации. К примеру, в методе ридж-оценок для улучшения обусловленности матрицы £1 к ней добавляется диагональная матрица.

На основе вычислительных экспериментов показано, что SVM нечувствителен к эффекту мультиколлинеарности данных. При использовании SVM в

этом случае все параметры, кроме тех, которые соответствуют «коррелированным» регрессорам, определяются достаточно точно. Оценки параметров модели, полученные с использованием SVM, оказываются близки к ридж-оценкам. Однако, в отличие от ридж-оценок, в SVM имеется возможность использования робастных функций потерь, таких как функции потерь Лапласа и Хьюбера.

В п. 5.5 исследуется применение SVM в условиях автокорреляции ошибок наблюдений. Предлагается модификация SVM для учета эффекта автокорреляции первого порядка. Показано, что при автокорреляции первого порядка с известным параметром автокорреляции р, в SVM необходимо выполнить замену

переменных у'к= Ук~РУк-1> к = 2,п, b' = (1-р)Ь. Ядерную функцию, используемую при построении регрессионной модели, необходимо заменить на K'(xj ,Xj) = K(Xj, xj) - pK(Xj_! ,xj)~ pK(Xj, xj_i ) + p2K(xi_l, Xj_x), i, j = 2 ,n. При этом отклик для модели будет вычисляться следующим образом:

У(х) = X «Г; [K{X,Xi) - рК{Х„гм )] + //. ;=2

В п. 5.6 рассматривается проблема выбора параметров метода SVM. Исследуется вопрос подбора оптимальных значений параметров алгоритма SVM. Показано, что эффективным вариантом выбора параметров является их подбор на основе вложенных сеток вокруг эвристически выбранных значений параметров.

В п. 5.7 исследуется применение метода SVM в прикладных задачах. В качестве первого примера рассматривается технологический процесс химического производства. Анализ этого процесса производится на основе трех различных откликов, которые принимают свои значения в зависимости от значений пяти факторов. Показано, что применение предложенных адаптивных функций потерь позволяет повысить качество регрессионной модели. В качестве других примеров используются широко распространенные выборки данных из сети интернет: «LIDAR», «Motorcycle», «Boston Housing». На примере этих выборок показана эффективность предложенных модификаций SVM в условиях гетеро-скедастичности ошибок наблюдений и наличия выбросов в данных.

Заключение

Основные результаты могут быть сформулированы следующим образом:

1. Для решения задачи устойчивого оценивания модели регрессии по технологии SVM в условиях зашумленных данных с помехой, имеющей распределение с «тяжелыми хвостами» или имеющей асимметричное засорение, предложено использование адаптивных функций потерь. Сформулирована двойственная задача для этого случая и реализована итерационная схема решения задачи квадратичного программирования с динамическими ограничениями.

2. Для построения регрессионных моделей в условиях, когда ошибки наблюдений имеют асимметричное распределение, предложено использование

асимметричных функций потерь в методе SVM. Сформулирована прямая и двойственная задачи для этого случая.

3. Обобщен метод квантильной регрессии на основе SVM на случай произвольной функции потерь. На его основе предложен метод построения доверительных интервалов для отклика, а также непараметрический метод оценки неизвестной дисперсии ошибок наблюдений.

4. Для построения компактной модели регрессии в условиях работы с выборками большого объема разработаны алгоритмы построения разреженных решений в SVM. Показана их эффективность в сравнении с классическим методом построения разреженных решений на основе функции нечувствительности Вапника. Предложена модификация SVM, позволяющая строить разреженные решения в условиях гетероскедастичности ошибок наблюдений.

5. Проведено экспериментальное исследование возможности построения регрессионных моделей с использованием SVM в условиях мультиколлинеар-ности данных, автокорреляции и гетероскедастичности ошибок наблюдений. Предложены модификации SVM для учета гетероскедастичности и автокорреляции ошибок наблюдений. Для предложенных модификаций сформулированы прямые и двойственные задачи SVM.

6. Разработана программная система для построения регрессионных моделей с использованием SVM. Разработанное программное обеспечение используется при проведении научных исследований.

Список публикаций

1. Попов A.A. Использование оценок степени гладкости функции при построении регрессии на основе метода опорных векторов / А. А. Попов, А. С. Саутин // Молодежь и современные информационные технологии : сб. тр. -Томск, 2008.-С. 149-150.

2. Попов А. А. Сравнение методов выбора параметров алгоритма опорных векторов в задаче построения регрессии / А. А. Попов, А. С. Саутин // Информатика и проблема телекоммуникаций: материалы российской науч.-технич. конф. - Новосибирск, 2008. - С. 74-77.

3. Саутин А. С. К вопросу о смещении решения в задаче построения регрессии с использованием алгоритма опорных векторов / А. С. Саутин // Современные информационные технологии : сб. статей. - Пенза, 2008. - С. 122-125.

4. Попов А. А. Анализ функций потерь в алгоритме опорных векторов при решении задачи построения регрессии / А. А. Попов, А. С. Саутин // Тр. меж-дунар. конф. «Актуальные проблемы электронного приборостроения АПЭП-2008». - Новосибирск, 2008. - Т. 6. - С. 57-60.

5. Popov A. A. Selection of support vector machines parameters for regression using nested grids / A. A. Popov, A. S. Sautin // The Third International Forum on Strategic Technology. - Novosibirsk, 2008. - P. 329-331. [Выбор параметров алгоритма опорных векторов в задаче построения регрессионных моделей с использованием вложенных сеток]

6. Попов А. А. Определение параметров алгоритма опорных векторов при решении задачи построения регрессии / А. А. Попов, А. С. Саутин // Сб. научн. тр. НГТУ. - Новосибирск, 2008. - С. 35-40.

7. Popov A. A. Adaptive Huber Loss Function in Support Vector Regression / A. A. Popov, A. S. Sautin // The fourth international forum on strategic technology. -Hochiminh, Vietnam, 2009. - P. 114-118. [Адаптивная функция потерь Хью-бера в задаче построения регрессионных моделей на основе алгоритма опорных векторов]

8. Попов А. А. Построение регрессии по методу опорных векторов с ошибками наблюдений, имеющими асимметричное распределение / А. А. Попов, А. С. Саутин // Доклады АН ВШ РФ. - Новосибирск, 2009. - С. 117-126.

9. Попов А. А. Использование робастных функций потерь в алгоритме опорных векторов при решении задачи построения регрессии / А. А. Попов, А. С. Саутин // Научн. вести. НГТУ. - 2009. - № 4(37). - с. 45-56. (из перечня ВАК)

Ю.Попов А. А. Построение разреженных решений при использовании алгоритма опорных векторов в задаче восстановления зависимости / А. А. Попов, А. С. Саутин // Научн. вестн. НГТУ. - 2010. - № 2(39). - С. 31-42. (из перечня ВАК)

П.Попов A.A. Оценивание дисперсии ошибок наблюдений с использованием квантильной регрессии на основе алгоритма опорных векторов / А. А. Попов, А. С. Саутин // Информатика и проблема телекоммуникаций: материалы российской науч.-технич. конф. - Новосибирск: Изд-во СибГУТИ, 2010. — Том!.-С. 90-93.

Отпечатано в типографии Новосибирского государственного технического университета 630092, г. Новосибирск, пр. К. Маркса, 20, Тел./факс (383) 346-08-57 Формат 60 х 84/16. Объем 1,25 п.л. Тираж 100 экз. Заказ 1674. Подписано в печать 12.11.2010 г.

Оглавление автор диссертации — кандидата технических наук Саутин, Александр Сергеевич

Введение.

ГЛАВА 1. ПОСТАНОВКА ЗАДАЧ ИССЛЕДОВАНИЯ.

1.1. Задача построения математической модели явления.

1.2. Теория машинного обучения.

1.2.1. Машинное обучение и связанные с ним проблемы.

1.2.2. Принцип минимизации структурного риска.

1.3. Алгоритм опорных векторов как метод построения непараметрической регрессии.

1.3.1. Алгоритм опорных векторов.

1.3.2. Двойственная задача БУМ.

1.3.3. Вычисление параметра смещения Ь.

1.4. Разреженность решения.

1.5. Нелинейная регрессия на основе БУМ.

1.6. Обзор подходов к решению оптимизационной задачи.

1.7. Выбор гиперпараметров алгоритма ЭУМ.

1.8. Исторический обзор.

1.9. Выводы.

ГЛАВА 2. КОНСТРУИРОВАНИЕ ДВОЙСТВЕННОЙ ЗАДАЧИ БУМ С АДАПТИВНЫМИ ФУНКЦИЯМИ ПОТЕРЬ.

2.1. Построение квазиоптимальных функций потерь.

2.1.1. Функции потерь.

2.1.2. Функционал риска.

2.1.3. Метод максимального правдоподобия и модели плотностей.

2.2. Робастные функции потерь в условиях асимметричных засорений.

2.3. Конструирование двойственной задачи 8УМ.

2.2.1. Двойственная задача для классических функций потерь.

2.2.2. Двойственная задача для адаптивных функций потерь.

2.2.3. Решение двойственной задачи с динамическими ограничениями.

2.2.4. Альтернативный подход к построению двойственной задачи для адаптивной функции потерь.

2.4. Исследования.

2.5. Выводы.

ГЛАВА 3. КОНСТРУИРОВАНИЕ ДВОЙСТВЕННОЙ ЗАДАЧИ SVM С АСИММЕТРИЧНЫМИ ФУНКЦИЯМИ ПОТЕРЬ.

3.1. Скошенные распределения и их моделирование.

3.2. Конструирование квазиоптимальных функций потерь на основе линейно-квадратичных аппроксимаций для использования их в SVM.

3.3. Конструирование двойственной задачи для случая асимметричных функций потерь в SVM.

3.4. Исследования.^.

3.5. Оценка параметра скошенности распределения.

3.6. Квантильная регрессия на основе SVM.

3.7. Построение доверительных интервалов.

3.8. Оценка неизвестной дисперсии ошибок наблюдений.

3.9. Выводы.

ГЛАВА 4. ПОСТРОЕНИЕ РАЗРЕЖЕННЫХ РЕШЕНИЙ.

4.1. Задача построения компактной модели регрессии.

4.2. Функция 8-нечувствительности Вапника и разреженные решения.

4.3. Использование адаптивных функций потерь для получения разреженных решений.

4.4. Метод «решето» Лапласа.;.

4.5. Двухшаговый метод аппроксимации.

4.6. Разреженность в условиях гетероскедастичности ошибок наблюдений

4.7. Исследования.

4.8. Выводы.

ГЛАВА 5. ПРИМЕНЕНИЕ SVM В ЗАДАЧАХ ПОСТРОЕНИЯ ЗАВИСИМОСТЕЙ.

5.1. Построение параметрических моделей на основе SVM.

5.2. Построение полупараметрических моделей на основе SVM.

5.3. Построение регрессии в условиях гетероскедастичности ошибок наблюдений.

5.4. Построение регрессии в условиях мультиколлинеарности данных.

5.5. Построение регрессии в условиях автокорреляции ошибок наблюдений.

5.6. Выбор параметров алгоритма SVM.

5.7. Применение метода SVM в прикладных задачах.

5.7.1. Анализ экспериментальных данных химического производства

5.7.2. Анализ выборки «LIDAR».

5.7.3. Анализ выборки «Motorcycle».

5.7.4. Анализ выборки «Boston Housing».

5.8. Выводы.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Саутин, Александр Сергеевич

Современное состояние и актуальность темы исследований. Одной из важнейших задач, стоящих перед современной наукой, является моделирование сложных систем на основе наблюдения их взаимодействия с окружающим миром. Моделирование необходимо для того, чтобы выбрать структуру и параметры модели сложного объекта (задача идентификации) и определить соответствующие средства активного воздействия на него (задача управления) или, если мы не располагаем такими средствами в полной мере, чтобы узнать, что можно ожидать от объекта в будущем (задача прогнозирования или экстраполяции).

Задача восстановления зависимости по эмпирическим данным была и, вероятно, всегда будет одной из главных в прикладном анализе. Эта задача является математической интерпретацией одной из основных проблем естествознания: как найти существующую закономерность по разрозненным фактам.

В наиболее простой постановке проблема построения регрессионной модели состоит в восстановлении функции по ее значениям в некоторых точках. Существуют различные варианты конкретизации постановки этой задачи. Они основаны на разных моделях измерения с ошибками. Однако каковы бы ни были эти модели, изучение этой задачи приводит к утверждению следующего классического принципа восстановления функциональных зависимостей по эмпирическим данным: следует из допустимого множества функций выбирать такую, которая наилучшим образом описывает совокупность имеющихся эмпирических данных.

Этот принцип является достаточно общим. Он оставляет свободу в толковании того, что является мерой качества приближения функции к совокупности эмпирических данных. Возможны различные определения меры, такие, например, как величина среднеквадратичного отклонения значений функции, величина среднего отклонения, величина наибольшего отклонения и т.д. Каждое определение меры порождает свой метод восстановления зависимости (метод наименьших квадратов, наименьших модулей и т.д.). Однако во всех случаях принцип отыскания решения - поиск функции, наилучшим образом описывающей эмпирические данные, - остается неизменным.

В более общей постановке проблема восстановления зависимости приводит к задаче подбора модели оптимальной сложности. Изначально данная задача была как бы внешней и не встраивалась сразу в одну общую задачу. Примером нового подхода является подход по самоорганизации моделей, в свое время развитый школой А. Г. Ивахненко [17], а впоследствии и А. А. Поповым [23, 24], принесшим в него идеи оптимального планирования эксперимента, в частности, разбиения выборки на обучающую и проверочную, в целом - идею активной структурной идентификации. Пожалуй, одним из первых подходов, когда организуется одна общая задача, в параметрическом случае является метод LASSO, предложенный Р. Тибширани [101]. В непараметрическом случае одним из подходов является алгоритм опорных векторов (Support Vector Machines - SVM).

SVM является одним из сравнительно новых и многообещающих методов для построения регрессионных моделей и классификации данных. SVM - это оформившийся к 1990-м годам результат работ В. Н. Вапника [8, 9] и

A. Я. Червоненкиса, начатых в 70-е годы прошлого столетия. Данный метод основан на теории статистического обучения [104]. Изначально SVM был использован для решения задачи классификации данных. Позже, в 1996 году

B. Вапником, X. Драккером, К. Берджесом, Л. Кауфман и А. Смолой была предложена модификация SVM применительно к задаче построения регрессионных моделей [59]. Метод SVM активно развивался в последующие годы такими учеными как А. Смола, Дж. Сайкенс, К. Кортес, Т. Джоагимс и др.

За небольшой промежуток времени алгоритм опорных векторов был использован для решения задач классификации данных и восстановления зависимостей во многих областях. Особенно успешным его применение было в таких областях как распознавание лиц [81], категоризация текстов [72], построение регрессионных моделей [59, 88, 94, 51], предсказание временных рядов [80] и распознавание рукописных символов [89]. Достаточно подробный анализ алгоритма опорных векторов можно найти в [53, 88, 104].

При построении регрессионных моделей изначально в БУМ использовалась функция потерь Вапника, которая представляет собой расширение функции потерь Лапласа путем добавления зоны нечувствительности. В последствии Дж. Сайкенсом было предложено расширение БУМ, где использовалась квадратичная функция потерь (Гаусса) [98]. Данная модификация БУМ получила название иЗ-БУМ. Подробное исследование ЬЭ-ЭУМ в - задаче построения регрессионных моделей было проведено Дж. Брабантером [51]. Исследования ЬБ-ЭУМ в условиях автокорреляции ошибок наблюдений проводились М. Эспинозой, Дж. Сайкенсом и Б. Де Муром [62]. Подробные исследования аппарата ядерных функций [4], который позволил расширить применение 8УМ для восстановления нелинейных зависимостей, проводились А. Смолой, Б. Шелкопфом и К. Берджесом [88]. Также в этой области исследований активно работали Н. Кристианини, Дж. Шов-Тейлор [58] и др.

В подавляющем большинстве публикаций, посвященных построению регрессионных моделей с использованием 8 УМ, проводятся исследования лишь с использованием функций потерь Лапласа или Гаусса. Однако на практике встречается необходимость использования и других функций потерь, что связано с тем, что распределения ошибок наблюдений могут существенно отличаться от нормального. Более того,, возможны случаи и асимметричных распределений ошибок наблюдений, а, как известно, даже функция потерь Лапласа не обеспечивает робастности в таких условиях [13]. К тому же могут иметь место осложняющие факторы, такие как, явление мультиколлинеарности данных, гетероскедастичности и автокорреляции ошибок наблюдений.

В связи с тем, что БУМ сравнительно недавно разработанный метод, остается целый ряд вопросов его применения в задаче построения регрессии. Этот ряд вопросов включает в себя использование 8УМ при различных моделях ошибок наблюдений, в условиях мультиколлинеарности данных, при нарушении предположений о независимости и постоянстве дисперсии ошибок наблюдений. Исследование перечисленных вопросов нашло свое отражение в данной диссертационной работе. Поднятые в ней вопросы разработки и исследования модификаций 8УМ для применения в условиях нарушения предположений классического регрессионного анализа (независимости и нормальности ошибок наблюдений) представляются весьма актуальными. Цель и задачи исследований. Основной целью диссертационной работы является дальнейшее развитие, на основе использования компьютерного моделирования, БУМ в задачах построения регрессионных моделей, и разработка его модификаций для более адекватного описания реальной ситуации.

Для достижения поставленной цели предусмотрено решение следующих задач:

- исследование возможностей использования БУМ при построении регрессионных моделей в условиях наличия сильных выбросов в данных;

- разработка модификаций БУМ для учета асимметричности ошибок наблюдений;

- разработка методов построения разреженных решений на основе БУМ;

- исследование БУМ в условиях мультиколлинеарности данных;

- построение модификаций БУМ, направленных на возможность учета гетероскедастичности и автокорреляции ошибок наблюдений;

- разработка на основе БУМ методов для построения квантильной регрессии и оценок неизвестной дисперсии ошибок наблюдений;

- разработка эффективных методов выбора гиперпараметров БУМ. Методы исследования. Для решения поставленных задач использовался аппарат теории вероятностей, математической статистики, вычислительной математики, математического программирования, статистического моделирования.

Научная новизна диссертационной работы заключается в:

- формулировках двойственных задач 8УМ для применения данного метода в условиях наличия сильных выбросов в данных и асимметричного засорения;

- результатах исследования БУМ при асимметричных распределениях ошибок наблюдений и обобщении модификации БУМ для построения квантильной регрессии на случай произвольной функции потерь;

- модификациях БУМ для: получения разреженных решений, учета эффекта гетероскедастичности и автокорреляции ошибок наблюдений;

- результатах численных исследований предложенных методов с использованием технологии статистического моделирования.

Основные положения, выносимые на защиту.

1. Формулировки двойственных задач БУМ при использовании адаптивных функций потерь и алгоритмы их решения.

2. Результаты исследования БУМ в условиях асимметричных распределений ошибок наблюдений.

3. Расширение возможностей БУМ при построении разреженных решений за счет использования адаптивных функций потерь.

4. Результаты исследования возможности использования БУМ в условиях мультиколлинеарности данных, гетероскедастичности и автокорреляции ошибок наблюдений, а также при построении параметрических и полупараметрических моделей.

5. Результаты исследования возможности использования квантильного варианта БУМ для построения доверительных интервалов и оценки неизвестной дисперсии.

Обоснованность и достоверность научных положений, выводов и рекомендаций обеспечивается:

- корректным применением аналитического аппарата математического анализа, теории вероятностей и математической статистики для исследования свойств построенных моделей;

- подтверждением аналитических выводов и рекомендаций результатами статистического моделирования.

Личный творческий вклад автора заключается в проведении исследований, обосновывающих основные положения, выносимые на защиту. Практическая ценность результатов:

- разработанные модификации БУМ позволяют строить регрессионные модели в условиях иаличия выбросов в данных и асимметричных распределений ошибок наблюдений;

- предложенные методы на основе адаптивных функций потерь позволяют получать разреженные модели при использовании 8УМ на выборках данных большого объема;

- проведенные исследования позволяют корректно использовать 8УМ в условиях мультиколлинеарности данных, а также в условиях гетероскедастичности и автокорреляции ошибок наблюдений;

- созданное программное обеспечение позволяет эффективно строить регрессионные модели, применяя разработанные подходы;

Апробация работы. Основные результаты исследований, проведенных автором, докладывались и обсуждались на Российской НТК «Информатика и проблемы телекоммуникаций» (Новосибирск, 2008 и 2010); Всероссийской конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2008); Третьем международном форуме по стратегическим технологиям ПЮБТ (Новосибирск, 2008); Четвертом международном форуме по стратегическим технологиям ¡БОБТ (Хошимин, 2009); IX международной конференции «Актуальные проблемы электронного приборостроения АПЭП12008» (Новосибирск, 2008). Публикации. Основные научные результаты диссертации опубликованы в 11 печатных работах, из которых 2 - в журналах, рекомендованных ВАК, одна - в докладах АН ВШ РФ, 5 - в сборниках научных работ, 3 - в материалах конференций.

Структура работы. Диссертация состоит из введения, пяти глав, заключения, списка использованных источников (106 наименований) и двух приложений. Общий объем диссертации составляет 177 страниц, включая 21 таблицу и 58 рисунков.

Заключение диссертация на тему "Разработка и исследование методов построения регрессионных моделей на основе алгоритма опорных векторов и его модификаций"

5.8. Выводы

Основные полученные результаты:

1. Проведены исследования возможности использования SVM для построения параметрических и полупараметрических моделей

2. Предложены модификации SVM для учета эффекта гетероскедастичности ошибок наблюдений.

3. Предложены поправки для SVM при построении моделей в условиях автокорреляции ошибок наблюдений.

4. Проведены исследования использования SVM в условиях мультикол-линеарности данных, которые показали его достаточно низкую чувствительность к эффекту мультиколлинеарности.

5. Предложено использование оценки степени гладкости решения в качестве дополнительного критерия оценки качества модели в SVM.

6. Проведены исследования предложенных модификаций SVM на прикладных задачах, которые показали высокую эффективность предложенных модификаций в «осложненных» условиях.

155

ЗАКЛЮЧЕНИЕ

В соответствии с поставленными целями исследований получены следующие основные результаты:

1. Для решения задачи устойчивого оценивания модели регрессии по технологии БУМ в условиях зашумленных данных с помехой, имеющей распределение с «тяжелыми хвостами» или имеющей асимметричное засорение, предложено использование адаптивных функций потерь. Сформулирована двойственная задача для этого случая и реализована итерационная схема решения задачи квадратичного программирования с динамическими ограничениями.

2. Для построения регрессионных моделей в условиях, когда ошибки наблюдений имеют асимметричное распределение, предложено использование асимметричных функций потерь в методе БУМ. Сформулирована прямая и двойственная задачи для этого случая.

3. Обобщен метод квантильной регрессии на основе БУМ на случай произвольной функции потерь. На его основе предложен метод построения доверительных интервалов для отклика, а также непараметрический метод оценки неизвестной дисперсии ошибок наблюдений.

4. Для построения компактной модели регрессии в условиях работы с выборками большого объема разработаны алгоритмы построения разреженных решений в БУМ. Показана их эффективность в сравнении с классическим методом построения разреженных решений на основе функции нечувствительности Вапника. Предложена модификация БУМ, позволяющая строить разреженные решения в условиях гетероскедастичности ошибок наблюдений.

5. Проведено экспериментальное исследование возможности построения регрессионных моделей с использованием БУМ в условиях мультиколлинеар-ности данных, автокорреляции и гетероскедастичности ошибок наблюдений. Предложены модификации БУМ для учета гетероскедастичности и автокорреляции ошибок наблюдений. Для предложенных модификаций сформулированы прямые и двойственные задачи SVM. 6. Разработана программная система для построения регрессионных моделей с использованием SVM. Разработанное программное обеспечение используется при проведении научных исследований.

Библиография Саутин, Александр Сергеевич, диссертация по теме Теоретические основы информатики

1. Айвазян С. А. Прикладная статистика: основы моделирования и первичной обработки данных / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. -М. : Финансы и статистика, 1983. 472 с.

2. Айвазян С. А. Прикладная статистика: Исследование зависимостей / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. М. : Финансы и статистика, 1985.-487 с.

3. Айвазян С. А. Прикладная статистика: Классификация и снижение размерности / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин. М. : Финансы и статистика, 1989. - 607 с.

4. Айзерман М. А. Метод потенциальных функций в теории обучения машин / М. А. Айзерман, Э. М. Браверманн, Л. И. Розоноэр. М. : Наука. -1970.-384 с.

5. Базара М. Нелинейное программирование. Теория и алгоритмы / М. Базара, К. Шетти. М. : Мир, 1982. - 583 с.

6. Болдин М. В. Знаковый статистический анализ линейных моделей / Бол-дин М. В., Симонова Г. И., Тюрин Ю. Н. М. : Наука, 1997. - 208 с.

7. Боровков А. А. Математическая статистика. -М. : Наука, 1984. 472 с.

8. Вапник В. Н. Теория распознавания образов (статистические проблемы обучения) / В. Н. Вапник, А. Я. Червоненкис. М. : Наука, 1974. - 416 с.

9. Вапник В. Н. Восстановление зависимостей по эмпирическим данным / В. Н. Вапник. М. : Наука, 1979. - 447 с.

10. Гантмахер Ф. Р. Теория матриц / Ф. Р. Гантмахер. М. : Наука, 1988. -522 с.

11. Демиденко Е. 3. Линейная и нелинейная регрессии / Е. 3. Демиденко. -М. : Финансы и статистика, 1981. 302 с.

12. Демиденко Е. 3. Оптимизация и регрессия / Е. 3. Демиденко. М. : Наука, 1989.-296 с.

13. Денисов В. И. Методы построения многофакторных моделей по неоднородным, негауссовским, зависимым наблюдениям / В. И. Денисов, Д. В. Лисицин. — Новосибирск: Изд-во НГТУ. 2008. - 360 с.

14. Денисов В. И. Знаковый метод: преимущества, проблемы, алгоритмы /

15. B. И. Денисов, В. С. Тимофеев // Научн. вестн. НГТУ. 2001. - № 1(10).1. C. 21-35.

16. Денисов В. И. Построение алгоритмов оценивания параметров уравнения квантильной регрессии / В. И. Денисов, В. С. Тимофеев // Научн. вестн. НГТУ. 2009. - № 2(34). - С. 13-22.

17. Джонстон Дж. Эконометрические методы / Дж. Джонстон. М. : Статистика. - 1980.-444 с.

18. Ивахненко А. Г. Помехоустойчивость моделирования / А. Г. Ивахненко, В. С. Степашко. — Киев: Наукова думка, 1985. 216 с.

19. Ивченко Г. И. Математическая статистика / Г. И. Ивченко, Ю.И. Медведев. -М. : Высшая школа, 1984. 248 с.

20. Леман Э. Теория точечного оценивания / Э. Леман. М. : Наука, 1991. -444 с.

21. Медик В. А. Математическая статистика в медицине: учеб. пособие / В. А. Медик, М. С. Токмачев. М. : Финансы и статистика, 2007. - 800 с.

22. Мудров В. И. Методы обработки измерений: Квазиправдоподобные оценки / В. И. Мудров, В. Л. Кушко. М. : Радио и связь, 1983. - 304 с.

23. Орлов А. И. Часто ли распределение результатов наблюдений является нормальным? / А. И. Орлов // Заводская лаборатория. 1991. - Т. 57. -№ 7. - С. 64-66.

24. Попов А. А. Планирование эксперимента в задачах структурного моделирования с использованием критерия скользящего прогноза / А. А. Попов // Заводская лаборатория. 1996. - № 10. - С. 42-44.

25. Попов A.A. Разбиение выборки для внешних критериев селекции моделей с использованием методов планирования эксперимента / А. А. Попов // Заводская лаборатория. — 1997. № 1. - С. 49-53.

26. Попов А. А. Использование оценок степени гладкости функции при построении регрессии на основе метода опорных векторов / А. А. Попов, А. С. Саутин // Молодежь и современные информационные технологии : сб. тр. Томск, 2008. - С. 149-150.

27. Попов А. А. Сравнение методов выбора параметров алгоритма опорных векторов в задаче построения регрессии / А. А. Попов, А. С. Саутин // Информатика и проблема телекоммуникаций: материалы российской на-уч.-технич. конф. Новосибирск, 2008. - С. 74-77.

28. Попов А. А. Определение параметров алгоритма опорных векторов при решении задачи построения регрессии / А. А. Попов, А. С. Саутин // Сб. научн. тр. НГТУ. Новосибирск, 2008. - С. 35-40.

29. Попов А. А. Построение регрессии по методу опорных векторов с ошибками наблюдений, имеющими асимметричное распределение / А. А. Попов, А. С. Саутин // Доклады АН ВШ РФ. Новосибирск, 2009. - С. 117126.

30. Попов А. А. Использование робастных функций потерь в алгоритме опорных векторов при решении задачи построения регрессии / А. А. Попов, А. С. Саутин // Научн. вестн. НГТУ. 2009. - № 4(37). - С. 45-56.

31. Попов А. А. Построение разреженных решений при использовании алгоритма опорных векторов в задаче восстановления зависимости / А. А. Попов, А. С. Саутин // Научн. вестн. НГТУ. 2010. - № 2(39). - С. 31-42.

32. Робастность в статистике: подход на основе функций влияния / Ф. Хам-пель, Э. Рончетти, П. Рауссеу, В. Штаэль. М. : Мир, 1989. - 512 с.

33. Самарский А. А. Численные методы: Учеб. пособие для вузов / А. А. Самарский, А. В. Гулин. М. : Наука. - 1989. - 432 с.

34. Саутин А. С. К вопросу о смещении решения в задаче построения регрессии с использованием алгоритма опорных векторов / А. С. Саутин // Современные информационные технологии : сб. статей. Пенза, 2008. — С. 122-125.

35. Смоляк С. А. Устойчивые методы оценивания: Статистическая обработка неоднородных совокупностей / С. А. Смоляк, Б. П. Титаренко. М. : Ста-титика, 1980.-208 с.

36. Тихонов А. Н. Методы решения некорректных задач / А. Н. Тихонов, В. Я. Арсенин. М. : Наука, 1979. - 285 с.

37. Хардле В. Прикладная непараметрическая регрессия / В. Хардле. М. : Мир, 1993.-349 с.

38. Хеттманспергер Т. П. Статистические выводы, основанные на рангах / Т. П. Хеттманспергер. -М. : Финансы и статистика, 1987. 333 с.

39. Хьюбер П. Робастность в статистике / П. Хьюбер. М. : Мир, 1984. -303 с.

40. Цой Е. Б. Моделирование и управление в экономике (часть 1). Курс лекций / Е. Б. Цой, И. В. Самочернов. Новосибирск: Изд-во НГТУ. - 2003. -104 с.

41. Цыпкин Я. 3. Основы информационной теории, идентификации / Я. 3. Цыпкин. М. : Наука, 1984. - 320 с.

42. Шурыгин A.M. Прикладная стохастика: робастность, оценивание, прогноз / А. М. Шурыгин. -М. : Финансы и статистика, 2000. 224 с.

43. Aas К. Risk Estimation using the Multivariate Normal Inverse Gaussian Distribution / K. Aas, I. Haff, X. Dimakos // Journal of Risk. 2006. - Vol. 8. - N 2. -P. 39-60.

44. Akaike H. A new look at the statistical model identification / H. Akaike // IEEE Transactions on Automatic Control. 1974. - Vol. 19. - P. 716-723.

45. Andrews D. F. A robust estimation for location: survey and advances / D. F. Andrews, P. J. Bickel, F. R. Hampel, P. J. Huber, W. H. Rodger, J. W. Tukey. N. J. : Princeton univ. press. - 1972. - 373 pp.

46. Azzalini A. A class of distributions which includes the normal ones / A. Azza-lini // Scand. J. Statist. 1985. -N 12. - P. 171-178.

47. Bassett G. Regression Quantiles / G. Bassett, R. Koenker // Econometrica. -1978. Vol. 46. -N 1. - P. 33-50.

48. Boser B. A training algorithm for optimal margin classifiers / B. Boser, I. Guyon, V. Vapnik // 5th Annual ACM Workshop on COLT. 1992. - P. 144-152.

49. Bottou L. Large-scale kernel machines / L. Bottou, O. Chapelle, D. Decoste -Cambridge : MIT Press. 2007. - 416 pp.

50. Brabanter J. LS-SVM Regression Modelling and its Applications: PhD thesis / J. Brabanter. Leuven: K.U. Leuven. - 2004. - 243 pp.

51. Brown L. D. Variance estimation in nonparametric regression via the difference sequence method / L. D. Brown, M. Levine. // Ann. Statist. 2007. - Vol. 35. -N5.-P. 2219-2232.

52. Burges C. A Tutorial on Support Vector Machines for Pattern Recognition / C. Burges // Data Mining and Knowledge Discovery. 1998. - Vol. 2. - N 2. -P. 121-167.

53. Catanzaro B. Fast Support Vector Machine Training and Classification on Graphics Processors / B. Catanzaro, N. Sundaram, K. Keutzer // International Conference on Machine Learning. 2008. - Vol. 307. - P. 104-111.

54. Chapados N. Estimating Car Insurance Premia: a Case Study in High-Dimensional Data / N. Chapados, Y. Bengio, P. Vincent // Advances in Neural Information Processing Systems. 2001. - Vol. 2. - P. 1369-1376.

55. Cherkassky V. Practical selection of SVM parameters and noise estimation for SVM regression / V. Cherkassky, Y. Ma. // Neural Networks. 2004. - N 17. -P.113-126.

56. Christoffersen P. Further Results on Forecasting and Model Selection under Asymmetric Loss / P. Christoffersen, F. Diebold // J. of Applied Econometrics. 1996. - N 11. - P. 561-572.

57. Cristianini N. An Introduction to Support Vector Machines and other kernelbased learning methods / N. Cristianini, J. Shawe-Taylor. Cambridge univ. press.-2000.- 189 pp.

58. Drucker H. Support Vector Regression Machines / H. Drucker, C. Burges, L. Kaufman, A. Smola, V. Vapnik // Advances in Neural Information Processing Systems. 1996.-N 9.-P. 155-161.

59. Efron B. The jackknife, the bootstrap, and other resampling plans / B. Efron // Society of Industrial and Applied Mathematics. 1982. - N 38. - 92 pp.

60. Efron B. An Introduction to the Bootstrap / B. Efron, R. J. Tibshirani. N.Y. : Chapman and Hall. - 1994. - 456 pp.

61. Espinoza M. LS-SVM Regression with Autocorrelated Errors / M. Espinoza, J. Suykens, B. De Moor // Proc. of the 14th IF AC Symposium on System Identification (SYSID). 2006. - Vol. 15. - P. 582-587.

62. Fan R. E. Working set selection using second order information for training SVM / R. E. Fan, P. H. Chen, C. J. Lin // Journal of Machine Learning Research.-2005.-N 6.-P. 1889-1918.

63. Ferris M. Interior-point methods for massive support vector machines / M. Ferris, T. Munson // SLAM Journal on Optimization. 2002. - Vol. 13. - P. 783804.

64. Fletcher R. Practical Methods of Optimization / Fletcher R. Fletcher . N.Y.: John Wiley. - 2000. - 450 pp.

65. Gestel T. V. Volatility Tube Support Vector Machines / T. V. Gestel, J. Suykens, B. D. Moor, D. E. Baestaens // Neural Network World. 1999. -Vol. 10.-P. 287-297.

66. Graf H. P. Parallel support vector machines: the Cascade SVM / H. P. Graf, E. Cosatto, L. Bottou, I. Dourdanovic, V. N. Vapnik // Advances in Neural Information Processing Systems. MIT Press. - 2005. - Vol. 17. - P. 521-528.

67. Harrison D. Hedonic prices and the demand for clean air / D. Harrison, D. L. Rubinfeld // J. Environ. Economics & Management. 1978. - Vol. 5. - P. 81102.

68. Hastie T. The elements of statistical learning / T. Hastie, R. Tibshirani, J. Friedman. N.Y.: Springer. - 2001. - 560 pp.

69. Huang C. M. Model selection for support vector machines via uniform design / C. M. Huang, Y. J. Lee. // Computational Statistics & Data Analysis. 2007. -N52.-P. 335-346.

70. Joachims T. Making large-scale SVM learning practical / T. Joachims // Advances in Kernel Methods: Support Vector Learning. Cambridge : MIT Press. - 1998.-P. 169-184.

71. Joachims Т. Text categorization with support vector machines: learning with many relevant features / T. Joachims // 10th European Conference on Machine Learning. 1998. - P. 137-142.

72. Juli'a O. A microbiology application of the skew-Laplace distribution / O. Juli'a, J. Vives-Rego // Statistics & Operations Research Transactions. -2008.-N32(2).-P. 141-150.

73. Knight J., Linear factor models in finance / J. Knight, S. Satchell. Oxford: Butterworth-Heinemann. - 2005. - 282 pp.

74. Koenker R. Quantile Regression / R. Koenker. N.Y. : Cambridge univ. press. -2005.-370 pp.

75. LIBSVM: a library for support vector machines Электронный ресурс. Режим доступа: http://www.csie.ntu.edu.tw/~cjlin/libsvm.

76. Lin С. J. Asymptotic convergence of an SMO algorithm without any assumptions / C. J. Lin // Neural Networks. 2002. - Vol. 13, iss. 1. - P. 248-250.

77. Mercer J. Functions of positive and negative type and their connection with the theory of integral equations / J. Mercer // Philosophical Transactions of the Royal Society. 1909. - P. 415-446.

78. Meshalkin L. D. Some mathematical methods for the study of non-communicable diseases / L. D. Meshalkin // 6-th Intern. Meeting of Uses of Epidemiol. in Plannning Health Services. Yugoslavia, Primosten. 1971. -Vol. l.-P 250-256.

79. Muller K. R. Predicting time series with support vector machines / K. R. Muller, A. Smola, G. Ratsch, B.Scholkopf, J. Kohlmorgen, V. Vapnik // Advances in Kernel Methods Support Vector Learning. - MIT Press. - 1999. - P. 243254.

80. Osuna E. Training support vector machines: An application to face detection / E. Osuna, R. Freund, F. Girosi // IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 1997. - P. 130-136.

81. Osuna E. An improved training algorithm for support vector machines / E. Osuna, R. Freund, F. Girosi // IEEE Workshop. 1997. - P. 276-285.

82. Pfanzagl J. On measurability and consistency of minimum contrast estimates / J. Pfanzagl // Metrica. 1969. - Vol. 14. - N 1. - P. 249-272.

83. Platt J. C. Fast training of support vector machines using sequential minimal optimization / J. C. Piatt // Advances in Kernel Methods. MIT Press, 1999. -P. 185-208.

84. Popov A. A. Selection of support vector machines parameters for regression using nested grids / A. A. Popov, A. S. Sautin // The Third International Forum on Strategic Technology. Novosibirsk, 2008. - P. 329-331.

85. Popov A. A. Adaptive Huber Loss Function in Support Vector Regression / A. A. Popov, A. S. Sautin // The fourth international forum on strategic technology. Hochiminh, Vietnam, 2009. - P. 114-118.

86. Ruppert D. Local polynomial regression and its applications in environmental statistics / D. Ruppert // Statistics for the Environment. Chichester: Wiley. -1997.-Vol.3.-P. 155-173.

87. Schölkopf B. Learning with kernels / B. Schölkopf, A. Smola. Cambridge: MIT Press, 2002. - 632 pp.

88. Schölkopf B. Extracting support data for a given task / B. Schölkopf, C. Burges, V. Vapnik // First International Conference on Knowledge Discovery & Data Mining. AAAI Press. - 1995. - P. 252-257.

89. Schölkopf B. Shrinking the Tube: A New Support Vector Regression Algorithm / B. Schölkopf, P. Bartlett, A. Smola, R. Williamson // Advances in Neural Information Processing Systems. MIT Press. - 1999. - Vol. 11. - P. 330-336.

90. Schölkopf B. New support vector algorithms / B. Schölkopf, A. J. Smola, R. C. Williamson, P. L. Bartlett // Neural Computation. 2000. - Vol. 12, iss. 5.-P. 1207-1245.

91. Sigrist M. Air Monitoring by Spectroscopic Techniques / M. Sigrist. N.Y.: Wiley. - 1994.-560 pp.

92. Silverman B. W. Some aspects of the spline smoothing approach to non-parametric regression curve fitting / B. W. Silverman // Journal of the Royal Statistical Society. 1985. - Vol. 47. - N 1. - P. 1-52.

93. Smola A. Regression Estimation with Support Vector Learning Machines: Master's thesis / A. Smola. Technische Universität München. - 1996. -78 pp.

94. Smola A. Learning with kernels: PhD Thesis in Computer Science / A. Smola.- Technische Universität Berlin. 1998. - 210 pp.

95. Smola A. A Tutorial on Support Vector Regression / A. Smola // Statistics and Computing. -2004. -N 14. P. 199-222.

96. Steinwart I. Support Vector Machines / I. Steinwart, A. Christmann. N.Y.: Springer-Verlag. - 2008. - 602 pp.

97. Suykens J. A. Least squares support vector machine classifiers / J. A. Suykens, J. Vandewalle // Neural Processing Letters. 1999. - Vol. 9. - N 12. - P. 293300.

98. Suykens J. Sparse approximation using lease squares support vector machines / J. Suykens, L. Lukas, J. Vandewalle // IEEE International Symposium on Circuits and Systems ISCAS. 2000. - P. 757-760.

99. Taylor J. S. Kernel Methods for Pattern Analysis / J. S. Taylor, N. Cristianini. -N.Y. : Cambridge univ. press. 2004. - 462 pp.

100. Tibshirani R. Regression Shrinkage and Selection Via the Lasso / R. Tibshirani // J. of the Royal Statistical Society, ser. B. 1994. - Vol. 58. - P. 267-288.

101. Tukey J. W. A survey of sampling from contaminated distribution / J. W. Tukey // Contribution to Probability and Statistics. — Stanford: Stanford univ. press. 1960. - P. 448-485.

102. Vapnik V. Estimation of dependences based on empirical data / V. Vapnik. -N.Y. : Springer. 2006. - 528 pp.

103. Vapnik V. Statistical Learning Theory / V. Vapnik. N.Y.: John Wiley. -1998.-736 pp.

104. Wahba G. A survey of some smoothing problems and the method of generalized cross-validation for solving them / G. Wahba // Application of Statistics.- 1977.-P. 507-523.

105. Wahba G. Support vector machines, reproducing kernel Hilbert spaces and the randomized GACV / G. Wahba // Advances in Kernel Methods Support Vector Learning. - Cambridge : MIT Press. - 1999. - P. 69-88.