автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Порождение и выбор моделей в задачах регрессии и классификации
Автореферат диссертации по теме "Порождение и выбор моделей в задачах регрессии и классификации"
На правах рукописи
Оь^'Кмп^о
Стрижов Вадим Викторович
ПОРОЖДЕНИЕ И ВЫБОР МОДЕЛЕЙ В ЗАДАЧАХ РЕГРЕССИИ И КЛАССИФИКАЦИИ
05.13.17 — теоретические основы информатики
Автореферат диссертации на соискание учёной степени доктора физико-математических наук
1 6 ОКТ 2014
Москва, 2014
005553472
Работа выполнена в Федеральном государственном бюджетном учреждении науки Вычислительный центр им. А. А. Дородницына Российской академии наук. Официальные оппоненты:
Двоенко Сергей Данилович, доктор физико-математических наук, профессор, Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Тульский государственный университет, профессор Кафедры автоматики и телемеханики, Сметанин Юрий Геннадиевич, доктор физико-математических наук, Российский фонд фундаментальных исследований, начальник Отдела ин-фокоммуникационных технологий и вычислительных систем, Хачай Михаил Юрьевич, доктор физико-математических наук, профессор, Федеральное государственное бюджетное учреждение науки Институт математики и механики им. H.H. Красовского УрО РАН, заведующий Отделом математического программирования. Ведущая организация:
Федеральное государственное бюджетное учреждение науки Институт системного анализа Российской академии наук.
Защита состоится <г 13» ноября 20Ц г. в 13:00 на заседании диссертационного совета Д 002.017.02 при Федеральном государственном бюджетном учреждении науки Вычислительный центр им. А. А. Дородницына Российской академии наук, расположенном по адресу: 119333, г.Москва, ул.Вавилова, д.40.
С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Вычислительный центр им. А. А. Дородницына Российской академии наук и на сайте http://www.ccas.ru.
Автореферат разослан «_»_2014 г.
Учёный секретарь диссертационного совета Д 002.017.02,
д.ф.-м.н., профессор
В. В. Рязанов
Общая характеристика работы
Актуальность темы исследования. Диссертационная работа посвящена проблемам выбора моделей в задачах регрессионного анализа и классификации. Предлагается подход, согласно которому выбор производится из индуктивно-порождаемого множества моделей. Анализируется распределение параметров моделей. На основании этого анализа выбирается модель оптимальной сложности.
Модель, описывающая исследуемое явление, может быть получена двумя путями: во-первых, методами математического моделирования, во-вторых, методами анализа данных и информационного моделирования. Первый тип моделей интерпретируем экспертами в контексте моделируемого явления [Крас-нощеков: 2000]. Второй тип моделей, не всегда интерпретируем, но более точно приближает данные [Bishop: 2006]. Совмещение достоинств обоих подходов, результатом которого является получение интерпретируемых и достаточно точных моделей, является актуальной задачей теоретической информатики.
Центральным объектом исследования является проблема построения адекватных моделей регрессии и классификации при решении задач прогнозирования. Проблема заключается в отыскании моделей оптимальной сложности, которые описывают измеряемые данные с заданной точностью. Дополнительным ограничением является интерпретируемость моделей экспертами той предметной области, для решения задач которой создается модель.
Цель исследования заключается в создании и обосновании методов выбора моделей из индуктивно порождаемого множества, а также в исследовании свойств алгоритмов выбора моделей. Задача выбора моделей из счетного последовательно порождаемого множества поставлена впервые. При постановке задачи использовался обширный материал о способах выбора моделей и выбора признаков из конечного множества, наработанный ранее в области машинного обучения. Эта задача является одной из центральных проблем машинного обучения и интеллектуального анализа данных.
Основной задачей исследования является разработка методов последовательного порождения моделей и оценки ковариационных матриц параметров
моделей с целью управления процедурой выбора моделей. Основной сложностью такой задачи является необходимость выбора из значительного числа регрессионных моделей, либо необходимость оценки параметров структурно сложной, так называемой «универсальной» модели.
Взаимосвязь задачи порождения и задачи выбора регрессионных моделей была освещена в начале 1980-х годов А. Г. Ивахненко. Согласно предложенному им методу группового учета аргументов [Ивахненко: 1981, Madala: 1994], модель оптимальной структуры может быть найдена путем последовательного порождения линейных моделей, в которых компоненты являются мономами полинома Колмогорова-Габора от набора независимых переменных. Критерий оптимальности структуры модели задается с помощью скользящего контроля.
В отличие от этого метода, метод символьной регрессии [Koza: 2005, Зелин-ка: 2008) рассматривает порождение произвольных нелинейных суперпозиций базовых функций. В последние годы тема анализа сложности моделей, получаемых с помощью этого метода, стала распространенным предметом исследований [Hazan: 2006, Владиславлева: 2009].
Первоначально принципы индуктивного порождения моделей были предложены в методе группового учета аргументов. Структура суперпозиций задавалась при этом внешними критериями качества модели. Впоследствии эти критерии были обоснованы в рамках гипотезы порождения данных с помощью связанного байесовского вывода. При последовательном порождении моделей необходимо оценивать информативность элементов суперпозиции. В рамках метода байесовской регрессии [Bishop: 2000] для этого предложено использовать функцию плотности распределения параметров модели. Эта функция является параметрической и ее параметры были названы гиперпараметрами [Bishop: 2006]. Было предложено использовать гиперпараметры моделей для оценки информативности элементов суперпозиции, что сделало анализ гиперпараметров одним из способов выбора моделей.
Для модификации суперпозиций нелинейных моделей был предложен метод оптимального прореживания [LeCun: 1990]. Согласно этому методу, элемент суперпозиции можно отсечь как неинформативный, если значение выпуклости
функции ошибки от параметров модели не превосходит относительный заданный порог.
Задача выбора модели является одной из самых актуальных в регрессионном анализе. В современной зарубежной литературе для ее решения используется принцип минимальной длины описания. Он предлагает использовать для описания данных наиболее простую и одновременно наиболее точную модель [Grunwald: 2005].
Задача сравнения моделей детально разработана [МасКау: 1994-2003]. Как альтернатива информационным критериям [Burnham: 2002, Lehmann: 2005] был предложен метод двухуровневого байесовского вывода. На первом уровне вывода настраиваются параметры моделей. На втором уровне настраиваются их гиперпараметры. Согласно этому методу, вероятность выбора более сложной модели ниже вероятности выбора простой модели при сравнимом значении функции ошибки на регрессионных остатках. Принципы байесовского подхода для выбора линейных моделей регрессии и классификации предложены авторами [Celeux: 2006, Massart: 2008, Fleury: 2006].
В то же время, в упомянутых публикациях и подходах остается открытым ряд важных проблем, решение которых определяет актуальность представляемой диссертации. Поэтому представляется целесообразным создать и развить теорию порождения и выбора регрессионных моделей. Она заключается в следующем. Множество моделей заданного класса индуктивно порождается набором параметрических базовых функций, заданных экспертами. Каждая модель является допустимой суперпозицией таких функций.
Интерпретируемость моделей обеспечена тем, что каждая из порождаемых моделей является суперпозицией базовых функций, заданных экспертами. Класс моделей задается правилами порождения суперпозиций. Точность моделей обеспечивается тем, что рассматривается достаточно большой набор моделей-претендентов, из которого выбирается оптимальная модель. Критерий оптимальности включает в себя понятия сложности и точности модели. При построении критерия учитывается гипотеза порождения данных — предположение о распределении регрессионных остатков.
Одновременно с оценкой параметров вычисляются и гиперпараметры (параметры распределения параметров) модели. На основе гиперпараметров оценивается информативность элементов суперпозиции и оптимизируется её структура. Оптимальные модели выбираются согласно критерию, заданному гипотезой порождения данных.
Таким образом, предложен новый подход к решению поставленной задачи. Множество моделей индуктивно порождается из набора базовых функций, заданных экспертами. Каждая модель является допустимой суперпозицией базовых функций. Одновременно с оценкой параметров моделей выполняется также и оценка гиперпараметров функции распределения параметров моделей. На основе этих параметров оценивается информативность элементов суперпозиции и принимается решение об оптимизации ее структуры. Оптимальные модели выбирается согласно критерию, заданному гипотезой порождения данных.
В связи с вышеизложенным, решение крупной задачи теории распознавания, в рамках которой будут предложены новые способы порождения и выбора моделей регрессии и классификации, является актуальной темой.
Цель диссертационной работы — создание нового математического подхода для решения задачи последовательного выбора регрессионных моделей. Цель работы находится в рамках направления «создание и исследование информационных моделей, моделей данных и знаний, методов машинного обучения и обнаружения новых знаний».
В частности, цель работы включает в себя:
1) создание и обоснование методов выбора индуктивно порождаемых моделей для решения задач регрессии и классификации,
2) исследование ограничений, накладываемых на структуру суперпозиции различными алгоритмами выбора моделей,
3) исследование структуры последовательно порождаемых суперпозиций и свойств параметров моделей.
Эти цели соответствуют направлению области исследования специальности 05.13.17 «разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных а также создание техники, которая предоставляет, во-первых, совокупность методов разработки математических моделей и, во-вторых, возможность интерпретации моделей в той прикладной области знаний, в рамках которой эти модели создаются» (пп. 5, 12).
На защиту выносятся следующие результаты.
1. Формализованы и исследованы методы выбора моделей для основных классов моделей: линейных, обобщенно-линейных и существенно нелинейных. Предложенные методы позволяют анализировать также информативность отдельных элементов суперпозиций.
2. Предложен способ оценки информативности элементов суперпозиций путем анализа пространства параметров моделей. Каждому элементу суперпозиции ставится в соответствие вектор параметров, который рассматривается как многомерная случайная величина. При заданной гипотезе порождения данных выполняется приближение эмпирического распределения параметров модельной параметрической функцией распределения.
3. Предложены алгоритмы оптимизации параметров и гиперпараметров — параметров функций распределения параметров моделей. Данная оценка является информативностью элемента суперпозиции.
4. Исследованы ограничения, накладываемые на множество суперпозиций, при которых порождаемые суперпозиции являются допустимыми, предложены методы порождения допустимых суперпозиций.
5. Предложен метод последовательного порождения и выбора моделей. Он заключается в том, что на каждом шаге анализируется информативность элементов порождаемых моделей, после чего модель модифицируется таким образом, чтобы доставить наибольшее увеличение значению критерия выбора модели на данном шаге.
6. Предложен метод анализа ковариационной матрицы параметров нелинейных моделей. Предложен критерий отыскания мультиколлинеарности для рассматриваемых моделей. Поставлена и решена оптимизационная задача последовательного исключения элементов модели. Полученное решение позволяет получать устойчивые модели.
Научная новизна. Выносимые на защиту результаты (1-6) являются новыми; также новыми являются следующие результаты, ранее опубликованные автором в рецензируемых журналах: 1) метод индуктивного порождения регрессионных моделей как суперпозиций гладких функций из заданного множества; 2) алгоритм выбора наиболее информативных элементов суперпозиции с помощью вектора гиперпараметров; 3) метод выбора опорного множества объектов как альтернатива процедурам регуляризации при построении интегральных индикаторов; 4) алгоритм согласования экспертных оценок в ранговых шкалах: используется линейная комбинация конусов экспертных оценок в пространстве интегральных индикаторов и в пространстве весов показателей, 5) алгоритм решения прямой и обратной задачи при нахождении оптимального управления.
Методика исследования: методы алгебраического подхода к решению задач распознавания; методы вычислительной линейной алгебры, многомерной статистики и теории машинного обучения; методы теории категорий. В рамках машинного обучения используются такие методы как связный байесовский вывод, метод минимальной длины описания, устойчивое оценивание параметров, аппроксимация Лапласа в пространстве параметров. Все эти методы являются новыми и активно обсуждаются в научных публикациях в течение последних лет.
Достоверность и обоснованность результатов подтверждена строгостью и корректностью математических высказываний и доказательств. Была выполнена экспериментальная проверка полученных результатов на задачах с модельными и реальными данными. Результаты исследований неоднократно обсуждались на российских и международных научных конференциях. Результаты
исследования опубликованы в рецензируемых научных изданиях из числа рекомендованных ВАК РФ.
Теоретическая значимость. Впервые связаны методы порождения и методы выбора моделей. При этом снята проблема оценки параметров и их ковариационных матриц моделей большой структурной сложности, так как для этой оценки параметров последующих моделей используются результаты анализа ранее порожденных моделей. Такой подход позволяет получать устойчивые оценки параметров в условиях большого числа мультикоррелирующих и шумовых признаков. Для выбора конкурирующих моделей испол! дуется байесовский подход, что позволяет получить модель оптимальной статистической сложности.
Практическая значимость. Работа носит преимущественно теоретический характер. Для иллюстрации возможных практических применений в последней главе работы приведены математические постановки и анализ прикладных задач, при решении которых были использованы полученные результаты.
Апробация работы. Основные результаты работы и отдельные её части докладывались на конференциях:
- международная конференция «Conference of the International Federation of Operational Research Societies», Барселона — 2014 г.;
- международная конференция «European Conference on Operational Research», Бонн — 2009 г.; Лиссабон — 2010 г.; Вильнюс — 2012 г.; Рим — 2013 г.;
- международная конференция «Operational Research: Mastering Complexity», Бонн — 2010 г.; Цюрих — 2011 г.;
- всероссийская конференция «Математические методы распознавания образов», Москва - 2003, 2005, 2007, 2009 гг.;
- международная конференция «Интеллектуализация обработки информации», Симферополь — 2006, 2008 гг.;
- международная конференция «Математика. Компьютер. Образование», Дубна - 2005, 2006, 2008, 2009 гг.;
- международная конференция «SIAM Conference on Computational Science and Engineering», Майами — 2009 г.;
- международный форум «Quo Vadis Energy in Times Of Climate Change», Загреб — 2009 г.;
- международная конференция «Citizens and Governance for Sustainable Development», Вильнюс — 2003, 2006 гг.
Личный вклад. Все результаты, выносимые на защиту, получены автором лично и не имеют пересечений с результатами его кандидатской диссертации.
Полный текст диссертации размещен на официальном сайте Федерального государственного бюджетного учреждения науки Вычислительный центр им. А.А.Дородницына Российской академии наук, http://www.ccas.ru.
Публикации. Результаты диссертации описаны в 28-ми статьях в журналах, рекомендованных ВАК.
Описания отдельных результатов работы включались в научные отчёты по проектам РФФИ 04-01-00103-а, 04-01-00401-а, 04-01-00401-а, 05-01-08030-офи, 07-01-00064-а, 07-01-12076-офи, 07-07-00181-а, 07-07-00372-а, 08-01-12022-офи, 10-07-00422-а, 10-07-00673-а, 12-07-13118-офи, 13-07-00709-а.
Структура и объем работы. Диссертация состоит из оглавления, введения, шести глав, разбитых на параграфы, заключения, списка основных обозначений, предметного указателя, списка иллюстраций (99 пунктов), списка таблиц (26 пунктов) и списка литературы из 403-х наименований. Основной текст занимает 299 страниц.
Содержание работы
Во введении обоснована актуальность диссертационной работы, поставлены цели и задачи исследования, аргументирована научная новизна, показана практическая значимость результатов, представлены выносимые выносимые на защиту научные положения.
1. Постановка задачи выбора моделей
Определение 1. Регрессионная выборка Ъ = {(х,,у;)}™ I множество т пар, состоящих из вектора X; = значений п свободных переменных
и соотвествующего этому вектору значения зависимой переменной у,-.
Предполагается, что переменные принадлежат множеству действительных чисел, либо его подмножеству: х е X С I" и у £ ¥ С I1. Индекс г элемента выборки и индекс ] свободной переменной рассматриваются как элементы конечных множеств г € I = {1,..., тп} и ] € 3 = {1,..., тг}.
Предполагается, что элементы выборки связаны соотношением у; = /(■лг,^) + г(х;), которое аддитивно включает случайную величину е = е(х). Предположение о том, что то зависимая переменная есть сумма значений модели и некоторой случайной величины, сохраняется и ниже.
Для нахождения функции регрессии / используются регрессионные модели.
Определение 2. Регрессионная модель — параметрические семейство функций, отображение
декартова произведения области допустимых значений Ш параметров модели и области допустимых значений X свободных переменных в область значения У зависимой переменной. Иначе, регрессионная модель есть поэлементное отображение
} : (лу,х) V-»- у,
в котором вектор параметров V/ € V/, свободная переменная х е X в зависимая переменная у 6 ¥.
Считаем вектор зависимых переменных у и вектор параметров ш многомерными нормально распределенными случайными величинами с ковариационными матрицами а-1 и в"1 соответственно. Чтобы получить оценки гиперпараметров а, в. v/, введем ограничения на вид распределений р(Э|\у, в) и рМа).
Для нахождения наиболее вероятных параметров модели f(w, х) используем Байесовский вывод. При заданной модели / и заданных значениях А и В максимизируется выражение
Элементы этого выражения и соответствующие им параметры:
А, В, /) — апостериорное распределение параметров, = а^тахр^Э, А, В, /) — наиболее вероятные параметры, = агйтахр(£)|\у, В, /) — наиболее правдоподобные параметры, р(£>|«г, В, /) — функция правдоподобия данных,
А, /) — априорное распределение параметров, р(Э|А, В, /) — функция правдоподобия модели /. Записывая функцию ошибки 5 = Е„ 4- Во в виде
= - wML)тA(w - + 1(у - Г)тВ(у - Г), (2)
получаем вместо (1) выражение
РМЭ,А,В =
где Ев ~ нормирующий коэффициент.
Задача восстановления регрессии имеет несколько разных постановок, каждую их которых можно условно отнести к одному из следующих типов:
1) задачи оценки параметров модели,
2) задачи выбора признаков или объектов регрессионной выборки,
3) задачи выбора регрессионных моделей,
4) задачи проверки гипотезы порождения данных.
Предполагается, что функция ошибки S(w) задана гипотезой порождения данных. При задании функции ошибки используется байесовский вывод. Предполагается, что зависимая переменная имеет распределение из экспоненциального семейства.
Задача 1. Задана выборка D = {(xj, yi)}, t€î, функция ошибки модели S и модель — параметрическое семейство функций f{w, х). Требуется найти такие параметры w модели, которые бы доставляли минимум функции ошибки
w* = argminS(w|2>>/). (3)
W6VV
В выражении (3) справа от вертикальной черты указаны фиксированные значения переменных, что читается: «при заданной выборке 33 и модели /», аналогично обозначению, принятому для записи условной вероятности. Далее предполагается, что запись S(w) экивалентна записи 5(w|S, /), если специально не оговорено иное.
При использовании скользящего контроля задача выбора модели ставится следующим образом.
Задача 2. Задана выборка О = {(х,-,у;)}, г € X, где множество векторов свободных переменных {х = [х\,... ,xj,... ,хп]}, проиндексировано j € J — {1, ...,п}. Задано разбиение множества индексов элементов выборки I - CU С. Задана функция ошибки S и модель — параметрическое семейство функций /(w, х) = ¿j(wTx), где ц — функция связи. Требуется найти такое подмножество индексов AÇ J, которое бы доставляло минимум функции:
А" = arg min S(Lt|w, ©с) (4)
на подмножестве ®с разбиении выборки 5), определенном множеством индексов С. При этом параметры w модели должны доставлять минимум функции:
w = arg min S(w|I>£, fA) (5)
weW
па подмножестве De разбиении выборки, определенном множеством индексов С. Здесь }Л обозначает обобщенно-линейную модель / = А*(^дхл)> включающую только столбцы матрицы X с индексами из множества А.
Нелинейная модель не может быть однозначно задана множеством А активных признаков. Поэтому для задания модели используются правила индуктивного порождения моделей детально определенные в следующем разделе. Они позволяют однозначно индексировать модели j из множества моделей S'il
Задача 3. Задана выборка 3) = {(х,-,;/;)}, г е X = £ и С. Задано множество порождающий: функций С? = {дь ... ,дп}. Заданы правила индуктивного порождения множества моделей = {/г}, индексированных счетным множеством Лэ г. Требуется найти такую модель /г, которая бы доставляла минимум функции
г = argmщS'(/r|w, Эс) (6)
при условии оценки оптимальных параметров мг решением задачи (5).
Оценка ковариационных матриц зависимой переменной и параметров.
Задача 4. Задана выборка Э, функция ошибки и модель /(\у,х). Требуется оценить обратные ковариационные матрицы А, В максимизируя правдоподобие модели:
(А,В)= а^тах / р(£>К В,/)рНА,
А€И"2,векга:! •/„,
Обобщим предыдущую задачу на случай существенно нелинейных моделей. При этом будем считать, что X = В. Тогда задача выбора правдоподобной модели /г с индексом г из множества моделей-претендентов 5 имеет следующий вид.
Задача 5. Задана выборка ® = {(х;,т/;)}, i € 1. Задано множество моделей 5 = {/г}, индексированных счетным множеством К 3 г. Требуется выбрать наиболее правдоподобную модель
г = а^тахр(/г|:0) =а^тах J р(£)КВ,/г)рН2>, А,/Г)с^
Заметим, что оценивать параметры модели для того, чтобы выбрать наиболее правдоподобную модель, необязательно.
2. Порождение моделей
Построение моделей выполняется по итерационной схеме «порождение-выбор» в соответствии с определенными правилами порождения моделей и критерием выбора моделей. Последовательно порождаются наборы конкурирующих моделей. Каждая модель в наборе является суперпозицией элементов заданного множества гладких параметрических функций. После построения модели каждому элементу суперпозиции ставится в соответствие гиперпараметр.
Параметры и гиперпараметры модели последовательно настраиваются. Из набора выбираются наилучшие модели для последующей модификации. При модификации моделей, ио значениям гиперпараметров делаются выводы о целесообразности включения того или иного элемента в модель следующего порождаемого набора.
Рассмотрим две функции 5 : X ->• V иЛ:¥'ЭУ-+2и пусть ¥'и¥ ф 0. Их композицией называется функция f = доН определенная равенством
(/1С3)(х)=%)(х), Х6Х.
Пусть задано множество б = {р;} функций. Для каждой функции д, задана область определения X, = с1огл(^) и область значения ¥{ = соё(д,-). Пусть множество значений У; функции содержится в области определения Х,+1 функции <?;+1, то есть
Л : X;С Х,-+1, г = 1,2,...,ЙТ-1, (7)
то функция
/ = К >2, (8)
х определяемая равенством
/(х) = (як °дк-1 о • • • о 31)(х) = дк{зк-1{- ■ • (<?1)))(х)1 хеХ, (9)
называется сложной функцией или суперпозицией функций <71,52, • ■ • ,9к-
Определение 3. Суперпозиция / функций {51,... ,дк} ~ функция, представленная как композиция нескольких функций, определяемая выражениями (89) при выполнении условия (7).
Функции д — д(Ь,£) с параметрами Ъ и аргументом принадлежащие множеству С?, далее будут называться порождающими функциями.
Определение 4. Допустимой суперпозицией / называется такая суперпозиция, в которой
со/1(д^+1)) С Аот(дщ) для всех к = 1,..., К - 1.
Для обобщения этого определения случай функций нескольких аргументов будем считать, что функции <?i,..., дк, входящие в суперпозицию, являются вектор-функциями от векторных величин При этом и области определения Xj, и области значений У i этих вектор-функций являются подмножествами декартова произведения пространств соответствующих аргументов.
Пусть задано множество порождающих функций G = {ffl, • ■ • 19Ú9 = д(Ь, ■)}, то есть, заданы
1) сама функция д : (Ь,
2) число ее параметров b (возможен пустой набор),
3) число аргументов (арность) v(g) функции д (возможен пустой набор) и порядок следования аргументов,
4) домен dom(p) и кодомен cod(g).
Требуется построить функцию f как суперпозицию порождающих функций из заданного множества G. Модель /(w,x) рассматривается как суперпозиция
/(w,x) = (5i(1)o.--o5iW)(x), где w = [ЬТ(1),..., ЬТ(ЙГ)]Т,
в которой вектор w состоит из присоединенных векторов-параметров b функций д, водящих в суперпозицию /.
Для порождения моделей требуется задать:
1) множество непорождаемых переменных {£} с заданным dom(£),
2) множество порождающих функций G = {ди, id}, д : ху-ьх',
3) правило Gen порождения допустимых суперпозиций <8 D G, где суперпозиция g¿ = ди о gv е (3, построена с учетом ограничений
на число аргументов v(gu), на область определения cod(ди),
на структурную сложность суперпозиции C(g¡) ^ Стах,
на число и типы входных и выходных переменных, 4) правило Rem упрощения суперпозиций: дь <£ <5, если
Rem : дк = ди о gv и- gj е 0.
Результатом порождения допустимых суперпозиций является набор J моделей-претендентов /, из которого производится выбор.
Поставим в во взаимно-однозначное соответствие каждой суперпозиции / дерево Гу, которое строится следующим образом:
1) в вершинах Ц дерева Гj находятся соответствующие порождающие функции gs,s = s(i);
2) число дочерних вершин у некоторой вершины V* равно арности соответствующей функции gs\
3) порядок вершин, дочерних для VJ, соотвествует порядку аргументов соответствующей функции gs{i)~,
4) в листьях дерева Г^ находятся свободные переменные Xi-
Вычисление значения выражения / = /(w, х) в некоторой точке х с данным вектором параметров w = {u>i,i02, • • •, wv} эквивалентно подстановке соответствующих значений свободных переменных х и параметров w функцию /, соответствующую дереву Г/.
Каждое поддерево Г^ дерева Г/, соответствующее вершине Vj, также соответствует некоторой суперпозиции, являющейся составляющей исходной суперпозиции /.
3. Сравнение элементов моделей
Решается задача последовательного добавления элементов в регрессионную модель. Вводится критерии остановки процедуры порождения и выбора моделей. Вводится понятие расстояния между последовательно порождаемыми моделями. Результатом работы алгоритма является модель удовлетворительной точности; мультикоррелирующие признаки исключены. Процедура выбора
оптимального набора признаков состоит из этапов добавления и удаления. На первом этапе последовательно добавляются признаки, доставляющие максимум правдоподобия модели. На втором этапе происходит последовательное удаление признаков с целью увеличения устойчивости модели, в случае обобщенно-линейных моделей уменьшения мультиколлинеарности признаков.
Пусть на к-ои шаге алгоритма имеется активный набор признаков Л к € 3 ■ На нулевом шаге Ло пуст.
Этап добавления. Находим признак доставляющий максимум р(5Э|А, В,/^,) на обучающей выборке
3* = а^тахр(®|А,В,/А_1иШ). Затем добавляем новый признак 3* к текущему активному набору
Лк = А-1 и {Г}
и повторяем эту процедуру до тех пор, пока р(2)|А, В, /_д,.)менее своего макси-мальноне значение на данном этапе не более, чем на некоторое заданное значение Д.
Этап удаления. Находим индексы обусловленности и долевые коэффициенты для текущего набора признаков Лк-\- Находим количество достаточно больших индексов обусловленности. Достаточно большими считаются индексы, квадрат которых превосходит максимальный индекс обусловленности т^, где I = количество признаков в текущем наборе Лк-1-
= (ю)
д= 1
Находим в матрице долевых коэффициентов уаг(ту) столбец з" с максимальной суммой по последним г* долевым коэффициентам
г
3* = аг5 птх д*. (И)
5=4-» +1
Удаляем ^*-ый признак из текущего набора
Лк = Лк-х\з* 16
и повторяем эту процедуру до тех пор, пока р(3)|А, В, ¡Лк) менее своего максимального значения на данном этапе не более, чем на некоторое заданное значение Д. Повторение этапов добавления и удаления осуществляется до тех пор, пока значение р(2)|А, В, не стабилизируется.
Опишем критерий удаления элементов. Для ковариационной матрицы А-1 линейной или линеаризованной модели справедливо выражение А = <г2ВВт = ег2(ХтХ)-1. Выражение сг2(ХтХ)~1 является несмещенной оценкой ковариационной матрицы признаков, а в случае линейной модели оно в точности совпадает с ковариационной матрицей, то есть А-1 = (г~2ХтХ. Дисперсия параметров, найденных методом наименьших квадратов уг — (ХтХ)-1Хгу, может быть записана как
уагИ = а2(ХгХ)-1 - ^(УТ^У1 = а2УА~2Ут.
Таким образом, дисперсия ¿-го регрессионного коэффициента — это диагональный элемент матрицы уаг(ш).
Каждому индексу обусловленности соответствуют значения qij — долевые коэффициенты,
" и?- п ч2
сг_2уаг(ю,) = = (чп + ?«2 + - - - + 9т) £ ту,
¿=1 Х> 7=1 ^
где — отношение соответствующего слагаемого в разложении вектора <7~2уаг(г^) ко всей сумме, а V = (иц). Сумма долевых коэффициентов по индексу j равна единице.
Большие величины щ означают, что, возможно, есть зависимость между признаками. Признак считается вовлеченным в зависимость, если его долевой коэффициент связанный с этим индексом превышает выбранный порог.
Результаты сравнения предложенного и базовых алгоритмов приведены в табл. 1. Сравнение выполнялось на задаче поиска модели волатильности опционов. В таблицу входят значения функционала качества на обучающей и контрольной выборке, информационный критерий Акаике, число переменных модели. Исходя из значений критериев делается вывод об эффективности работы алгоритмов.
Таблица 1. Результаты работы методов выбора моделей.
Алгоритм S£ Sc А1С BIC lg К к
Генет. 0,073 0,107 -1152 -1072 337 13 26
МГУА 0,146 0,194 -1076 -1045 745 6 10
Шаг. per. 0,128 0,154 -1092 -1055 644 7 12
Греби. 0,111 0,146 -819 -330 832 33 160
Лассо 0,121 0,147 -1089 -1034 611 5 18
Ступ. 0,071 0,096 -1157 -1077 324 9 26
FOS 0,106 0,135 -1105 -1044 527 7 20
LARS 0,098 0,095 -1102 -1017 492 7 28
Предл. 0,097 0,123 -1118 -1054 469 5 21
Для каждого алгоритма вычислены значения ошибок Бс и Бс на обучении и контроле,значение информационных критериев Акаике и Байеса
А1С = т В1С = тп + к1пт,
Маллоуза Ср, десятичный логарифм числа обусловленности к матрицы значений отобранных признаков и сложность модели к.
4. Выбор моделей
Предложен ряд методов оптимизации структурных параметров регрессионной модели. Описан метод аппроксимации Лапласа функции ошибки для оценки правдоподобия модели. Предложен метод Монте-Карло оценки правдоподобия модели. Предложен метод оценки оптимальных параметров модели с помощью процедуры скользящего контроля. Исследованы свойства предлагаемых методов. Проведен вычислительный эксперимент на модельных и реальных данных. Проведены анализ и сравнение предлагаемых методов.
Согласно принятым в работе гипотезам, функция правдоподобия данных имеет вид
= = ехРН(у-о;в(У-£))
Зо(В) (2тг)?с1е^(В)
функция априорного распределения параметров, при предположении о том, что оценка матожидания вектора параметров равна чуо имеет вид
ВГ*Н А1 = ехР(~^) ехр(-|(уу-тУо;ГА(ш-ш0)) ' ' ^ МА) (27Г)*Л**(В) ' ( }
18
а функция апостериорного распределения параметров —
рНЭ) А, В) = РАКУНА) = ехр(^|Р,А,В))
Теорема 1. Правдоподобие линейной модели для гипотезы порождения данных имеет вид
а его логарифм имеет вид 1пр(Э|А, В) =
= - |К| + т1п2тг - 1п |В| - 1п |А| - ут(СтКС - В)у).
Здесь
К = ХТВХ + А, С = К^ХЧВ.
Зафиксируем значение вектора Wo, предполагая что он доставляет локальный максимум (14). Для нахождения матриц А, В приблизим фукнцию ошибки А, В) методом Лапласа. Для этого построим ряд Тейлора второго порядка логарифма числителя (14) в окрестности \Уо:
1пехр(-5(*г)) = 1пехр ^^о) + 0 + + о()И|3)^ ,
где Д\у = \у — wo. При упрощении и отбрасывании малой величины получим
-З^) и -5(ш0) - (15)
В выражении (15) нет слагаемого первого порядка, так как предполагается, что чуо доставляет локальный минимум функции ошибки
= 0.
Эу/
Матрица Н — матрица Гессе функции ошибок
н=(16)
Предложен ряд процедур оценивания параметров и гиперпараметров. Для оценки структурных параметров необходимо провести процедуру максимизации
правдоподобия модели. Именно эта процедура является наиболее вычислительно затратной. Оптимальные структурные параметры А, В максимизируют правдоподобие модели
р(Ю|А,В)= I (17)
где М" обозначает множество положительно полуопределенных матриц размерности п х п.
Теорема 2. Для гипотезы нормального распределения зависимой переменной вариант: биномиального при фиксированных ковариационных матриц А-1, В-1 итерационный алгоритм оценки параметров обобщенно-линейной модели
Д\У£+1 = (ХТВХ + А)-1 ХтВту - -Пк, вариант:
= (ХТВХ)~ 1ХТВ(Хлл^ - в-1^ - У)) +
доставляет локальный минимум функции ошибки общего вида А, В, £) при сходимости последовательности векторов
Оптимальные значения гиперпараметров а и ¡3 — элементов матриц А и В вычисляются итеративно следующим образом. При фиксированных параметрах находятся оптимальные значения а. С использованием а находятся оптимальные значения /3. Далее новые /3 определяют новые значения вспомогательной переменной А. Цикл повторяется до тех пор, пока изменение значений а, ¡3 на соседних шагах не станет менее заранее заданной границы.
Оптимальные значения параметров переоцениваются с использованием функции ошибки Й^З^А, В), определенной числителем (14) при фиксированных на данном шаге значениях матриц А, В. Таким образом, параметры ш и гиперпараметры А, В регрессионной модели / оцениваются по отдельности. На каждой итерации сначала при фиксированных значениях гиперпараметров отыскиваются параметры путем оптимизации функции 5'(ш). При этом используется алгоритм Левенберга-Марквардта или его модификации, описанные в первом разделе.
Для того, чтобы оценить структурные параметры А, В совместно с параметрами регрессионной модели, воспользуемся методом аппроксимации Лапласа ■функции правдоподобия модели.
Для нахождения оптимальных структурных параметров А, В выражение
(17) прообразуется следующим образом:
Ш)Ш) /ехр О - ^ - f0(-kAw)dw- (is)
w6w
Примем за функцию ошибки S(w,A, В) показатель экспоненты выражения
(18) с отрицательным знаком:
S(w, А, В) = i(y - f)TB(y - f) + iwTAw, (19)
тогда оптимизационная задача (18) перепишется в более удобном виде:
}Bt JAl\ f ехр(—5(w, A,B))dw -> max. (2тгт)(2тг5) J ^ k ' " a,b weW
Отметим, что оптимальными параметрами w модели f = f(w,X) являются те, которые максимизируют апостериорное распределение параметров или, в нашем случае, минимизируют функцию ошибки
w = arg min 5'(w|A, В),
wew
где А, В — оптимальные структурные параметры, максимизирующие выражение (18).
Теорема 3. Для гипотезы нормального распределения зависимойперелкнной при фиксированных ковариационных матриц А-1, В-1 итерационный алгоритм оценки параметров
Awfc+1 = (JTJ)"! (V(y - f(w, X)) -
доставляет локальный минимум функции ошибки общего вида S,(w|S, А, B,f) при сходимости последовательности векторов w
Замечание. Итерационный алгоритм wfc+1 = Awjt+1 + w^ предполагает известное начальное приближение wo- Последовательность ||w*+i — wjt||2 монотонно убывает с увеличением номера шага к.
Вместо оптимизации выражения (18), будем оптимизировать аппроксимированное выражение
|^^|exp(5(w)) / exp^Aw^Aw^max. (20) wew
Отметим, что подынтегральное выражение в (20) является частью нормального распределения, поэтому весь интеграл в (20) можно заменить на нормировочную константу и получить оптимизационную задачу вида:
Прологарифмируем выражение (21) и будем искать оптимум в виде:
- 1п5(А, В) = -11п(2тг) + ¿111 |А| + 11п |В| - - \ 1п |Н|. (22)
Для дальнейших рассуждений примем некоторые ограничения на вид матриц А, В, позволяющие упростить вид функции 1пд(А, В). В частности, везде далее будем рассматривать случай скалярной матрицы В = /Л. В случае скалярной матрицы В = /31, функция ошибки (19) записывается следующим образом:
5(ш, А, /3) = ^(у - £)т(у - Г) + = /35э(ш) + (23)
где
= (24)
и гессиан Н записывается в виде
Н = /Шэ + А,
где Нф — гессиан функции б'в^) в точке =
Пусть вектор параметров т^о = [и>1(о), - - •, №п(о)]т фиксирован.
Теорема 4. В окрестности вектора параметров оценка ковариационных матриц А-1, В-1 для гипотезы нормального распределения зависимой переменной имеет вид
= \ 1 + 7--—^Т ~ 1 I ' где =
2 \ V ~ Що)) )
тп — 7 , Л,-
Последовательности ||А^+1 — А^||2 и ||Аг+1 — ДЦ2 монотонно убывают с увеличением номера шага к.
В работе рассматриваются частные случаи скалярной и диагональной матрицы А, что позволяет дифференцировать слагаемое
а также стохастический алгоритм, позволяющий получать матрицу общего вида.
5. Выбор моделей для данных в разнородных шкалах и экспертных оценок
В этом разделе описаны способы выбора моделей при построении интегральных индикаторов качества сложных объектов с использованием экспертных оценок.
Задано множество Т = {«1,.... ит} объектов и множество показателей Ф = ..., фп}. Произвольный объект У{ описывается с помощью вектора-строки X; = (хц, хц,..., Х{п) : х; 6 К". Множество измерений представляется в виде матрицы исходных данных, обозначаемой X = {х^}Т/=\ в пространстве действительных чисел: X 6 Итхп. Элемент х^ — значение ]-то показателя фj для г-го объекта и,.
Интегральным индикатором объекта г); € Т с номером г называется скаляр гд, поставленный в соответствие набору х^ описаний объекта. При рассмотрении множества объектов Т вектор у = (У1,—,Ут)Т '■ У £ ®т считается интегральным индикатором множества объектов, описанных матрицей
X = {х*}^: X е Ктхп.
Согласованными значениями интегрального индикатора и весов показателей называются такие векторы у и при которых выполняются условия
У = (25)
V = Х+у,
где Х+ — линейное отображение, псевдообратное отображению X, такое, что ХХ+Х = X, Х+ХХ+ = Х+ и (ХХ+)Т = ХХ+, (Х+Х)т = Х+Х. Задачей предлагаемого метода является такое уточнение экспертных оценок, которое соответствовало бы условию (25).
Заданы экспертные оценки уо, '«'о, допускающие произвольные монотонные преобразования. Задана матрица описаний объектов X 6 Ж'пх".Без ограничения общности будем считать, что на наборах экспертных оценок введено отношение порядка такое, что
2/1 > У2 > — >Ут> 0 и «/1 ^ — ^ гу„ ^ 0. (26)
Для выполнения этого условия достаточно переставить элементы векторов уо, тлг() и соответствующие им строки и столбцы матрицы X местами. Обозначим двухдиагональную матрицу Л и перепишем (26) в виде
Лту ^ о и Л,^ ^ 0.
Число строк квадратной матрицы Л равно числу неравенств в системе, а число элементов каждой строки равно числу элементов вектора (у или \у).
Обозначим конусы, заданные экспертными оценками в пространстве интегральных индикаторов и в пространстве весов показателей, соотвественно О, и УУ:
о. = {у|^у>о>,
Нижний индекс 0, указывающий на то, что оценка поставлена экспертом, опущен, так как векторы у, w рассматриваются как произвольные элементы множеств.
Линейное отображение X переводит конус >У Э экспертных оценок показателей (27) в вычисленный конус ХУУ = РЭ чу;:
X : УУ ->• Р,
X : |-> ух.
Рассмотрим следующие варианты:
1) конусы Р и (2 пересекаются, в этом случае экспертные оценки считаются согласованными и найдется такая пара ур € Ри 2, = Х+ур 6 >У, которая удовлетворяет условию согласованности (25);
2) пересечение конусов Р и <2 пусто, в этом случае требуется уточнение экспертных оценок.
В случае пустого пересечения конусов Qp = Q П XW и Wp = W П X+Q предлагается использовать модифицированный метод уточнения экспертных в линейных шкалах. В пространстве интегральных индикаторов рассмотрим лучи, заданные векторами у £ Q и р € Р = XW. Найдем ближайшие друг к другу лучи на ребрах или гранях конусов Q, V,
cos(y'p) = MPi"max-
и выполним процедуру уточнения на точках, задающих эти лучи. Отыскиваемая пара у, р должна выполнять следующие условия:
maximize утр
subject to уту = 1, ртр = 1,
Jny^O XJmp^O.
Построим итерационный алгоритм, последовательно находящий приближения векторов у(2*),р(2<!+1) на четном и нечетном шаге. Векторы х = у'2*' и у = p(2fc+1' будем считать решениями двух последовательно решаемых оптимизационных задач, полагая произвольным вектор £ "Р на шаге к = 0.
Задача 2к : Задача 2k + 1 :
maximize хтр(2Ь) maximize уГ(2*+1)у
subject to хтх = 1, subject to yTy = 1,
J„x > 0. XJmy > 0.
При решении задач, на каждом шаге значение констант p(2fe) и y(2fc+1) принимается равным значениям соответствующих решений х и у предыдущего шага. Так как максимизируемые функции и ограничения обеих задач являются выпуклыми, то решение будет найдено за счетное число шагов. Методы выпуклой оптимизации, используемые для получения численных решений, хорошо исследованы и описаны, например, в [Boyd: 2004, Minoux: 1990].
Получив решения задачи — векторы р и у, выполняем процедуру линейного уточнения оценок интегрального индикатора
Уа = (1 - «)Р + «У,
при условии существования нетривиального решения уа, то есть, рту —1. Как было показано ранее, вектор уа и соответствующий ему вектор w„ = Х+у„ удовлетворяют условию согласованности (25). Эти векторы задают в соответствующих пространствах конусы W и Q, причем пересечение Wp = XW П Q не пусто. Так же, как и в случае уточнения оценок у линейных шкалах, при значении параметра а —> 0, предпочтение отдается экспертным оценкам качества объектов. При а 1 предпочтение отдается экспертным оценкам важности показателей.
6. Анализ прикладных задач
Поставленные в первой главе задачи регрессионного анализа и их решения играют важную роль в ряде прикладных областей. Принятый способ постановки задач, в терминах arg max, позволяет разбить работы по решению прикладных задач на несколько независимых частей. Постановка прикладной задачи как задачи регрессионного анализа включает следующие шаги.
1. Строится регрессионная выборка, определяются общие цели моделирования.
2. Назначается функция ошибки и ограничения на регрессионную модель. Функция ошибки может быть назначена исходя из гипотезы порождения данных, либо исходя из прикладных соображений, например, из требований к минимизации риска, максимизации прибыли, из стандартов физико-химических измерений и прочих.
3. Назначается класс регрессионных моделей, из которых будет выбрана модель оптимальной структурной или статистической сложности.
4. Задача выбора модели ставится как оптимизационная задача с ограничениями. Выбираются алгоритмы оптимизации для ее решения.
5. Исходя из гипотезы порождения данных или исходя из прикладных соображений выполняется ряд тестов, которые оценивают качество и свойства выбранной модели.
2G
Рекурсивная форма векторной авторегрессионной модели имеет вид
у« = ]Г(Агуе_т + Вти(_г + Стг4_т) + т + е«. (28)
т=0
Здесь вектор управляющих воздействий ит и присоединенный к нему справа вектор внешних воздействий гт образуют транспонированный вектор экзогенных переменных, а матрица коэффициентов В и присоединенная к ней справа матрица С образуют матрицу коэффициентов, на которую вектор экзогенных переменных умножается слева.
В выражении (28) переменная £ — дискретное время 1, = 1,..., ¿о, ¿о — последний наблюдаемый такт времени. Переменная т обозначает глубину лагирова-ния, причем т = 1, ...,]-< ¿о- Также переменная т есть регрессионное среднее и £t — регрессионный остаток, в общем различный в каждый момент времени. Так как состояние у объекта управления описано т переменными, а управляющие и и неуправляемые г внешние воздействия описаны соответственно 9 и к переменными, то матрицы А е Ктхт, В € Етхр, С 6 Мтх1 и векторы у,т,ееКт,и€Мр,геМ*.
В первом столбце таблицы показаны значения лаговой переменный т, которые соответствуют матрицам коэффициентов напротив. Левая часть уравнения (28) — вектор у показан в верхней строке таблицы. Он получается путем суммирования всех матриц, транспонированных и умноженных слева на соответствующие векторы, которые показаны в правом столбце таблицы, а также транспонированного вектора регрессионного среднего т (нижняя строка таблицы) и вектора авторегрессионного остатка (в таблице не показан). Из таблицы видно, что заполняемость ненулевыми коэффициентами невысока. В частности, все элементы матриц Аг, Аз, А4, Сз равны нулю, а матрицы С2, С4 имеют только по одному ненулевому элементу. В данной работе обсуждается только этот способ идентификации моделей (28), поэтому анализ заполняемое™ матриц А, В, С и нахождение оптимальной глубины лагирования т останется за рамками исследования.
Представим выражение (28) в приведенной форме. Для этого перенесем вектор у( состояния объекта управления в левую часть и получим выражение
г
Iyt - A0yt = B0u¡ + C0Zí + ^(ATyt_r + BTut_T + CTzt-T) + m + <rt,
T=1
здесь I — единичная матрица. Матрица линейного оператора А : у —>■ у предлагаемой эконометрической модели имеет полный ранг. Следовательно, матрица (I — А0) не вырождена. Найдем обратную матрицу (I — Ао)-1 и получим выражение
yt = (I - Ао)"1 ^B0ut + C0Z, + ¿(Aryt_T + BrUt_T + Cr2(_r) + ra + e, j . (29)
Пусть известно состояние yt объекта управления и внешние воздействия u¡, zt в течение времени t— 1, ..., ío. Чтобы спрогнозировать состояние объекта управления для момента времени t — ti необходимо подставить в выражение (29) значения векторов измерений экзогенных переменных ut, zt в моменты времени t = ¿o, t0 — 1..., ¿o — г, вектора у£ измерений эндогенных переменных в моменты времени t — ío— 1..., ío—г, а также значения матриц коэффициентов Ат, Вг, Ст, где т=0, ...,г.
Модель субъекта определяет связь между списком альтернатив принимаемых решений и переменных, которые управляют субъектом. Для заданных элементов а из множества альтернатив Л = {а} определяются значения управляемых переменных, и = и(Л). Принятие той или иной управляющей альтернативы определяет состояние субъекта управления и индикатора состояния объекта. И наоборот, задавая индикатор состояния или переменные состояния объекта мы определяем значения управляемых переменных и находим ближайшую соответствующую этим значениям альтернативу.
При моделировании систем управления различают две задачи: прямую и обратную. Прямая задача заключается в нахождении состояния объекта управления при заданных управляющих воздействиях, см. (29). Обратная задача заключается в нахождении управляющих воздействий, которые требуются для достижения заданного состояния объекта при некоторых условиях, которые будут описаны ниже.
Прямая задача нахождения состояния у« объекта управления по экзогенным переменным и() Хь, согласно эконометрической модели, решается посредством выражения (29). Для решения задачи управления, то есть, нахождения таких управляющих воздействий и, которые бы привели объект управления в заданное состояние у, рассмотрим зависимость состояния у^ от управляющих воздействий и;,..., 11|_,. Для этого выберем из множества элементов {и^,..., и\к}, < = ¿о, г = 0, ..., г} векторов такие элементы составляющие вектор управления и£ = [к*'1*,...,что для г = 1 ,...,р и у = выполняется условие
ьч,т Ф 0, г = тт(0, ...,г),
где Вг = {6у,Т}. Другими словами выберем такие элементы вектора управляющих воздействий, которые для данного прогнозируемого состояния в момент времени í являются существенными, имеют ненулевые коэффициенты. При этом необходимо учитывать, что управляющее воздействие было последним по времени относительно состояния объекта управления. Также рассмотрим в качестве примера влияние управляемых переменных gt и "Ьг на вектор у состояния объекта управления.
Подставляя в выражение (29) значения векторов фазовых траекторий (У(0-1, -,У(0-г), {*1а-и •••,2(0-7-) И (и(|1_ь...,и,0-г) за исключением элементов вектора и4 и упрощая это выражение, получаем
у, = + Ь{,г, (30)
где Сг € Жрх*: — новая матрица коэффициентов для управляемых переменных 11(, значение которой вычисляется для заданного г и г е Мт — вектор, вычисляемый для заданного момента времени по известным значениям фазовых траекторий.
Уравнение обратной задачи
и* = с+(у4 - Чг) (31)
получается путем псевдообращения оператора С. Так как в 6 Етхр, то псевдообратная матрица С+ € Ирхт при выполнении условия С+С = 1р.
Для псевдообращения используется сингулярное разложение матрицы G = WAVT. Так как W и V являются ортогональными матрицами, а Л — диагональная матрица, то справедливо равенство G+ = VTA_1W, причем G+G = VA-1WT W AVT = Ifc.
Требуется подобрать такую последовательность управляющих воздействий (U(,,..., utJ, при ограничениях на управление ut 6 Диг, которая бы при некотором заданном сценарии внешних воздействий обеспечивала бы через п шагов состояние ytn € Auin. В рамках данной задачи определим две: задачу наискорейшего приближения к целевому состоянию и задачу оптимального управления.
Задача наискорейшего приближения не является оптимальной в том смысле, что для ее решения не назначается функция общей стоимости управления; требуется подобрать такие векторы управления (и(о, ...,иг„) при ограничениях Uj 6 Лиг, которые бы минимизировали расстояние между целевым вектором уцп и вектором текущего состояния уt на каждом шаге.
Для этого на каждом шаге, начиная с ¿о, отыскивается такое новое состояние у(+1 = ау(„ + (1 — а)уt объекта управления, что
a = arg min ||ytn - yt+i||2, и,+,бЛиг+1
где параметр а € [0,1]. Данный алгоритм стремится достичь заданное состояние независимо от характера внешних воздействий (z..., ztn).
В задаче оптимального управления, как и в предыдущей, заданы сценарий внешних воздействий (ztl,..., ZtJ, ограничения Ди£ на управляющие воздействия Ut и целевой вектор у„. Требуется найти такую последовательность векторов (ut,, ...,U(n), при ограничениях Ut 6 Ди(, которая приводила бы объект управления из начального состояния yto в целевое состояние yt„ за п шагов при минимальной стоимости управления F(\itlt..., u(J —> min.
Заключение
Решены следующие задачи.
1. Исследована связь между пространством данных и пространством параметров моделей. Результаты опубликованы в работах, посвященных связанному байесовскому выводу.
2. Исследована связь между целевой функцией и распределением параметров модели. При этом использованы методы тестирования статистических гипотез.
3. Исследованы методы выбора из счетного или континуального множества линейных, полиномиальных, криволинейных и обобщенно-линейных моделей. Методы выбора моделей определяются классом рассматриваемых моделей. При этом выбор производится из конечного числа моделей.
4. Развит метод порождения моделей, который заключается в последовательной модификации элементов суперпозиций. Исследованы и описаны топологические свойства пространства параметров моделей. На основании этого исследования предложен метод последовательного порождения некоторых классов нелинейных моделей.
5. Исследована проблема порождения топологически изоморфных моделей с различной структурой суперпозиции. Сформулирован набор ограничений, которые требуется наложить на порождаемое множество моделей для исключения топологически изоморфных моделей.
6. Развиты и предложены новые методы оценки гиперпараметров моделей. В частности, исследована связь между методом оптимального прореживания, методом наименьших углов и аппроксимацией Лапласа для пространства параметров. Указаны классы моделей, к которым применимы предложенные методы оценки гиперпараметров.
Получены следующие научные результаты.
1. Метод оценки гиперпараметров в связанном байесовском выводе обобщен на случай многомерного распределения параметров моделей, описываемого ковариационной матрицей. Новизна заключается в том, что обобщенный метод может быть использован для оценки информативности элементов широкого класса нелинейных моделей.
2. Выполнена работа по сравнению различных алгоритмов порождения и выбора линейных регрессионных моделей. Цель данной работы - изучение способов нахождения глобального минимума суммы квадратов невязок при последовательном добавлении элементов модели. Основной результат работы - получен новый эвристический алгоритм выбора линейной модели на основе ранее предложенного метода наименьших углов. Этот алгоритм имеет большую устойчивость к данным с множественной корреляцией признаков.
3. Исследованы ранговые регрессионные модели. В частности, разработан новый метод согласования экспертных оценок при построении интегральных индикаторов в ранговых шкалах. Исследованы свойства регрессионных моделей, параметры и зависимые переменные которых принадлежат конусам. Исследованы способы сравнения и выбора таких моделей. Предложенный метод использован для построения интегрального индикатора воздействия тепловых электростанций на окружающую среду.
4. Разработаны способы оценки гиперпараметров для основных классов моделей. Результатом этого исследования является методология создания оптимизационных алгоритмов, итеративно вычисляющих параметры и гиперпараметры моделей. В частности, рассмотрены линейные модели, обобщенные линейные модели, криволинейные модели с нелинейными параметрами базовых функций, полилинейные модели, одно и двухслойные нейронные сети, функции радиального базиса и существенно нелинейные модели.
5. Созданы базовые алгоритмы порождения оптимальных нелинейных регрессионных моделей: алгоритм обобщенного индуктивного порождения произвольных суперпозиций нелинейных параметрз'тгсккх функций и алгоритм
порождения линейных и полиномиальных суперпозиций нелинейных параметрических функций.
6. Созданы алгоритмы выбора регрессионных моделей из индуктивно заданного множества: комбинаторный алгоритм перебора моделей ограниченной сложности, многорядный алгоритм выбора наиболее информативных мономов полинома Колмогорова-Габора, алгоритм генетического выбора наиболее информативных мономов и генетический оптимизационный алгоритм выбора моделей, представленных произвольными суперпозициями нелинейных функций.
7. Разработана система алгоритмов поиска оптимальных моделей для решения задач нелинейной регрессии и получения адекватных устойчивых регрессионных моделей. В качестве элементов, порождающих множество моделей, был использован набор аналитических функций. Модели были идентифицированы по ряду тестовых и реальных обучающих выборок, выполнен анализ адекватности этих моделей. Параметры моделей оцениваются с помощью квазиньютоновских методов оптимизации. Для поиска моделей используются алгоритмы стохастической оптимизации.
8. Показано, что поиск моделей в неявно заданном множестве возможно выполнять путем анализа значений гиперпараметров, поставленных в соответствие элементам моделей.
Публикации по теме диссертации
Нижеприведенные работы опубликованы в журналах из списка ВАК.
[1] Kuznetsov М.Р., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014, 41(4): 1988-1996.
[2] Motrenko A.P., Strijov V.V., Weber G.-W. Bayesian sample size estimation for logistic regression // Journal of Computational and Applied Mathematics, 2014, 255: 743-752.
[3] Strijov V., Krymova E.A., Weber G.W. Evidence optimization for consequently generated models // Mathematical and Computer Modelling, 2013, 57(1-2): 5056.
[4] Strijov V., Granic G. et al. Integral Indicator of Ecological Footprint for Croatian Power Plants // Energy, 2011, 36(7): 4144-4149.
[5] Strijov V., Weber G.-W. Nonlinear regression model generation using hyperparameter optimization // Computers and Mathematics with Applications, 2010, 60(4): 981-988.
[6] Цыганова C.B., Стрижов B.B. Построение иерархических тематических моделей коллекции документов // Прикладная информатика, 2013, 1: 109-115.
[7] Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория, 2013, 79(5): 65-73.
[8] Медведникова М.М., Стрижов В.В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013,1:154165.
[9] Адуенко A.A., Стрижов В.В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013, 3: 21-25.
[10J Будников E.A., Стрижов B.B. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013, 4: 40-45.
[11] Зайцев A.A., Стрижов В.В., Токмакова A.A. Оценка гиперпараметров регрессионных моделей методом максимального правдоподобия // Информационные технологии, 2013, 2: 11-15.
[12] Иванова A.B., Адуенко A.A., Стрижов В.В. Алгоритм построения логических правил при разметке текстов // Программная инженерия, 2013, 6: 4148.
[13] Кузьмин A.A., Стрижов В.В. Проверка адекватности тематических моделей коллекции документов // Программная инженерия, 2013, 4: 16-20.
[14] Медведникова М.М., Стрижов В.В. Построение интегрального индикатора качества научных публикаций методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2013,1:154165.
[15] Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика, и её применения, 2013, 7(1): 17-26.
[16] Адуенко A.A., Кузьмин A.A., Стрижов В.В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, 3:119-131.
[17] Мотренко А.П., Стрижов В.В. Многоклассовая логистическая регрессия для прогноза вероятности наступления инфаркта // Известия ТулГУ, 2012, 1: 153-162.
[18] Стрижов В.В., Кузнецов М.П., Рудаков К.В. Метрическая кластеризация последовательностей аминокислотных остатков в ранговых шкалах // Математическая биология и биоинформатика, 2012, 7(1): 345-359.
[19] Сандуляну JI.H., Стрижов В.В. Выбор признаков в авторегрессионных задачах прогнозирования // Информационные технологии, 2012, 7: 11-15.
[20] Токмакова A.A., Стрижов B.B. Оценивание гиперпараметров линейных и регрессионных моделей при отборе шумовых и коррелирующих признаков // Информатика и её применения, 2012, 6(4): 66-75.
[21] Кузнецов М.П., Стрижов В.В., Медведникова М.М. Алгоритм многоклассовой классификации объектов, описанных в ранговых шкалах // Научно-технический вестник С.-Пб.ПГУ. Информатика. Телекоммуникации. Управление 2012, 5: 92-95.
[22] Крымова Е.А., Стрижов В.В. Алгоритмы выбора признаков линейных регрессионных моделей из конечного и счетного множеств, Заводская лаборатория, 2011, 77(5): 63-68.
[23] Стрижов В.В., Крымова Е.А. Выбор моделей в линейном регрессионном анализе // Информационные технологии, 2011, 10: 21-26
[24] Стрижов В.В. Уточнение экспертных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория, 2011, 77(7): 72-78.
[25] Стрижов В.В., Сологуб P.A. Индуктивное порождение регрессионных моделей предполагаемой волатилыюсти для опционных торгов // Вычислительные технологии, 2009, 14(5): 102-113.
[26] Стрижов В.В., Казакова Т.В. Устойчивые интегральные индикаторы с выбором опорного множества описаний // Заводская лаборатория, 2007, 73(7): 72-76.
[27] Стрижов В.В. Поиск параметрической регрессионной модели в индуктивно заданном множестве // Вычислительные технологии, 2007, 1: 93-102.
[28] Стрижов В.В. Уточнение экспертных оценок с помощью измеряемых данных // Заводская лаборатория, 2006, 72(7): 59-64.
Подписано в печать:
01.10.2014
Заказ № 10252 Тираж -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru
-
Похожие работы
- Методы решения задачи восстановления зависимости коллективами распознающих алгоритмов
- Алгоритмы порождения и трансформации моделей в задачах нелинейной регрессии
- Разаработка методов планирования эксперимента при непараметрическом представлении модели объекта
- Метод формирования признаков текстурных изображений на основе марковских моделей
- Алгоритмы обучения с голосованием древовидных правил
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность