автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Модель прогнозирования временных рядов по выборке максимального подобия

кандидата технических наук
Чучуева, Ирина Александровна
город
Москва
год
2012
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Модель прогнозирования временных рядов по выборке максимального подобия»

Автореферат диссертации по теме "Модель прогнозирования временных рядов по выборке максимального подобия"

ЧУЧУЕВА ИРИНА АЛЕКСАНДРОВНА

МОДЕЛЬ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ ПО ВЫБОРКЕ МАКСИМАЛЬНОГО ПОДОБИЯ

Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

? 2 :лД? ¿012

Москва-2012

005014803

Работа выполнена на кафедре информационных измерительных систем и телекоммуникаций Московского государственного технического университета имени Н.Э. Баумана

Научный руководитель: доктор технических наук, профессор

Павлов Юрий Николаевич

Официальные оппоненты:

доктор физико-математических наук, профессор Павлов Игорь Валерианович

кандидат физико-математических наук Масалович Андрей Игоревич

Ведущая организация:

Федеральное государственное унитарное предприятие «Научно-производственное объединение имени С.А. Лавочкина»

Защита диссертации состоится «20» марта 2012 г. в 11 час. 00 мин. на заседании диссертационного совета Д 212.141.15 при Московском государственном техническом университете имени Н.Э. Баумана по адресу: 105082, Москва, Рубцовская наб., д. 2/18, ауд. 1006Л.

Отзывы на автореферат в двух экземплярах, заверенные печатью, просим направлять по адресу: 105005, Москва, 2-я Бауманская ул., д. 5, МГТУ им. Н.Э. Баумана, ученому секретарю диссертационного совета Д 212.141.15.

С диссертацией можно ознакомиться в библиотеке Московского государственного технического университета имени Н.Э. Баумана.

Автореферат диссертации разослан «_»_2012 г.

Ученый секретарь диссертационного совета, кандидат технических наук, старший научный сотрудник, доцент

-Аттетков А.В.

Общая характеристика работы

Актуальность темы. Задача прогнозирования будущих значений временного ряда, используя его исторические значения, является основой для финансового планирования в экономике и торговле, планирования, управления и оптимизации объемов производства, складского контроля.

В настоящее время компаниями осуществляется накопление исторических значений экономических и физических показателей в базах данных, что существенно увеличивает объемы входной информации для задачи прогнозирования. Вместе с тем развитие аппаратных и программных средств предоставляет все более мощные вычислительные платформы, на которых возможна реализация сложных алгоритмов прогнозирования. Кроме того, современные подходы к экономическому и техническому управлению предъявляют все более жесткие требования к точности прогнозирования. Таким образом, задача прогнозирования временных рядов усложняется одновременно с развитием информационных технологий.

Задача прогнозирования различных временных рядов актуальна и ее решение является неотъемлемой частью ежедневной работы многих компаний. Данная задача решается созданием модели прогнозирования, адекватно описывающей исследуемый процесс.

К сегодняшнему дню разработано множество моделей прогнозирования временных рядов: регрессионные и авторегрессионные модели, нейросетевые модели, модели экспоненциального сглаживания, модели на базе цепей Маркова, классификационные модели и др. Наиболее популярными и широко используемыми являются классы авторегрессионных и нейросетевых моделей. Существенным недостатком авторегрессионного класса является большое число свободных параметров, идентификация которых неоднозначна и ресурсоемка. Основным недостатком класса нейросетевых моделей является недоступность промежуточных вычислений, выполняющихся в «черном ящике», и, как следствие, сложность интерпретации результатов моделирования. Кроме того, слабой стороной данного класса моделей является сложность выбора алгоритма обучения нейронной сети.

Диссертация посвящена разработке новой авторегрессионной модели прогнозирования, которая имеет сравнимую с другими моделями эффективность прогнозирования различных временных рядов и при этом устраняет основной и наиболее существенный недостаток авторегрессионого класса моделей — большое число свободных параметров.

Целью работы является разработка новой модели и соответствующего ей метода прогнозирования, относящейся к классу авторегрессионных моделей и устраняющей основной недостаток данного класса — большое число свободных параметров. Новая модель и соответствующий ей метод должны иметь высокую скорость вычисления прогнозных значений и сравнимую с другими моделями точность прогнозирования различных временных рядов.

Для достижения этой цели были поставлены и решены следующие задачи.

1. Осуществить обзор моделей и методов прогнозирования временных рядов, выявить достоинства и недостатки каждого класса моделей. Выявить наиболее используемые классы моделей прогнозирования и их основные недостатки, определить перспективные подходы, позволяющие устранить недостатки авторегрессионного класса моделей.

2. Разработать новую модель прогнозирования временных рядов, устраняющую указанный недостаток авторегрессионного класса моделей.

3. Разработать новый метод прогнозирования на основании предложенной модели и выполнить программную реализацию алгоритмов.

4. Оценить эффективность предложенной модели прогнозирования при решении задачи прогнозирования различных временных рядов.

Методы исследования. При решении поставленных задач в работе использованы методы математического моделирования, анализ временных рядов, регрессионный анализ, методы объектно-ориентированного программирования.

Научная новизна. В диссертации получены следующие основные результаты, которые выносятся на защиту.

1. Модель экстраполяции временных рядов по выборке максимального подобия, относящаяся к классу авторегрессионных моделей и имеющая единственный параметр.

2. Метод прогнозирования временных рядов на основании разработанной модели, содержащий набор алгоритмов для экстраполяции временных рядов, идентификации модели и построения доверительного интервала прогнозных значений.

3. Результаты прогнозирования временных рядов показателей энергорынка РФ, а также временных рядов из других предметных областей, подтверждающие эффективность разработанной модели.

Достоверность и обоснованность выносимых на защиту результатов прогнозирования показателей энергорынка РФ документально подтверждается ЗАО «РусПауэр», использующего разработанные алгоритмы на ежедневной основе. Достоверность результатов прогнозирования временного ряда уровня сахара крови человека, больного диабетом первого типа, обеспечивается строгостью применяемого математического аппарата и подтверждается приведенным сравнительным анализом. Достоверность результатов прогнозирования скорости движения транспорта по г. Москва обеспечивается условиями открытого конкурса, проводимого компанией «Яндекс». Результаты конкурса опубликованы в открытом доступе по адресу http://imat2010.yandex.ru/results.

Практическая ценность. Разработанная модель и метод прогнозирования по выборке максимального подобия могут применяться для прогнозирования временных рядов различных предметных областей. Разработанные алгоритмы экстраполяции временных рядов с учетом и без учета внешних факторов наглядны для программной реализации. Скорость вычисления прогнозных значений при использовании модели высока. Задача идентификации модели упрощена в сравнении с другими моделями авторегрессионного класса.

Реализация и внедрение результатов работы. Результаты работы реализованы по заказу Закрытого акционерного общества «РусПауэр» в виде серверного приложения для прогнозирования показателей энергорынка РФ на ежедневной основе. Приложение работает в автоматическом режиме и предоставляет прогнозные значения показателей без вмешательства эксперта.

Апробация работы. Основные результаты диссертационной работы докладывались на I Международной научно-практической конференции ученых, аспирантов и студентов «Наука и современность 2010» (Новосибирск, 2010), на научно-технической конференции «Студенческая научная весна» (Москва, 2010), на III Международной конференции «Математическое моделирование социальной и экономической динамики (MMSED-2010)» (Москва, 2010).

Публикации. Основные результаты диссертации опубликованы в 8 научных статьях, в том числе в 5 статьях, опубликованных в журналах из Перечня рецензируемых ведущих научных журналов и изданий, и 2 тезисов докладов.

Личный вклад соискателя. Все исследования, результаты которых изложены в настоящей работе, получены лично соискателем в процессе научных исследований. Из совместных публикаций в диссертацию включен лишь тот материал, который непосредственно принадлежит соискателю.

Структура и объем работы. Диссертационная работа состоит из введения, четырёх глав, заключения, списка литературы и приложения, занимающих 154 страниц текста, в том числе 33 рисунка па 29 страницах, 37 таблиц на 29 страницах, список использованной литературы из 75 наименований на 10 страницах.

Содержание работы

Во введении обоснована актуальность темы, сформулированы цель и задачи исследования, научная новизна, указана достоверность и обоснованность, а также практическая значимость полученных результатов, основные положения, выносимые на защиту.

Первая глава является обзорной. В ней приведены определения основных понятий, сформулированы два вида постановки задачи прогнозирования временного ряда — с учетом и без учета внешних факторов.

В результате обзора установлено, что к текущему времени разработано множество моделей прогнозирования временных рядов. Подробнее рассмотрены следующие классы моделей прогнозирования:

— регрессионные модели;

— авторегрессионные модели;

— модели экспоненциального сглаживания;

— нейросетевые модели;

— модели на базе цепей Маркова;

— модели на базе классификационно-регрессионных деревьев.

Среди множества моделей прогнозирования наиболее широкую

применимость имеют классы авторегрессионных и нейросетевых моделей.

По итогам обзора выявлены достоинства и недостатки всех рассмотренных классов моделей. Установлено, что существенным недостатком авторегрессионного класса моделей является большое число свободных параметров, требующих идентификации. Основным недостатком класса нейросетевых моделей является недоступность промежуточных вычислений и, как следствие, сложность интерпретации результатов моделирования. Кроме того, к слабой стороне нейросетевых моделей следует отнести сложность выбора алгоритма обучения сети.

На основании обзора моделей прогнозирования установлено, что наиболее перспективным направлением развития моделей с целью повышения точности является создание комбинированных моделей, выполняющих на первом этапе кластеризацию, а затем прогнозирование временного ряда внутри установленного кластера. В рамках данного направления подробно рассмотрен ряд моделей, на основании которых

сформулированы подходы к разработке новой модели.

Во второй главе предложены модели экстраполяции временных рядов по выборке максимального подобия для двух видов постановки задачи — с учетом и без учета внешних факторов.

Пусть дан временной ряд 2{1) = 2{1),2(2),...,2(Т). Набор последовательных значений 2^=2(1), 2{1+\),...,2{и-М-1), лежащий внутри исходного временного ряда, назовем выборкой длины М с моментом начала отчета М&{\,2,..., Т) , ?б{1,2,.., Т—М + 1] . Фактически

выборкой является фрагмент временного ряда, имеющий точку начала отсчета и длину. Две выборки одинаковой длины, принадлежащие одному временному ряду, обозначим через временную задержку к:

.....2(/+М-1) и 2^к=2(1-к).....2{1-к+М-1), где

к&{ 1,2,...,* —1}. Если речь идет о векторах, соответствующих указанным выборкам, то используется обозначение 2".

По результатам обзора моделей прогнозирования было сформулировано следующее свойство временных рядов: «Моделирование временных рядов при помощи выборок основано на предположении, что временной ряд представляет собой последовательность выборок. При этом на практике часто наблюдается, что фактические выборки временного ряда могут иметь подобие с будущими выборками». Указанное свойство выборок использовано для построения модели прогнозирования.

Используя свойство выборок повторяться, аппроксимируем более позднюю выборку 2^ при помощи более ранней выборки 2"_к

г^аХ-^Х + Е". (1)

Перепишем выражение (1) следующим образом

(2)

Здесь «1 и й0 — коэффициенты, Iм — единичный вектор, Ем — вектор значений ошибок аппроксимации.

Пусть дана линейная зависимость (1), тогда функция ошибки аппроксимации для выборок и с задержкой к имеет вид

1 = 0

Функция ¿^(а,,«,,) называется функцией суммы квадратов. Задача состоит в том, чтобы подобрать такие значения «, и «о, чтобы при подстановке их в (3) было получено минимальное возможное значение

(ар <Хц). В работе задача решена методом наименьших квадратов.

Пусть дан временной ряд 7{1) и некоторая выборка 2™, принадлежащая данному временному ряду. Определим все значения («,,«„) для ¿е|1,2,...,/-1), М=со)Ш. Далее в множестве значений Б" найдем минимальное

(4)

В работе показано, что минимум ошибки регрессии соответствует максимуму модуля коэффициента линейной корреляции между исходной выборкой Z(м и модельной 21?. То есть если для Ае) 1,2,...,/ —1] и М = с<т/ определить множество значений модуля линейной корреляции

М I / гу Л/

Рк =!р(2, ,z,

-б[0,1]. (5)

it (Z(t + i)-Zf-£(Z(t+i)-Z)2

а после определить максимальное значение полученного множества

и ¡ММ М V

Pw = MiKiPl. P2.-.P,-l). (6)

то задержка fow/л из выражения (4) и задержка tea* из выражения (6) будут равны между собой, т.е. kmin-kmax. Проведенные в работе расчеты подтверждают данное утверждение.

Определенную в (4) или (6) задержку, соответствующую минимуму ошибки регрессии и максимуму модуля корреляции обозначим ктах, а выборку 2"_ктах назовем выборкой максимального подобия (most similar pattern). Выборка максимального подобия 2'"__ктпх является выборкой,

которая при подстановке в уравнение (2) дает в результате значения выборки

,. -л/

2, , которая максимально точно описывает исходную выборку 2t .

В работе сформулирована следующая гипотеза подобия: если исходная выборка Z,M и модельная выборка Z,M, полученная на основании (2) с

с „М U Г

использованием выборки 2 tkmux, имеют значение величины рШах, близкое к

- п , rr-М + Р

единице, то для некоторых значении Р и выборок 2t_imax, 2, значение величины p'^f также близко к единице.

Задача экстраполяции временного ряда без учета внешних факторов состоит в том, что в момент времени Т необходимо определить Р значений временного ряда в моменты времени Z(T+1), Z(T+2),...,

Z(74/J).

Используя сформулированное выше свойство выборок, выразим выборку через некоторую выборку лежащую внутри исходного

временного ряда Z,

K+i=°liZT+°ti>lP ■ (7)

Решение задачи экстраполяции временного ряда состоит из следующих шагов.

Шаг 1. Определим выборку максимального подобия для выборки новой истории Z't_m+i (выборка Новая история, рис. 1).

Поиск выборки максимального подобия осуществляем перебором всех возможных значений задержек Ае{ 1,2,..., Т—М—Х) . Для каждого значения к из указанного диапазона решаем задачу аппроксимации (1), в результате которой определяем коэффициенты а, и , соответствующие ¿.Далее для найденной пары коэффициентов определяем значения модельной выборки %т-м+\ > на основании которых вычисляем значение рмк (5). После того, как множество значений pf для Ае{1,2,..., Т—М — 1 ] получено, определяем значение p"nia по выражению (6) и соответствующую выборку максимального подобия Z"_M+i_hnia-Zfmax,.

Шаг 2. Вычислим выборку Z* (выборка Базовая история, рис. 1).

р

В соответствии с гипотезой подобия, в качестве выборки ZT используем выборку z[„,ti, то есть выборку, расположенную на оси времени сразу за выборкой максимального подобия.

Шаг 3. Вычислим выборку (выборка Прогноз, рис. 1).

Экстраполированные значения выборки определим по формуле К-^ = «Хкт^и + «а1Р=ЕММ8Р{М), (8)

которая представляет собой модель экстраполяции временных рядов по выборке максимального подобия (extrapolation model on most similar pattern, EMMSP(M)).

Положения упомянутых выборок представлены на рисунке 1.

Выборка макс. Базовая Новая _

Z(t) , Прогноз

4' подооия история история

900 700 500 300 100

Момент прогноза, Т

Рис. 1. Положение выборок на оси времени при экстраполяции временного ряда без учета внешних факторов

Задача экстраполяции временного ряда с учетом внешних факторов состоит в том, чтобы определить будущие значения временного ряда 2(г), т. е. выборку , учитывая влияние на них внешних факторов, представленных в виде временных рядов Х^),..., Хц(1).

Аналогично случаю без учета внешних факторов определим модель аппроксимации следующим образом

Пусть модельная выборка вычисляется на основании указанной

зависимости (9). Вычислим все значения .....а0) для задержек

¿€¡1,2,...,* —1} и Ы—сопи. Далее в множестве значений найдем минимальное по выражению (4). Как и в предыдущем случае минимум ошибки регрессии соответствует максимуму модуля коэффициента

линейной корреляции (6).

Аналогично случаю без учета внешних факторов определяется выборка максимального подобия . Подстановка значений в уравнение

аппроксимации (9) дает в результате значения выборки Я*', которая максимально точно описывает исходную выборку с учетом выборок внешних факторов Х",,Х"^. Кроме того, аналогично предыдущему случаю в работе сформулирована гипотеза подобия для случая учета внешних факторов.

Для определения значений прогнозной выборки учитывая

влияние на них внешних факторов, представленных в виде временных рядов ЛГЛ(г), был разработан алгоритм аналогичный случаю без учета внешних факторов. Выразим прогнозную выборку ¿т+1 через некоторую выборку , лежащую внутри исходного временного ряда и выборки

i(I)r+1,..., следующим ооразом

ZPr+, = <*s+X+«sXis)T+, + - + «X

(1)Г+1 + 0<о'

(10)

Решение задачи экстраполяции временного ряда состоит из следующих шагов.

Шаг 1. Определим выборку максимального подобия для выборки новой истории ■Z'r-M+i (выборка Новая история, рис. 2).

Выборку максимального подобия определяем аналогично

предыдущему случаю.

Шаг 2. Вычислим выборку Z' (выборка Базовая история, рис. 2). Базовую выборку ZPr определяем аналогично предыдущему случаю. Шаг 3. Вычислим выборку 2гт+1 (выборка Прогноз, рис. 2). Экстраполированные значения выборки ZP+1 определим по формуле = + + (11)

которая представляет собой расширенную модель экстраполяции временных рядов по выборке максимального подобия (extrapolation model on most similar pattern extended, EMMSPX(M)).

Выборка Базовая Новая история 2(0 макс, подобия история внешнего фактора X(t)

100 000

1000

500

0

-—^«леШ

¡k ¿Ши} | 'fttlf«f»!?»»li

Ш

ttrm

rf1

i«jj!ilMi

I'frf i i H Hr

£

ifM

м

Щ0

M

r~

Новая

§

80 000

f- 60 000

ffljl- 40 000

20 000

0

гТ

история Прогноз

Рис. 2. Положение выборок на оси времени при экстраполяции временного ряда с учетом одного внешнего фактора

Главные особенности моделей прогнозирования по выборке максимального подобия с учетом и без учета внешних факторов:

— обе модели относятся к классу авторегрессионных моделей

прогнозирования;

— модели имеют единственный параметр М;

— экстраполяция Р значений временного ряда для обеих моделей

производится за одну итерацию.

В данной главе указано, что точность аппроксимации и экстраполяции временных рядов оценивается значением средней абсолютной ошибки в процентах (mean absolute percentage error, МАРЕ)

ШРЕ=±'+^111!ЬШ.то/о_ (12)

В дополнение во второй главе приведены ограничения применимости разработанных моделей, а также предложены варианты моделей, применение которых может повысить точность прогнозирования временных рядов.

В третьей главе разработан метод прогнозирования на базе модели экстраполяции по выборке максимального подобия.

Экстраполяция временного ряда с учетом и без учета внешних факторов выполняется по единому алгоритму:

1) определим выборку новой истории;

2) определим выборку максимального подобия;

3) определим выборку базовой истории;

4) вычислим прогнозные значения.

Каждый указанный шаг алгоритма подробно рассмотрен как для задачи экстраполяции без учета, так и с учетом внешних факторов. Все приведенные вычисления проиллюстрированы примерами.

Для алгоритма без учета внешних факторов проведена экспериментальная оценка времени расчетов, показавшая высокую скорость вычислений прогнозных значений. Время прогнозирования 24 значений вперед временного ряда длинной 100 ООО значений составляет около 200 секунд при использовании персонального компьютера средней мощности по оценке Java Micro Benchmark (828 единиц). Для алгоритма с учетом внешних факторов произведен аналогичный эксперимент: время расчета 24 значений временного ряда длинной 30 000 значений с учетом двух внешних факторов составляет около 170 секунд при использовании персонального компьютера указанного типа.

Предложен . алгоритм идентификации разработанных моделей экстраполяции, состоящий из следующих шагов:

1) определим тестовый и контрольный периоды временного ряда;

2) определим время упреждения Р, определим диапазон возможных значений параметра М;

3) прогнозируем тестовый период на Р значений вперед при всех значениях параметра М из установленного диапазона;

4) строим зависимость абсолютной ошибки прогнозирования (mean absolute error, МАЕ) от M, выделяем область устойчивого минимума ошибки (на рисунке 3 данная область выделена штриховой линией);

5) экспертно определяем окончательное значение параметра М.

Все указанные шаги алгоритма идентификации подробно рассмотрены

в диссертации и проиллюстрированы примерами. На рисунке 3 приведена зависимость МАЕ(М) для временного ряда энергопотребления европейской территории РФ. Подобный вид зависимости МЛЕ(М) является типичным.

36 72 108 144 180 216 252 288 324 360 Рис. 3. Типичный вид зависимости МАЕ(М)

В завершении описания алгоритма идентификации моделей приведены рекомендации для каждого шага алгоритма. Кроме того, в третьей главе предложена схема формирования набора моделей для прогнозирования временного ряда, позволяющая повысить точность прогнозирования, а также рассмотрен алгоритм построения доверительного интервала прогнозных значений для предложенной модели прогнозирования.

В четвертой главе приведено описание разработанного в рамках диссертации серверного приложения. Приложение выполняет прогнозирование 19 временных рядов показателей энергорынка РФ на разработанной модели экстраполяции без участия эксперта на ежедневной основе. Приложение разработано по заказу компании ЗАО «РусПауэр»,

являющейся поставщиком аналитических отчетов на энергорынке РФ.

Разработанные модели EMMSP и EMMSPX применялись для краткосрочного (на сутки вперед) и среднесрочного (на неделю вперед) прогнозирования 19 временных рядов цен энергорынка РФ в почасовом разрешении общей длиной более 500 ООО значений. Оценки точности прогнозирования цен на электроэнергию энергорынка РФ, представленные в диссертации, являются первыми опубликованными в открытом доступе.

Проведен сравнительный анализ точности прогнозирования цен на электроэнергию с использованием разработанной в диссертации модели и нейросетевой модели. Нейросетевая модель реализована компанией BIGroup Labs в виде программного комплекса для прогнозирования цен энергорынка РФ. Результаты совместного прогнозирования показали сравнимую эффективность модели EMMSP и нейросетевой модели для временного ряда цен на электроэнергию европейской зоны РФ. Значения МАРЕ составили 5.97% для EMMSP и 6.10% для нейросетевой модели (таблица 1).

Сравнительный анализ оценок точности прогнозирования цен энергорынка РФ с точностью прогнозирования цен аналогичных рынков Испании, Скандинавии и Онтарио (Канада) показал высокую эффективность разработанной модели. В большинстве случаев значение МАРЕ краткосрочного прогнозирования цен энергорынка РФ при помощи EMMSP не превышает 10%, что по оценкам западных специалистов является высокоэффективным.

Таблица 1.

Оценка эффективности прогнозирования цен на электроэнергию с _ _использованием модели EMMSP _

Временной ряд Время упреждения Значение МАРЕ для EMMSP Значение МАРЕ в российских публикациях Значение МАРЕ в западных публикациях

Цены на электроэнергию энергорынка РФ (19 вр. рядов) 24 4.21% -15.85% Точности прогнозирования являются первыми опубликованными в открытом доступе по энергорынку РФ Рынок Испании: 2.90%-19.93% Рынок Канады: 8.60%-16.10% Рынок Скандинавии: 2.54%- 13.40%

168 5.07% -17.61%

Времен-нон ряд Время упреждения Значение МАРЕ для ЕММвР Значение МАРЕ в российских публикациях Значение МАРЕ в западных публикациях

Цена европейской зоны РФ 24 5.97% (31.27 Руб/МВт-ч) Оценка точности нейросстевой модели от компании ВЮгоирЬаЬз: 6.10% (31.88 Руб/МВт-ч)

В рамках диссертации были исследоваиы 8 временных рядов энергопотребления территорий РФ в почасовом разрешении, общая длина которых составляет более 300 ООО значений.

Полученные значения МАРЕ для краткосрочного прогнозирования энергопотребления лежат в диапазоне от 0.91% до 1.83%. Значения МАРЕ для среднесрочного прогнозирования энергопотребления лежат в диапазоне от 1.26% до 3.30%. Полученные оценки точности сравнимы со значениями МАРЕ прогнозирования энергопотребления, приведенными в ряде новейших отечественных и западных работ, опубликованных в 2006 - 2011 годах (таблица 2). Оценки МАРЕ, указанные в работах, лежат в диапазоне от 0.80% до 5.27%, что доказывает высокую эффективность применения модели ЕММ8Р для краткосрочного и среднесрочного прогнозирования энегопотребления.

Проведен сравнительный анализ точности прогнозирования энергопотребления ОАО «Сибирьэнерго» с использованием модели ЕММЭР и авторегрессионной модели от компании ¡ЯМ. Австрийская компания ¡КМ является одним из европейских лидеров по разработке программных продуктов для автоматизации торговли, прогнозирования, управления рисками на энергорынках Европы и РФ. Оценка точности прогнозирования энергопотребления на двух моделях показала сравнимую эффективность ЕММБР и авторегрессионной модели компании ¡ЯМ. Значения МАРЕ для исследуемого временного ряда энергопотребления составили 4.32% для ЕММБР и 4.21% для авторегрессионной модели.

Таблица 2.

Оценка эффективности прогнозирования энергопотребления с

_использованием модели ЕММ5Р___

Временной ряд Время упреждения Значение МАРЕ для EMMSP Значение МАРЕ в российских публикациях Значение МАРЕ в западных публикациях

Энергопотребление территорий РФ 24 0.91% -1.83% Ошибка прогнозирования согласно четырем научным публ. за 2007-2011 г. г.: 1.43%-5% Ошибка прогнозирования согласно 6 научным публ. за 2006- 2010 г.г.: 0.99%-5.27%

168 1.26%-3.30%

Энергопотребление ОАО «Сибирьэнерго» 24 4.32% Значение МАРЕ для модели ARIMAX от компании iRM (Австрия): 4.21%

Компания «РусПауэр» при помощи разработанного в диссертационной работе серверного приложения ежедневно формирует прогнозы по 12 временным рядам цен на электроэнергию и 8 временным рядам энергопотребления в виде аналитического продукта.

Реализация разработанной модели прогнозирования с использованием математического пакета MATLAB показала высокую точность прогнозирования и других временных рядов, в частности, временного ряда уровня сахара крови человека, больного сахарным диабетом первого типа. Проведено сравнение точности прогнозирования на один и полтора часа вперед на модели EMMSP и специализированной нейросетевой модели. Значения МАРЕ при прогнозировании на один час вперед составили 11.33% для EMMSP и 12.21% для нейросетевой модели, а при прогнозировании на полтора часа вперед — 14.70% для EMMSP и 17.02% для нейросетевой модели. Результаты прогнозирования доказывают сравнимую эффективность EMMSP и специализированной нейросетевой модели.

Реализация предложенной модели с использованием программного пакета MATLAB для прогнозирования скорости движения транспорта но дорогам г. Москвы проводилась в рамках открытого конкурса компании «Яндекс». Модель EMMSP показала сравнимую со специализированными моделями точность прогнозирования и получила оценку «Яндекса» 64.93 единиц (38 место из 191 участника). Оценка точности победителя конкурса

составила 58.92 единиц. Оценки точности прогнозирования для всех участников доступны в открытом доступе на сайте конкурса.

Проведенные эксперименты по формированию консенсус-прогноза па основании линейной комбинации двух независимых прогнозов в трех исследуемых случаях приводили к существенному повышению точности прогнозирования.

Основные результаты работы

В ходе выполнения диссертационной работы автором были получены следующие результаты.

1. Задача прогнозирования временных рядов актуальна и решается на основании модели прогнозирования. Одним из наиболее широко применяемых классов моделей прогнозирования является класс авторегресионных моделей. Установлено, что основным недостатком данного класса является большое число свободных параметров, требующих идентификации. Определено перспективное направление развития моделей прогнозирования, позволяющее устранить указанный недостаток.

2. Разработана новая модель прогнозирования временных рядов по выборке максимального подобия для двух видов постановки задачи прогнозирования временного ряда — с учетом и без учета внешних факторов. Новая модель относится к авторегрессионному классу моделей и имеет единственный параметр, что упрощает задачу идентификации модели, устраняя основной недостаток моделей данного класса.

3. Разработан новый метод прогнозирования на основе предложенной модели, содержащий набор алгоритмов для экстраполяции временных рядов, идентификации модели и построения доверительного интервала прогнозных значений. Произведена оценка времени последовательных вычислений при решении задач экстраполяции временного ряда и идентификации модели. Предложена схема параллельных вычислений, позволяющая сократить время расчета при решении задачи идентификации.

4. Выполнена программная реализация разработанных алгоритмов средствами математического пакета МАТЬАВ. По заказу компании «РусПауэр» разработано специализированное серверное приложение для прогнозирования показателей энергорынка РФ на ежедневной основе, работающее в автоматическом режиме и предоставляющее прогнозные значения показателей без вмешательства эксперта.

5. Произведена оценка эффективности новой модели прогнозирования. Ее применение для прогнозирования временных рядов энергорынка РФ показало высокую эффективность предложенной модели. Применение новой

модели для прогнозирования временных рядов уровня сахара крови больных сахарным диабетом первого типа и скорости движения транспорта по дорогам г. Москвы показали эффективность, сравнимую с эффективностью специализированных моделей для данных областей.

Основные результаты диссертации опубликованы в работах

1. Чучуева И.А. Модель экстраполяции по максимуму ^ подобия (ЭМП) для временных рядов цен и объемов на рынке на сутки вперед ОРЭМ (Оптовом рынке электроэнергии и мощности) // Наука и образование [электронный ресурс]. 2010. № 1. URL: http://technomag.edu.ru /doc/135870.html (дата обращения 28.08.2011).

2. Чернецов С. А., Чучуева И. А. Прогнозирование уровня глюкозы в крови больных инсулинозависимым диабетом нейронными сетями и методом экстраполяции по выборке максимального подобия // Наука и образование [электронный ресурс]. 2010. №11. URL: http://technomag.edu.ru/doc/162847.htmI (дата обращения 28.08.2011).

3. Павлов Ю. Н., Чучуева И. А. Экстраполяция псевдослучайных процессов по максимуму подобия // Наука и образование [электронный ресурс]. 2009. №7. URL: http://technomag.edu.ru/doc/129712.html (дата обращения 28.08.2011).

4. Pavlov J. N., Chuchueva I. A. Extrapolation of pseudorandom number sequence on maximum likeness // Наука и образование |электронный ресурс]. 2009. №7. URL: http://technomag.edu.ru/en/doc/129712.html (дата обращения 28.08.2011).

5. Чучуева И. А. Модель экстраполяции временных рядов по выборке максимального подобия // Информационные технологии. 2010. №12. С. 43-47.

6. Чучуева И. А., Павлов Ю. Н. Сезонно-регрессионная модель прогнозирования в решении задачи прогнозирования цен PCB (рынок на сутки вперед) // Энерго-Info. 2009. №4. С. 46 - 49.

7. Чучуева И. А. Прогнозирование временных рядов при помощи модели экстраполяции по выборке максимального подобия // Наука и современность: сборник материалов Международной научно-практической конференции. Новосибирск, 2010. С. 187- 192.

8. Chuchueva I. The time series extrapolation model based on maximum likeness set // Математическое моделирование социальной и экономической динамики: труды III Международной конференции. М., 2010. С, 281-283.

Подписано в печать:

13.02.2012

Заказ №6637 Тираж -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru

Текст работы Чучуева, Ирина Александровна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

61 12-5/1757

Московский Государственный Технический Университет им. Н.Э. Баумана

На правах рукописи

Чучуева Ирина Александровна

МОДЕЛЬ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ ПО ВЫБОРКЕ МАКСИМАЛЬНОГО ПОДОБИЯ

Специальность 05.13.18 - Математическое моделирование, численные методы и комплексные программы

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель: доктор технических наук, профессор Павлов Юрий Николаевич

Москва-2012

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ..............................................................................................................5

ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ И ОБЗОР МОДЕЛЕЙ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ.................................................И

1.1. Содержательная постановка задачи.......................................................11

1.2. Формальная постановка задачи..............................................................18

1.3. Обзор моделей прогнозирования...........................................................21

1.3.1. Регрессионные модели............................ .........................................23

1.3.2. Авторегрессионные модели.............................................................26

1.3.3. Модели экспоненциального сглаживания......................................28

1.3.4. Нейросетевые модели......................................................................30

1.3.5. Модели на базе цепей Маркова.......................................................32

1.3.6. Модели на базе классификационно-регрессионных деревьев.....33

1.3.7. Другие модели и методы прогнозирования...................................35

1.4. Сравнение моделей прогнозирования...................................................37

1.4.1. Достоинства и недостатки моделей................................................37

1.4.2. Комбинированные модели.......................... .....................................41

1.5. Выводы.....................................................................................................46

ГЛАВА 2. МОДЕЛИ ЭКСТРАПОЛЯЦИИ ВРЕМЕННЫХ РЯДОВ ПО ВЫБОРКЕ МАКСИМАЛЬНОГО ПОДОБИЯ.....................................................47

2.1. Модель без учета внешних факторов....................................................47

2.1.1. Выборки временного ряда...............................................................47

2.1.2. Аппроксимация выборки.................................................................49

2.1.3. Подобие выборок..............................................................................52

2.1.4. Описание модели экстраполяции....................................................57

2.2. Модель с учетом внешних факторов.....................................................59

2.2.1. Выборки временных рядов......................... .....................................59

2.2.2. Аппроксимация выборки.................................................................60

2.2.3. Подобие выборок..............................................................................62

2.2.4. Описание модели..............................................................................63

2.3. Варианты моделей по выборке максимального подобия.....................67

2.4. Выводы.....................................................................................................70

ГЛАВА 3. МЕТОД ПРОГНОЗИРОВАНИЯ НА МОДЕЛИ ЭКСТРАПОЛЯЦИИ ПО ВЫБОРКЕ МАКСИМАЛЬНОГО ПОДОБИЯ..............................................71

3.1. Алгоритм экстраполяции временного ряда без учета внешних факторов...........................................................................................................71

3.2. Алгоритм экстраполяции временного ряда с учетом внешних факторов...........................................................................................................78

3.3. Алгоритм идентификации моделей.......................................................86

3.3.1. Описание алгоритма.........................................................................86

3.3.2. Распараллеливание вычислений...................... ................................89

3.3.3. Наборы моделей...............................................................................91

3.3.4. Оценка времени идентификации....................................................93

3.4. Алгоритм построения доверительного интервала...............................94

3.5. Выводы.....................................................................................................99

ГЛАВА 4. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ И ОЦЕНКА ЭФФЕКТИВНОСТИ МОДЕЛИ ЭКСТРАПОЛЯЦИИ ПО ВЫБОРКЕ МАКСИМАЛЬНОГО ПОДОБИЯ......................................................................101

4.1. Прогнозирование показателей энергорынка РФ.................................101

4.1.1. Программная реализация...............................................................102

4.1.2. Прогнозирование цен на электроэнергию...................................105

4.1.3. Прогнозирование энергопотребления..........................................118

4.2. Прогнозирование других временных рядов........................................126

4.2.1. Уровень сахара крови человека.....................................................127

4.2.2. Скорость движения транспорта по дорогам Москвы.................131

4.2.3. Финансовые временные ряды.......................................................132

4.3. Выводы...................................................................................................132

ВЫВОДЫ.............................................................................................................134

ЛИТЕРАТУРА.......................................................................................................136

ПРИЛОЖЕНИЕ...................................................................................................146

ВВЕДЕНИЕ

Актуальность темы. Задача прогнозирования будущих значений временного ряда на основе его исторических значений является основой для финансового планирования в экономике и торговле, планирования, управления и оптимизации объемов производства, складского контроля [1,2].

В настоящее время компаниями осуществляется накопление исторических значений экономических и физических показателей в базах данных, что существенно увеличивает объемы входной информации для задачи прогнозирования. Вместе с тем, развитие аппаратных и программных средств предоставляет все более мощные вычислительные платформы, на которых возможна реализация сложных алгоритмов прогнозирования. Кроме того, современные подходы к экономическому и техническому управлению предъявляют все более жесткие требования к точности прогнозирования. Таким образом, задача прогнозирования временных рядов усложняется одновременно с развитием информационных технологий.

В настоящее время задача прогнозирования различных временных рядов актуальна и является неотъемлемой частью ежедневной работы многих компаний.

Задача прогнозирования временного ряда решается на основе создания модели прогнозирования, адекватно описывающей исследуемый процесс.

На сегодняшний день существует множество моделей прогнозирования временных рядов: регрессионные и авторегрессионные модели, нейро сетевые модели, модели экспоненциального сглаживания, модели на базе цепей Маркова, классификационные модели и др. Наиболее популярными и широко используемыми являются классы авторегрессионных и нейросетевых моделей [3]. Существенным недостатком авторегрессионного класса является большое число свободных параметров, идентификация

которых неоднозначна и ресурсоемка [4]. Существенным недостатком класса нейросетевых моделей является недоступность промежуточных вычислений, выполняющихся в «черном ящике», и, как следствие, сложность интерпретации результатов моделирования. Кроме того, еще одним недостатком данного класса моделей является сложность выбора алгоритма обучения нейронной сети [5].

Диссертация посвящена разработке новой авторегрессионной модели прогнозирования, которая имеет сравнимую с другими моделями эффективность прогнозирования различных временных рядов и при этом устраняет основной и наиболее существенный недостаток авторегрессионого класса моделей — большое число свободных параметров.

Целью работы является разработка новой модели и соответствующего ей метода прогнозирования, относящейся к классу авторегрессионных моделей и устраняющей основной недостаток данного класса моделей — большое число свободных параметров. Новая модель и соответствующий ей метод должны иметь высокую скорость вычисления прогнозных значений и сравнимую с другими моделями точность прогнозирования различных временных рядов.

Для достижения этой цели были поставлены и решены следующие задачи.

1. Осуществить обзор моделей и методов прогнозирования временных рядов, выявить достоинства и недостатки каждого класса моделей. Выявить наиболее используемые классы моделей прогнозирования и их основные недостатки, определить перспективные подходы, позволяющие устранить недостатки авторегрессионного класса моделей.

2. Разработать новую модель прогнозирования временных рядов, устраняющую указанный недостаток авторегрессионного класса моделей.

3. Разработать новый метод прогнозирования на основании предложенной модели и выполнить программную реализацию алгоритмов.

4. Оценить эффективность предложенной модели прогнозирования при решении задачи прогнозирования различных временных рядов.

Методы исследования. При решении поставленных задач в работе использованы методы математического моделирования, анализ временных рядов, регрессионный анализ, методы объектно-ориентированного программирования.

Научная новизна. В диссертации получены следующие основные результаты, которые выносятся на защиту.

1. Модель экстраполяции временных рядов по выборке максимального подобия, относящаяся к классу авторегрессионных моделей и имеющая единственный параметр.

2. Метод прогнозирования временных рядов на основании разработанной модели, содержащий набор алгоритмов для экстраполяции временных рядов, идентификации модели и построения доверительного интервала прогнозных значений.

3. Результаты прогнозирования временных рядов показателей энергорынка РФ, а также временных рядов из других предметных областей, подтверждающие эффективность разработанной модели.

Достоверность и обоснованность выносимых на защиту результатов прогнозирования показателей энергорынка РФ документально подтверждается ЗАО «РусПауэр», использующего разработанные алгоритмы на ежедневной основе. Достоверность результатов прогнозирования временного ряда уровня сахара крови человека, больного диабетом первого типа, обеспечивается строгостью применяемого математического аппарата и подтверждается приведенным сравнительным анализом. Достоверность

результатов прогнозирования скорости движения транспорта по г. Москва обеспечивается условиями открытого конкурса, проводимого компанией «Яндекс». Результаты конкурса опубликованы в открытом доступе по адресу http://imat2010.yandex.ru/results.

Практическая ценность работы. Разработанная модель и метод прогнозирования по выборке максимального подобия могут применяться для прогнозирования временных рядов различных предметных областей. Разработанные алгоритмы экстраполяции временных рядов с учетом и без учета внешних факторов наглядны для программной реализации. Скорость вычисления прогнозных значений при использовании модели высока. Задача идентификации модели упрощена в сравнении с другими моделями авторегрессионного класса.

Реализация и внедрение результатов работы. Результаты работы реализованы по заказу Закрытого акционерного общества «РусПауэр» в виде серверного приложения для прогнозирования показателей энергорынка РФ на ежедневной основе. Приложение работает в автоматическом режиме и предоставляет прогнозные значения показателей без вмешательства эксперта.

Апробация работы. Основные результаты диссертационной работы докладывались на I Международной научно-практической конференции ученых, аспирантов и студентов «Наука и современность 2010» (Новосибирск, 2010); на научно-технической конференции «Студенческая научная весна» (Москва, 2010); на III Международной конференции «Математическое моделирование социальной и экономической динамики (ММ8ЕО-2010)» (Москва, 2010).

Публикации. Основные результаты диссертации опубликованы в 8 научных статьях, в том числе в 5 статьях, опубликованных в журналах из Перечня рецензируемых ведущих научных журналов и изданий, и 2 тезисов

докладов.

Личный вклад соискателя. Все исследования, результаты которых изложены в диссертационной работе, получены лично соискателем в процессе научных исследований. Из совместных публикаций в диссертацию включен лишь тот материал, который непосредственно принадлежит соискателю.

Структура и объем работы.

Диссертационная работа состоит из введения, четырёх глав, заключения, списка литературы и приложения, занимающих 154 страниц текста, в том числе 33 рисунка на 29 страницах, 37 таблиц на 29 страницах, список использованной литературы из 75 наименования на 10 страницах.

В первой главе сформулирована постановка задачи прогнозирования временного ряда. Рассмотрены существующие классы моделей прогнозирования, установлены достоинства и недостатки каждого класса. В результате обзора моделей прогнозирования выявлен основной недостаток авторегрессионного класса моделей и определены перспективные подходы, позволяющие его устранение.

Во второй главе диссертации описаны две модели экстраполяции по

9

выборке максимального подобия для двух видов постановок задачи. Новая модель экстраполяции имеет единственный параметр и устраняет основной недостаток авторегрессионного класса моделей.

В третьей главе сформулирован метод прогнозирования временных рядов на основании предложенной модели экстраполяции, содержащий набор алгоритмов для экстраполяции временных рядов, идентификации модели и построения доверительного интервала прогнозных значений.

В четвертой главе диссертации описана программная реализация предложенной модели экстраполяции для решения задач прогнозирования

показателей энергорынка РФ. В главе приведены результаты прогнозирования различных временных рядов. Проведен сравнительный анализ достигнутых оценок точности и доказана высокая эффективность разработанной модели для прогнозирования различных процессов.

ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ И ОБЗОР МОДЕЛЕЙ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ

1.1. Содержательная постановка задачи

Слово прогноз возникло от греческого проууюоц, что означает предвидение, предсказание. Под прогнозированием понимают предсказание будущего с помощью научных методов. Процессом прогнозирования называется специальное научное исследование конкретных перспектив развития какого-либо процесса. Согласно работе [1] процессы, перспективы которых необходимо предсказывать, чаще всего описываются временными рядами, то есть последовательностью значений некоторых величин, полученных в определенные моменты времени. Временной ряд включает в себя два обязательных элемента — отметку времени и значение показателя ряда, полученное тем или иным способом и соответствующее указанной отметке времени. Каждый временной ряд рассматривается как выборочная реализация из бесконечной популяции, генерируемой стохастическим процессом, на который оказывают влияние множество факторов [1]. На рисунке 1.1 представлен пример временного ряда цен на электроэнергию европейской территории РФ.

т

Рис. 1.1 Временной ряд цен на электроэнергию

Одна из классификаций временных рядов приведена в работе [6]. Согласно этой работе, временные ряды различаются способом определения значения, временным шагом, памятью и стационарностью.

В зависимости от способа определения значений временного ряда они делятся на

— интервальные временные ряды,

— моментные временные ряды.

Интервальный временной ряд представляет собой последовательность, в которой уровень явления (значение временного ряда) относят к результату, накопленному или вновь произведенному за определенный интервал времени. Интервальным, например, является временной ряд показателя выпуска продукции предприятием за неделю, месяц или год; объем воды, сброшенной гидроэлектростанцией за час, день, месяц; объем электроэнергии, произведенной за час, день, месяц и другие.

Если же значение временного ряда характеризует изучаемое явление в конкретный момент времени, то совокупность таких значений образует моментный временной ряд. Примерами моментных рядов являются

последовательности финансовых индексов, рыночных цен; физические показатели, такие как температура окружающего воздуха, влажность, давление, измеренные в конкретные моменты времени, и другие.

В зависимости от частоты определения значений временного ряда, они делятся на

— равноотстоящие временные ряды,

— неравноотстоящие временные ряды.

Равноотстоящие временные ряды формируются при исследовании и фиксации значений процесса в следующие друг за другом равные интервалы времени. Большинство физических процессов описываются при помощи равноотстоящих временных рядов. Неравноотстоящими временными рядами называются те ряды, для которых принцип равенства интервалов фиксации значений не выполняется. К таким рядам относятся, например, все биржевые индексы в связи с тем, что их значения определяются лишь в рабочие дни недели.

В зависимости от характера описываемого процесса временные ряды разделяются на

— временные ряды длинной памяти,

— временные ряды короткой памяти.

Задача отнесения временного ряда к рядам с короткой или длинной памятью описана в статье [7]. В целом, говоря о временных рядах с длинной памятью, подразумеваются временные ряды, для которых автокорреляционная функция, введенная в книге [1], убывает медленно. К временным рядам с короткой памятью относят временные ряды, автокорреляционная функция которых убывает быстро. Скорость потока транспорта по дорогам, а также многие физические процессы, такие как потребление электроэнергии, температур�