автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.06, диссертация на тему:Исследование и разработка автоматизированных систем прогнозирования на основе методов теории нейронных сетей
Автореферат диссертации по теме "Исследование и разработка автоматизированных систем прогнозирования на основе методов теории нейронных сетей"
На правах рукописи
г " и 0 л
Яковлева Галина Лвонтьовна ' и
2 £ из
УДК 004,4
ИССЛЕДОВАНИЕ И РАЗРАБОТКА АВТОМА ТИЗИРОВАННЫХ СИСТЕМ ПРОГНОЗИРОВАНИЯ НА ОСНОВЕ МЕТОДОВ ТЕОРИИ НЕЙРОННЫХ СЕТЕЙ
Специальность 05.13.06 - Автоматизированные системы управления
А вторе ф врат
/ диссортации на соискание ученом степени кандидата технически* наук
Москва - 2000
Работа выполнена в Московском Государственном Техническом Университете им. Н.Э. Баумана
Научный руководитель: кандидат технических наук, доцент
Ревунков Г.И
Официальные оппоненты: доктор технических наук, профессор Карпов 8 И ,
Московский государственный университит пищевых производств;
кандидат технических наук, доцент Федоров Б.С., Центральный Банк Российской Федерации.
Ведущее предприятие: Институт проблем управления
им.В.А.Трапезникова РАН
Защита диссертации состоится "__"_____2000 г. на заседании
диссертационного совета Д 053.15.03 в Московском Государственном Техническом Университете им. Н.Э. Баумана по адресу: 107005, г. Москва, 2-ая Бауманская ул., д.5.
С диссертацией можно ознакомиться в библиотеке МГТУ им Н Э. Баумана.
Автореферат разослан "__" ____2000 г.
Ученый секретарь диссертационного совета Иванов С Р.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность:
Представляемая диссертационная работа посвящена вопросам создания автоматизированных систем прогнозирования (АСП). Данный класс систем включает в себя системы, использующие при прогнозе различный математический аппарат, для реализации которого применяется широкий спектр методов и алгоритмов. Поэтому задача была сужена, и в данной работе рассматриваются только АСП, решающие задачи регрессионного анализа с использованием элементов теории нейронных сетей.
Одной из наиболее часто встречающихся проблем, встающих перед учеными различных специальностей, является проблема нахождения зависимости между некоторым набором величин, описывающих поведение объекта (пролнозируемые величины и аргументы протоза). Эта зависимость может быть выведена из теории и (или) может быть получена на основании экспериментальных исследований. В любом слу чае, при построении математической модели должны использоваться данные об исследуемом объекте, на основании которых мог бы быть сделан пыиод о достаточной точности описания объекта моделью.
Несмотря на идентичность математического обеспечения, существующие АС, решающие задачи регрессионного анализа при прогнозировании, ориентированы на решение проблем конкретной предметной области. Поэтому определение обобщенной методики построения данных АС является актуальной задачей.
При определении методики построения АСП были определены следующие задачи, подлежащие решению в рамках работы:
1. Разработка набора функций для формирования функции, аппроксимирующей искомую зависимость прогнозируемой величины от аргументов прогноза. В существующих АС либо реализованы функции, адаптированные для решения конкретных задач прогнозирования, либо, как в случае нейропакетов, считается, что предлагаемые функции могут использоваться для решения самого широкого круга задач, учет особенностей предметной области происходит при проектировании архитектуры ней-росети. Поэтому проблема разработки набора функций, позволяющего создавать эффективно работающие модели для описания различных нелинейных зависимостей, является актуальной.
2. Определение правил формирования аппроксимирующей функции. При ее реализации нейронной сетью - определение архитектуры нейромодели.
3. Разработка методов и алгоритмов обучения нейронных сетей выбранного класса, позволяющих улучшить качество аппроксимации. На сегодняшний день в АС для решения задач нахождения параметров аппроксимирующей функции успешно применяются численные методы, методы Гаусса-Ньютона и Марквардта, безусловной минимизации, использующие производные функции, обратного распространения ошибки, обучения Коши и Больцмана и т.д. Все перечисленные методы имеют свои достоинства и недостатки, и создание на их основе методов и алгоритмов, умножающих достоинства и исключающих наиболее суъцественные недостатки - является актуальной задачей.
4. Определение методов оценки значимости аргументов и параметров, анализа результатов применения моделей и методов Для многих объектов протоза характерно изменение с течением времени найденных зависимостей, т.е. возниг-аст необходимость в переопределении условий проведения протоза. Поэтому в системе должны быть реализованы методы, сигнализирующие об "устаревании" используемых наборов и моделей.
Большой вклад в развитие теории нейронных сетей и ее применении к решению задач регрессионного анализа внесли Хебб Д., Минский М., Розенблат Ф„ Уидроу Б., Андерсон, Кохонен Т., ГроссбергС., Носко Б., Галушкин А.И., Гобань А.Н., Мкртчян С.О. и многие другие.
Рассматриваемые АС используются в различных предметных областях, например, в промышленное™, финансовой деятельности, социологии, медицине и тд. В данной работе в качестве примера АСП, иллюстрирующего эффективность применения разработанных моделей, методов и алгоритмов, рассматривается автоматизированная дилинговая система (ДДС), основной задачей которой является прогноз тенденций финансовых рынков.
Налью настоящей работы является разработка для автоматизированных систем прогнозирования, решающих задачи регрессионного анализа, методов и алгоритмов, позволяющих повысить качество прогноза, с использованием элементов теории ней ронных сетей.
Для достижения поставленной цели в работе предпринята попытка решения комплекса задач, в частности: научно-технических (проведена классификация существующих АСП, определена обобщенная методика построения АС данного класса, определены операции над временными рядами данных, посредством которых происходит предварительная обработка исходных данных, предложены математические модели, методы и алгоритмы для решения задач прогшза, на их основе разработаны модели, методы и алгоритмы АСП); прикладных (разработан информационно-программный комплекс, реализующий разработанные методы и алгоритмы; данный комплекс является ядром АСП, решающих задачи регрессионного анализа, на его основе разработана автоматизированная дилинговая система, предназначенная для использования а организациях, работающих на финансовых рынках); экспериментальных (проведены экспериментальные исследования эффективности работы реализованных моделей, методов и алгоритмов, разработаны рекомендации). Мотоды исследования. При решении поставленных задач в работе использованы элементы теории детерминированного хаоса, математический аппарат линейного регрессионного анализа, линейной алгебры, теории нейронных сетей, теории оптимизации, нелинейного программирования, теории вероятностей, теории информационных систем и обработки данных. Научная ценность работы состоит в следующем:
. Для формирования функции, аппроксимирующей зависимость прогнозируемой величины от множества аргументов прогноза, разработан набор функций на основе моделей, полученных в рамках теории детерминированного хаоса. . Обоснованы и развиты методы теории нейронных сетей применительно для решения задачи аппроксимации искомой зависимости. Разработан обобщенный метод обучения двухслойной неоднородной искусственной нейросети с произвольным числом нейронов в первом слое пугем разбиения ее на потоки. . Введено понятие потока, где поток - это структура, являющаяся составной частью нейронной сети и пересекающаяся с другими подобными структурами только при формирова! 1ии выходного сигнала сети. . Разработаны методы и алгоритмы обучения многослойных искусственных нейросе-тей, основанные на методе обратного распространения ошибки, методах безусловной минимизации, использующих производные функции, и методе обучения Коим, применяющемся для выхода из областей локальных минимумов.
Достоверность полученных научных результатов, выводов и рекомендаций диссертационной работы подтверждена результатами эксперимеглальных исследований разработанной АДС, проведенных на базе Казначейства Промстройбанка России. Полученные в работе результаты наглядно демонстрируют эффективность использования разработанных моделей, методов и алгоритмов для решения задач прогноза.
Естественно, что погрешность прогноза во многом зависит от значимости выбранных аргументов прогноза. При эксплуатации данной автоматизированной системы на базе Казначейства Промстройбанка России была проведена работа по выявлению наиболее значимых аргументов для финансовых рынков и их инструментов. Так, с момента внедрения системы в опытную эксплуатацию в ноябре 1998 года средняя погрешность краткосрочного прогноза цен (горизонт 1-3 дня) для рынка облигаций составила 0.21 %, для рынка акций - 0.88%, для валютного рынка -1.01 %, средняя погрешность долгосрочного прогноза доходности с горизонтом не более 10 дней для рынка ценных бум г. г и валюты составила 4.5%. Для сравнения, в аналогичных системах средняя погрешность краткосрочного прогноза равна 3-6%, средняя погрешность более долгосрочного прогноза (до 10 дней) достигает 15%. Положения, выносимые на защиту:
. Обобщенная методика построения автоматизированных систем прогнозирования,
решающих задачи регрессионного анализа. . Набор функций, предоставленный для формирования функции, аппроксимирующей зависимость прогнозируемой величины от аргументов. Результаты экспериментальных исследований эффективности применения данных функций при решении задачи прогнозирования тенденций финансовых рынков.
• Развитие, обоснование и применение методов теории нейронных сетей для решения задачи аппроксимации искомой зависимое™.
. Метод поточного обучения двухслойной неоднородной искусственной нейронной сети с произвольным числом нейронов в первом слое.
• Методы и алгоритмы обучения многослойных нейронных сетей, основанные на методе обратного распространения ошибки, методах безусловной минимизации, использующих производные функции, и методе обучения Коши. Результаты экспериментальных исследований эффективности использования разработанных методов и алгоритмов при решении задач протозирования тенденций финансовых рынков.
• Программная реализация предложенных и разработанных моделей, методов и алгоритмов для решения задач прогноза в виде библиотек функций, являющихся ядром автоматизированных систем прогнозирования, и программная реализация на их основе автоматизированной дилинговой системы.
Практическая ценность работы состоит в том, что предложенные и разработанные модели, методы и алгоритмы позволяют реализовывать автоматизированные системы, эффективно решающие задачи прогноза.
Разработанные библиотеки ядра АСП содержат функции, решающие задачи регрессионного анализа согласно определенным условиям прогноза. Благодаря предоставленным и разработанным моделям, методам и алгоритмам, обеспечены наилучшие показатели протоза по критерию качество/время. Созданный программный комплекс АДС позволяет: работать с различными источниками данных; проводить визуальный анализ рынка посредством индикаторов технического анализа; выполнять проп-юз поведения финансовых рынков и их инструментов; определять оптимальное распределение средств инвестора на основе прогноза ценовой динамики.
Реализация результатов
Полученные в работе результаты: математические модели, методы, алгоритмы и программы используются при прогнозировании тенденций финансовых рынков и определении структуры банковского портфеля в Казначействе Промстройбанка России. Копия акта о внедрении прилагается.
Внедрение результатов работы продолжается, они также могут быть использо-ианы при создании иных автоматизированных систем прогнозирования, решающих задачи регрессионного анализа. Апробация работы
Результаты работы были представлены на У-ой Всероссийской конференции "Нейрокомпьютеры и их применение" (Россия, Москва, 17-19 февраля 1999), конференции "Информатика и системы управления в XXI веке" (Россия, Москва, март 1999), международной конференции стран СНГ "Молодые ученые - науке, технологиям и профессиональному образованию для устойчивого развития: проблемы и новые решения" (Россия, Москва, декабрь 1999). Докладывались на семинарах "Современные информационные системы" и "Наукоемкие технологии и интеллектуальные системы" в МГТУ им. Н.Э. Баумана. Публикации
Основные результаты работы опубликованы в 7 печатных работах. Структура и объем работы
Диссертационная работа состоит из введения, пяти глав, заключения, списка литературы и двух приложений. Общий объем диссертации 219 страниц, 36 рисунков, список использованных источников из 126 наименований.
КРАТКОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ
Во введении описана задача прогноза поведения объектов, решаемая автоматизированными системами прогнозирования рассматриваемого класса, и определены этапы ее решения.
Имеется объект прогноза, обладающий следующими свойствами. Совокупность числовых характеристик 2, описывающих или влияющих на поведение объекта про-тоза, можно представить как множество векторов характеристик ^ (я = 1,..., I), каждый элемент г,' которых - значение д-й характеристики в Ъ момент времени, т.е. значения характеристик получены в дискретные моменты времени. Совокупность возможных протезируемых величин \Л/ является подмножеством 2.
Пусть на прогнозируемую величину оказывают влияние аргументы прогноза г, (Я = 1,..., т) т £ I. Естественно, что даже в самых простых случаях невозможно учесть всо факторы, влияющие на изменение состояния объекта прогноза, поэтому в данной работе считается, что определены наиболее значимые аргументы 2, (ц = 1,..., т)для рассматриваемой пропюзируемой величины щ Значения известны в точках ^ + Л1 О = 1,..., п), они образуют вектор известных значений пропюзируемой величины У - ., \\'а"), элемешы которого удобнее обозначать'у, (I = 1,..., п). Значения аргументов прогноза {2),.. л«} известны в точках I, (1=1, ., п + 1), они образуют матрицу
аргументов прогноза X - ||гч')| (I = 1,.п). ^ = 1.....т), элементы которой удобно обо-
ан<-,ч«мь X.,' (' = 1, - . п). (ч = 1,.., т), и вектор х"1*1' = (х,*"",..., С").
В зддгт тобиодимо опредепигь у„,.||, т.е. значение пропюзируемой величины V/. а !оч;-е
Описанная выше задача является задачей регрессионного анализа. Можно выделить следующие этапы ее решения:
^сформировать аппроксимирующую функцию F(x, а), где а - вектор неизвестных параметров, х - вектор аргументов прогноза размерностью т;
2) найти параметры а, обеспечивающие наилучшую аппроксимацию согласно определенному критерию качества; в данной работе предложен метод наименьших квадратов (МНК), тогда целевая функция:
п
Q(a) = Е (yi - Fix1, а))г min; (1)
pt
3) вычислить у(1Г.1, = F(x(,rM), а) и погрешность прогноза е.
Далее во введении обоснована актуальность темы диссертации, сформулирована цель настоящей работы. Представлена научная и практическая значимость полученных результатов.
В первой главе проведен анализ и классификация АСП (раздел 1.1), решающих задачи регрессионного анализа, определены их особенности (раздел 1.2). АСП характеризуются следующими основными особенностями: во-первых, данные АС должны функционировать в составе АСУ организаций, во-вторых, системы работают с большими объемами данных, поступающими из различных источников, и, в-третьих, реализуют многоитерационные алгоритмы обработки данных. Разработана классификация существующих АСП в зависимости от вида результатов анализа; способа работы с выборкой данных X; функций, предоставляемых для формирования F(x, а); типа функционирования и состава нейронной сети, реализующей F(x, а). Классификация и особенности исследуемых АС определяют требования к функциональным возможностям АСП, изложенным в разделе 1.3. Последний раздел главы посвящен описанию обобщенной методики построения АСП, решающих задачи регрессионного анализа. Несмотря на различность объектов протоза, сказывающуюся на режим и характер работы с источниками данных, способ работы с выборкой данных, требования к временным и точностным характеристикам прогноза, а также наличие дополнительных задач, АС рассматриваемого класса имеют идентичное математического обеспечение. Поэтому целесообразно реализовать все программные и информационные модули, решающие задачи прогноза, в виде общего ядра (рис. 1). Возможно наличие других программных и информационных модулей, решающих дополнительные задачи, определяемые потребностями автоматизируемой предметной области. Дополнительные задачи решаются при реализации конкретной АСП. Т.к. пользовательский интерфейс должен быть адаптирован для работы с предметной областью, он та'т-ке индивидуален для каждой АС. Вызов функций библиотек ядра и функций дополнительных модулей осуществляется из приложений, реализующих пользовательский интерфейс.
Рис.1 Обобщенная схема построения АСП
Вторая глава посвящена исследованию и разработке математических моделей, методов и алгоритмов решения задач прогноза, т.е. разработке математического обеспечения ящра АСП, решающих задачи регрессионного анализа.
В разделе 2.1 описаны операции над временными рядами, определенные в системе для преобразования исходных данных прогнозируемой величины и аргументов прогноза при подготовке данных. Необходимость предобработки данных обусловлена в первую очередь тем, что, как правило, значения аргументов прогноза и протезируемой величины должны находиться внутри определенных отрезков. Кроме того, с помощью преобразований можно получить более значимые аргументы прогноза, чем при использовании исходных данных.
В разделе 2.2 определены следующие функции и модели, предлагаемые для
формирования аппроксимирующей функции Р(х, а). Здесь х^х/, х2'.....х^') - ¡-ый вектор
аргумеотов прогноза (I = 1.....п) (входные сигналы в нейросетевой терминологии); у,** -
результат преобразований функцией ¡-го вектора входных сигналов А = 1.....п)
(выходной сигнал в нейросетевой терминологии); а, а/ - векторы параметров размерностью т; а^ - выходные параметры; V, V/, \л/ь \л/2 - числовые константы, причем V -натуральная и четная, \н > 0, и/г > 0; г, и, е, а, Ь - внешние параметры моделей детерминированного хаоса.
1. Линейная функция:
Уаых = (X, а). (2)
2. Нелинейные функции. Требования к нелинейным функциям:
1) везде дифференцируемы и непрерывны;
2) являются гладким отображением (<о, -н») на ограниченный отрезок.
2.1. Нелинейные функции, используемые в нейросетевом анализе для решения широкого круга задач (3). Данные функции можно назвать универсальными, т.к. они хорошо зарекомендовали себя при аппроксимации различных нелинейных зависимостей.
у^ = ЭвьДх, а), (3)
где в качестве ^х. а) предложены
Цх, а) = 1/11 + ЕХР-(х, а)], (4)
^х, а) = [ЕХР(х, а) - \/У1ИЕХР(х. а) + и/г], V/, > 0 (5)
Г(х, а) = СОБ(х, а), (6)
{(х, а) = ЭЩх, а), (7)
Кх,а)= 1^ + (х,аП, (8)
^х, а) = + (х, а)") + и/г]. V/, £ 1 (9)
2.2. Нелинейные функции, полученные в рамках теории детерминированного хаоса. Представленные ниже модели могут с успехом применяться при аппроксимации ряда нелинейных зависимостей (в случае, когда система проявляет детерминированный хаос). Экспериментальные исследования показали их эффективность при протезировании тенденций финансовых рынков. В работе предложено внешние параметры моделей детерминированного хаоса определять как нелинейные функции от скалярного произведения векторов аргументов прогноза и неизвестных параметров. К функциям и выходным параметрам предъявлены следующие дополнительные требования:
1)у,^е[0,1],
2) Л(х. а,) > 0 и Г^х, эг) > 0, а,*«, > 0 и а«^ > 0.
У«ьп(Ц1) = £ f,(x' J"1
(1*1)
', a'ja^q, где
(10)
2.2.1 Модель 1, в основе которой лежит бифуркация удвоения ум = гу|(1 -у,),г>0 VWi) = '(У^. х, а,, а2, a„,) = y^^ift(x, а,) - y^2a^,2f2(x, а2), (11 ) т.е. с, = у^,, с2 = - у^2. с3 = 0. (12)
2.2.2 Модель 2, в основе лежит касательная бифуркация ye,n = у, + иу,2 + е, и > 0. у^и = х, а,, а2, а3, а«,) = у,ьАыЛ,(х, а,) + у^а^Цх, а2) + a^Jix, аз), ( 13) т.е. с, = у^о, с2 = y.J, с, = 1. (14)
2.2.3 Модель 3, в основе лежит бифуркация Хопфа у0н)= 1 - ау,2 + by,,, а > О, |Ь| < 1: у«<к,) = f(y«4 х, а,, а2, а3, а«,) = a^f/x, а,) - y^a^f^x, а*) + а3), (15) т.е. с,= 1, с2= -у«^2, cj-y^ji.,,. |fj(x, а3)| < 1, la^l < 1. (16) В качестве функций f,(x, а,) и f2(x, а2) предложены (4), (8), (9); в качестве f3(x, а3)
второй модели - (5), (6), (7); третьей модели - (5) при Wt = w2 = 1.
Для реализации аппроксимирующей функции, состоящей нь более, чем из одной линейной функции и из нескольких нелинейных, предложена двухслойная неоднородная искусственная нейронная сеть с произвольным числом нейронов в первом слое (раздел 2.3). Она представлена на рис. 2. Как правило, для получения множества входных и требуемых выходных сигналов выполняется предобработка значений ар-' гументов и прогнозируемой величины (нормировка, масштабирование), соответственно, после получения выходных сигналов нейросети выполняется их интерпретация.
Функция, реализуемая данной сетью:
Л1 *т
*т
-»
» »2
U
F(x, а) = lia^f/x, a^q), M
(17)
где d - число нейронов, fj - функция j-ro нейрона, х(х,',...,хт') - i-ый вектор вх. сигналов,
- вектор параметров j-ro
а,(а/.....ат'
нейрона, а«« - вектор вых. параметров, q используется для хаотических моделей.
Рис.2 Двухслойная нейросетъ.
В разделе 2.4 предложен метод обучения двухслойной, неоднородной нейронной сети с произвольным числом нейронов в первом слое, заключающийся в последовательном обучении потоков сети. Понятие "потока" введено в данной работе для обозначения структуры, являющейся составной частью нейросети и пересекающейся с другими подобными структурами только при формировании выходного сигнала сети. В зависимости от реализуемой функции потоки делятся на три класса: 1. Поток, реализующий линейную функцию (1 класс)
Выходной сигнал потока, резлизующе-
У.»
го линейную функцию' у„м = (х, а).
X
а
Рис. 3 Поток 1 класса.
2. Поток, реализующий нелинейную функцию, из числа традиционно использующихся в нейросетевом анализе (2 класс)
Выходной сигнал данного нелинейного
*,п
а,
-► ►
потока:
Утл = а«Дх, а).
(19)
Рис. 4 Поток 2 класса.
3. Поток, реализующий нелинейную функцию, полученную в рамках теории детерминированного хаоса
Выходной сигнал потока, реализующего нелинейную функцию, полученную в рамках теории детерминированного хаоса: }
хЛ-
»2 С2а»их2 Еит У»ьи
где для первой модели: С1 = у^, с2 = - с3 = 0; для второй модели: С1 = у»л1, Сг = у^м , Сз = 1; для третьей модели: С, = 1,С2 = -у«^ , Сз = Ум<(И).
(20)
Рис. 5 Поток 3 класса.
Пусть нейронная сеть содержит I потоков, тогда выходной сигнал двухслойной нейронной сети Ущ» определяется:
I
Увых = I у«", где у^," - интерпретированные выходные ситапы к-го потока. (21)
Т.е. каждый поток обучается отдельно, и требуемый выходной сигнал к-го потока есть погрешность обучения предыдущих к - 1 потоков. При разбиении сети на потоки преобразование входных сигналов производится один раз перед началом обучения сети, а преобразование требуемых выходных сигналов и интерпретация ответов - отдельно для каждого потока после завершения процесса обучения предыдущего.
В разделе 2.5 рассмотрены методы и алгоритмы обучения многослойных нейронных сетей. Критерием оценки качества обучения определен метод наименьших квадратов, исключение составляет случай использования гребневой оценки для линейной аппроксимации вырожденной модели. Обучение может проводиться для одного примера, постранично и для всей выборки.
Для обучения потоков, выполняющих линейную аппроксимацию, применяются алгоритм решения полученного в рамках линейного регрессионного анализа матричного уравнения и методы безусловной минимизации, использующие производные функции (раздел 2.5.3). Установлено, что применение методов безусловной минимизации целесообразно, если число входных сигналов выше восьми.
Для обучения многослойных нейронных сетей (в данном случае это потоки 2 и 3 классов), чьи нейроны реализуют нелинейные функции, разработаны обучающие методы и алгоритмы, основанные на методе обратного распространения ошибки (раздел 2.5.2), методах безусловной минимизации, использующих производные функции, и методе обучения Коши. К недостаткам метода обратного распространения ошибки можно отнести то, что он достаточно медленно сходится к точке минимума целевой я
функции, плохо справляется с локальными минимумами, глубокими и узкими местами. Недостатками методов безусловной минимизации, использующих производные функции, являются: во-первых, необходимость знать по крайней мере первые частные производные (а для некоторых методов и вторые) целевой функции по параметрам, но при обучении потоков двухслойной нейросети получить их в общем виде, зная первые и вторые частные производные функций нейронов, не составляет труда, при обучении многослойных сетей произвольной архитектуры используется метод двойственного функционирования; во-вторых, данные методы в общем случае находят точку локального минимума. Т.е. метод обратного распространения ошибки и методы безусловной минимизации, имеют один общий серьезный недостаток - они находят локальный минимум целевой функции, исключение составляет случай, когда целевая функция - квадратичная положительно определенная форма (поток 1 класса). Для борьбы с этим недостатком в работе предложено использовать метод обучения Коши, который, как и метод Больцмана (их описание приведено в разделе 2.5.4), в своем первоначальном виде выполняет случайные преобразования параметров нейронной сети и не предлагается для реализации в данной работе по причине очень медленной сходимости. Идея разработанных методов состоит в использовании случайного шага изменения параметров метода Коши aj для выхода из локальных минимумов. Описание разработанных методов приведено в разделе 2.5.5, их алгоритмы приведены в разделах 2.5.6 и 2.5.7. В рамках работы реализовано три варианта, основанных на методах безусловной минимизации и методе обучения Коши.
В разделе 2.6 определены методы оценки значимости входных сигналов и параметров сети на основании функции оценки и по изменению выходных сигналов.
В качестве метода проверки возможности с помощью заданной нейронной сети реализовать полученную функцию предложен анализ выборочной оценки константы Липшица снизу и оценки константы Липшица сверху по архитектуре сети (раздел 2.7). Константа Липшица вектор-функции f(x) в области D (оценка сверху) определяется:
L, = sup r||f(x,)-f(xj/||x,-x2||], (22)
Х1.Х2 « D. Х1<>Х2
для оценки L, используется эвклидова норма.
Если функция задана на конечной выборке, то можно получить выборочную константу Липшица L^,, заменяя всю область D на конечное множество, это - оценка L^ снизу. Функцию можно реализовать с помощью данной сети, когда
(23)
Пусть I - число потоков нейронной сети, h - число нейронов потока, avk - вектор
входных параметров v-ro нейрона (v = 1.....h) k-ro потока, а^* - выходной параметр v-
го нейрона k-ro потока, fb(x, а,к) - функция, реализуемая преобразователем v-ro нейрона k-ro потока. Если поток содержит один нейрон, индекс v опускается.
Для потока, реализующего линейную функцию, константа Липшица сверху равна:
U<||ak||. (24)
Для k-го потока, реализующего нелинейную функцию, из числа традиционно использующихся в нейросетевом анализе, константа Липшица сверху равна:
L* < ||aab(Ak¡|||a''||max |f„'(x, а")|. (25)
Для k-ro потока, реализующего нелинейную функцию, из числа хаотичесхих моделей, константа Липшица сверху равна:
Ц < ¿На^НИаЛггах [fjx. аЛ)2]" (26)
Практика показала, что вместо максимума функции лучше использовать ее среднее значение по интервалу изменения входных сигналов.
Константа Липшица сверху по архитектуре сети равна:
I
IU < где Ц - константа Липшица сверху для k-ого потока. (27)
Третья глава посвящена созданию программного комплекса, являющегося ядром АСП, решающих задачи регрессионного анализа.
В разделе 3.1 приведены требования к проектированию и реализации, учитывающие особенности АС данного класса. Данные требования явились определяющими при проектировании размещения типовых компонент АСП (раздел 3.2). Можно выделить следующие типовые функциональные компоненты, достаточные для формирования пюбого приложения на основе БД: PS (Presentation Services) - средства представления, PL (Presentation Logic) - логика представления, BL (Business or Application Logic) - прикладная- лопика, DL (Data Logic) - логика управпения данными, DS (Data Services) - операции с базой данных, FS(Fi!e Services) - файловые операции. Размещение типовых компонент представлено на рис. 6.
Рис. 6 Схема размещения типовых компонент исследуемых АСП (цветом выделены компоненты ядра; стрелками показаны пути обмена данными между приложениями и БД) Клиентская часть, состоящая из пользовательского интерфейса, клиентских прй-кладной логики и логики управления данными, решает задачи, стоящие перед конкретной АС. В сервер приложений выделены серверные прикладная логика и логика управления данными, которые можно разделить на общие для всех АСП данного класса (составляют ядро системы, реализуют математическое обеспечение, описанное в гл. 2) и решающие дополнительные задачи АС. Операции с БД и файловые операции выпопняются на сервере БД, они реализуются, соответственно, сервером СУБД и серверной ОС.
Далее в разделе 3.3 рассмотрены вопросы разработки информационного, программного и методического обеспечения модулей, являющихся общими для исследуемых АСП, на рис. 6 они выделены цветом. Библиотеки сервера приложений долж-10
ны: во-первых, как можно меньше зависеть от аппаратно-программной платформы системы; во-вторых, оперативно реализовывать многоитерационные алгоритмы обучения нейросети, поэтому в качестве средств для разработки серверной логики приложений, входящих в ядро системы, определен AN1SI-C; для разработки серверной логики управления данными - библиотеки программного интерфейса (C-API), предназначенные для обеспечения доступа к данным выбранного сервера СУБД. Поэтому выбор возможных серверов СУБД ограничен серверами СУБД, предоставляющими С-API, выбор возможных серверных ОС ограничен ОС, для которых реализован компилятор ANSI-C или C-SDK.
В разделе 3.3 приведена классификация таблиц БД, с которыми работают функции библиотек сервера приложений. Классификация проведена в зависимости от назначения данных, хранящихся в этих таблицах, и связей между "таблицами, описаны потоки данных, поступающие в БД системы.
Последний раздел главы посвящен краткому описанию методического обеспечения АСП. Оно включает в себя электронную справочную систему и документацию, определенную требованиями ГОСТ.
В четвертой главе рассмотрены вопросы разработки автоматизированной ди-линговой системы (АДС), в которой задача прогноза тенденций финансовых рынков решается с использованием функций ядра АСП.
В разделе 4.1 рассмотрено функционирование АДС в составе автоматизированной банковской системы (АБС) и описана основная задача, решаемая АДС - прогноз тенденций финансовых рынков. Данная задача является задачей регрессионного анализа и для ее решения в работе предложено использовать методы и алгоритмы, приведенные в главе 2. В разделе 4.1 также выделены четыре подсистемы АДС: ввода данных, технического анализа рынка, прогноза тенденций финансовых рынков, оптимального распределения свободных средств инвестора между финансовыми рынками и их инструментами, и разработаны требования к функциональным возможностям ка-модой из подсистем.
Раздел 4.2 посвящен описанию функциональных возможностей перечисленных подсистем. В разделе 4.2.1 определены механизмы работы АДС с внешними источниками данных (подсистема ввода): для работы с источниками, покрывающими основные информационные потребности системы, разрабатываются индивидуальные конвертеры, считывающее данные из формата внешнего источника и управляющие записью в БД системы, для работы с прочими источниками предоставляются конвертеры из файлов текстового и DBF форматов установленной структуры и ручной ввод посредством ссютветствующего приложения.
Кроме задачи пролноза тенденций финансовых рынков (раздел 4.2.3) АДС должна решать задачи визуального анализа рынка посредством технического анализа (подсистема технического анализа, раздел 4.2.2) и определения стратегии поведения в прогнозируемой рыночной ситуации (подсистема оптимального распределения свободных средств инзестора, раздел 4.2.4). Индикаторы технического анализа реализуются посредством операций над временными рядами, определенных для преобразования исходных данных прогъозируемой величины и аргументов прогноза. Для решения второй дополнительной задачи АДС в разделе приведены разработанные математические модели задач минимизации риска инвестиций и минимизации риска при фиксированном уровне доходности, т.е. данная задача является двухкритериапьной. При создании моделей использовались элементы теории оптимального портфеля Марковича. В предлагаемых моделях исходными данными являются прогнозируемые доходности финансовых инструментов. В случае, если составляющие портфеля могут
ч
Рабочая станция!
Клиент
Рабочая станцияп
Клиент
m
Сервер
Сервер БД |
Сервер приложений|
бьпъ как положительными, так и отрицательными (модель Блека), задачи минимизации решаются в общем виде методом неопределенных множителей Лагранжа. Если составляющие портфеля могут бьпъ только положительными (модель Марковица), задачи минимизации решаются методом проекции градиента, на каждой итерации которого предусмотрена процедура возврата очередного приближения градиентного спуска на допустимое множество, если найденная точка ему не принадлежит. Такой возврат производится проектированием найденной точки на допустимое множество.
Последний раздел главы посвящен реализации АДС. Разработка АДС и экспериментальные исследования проведены на базе Казначейства Промстройбанка России. При этом использовалась конфигурация системы, приведенная на рис.7, где сервер: SUN Server Ultra Enterprise 4500:4 процессора, apx-pa Superscalar SPARC v 9, основная память 6ГБ; серверная ОС: SUN Solaris 2.6; сервер СУБД. Рис. 7 Схема конфигурации АДС Orade 7.3 Server; рабочая станция: Intel
Pentium 90, RAM - 32МБ, HDD - 1ГБ; клиентская ОС: Windows NT Workstation 4.0.
С учетом особенностей АДС и требований к проектированию и реализации в разделе 4.3 обоснованы рекомендуемые и возможные варианты выбора в зависимости от масштаба организации сервера СУБД, серверной и клиентской ОС, аппаратной платформы, определены средства разработки клиентских приложений. Для организаций любого масштаба рекомендуемым сервером СУБД является сервер семейства Oracle, рекомендуемой серверной ОС - UNIX-подобная ОС и клиентской ОС - Windows NT Workstation. В качестве средства разработки приложений клиента определен программный продукт Borland Delphi 3.0 (это ограничивает выбор клиентских ОС Microsoft Windows 9х и Microsoft NT Workstation). Далее в разделе 4.3 рассмотрены реализации АДС, взаимодействие приложений и описание потоков данных.
Пятая глава посвящена описанию экспериментальных исследований, иллюстрирующих эффективность применения предложенных и разработанных моделей, методов и алгоритмов на примере задачи прогноза тенденций финансовых рынков, решаемой АДС. В разделе 5.1 определены задачи, ставящиеся перед экспериментальными исследованиями, результаты которых приводятся в последующих разделах данной главы.
Раздел 5.2 посвящен сравнению качества аппроксимации зависимости прогнозируемой величины от аргументов с помощью двухслойной и трехслойной нейронных сетей. В экспериментах, описанных в этом разделе, рассматривались нейронные сети с одинаковым количеством'нейронов в каждом слое. Обучение проводилось методами обратного распространения ошибки и безусловной минимизации, усовершенствованными с помощью метода обучения Коши. Установлено, что незначительное улучшение целевой функции при использовании трехслойной сети приводит к существенному увеличению времени обучения. Целевая функция, полученная при аппроксимации нелинейной составляющей с помощью трехслойной нейронной сети, не более чем на 7.5% лучше целевой функции, полученной с помощью двухслойной сети. Число итераций при обучении трехслойной сети методами безусловной минимизации, использующими производные функции, на 11-25% больше, чем при обучении двухслойной сети. Время обучения трехслойной сети методом обратного распространения
ошибки на 15-22% больше, чем время обучения этим же методом двухслойной сети. Эффект уменьшения целевой функции при использовании трехслойной нейронной сети легко достигается с помощью двухслойной путем увеличения числа нейронов в первом слое (или количества потоков).
В разделе 5.3 проведена оценка величины линейной составляющей зависимости прогнозируемой величины от некоторого множества аргументов прогноза для различных финансовых рынков. При проведении экспериментальных исследований выявлено, что величина линейной составляющей зависимости прогнозируемой величины от аргументов, полученной путем обучения линейного потока (поток 1 класса), достаточно велика. За время эксплуатации системы средняя погрешность прогноза цен, полученная при реализации линейной аппроксимации, составила: для рынка облигаций 1.3%, для рынка акций 2.6%, для валютного рынка 3.7%.. Поэтому рекомендуется в состав функций, реализуемых нейронами сети, включать линейную функцию.
В разделе 5.4 проиллюстрированы исследования качества аппроксимации нели-. нейной составляющей посредством различных функций из предоставляемого системой набора. В результате разработаны следующие рекомендации по выбору нелинейных функций для реализации потоками сети, относящихся к двум различным классам: хорошо зарекомендовавших себя в нейросетевом анализе и полученных в рамках теории детерминированного хаоса. Внутри каждого класса установлены наборы функций, обеспечивающие наиболее высокое качество нелинейной аппроксимации, отдельные улучшения целевой функции при перехода от одного набора функций к другому достигали 20%. Получено, что в подавляющем числе экспериментов (из 30 экспериментов в 27) использование функций, полученных в рамках теории детерминированного хаоса, обеспечивает улучшение целевой функции (сравнивались наборы функций, наиболее хорошо зарекомендовавшие себя внутри классов), в среднем для различных прогнозируемых величин оно составило 15.3%. Данное утверждение проиллюстрировано на рис.8 на примере аппроксимации нелинейной составляющей средневзвешенной цены облигации ОФЗ 27010. Использование третьей модели, полученной в рамках теории детерминированного хаоса (длинный пунктир),-позволило улучшить целевую функцию на 15.5% по сравнению с сетью, содержащей нейроны, реализующие функции (8), (5), (6) (короткий пунктир), сплошной линией на рисунке показаны требуемые зьачения выходного сигнала.
Рис. 8 Иллюстрация аппроксимации нелинейной составляющей с помощью нейронных потоков, реализующих различные нелинейные модели.
Улучшение целевой функции не наблюдалось при реализации потоками одной сети функций, принадлежащих различным классам.
В разделе 5.5 изучена работа методов, предлагаемых системой для обучения потоков сети. При обучении потоков, реализующих линейные функции, рекомендуется
алгоритм решения полученного в рамках линейного регрессионного анализа матричного уравнения, если количество аргументов прогноза не более восьми, иначе - рекомендуются методы безусловной минимизации, использующие производные функции. Результат линейной аппроксимации проиллюстрирован на рис. 9 на примере средневзвешенной цены акции РАО "ЕЭС". В качестве аргументов использовались: цена закрытия за предыдущий день, оценка общественно-политической ситуации для акций, курс доллара, предоставляемый Центробанком России, индекс "REUTERS" по АДР российских компаний, бразильский фондовый индекс BOVESPA, индекс РТС на торгуемые российские акции, индекс RTX OHKL. Здесь средняя погрешность прогноза по всей выборке равнялась 2.03%, погрешность прогноза цены на 12.05.1999 - 3.24%.
1,27 1,229 1,168 1,147 1,106 1,065 1,024 0,963
1 2 3 4 5 В 7 8 9 10 11 12 13 14 1S . 16 17 16 19 20 21 22 Выборка с 05.04.1999га 11.05.1399
Рис. 9 Графики средневзвешенной цены акции РАО "ЕЭС" (сплошная линия) и результат линейной аппроксимации (пунктирная линия).
При обучении потоков, реализующих нелинейные функции, методами безусловной минимизации, усовершенствованными с помощью метода Коши, установлено:
- качество аппроксимации нелинейной составляющей при обучении с помощью методов наискорейшего спуска, сопряженных градиентов и ДФП идентично;
- наиболее быструю сходимость к точке локального минимума из трех рассматриваемых методов обеспечивает метод ДФП (для нахождения точки локального минимума методом ДФП в среднем требовалось 59 итераций, а в случае использования метода наискорейшего спуска - 82 итерации);
- наиболее стабильно работающий метод - метод наискорейшего спуска (его среднеквадратичное отклонение от среднего количества итераций равнялось 15.29),
. он же и наиболее медленный; наименее стабильно работающий метод - метод сопряженных градиентов(его среднеквадратичное отклонение от среднего количества итераций равнялось 39.45).
При использовании метода обратного распространения ошибки, усовершенствованного с помощью метода Коши, в подавляющем числе экспериментов целевая функция и время обучения увеличивались по сравнению с методами безусловной минимизации. Так, из 40 проведенных экспериментов целевая функция при использовании метода обратного распространения ошибки увеличилась в 38 случаях, в среднем ее увеличение составило 18%. Сказанное выше проиллюстрировано на рис. 10 на примере аппроксимации нелинейной составляющей средневзвешенной цены акции РАО "ЕЭС" (сама нелинейная составляющая показана сплошной линией). Использование метода наискорейшего спуска (короткий пунктир) позволило уменьшить целевую на 16.8% по сравнению с результатом обучения методом обратного распространения ошибки (длинный пунктир).
И
0,051 0,041 0,031 0,02 0,01 О -0,01
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Рис. 10 Иллюстрация улучшения целевой функции при обучении методом, основанным на методах безусловной минимизации и Коши, по сравнению с обучением методом, основанным на методах обратного распространения ошибки и Коши.
Поэтому для обучения потоков, реализующих нелинейные функции, рекомендуются методы наискорейшего спуска, сопряженных градиентов и ДФП, усовершенствованные с помощью метода Коши.
Погрешность прогноза во многом зависит от значимости выбранных аргументов прогноза, т.е. от профессионализма аналитика. При эксплуатации системы на базе Казначейства Промстройбанка России была проведена работа по выявлению наиболее значимых аргументов для различных финансовых инструментов. За Бремя опытной эксплуатации АДС средняя погрешность краткосрочного прогноза цен для рынка облигаций составила 0.21%; для рынка акций - 0.88%; для валютного рынка -1.01%. В аналогичных системах средняя погрешность краткосрочного прогноза равна 3-6%.
В раздела 5.6 проиллюстрировано решение задач оптимизации распределения средств для различных классов портфеля. Показана состоятельность рыночных моделей, использующих прогнозируемую доходность элементов портфеля вместо вероятностных характеристик их доходности за предшествующие периоды. Так, за время опытной эксплуатации АДС средняя погрешность прогнозируемой доходности портфеля с горизонтом 10 дней равнялась 4.5%, в аналогичных АС она достигает 15%. Основныо результаты диссертации
1. Разработано информационное, математическое, программное и методическое обеспечение программного комплекса, автоматизирующего процесс протезирования будущего состояния объекта на основе текущих данных, что позволило качественно улучшить работу автоматизированных систем прогнозирования.
2. Определена обобщенная методика построения автоматизированных систем протезирования, решающих задачи регрессионного анализа.
3. Разработан набор функций, предоставленный для формирования функции, аппроксимирующей зависимость прогнозируемой величины от аргументов протоза. Их использование позволило создавать наиболее эффективно работающие Модели.
4. Разработан метод поточного обучения двухслойной неоднородной искусственной нейронной сети с произвольным числом нейронов в первом слое, позволивший упростить процесс обучения нейронных моделей этого класса. В работе введено понятие потока - структуры, являющейся составной частью нейросети и пересекающейся с другими подобными структурами только при формировании выходного ситала сети.
5. Разработаны методы и алгоритмы обучения многослойных нейронных сетей, основанные на методе обратного распространения ошибки, методах безусловной минимизации, использующих производные функции, и методе обучения Коши. Дан-
ныв методы сочетают в себе относительно быструю сходимость к точке минимума целевой функции, присущую методам обратного распространения ошибки и безусловной минимизации, использующим производные функции, и способность выходить из точек локальных минимумов, свойственную методу Коши, что позволило улучшить качество аппроксимации.
6. Предложены методы оценки значимости входных сигналов и параметров сети на основании функции оценки и по изменению выходных сигналов, а также метод проверки возможности с помощью заданной нейронной сети реализовать полученную функцию, в основе которого лежит анализ выборочной оценки константы Липшица снизу и оценки константы Липшица сверху по архитектуре сети.
7. Проведены экспериментальные исследования, наглядно демонстрирующие эффективность применения предложенных и разработанных моделей, методов и алгоритмов на примере задачи прогноза тенденций финансовых рынков, разработаны рекомендации. С момента внедрения системы в опытную эксплуатацию в ноябре 1998 года средняя погрешность краткосрочного пропноза цен для рынка облигаций составила 0.21 %, для рынка акций - 0.88%, для валютного рынка -1.01 %. Для сравнения, в аналогичных системах средняя погрешность краткосрочного прогноза равна 3-6%.
Основныа положения диссертации изложены в следующих работах:
1. Яковлева ГЛ., ЛисицкийЛА Автоматизированное определение стоимости недвижимости II Материалы межрегиональной научно-практической ксяференции. -Саратов, 1999. - Ч. 2,- С. 146-150.
2. Яковлева ГЛ., Яковлев В Л., Малиевамй ДА Нейросетевая экспертная система управления портфелем банка // Нейрокомпьютеры и их применение: Сборник докладов V Всероссийской конференции. - М., 1999. - С. 291-294.
3. Яковлева ГЛ., Яковлев В Л., Лисицкий Л А Применение нейросетевых алгоритмов к анализу финансовых рынков // Информационные технологии. -1999,- Na 8. - С. 25-30.
4. Яковлева ГЛ., Яковлев ВЛ. Нейросетевые математические модели прогнозирования тенденций финансовых рынков // Молодые ученые - науке, технологиям и профессиональному образованию для устойчивого развития: проблемы и новые решения: Сборник докладов международной конференции стран СНГ. - М., 1999. - Ч. 2. - С. 74-78.
5. Яковлева ГЛ., Яковлев ВЛ. Хаотические модели в виде двухслойных нейронных сетей и их применение в менеджменте инноваций II Молодые ученые - науке, технологиям и профессиональному образованию для устойчивого развития: проблемы и новые решения: Сборник докладов международной конференции стран СНГ. - М., 1999. -
Ч. г-С. 78-81.
6. Яковлева ГЛ., Яковлев ВЛ. Методология построения интегрированных финансово-экономических экспертно-аналитических систем // Молодые ученые - науке, технологиям и профессиональному образованию для устойчивого развития: проблемы и новые решения: Сборник докладов международной конференции стран СНГ. - М., 1999. -Ч. 2.-С. 81-85.
7. Яковлева ГЛ., Яковлев ВЛ. Математические модели прогнозирования тенденций финансовых рынков, полученные в рамках теории детерминированного хаоса и реализуемые при помощи нейросетевых алгоритмов II Нейроинформатика-2000: Сборник докладов 2-ой Всероссийской научно-технической конференции. - М., 2000. -4.2.-С. 156-162.
Подписано к печати "ZT Qb 2000 г. Зак.аз 59т. Объем 1 п.л. Тираж 100 экз.
Типография МПУ им. Н.Э.Баумана, 107005, г. Москва, 2-ая Бауманская ул., д.5.
16
Оглавление автор диссертации — кандидата технических наук Яковлева, Галина Леонтьевна
Обозначения.
Введение.
Глава 1. Анализ и классификация существующих автоматизированных систем прогнозирования. Методика построения автоматизированных систем прогнозирования, решающих задачу регрессионного анализа.
1.1. Анализ и классификация существующих автоматизированных систем прогнозирования.
1.2 Основные особенности автоматизированных систем прогнозирования
1.3. Требования к функциональным возможностям автоматизированных систем прогнозирования, решающих задачи регрессионного анализа
1.4. Обобщенная методика построения автоматизированных систем прогнозирования, решающих задачи регрессионного анализа.
Выводы по главе 1.
Глава 2. Математические модели, методы и алгоритмы автоматизированных систем прогнозирования, решающих задачи регрессионного анализа.
2.1. Операции над временными рядами, определенные для преобразования исходных данных прогнозируемой величины и аргументов.
2.2. Описание функций и моделей, предоставленных для реализации аппроксимирующей функции.
2.2.1. Описание нелинейных функций, применяемых в нейросетевом анализе.
2.2.2. Описание нелинейных функций, полученных в рамках теории детерминированного хаоса.
2.3. Представление аппроксимирующей функции в виде двухслойной, неоднородной, искусственной нейронной сети.
2.4. Разложение двухслойной нейронной сети на потоки. Обобщенный алгоритм обучения двухслойной нейронной сети.
2.5. Методы и алгоритмы обучения многослойных, искусственных нейронных сетей.
2.5.1. Линейный регрессионный анализ.
2.5.1.1. Применение метода наименьших квадратов в линейном регрессионном анализе.
2.5.1.2. Применение метода гребневой оценки в линейном регрессионном анализе.
2.5.2. Универсальный метод обучения многослойных, искусственных нейронных сетей - метод обратного распространения ошибки
2.5.3. Методы безусловной минимизации, использующие производные функции.
2.5.3.1. Краткое описание метода градиентного спуска.
2.5.3.2. Краткое описание метода наискорейшего спуска.
2.5.3.3. Краткое описание метода сопряженных градиентов.
2.5.3.4. Краткое описание метода Ньютона.
2.5.3.5. Краткое описание квазиньютоновских методов.
2.5.4. Методы обучения Коши и Больцмана.
2.5.5. Разработанные методы обучения многослойных нейронных сетей, созданные на основе методов обратного распространения ошибки, безусловной минимизации, использующих градиент функции, и обучения Коши.
2.5.6. Алгоритм метода обратного распространения ошибки, усовершенствованный с помощью метода обучения Коши.
2.5.7. Обобщенные алгоритмы методов безусловной минимизации, использующих производные функции, усовершенствованные с помощью метода обучения Коши.
2.6. Определение значимости параметров и входных сигналов с целью сокращения множества аргументов прогноза.
2.6.1. Определение значимости параметров и входных сигналов на основании функции оценки.
2.6.2. Определение значимости параметров и входных сигналов по изменению выходных сигналов.
2.7. Проверка возможности с помощью заданной нейронной сети реализовать полученную функцию.
Выводы по главе 2.
Глава 3. Разработка программного комплекса автоматизированных систем прогнозирования, решающих задачу регрессионного анализа.
3.1. Требования к проектированию и реализации автоматизированных систем прогнозирования, решающих задачи регрессионного анализа
3.2. Проектирование размещения типовых компонент автоматизированных систем прогнозирования.
3.3. Разработка информационного, программного и методического обеспечения модулей сервера приложений, образующих ядро исследуемых автоматизированных систем прогнозирования.
3.3.1. Обоснование выбора средств разработки библиотек сервера приложений автоматизированной системы прогнозирования.
3.3.2. Описание библиотек сервера приложений автоматизированных систем прогнозирования, решающих задачи регрессионного анализа.
3.3.3. Классификация таблиц БД, с которыми работают функции библиотек сервера приложений автоматизированных систем прогнозирования.
3.3.4. Методическое обеспечение.
Выводы по главе 3.
Глава 4. Создание автоматизированной дилинговой системы с использованием библиотек ядра автоматизированных систем прогнозирования.
4.1. Описание задач, решаемых автоматизированными дилинговыми системами. Определение подсистем, входящих в состав автоматизированной дилинговой системы.
4.1.1. Задачи, решаемые автоматизированными дилинговыми системами.
4.1.2. Определение подсистем, входящих в состав автоматизированной дилинговой системы. Требования к функциональным возможностям подсистем.
4.2. Описание функциональных возможностей подсистем автоматизированной дилинговой системы.
4.2.1. Описание функциональных возможностей подсистемы ввода данных.
4.2.2. Описание функциональных возможностей подсистемы технического анализа рынка.
4.2.3. Описание функциональных возможностей подсистемы прогноза тенденций финансовых рынков.
4.2.4. Описание функциональных возможностей подсистемы оптимального распределения свободных средств инвестора.
4.2.4.1. Решение задач оптимального распределения свободных средств инвестора для модели Блека.
4.2.4.2. Решение задач оптимального распределения свободных средств инвестора для модели Марковица.
4.3. Разработка программного комплекса автоматизированной дилинговой системы.
4.3.1. Выбор информационного и системного программного обеспечения, аппаратного обеспечения и средств разработки клиентских приложений АДС.
4.3.1.1. Обоснование выбора сервера СУБД для работы с автоматизированной дилинговой системой.
4.3.1.2. Обоснование выбора операционных систем для работы с автоматизированной дилинговой системой.
4.3.1.3. Обоснование выбора средств разработки клиентских приложений автоматизированной дилинговой системы.
4.3.1.4. Обоснование выбора аппаратного обеспечения автоматизированной дилинговой системы.
4.3.1.4.1. Серверы на базе Intel-процессоров.
4.3.1.4.2. Серверы на базе RISC-процессоров.
4.3.1.4.3. Нейрокомпьютеры.
4.3.2. Типовые реализации автоматизированной дилинговой системы
4.3.3. Состав приложений клиента. Взаимодействие приложений типовых компонент автоматизированной дилинговой системы
4.3.4. Описание потоков данных автоматизированной дилинговой системы.
4.3.5. Методическое обеспечение автоматизированной дилинговой системы.
Выводы по главе 4.
Глава 5. Экспериментальные исследования работы автоматизированной дилинговой системы.
5.1. Описание задач, поставленных перед экспериментальными исследованиями.
5.2. Сравнение качества аппроксимации зависимости прогнозируемой величины от аргументов прогноза с помощью двухслойной и трехслойной нейронных сетей.
5.3. Оценка величины линейной составляющей зависимости прогнозируемой величины от множества аргументов прогноза.
5.4. Исследование качества аппроксимации искомой нелинейной составляющей посредством различных функций из предоставляемого АСП набора.
5.5. Сравнение качества обучения двухслойной нейронной сети с помощью различных методов и алгоритмов.
5.6. Иллюстрация работы подсистемы оптимального распределение свободных средств инвестора для различных классов портфеля и задач инвестора.
Выводы по главе 5.
Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Яковлева, Галина Леонтьевна
Представляемая диссертационная работа посвящена вопросам создания автоматизированных систем прогнозирования (АСП). Данный класс систем включает в себя системы, использующие при прогнозе различный математический аппарат (статистический анализ, анализ Фурье, трендовый анализ и т.д.), для реализации которого используется широкий спектр методов и алгоритмов. Поэтому задача была сужена, и в данной работе рассматриваются только АСП, решающие задачи регрессионного анализа с использованием элементов теории нейронных сетей.
Одной из наиболее часто встречающихся проблем, встающих перед учеными различных специальностей, является проблема нахождения зависимости между некоторым набором величин, описывающих поведение объекта. Эта зависимость может быть выведена из теории и (или) может быть получена на основании экспериментальных исследований. Если зависимость выведена из теоретических соображений, то довольно часто она может быть представлена в аналитическом виде, заданном с точностью до нескольких неизвестных параметров. Если же в основе построения зависимости лежат экспериментальные исследования, то параметрическая зависимость постулируется. В любом случае при построении математической модели должны использоваться данные об исследуемом объекте, на основании которых мог бы быть сделан вывод о достаточной точности описания объекта моделью.
Далее приведена постановка задачи, решаемой исследуемыми АС.
Имеется некоторый объект прогноза, он обладает следующими свойствами. Совокупность числовых характеристик Z, описывающих или влияющих на поведение объекта прогноза, можно представить как множество векторов характеристик zq (q = 1, ., I), каждый элемент которых - значение q-ой характеристики в tj момент времени, т.е. значения характеристик получены в дискретные моменты времени. Совокупность возможных прогнозируемых величин W является подмножеством Z.
Пусть на прогнозируемую величину wg оказывают влияние аргументы прогноза zq (q = 1,., m) m < I, при чем изменение прогнозируемой величины наступает через время At после соответствующих изменений аргументов прогноза. Естественно, что даже в самых простых случаях невозможно учесть все факторы, влияющие на изменение состояния объекта прогноза, поэтому в данной работе считается, что определены все наиболее значимые аргументы zq (q = 1,., m) для рассматриваемой прогнозируемой величины wg. Значения прогнозируемой величины wg известны в точках t, + At (i = 1.п), они образуют вектор известных значений прогнозируемой величины Y = (wg\ ., wgn), элементы которого обозначают у, (i = 1,., п).
Значения аргументов прогноза {z1.zj известны в моменты времени tj (i = 1,., n + 1), они образуют матрицу аргументов прогноза X = IIZq'H (i = 1, ., n), (q = 1,m), элементы которой обозначают xqj (i = 1.n), (q = 1.m), и вектор х(п+1) = (х.,(п+1),., xm(n+1)).
В задаче необходимо определить у(п+1), т.е. значение прогнозируемой величины wg в точке t(n+i)+At.
Описанная выше задача является задачей регрессионного анализа. Можно выделить следующие этапы ее решения:
1) формирование аппроксимирующей функции F(x, а), где а - вектор неизвестных параметров, х - вектор аргументов прогноза размерностью пл;
2) определение неизвестных параметров а, обеспечивающих наилучшую аппроксимацию согласно определенному критерию качества, в данной работе предложен метод наименьших квадратов (МНК), тогда целевая функция:
Q(a) = E(yi-F(xi, a))->min; (1) i=i
3) вычисление прогнозируемого значения y(n+1) = F(x(n+1), а) и погрешности прогноза в.
Несмотря на идентичность математического обеспечения, существующие АС, решающие задачи регрессионного анализа при прогнозировании, ориентированы на решение задач конкретной предметной области. Поэтому определение обобщенной методики построения данных АС является актуальной задачей.
При определении методики построения АСП были определены следующие задачи, подлежащие решению в рамках работы:
1. Разработка набора функций для формирования аппроксимирующей функции F(x, а), позволяющего создавать эффективно работающие модели. В существующих АС либо реализованы функции, адаптированные для решения конкретных задач прогнозирования, либо, как в случае нейропакетов, считается, что предлагаемые функции могут использоваться для решения самого широкого круга задач, адаптация к условиям задачи происходит при проектировании архитектуры нейросети.
Хотя в последняя время был проведен ряд исследований, показавших, что в рамках теории детерминированного хаоса можно получить ряд моделей, способных успешно прогнозировать развитие событий для целого класса объектов (говорят, что данные объекты прогноза проявляют детерминированный хаос, примером таких объектов являются финансовые рынки), на практике хаотические модели почти не используются. Все вышеизложенное определяет необходимость создания эффективно работающих моделей при прогнозировании поведения различных объектов.
Для создания аппроксимирующей функции F(x, а) в работе реализованы линейная функция и нелинейные функции, обладающие следующими свойствами: во-первых, везде дифференцируемы и непрерывны, во-вторых, являются гладким отображением (-<», +<*>) на некоторый ограниченный отрезок. Аргументами данных функций являются скалярные произведения векторов аргументов прогноза х1 (i = 1,., п) и неизвестных параметров а. Нелинейные функции можно разделить на два класса: хорошо зарекомендовавшие себя в нейросетевом анализе для решения широкого круга задач и полученные в рамках теории детерминированного хаоса. Теория детерминированного хаоса подробно изложена в работах [3, 4, 6, 55, 83, 90, 115], ее приложение к анализу финансовых рынков описано в работах [59, 103].
2. Определение правил формирования F(x, а). При реализации F(x, а) нейронной сетью определение архитектуры предлагаемой нейромодели.
В работе широко используются элементы теории нейронных сетей, поэтому далее приведены ее основные понятия и терминология.
В нейросетевой терминологии совокупность значений прогнозируемой величины и соответствующих им значений аргументов прогноза, использующаяся для обучения нейронной сети, называется обучающей выборкой (другими словами -это точки, по которым строится аппроксимирующая функция), известные значения прогнозируемой величины называются требуемыми выходными сигналами нейронной сети, вектора аргументов прогноза (каждый вектор соответствует требуемому выходному сигналу) - входными сигналами.
Базовым строительным блоком в нейронных сетях является нейрон. Существует несколько видов нейронов, в представляемой работе рассматривается только нейрон, полученный последовательным соединением адаптивного сумматора с преобразователем, его структура представлена на рис. 1. т Еах т ЧЩх) i=1
2 i=1 -ь f
-► нН
Рис. 1 Нейрон, состоящий из последовательно соединенных сумматора и преобразователя
Адаптивный сумматор 2 вычисляет скалярное произведение вектора входного сигнала х (аргументы прогноза) и вектора неизвестных параметров а. Адаптивный сумматор можно разложить на набор из m параллельных линейных связей и следующий за ними простой сумматор. Линейная связь (синапс) имеет один настраиваемый параметр а„ получает на входе скалярный сигнал X; и выдает на выходе а^ (i = 1,., m). Преобразователь выполняет некоторое, определенное в нем функциональное преобразование над полученным с помощью адаптивного сумматора скалярным произведением. Поэтому нейрон, реализующий линейную функцию, собственно не является нейроном, т.к. содержит только адаптивный сумматор. Но для единообразия далее он также называется нейроном и считается, что его функция f равна 1. В общем случае выходной сигнал нейрона может рассылаться по нескольким адресам, т.е. иметь точку ветвления.
Каждая нейронная сеть имеет свою архитектуру (порядок расположения, тип и количество нейронов), систему предобработки и подачи входных сигналов, способ интерпретации ответов, правила настройки параметров и тип решаемых задач. При программной реализации на ЭВМ представляют интерес только синхронно функционирующие в дискретные моменты времени нейронные сети. Существует огромное количество типов архитектур нейронных сетей. Основными архитектурами считаются сети с обратными и без обратных связей (слоистые сети).
Многослойные нейросети без обратных связей: нейроны расположены в несколько слоев (см. рис. 2). Нейроны первого слоя получают входные сигналы, преобразуют их и через точки ветвления передают нейронам второго слоя и т.д. до j-ro, который выдает выходные сигналы. Если не оговорено противное, то выходной сигнал каждого нейрона i-ro слоя подается на вход каждого нейрона i + 1-го. Число нейронов в каждом слое может быть любым. Стандартный способ подачи входных сигналов: все нейроны первого слоя получают каждый входной сигнал. Количество слоев обычно определяется по количеству слоев параметров.
Входные сигналы Выходные
Слой 1 Слой2 Cjl0*j
Рис. 2 Структура многослойной сети без обратных связей
Нейросети с обратными связями: данные нейронные сети имеют пути, передающие сигналы от выходов к входам. Крайним вариантом нейросетей с обратными связями являются полносвязные сети: каждый нейрон передает свой выходной сигнал остальным нейронам, в том числе и самому себе, выходными сигналами могут быть все или некоторые выходные сигналы нейронов после нескольких тактов функционирования сети.
На сегодняшний день существует огромное разнообразие архитектур и принципов функционирования нейронных сетей, не рассмотренных выше, вот только некоторые из них: однородные и неоднородные сети, монотонные нейросети, сети Хопфилда, сети с двунаправленной ассоциативной памятью, адаптивные нейросети и т.д. Для ознакомления с наиболее распространенными классами нейронных сетей рекомендуются работы [1, 11, 14, 30, 38, 51, 58, 61, 66, 72-74, 77, 96, 98, 107, 111, 117].
В работе для реализации функции, аппроксимирующей зависимость прогнозируемой величины от аргументов прогноза, предлагается двухслойная, неоднородная, искусственная нейронная сеть без обратных связей (хотя функции, полученные на основе моделей детерминированного хаоса, зависят от выходных сигналов, полученных для предыдущих входных сигналов, данные выходные сигналы не подаются на вход нейронов, поэтому "хаотические" функции реализуются с помощью обычной двухслойной сети). Тогда функция F(x, а) строится из функций, реализуемых нейронами сети, как здание из кирпичиков. Кроме удобства представления, это предоставляет возможность использовать как алгоритмы специально разработанные для обучения нейронных сетей, так и традиционные методы минимизации. F(x, а) состоит из ноль или одной линейной функции и ноль, одной или нескольких нелинейных.
В последнее время нейронные сети и нейрокомпьютеры получили широкое распространение для решения задач в самых различных предметных областях, как то при социологическом и финансовом прогнозировании, диагностике заболеваний и т.д. Применение искусственных нейронных сетей для решения широкого круга задач, например, задач классификации, оптимизации, фильтрации, построения функций по конечному набору значений и т.д. в самых различных сферах деятельности, в том числе и финансовой, рассматривается в работах [10, 25-27, 32, 35, 40, 43, 46, 53, 71, 81, 84, 86, 93-95, 100, 109, 115, 124, 126].
3. Разработка методов и алгоритмов обучения нейронных сетей выбранного класса, позволяющих улучшить качество аппроксимации. Данная задача не зависит от предметной области. В качестве наиболее популярных, традиционных методов ее решения можно привести численные методы, методы Гаусса-Ньютона и Марквардта, методы безусловной минимизации, использующие производные функции и т.д. Методы, используемые при решении задач линейного и нелинейного регрессионного анализа, подробно описаны в работах [28, 33, 36, 54, 75], вопросы применения численных методов рассмотрены в работах [9, 21, 29, 34, 64], методам безусловной минимизации, использующим производные функции, посвящены работы [21, 47, 63].
Современные нейропакеты для решения задачи аппроксимации реализуют как специально созданные для обучения нейронных сетей методы (методы обратного распространения ошибки, обучения Коши и Больцмана), так и традиционные. Все перечисленные методы имеют свои достоинства и недостатки, и создание на их основе методов и алгоритмов, умножающих достоинства и исключающих наиболее существенные недостатки - является по сей день актуальной задачей. К тому же мало изучен вопрос: какие из методов наиболее эффективно работают в условиях рассматриваемой предметной области. Методы и алгоритмы обучения искусственных нейронных сетей изложены в работах [15, 16, 19, 20, 22-25, 31, 45, 56, 62, 70, 72, 74, 85, 97, 99, 101, 102, 105, 108, 110, 112-114, 118, 122, 123, 125, 126].
4. Определение методов оценки значимости аргументов и параметров, анализа результатов применения моделей и методов. Для многих объектов, являющихся предметом исследований, характерно изменение с течением времени найденных зависимостей между прогнозируемыми величинами и аргументами прогноза, т.е. возникает необходимость в переопределении состава аргументов прогноза zp и аппроксимирующей функции F(x, а) при прогнозировании величины wg. Поэтому в системе должны быть реализованы методы, сигнализирующие об "устаревании" используемых наборов и моделей. Использование данных методов особенно актуально, если объект прогноза характеризуется такими особенностями, как "загрязнения" в данных и их неоднородность, а также наличием малоинформативных аргументов, причем зачастую в большом количестве при относительно малом объеме статистики. Вопросы создания обучающей выборки, определения значимости входных сигналов и параметров, достаточности и неизбыточности нейронной сети для решения поставленной задачи рассмотрены в работах [13, 17, 18, 25,44, 78].
Необходимо отметить, что прогноз можно разделить на краткосрочный и долгосрочный. В случае краткосрочного прогноза считается, что все участвующие в нем аргументы на прогнозируемую дату известны и хранятся в базе данных. Горизонт краткосрочного прогноза, как правило, не превышает 3-4 дней (зависит от прогнозируемого объекта). В случае долгосрочного прогноза считается, что на прогнозируемую дату известны ожидаемые значения аргументов с некоторой погрешностью. Соответственно, погрешность определения прогнозируемой величины при долгосрочном прогнозе существенно увеличивается. Естественно, что чем дальше горизонт прогноза, тем больше погрешность ожидаемых значений аргументов и величина ошибки. Т.к. нет существенных различий в методике проведения краткосрочного и долгосрочного прогнозов, в дальнейшем данное разделение не учитывается.
Рассматриваемые АС используются в различных предметных областях, например, в промышленности, финансовой деятельности, социологии, медицине и т.д. Для них характерны следующие особенности:
- являются подсистемой АСУ организации, поэтому при реализации АСП должна быть обеспечена как можно большая независимость от аппаратно-программной платформы, что дает возможность легкой адаптации АСП к работе в условиях организаций, во-первых, различного масштаба, во-вторых, решающих специфические задачи, в-третьих, АСУ которых функционирует на базе некоторой аппаратно-программной платформы;
- работают с большими объемами данных, поступающими из разных источников;
- реализуют многоитерационные алгоритмы обработки данных.
В данной работе в качестве примера АСП, иллюстрирующего эффективность применения разработанных моделей, методов и алгоритмов, рассматривается автоматизированная дилинговая система (АДС), основными задачами которой являются прогноз тенденций финансовых рынков и разработка стратегии поведения в прогнозируемой рыночной ситуации (базовые принципы инвестирования, теории построения оптимального портфеля изложены в работах [39, 60, 87]), при чем первичной задачей является прогноз тенденций финансовых рынков. АДС предназначена для использования в организациях, активно работающих на финансовых рынках (коммерческие банки, инвестиционные фонды и т.д.).
Можно назвать следующие причины, по которым в качестве объекта прогноза выбраны финансовые рынки:
1) В последние несколько лет в нашей стране наблюдается интенсивное развитие фондового и валютного рынков. На сегодняшний день существует широкий спектр зарубежных аналогов АДС. Как правило, им свойственны следующие недостатки: во-первых, весьма дорогостоящи, во-вторых, неадаптированы к условиям российских финансовых рынков. Российские же производители программного обеспечения делают только первые несмелые шаги в этом направлении. Поэтому разработка методики построения, методов и алгоритмов АДС является актуальной задачей.
2) Финансовые рынки представляют большой интерес как объект прогноза, т.к. они являются нелинейными, динамично развивающимися системами, и согласно ряду исследований проявляют детерминированный хаос, т.е. их поведение может быть описано с помощью хаотических моделей. Поэтому финансовые рынки могут с успехом выступать в качестве объекта прогноза при исследовании эффективности применения моделей, методов и алгоритмов, разработанных и предлагаемых в данной диссертационной работе.
Целью настоящей работы является разработка для автоматизированных систем прогнозирования, решающих задачи регрессионного анализа, методов и алгоритмов, позволяющих повысить качество прогноза, с использованием элементов теории нейронных сетей.
Для достижения поставленной цели в работе предпринята попытка решения комплекса задач, в частности: научно-технических, в рамках которых проведена классификация существующих АСП, определена обобщенная методика построения АС данного класса, определены операции над временными рядами данных, посредством которых происходит предварительная обработка исходных данных, предложены математические модели, методы и алгоритмы для решения задач прогноза, на их основе разработаны модели, методы и алгоритмы АСП; прикладных, в рамках которых разработан информационно-программный комплекс, реализующий разработанные методы и алгоритмы, данный комплекс является ядром АСП, решающих задачи регрессионного анализа, на его основе разработана автоматизированная дилинговая система, предназначенная для использования в различных организациях, работающих на финансовых рынках (коммерческие банки, инвестиционные фонды и т.д.); экспериментальных, в рамках которых проведены экспериментальные исследования эффективности работы предлагаемых и реализуемых моделей, методов и алгоритмов, разработаны рекомендации.
При решении поставленных задач в работе использованы элементы теории детерминированного хаоса, математический аппарат линейного регрессионного анализа, линейной алгебры, теории нейронных сетей, теории оптимизации, нелинейного программирования, теории вероятностей, теории информационных систем и обработки данных.
Научная ценность работы состоит в следующем:
1) Для формирования функции, аппроксимирующей зависимость прогнозируемой величины от множества аргументов прогноза, разработан набор функций на основе моделей, полученных в рамках теории детерминированного хаоса.
2) Обоснованы и развиты методы теории нейронных сетей применительно для решения задачи аппроксимации искомой зависимости. Разработан обобщенный метод обучения двухслойной, неоднородной, искусственной нейронной сети с произвольным числом нейронов в первом слое путем разбиения ее на потоки.
3) Введено понятие потока, где поток - это структура, являющаяся составной частью нейронной сети и пересекающаяся с другими подобными структурами только при формировании выходного сигнала сети.
4) Разработаны методы и алгоритмы обучения многослойных, искусственных нейронных сетей, основанные на методе обратного распространения ошибки, методах безусловной минимизации, использующих производные функции, и методе обучения Коши, применяющемся для выхода из точек локальных минимумов.
Достоверность полученных научных результатов, выводов и рекомендаций диссертационной работы подтверждена результатами экспериментальных исследований разработанной АДС, проведенных на базе Казначейства Промстройбанка России. Полученные в работе результаты наглядно демонстрируют эффективность использования разработанных моделей, методов и алгоритмов для решения задач прогноза.
Естественно, что погрешность прогноза во многом зависит от значимости выбранных аргументов прогноза. При эксплуатации данной автоматизированной системы на базе Казначейства Промстройбанка России была проведена работа по выявлению наиболее значимых аргументов для финансовых рынков и их инструментов. Так, с момента внедрения системы в опытную эксплуатацию в ноябре 1998 года средняя погрешность краткосрочного прогноза цен (горизонт 1-3 дня) для рынка облигаций составила 0.21%, для рынка акций - 0.88%, для валютного рынка -1.01%, средняя погрешность долгосрочного прогноза доходности ценных бумаг и валюты с горизонтом не более 10 дней составила 4.5%. Для сравнения, в аналогичных системах средняя погрешность краткосрочного прогноза равна 3-7%, средняя погрешность более долгосрочного прогноза (до 10 дней) достигает 15%.
Практическая ценность работы состоит в том, что предложенные и разработанные модели, методы и алгоритмы позволяют реализовывать автоматизированные системы, эффективно решающие задачи прогноза.
Разработанные библиотеки ядра АСП содержат функции, решающие задачи регрессионного анализа согласно определенным условиям прогноза. Благодаря предоставленным и разработанным моделям, методам и алгоритмам, обеспечены наилучшие показатели прогноза по критерию качество/время. Созданный программный комплекс АДС позволяет: работать с различными источниками данных; проводить визуальный анализ рынка посредством индикаторов, реализованных последовательным применением операций над исходными рядами данных; выполнять прогноз поведения финансовых рынков и их инструментов; определять оптимальное распределение средств инвестора на основе прогноза ценовой динамики. При реализации информационного, аппаратного и программного обеспечения использовались результаты исследований, изложенные в работах [5, 7, 49, 52, 57, 65, 68, 69, 88, 89].
Полученные в работе результаты: математические модели, методы, алгоритмы и программы используются при прогнозировании тенденций финансовых рынков и определении структуры банковского портфеля в Казначействе Промстройбанка России. Копия акта о внедрении прилагается.
Внедрение результатов работы продолжается, они также могут быть использованы при создании иных автоматизированных систем прогнозирования, решающих задачу регрессионного анализа.
Аппробация работы: результаты были представлены на V-ой Всероссийской конференции "Нейрокомпьютеры и их применение" (Россия, Москва, 17-19 февраля 1999), конференции "Информатика и системы управления в XXI веке" (Россия, Москва, март 1999), международной конференции стран СНГ "Молодые ученые -науке, технологиям и профессиональному образованию для устойчивого развития: проблемы и новые решения" (Россия, Москва, декабрь 1999). Докладывались на семинарах "Современные информационные системы" и "Наукоемкие технологии и интеллектуальные системы" в МГТУ им. Н.Э. Баумана.
Основные результаты работы опубликованы в 7 печатных работах.
Диссертационная работа состоит из введения, пяти глав, заключения, списка литературы и приложений. Общий объем диссертации 219 страниц, 36 рисунков, список использованных источников из 126 наименований.
Заключение диссертация на тему "Исследование и разработка автоматизированных систем прогнозирования на основе методов теории нейронных сетей"
- результаты работы второго и третьего вариантов использования метода Коши для выхода из точек локального минимума идентичны при указанных соотношениях коэффициента скорости обучения, тогда как первый вариант гарантированно обеспечивает наихудшую точность аппроксимации;
- качество аппроксимации нелинейной составляющей при обучении с помощью методов наискорейшего спуска, сопряженных градиентов и ДФП идентично; наиболее быструю сходимость к точке локального минимума из трех рассматриваемых методов обеспечивает метод ДФП; наиболее стабильно работающий метод - метод наискорейшего спуска, он же и наиболее медленный; наименее стабильно работающий метод - метод сопряженных градиентов.
При использовании метода обратного распространения ошибки, усовершенствованного с помощью метода Коши, в подавляющем числе экспериментов целевая функция и время обучения увеличивались по сравнению с методами безусловной минимизации.
Поэтому для обучения потоков, реализующих нелинейные функции, рекомендуются методы наискорейшего спуска, сопряженных градиентов и ДФП, усовершенствованные с помощью метода Коши (2 или 3 варианты).
5. Проиллюстрировано решение задачи оптимизации распределения свободных средств инвестора для различных классов портфеля и потребностей инвестора. Показана состоятельность рыночных моделей, использующих прогнозируемую доходность элементов портфеля вместо вероятностных характеристик их доходности за предшествующие периоды в условиях развивающегося российского рынка.
В заключение перечислим основные результаты и выводы по данной работе:
1. Разработаны информационное, математическое, программное и методическое обеспечения программного комплекса, автоматизирующего процесс прогнозирования будущего состояния объекта на основе текущих данных, что позволило качественно улучшить работу автоматизированных систем прогнозирования.
2. Определена обобщенная методика построения автоматизированных систем прогнозирования, решающих задачу регрессионного анализа.
3. Разработан набор функций, предоставленный для формирования функции, аппроксимирующей зависимость прогнозируемой величины от аргументов прогноза. Их использование позволило создать наиболее эффективно работающие модели.
4. Разработан метод поточного обучения двухслойной, неоднородной, искусственной нейронной сети с произвольным числом нейронов в первом слое, позволивший упростить процесс обучения нейронных моделей этого класса. В работе введено понятие потока - это структура, являющаяся составной частью нейросети и пересекающаяся с другими подобными структурами только при формировании выходного сигнала сети.
5. Разработаны методы и алгоритмы обучения многослойных нейронных сетей, основанные на методе обратного распространения ошибки, методах безусловной минимизации, использующих производные функции, и методе обучения Коши. Данные методы сочетают в себе относительно быструю сходимость к точке минимума целевой функции, присущую методам обратного распространения ошибки и безусловной минимизации, использующим производные функции, и способность выходить из точек локальных минимумов, свойственную методу Коши, что позволило улучшить качество аппроксимации.
6. Предложены методы оценки значимости входных сигналов и параметров сети на основании функции оценки и по изменению выходных сигналов и метод проверки возможности с помощью заданной нейронной сети реализовать полученную функцию, в основе которого лежит анализ выборочной оценки константы Липшица снизу и оценки константы Липшица сверху по архитектуре сети.
7. Проведены экспериментальные исследования, наглядно демонстрирующие эффективность применения предложенных и разработанных моделей, методов и алгоритмов на примере задачи прогноза тенденций финансовых рынков, разработаны рекомендации. С момента внедрения системы в опытную эксплуатацию в ноябре 1998 года средняя погрешность краткосрочного прогноза цен для рынка облигаций составила 0.21%, для рынка акций - 0.88%, для валютного рынка -1.01%. Для сравнения, в аналогичных системах средняя погрешность краткосрочного прогноза равна 3-7%.
Библиография Яковлева, Галина Леонтьевна, диссертация по теме Автоматизация и управление технологическими процессами и производствами (по отраслям)
1. Аведьян Э.Д., Баркан Г.В., Левин И.К. Каскадные нейронные сети
2. Нейрокомпьютеры и их применение: Сборник докладов V Всероссийской конференции. М., 1999. - С. 358-360.
3. Андерсон Т. Статистический анализ временных рядов. М.: Мир, 1976. - 755 с.
4. Андреев Ю.В., Дмитриев А.С. Динамический хаос и нейронные сети в задачах классификации и распознавания // Нейрокомпьютеры и их применение: Сборни докладов V Всероссийской конференции. М., 1999. - С.438-441.
5. Анищенко B.C. Сложные колебания в простых системах. М.: Наука, 1990. - 345 с.
6. Батлер Б. Обзор новых возможностей SQL СУБД // PC Magazine. 1996. - № 5. ■ С. 158-172.
7. Берже П., Помо И., Видаль К. Порядок в хаосе. О детерминистском подходе к турбулентности. М.: Мир, 1991. - 368 с.
8. Бертолуччи Д. Представляем MS-DOS 6.2 // Мир ПК. 1994. - № 4. - С. 72-76.
9. Боровков А.А. Математическая статистика. М.: Наука, 1984, 219 с.
10. Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных. М.: Наука. Гл. Ред. Физ.-мат. лит., 1983. -467 с.
11. Бэстенс Д.-Э., Ван Ден Берг В.М., Вуд Д. Нейронные сети и финансовые рынки. М.: Научное издательство, 1997. 236 с.
12. Веденов А.А. Моделирование элементов мышления. М.: Наука, 1988. - 238 с.
13. Вентцель Е.С. Исследование операций. М.: Советское радио, 1972. - 552 с.
14. Галушкин А.И. Нейронные сети и проблема малой выборки
15. Нейрокомпьютеры и их применение: Сборник докладов V Всероссийской конференции. М., 1999. - С. 399-401.
16. Галушкин А.И., Фомин Ю.И. Нейронные сети как линейные последовательные машины. М.: Изд-во МАИ, 1991. - 254 с.
17. Гилев С.Е. Forth-propagation метод вычисления градиентов оценки
18. Нейроинформатика и ее приложения: Тез. докл. II Всероссийского рабочего семинара. Красноярск, 1994. - С. 36-37.
19. Гилев С.Е. Сравнение методов обучения нейронных сетей
20. Нейроинформатика и ее приложения: Тез. докл. Ill Всероссийского семинара. Красноярск, 1995. С. 80-81.
21. Определение значимости обучающих параметров для принятия нейронной сетью решения об ответе / С.Е. Гилев, А.Н. Горбань, Е.М. Миркес и др.
22. Нейроинформатика и нейрокомпьютеры: Тез. докл. рабочего семинара -Красноярск, 1993. С. 8.
23. Гилев С.Е., Миркес Е.М. Обучение нейронных сетей // Эволюционное моделирование и кинетика. Новосибирск: Наука. Сиб. отд-ние, 1992. - С. 9-23.
24. Нейропрограммы: Учебное пособие / Л.В. Гилева, С.Е. Гилев, А.Н. Горбань и др.; В 2 ч. Красноярск: Краснояр. гос. техн. ун-т, 1994. - 260 с.
25. Гилл Ф., Мюррей У., Райт М. Практическая оптимизация. М.: Мир,1985. - 509 с.
26. Горбань А.Н. Алгоритмы и программы быстрого обучения нейронных сетей // Эволюционное моделирование и кинетика. Новосибирск, 1992. - С. 36-39.
27. Горбань А.Н., Миркес. Е.М. Компоненты нейропрограмм // Нейроинформатика и ее приложения: Тез. докл. Ill Всероссийского семинара. Красноярск, 1995.1. С. 17.
28. Горбань А.Н., Миркес. Е.М. Функциональные компоненты нейрокомпьютера
29. Нейроинформатика и ее приложения: Материалы III Всероссийского семинара. -Красноярск, 1995. Ч. 1 - С. 79-90.
30. Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере. -Новосибирск: Наука. Сибирская издательская фирма РАН, 1996. 276 с.
31. Горбань А.Н., Россиев Д.А., Коченов Д.А. Применение самообучающихся нейросетевых программ. Красноярск: СПИ, 1994. - 169 с.
32. Грановская P.M., Березная И.Я. Интуиция и искусственный интеллект. -Л.: Изд-во ЛГУ, 1991.-272 с.
33. Демиденко Е.З. Линейная и нелинейная регрессия. М.: Финансы и статистика, 1981. - 302 с.
34. Денис Дж. Мл., Шнабель Р. Численные методы безусловной оптимизации и решения нелинейных уравнения. М.: Мир, 1988. -440 с.
35. Дудников Е.Е. Стабилизация непрерывных нейронных сетей Хопфилда
36. Нейрокомпьютеры и их применение: Сборник докладов V Всероссийской конференции. М., 1999. - С.372-374.
37. Дунин-Барковский В.Л. Информационные процессы в нейронных структурах. -М.: Наука, 1978. 317 с.
38. Ежов А.А., Шумский С.А. Нейрокомпьютинг и его применения в экономике и бизнесе. М.: МИФИ, 1998. - 224 с.
39. Ермаков С.М., Жиглявский А.А. Математическая теория оптимального эксперимента. М.: Высшая школа, 1995. - 302 с.
40. Жиглявский А.А. Математическая теория глобального случайного поиска. Л.: ЛГУ, 1985. - 124 с.
41. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания классификации. М.: Наука, 1978. - 227 с.
42. Загоруйко Н.Г., Елкина В.Н., Лбов Г.С. Алгоритм обнаружения эмпирических закономерностей. Новосибирск: Наука. Сиб. отд-ние, 1985. - 110 с.
43. Зангвилл У.И. Нелинейное программирование. М.: Советское радио, 1973. -312 с.
44. Ивахненко А.Г. Персептроны. Киев: Наукова Думка, 1974. - 179 с.
45. Касимов Ю.Ф. Основы теории оптимального портфеля ценных бумаг. -М.: Филинъ, 1998. 142 стр.
46. Кирсанов Э.Ю., Пиянин А.Г. NeuralMarket 1.1. инструментальный пакет моделирования прикладных нейронных сетей с переменной структурой
47. Нейрокомпьютеры и их применение: Сборник докладов V Всероссийской конференции. М„ 1999. - С. 380-381.
48. Кенделл М. Временные ряды. М.: Финансы и статистика, 1981. - 199 с.
49. Кендэлл М., СтьюартА. Статистические выводы и связи. М.: Наука, 1973. -900 с.
50. Клименко С.В., Слободюк Е.А., Самойленко В.Д. Искусственные нейронные сети в физике высоких энергий // Информационные технологии. 1998. - № 12. С. 17-24.
51. Коченов Д.А., Миркес Е.М. Определение чувствительности нейросети к изменению входных сигналов // Нейроинформатика и ее приложения: Тез. докл III Всероссийского семинара. Красноярск, 1995. - С. 61.
52. Коченов Д.А., Миркес Е.М., Россиев Д.А. Метод подстройки параметров примера для получения требуемого ответа нейросети // Нейроинформатика и ее приложения: Тез. докл. Всероссийского рабочего семинара Красноярск, 1994. - С. 39.
53. Левин А. Можно ли предвидеть будущее? // Компьютеры. 1999. - № 2. ■ С. 17-24.
54. Лесин Г., Лисовец В. Основы методов оптимизации. М.: Мир, 1994. - 324 с.
55. Лоули Д., Максвелл А. Факторный анализ как статистический метод. М.: Мир, 1967. - 144 с.
56. Мартин Дж. Организация баз данных в вычислительных системах. М.: Мир, 1980.-662 с.
57. Меладзе В.Э. Курс технического анализа. М.: Серебрянные нити, 1994. - 272 с.
58. Минский М., Пайперт С. Персептроны. М.: Мир, 1971. - 328 с.
59. Миронов П.Д. Новинки от Microsoft// Мир ПК. 1995. - № 12. - С. 25-34.
60. Мкртчян С.О. Проектирование логических устройств ЭВМ на нейронных элементах. М.: Энергия, 1977. - 244 с.
61. Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия. М.: Финансы и статистика, 1982. -239 с.
62. Мун Ф. Хаотические колебания. М.: Мир, 1990. - 312 с.
63. Нильсен Н. Обучающиеся машины. М.: Мир, 1967. - 187 с.
64. Норенков И.П., Маничев В.Б. Основы теории и проектирования САПР: Учеб. для ВУЗов по спец. "Вычислительные маш., компл., системы и сети". М.: Высшая школа, 1990.-335 с.
65. Охонин В.А. Вариационный принцип в теории адаптивных сетей. Красноярск, 1987. - 18 с. - (Препр. / ИФ СО АН СССР; №61 Б.)
66. Петере Е. Хаос и порядок на рынке капитала. М.: Наука, 1998. - 286 с.
67. Пискулов Д.Ю. Теория и практика валютного дилинга. М.: Инфра-М, 1996. -224 с.
68. Позин И.В. Моделирование нейронных структур. М.: Наука, 1970. - 247 с.
69. Птичкин В.А. Анализ нейронных сетей методом статистической линеаризации // Нейрокомпьютеры и их применение: Сборник докладов V Всероссийской конференции. М., 1999. - С. 408-410.
70. Пшеничный Б.Н. Необходимые условия экстремума. М.: Наука, 1982. - 185 с.
71. Пшеничный Б.Н., Данилин Ю.М. Численные методы в экстремальных задачах. -М.: Наука, 1975. -319 с.
72. Ревунков Г.И., Самохвалов Э.Н., Чистов В.В. Базы и банки данных и знаний. -М: Высшая школа, 1992. 367 с.
73. Розенблатт Ф. Принципы нейродинамики. Перцептрон и теория механизмов мозга. М.: Мир, 1965. - 480 с.
74. Сакович В.А. Исследование операций. Справочное пособие. Минск: Высшая школа, 1984.-256 с.
75. Сеченов В.Л., Монеев А.Т. Пять лучших операционных систем // Мир ПК. 1997. -№ 16. - С. 30-42.
76. Сиколенко В. Сервер Oracle: текущее состояние // СУБД. 1997. - № 1. - С. 4-23.
77. Соколов Е.Н., Вайткявичус Г.Г. Нейроинтеллект: от нейрона к нейрокомпьютеру. М.: Наука, 1989. - 238 с.
78. Степанов B.C. Фондовый рынок и нейросети II Мир ПК. 1998. - № 12. - С. 40-46.
79. Судариков В.А. Исследование адаптивных нейросетевых алгоритмов решения задач линейной алгебры // Нейрокомпьютер. 1992. - №3, 4. - С. 13-20.
80. Уинроу Б., Стирнз С. Адаптивная обработка сигналов. М.: Мир, 1989. - 440 с.
81. Уоссермен Ф. Нейрокомпьютерная техника. М.: Мир, 1992. - 226 с.
82. Успенский А.Б., Федоров В.В. Вычислительные аспекты метода наименьших квадратов при анализе и планировании регрессионных экспериментов. М.: МГУ, 1975.-216 с.
83. Фиакко Ф., Мак-Кормик Г. Нелинейное программирование. Методы последовательной безусловной минимизации. М.: Мир, 1972. - 240 с.
84. Фролов А.А., Муравьев И.П. Нейронные модели ассоциативной памяти. -М.: Наука, 1987. 160 с.
85. Фролов А.А., Муравьев И.П. Информационные характеристики нейронных сетей. М.: Наука, 1988. - 180 с.
86. Харман Г. Современный факторный анализ. М.: Статистика, 1972. -486 с.
87. Хедли Дж. Нелинейное и динамическое программирование. М.: Мир, 1967. -506 с.
88. Хинтон Дж.Е. Реальность и прогнозы искусственного интеллекта. М.: Мир, 1987.-265 с.
89. Химмельблау Д. Прикладное нелинейное программирование. М.: Мир, 1975. -534 с.
90. Холодниок М., Клич А., Кубичек А. Методы анализа нелинейных динамических моделей. М.: Мир, 1991. - 368 с.
91. Цыганков В.Д. Нейрокомпьютер и его применение. М.: Сол Систем, 1983. -344 с.
92. Цыпкин Я.3. Основы теории обучающихся систем. М.: Наука, 1970. - 252 с.
93. Шапиро Д.И, Зайцев В.Ю. Финансово-экономический блок в системах виртуальной реальности // Нейрокомпьютеры и их применение: Сборник докладов V Всероссийской конференции. М., 1999. - С.294-298.
94. Шарп У.Ф., Александер Г.Дж., Бэйли Дж.В. Инвестиции. М.: Инфра-М, 1997. - 280 с.
95. Штрик А. Языки программирования четвертого поколения. // Монитор. 1996. -№1-3.
96. Шуленин A. Microsoft SQL Server 6.5. Обзор основных возможностей // СУБД. -1997. № 1. - С. 30-51.
97. Шустер Г. Детерминированный хаос. Введение. М.: Мир, 1988. - 240 с.
98. Элдер А. Основы биржевой игры. Учебное пособие для участников торгов на мировых биржах М.: Светоч, 1995. - 277 с.
99. Яковлева Г.Л., Лисицкий Л.А. Автоматизированное определение стоимости недвижимости // Материалы межрегиональной научно-практической конференции. Саратов, 1999. - Ч. 2. - С. 146-150.
100. Яковлева Г.Л., Яковлев В.Л., Малиевский Д.А. Нейросетевая экспертная система управления портфелем банка // Нейрокомпьютеры и их применение: Сборник докладов V Всероссийской конференции. М., 1999. - С. 291-294.
101. Яковлева Г.Л., Яковлев В.Л., Лисицкий Л.А. Применение нейросетевых алгоритмов к анализу финансовых рынков // Информационные технологии. -1999,- № 8. С. 25-30.
102. Якушев Д.Ж. Нейронные сети для финансовых приложений.
103. Нейрокомпьютеры и их применение: Сборник докладов V Всероссийской конференции. М„ 1999. - С.288-290.
104. Alexander S.Th. Adaptive Signal Processing: Theory and Applications. New York: Springer Verlag, 1986. - 179 p.
105. Alexander L., Morton H. The logic of neural cognition //Adv. Neural Comput. -Amsterdam e.a., 1990. P. 97-102.
106. Amari Sh., Maginu K. Ststistical Neurodynamics of Associative Memory// Neural Networks. 1988. - Vol. 1, № 1. - P. 63-74.
107. Bartsev S.I., Okhonin V.A. Variation principle and algorithm of dual functioning examples and applications // Neurocomputers and attention II. Proc. Intern. Workshop. Manchester: Univ. Press, 1991. - P. 445-452.
108. Beltratti A., Margarita S., Terna P. Neural Networks for Economic and Financial Modeling. London: ITCP, 1995. - 378 p.
109. Bishop C.M. Neural Networks, a Comprehensive Foundation. New York: Macmillan, 1994 . - 249 p.
110. Bishop C.M. Neural Networks and Pattern Recognition. Oxford: Oxford Press, 1995. - 168 p.
111. Chorafas D.N. Chaos Theory in the Financial Markets. New York: Probus Publishing, 1994. - 254 p.
112. Colby R.W., Meyers T.A. The Encyclopedia of Technical Market Indicators. New York: IRWIN Professional Publishing, 1988. - 544 p.
113. Cichocki B.S., Undehauen R. Neural Networks for Optimization and Signal Processing. New York: John Wiley & Sons, 1994. - 190 p.
114. Deboeck G., Kohonen T. Visual Explorations in Finance with Self-Organizing Maps. -New York: Springer, 1998. 196 p.
115. Fausett L.V. Fundamentals of Neural Networks: Architectures, Algorithms and Applications. London: Prentice Hall, 1994. - 364 p.
116. Forbes A.B., Mansfield A.J. Neural implementation of a method for solving systems of linear algebraic equations // Nat. Phys. Div. Inf. and Comput. Rept. 1989. - № 155. -P. 1-14.
117. Fulcher J. Neural networks: promise for the future? // Future Generat. Comput. Syst. 1990-1991. - Vol. 6, №4. - P. 351-354.
118. Genis C.T. Relaxation and neural learning: point of convergence and divergence // J. Parallel and Distrib. Comput. 1989. - Vol. 6, № 2. - P. 217 - 244.
119. Grossberg S. Nonlinear Neural Networks: Principles, Mechanism and Architectures // Neural Networks. 1988. - Vol. 1, № 1. - P. 17-62.
120. Haykin S. Neural Networks. A Comprehensive Foundation. - New York: Macmillian College Publishing Company, 1994. - 696 p.
121. Hecht-Neilsen R. Neurocomputing. London: Addison-Wesley, 1990. - 268 p.
122. Hertz J., Krogh A., Palmer R.G. Introduction to the Theory of Neural Computation. -London: Addison-Wesley, 1991. -214 p.
123. Holden A. Chaos. Princeton (New Jersey): Princeton University Press, 1986. -278 p.
124. Keller J.M., Yanger R.R., Tahani H. Neural Netwok implementation of fuzzy logic // Fuzzy Sets and Syst. 1992. - Vol. 45, № 1. - P. 1-12.
125. Kohonen Т. Self-organization and Associative Memory. Ney York: Springer-Verlag, 1989.-266 p.
126. Muller В., Reinhardt J., Strikland M.T. Neural Networks. An Introduction. 2nd edition. Ney York: Springer, 1995. - 344 p.
127. Peters E.E. Fractal MarketAnalysis. Oxford: Wiley, 1994. - 210 p.
128. Pring M.G. Technical Analysis Explained. London: McGraw Hill, 1991. - 340 p.
129. PlummerT. Forecasting Financial Markets. Boston: Kogan Page, 1989. - 282 p.
130. Rummelhart D.E., Hinton G.E., Williams R.J. Learning representations by back-propagating errors // Nature. 1986. - Vol. 323. - P. 533-536.
131. Sandberg I.W. Approximation for Nonlinear Functionals // IEEE Trans. On Circuits and Systems. 1: Fundamental Theory and Applications. 1992. - Vol. 39, № 1.1. P. 65-67.
132. Trippi R., Turban E. Neural Networks in Finance and Investing. New York: Probus Publishing, 1993. - 244 p.
133. Wiedermann J. On the computation efficiency of symmetric neural networks // Theor. Comput. Sci. -1991. Vol.80, № 2. - P. 337-345.
134. Weigend A.S., Zimmermann H.E., Neuneier R. Clearning. In Neural Networks in Financial Engineering. New York: Word Scientific, 1996. - 368 p.
-
Похожие работы
- Нейронные сети для обработки временных рядов
- Применение искусственных нейронных сетей для решения задач управления динамическими объектами
- Алгоритмы определения необходимой и достаточной разрядности искусственных нейронных сетей в составе систем обработки информации
- Разработка интеллектуального инструментария прогнозирования развития систем на базе нейронных сетей
- Оптимизация проектирования аппаратных средств нейросети на основе имитационного моделирования нейроструктур
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность