автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Нейронные сети для обработки временных рядов

кандидата физико-математических наук
Якушев, Дмитрий Жанович
город
Москва
год
1998
специальность ВАК РФ
05.13.17
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Нейронные сети для обработки временных рядов»

Текст работы Якушев, Дмитрий Жанович, диссертация по теме Теоретические основы информатики

- / / - У

я

Научный центр нейрокомпьютеров

На правах рукописи

Якушев Дмитрий Жанович

Нейронные сети для обработки временных рядов

(05.13.17 - Теоретические основы информатики)

Диссертация на соискание ученой степени кандидата физико-математических наук

Научный руководитель -Доктор технических наук, профессор, Галушкин А.И.

Москва 1998г.

Список основных сокращений, используемых в работе.

ИН - искусственный нейрон

ИНС (НС) - искусственная нейронная сеть (нейронная сеть) БИС - большая интегральная схема

ПЛИС - программируемая логическая интегральная схема СР - система распознавания

Оглавление Нейронные сети для обработки временных рядов.

1. Введение. 7

2. Основные определения. 13

Глава I

Функция активации нейрона.

3. Функция активации нейрона искусственной нейронной сети. 16

3.1. Основные определения и виды. 16

3.2. Функция активации как основа выбора топологии нейронной сети. 16

3.3. Философское значение функции активации. 20

3.4. Аппаратная реализация функций активации на современной элементной базе. 22

3.4.1. Реализация линейной функции активации с

настраиваемым коэффициентом крутизны. 22

3.4.2. Реализация сигмоидной функции активации. 24

Глава II.

Обработка временных рядов на нейронных сетях постоянной структуры.

4. Нейронные сети для решения задач обработки временных рядов. 25

4.1. Аппроксимирующие свойства нейронных сетей. Основные теоремы. 25

4.2. Основные приложения нейронных сетей для обработки временных рядов. 28

4.2.1. Соответствие структур нейронных сетей и 2-фильтров для задач обработки сигналов. 29

4.2.2. Нейронные сети постоянной структуры для аппроксимации функций одной и нескольких вещественных переменных. 30

4.2.2.1. Постановка задачи. 30

4.2.2.2 Нейронная сеть постоянной структуры для аппроксимации функций. 31

5. Классификация топологий искусственных нейронных сетей и алгоритмов обучения для задач обработки временных рядов. 34

5.1. Классификация нейронных сетей по структуре их выходов, соответствующих решаемой задаче обработки временных рядов. Системный подход к построению нейронных сетей. 34

5.2. Классификация нейронных сетей по топологии. 35

5.2.1. Нейронная сеть фиксированной структуры 36

5.2.2. Нейронная сеть переменной (динамической) структуры. 41

5.2.3. Выбор функции активации. 42

5.2.4. Выбор локального алгоритма аппроксимации при построении сети. 44 5.3. Классификация алгоритмов обучения нейронных сетей в соответствии с выбором функционала. 45

5.3.1. Алгоритм обучения нейронной сети постоянной структуры

с помощью модифицированных градиентных методов. 45

5.3.2. Алгоритм обучения нейронной сети постоянной структуры по критерию минимума модуля ошибки. 47

6. Нейронные сети для решения задач экстраполяции. 48

6.1. Классификация методов экстраполяции. 48

6.2. Классификация нейросетевых методов экстраполяции. 50

6.2.1. Классификация нейронных сетей для решения задач

экстраполяции по типу входного и и выходного сигнала. 50 6.2.1.1 .Формирование обучающего множества на основе временного

ряда без учета временной координаты. 50

6.2.1.2. Формирование обучающего множества на основе ряда с учетом временной координаты. 53

6.2.1.3. Формирование обучающего множества с

введением времени упреждения. 55

6.2.2. Многоканальный вариант функции Б. 56

6.2.3. Классификация нейронных сетей для экстраполяции функций по выбору функционала оптимизации и процедуры обучения. 56

Глава III.

Нейронные сети переменной структуры для решения задач обработки временных

рядов.

7. Нейронные сети переменной структуры для решения задач распознавания

образов и аппроксимации функций. 58

7.1. Предпосылки использования нейронных сетей переменной структуры. 58 7.2.2. Алгоритм построения нейронной сети переменной структуры для распознавания образов. 61

8. Кусочно-линейная аппроксимация, реализуемая нейронными сетями переменной структуры по критерию модуля ошибки. 66

8.1. Взаимосвязь нейронных сетей переменной структуры для аппроксимации функций с нейронными сетями для распознавания образов. 67

8.2. Алгоритм построения нейронной сети переменной структуры для кусочно-линейной аппроксимации одномерных функций многих вещественных переменных. 71

8.2.1. Двухслойная нейронная сеть переменной структуры

для аппроксимации функции одной переменной. 71

8.2.2. Построение нейронной сети переменной структуры

для аппроксимации функции нескольких вещественных переменных. 74

9. Аппроксимация нелинейными элементами, реализуемая нейронными сетями переменной структуры по критерию min max. 84

9.1. Выбор функции активации для построения НС переменной

структуры для аппроксимации функции многих переменных. 84

9.2. Выбор функции активации и алгоритма обучения. 89

9.3. Построение нейронной сети переменной структуры для аппроксимации функции одной вещественной переменной по критерию MIN МАХ. 91

9.4. Построение нейронной сети переменной структуры для

аппроксимации функции многих вещественных переменных. 93

9.5. Интерпретация «черного ящика». 96

9.6. Реализация алгоритма генерации НС переменной структуры на различных вычислителях. 98

Глава IV.

Прикладные задачи обработки временных рядов.

10. Нейронные сети для финансовых приложений. 100

10.1. Основные финансовые приложения нейрокомпьютеров. 100

10.2. Нейронные сети для экстраполяции временных последовательностей. 106 10.2.1 .Предсказание одномерного ряда. 106

10.2.2.Прогнозирование многомерных рядов. 109

10.2.3. Эффективность применения нейросетевых прогнозов. 113

10.3. Место нейронных сетей в алгоритмическом арсенале прогнозных методик и их сравнение с существующими методами. 118

11. Нейронные сети для решения задач обработки радиолокационных сигналов. 124

11.1. Постановка задач обработки радиолокационной информации. 125

11.2. Чейросетевые алгоритмы обработки радиолокационной информации, решающие трудноформализуемые адаптивные задачи. 125

11.3. Нейронные сети для фильтрации помех. 128

11.3.1. Применение нейросетевой аппроксимации для построения нелинейного фильтра. 128

11.3.2. Реализация на ЭВМ алгоритма аппроксимации функции нескольких вещественных переменных для решения задач фильтрации. 131

11.4. Нейронные сети для моделирования движения летательного аппарата и экстраполяции траекторий. 135

11.4.1. Случай квазилинейного движения J1A. 135

11.4.2. Случай нелинейного многомерного движения. 137

12. Применение нейронных сетей для обработки медицинских временных рядов. 140

12.1. Постановка задачи предсказания значений измеряемых

параметров по имеющимся компонентам векторов. 141

12.2. Обучение нейронной сети. 142

13. Заключение. 145

Литература. 150

Нейронные сети для обработки временных рядов. 1. Введение.

В последние 10-15 лет в области вычислительной математики наиболее активно стали развиваться параллельные вычисления и вычислители. Предпосылками этого прорыва стало развитие элементной базы и удешевление вычислительных систем, потребовавших качественно новой организации обработки информации. Наиболее эффективной параллельной информационной технологией стали нейронные сети, которые, с одной стороны, представляют собой класс алгоритмов, параллельность которых максимальна и заложена в теоретической основе нейрокомпьютинга, с другой - вычислительные устройства, основанные на принципах параллельной аппаратной реализации большого числа дешевых однотипных устройств. Нейронные сети представляют собой набор коннекционистских методов, основанных на переводе всех операций в нейросетевой логический базис, представляющий собой свертку векторов с последующим нелинейным преобразованием. Если ранее основой математики был скаляр (в частном случае -вектор), основой алгоритма - последовательные действия, то для нейронных сетей основой стали соответственно вектор (в частном случае - скаляр) и параллельный поиск нескольких возможных решений. При том, что постановка проблемы применимости нейронных сетей была осуществлена начиная со второй половины XX века, за последние 20 лет был сделан значительный прорыв как в технологическом, так и в информационном обеспечении нейронных сетей. Был создан целый ряд новых направлений, находящихся на стыке численных методов, теории оптимизации, математической статистики и вычислительной геометрии - нейроинформатика, нейроматематика, нейрокомпьютинг - как наиболее общее определение прикладной части исследований. При этом происходило не только распараллеливание старых алгоритмов, что имело место в ряде случаев, но, в основном, разработка новых, основанных на принципиально иных принципах функционирования.

Предлагаемая работа посвящена применению нейронных сетей - точнее двух нейросетевых парадигм, к задачам обработки временных рядов - упорядоченным по времени наборов данных, называемых сигналами, а также упорядоченных по пространству, называемых образами. И те, и другие характеризуются наличием

некоторой истории в форме выборки, позволяющей на ее основании строить математическую модель объекта или явления, порождающего выборку. В этом выбранный подход в какой-то мере близок к методике построения систем дифференциальных уравнений. После построения таких моделей, происходит переход от дискретных к непрерывным величинам, позволяющим упорядоченно разделять точки в пространстве, образуя непрерывные области, которые определяют классификацию и других точек, принадлежащих порождающему источнику, но не вошедших в интервал наблюдения, или интерполировать или экстраполировать во времени на множестве объектов с историей. При этом делается попытка производить эти действия если не идеально, то более эффективно, чем они проводились ранее. В некоторых частных случаях предлагается применение нейронных сетей переменной структуры для решения задач обработки временных рядов.

Использование нейронных сетей переменной структуры, порождение элементов в которых, аналогично логической организации порождения динамических объектов в языках программирования высокого уровня, позволяет предложить на ограниченном множестве задач новый способ обучения нейронных сетей.

Особое внимание в работе уделяется не только обучению нейронных сетей, но и их аппаратной реализации, что связано, с одной стороны, с необходимостью комплексного проектирования прикладных нейросетевых систем - помнить об этом следовало бы всегда, а с другой - с необходимостью оптимизации нейросетевых структур, например, выбора функции активации, с точки зрения ограничений и особенностей, связанных с аппаратной реализацией, которая в идеале является высшей формой существования нейронной сети как форма ее жизни. Необходимо отметить, что в подавляющем большинстве работ последнего времени синтез нейронных сетей не оптимизируется по критерию аппаратной реализуемости и эффективности алгоритмов одновременно, как правило, эта взаимосвязь отсутствует. Основная часть работ по разработке алгоритмов нейронных сетей апеллирует к реализации на однопроцессорной машине, в свою очередь работы по аппаратной реализации нейронных сетей недостаточно освещают алгоритмическую эффективность и прикладные области. Поэтому постоянная многокритериальная оценка алгоритмов для обработки временных последовательностей (преимущественно для обработки сигналов), производимая в рамках данной работы, отражает новый подход к синтезу нейронных сетей в рамках системного подхода. Основа такого подхода заключается в оценке алгоритма с точки зрения алгоритмической

эффективности при одновременной оптимизации аппаратной реализации, поскольку особенностью данной работы является не только попытка полностью классифицировать набор специфических нейросетевых методов, например для решения задач экстраполяции, но и выбрать топологию нейронной сети, сочетающей эффективность алгоритма с основными принципами его аппаратной реализуемости на вычислителях с распределенной архитектурой.

Кроме того, в работе делаются попытки понять принципы функционирования нейронных сетей, хотя бы при попытке построить несложную нейронную сеть, функционирующую не в виде «черного ящика», потому что, если сеть построена и обучена оптимально с некоторой точки зрения, то она может служить схемой «черного ящика», имеющего аналогичные характеристики.

Логическое построение работы таково, что сначала анализируются структуры нейронных сетей прямого распространения и их готовность к решению задач, соответствующих этим структурам, а затем, в соответствие с системным подходом к построению нейронных сетей, анализируя задачу, строится нейронная сеть, адекватная множеству ее решений.

Методика имеет огромное поле приложений из области обработки сигналов (фильтрация, восстановление, экстраполяция), распознавания образов, алгоритмы могут применяться и в задачах, содержащих данные без истории, например, в алгоритмах управления. В качестве приложений метода в рамках данной работы приводятся описания решения радиолокационных задач, обработки финансовых временных рядов и медицинских выборок.

Новизна работы заключается также в том, что она содержит принципы построения нейронных сетей переменной структуры, которые недостаточно полно освещены до настоящего времени, хотя проблема насчитывает несколько десятилетий. Это связано, в первую очередь, с погоней за повышением производительности вычислительной техники, в результате чего, зачастую, алгоритмическая оптимизация отступает на второй план. С одной стороны эти алгоритмы представляют интерес в области численных методов, так как базируются на теореме Колмогорова, с другой - с точки зрения теории нейронных сетей в качестве неполносвязной неоднородной нейросетевой структуры с заданными свойствами.

Практическая ценность работы не только в том, что в ней приведено решение нескольких прикладных задач из разных областей, но по сходной методике, но и в

том, что она тесно связана с аппаратной реализацией нейронных сетей, прежде всего в форме интегральных схем. Работа включает материалы, полученные в результате проектирования СБИС «Нейрочип-2»; некоторые результаты, приведенные в диссертационной работе, будут реализованы на ПЛИС «ХШпх» в рамках непрерывного продолжения этой работы. В этом плане, работа актуальна и будет иметь применение в рамках продолжения работ по созданию программного и аппаратного обеспечения нейрокомпьютеров.

Методы исследования, примененные в работе, включают себя выбор структуры и обучение прямонаправленных нейронных сетей различной структуры: многослойный и обобщенный персептрон, неполносвязные и полносвязные переменной структуры, с функцией активации различных типов. Кроме того, особое внимание уделяется методам предобработки входных данных и представлению одних и тех же данных в различных постановках задач, исходящих из связи нейронных сетей для распознавания образов и аппроксимации функций. Целями диссертационной работы являются:

1) Исследование эффективности многослойного персептрона для задач обработки временных рядов на примере различных задач.

2) Разработка методики синтеза НС переменной структуры для решения задач распознавания и аппроксимации, многокритериальной оценки алгоритма с точки зрения его алгоритмических свойств и аппаратной реализуемости и разработка алгоритмов синтеза НС переменной структуры для решения задач аппроксимации.

В процессе выполнения работы были решены следующие задачи:

1) Выработка многокритериальной оценки синтезируемых алгоритмов с точки зрения оптимизации свойств алгоритма и аппаратной реализуемости одновременно;

2) Формулирование единого метода синтеза нейронных сетей для задач обработки сигналов (наиболее сложное алгоритмическое решение) и распознавания образов (наиболее устойчивая задача с точки зрения нейронных сетей) и методики для представления задач обработки сигналов как задач распознавания образов и наоборот;

3) Построение классификации нейросетевых методов решения задач экстраполяции и анализ прикладных задач с точки зрения этой классификации;

4) Формулировка принципов построения нейронных сетей переменной структуры и разработка алгоритмов синтеза таких сетей;

5) Попытка интерпретации работы нейронных сетей, ранее описываемых как «черный ящик»;

6) Применение нейронных сетей переменной структуры для решения задачи построения негауссовского нелинейного фильтра;

А также решение ряда прикладных задач с помощью нейросетевых методов там, где набор стандартных методов показал недостаточную эффективность:

7) Решение задачи прогнозирования поведения финансовых временных последовательностей с помощью нейронных сетей различной топологии;

8) Решение задачи прогнозирования медицинских показателей через постановку задачи распознавания образов.

Основные положения, выносимые на защиту:

1. Разработка алгоритмов синтеза НС переменн