автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка методов и пакета прикладных программ для формирования и обучения нейронных сетей, использующих однонаправленную и полносвязную архитектуру

кандидата технических наук
Эйгин, Юрий Александрович
город
Москва
год
2006
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка методов и пакета прикладных программ для формирования и обучения нейронных сетей, использующих однонаправленную и полносвязную архитектуру»

Автореферат диссертации по теме "Разработка методов и пакета прикладных программ для формирования и обучения нейронных сетей, использующих однонаправленную и полносвязную архитектуру"

На правах рукописи

ЭЙГИН ЮРИЙ АЛЕКСАНДРОВИЧ

РАЗРАБОТКА МЕТОДОВ И ПАКЕТА ПРИКЛАДНЫХ ПРОГРАММ

ДЛЯ ФОРМИРОВАНИЯ И ОБУЧЕНИЯ НЕЙРОННЫХ СЕТЕЙ, ИСПОЛЬЗУЮЩИХ ОДНОНАПРАВЛЕННУЮ И ПОЛНОСВЯЗНУЮ

АРХИТЕКТУРУ

Специальность 05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва-2006

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Московский государственный университет путей сообщения» (МИИТ) на кафедре «Математическое обеспечение автоматизированных систем управления»

Научный руководитель:

доктор технических наук, профессор Ляпунцова Елена Вячеславовна

Официальные оппоненты:

Ведущая организация:

доктор технических наук, профессор Барский Аркадий Бенционович, кандидат технических наук, старший научный сотрудник Шилов Валерий Владимирович Институт проблем управления им. В. А. Трапезникова Российской академии наук (ИПУ РАН)

Защита диссертации состоится цл/^х^г^ 200£ г. в часов на

заседании диссертационного совета Д218.005.04 в Московском государственном университете путей сообщения (МИИТ) по адресу: 127994, г. Москва, ул. Образцова, 15, ГСП-4, ауд. 4518.

С диссертацией можно ознакомиться в библиотеке МИИТа.

Отзывы на автореферат в двух экземплярах, заверенных печатью, просим направлять по адресу Совета университета.

Автореферат разослан 200/г.

Ученый секретарь

диссертационного совета Д218.005.04 кандидат технических наук, доцент I Н.А. Казанский

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность исследования. В последние годы, нейронные сети находят свое применение все в новых и новых областях человеческой деятельности. Сфера использования технологии нейронных сетей очень многогранна -оценка рисков, контроль технологических процессов, управление роботами, диспетчерское управление, диагностика и многое другое. Везде, где применяются нейронные сети (НС), они показывают свою высокую эффективность.

Не смотря на то, что поиски и изучение неявных алгоритмов, позволяющих автоматически накапливать и затем использовать опыт при обучении, продолжаются уже более 100 лет, до сих пор многие вопросы, касающиеся в том числе и НС, остаются не решенными.

Две наиболее острые проблемы, встающие перед каждым, кто сегодня решит использовать НС для решения практических задач, это проблема выбора структуры и размеров НС, а также необходимость проведения длительного процесса обучения выбранной НС.

Неопределенность выбора структуры и конфигурации НС, отсутствие четких методик, вынуждает проводить большое число практических экспериментов, по подбору оптимальной НС. Принимая во внимание то, что процесс обучения больших НС (содержащих тысячи нейронов) может потребовать десятки часов только для машинных вычислений, весь процесс выбора оптимальной НС может отнять весьма значительное время, исчисляющееся месяцами.

Цель и задачи исследования. Целью диссертационного исследования является разработка методов и пакета прикладных программ для формирования и обучения однонаправленных и полносвязных НС.

В диссертационной работе реализуется следующая последовательность решения задач:

1. Анализ существующих НС и методов их обучения. Сравнение вычислительной сложности и применимости существующих моделей НС в задачах различной природы.

2. Анализ существующих методов формирования НС. Разработка методов решения задачи выбора конфигурации НС.

3. Оценка эффективности существующих алгоритмов обучения и разработка методов ускорения процесса обучения.

4. Разработка программного обеспечения, реализующего моделирование однонаправленных и полносвязных НС с широкими возможностями управления и протоколированием процесса обучения.

5. Сбор и анализ статистики, полученной в процессе моделирования НС. Исходная основа диссертации. Реферируемая диссертация основывается

на следующих результатах:

- теоретических и прикладных исследованиях биологических нейронных сетей Т. Визеля, Д. Хьюбела, Д. Хэбба.

- теоретических и прикладных исследований персептронных моделей нейронных сетей У. Маккаллока, У. Питтса, Ф. Розенблатта, Ф. Уоссермена.

- теоретических и прикладных исследованиях в области нейроинформатики С. Амари, Дж. Андерсона, А. Б. Барского, А. А. Веденова, Б. Видроу, А. И. Галушкина, А. Н. Горбаня, С. Гроссберга, В. Л. Дунина-Барковского, Т. Кохонена, Б. Хоффа, Дж. Хопфилда, Д. Уилшоу, А. А. Фролова.

Методологической основой исследования явилось использование методов системного анализа, дискриминантного анализа, теории НС, градиентных и эвристических методов обучения НС, методов технического анализа на финансовых рынках, методов аппроксимации и сглаживания, методов объектно-ориентированного программирования.

Объектом исследования выступает однонаправленная и полносвязная НС.

Предметом исследования является математическое, алгоритмическое и программное обеспечение процесса формирования, обучения и применения НС в задачах классификации и прогнозирования.

Достоверность основных научных положений, выводов и рекомендаций, сформулированных в диссертации, подтверждается проведенными вычислительными экспериментами. Объем проведенных вычислений составил около 5500 часов машинного времени, в вычислениях было задействовано 5 персональных компьютеров (ПК). Были сформированы, обучены и протестированы 7000 моделей однонаправленных и полносвязных НС. Проанализирована их работа. На разработанный программный комплекс было получено свидетельство о государственной регистрации программы ЭВМ. Часть исходного кода включена в приложение.

Научная новизна.

1. Разработан метод формирования весовых коэффициентов для НС с линейной активационной функцией.

2. Дано теоретическое обоснование достаточности двухслойной НС для решения практических задач. Достаточность двухслойной НС так же была подтверждена экспериментальными данными.

3. Разработан метод определения максимального необходимого размера первого скрытого слоя для двухслойной НС. Разработанный метод доказан теоретически и подтвержден с помощью экспериментальных данных.

4. Разработана методика обучения НС, позволяющая сократить время ее обучения, перейти от минимизации целевой функции в виде суммы квадратов ошибок обучения к минимизации максимальной ошибки.

5. Предложен метод оптимизации процесса обучения НС с несколькими выходными нейронами.

Практическая ценность. Разработано программное обеспечение, которое позволяет проводить формирование, обучение и тестирование эффективности работы однонаправленных и полносвязных НС.

Разработанное программное обеспечение впервые позволяет выполнять автоматический подбор оптимальных параметров конфигурации и обучения однонаправленных и полносвязных НС в задачах распознавания и прогнозирования, исключая необходимость ручного управления данным процессом.

Разработана методика обучения НС с линейной активационной функцией.

Разработана методика оптимизации процесса обучения НС.

Реализация результатов работы. Результаты диссертационной работы нашли применение в страховой компании «Макс» при построении экспертной системы учета заявленных убытков по договорам страхования.

Результаты исследований, проведенных в ходе работы над диссертацией, используются в учебном процессе на кафедре «Математическое обеспечение автоматизированных систем управления» (МО АСУ) МИИТа, в частности в лекционном курсе по дисциплине «Нейронные сети».

Результаты внедрения подтверждены соответствующими актами.

Апробация работы. Материалы диссертации обсуждались на заседаниях кафедры МО АСУ МИИТа (в 2005-2006 гг.), научных межкафедральных семинарах (2006), IV международной научной конференции студентов и аспирантов «Тгапз-МесЬ-АЛ-СИеш», Москва, 2006 г., в лаборатории «Распределенные информационно-аналитические и управляющие системы» Института Проблем Управления РАН (2006), в лаборатории «Информатизация и информационная безопасность» Института Системного Анализа РАН (2006).

Публикации. По материалам диссертации опубликовано семь научных работ. Список приведен в конце автореферата.

Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы (107 наименований), 3 приложений, содержит 159 страниц основного текста, 46 рисунков и 1 таблицу.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность, определены цель и объект исследования, формулируется научная новизна и практическая ценность работы.

В первой главе проанализированы существующие подходы к моделированию НС. Рассмотрены логический, имитационный, структурный и эволюционный подходы. Для исследования выбран наиболее перспективный - структурный подход.

Все НС, рассматриваемые в соответствии со структурным подходом, обладают рядом общих характеристик:

• правило распространения сигналов в НС;

• правило вычисления сигнала активности;

• правило обучения НС, корректирующее связи;

• структура связей;

• размер НС;

• емкость НС.

Все эти характеристики оказывают влияние на важные параметры НС, а именно: возможность обучения НС определенному числу образов, скорость обучения и потенциал дальнейшего переучивания НС. Несмотря на то что методы определения отдельных характеристик НС уже формализованы, еще нет общей, строго определенной процедуры выбора структуры и конфигурации однонаправленных и полносвязных НС. То есть не существует обобщенной методики подбора структуры и конфигурации однонаправленных и полносвязных НС.

Чем больше количество нейронов и слоев, тем шире возможности НС, тем более нелинейной может быть зависимость вход-выход, но, с другой стороны, тем медленнее обучается и работает сама НС. Очень важно найти оптимальное соотношение количества нейронов, конфигурации и временных параметров обучения. Количество нейронов и слоев в НС связано с:

• сложностью задачи;

• количеством данных для обучения;

• требуемым количеством входов и выходов НС;

• имеющимися ресурсами: памятью и быстродействием машины, на которой моделируется НС.

Были попытки записать эмпирические формулы для числа слоев и нейронов, но применимость формул оказалась очень ограниченной.

Обычно задачу обучения НС рассматривают как требование минимизировать априори определенную целевую функцию Е(м>). И при таком подходе можно применять для обучения алгоритмы, которые в теории оптимизации считаются наиболее эффективными. К ним относятся градиентные методы, чью основу составляет выявление градиента целевой функции. Градиентные методы связаны с разложением целевой функции Е(и>) в ряд Тейлора в ближайшей окрестности точки имеющегося решения м?, где IV - вектор весовых коэффициентов.

Основными алгоритмами в этом случае являются:

• алгоритм наискорейшего спуска;

• алгоритм переменной метрики;

• алгоритм Левенберга-Марквардта;

• алгоритм сопряженных градиентов.

Помимо алгоритмов обучения, реализующих апробированные методы оптимизации нелинейной целевой функции, создано огромное количество алгоритмов эвристического типа, представляющих собой в основном

модификацию методов наискорейшего спуска или сопряженных градиентов. К самым известным эвристическим алгоритмам относится (^шскргор С. Фальмана, а также ЯРЯОР М. Ридмиллера и X. Брауна.

Но наиболее популярным, и чаще всего применяемым на практике, является алгоритм обучения по методу обратного распространения ошибки. Алгоритм обратного распространения ошибки определяет стратегию подбора весовых коэффициентов многослойной НС с использованием градиентных методов оптимизации, при этом для его реализации нет необходимости выполнения чрезмерно большого числа машинных команд на одну итерацию обучения, что позволяет быстро и эффективно обучать большие (состоящие из тысяч нейронов) и малые (состоящие из десятков и сотен нейронов) НС. С учетом проделанного в первой главе анализа существующих подходов к моделированию НС, можно сделать вывод, что в настоящее время алгоритм обратного распространения ошибки является одним из наиболее эффективных алгоритмов обучения многослойной НС.

Вторая глава посвящена разработке методов, предложенных для использования при формировании и обучении однонаправленных и полносвязных НС с линейными и нелинейными активационными функциями.

Смысл активационной функции для НС очень важен. От правильного выбора активационной функции зависят возможности всей НС. Выбор в качестве активационной линейной функции обусловлен возможностью ускорить обучение и однозначно определить конфигурацию НС. В этом заключается существенное преимущество линейных активационных функций перед нелинейными. Вместе с тем линейность активационной функции накладывает определенные ограничения на класс решаемых задач.

Если говорить о вычислении выходного значения двухслойной НС с линейной активационной функцией, то оно заключается в умножении входного вектора на первую весовую матрицу с последующим умножением результирующего вектора на вторую весовую матрицу.

OUT = (XW X)W г , (1)

где X - вектор входных значений, Щ - весовая матрица для первого слоя нейронов, цг - весовая матрица для второго слоя нейронов, OUT - выходное значение НС.

Так как умножение матриц ассоциативно, то

OUT=X(W,W2) (2)

Это означает, что двухслойная НС с линейной активационной функцией эквивалентна одному слою нейронов с весовой матрицей, равной произведению двух весовых матриц.

Таким образом, многослойные НС могут привести к увеличению вычислительной мощности по сравнению с однослойной НС лишь в том случае, если активационная функция между слоями будет нелинейной.

Для того чтобы получить искомые весовые коэффициенты wn в

однослойной НС с линейной активационной функцией, можно воспользоваться методом наименьших квадратов. Тогда в общем случае необходимо решить систему уравнений (3) относительно вектора весовых коэффициентов нейрона W.

Q

Мх 'Ж+...+Л/, '\v„+...+Mr •wN+MI(wa+—) = Mxv

*|,| 1 xn.\ п *N.l " U

с (3)

Л/_ •w,+...+Mx -w„+...+Mr -wN+Mz (w0+—) = Mr v

xl,N ^ xn.N n XN,N " XN v 0 у' ххУ

С

Л/, 'W, + ...+А/, • w„ +...+Л/ •■wv+w„H— = Mv

xl l X1 n xN л и у

Коэффициенты М системы (3) - числа, которые в каждой задаче обучения нейрона могут быть вычислены по формулам:

Z / £ ,

11 (4)

где х, 7, у1 - значения из учебного образа /. Каждый учебный образ / состоит из вектора входных х1} и соответствующего ему вектора выходных у, (ожидаемых) значений.

Метод наименьших квадратов позволяет упростить механизм обучения НС. Становится возможным сразу сформировать весовые коэффициенты нейрона и начать использование НС. Если в процессе работы появятся дополнительные данные, можно достаточно быстро изменить весовые коэффициенты с помощью метода наименьших квадратов, повысив эффективность работы нейрона.

Можно ожидать, что значения, получаемые от нейрона, моделирующего искомую функцию ¥ в точках х( (г = ), будут отличаться от

обучающих значений у(. И если значения, получаемые от обученного

нейрона, недопустимо сильно отклоняются от ожидаемых, то можно прийти к выводу о том, что использование НС с линейной активационной функцией в данной задаче невозможно. В этом случае необходимо обратиться к НС с нелинейной активационной функцией.

В ходе анализа отдельных нейронов с линейными и нелинейными активационными функциями, исходя из функциональной роли нейронов в структуре НС, был сделан вывод о том, что лишь первый скрытый слой нейронов производит фактическое моделирование искомой функции ^Р . При

этом все последующие слои НС лишь распределяют и оценивают результат, полученный на нейронах первого скрытого слоя, нормируя его. В связи с этим было выдвинуто предположение о том, что всегда можно найти двухслойную НС, столь же эффективную для моделирования любой заданной функции, как и многослойная (имеющая более двух слоев) НС. Данное предположение нашло свое подтверждение в экспериментальных исследованиях, результаты которых приводятся в четвертой главе диссертационного исследования.

На основании сделанного вывода была предложена формула для определения необходимого числа нейронов в первом скрытом слое двухслойной НС:

" 2-й

А =

(5)

у

где | | - обозначено округление до большего целого, Ьх - размер первого скрытого слоя нейронов НС, Ь2 - размер второго слоя нейронов НС, N -число входов НС, Ь2 - число выходов НС; / = 1,2,...^, а Z - общее число учебных образов.

Доказательство утверждения (5) приведено на страницах диссертационной работы.

Кроме вопроса выбора размеров НС, во второй главе был рассмотрен еще один важный вопрос, а именно вопрос обучения НС в задачах прогнозирования и распознавания. В ходе проведения вычислительного эксперимента было отмечено, что при использовании алгоритма обратного распространения ошибки для НС с сигмоидальной активационной функцией

Я"*') = (6)

»

где

ие/ = М'о + +...+ (7)

Для рассматриваемой НС значение ошибки на последнем слое, вычисляется по формуле:

= - °к,1)(Уо.) ~ °к> (8)

где оК}- значение, полученное от нейрона у последнего (К -го) слоя, у0 у -

ожидаемое значение, §г , - значение ошибки нейрона.

Вне зависимости от ожидаемого (^ -го) значения, ошибка 5К ]

стремится к 0 в трех случаях (рис. 1), когда:

• значение ок}, полученное от НС, близко к ожидаемому;

• значение ок ], полученное от НС, близко к 0;

• значение ок}, полученное от НС, близко к 1.

- Значение исходной ошибки

............... Значение модифицированной ошибки

Рис. 1. Зависимость величины ошибки от выходного значения нейрона при ожидаемом значении =0,5

В работе предлагается модифицировать алгоритм обратного распространения ошибки с целью ускорения процесса обучения. Для этого необходимо изменить функцию расчета ошибки (8) для последнего слоя

нейронов, приняв значения ошибки 8К ¿ в граничных точках равными

значению максимальной ошибки (рис. 1). В этом случае значение ошибки

8К; будет стремиться к 0 только при условии, что полученное на выходе

нейрона значение ок} будет близко к ожидаемому и процесс обучения, при

попадании полученного от нейрона значения в окрестности 0 или 1, не будет замедляться.

Точки локальных экстремумов функции (8) на диапазоне [ОД] найдем как значения первой производной по функции (8):

1 1 1 Г-2

(9)

, - 1 1

- /.2 - з + ^У, + ^ф-У,+У12 ' (10)

где у( - ожидаемое значение от / -го нейрона последнего слоя. Сама формула (8) изменится и примет вид:

) при о, < о\л ; oi (1 - о, )(у, - о,) при о\ 2 < о1 < о\ х; (11)

о\,г 0 - о\,г )(У, ~ о\,2) пРи о, > о\ г;

где о п, о ¡2 - точки локальных экстремумов для ожидаемого значения у1

на диапазоне [ОД].

Практический эффект применения модифицированного, в соответствии с формулой (11), алгоритма обучения подтверждается проведенными вычислительными экспериментами. Результаты вычислительных

экспериментов показали, что в случае подобной модификации время, затрачиваемое на обучение НС, сокращается на 20%, поскольку вычислительная сложность алгоритма повышается всего на 17 машинных операций для каждого выходного нейрона, а число эпох (итераций), необходимых для обучения, сокращается на 27,5%.

Кроме того, при анализе значений ошибок нейронов последнего слоя было выявлено, что, при использовании нескольких нейронов в выходном слое, может складываться ситуация, когда значения ошибок «мешают» друг другу, имея противоположные знаки или проходя по связям с противоположным влиянием.

Экспериментальное моделирование показало, что ситуация с пересечением направлений ошибки, или, иначе говоря, получение противоположных значений ошибки от двух нейронов последнего слоя, случается в 20% случаев. Это ведет к общему уменьшению изменений весовых коэффициентов в среднем на 15%, и, как следствие, процесс обучения растягивается во времени, и требуется до 10% дополнительного времени на обучение.

Для того чтобы избежать подобной ситуации, ускорив процесс обучения можно рекомендовать в практических задачах использовать не одну НС с несколькими выходами, а несколько НС, меньшего размера, с одним выходным нейроном. При этом, уже после обучения, возможно провести объединение этих НС, соединив их между собой связями с нулевыми значениями весовых коэффициентов. Конфигурация и структура подобного разделения представлены на рис. 2.

Данный подход позволяет распараллелить процесс обучения НС на нескольких ЭВМ, исключив постоянный обмен данными между ними. Что, в свою очередь, позволяет избежать необходимости частой передачи больших объемов информации и, как следствие, повысить общую скорость обучения, одновременно снизив требования к системам связи между ЭВМ.

Рис. 2. НС обучающаяся на двух ЭВМ одновременно Третья глава посвящена разработанному программному комплексу, который был использован для формирования, обучения и тестирования НС в двух актуальных задачах: задачах прогнозирования и распознавания.

Структура объектов программы представлена на рис. 3. Каждый блок программы представляет собой конечный класс, модификация которого может быть произведена отдельно от всей остальной программы и не повлияет на общую работоспособность. Это стало возможно благодаря применению интерфейсных функций в каждом из классов. Взаимодействие между интерфейсными функциями позволяет производить передачу данных внутри программы, независимо от модификаций отдельных классов. На разработанный программный комплекс было получено свидетельство о государственной регистрации программы ЭВМ.

Источник данных по валютным котировкам

Источник звуковых сигналов

Источник изображений

Чтение данных

т/

Чтение данных

■Ч

Чтение данных

Ч

"V

ТБеяиепсе -

считывание и предварительная обработка данных по котиоовкам

Т\¥ау8еяиепсе -

считывание и предварительная

обработка звуковых Аайлов

TImageSequence -

считывание и предварительная обработка графических изображений

Источник тестовых данных

Чтение данных

V

ТАи^ТеасЬег-

контроль обучения и сбор статистики по обучению нейоонной сети

нейронная сеть

'Тестовый сигнал

ТКеа1Те81 -

тестирование нейронной сети на различных этапах обучения

ТМатв^у -

управление

процессом

обучения

нейоонной сети

Рис. 3. Структура объектов программы

В качестве тестовых машин для проведения вычислений использовались:

• Intel Pentium 4, с тактовой частотой 2800 МГц, 768 Мб оперативной памяти, операционная система Windows ХР, общее время использования в вычислениях 1000 часов. Сформировано, обучено и протестировано около 800 НС;

• AMD Athlon 2500+ ХР, 1024 Мб оперативной памяти, операционная система Windows ХР, общее время использования в вычислениях 4000 часов. Сформировано, обучено и протестировано около 5000 НС;

• AMD Athlon М 1900+ ХР, 256 Мб оперативной памяти, операционная система Windows ХР, общее время использования в вычислениях 300 часов. Сформировано, обучено и протестировано около 200 НС.

• AMD Athlon 64 4200+ Х2, 2048 Мб оперативной памяти, операционная система Windows ХР, общее время использования в вычислениях 300 часов. Сформировано, обучено и протестировано около 1000 НС.

Четвертая глава посвящена проведенному вычислительному эксперименту

и анализу полученных результатов.

Таким образом, в качестве исходных (обучающих и тестовых) данных

использовались следующие множества значений:

• ряд значений, представляющих собой историю финансовых котировок валютного рынка FOREX за последние 3 года. С тиковыми периодами: 3, 6 и 12 часов. Выбор этого источника данных обусловлен наличием различных методов технического анализа для этого финансового рынка;

• образы цифр и букв в виде графических файлов. Всего 25 образов по 25 различных написаний каждого из них. Для формирования этих образов использовался набор различных шрифтов;

• различные звуковые сигналы. Использовалось 10 сигналов по 10 вариантов звучания каждого из них, кроме того, использовалось искусственное искажение отдельных сигналов, сделанное с помощью программы Sound Forge 7.

Для проведения сравнительного тестирования, на одних и тех же исходных данных обучались НС различных размеров и конфигураций. Число слоев в НС варьировалось от 1 до 3, а число нейронов от 20 до 2400. В процессе обучения проводилось тестирование НС путем подачи дополнительных (тестовых) образов, не входящих в учебное множество, но полученных из того же источника данных, что и учебные образы, в объеме 10% от числа учебных образов. Общее число сформированных, обученных и протестированных НС для задач прогнозирования составило около 5000 НС, для задач распознавания около 2000 НС.

Анализ данных, полученных в ходе тестирования (формирования, обучения и применения) НС обучающихся по модифицированному и немодифицированному алгоритму обратного распространения ошибки позволил установить, что: двухслойная НС может использоваться столь же эффективно, как и многослойная НС, в задачах распознавания и прогнозирования. Что было подтверждено проведенным экспериментальным моделированием. Использование двухслойной НС в задачах прогнозирования и распознавания позволяет экономить до 20% общего времени обучения на переборе различных конфигураций многослойных (имеющих более двух слоев) НС.

Вычислительный эксперимент показал, что оптимальный размер первого скрытого слоя двухслойной НС, оптимальной для решения поставленной задачи, находится на диапазоне, максимальные значения которого ограниченны значениями, вычисляемыми по формуле (5).

Экспериментально подтверждено, что НС с несколькими выходами можно заменить на несколько НС, каждая из которых будет иметь один выходной нейрон. Эффективность подобного разделения, с точки зрения необходимого времени обучения, проявляется при использовании нескольких ЭВМ для обучения НС. Вместе с тем в результате подобного разделения происходят важные качественные изменения. В задачах прогнозирования на 12,5%

-Обучение без модификации

................Обучение со скорректированной ошибкой

-----Обучение с разделением НС

• Обучение со скорректированной ошибкой и разделением НС

931 1241 1551 1861 2171 2481 2791 3101 3411 3721 4031 4341 4651 4961 5271 5581 5891 6201 6511 6821

Число эпох

Рис. 4. Зависимость верно вычисленных тестовых образов от числа эпох обучения для НС в задаче прогнозирования

5 1250

Ь ■

В.

1е и ва ва о х о а. >х

V X

е

-Обучение без модификации

, Обучение со скорректированной ошибкой 11 Обучение с разделением НС ' -----Обучение со скорректированной ошибкой и разделением НС

Л\ \ ч

ч'О^

600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800

Число эпох обучения

Рис. 5. Зависимость числа эпох, необходимого для обучения НС от числа нейронов в скрытом слое для задачи прогнозирования

повышается точность прогноза (рис. 4) (для задач прогнозирования на финансовом рынке FOREX).

Экспериментально установлено, что, используя модифицированный, в соответствии с формулой (11), алгоритм обучения по методу обратного распространения ошибки для НС с сигмоидальной активационной функцией, можно сократить время, необходимое на обучение НС на 20% (рис. 5), а также повысить эффективность работы НС, для задач прогнозирования на 4%, а для задач распознавания на 7,5% (рис. 4). Зависимость числа эпох, необходимого для обучения НС, от числа нейронов в НС представлена на рис. 5.

Анализ проведенных экспериментов подтвердил высокую эффективность и работоспособность разработанного программного комплекса, систем управления и протоколирования процесса обучения НС.

Разработанные методы обучения и формирования НС, а также реализованный программный комплекс позволяют решать задачи:

• диспетчерского управления;

• диагностики технических устройств;

• внедрения в учебный процесс;

• бизнес анализа;

• анализа страховых рисков.

ЗАКЛЮЧЕНИЕ

Проведенные в работе исследования позволили получить следующие результаты.

1. Разработан метод формирования весовых коэффициентов для нейронной сети с линейной активационной функцией, исключающий длительный процесс обучения.

2. Дано теоретическое обоснование достаточности двухслойной нейронной сети для решения практических задач. Достаточность двухслойной НС также была подтверждена в ходе проведения вычислительных экспериментов для задач прогнозирования и распознавания.

3. Разработана методика выбора максимального необходимого размера первого скрытого слоя для двухслойной НС с нелинейными активационными функциями. Разработанная методика была подтверждена в ходе проведенных вычислительных экспериментов для задач прогнозирования и распознавания.

4. Разработана методика оптимизации алгоритма обратного распространения ошибки для обучения НС с сигмоидальной активационной функцией, позволившая сократить время обучения на 20% и повысить качество прогнозирования на 4%, а качество распознавания на 7,5%.

5. Разработана методика по разделению НС для обучения на нескольких ЭВМ параллельно. Данная методика позволила сократить время, необходимое обучение НС на 30% и повысить эффективность работы НС в задачах прогнозирования на 7,5%, а в задачах распознавания на 1%.

6. Разработан программный комплекс позволяющий: о формировать и обучать многослойные НС;

о тестировать эффективность обучения НС; о управлять процессом обучения НС;

о перебирать и тестировать НС в задачах распознавания и прогнозирования;

о подбирать оптимальные параметры НС под конкретную задачу в автоматическом режиме.

Основные положения диссертации опубликованы в работах:

1. Эйгин Ю. А. Исследование модели обучения нейронной сети используемой при речевом вводе информации. // IV Международная научная конференция студентов и аспирантов. «Trans-Mech-Art-Chem». - М.:МИИТ, 2006. С. 200 -201.

2. Эйгин Ю. А. Моделирование и обучение однонаправленных и полносвязных нейронных сетей, с возможностью изменения параметров обучения, и механизмом оценки качества обучения. //Свидетельство об официальной регистрации программы ЭВМ №2006612510 от 14.07.2006

3. Эйгин Ю. А. Обзор некоторых моделей нейронов, лежащих в основе искусственных нейронных сетей // Естественные и технические науки №4

- М.:Компания Спутник +, 2006. С. 212 - 217.

4. Эйгин Ю. А. Особенности основных подходов к моделированию нейронных сетей. // Актуальные проблемы современной науки №5. -М.:Компания Спутник +, 2006. С. 134 - 136.

5. Горелик В. Ю., Краишкин А. В., Эйгин Ю. А. Методика оптимизации обучения искусственной нейронной сети в задачах классификации. Фед. аген. ж.-д. трансп. Рос. гос. откр. техн. ун-т путей сообщения. М., 2006., 8 с. Библиограф. 3 назв., 4 ил. (Рукопись депонирована в ВИНИТИ 27.07.2006 № 1016-В2006).

6. Ляпунцова Е. В., Эйгин Ю. А. Проектирование нейронных сетей: обзор существующих подходов. // Промышленная политика в РФ №11.

- М.¡Институт экономики и управления промышленностью, 2006. С. 75-79.

7. Ляпунцова Е. В., Эйгин Ю. А. Методика формирования однонаправленных нейронных сетей // Промышленная политика в РФ №11. - М.:Институт экономики и управления промышленностью, 2006. С. 72-74.

ЭЙГИН ЮРИЙ АЛЕКСАНДРОВИЧ

РАЗРАБОТКА МЕТОДОВ И ПАКЕТА ПРИКЛАДНЫХ ПРОГРАММ

ДЛЯ ФОРМИРОВАНИЯ И ОБУЧЕНИЯ НЕЙРОННЫХ СЕТЕЙ, ИСПОЛЬЗУЮЩИХ ОДНОНАПРАВЛЕННУЮ И ПОЛНОСВЯЗНУЮ

АРХИТЕКТУРУ

Специальность 05.13.17-Теоретические основы информатики

Подписано к печати Н* объем 1.5 пл.

Печать офсетная Формат 60x84/16

Тираж 80 экз. Заказ №

Типография МИИТа, 127994, Москва, ул. Образцова, 15

Оглавление автор диссертации — кандидата технических наук Эйгин, Юрий Александрович

Введение.

Глава 1. Исследование существующих моделей НС.

1.1. Обзор основных подходов к моделированию НС.

1.2. Исследование основных параметров НС.

1.3. Однонаправленные многослойные НС.

1.4. Исследование градиентных алгоритмов обучения однонаправленных и полносвязных НС.

1.5. Анализ коэффициентов обучения.

1.6. Исследование эвристических методов обучения НС.

1.7. Сравнение эффективности алгоритмов обучения.

1.8. Выводы.

Глава 2. Многослойная однонаправленная НС.

2.1. Основные типы задач, решаемые многослойными однонаправленными НС.

2.2. Многослойная однонаправленная НС с линейной активационной функцией.

2.3. Многослойная однонаправленная НС с нелинейными активационными функциями.

2.4. Алгоритм обучения НС по методу обратного распространения ошибки и возможность его оптимизации.

2.5. Выводы.

Глава 3. Разработка программного комплекса для тестирования эффективности методов формирования и обучения однонаправленных НС.

3.1. Описание структуры программного комплекса.

3.2. Классы обработки данных.

3.3. Класс формирования и обучения НС.

3.4. Классы управления процессом обучения НС.

3.5. Выводы.

Глава 4. Результаты экспериментальной части исследования.

4.1. Основа экспериментальной работы.

4.2. Проведение экспериментальной части исследования для задач прогнозирования.

4.3. Проведение экспериментальной части исследования для задач распознавания.

4.4. Вопрос практического применения разработанного программного комплекса.

4.5. Выводы.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Эйгин, Юрий Александрович

Поиски и изучение неявных алгоритмов, позволяющих автоматически накапливать и затем использовать опыт при обучении, продолжаются уже более 100 лет. Однако первые серьезные попытки создания нейронных сетей были сделаны в 40—50-х годах XX века, когда У. Маккаллок и У. Питтс выдвинули основное положение теории работы головного мозга [9]. В дальнейшем их идеи блестяще развил Ф. Розенблатт, который сформулировал основные принципы нейродинамики [99]. А в последние годы, в связи с появлением относительно дешевой компьютерной техники, произошла своего рода революция в мире вычислительной математики и кибернетики, приведшая к формированию новой науки — нейроинформатики [21].

В настоящее время в различных областях человеческой деятельности накоплено огромное количество информации о различных материальных и нематериальных сущностях, их свойствах, поведении и связях. Работа любого исследователя с набором понятий и сущностей всегда строится на использовании классификаций, причем от удобства и качества классификации во многом зависит эффективность ее применения.

При наличии определенного правила алгоритм классификации представляет собой простейшую процедуру причисления объекта к тому классу, номер которого указан данным правилом. При отсутствии определенных правил для получения классификации требуется разработать специальный алгоритм. Очевидно, что алгоритмов может быть много, в зависимости от того, что понимается под характеристиками взаимного расположения классов.

В 60-х годах XX века внутри прикладной статистики достаточно четко оформилась область, посвященная методам классификации. В теории классификации [10] можно выделить три раздела: кластеризация (кластер-анализ) [58], группировка и дискриминация (дискриминантный анализ) [45].

Кластерный анализ предназначен для того, чтобы сгруппировать элементы в однородные группы (кластеры). Эта однородность определяется на основании признаков (факторов), которые включаются в качестве параметров кластерного анализа. Число групп заранее неизвестно. Нет результативного признака или зависимой переменной [58].

Дискриминантный анализ действует несколько иначе. Рассматривается некоторая «зависимая» переменная, определяющая мнение эксперта относительно предстоящей группировки. Далее определяются линейные классификационные модели, которые позволяют «предсказать» поведение новых элементов в терминах зависимой переменной на основании измерения ряда независимых переменных (факторов, показателей), которыми они характеризуются.

В дискриминантном анализе классы предполагаются заданными -плотностями вероятностей или обучающими выборками. Задача состоит в том, чтобы вновь поступающий объект отнести в один из этих классов. У понятия «дискриминация» имеется много синонимов: диагностика, распознавание образов с учителем, автоматическая классификация с учителем, статистическая классификация.

При группировке, наоборот, мы хотим разбить элементы на группы независимо от того, естественны ли границы разбиения или нет [32]. Цель по-прежнему состоит в выявлении групп однородных объектов, сходных между собой (как в кластер-анализе), однако «соседние» группы могут не иметь резких различий (в отличие от кластер-анализа). Границы между группами условны, не являются естественными, зависят от субъективизма исследователя.

Построение и оценка классификаций являются хорошо известными задачами искусственного интеллекта и на протяжении десятков лет остаются одними из наиболее интенсивно развивающихся его ветвей. Автоматическая обработка баз данных, извлечение знаний, интеллектуальный анализ данных -смежные области знания, использующие методы естественно-языковых теорий [74], математической статистики и теории принятия решений [47] для задач классификации и диагностики.

Однако классификация не единственное направление, в котором могут использоваться системы искусственного интеллекта. Вторым, и, пожалуй, даже более интересным и перспективным направлением применения интеллектуальных систем, являются задачи регрессии или прогнозирования. Актуальность прогнозирования общеизвестна - разработка достоверных методов предвидения кризисов, направления развития общества, прогнозирования транспортных потоков позволяет экономить большие материальные ресурсы.

До недавнего времени (середины 80-х годов прошлого века) существовало несколько общепризнанных методов прогнозирования:

• эконометрические;

• множественной регрессии;

• методы Бокса-Дженкинса (ARIMA, ARMA).

Эконометрические прогнозные исследования [48], начало которым было положено в конце 20-х годов, к 70-м годам образовали самостоятельное научное направление в мировой экономической науке. И у нас в стране, и за рубежом тысячи научных коллективов, отдельных исследователей в научных центрах, университетах и институтах, государственных учреждениях и частных компаниях занимаются разработкой и использованием эконометрических моделей и методов для решения многих проблем.

Наиболее ранние эконометрические исследования проводились норвежским экономистом Р. Фришем [88]. В дальнейшем это направление стало использоваться для прогнозирования самого широкого круга процессов в области политики, научно-технического прогресса, производительности труда, финансов и цен, спроса и потребления на различный период. Особенно возросло значение эконометрических прогнозов с развитием государственного регулирования и связанной с этим необходимостью разработки инструментария для анализа эффективности экономической политики.

Бурное развитие эконометрики в некоторой степени обусловлено относительной ясностью и определенностью принципов разработки прогнозов на базе эконометрических моделей и методов. Использование прогнозных разработок эконометрических моделей так или иначе основано на предположении о сохранении в будущем основных причинно-следственных отношений между характеристиками исследуемого процесса и влияющими на них факторами, которые имели место на протяжении некоторого периода времени в прошлом и настоящем.

Метод множественной регрессии состоит в формировании зависимости между прогнозируемой переменной Y и отобранным заранее комплектом независимых переменных - Xl,X2,.,XN. Природа независимых переменных может быть различной. Например, если предположить, что Y - уровень спроса на некоторый продукт в следующем месяце, то независимыми переменными могут быть уровень спроса на этот же продукт в прошлый и позапрошлый месяцы, затраты на рекламу, уровень платежеспособности населения, экономическая обстановка, деятельность конкурентов и многое другое [35]. Модель множественной регрессии в общем случае описывается выражением

Г = Г(Х1гХ2,.,Х„) + е. (1.1)

В более простом варианте линейной регрессии модель имеет вид:

Y = Л, + ДX, + р2Х2 +. + pNXN + г (j 2)

Здесь po,pvp2,.,pN - подбираемые коэффициенты регрессии, е -компонента ошибки. Предполагается, что все ошибки независимы и нормально распределены. С помощью таблицы значений прошлых наблюдений можно подобрать (например, методом наименьших квадратов) коэффициенты регрессии рп, настроив тем самым модель.

Но уже в середине 90-х годов прошлого века был разработан принципиально новый и достаточно мощный класс алгоритмов для прогнозирования временных рядов. Большая часть работы по исследованию методологии и проверке моделей была проведена двумя статистиками,

Г. Е. П. Боксом и Г. М. Дженкинсом [11]. С тех пор построение подобных моделей и получение на их основе прогнозов называются методами Бокса-Дженкинса. Самым известным и используемым алгоритмом из них является ARIMA. Он встроен практически в любой специализированный пакет для прогнозирования. В классическом варианте ARIMA не используются независимые переменные. Модели опираются только на информацию, содержащуюся в предыстории прогнозируемых рядов, что ограничивает возможности алгоритма. В настоящее время в научной литературе часто упоминаются варианты моделей ARIMA, позволяющие учитывать независимые переменные. В отличие от рассмотренных ранее методик прогнозирования временных рядов, в методологии ARIMA не предполагается какой-либо четкой модели для прогнозирования данной временной серии. Задается лишь общий класс моделей, описывающих временной ряд и позволяющих как-то выражать текущее значение переменной через ее предыдущие значения. Затем алгоритм, подстраивая внутренние параметры, сам выбирает наиболее подходящую модель прогнозирования [85].

Однако, начиная с конца 80-х годов прошлого века, в научной литературе [82, 83, 92, 100] появились публикации по нейросетевой тематике, в которых был приведен эффективный алгоритм обучения нейронных сетей (НС) и доказана возможность их использования для самого широкого круга задач прогнозирования и распознавания.

Эти публикации породили интерес к НС в научном сообществе и последние очень скоро стали широко использоваться при исследованиях в самых разных областях науки от экспериментальной физики и химии до экономики и транспорта.

Отчасти из-за относительной сложности и недетерминированности НС и генетических алгоритмов эти технологии не сразу вышли за рамки чисто научного применения. Тем не менее с течением времени уровень доверия к новым технологиям повышался и со стороны бизнеса. С начала 90-х годов начали регулярно появляться сообщения об установках нейросетевых систем в разных компаниях, банках, корпоративных институтах. Причем сфера использования новых технологий очень многогранна - оценка рисков, контроль технологических процессов, управление роботами, диспетчерское управление, диагностика и многое другое.

Большой вклад в разработку НС и методов их обучения внесли: Дж. фон Нейман, Ф. Розенблатт, Ф. Уоссермен, Т. Кохонен, Б. Видроу, Б. Хофф, У. Маккаллок, У. Питтс, С. Гроссберг, Дж. Андерсон, Дж. Хопфилд, Д. Уилшоу, В. J1. Дунин-Барковский, С. Амари, А. А. Фролов, А. И. Галушкин, А. Б. Барский, А. Н. Горбань, А. А. Веденов.

Цель и задачи исследования. Целью диссертационного исследования является разработка методов и пакета прикладных программ для формирования и обучения однонаправленных и полносвязных НС.

В диссертационной работе реализуется следующая последовательность решения задач:

1. Анализ существующих НС и методов их обучения. Сравнение вычислительной сложности и применимости существующих моделей НС в задачах различной природы.

2. Анализ существующих методов формирования НС. Разработка методов решения задачи выбора конфигурации НС.

3. Оценка эффективности существующих алгоритмов обучения и разработка методов ускорения процесса обучения.

4. Разработка программного обеспечения, реализующего моделирование однонаправленных и полносвязных НС с широкими возможностями управления и протоколированием процесса обучения.

5. Сбор и анализ статистики, полученной в процессе моделирования НС. Объектом исследования выступает однонаправленная и полносвязная НС. Предметом исследования является математическое, алгоритмическое и программное обеспечение процесса формирования, обучения и применения НС в задачах распознавания и прогнозирования.

Методологической основой исследования явилось использование методов системного анализа, теории вероятности, дискриминантного анализа, теории НС, градиентных и эвристических методов обучения НС, методов технического анализа на финансовых рынках, методов аппроксимации и сглаживания, методов объектно-ориентированного программирования.

Достоверность основных научных положений, выводов и рекомендаций, сформулированных в диссертации, подтверждается проведенными вычислительными экспериментами. Объем проведенных вычислений составил около 5500 часов машинного времени, в вычислениях было задействовано 5 персональных компьютеров (ПК). Были сформированы, обучены и протестированы 7000 моделей однонаправленных и полносвязных НС. Проанализирована их работа. На разработанный программный комплекс было получено свидетельство о государственной регистрации программы ЭВМ. Часть исходного кода включена в приложение. Научная новизна

1. Разработан метод формирования весовых коэффициентов для НС с линейной активационной функцией.

2. Дано теоретическое обоснование достаточности двухслойной НС для решения практических задач. Достаточность двухслойной НС также была подтверждена экспериментальными данными.

3. Разработан метод определения максимального необходимого размера первого скрытого слоя для двухслойной НС. Представлено теоретическое доказательство данного метода, кроме того, данный метод подтвержден в ходе проведенных вычислительных экспериментов.

4. Разработана методика обучения НС, позволяющая сократить время ее обучения, перейти от минимизации целевой функции в виде суммы квадратов ошибок обучения к минимизации максимальной ошибки.

5. Предложен метод оптимизации процесса обучения НС с несколькими выходными нейронами. Практическая ценность. Разработано программное обеспечение, которое позволяет проводить формирование, обучение и тестирование эффективности работы однонаправленных и полносвязных НС. Разработанное программное обеспечение позволяет выполнять автоматический подбора оптимальных параметров конфигурации и обучения однонаправленных и полносвязных НС, в задачах распознавания и прогнозирования.

Разработана методика обучения НС с линейной активационной функцией.

Разработана методика оптимизации процесса обучения НС. Реализация результатов работы. Результаты диссертационной работы нашли применение в страховой компании «Макс» при построении экспертной системы учета заявленных убытков по договорам страхования.

Результаты исследований, проведенных в ходе работы над диссертацией, используются в учебном процессе на кафедре «Математическое обеспечение автоматизированных систем управления» (МО АСУ) МИИТа, в частности в лекционном курсе по дисциплине «Нейронные сети».

Результаты внедрения подтверждены соответствующими актами. Апробация работы. Материалы диссертации обсуждались на заседаниях кафедры МО АСУ МИИТа (в 2005-2006 гг.), научных межкафедральных семинарах (2006), IV международной научной конференции студентов и аспирантов «Trans-Mech-Art-Chem», Москва, 2006 г., в лаборатории «Распределенные информационно-аналитические и управляющие системы» Института Проблем Управления РАН (2006), в лаборатории «Информатизация и информационная безопасность» Института Системного Анализа РАН (2006). Публикации. По теме диссертации опубликовано семь печатных работ. Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы (107 наименований), 3 приложений, содержит 159 страниц основного текста, 46 рисунков и 1 таблицу.

Заключение диссертация на тему "Разработка методов и пакета прикладных программ для формирования и обучения нейронных сетей, использующих однонаправленную и полносвязную архитектуру"

4.5. Выводы

Анализ данных, полученных в ходе тестирования (формирования обучения и применения) НС, обучающихся по алгоритму обратного распространения ошибки, позволил установить, что:

• двухслойная НС может использоваться столь же эффективно, как и многослойная НС, как в задачах распознавания, так и в задачах прогнозирования, что было подтверждено проведенным экспериментальным моделированием;

• использование двухслойной НС в задачах прогнозирования и распознавания позволяет значительно экономить время на переборе различных конфигураций многослойных НС, что также подтверждается проведенными экспериментами;

• оптимальный размер первого скрытого слоя двухслойной НС, необходимой для решения поставленной задачи, находится на диапазоне, максимальные значения которого ограниченны значениями, вычисляемыми по формуле (2.24), что подтверждено экспериментально;

• НС с несколькими выходами можно разбить на несколько НС с одним выходом, однако эффективность применения подобного разделения проявляется только при использовании нескольких ЭВМ для вычислений, в противном случае время обучения не уменьшится, качественные изменения подобного разбиения, заключающиеся в увеличении достоверности ответов НС, проявляются только в задачах прогнозирования, что установлено экспериментально;

• используя модифицированный, в соответствии с формулой (2.40), алгоритм обучения по методу обратного распространения ошибки, можно сократить время, необходимое на обучение НС, а так же повысить эффективность работы НС, что установлено экспериментально;

• при сложных исходных данных необходима значительная предварительная подготовка этих данных для подачи в НС, в противном случае эффективность распознавания и прогнозирования будет низкой;

• достоверность прогнозов НС уменьшается с увеличением срока прогноза. Проведенные эксперименты подтверждают высокую эффективность и работоспособность разработанного программного комплекса, систем управления и протоколирования процесса обучения НС.

В конце главы выдвинуты предложения по применению НС и разработанных методов обучения и формирования НС, а так же реализованного программного комплекса для задач:

• диспетчерского управления;

• диагностики технических устройств;

• внедрения в учебный процесс;

• бизнес приложения.

Заключение

Проведенные в работе исследования позволили получить следующие результаты.

1. Разработан метод формирования весовых коэффициентов для нейронной сети с линейной активационной функцией, исключающий длительный процесс обучения.

2. Дано теоретическое обоснование достаточности двухслойной нейронной сети для решения практических задач. Достаточность двухслойной НС также была подтверждена в ходе проведения вычислительных экспериментов для задач прогнозирования и распознавания.

3. Разработана методика выбора максимального необходимого размера первого скрытого слоя для двухслойной НС с нелинейными активационными функциями. Разработанная методика была подтверждена в ходе проведенных вычислительных экспериментов для задач прогнозирования и распознавания.

4. Разработана методика оптимизации алгоритма обратного распространения ошибки для обучения НС с сигмоидальной активационной функцией, позволившая сократить время обучения на 20% и повысить качество прогнозирования на 4,5%, а качество распознавания на 7,5%.

5. Разработана методика по разделению НС для обучения на нескольких ЭВМ параллельно. Данная методика позволила сократить время, необходимое обучение НС на 27,5% и повысить эффективность работы НС в задачах прогнозирования на 7,5%, а в задачах распознавания на 1%.

6. Разработан программный комплекс позволяющий: о формировать и обучать многослойные НС; о тестировать эффективность обучения НС; о управлять процессом обучения НС; о перебирать и тестировать НС в задачах распознавания и прогнозирования; о подбирать оптимальные параметры НС под конкретную задачу в автоматическом режиме.

Библиография Эйгин, Юрий Александрович, диссертация по теме Теоретические основы информатики

1. Азимов А. Человеческий мозг: От аксона до нейрона. -М.: Центрполиграф, 2005.-461 с.

2. Адамчук В.В., Варна Т.П., Воротникова В.В. Эргономика: Учебное пособие для вузов. М.: ЮНИТИ-ДАНА, 1999. - 254 с.

3. Алексеев Е. Р., Чеснокова О. В. Решение задач вычислительной математики в пакетах Mathcad 12, MATLAB 7, Maple 9. М.: НТ Пресс, 2006.-496 с.

4. Алексеенко Н. Ю. Мозг. Пер. с англ. под ред. и с предисл. П. В. Симонова. -М.: Мир, 1982. - 280 с.

5. Арсеньев Ю. Н., Шелобаев С. И., Давыдова Т. Ю. Принятие решений. Интегрированные интеллектуальные системы. -М.: Юнити, 2003. -270 с.

6. Барский А. Б. Логические нейронные сети: методика построения и некоторые применения. //Приложение к журналу информационные технологии №8,2006

7. Барский А. Б. Нейронные сети: распознавание, управление, принятие решений. М.: Финансы и статистика, 2004. - 174 с.

8. Березин С. А. Разработка методов диагностики и контроля параметров устройств железнодорожной автоматики и телемеханики с использованием теории самоорганизации. Диссертация. М., 2003. -155 с.

9. Беркенблит М. Б. Нейронные сети. -М.: Мирос и ВЗМИ1 РАО, 1993.

10. Богомолов С.Д., Киселев С.В., Медведев А.П., Назаров В.М. Применение искусственных нейронных сетей для прогнозирования в хирургии. Н. Новгород: Государственная медицинская академия, 2003.-210 с.

11. Дж. Бокс, Г. Дженкинс. Анализ временных рядов. Выпуск 1. Прогноз и управление. М.: Мир, 1974. - 280 с.

12. Борисов А.Н., Крумберг О.А., Федоров И.П. Принятие решений на основе нечетких моделей. Примеры использования. Рига: Зинатне, 1990.-184 с.

13. Г. Буч, Обьекто ориентированный анализ и проектирование. С примерами приложений на С++. 2-е изд. Пер. с англ. - М.: Издательство Бином. - СПб.: Невский диалект, 1999. - 560 с.

14. Варламов О.О. Эволюционные базы данных и знаний для адаптивного синтеза интеллектуальных систем. Миварное информационное пространство. М.: Радио и связь, 2002. - 288 с.

15. Вдовин А.Н. Центры управления перевозками. / Конференция "Системы безопасности на транспорте" Пшибрам, 2005.

16. Воронин Ю. А. Введение в теорию классификаций. Новосибирск.ВЦ СО АН СССР, 1983.- 194с.

17. Галушкин А. И. Нейро компьютеры и их применение на рубеже тысячелетий в Китае т. 1. М.: Горячая линия - Телеком, 2004. - 368 с.

18. Галушкин А. И., Нейро компьютеры и их применение на рубеже тысячелетий в Китае т. 2. М: Горячая линия - Телеком, 2004. - 462 с.

19. Гильберт Д., БернайсП. Основания математики. Логические исчисления и формализация арифметики. М.: Наука, 1982. - 560 с.

20. Горбань А. Н., Дунин-Барковский В. Л., Кирдин А. Н., Миркес Е. М., Новоходько А. Ю., Россиев Д. А., Терехов С. А., Сенашова М. Ю., Царегородцев В. Г. Нейроинформатика.-Н.: Наука. Сибирское предприятие РАН, 1997.-296 с.

21. Горбань А. Н. Методы нейроинформатики. / Сборник научных трудов, Красноярск: КГТУ, 1998.-205 с.