автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Метод одновременного структурно-параметрического синтеза многослойных персептронов
Автореферат диссертации по теме "Метод одновременного структурно-параметрического синтеза многослойных персептронов"
На правах рукописи
005537175
Хандаров Фёдор Владимирович
МЕТОД ОДНОВРЕМЕННОГО СТРУКТУРНО-ПАРАМЕТРИЧЕСКОГО СИНТЕЗА МНОГОСЛОЙНЫХ ПЕРСЕПТРОНОВ
05.13.18 - Математическое моделирование, численные методы и комплексы программ
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
7 НОЯ 2013
Улан-Удэ-2013
005537175
Работа выполнена в Институте математики и информатики ФГБОУ ВПО «Бурятский государственный университет»
Научный — кандидат физико-математических наук,
руководитель доцент
Дармаев Тумэн Гомбоцыренович,
доктор технических наук, профессор Носков Сергей Иванович, профессор кафедры «Информационные системы» ФГБОУ ВПО «Иркутский государственный университет путей сообщения»
— доктор технических наук, профессор Олзоева Сэсэг Ивановна, профессор кафедры «Электронно-вычислительные системы» ФГБОУ ВПО «Восточно-Сибирский государственный университет технологий и управления»
Ведущая — ФГБУН «Институт динамики систем
организация и теории управления» СО РАН
Защита диссертации состоится «26» ноября 2013 года в 15:00 часов на заседании Диссертационного совета Д 212.022.10 при ФГБОУ ВПО «Бурятский государственный университет» по адресу: 670000, Республика Бурятия, г. Улан-Удэ, ул. Смолина, 24а.
С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Бурятский государственный университет».
Автореферат разослан «26» октября 2013 года.
Официальные оппоненты
Ученый секретарь диссертационного совета 212.022.10, к.ф.-м.н., доцент
Т.Г. Дармаев
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы! Для построения математических моделей на основе эмпирической информации (по измеряемым данным наблюдений над объектом) распространенным подходом является использование искусственных нейронных сетей (ИНС). Процесс моделирования сводится к выбору топологии ИНС, т.е. количества узлов и указания связей между ними, и к дальнейшему подбору весовых коэффициентов при заданной топологии. Такой подбор представляет собой задачу обучения (параметрической идентификации нейросетевой модели) по имеющимся эмпирическим данным, традиционно сводящуюся к задаче минимизации ошибки сети (отклонения отклика сети от выходных данных объекта моделирования)/ . ■
Степень разработанности темы. К настоящему моменту исследовано большое количество различных видов ИНС: сети на основе радиальных базисных функций, сети с'¿амоо^йнизацией, рекуррентные сети, сверточные сети и др. Важный класс ИНС - сети прямого распространения, называемые также многослойными персептронами (МП). Принципиальная возможность представления нелинейных функциональных зависимостей с помощью МП показана в работах отечественных и " зарубежных ученых: А.Н.Колмогорова, В.И. Арнольда, Г. Цыбенкр, В. Крейновича, А.Н. Горбаня и др.
Тем не менее, математический аппарат, рассматриваемый в работах таких отечественных. . .и ,. зарубежных ученых как А.Н. Горбань, В.Г. Редько, В.Г. Спицын, Ю.Р. Цой,. С.Е. Fahlman, К. Stanley, R. Mikkulainen, Y. LeCun, не дает однозначных ответов на вопросы структурной спецификации нейросете-вых моделей (в том числе и МП) - подбора топологии сети.
Исходя из вышесказанного, актуальной представляется разработка новых методов, обеспечивающих одновременный выбор спецификации и идентификации МП, т.е. решение задачи структурно-параметрического синтеза.
Целью работы- является разработка методов структурно-параметрического синтеза многослойных персептронов. Для достижения поставленной цели ставятся следующие задачи:
1. разработка задачи одновременного структурно-параметрического синтеза многослойных персептронов;
2. построение эффективного метода и алгоритмов структурно-параметрического синтеза многослойных персептронов, на основе методов локального и глобального стохастического поиска;
3. создание комплекса программ и решение представительных тестовых и
прикладных задач.
Методы исследования: анализ и обобщение результатов ранее проведенных исследований в области искусственных нейронных сетей; применение методов теории оптимизации, теории вероятностей, математической статистики, машинного обучения; исследование эффективности разработанных алгоритмов с помощью численных экспериментов.
Работа соответствует паспорту специальности 05.13.18 «Математическое моделирование, численные методы и комплексы программ» по пунктам: 1) разработка новых математических методов моделирования объектов и явлений; 3) разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий; 4) реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для вычислительного эксперимента.
Научная новизна результатов.
В многоэтапной схеме структурно-параметрического синтеза предлагается новый способ оценки перспективности многослойных персептронов и их перегруппировки в мультистарт-методе в соответствии р данной оценкой.
Разработанный мультистарт-алгоритм параметрического улучшения многослойного персептрона фиксированной топологии состоит в новом стохастическом способе построения неухудшающей последовательности точек путем комбинирования моделирования распределения Гиббса и метода покрытий.
Мультистарт-алгоритм структурного синтеза, отличается от известных детерминированным порядком выбора операций модификации топологии с приоритетом операций упрощения.
Теоретическая и практическая значимость результатов работы. Разработанные метод и алгоритмы определяют перспективное направление развития разработки эффективных методов нейросетевого моделирования.
Разработанные метод и алгоритмы и их программная реализация использовались для выполнения работ по грантам РГНФ и Бурятского государственного университета. Комплекс используется в учебной работе Института математики и информатики Бурятского государственного университета и в исследованиях Отдела региональных экономических исследований БНЦ СО РАН.
Степень достоверности и апробация результатов. Результаты работы обсуждались на Всероссийском семинаре «Нейроинформатика, ее приложения и анализ данных» (г. Красноярск, 2008-2009 гг.); в школе-семинаре молодых
ученых «Математическое моделирование и информационные технологии: управление, искусственный интеллект и технологии программирования» (г. Улан-Удэ - оз. Байкал, 2006); на Международных конференциях «Инфокомму-никационные и вычислительные технологии и системы» (г. Улан-Удэ - оз. Байкал, 2009, 2010 гг.), «Математика, её приложения и математическое образование» (г. Улан-Удэ - оз. Байкал, 2009); на семинарах Института математики и информатики БГУ, Отдела региональных экономических проблем БНЦ СО РАН. Работа по теме диссертации была отмечена II премией на I региональном конкурсе среди молодых ученых Республики Бурятия «Конкурентоспособность региона в условиях экологических и демографических ограничений» (ОРЭИ БНЦ СО РАН, г. Улан-Удэ, 2009 г.).
По теме диссертации опубликовано 7 работ, 2 из которых опубликованы в журналах из перечня ВАК РФ.
Диссертация состоит из введения, трех глав, заключения, двух приложений и списка литературы. Общий объем работы составляет 116 страниц. Список литературы содержит 121 наименование, из них 77 на иностранных языках.
ОБЩЕЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность исследования, ставятся цель и задачи диссертационной работы, обсуждаются новизна, теоретическая и практическая значимость работы, также кратко приводятся основные положения, касающиеся теории искусственных нейронных сетей (ИНС) и, в частности, такой их разновидности, как многослойные персептроны, и их применения в качестве средств моделирования. В качестве одной из основных проблем практического применения ИНС вообще, и многослойных персептронов в частности, выделена проблема структурной спецификации сетей, приводится сравнительный анализ существующих методов подбора топологии.
В первой главе описывается представление пространства поиска нейросете-вых моделей рассматриваемого класса - сетей прямого распространения (многослойных персептронов), в которых скрытые узлы образуют слои, и выходы узлов одного слоя представляют собой входы для узлов следующего слоя.
Узел многослойного персептрона представляется как некоторая нелинейная функция (называемая функцией активации) от единственного аргумента — линейной комбинации всех входных сигналов. Функция активации определяет зависимость сигнала на выходе нейрона от взвешенной суммы сигналов на его
входах. В большинстве случаев она является монотонно возрастающей и имеет область значений [0,1] или [-1,1].
В работе показана возможность представления многослойных персептронов в виде сетей с перекрестными связями, когда связи также могут соединять узлы как одного слоя, так и непоследовательно расположенных слоев. Данная возможность позволяет описывать сети с одним и тем же количеством узлов и любым количеством связей в качестве точек пространства одной и той же размерности, что, в свою очередь, дает возможность осуществить способ кодирования сетей данного класса в виде линейных структур, когда отсутствующей связи соответствует нулевое значение соответствующего параметра. В качестве функции активации в таком случае требуется использовать любую сигмоидаль-ную функцию <р{у»), обладающую свойством <р{0) = 0, в работе используется одна из распространенных функций активации - гиперболический тангенс
е* -е* 1апЬ(.т) = —-—.
е+е
Пусть в качестве точки пространства поиска рассматривается вектор весов связей \veIV = {(\у1,...,\уя),\у1е[--ига,\va],n = п[пи)} , где пи - количество скрытых узлов сети, [—— область изменения каждого веса, тогда сетям с различным количеством скрытых узлов будут соответствовать различные пространства поиска Пусть далее целевая функция (ошибка сети на обучающем множестве примеров, без потери общности используемая в квадратичном виде), х - вектор входных сигналов, у^ - к -тая компонента вектора реального отклика сети на г-том примере, у^ - к-тая компонента вектора желаемого отклика сети на г-том примере, п0- количество выходов сети, Т -количество обучающих примеров, тогда задача идентификации нейросетевых моделей описанного класса при фиксированной топологии ставится в виде: е (V,
фикс
У = .....; (1)
в данной задаче количество скрытых узлов фиксировано, поэтому начальное приближение определяется только весами связей, которые предлагается уста-
навливать как случайные величины, равномерно распределенные на интервале
Более широкая задача одновременной спецификации и идентификации нейросетевых моделей описанного класса ставится в виде1: пи> О
па I ,=| <-=1 4 '
В данной задаче для выбора начального приближения требуется определить также и топологию сети, что для данного класса сетей осуществляется заданием количества скрытых узлов пк. В работе предлагается брать начальное значение равным 0, т.е. начинать поиск с сетей минимальной топологии, а веса связей определять так же, как и в задаче (1), первоначально рассматривая только полносвязные сети без скрытых узлов.
Основная идея общей схемы решения поставленных задач заключается в том, что выбирается некоторое конечное подмножество точек пространства поиска и производится оценка их перспективности с помощью некоторого метода локального спуска. Согласно данной оценке, точки разбиваются на две группы: в первой группе перспективных точек продолжается локальный спуск градиентными методами, а в группе точек, в которых определенное улучшение не достигнуто, производится смена окрестности локального минимума или модификация топологии сети.
Для рассматриваемых задач характерны овражность, большое количество локальных минимумов и высокая стоимость вычисления целевой функции. Данная особенность требует поиска эффективных методов решения, которые разрабатываются в главе 2.
В начале второй главы описывается новый алгоритм параметрического улучшения МП, представляющий собой комбинацию подходов глобального стохастического поиска и локального спуска. Параметрическое улучшение в алгоритме производится нелокально: задача формулируется как построение неухудшающей последовательности точек, принадлежащих, в общем случае, окрестностям различных локальных минимумов.
1 В отличие от (!) добавлена зависимость пространства поиска от количества скрытых узлов
Пусть имеется некоторая сеть, описываемая точкой пространства поиска , для которой вычислено значение целевой функции е0 = е(ж0). Требуется построить последовательность:
С3)
удовлетворяющую условию:
(4)
где е1 = е(IV,).
За новый элемент последовательности VI 1 с вероятностью Рг|м> = и>| принимается новая точка \veZi, описывающая некоторую сеть с перекрестными связями, получаемая равномерным распределением на 2, = \ Вг. (у?.). Здесь в качестве Вг\ъ/) рассматривается шар фиксированного радиуса, называемый также покрытием, где £>0 зависит от требуемой точности решения. При этом начальное приближение 2„ = IV = {(и>,,...,&[-ч/а,м/а],п = п(пн)} . Если
Рг{м>, = IV'} < 0, то Ф м>, и тогда = . Вероятность Рг|уу = и<| в работе вычисляется на основе распределения Гиббса, используемого, в частности, в известном представителе марковских алгоритмов — методе имитации отжига2:
Pr|w, = wj ■
1,е-е.<0 I е — еЛ
ехр,
ё-е>0' (5)
а
где e = e(w), a {Q,}^— - положительная убывающая сходящаяся к нулю последовательность: при увеличении t уменьшается вероятность замещения текущего решения новой точкой с худшим значением целевой функции.
На завершающем этапе из последней точки vrv полученной последовательности производится локальный градиентный спуск, для достижения того локального минимума, в окрестность которого попала последняя точка:
W* = LS(WN), (6)
где LS[•) - некоторый метод локального градиентного спуска.
Для полученного алгоритма повышения эффективности позволяет добиться мультистарт-реализация. Мультистарт-методы на протяжении своей работы
2 Kirkpatrick S., Gelatt C.D., Vecchi, М.Р. Optimization by Simulated Annealing. Science, 1983, 220 (4598): 671-680.
оперируют не одной точкой, а множеством точек, которое называют популяцией, распараллеливая, таким образом, поиск решения. Таким образом, в нашей работе описанным выше способом строится не одна, ä М последовательностей вида (3):
= (7)
далее из последней точки каждой из последовательностей (7) производится локальный спуск, и результатом работы алгоритма улучшения является лучшая по значению целевой функции из М получаемых точек:
vv* = arg min (e(vv *w) = e(LS(u#}))}. (8)
Стохастический подход к выбору новых точек вместе с исключением окрестностей просмотренных точек и использование мультистарта обеспечивает меньшую чувствительность алгоритма к большому числу локальных минимумов, а применение на завершающем этапе метода локального спуска, обеспечивает хорошую точность получаемого решения. Выбор М зависит, очевидно, от размерности задачи (числа входов и, и выходов па), подробные рекомендации по выбору М приводятся в тексте диссертации.
Метод локального спуска LS(w) в работе выбирался из известных методов оптимизации путем сравнительных расчетов на задачах, описываемых в главе 3. Показано, что значительное преимущество в скорости сходимости демонстрирует метод Левенберга-Марквардта (LM), однако точность получаемой модели оказывается выше у более медленных метода Бройдена-Флетчера-Гольдфарба-Шанно (BFGS) и метода сопряженных градиентов (CG) (при этом CG превосходит BFGS по точности). Поэтому на ранних итерациях приведенного алгоритма целесообразно использовать LM, а на более поздних - CG.
Разработанный алгоритм отличается от существующих способом комбинации стохастических подходов, мультистарта и локального градиентного поиска. На основе имеющейся точки поискового пространства, соответствующей некоторому многослойному персептрону, алгоритм стохастическим образом определяет области притяжения более «глубоких» локальных минимумов и добивается заданной точности путем применения процедуры локального градиентного спуска, тем самым обеспечивая параметрическое улучшение первоначально имевшегося решения.
Далее в главе описывается новый алгоритм структурного синтеза многослойных персептронов. Пусть w(7) - точка пространства поиска, соответствующая
некоторой сети на г-й итерации метода, е1 - значение целевой функции, вычисленное в данной точке, тогдаЦг + 1) и е,+1 - соответственно точка, получаемая из ы^) путем модификации топологии, и значение целевой функции в ней, IV(0 и ™(г + 1) называют соответственно родительской и дочерней точками. Операции удаления имеющейся связи, удаления имеющегося узла, добавления новой связи, добавления нового узла производятся последовательно. Первые две операции производят упрощение топологии сети - в данном случае требуется, чтобы новая топология была, по крайней мере, не хуже предыдущей:
е,~е,+1>0. (9)
В случаях, когда необходима точность моделирования, превышающая возможности имеющейся структуры, возникает необходимость усложнения топологии. Поэтому помимо операций упрощения используются вторые две операции, производящие усложнение сети, однако при этом требуется, чтобы полученное решение было уже явно лучше текущего:
е,~е1+1>0. (10)
Местоположение добавляемых и удаляемых узлов и связей выбирается случайно, равномерно из всех имеющихся скрытых узлов и всех ненулевых связей.
Для ускорения работы алгоритма число удаляемых и добавляемых связей выбирается как случайная величина, равномерно распределенная на интервале [0,0\, где Q - некоторое случайное целое, не превосходящее числа всех имеющихся связей сети. Хорошей эвристикой на практике показал себя выбор для удаления с большей вероятностью <? связей с наименьшим весом. На практике хорошее соотношение числа удаляемых/добавляемых связей и скорости сходимости получено при 0 = 3. Число же удаляемых и добавляемых узлов всегда выбирается равным единице.
Эффективность алгоритма при мультистарте удается повысить заменой при успехе модификации топологии (т.е. выполнении условий (9) или (10) соответственно производимой операции) не родительской точки + = а наихудшей точки популяции и>(,и)(г + 1) = где к = \,...,М -номер точки в
мультистарте. Данный подход приводит нас к интенсификации исследования каждого структурного уровня, вместе с тем снижая диверсификацию (уменьшая охват различных подпространств поиска, соответствующих сетям с различным числом скрытых узлов в популяции).
Основное отличие разработанного алгоритма от известных методов заключается в последовательном выборе способа модификации топологии. Алгоритм позволяет получать структурное упрощение сети с сохранением точности моделирования или повышение точности моделирования при структурном усложнении сети.
Далее на основе разработанных алгоритмов в главе уточняются этапы предложенной ранее схемы структурно-параметрического синтеза (см. рисунок 1).
На этапе инициализации случайным образом генерируется -
начальное множество точек, в котором каждая точка и^' соответствует некоторой модели со случайно заданными параметрами.
На этапе квалификации производится небольшое фиксированное количество (в работе производилось по 10 итераций) итераций локального спуска из каждой точки (м^Н _ с заменой имеющихся точек, в каждой из которых вычис-
I >
ляется значение целевой функции.
(Начало )
ч
Рисунок 1 - Схема этапов структурно-параметрического синтеза
Затем точки ранжируются по величине полученного приращения и
_ 2 м
вычисляется значение среднего приращения Ае = —УАе и, далее, для каж-
м ДеМ
дои точки коэффициент <г = — .
Де
Точки, коэффициент которых превосходит медиану множества (с(*Н _,
I- >к=1М
относятся к перспективным, остальные - к неперспективным.
На этапе обработки для перспективных точек производится с^ итераций локального спуска, а к неперспективным точкам применяется алгоритм параметрического улучшения, и, в случае, если он не дает улучшения - алгоритм структурного синтеза. Лучшая и худшая по значению целевой функции точки обрабатываются отдельно - из них более точным методом производится градиентный спуск. Основные этапы схемы повторяются до падения среднего приращения Де ниже заданного s > 0.
Разработанное алгоритмическое обеспечение позволяет производить структурно-параметрический синтез многослойных персептронов (далее кратко обозначается как СПС), обеспечивающий получение моделей высокой точности при сохранении их небольшой топологической сложности.
В третьей главе описывается применение разработанного программного комплекса для решения четырех практических задач Cancer, Glass, Diabetes и HeartAC из PROBEN I3 (известного сборника, предназначенного для тестирования методов обучения нейронных сетей), а также для решения, прикладной задачи прогнозирования налоговых поступлений.
Рассматриваемые задачи решались с помощью разработанного программного комплекса (язык программирования - ISO С++11), который позволяет производить вычислительные эксперименты с использованием разработанного метода СПС. Программный комплекс может работать в двух режимах «Эксперимент» и «Эксплуатация». В первом режиме производятся многократные запуски СПС, во время которых происходит сбор описательных характеристик (ошибка обучения, ошибка тестирования, число связей, число скрытых узлов, число эпох обучения), по итогам запусков происходит сбор и обработка статистики. Во втором режиме запуск СПС производится однократно, при этом сбор и анализ статистики отключен, в результате пользователь получает полное описание одной персептронной модели, пригодной для дальнейшего использования.
Для проведения вычислительного эксперимента требуется подготовить файл с данными (описание задачи и выборка наблюдений) и конфигурационный файл, задающий следующий набор параметров: интервал изменения весов связей, размеры популяции основного и предварительного этапов, требуемый уро-
3 Prechelt L. PROBEN 1 - A set of Benchmarks and Benchmarking Rules for Neural Network Training Algorithms, fakultat fur Informatik, Universität Karlsruhe, Tchenical Report 21/94, 1994
вень ошибки, число итераций локального спуска для итоговой модели, параметры метода имитации отжига, пороговое значение падения среднего приращения для рестарта точек, интервал выбора начального количества скрытых узлов. В режиме «Эксперимент» нужно также указать число запусков алгоритма.
С помощью разработанного программного обеспечения получены решения задач Cancer, Glass, Diabetes и HeartAC — результаты сопоставлены с сетями, полученными в сборнике PROBEN 1 ручным подбором топологии (таблица 1).
Таблица 1 — Сравнение метода СПС и ручного подбора топологии
по точности моделирования и сложности топологии
Название параметра Значения параметра Задача
Cancer Glass Diabetes HeartAC
СПС PR.1 СПС PR.1 СПС PR.1 СПС PR. 1
Ошибка на тест, множ-ве Мин. 1,90 - 9,17 - 16,61 - 2,41 -
Макс. 4,51 - 9,65 - 18,46 - 4,78 -
Средн. 2,51 1,60 9,46 9,75 17,52 17,30 3,58 2,82
Ст.откл. 1,13 0,41 0,20 0,41 0,58 1,91 0,88 0,22
Ошибка на обуч. множ-ве Мин. 3,34 - 7,67 - 14,71 - '4,28 -
Макс. 3,76 - 9,23 - 16,27 - 4,62 -
Средн. 3,52 2,87 8,44 7,68 15,75 14,74 4,28 3,86
Ст.откл. 0,21 0,27 0,69 0,79 0,42 2,03 0,28 0,32
Число скр.узлов Мин. 2,00 - 2,00 - 1,00 - 2,00 -
Макс. Средн. 5,00 2,70 6,00 4,00 2,40 24,00 2,00 1,60 32,00 4,00 3,00 2,00
Ст. откл. 1,06 - 0,89 - 0,52 - 0,89 -
Число связей Мин. 28,00 - 65,00 - 18,00 - 71,00 -
Макс. 33,00 - 101,00 - 32,00 - 140,00 -
Средн. 30,60 100,00 73,20 572,00 25,00 370,00 106,20 110,00
Ст.откл. 2,07 - 15,63 - 4,24 - 25,56 -
Число эпох обучения Мин. 5,00 - 2,00 - 8,00 - 1,00 -
Макс. 60,00 - 11,00 - 65,00 - 10,00 -
Средн. 27,20 - 6,60 - 19,00 - 4,20 -
Ст.откл. 21,92 - 4,34 - 17,47 - 3,23 -
В таблице 1 для каждой из четырех задач (Cancer, Glass, Diabetes, HeartAC) приводятся среднее значение и стандартное отклонение по параметрам (ошибка обучения, ошибка тестирования, число связей, число скрытых узлов) для 100 запусков разработанного метода (СПС) и для 60 запусков алгоритма RPROP при ручном подборе топологии сетей (PR. 1).
Из таблицы 1 видно, что нейросетевые модели, получаемые при использовании СПС, отличаются меньшей структурной сложностью и лучшей или сравнимой точностью в сравнении с нейросетевыми моделями, полученными ручным подбором их топологии. Снижение топологической сложности приводит к экономии вычислительных затрат, поскольку скорость одной итерации алгоритма обучения (параметризации) одной нейросетевой модели тем выше, чем проще топология, т.е. размерность решаемой задачи многомерной минимизации, при этом в разработанном методе данная экономия значительно снижается ввиду многократного увеличения количества расчетов, связанного с использованием мультистарта.
С помощью разработанного программного комплекса на задачах Glass и Diabetes многократно (1000 запусков для каждой задачи) были проведены следующие эксперименты по измерению скорости вычислений (рисунок 2): 1) Подбор весов МП фиксированной топологии (по PROBEN 1); 2) Подбор весов МП фиксированной топологии (предварительно найденной с помощью СПС); 3) Подбор весов и топологии с помощью СПС.
250 200 150 100 50 О
1 4 7 10131619222528313437404346495255886164677073767982858891949?
Рисунок 2 - Результаты вычислительных экспериментов по измерению скорости методов
В первых двух случаях начальное приближение выбиралось случайно, равномерным распределением значений весов связей на допустимом интервале, и для подбора весов использовался разработанный алгоритм параметрического улучшения. Результаты усреднялись по 1000 запусков. Из рисунка 2 видно, что
снижение среднего приращения е в эксперименте (2) происходит значительно быстрее, чем в(1)и(3). Хороший старт для (3) обусловлен мультистартом и небольшой топологией (легче попасть в хороший локальный минимум при первоначальном выборе приближения). Плохой старт и медленная настройка для (1) объясняются громоздкой топологией и, следовательно, случайного подбора хорошего начального решения и дальнейшей трудностью решения задачи оптимизации большей размерности.
Выбор задач Glass и Diabetes обусловлен преимуществом в топологической сложности разработанного метода СПС по сравнению с ручным подбором топологии (см. таблицу 1). Для задачи HeartAC превосходство ручного подбора в скорости параметрической оптимизации является очевидным.
Из проведенных экспериментов следует вывод о том, что основное преимущество СПС заключается в снятии с исследователя трудностей по подбору структуры и выбору метода обучения, при этом, дополнительно, в некоторых случаях может быть достигнуто значительное ускорение в вычислениях, связанное с топологической простотой синтезируемых моделей.
Далее в главе рассматривается прикладная задача прогнозирования налоговых поступлений на основе исторических данных, представленных одномерным временным рядом. На основе существующей информации о размерах налоговых поступлений (данные наблюдений за 60 месяцев) требуется разработать модель краткосрочного прогнозирования в условиях высокой степени неопределенности влияющих факторов, наиболее точно отражающую зависимость любой точки временного ряда от фиксированного числа значений предыдущих наблюдений.
Непостоянство системы факторов, влияющих на поступление налогов, является одной из основных проблем налогового прогнозирования. То есть актуальной является задача разработки не только мощных систем многофакторного прогнозирования, но и инструментария построения краткосрочных прогнозов, опирающегося лишь на динамику прогнозируемой величины и способного на быструю реакцию при изменениях системы влияющих факторов.
Для формирования обучающего множества на основе имеющихся данных используется метод кадрирования, где в общем случае размер входного окна должен подбираться экспериментально для каждой новой задачи. В решаемой задаче размеры окна устанавливались от 3 до 9 месяцев. Экспериментальный подбор размерности связан с универсальностью подхода — его независимостью от входных данных. Размер выходного окна положен равным 1.
Результаты применения разработанного программного комплекса, сравнивались с решением рассматриваемой задачи, полученным4 более распространенным (при исследовании одномерных временных рядов) подходом, основанным на применении методов АРПСС (авто-регрессии проинтегрированного скользящего среднего), значение средней относительной ошибки для которого составляет 14,9%. Как видно из таблицы 2, наилучшее значение средней относительной ошибки достигается при 7-месячном входном окне и составляет 10,5125%, что улучшает известный результат 14,9%, полученный при использовании АРПСС, на 4,39%.
Таблица 2 - Результаты запусков для различного размера входного окна
Размер окна Средняя относительная Среднеквадратичная
ошибка, % ошибка
3 12,6375 0,7745
4 11,3446 0,7169
5 10,6931 0,5862
6 11,0180 0,5787
7 10,5125 0,5336
8 10,6042 0,7161
9 10,8216 0,7576
В заключении сформулированы основные научные результаты исследования.
В приложениях содержится дополнительный иллюстративный материал, листинги исходного кода.
ЗАКЛЮЧЕНИЕ
В работе получены и выносятся на защиту следующие научные результаты:
1. Предложены модифицированная постановка задачи и новый метод структурно-параметрического синтеза многослойных персептронов, отличающиеся от существующих представлением поискового пространства и способом организации глобального поиска, основанном на мультистарте, при котором одновременно происходит подбор топологии и весов связей сети, что позволяет производить одновременный структурно-параметрический синтез нейросете-
4 Чимитдоржиева Е.Ц. Доржиева В.В. Влияние мирового кризиса на бюджетную политику субъектов Российской Федерации // Экономический журнал, 2009 №2(16). С. 18-32
вых моделей высокой точности в виде персептронов небольшой топологической сложности.
2. Разработан новый алгоритм параметрического улучшения многослойных персептронов, отличающийся от существующих организацией выбора точек пространства поиска для осуществления локального спуска путем комбинации ряда стохастических подходов, позволяющий производить настройку весов связей сети при фиксированной топологии с достижением высокой точности получаемой нейросетевой модели.
3. Разработан новый мультистартовый алгоритм структурного синтеза многослойных персептронов, который отличается от известных способом последовательной модификации топологии и позволяет получать упрощение топологии с сохранением точности или повышение точности при усложнении топологии.
4. Получены решения ряда задач, демонстрирующие эффективность предлагаемого подхода по сравнению с известными методами.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
В изданиях, рекомендованных ВАК РФ:
1. Хандаров, Ф.В. Об одном эволюционном алгоритме настройки искусственных нейронных сетей / Т.Г. Дармаев, Ф.В. Хандаров // Вестник Бурятского государственного университета. Спецвыпуск В. — 2012. — С. 197-203.
2. Хандаров, Ф.В. Прогнозирование налога на доходы физических лиц с использованием искусственных нейронных сетей / Ф.В. Хандаров, З.Б.-Д. Дондоков // Вестник Бурятского государственного университета. Серия: Математика и информатика. — 2012. - Вып.1 - С. 60-67.
в других научных изданиях:
3. Прогнозирование поступлений налога на прибыль организаций с помощью искусственных нейронных сетей / Ф.В. Хандаров [и др.] // Нейроинформа-тика, её приложения и анализ данных: материалы XVI Всероссийского семинара (19-21 сентября 2008 г.). / под ред. А.Н. Горбаня, Е.М. Миркеса. - Красноярск: ИВМ СО РАН, 2008. - С.56-58.
4. Хандаров, Ф.В. Открытая кроссплатформенная библиотека для решения нейросетевых задач и инструментальная среда для быстрого создания нейронных сетей различных топологий / Ф.В. Хандаров, М.В. Скворцов // Нейроин-форматика, её приложения и анализ данных: материалы XVI Всероссийского семинара (19-21 сентября 2008 г.). / под ред. А.Н. Горбаня, Е.М. Миркеса. -Красноярск: ИВМ СО РАН, 2008. - С. 59-65.
5. Хандаров Ф.В. Прогнозирование налоговых поступлений с использованием гибридных нейронных сетей / Ф.В. Хандаров, З.Б.-Д. Дондоков // Инфоком-муникативные и вычислительные технологии и системы: материалы III Международной конференции (6-11 сент. 2010 г.). - Улан-Удэ: Изд-во БурГУ, 2010. -С.272-275.
6. Хандаров Ф.В. Прогнозирование поступлений налога на прибыль организаций на основе гибридных нейронных сетей / З.Б.-Д. Дондоков, Ф.В. Хандаров // Кулагинские чтения: XI Международная научно-практическая конференция.
— Чита: ЗабГУ, 2011.-С.151-153.
7. Прогнозирование поступлений налога на доходы физических лиц с использованием искусственных нейронных сетей / Ф.В. Хандаров [и др.] // Байкальские экономические чтения: материалы международной научно-практической конференции. -Улан-Удэ: Изд-во ВСГУТУ, 2011. - С. 195-198.
Личный вклад автора
— в работе [1] постановка задачи, разработка и программная реализация алгоритма, апробация на тестовых задачах выполнены автором лично, сравнительный анализ разработанного алгоритма и существующих методов произведен автором совместно с Дармаевым Т.Г.
— в работах [2, 5-7] постановка задачи, подготовка данных, разработка, программная реализация и апробация алгоритмов выполнены автором лично. Экономическая трактовка полученных результатов выполнена автором совместно с Дондоковым З.Б.-Д.
— в работе [3] постановка задачи, разработка алгоритмов выполнены автором лично, программная реализация выполнена совместно со Скворцовым М.В., подготовка данных и экономическая трактовка полученных результатов выполнена автором совместно с Дондоковым З.Б.-Д. и Каницкой А.Л.
— в работе [4] постановка задачи, разработка алгоритмов выполнены автором лично, программная реализация выполнена совместно со Скворцовым М.В.
Подписано в печать 25.10.2013. Формат 60 * 90 / 16. Усл. печ. л. 1,15. Тираж 100. Заказ 1488. ООО «Зебра» 670010, г. Улан-Удэ, ул. Толстого, 23 + 7 (3012) 22-60-00 www.226000.ru e-mail: 226000@mail.ru
-
Похожие работы
- Метод генерации тестового множества для отладки нейросетевых систем поддержки принятия решений, основанных на трёхслойных персептронах
- Аппаратно-программные средства и алгоритмы распознавания патологий сердца на основе персептронных сетей
- Интеллектуальная многоконтурная система поддержки принятия решений аналитика
- Алгоритм контентной фильтрации спама на базе совмещения метода опорных векторов и нейронных сетей
- Анализ и прогнозирование расхода электроэнергии нетяговыми потребителями железных дорог
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность