автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Модели информационных процессов и структур для повышения эффективности нейросетевого симулятора

кандидата технических наук
Крючин, Олег Владимирович
город
Воронеж
год
2013
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Модели информационных процессов и структур для повышения эффективности нейросетевого симулятора»

Автореферат диссертации по теме "Модели информационных процессов и структур для повышения эффективности нейросетевого симулятора"

На правах рукописи

Крючин Олег Владимирович

МОДЕЛИ ИНФОРМАЦИОННЫХ ПРОЦЕССОВ И СТРУКТУР ДЛЯ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ НЕЙРОСЕТЕВОГО СИМУЛЯТОРА

05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

КТ 2013

005534814

Воронеж — 2013

005534814

Работа выполнена в ГОУВПО «Тамбовский государственный университет имени Г.Р.Державина»

Научный руководитель доктор технических наук, профессор

Арзамасцев Александр Анатольевич

Официальные оппоненты: Астахова Ирина Федоровна

доктор технических наук, профессор ФГБОУ ВПО «Воронежский государственный университет», профессор

Шамкин Валерий Николаевич

доктор технических наук, доцент ФГБОУ ВПО «Тамбовский государственный технический университет», профессор

Ведущая организация ГОУ ВПО «Липецкий государственный

технический университет»

Защита состоится 2013 года в1Г:СРч. На заседании диссертаци-

онного совета Д 212.038.24 при ФГБОУ ВПО «Воронежский государственный университет» по адресу: 394006, Россия, г. Воронеж, Университетская площадь, д. 1, ВГУ, ауд.

ги.

С диссертацией можно ознакомиться в научной библиотеке Воронежского государственного университета.

Автореферат разослан ф>ОШ.2*2013 года.

Ученый секретарь диссертационного Совета Д 212.038.24

Леденева Т.М.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность. На современном этапе развития общества, которое характеризуется возрастающей сложностью информационных процессов с одной стороны и увеличением их количества с другой, особую значимость приорстают симуляторы, которые нашли широкое применение в различных областях науки и техники: системах искусственного интеллекта и распознавания образов, представления знаний, математического моделирования в различных сферах, кибернетике. В основу построения симуляторов были положены методы математического програмирования, системного анализа, теории экстремальных задач, при этом математические модели, формализующие предметную область, строились на основе применения детерминированного или стохастического подходов с соответствующими системами допущений, что существенно ограничивало область эффективного применения.

Качественный скачок в области построения симуляторов произошел после введения в рассмотрения искусственных нейронных сетей (ИНС), впервые предложенных МакКалоком У. и Питсом У.

В настоящее время можно выделить ряд зарубежных (Хайкин С., Осов-ский С.) и российских ученых (Круглов В.В.. Борисов В.В., Голушкин А.И.), которые внесли существенный вклад как в развитие теоретических методов построения и настройки нейросетевых структур, так и в расширение области их применения в различных сферах деятельности, включая и построение симуляторов. В связи с этим симуляторы, построенные на основе применения нейросетевых структур, целесообразно назвать неросе-тевыми симуляторами (НСС).

Однако, при построении и настройке НСС имеет место существенный недостаток, который может свести на нет все приемущества, которые обеспечивает применение нейросетевых структур, суть которого в сложности организации соответствующих информационных процессов, которая обуславливается количеством неоходимых вычислений.

В связи с этим особое значение приобретают вопросы, связанные с повышением эффективности организации информационных процессов и, как следствие, информационных структур, положенных в основу построения НСС.

Одним из наиболее перспективных подходов при решении данных вопросов является повышение эффективности информационных процессов связанных с обучением НСС и выбором его структуры.

В настоящее время развитию данного подхода не было уделено должного внимания. В связи с этим тема научного исследования направленная на повышение эффективности информационных процессов обучения и выбора структур при построении НСС является актуальной.

Целью данной работы является повышение эффективности функционирования нейросетевого симулятора за счет постросных моделей параллельных информационных процессов обучения и выбора структур.

Для достижения поставленной цели необходимо решить следующие задачи:

- построить информационную модель выбора структур нейросетевого симулятора и параллельных процессов обучения;

- построить аналитическую модель расчета эффективности информационных процессов обучения и выбора структур НСС;

- поставить и решить оптимизационную задачу, направленную на определение оптимального числа элементов информационных ресурсов (ИР-элементов), используемых для обучения НСС;

- провести имитационное исследование, подтверждающее эффективность разработанной модели и построенного НСС.

Область исследования. Работа соответствует паспорту специальности 05.13.17 «Теоретические основы информатики» в частности пункту 2.1 «исследование информационных структур, разработка и анализ моделей информационных процессов и структур».

Объект исследования - нейросетевые симуляторы.

Предмет исследования - модели выбора структур и повышения эффективности нейросетевого симулятора.

Научная новизна:

- построены модели информационных процессов обучения и выбора структур нейросетевого симулятора, отличающаяся использованием новых способов реализации информационных процессов обучения НСС, адаптированных для использования большого числа информационных ресурсов;

- построены аналитические модели расчета эффективности, отличающаяся наличием выявленной связи, между эффективностью (скоро-

стью) информационных процессов обучения и характеристиками используемых информационных ресурсов;

- поставлена и решена оптимизационная задача, направленная на определение оптимального числа информационных ресурсов, используемых для обучения НСС;

Практическая значимость работы состоит в следующем.

- разработаны параллельные информационные процессы обучения и выбора структуры НСС, повышающие эффективность построения ИНС-моделей;

- разработан нейросетевой комплекс для кластерных вычислительных систем, включающий НСС, сервер симуляторов и компонент сбора статистической информации, позволяющий эффективно использовать ресурсы кластерной вычислительной системы;

- разработан язык конфигурации ИНС-моделей, базирующийся на XML и позволяющий эффективно формировать задания для обучения НСС;

- разработано высокоуровневое средство межпроцессорной передачи данных, базирущееся на MPI, позволяющий эффективно использовать ИР-элементы.

Реализация и внедрение результатов работы. Результаты работы могут найти широкое применение при решении задач, требующих существенно снизить временные затраты на построение моделей. К таким задачам можно отнести моделирование объектов из различных сфер, прогнозирование временных рядов, распознавание образов и т.д.

Данная работа выполнена в соответствии с тематическим планом ТГУ им. Г.Р. Державина по теме «Разработка параллельных алгоритмов математического моделирования на основе нейросетевых методов и символьных вычислений» "(регистрационный номер НИР 1.12.09 2009-2010 гг) и при поддержке программы Президента Российской Федерации (приказ Министерства от 03.08.2010 г. №832). Также эта работа поддержана фондом содействия развитию малых форм предприятий в научно-технической сфере «У.М.Н.И.К.» (проект «Программный комплекс для моделирования объектов социально-экономического назначения с использованием искусственных нейронных сетей на кластерных вычислительных системах») и выполнена в рамках совместного европейского проекта TEMPUS TACIS

<Join European Project on System Modernisation of University Management (SMOOTH, UM_JEP 24217-2003)».

Результаты работы внедрены в учебный процесс Тамбовского государственного университета им. Г.Р. Державина, производственный процесс компаний ООО «КреоВектор», ООО «КомпМарт» (г. Тамбов) и ООО «Служба Первая Компьютерная» (г. Котовск).

Апробация работы. Основные результаты диссертации обсуждались на конференциях и научных семинарах: XV международной конференции по нейрокибернетике «Интерфейс "Мозг-Компьютер"» (Ростов-на-дону, 2008), VIII-ой Всероссийской научно-практической конференции с международным участием «Информационные технологии и математическое моделирование (ИТММ-2009)» (Томск, 2009), II Всероссийской научно-практической конференция «Актуальные вопросы современной науки, техники и технологий» (Москва, 2010), VII Всероссийской научной конференции молодых ученых, аспирантов и студентов «Информационные технологии, системный анализ и управление» (Таганрог, 2009), Международном IX симпозиуме «Интеллектуальные системы» (Владимир 2010), II Всероссийской межвузовской научной конференции «Зворыкинские чтения» (Муром, 2010) и XV научной конференции преподавателей и аспирантов ТГУ им. Г.Р. Державина Державинские чтения» (Тамбов 2010).

Публикации. По результатам диссертации опубликовано 18 печатных работ, из них 11 статей (8 статей в издании из Перечня ВАК для публикации научных результатов диссертаций на соискание ученой степени доктора и кандидата наук), 6 тезисов докладов в материалах Международных, Всероссийских и внутривузовских конференций, 4 свидетельства государственной регистрации программы для ЭВМ.

Структура и объем работы. Диссертация включает в себя введение, 4 главы, заключение, список используемых источников из 91 наименования и приложения. Работа изложена на 175 страницах, содержит 42 рисунка и 13 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении показана актуальность работы, сформулированы цели и основные задачи исследования, представлены основные научные результа-

z

^ Начало ^

Ввод обучающей выборки

Ввод требуемой эффективности и методов обучения t

Формирование начальной структуры в

Формирование 4 начального состояния нейронов

Подбор весовых ** коэффициентов

^ Конец ^

Рис. 1: Модель информационных процессов обучения НСС.

ты, приведено краткое содержание по главам.

В первой главе приведен анализ методов и подходов к построению НСС и рассмотрены существующие на данный момент. Поведен анализ нейросетевых структур, наиболее подъходящих для использования в си-муляторе, в результате чего были выбраны 3 - многослойный персептрон, сеть каскадной корреляции Фальмана и сеть Вольтерри. В результате анализа литературных источников сделан вывод, что па данный момент пе существует симуляторов, использующих технологии ИНС и обеспечивающих высокую эффективность информационных процессов обучения, и, как следствие, снижается эффективность выбора структур НСС. Это позволило сформулировать цели и задачи диссертационного исследования.

Во второй главе представлена модель информационных процессов обучения и выбора структур НСС.

Построенная информационная модель вкоючает в себя процессы различных уровней:

- подбор структуры; как правило, вначале устанавливается мини-мальпо-возможное количество нейронов, и затем в процессе обучения добавляются новые; на рис. 1 блоки 3-9;

- подбор активационных функций нейронов; как правило, полный пе-

ребор всех возможных вариантов; на рис. 1 блоки 4-8;

- подбор значений весовых коэффициентов; на рис. 1 блок 5;

- вычисление эффективности информационных процессов обучения и выбора структур НСС; на рис. 1 блок 10;

- определение оптимального числа ИР; на рис. 1 блок 12;

Исследованию эффективности информационных процессов обучения и

определению оптимального числа ИР посвящена глева 3.

Отличительной особенностью предлагаемой модели является новый способ организации информационных процессов при помощи параллели-лизма. Данные информационные процессы реализованы на всех уровнях обучения НСС.

Повышение эффективности информационного процесса обучения на уровне вычисления значения целевой функции реализовано путем разделения обучающей выборки на п частей (по количеству ИР-элементов), в результате чего каждый ИР-элемент вычисляет невязку є по своей выборке.

Таким образом, невязка є представлена следующем образом:

где N - количество строк в обучающей выборке, £ь - значение невязки, вычисленное к-м ИР-элементом.

Повышение эффективности информационного процесса обучения на уровне подбора весовых коэффициентов реализовано уникальным образом для каждого представленного в работе информационного процесса обучения.

При подборе весовых коэффициентов методом полного сканирования выполняются 1р итераций, где 1р вычисляется по формуле

где ¿о;, 1ц - пределы, л; - шаг разбиения г-го весового коэффициента, 1Ш -размерность вектора весовых коэффициентов, ЫЯ{ - количество вариантов г-го весового коэффициента. При использовании п НР-элементов каждый из них перебирает часть вариантов, подбирая среди них наилучшие значения весовых коэффициентов, и затем посылает их ведущему. Ведущий

ті — 1

(1)

к=0

(2)

ИР-элемент выбирает среди присланных те весовые коэффициенты, которые соответствуют наименьшему значению невязки.

При использовании метода Монте-Карло на каждой итерации каждый ИР-элемент самостоятельно генерирует вектор случайных чисел rk и на основании его вычисляет новую точку в окрестности 5<'> текущего значения весовых коэффициентов йК7-1). затем вычисляет значение невязки и посылает его и значения весовых коэффициентов гЛ[7' на ведущий ИР-элемент, который выбирает минимальное = min(ek ). Значения весовых коэффициентов, соответствующие минимальной погрешности, устанавливается в ИНС.

При использовании градиентных методов (наискорейшего спуска, QuickProp и RPROP) вектор весовых коэффициентов и градиент разбиваются на п частей. Таким образом, каждый ИР-элемент на итерации самостоятельно вычисляет новое значение своей части весовых коэффициентов, а затем обменивается ими с другими ИР-элементами.

Повышение эффективности информационного процесса обучения на уровне подбора нейронов реализовано путем подбора на каждом ИР-элементс своей комбинации активационных функций.

Повышение эффективности информационного процесса обучения на уровне подбора структуры заключается в том, что ведущий ИР-элемент формирует начальную структуру и передает ее первому для подбора нейронов и весовых коэффициентов. Затем ведущий ИР-элемент формирует еще п — 2 структуры и передает их оставшимся ИР-элементам. Как только какой-либо ИР-элемент завершает обучение структуры и возвращает ее, ведущий проверяет ИНС на адекватность (по значению певязки или используя другие средства) и если полученная сеть неадекватна, то формирует новую структуру и посылает ее па освободившийся ИР-элемент. Такие действия продолжаются до тех пор, пока не будет получена структура ИНС, удовлетворяющая критерию остановки обучения (достижение требуемого значения невязки и т.п).

В третьей главе приведена аналитическая модель расчета эффективности информационных процессов обучения и выбора структур НСС. Для оценки эффективности предлагается вычислить сложность вычисления выходных значений ИНС, которая выражается как количество мультипликативных и аддитивных операций. Для приведения аддитивных операций

к мультипликативным введем коэффициент а, который прямо пропорционален времени, затрачиваемому на одну аддитивную операцию и обратно пропорционален времени, затрачиваемому на одну мультипликативную.

Полученные формулы позволяют получить число операций необходимых для вычисления выходных значений многослойного персептрона (3), сети Вольтерри (4) и сети каскадной корреляции Фальмана (5).

i^-i Nl- 1 'ц-i

= 52СлгЫ+ Е NiNi-1+aYlCN^i)+2crNL+cTP+ (3)

¿=0 ¿=1 ¿=0 NL- 1

+ 2cr Е NiNi-i + oL, ¿=1

1 Л.-1 JVt-1 \

= E +<ч E +2 £ +Wl ~ t=0 \i=0 ¿=1 /

ni-1 '«-1

= j2(ti0 + i) + P(N0 + N1)+<TYlt*(Vi)+ (5)

t=0 i=0 ¿=0 JV,-1

+2a E (^o + i) + 2aP(No + N1) + aN1+ 2<jP + <tL, i=0

где Ni - количество нейронов в t-ом слое, Слг(м»)> Cjv(Mt) - число мультипликативных и аддитивных операций, необходимых для вычисления выходного значения г-го нейрона, - число нейронов в сети, L и Р - количество входных и выходных нейронов. Анализ формул позволяет сделать вывод, что число операций, выполняемых при информационном процессе обучения на уровне невязки, вычисляется по формулам (6)-(8), а эффективность информационные процессы обучения, модифицированного на этом уровне - по формулам (9)-(10).

Ссо = lw(n ~ 1)(1 + 2<т) + M(zy + 2сгР + 1) + 1, (6)

С£к = (l + 2cr)(klw + lw + l)+'y{lw,v) + M(zy + 2cTP + 1) + 1, (7) = max (max (се0 + к{2<т + 1), (Сек + 7(1,и))) -lcr + an+l, (8)

С<°> = 2 + kP + (7N + 2akP + 'y{P,v)+P + 2aP, (9)

IeN(zy + 2а Р + 1) + 1 + Ле (л m

ае = "---т^-7

nIeZc + C%+ А£

где 1е - количество вычислений невязки, Ае - количество прочих операций информационных процессов обучения (не относящихся к вычислению значения невязки), М, М - количества строк обучающей выборки, с которыми работает ведущий и неведущий ИР-элементы, к - номер неведущего ИР-элемента, 7(I, у) - количество операций, выполняемых при передаче I элементов информации при скорости обмена между ИР-элементами и, Р -количество передаваемых элементов информации (Р = РМ + ЬМ), умах - максимально-возможная скорость интерконекта.

Число операций, выполняемых при информационном процессе полного сканирования, вычисляется по формулам (11)-(13), а эффективность - по формуле (14).

Ср о = 2<т^и, + /ц,(п — 1)(1 + 2и) + + 2оЗр, (11)

Срк = 1и1(к + 2ка + а + 1)+7(1и,,у) + г^Р + 2а^ + К(1 + 2<т)112)

= тах (тах (¿го + к\^2а + 1), {СРк + 7(АШ, и))) + (13) +ЛШ(1 + 2а) + 2сгп,

7г(АГгу + 2а ЫР + ЛГ) + 2а + 1) ^

где 1е - количество вычислений невязки, ./р, ./р - количества вариантов, перебираемых нулевым и ненулевыми элментом ИР, % - количество передаваемых элементов (7Ш = + 1).

При использовании градиентного метода количество операций вычисляется по формулам (15), (16), а эффективность - по формулам (17) (для метода наискорейшего спуска и (¿шскРгор) и (18) (для РРДОР).

Сс = шах (С^ + + С<£1 + 1и, + 2а'1и, + 7(Ц г;)) , (15)

г^о = 1а{рв + к(1-ш + 1)(2<т + 1) + 2а1ы{п — 1)) + Ас, (16)

+ 2а1а1тМР + N+ Ыр1у, + 5а1с1т + Ас . .

а<"с<э = ^

1а1ыЫгу + 2а1с1^Р + Ша1у, + ЫдК + 4 а1с1ю + Ас = -^ : :

где = ик + 1)(1 + 2а)+у(1п,у), = 1„(п- 1)(1 + 2<т), С« -число опреаций, необходимых для вычисления нового значения весовых ко-

эффициентов на нулевом и прочих элеметах ИР, 1с ~ количество итераций, \с количество прочих операций информационных процессов обучения.

Поскольку информационный процесс подбора нейронов подобен информационному процессу полного сканирования подбора весовых коэффициентов, то и эффективность вычисляется аналогично.

При выборе структуры сети количество операций, осуществляемых к-и ИР-элементом (включая пустые) вычисляется по формуле (20), а эффективность информационного процесса - по формуле (22).

= (Л + 1)5(Ь_1)+20Ь + 1)а5<*-1>+.г|1(5<*-1>) + (19)

¿=о

С3к = + + (20)

+ £

1=1

+ ] = г{п — 1) + /г — 1,

(г„(5(1)) + Ый™,!*) + А«) азЮ = -¡гг^-, (22)

птах \pskj + Фб

где щ) - количество операций, которое необходимо для добавле-

ния нейрона щ в г-ую структуру, г^(З^) - число операций, необходимых для подбора активационных функций (и весовых коэффициентов) сети в г-ой структуре, А^г - число операций, необходимых для проверки критерия остановки обучения при г-ой структуре, грз ~ задержки, возникающие из-за асинхронности процесса, - количество элементов в г-ой структуре, ^ ~ количество перебираемых структур, Л^/яь) - количество структур, перебираемых к-м ИР-элементов.

С увеличением числа ИР-элементов эффективность информационных процессов постепенно уменьшается, в результате чего временные затраты начинают уменьшаться менее быстро, более того постепенно они начинают возрастать, поскольку при большом количестве используемых ИР-элементов время, затрачиваемое на передачу данных и синхронизацию

Рис. 2: График зависимости стоимости решения задачи от числа

используемых ИР-элементов (©i(n, т(п)) - стоимость ожидания результатов вычисления, ©2(г(г?.)) - стоимость использования ресурсов, ©1 (п,т(п)) + ©2(т(п)) - суммарная стоимость решения задачи).

ИР-элементов оказывается больше, чем временные затраты на операции информационных процессов обучения и выбора структур НСС, производимые ИР-элементами.

При практическом использовании разрабатываемых информационных процессов и структур в частности для построенныя ИНС-моделей объектов имеет место следующая компромисная задача

61(п,т(п)) + в2(т(п))—> min, (23)

где т(п) - временные затраты на построение ИНС-модели при использовании п ИР-элементов вычисляются

т(п) = а I = {»£, wGF, wGQ, wGR, S}, (24)

О < n < пмах, ne N, (25)

где t - временные затраты на построение ИНС-модели при использовани одного ИР-элемента, а - коэффициент эффективности информационных процессов, выражается через формулы (4)-(22), в которых L G N, TV е N,

10 20 30 4С 50

Число элементов ИР

Рис. 3: График зависимости значения коэффициента эффективности информационных процессов при вычислении значения целевой функции от числа используемых ИР-элементов при прогнозировании улова креветки.

N € N, Р е N, € N, Cjv(Mi) € N, Cjv(Mi) € N, cr € R, 0 < сг < 1, M € N, lw € N. M e N, P € N, Ae € N,Ie e N, j(l,v) G R,7(l,v) > 0, v £ R, 0 < v < vMax, Jf e N, JF € N, 7ш £ N, /G £ N, JF 6 N, 7» 6 N.

Так, относительная стоимость использования ИР ©i (п,т(п)) прямо пропорциональна числу используемых ИР-элементов (лин. 1 на рис. 2), в тоже время стоимость решения ©2(т(п)) задачи снижается по мере увеличения числа используемых ИР-элементов (лин. 2 на рис. 2). Поскольку общая относительная стоимость включает в себя оба компонента, то существует такое число используемых ИР, при котором суммарная относительная стоимость (лин. 3 на рис. 2) будет минимальна. Таким образом, имеется задача, решаемая методом Гомори.

В четвертой главе представлены библиотеки, предлагаемые для разработки нейросетевого комплекса, способного работать на кластерных вычислительных системах. Описаны библиотеки, разработанные в ходе диссертационного исследования.

Также приводятся результаты вычислительных экспериментов, подтверждающих эффективность разработанных информационных процессов обучения и выбора структур НСС. Вычислительные эксперименты проводились с использованием кластерных систем Тамбовского государственного университета им. Г.Р. Державина (ТГУ), Тамбовского государственного технического университета (ТГТУ) и Московского вычислительного цента (МВЦ). В качестве объектов моделирования использованы прогнозирова-

Табл. 1: Значения коэффициента эффективности при прогнозировании улова

креветки.

Кластер ТГУ Кластер ТГТУ Кластер МВЦ

aWG (4 ИР-элемента) 0.9235 0.9199 0.9297

аша (6 ИР-элементов) 0.9221 0.9157 0.9291

awa (8 ИР-элементов) 0.9204 0.9105 0.9283

а£ (4 ИР-элемента) 0.8921 0.8822 0.9091

аЕ (6 ИР-элементов) 0.8906 0.8793 0.9079

аЕ (8 ИР-элементов) 0.8891 0.8769 0.9067

ние прогнозирование температуры воздуха в городе Тамбове, котировок валютных пар на рынке Forex и моделирование социального (тестирование школьников г.Тамбова) и биологического (рост бирценоза в открытой системе) объектов. Как можно видеть из табл. 1 и рис. 3, с увеличением числа ИР-элементов эффективность снижается. Это происходит из-за того, что при увеличении ИР-элементов эффективность разделения обучающей выборки снижается.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Построена модель выбора структур и информационных процессов обучения комплекса нейросетевых симуляторов позволяющая использовать для построения НСС параллельные вычисления и кластерные ситемы.

Построены аналитические модели расчета эффективности информационных процессов обучения и выбора структур НСС позволяющие определять оптимальное число используемых информационных ресурсов.

Поставлена и решена оптимизационная задача, направленная на определение оптимального числа информационных ресурсов, используемых для обучения НСС;

Проведено имитационное исследование, подтверждающее эффективность разработанной модели (0.87, 0.94) и построенного нейросимулятора.

Список основных публикаций по теме диссертации Публикации в изданиях, рекомендованных ВАК РФ

1. Крючин, О.В. Искусственные нейронные сети и кластерные системы.

Реализация нейросетевого симулятора // Вести. Тамб. ун-та. Сер. Естеств. и техн. науки. - Тамбов, 2010, Т. 15, Вып. 1. - С. 306-311.

2. Крючин, О.В. Сравнение эффективности последовательных и параллельных алгоритмов обучения искусственных нейронных сете на кластерных вычислительных системах / О.В. Крючин, A.A. Арзамасцев // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. - Тамбов, 2010, Т. 15. Вып. 6. -С. 1872-1889.

3. Крючин О.В. Разработка параллельных эвристических алгоритмов подбора весовых коэффициентов искусственной нейронной сети // Информатика и ее применение. Т. 4, Вып. 2. Апрель-Июнь 2010. - М.: 2010. - С. 53-56.

4. Крючин О.В. Нейросетевой симулятор с автоматическим подбором активационных фикций // Информационные технологии. М.: 2010. - №7 -С. 47-52.

5. Крючин, О.В. Нейросетевое моделирование социального объекта с использованием кластерных систем / О.В. Крючин, A.A. Арзамасцев, H.A. Зенкова, Д.В. Слетков // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. - Тамбов, 2010, Т. 15, Вып. 5. - С. 1460-1464.

6. Крючин О.В. Использование технологии искусственных нейронных сетей для прогнозирования временных рядов на примере валютных пар // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. - Тамбов, 2010, Т. 15, Вып. 1. - С. 312.

7. Крючин, О.В. Параллельные алгоритмы обучения искусственных нейронных сетей и их применение для прогнозирования численности популяции креветки в Индийском океане / О.В. Крючин, A.C. Козадаев, A.A. Арзамасцев // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. - Тамбов, 2010, Т. 15, Вып. 5. - С. 1465-1469.

8. Крючин, О.В. Универсальный программный комплекс для компьютерного моделирования на основе 8. искусственной нейронной сети с самоорганизацией структуры / A.A. Арзамасцев, О.В. Крючин, П.А. Азарова, H.A. Зенкова // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. - Тамбов, 2006, Т. 11, Вып. 4. - С. 564-570.

Другие издания:

9. Крючин, О.В. Универсальный симулятор, базирующийся на техноло-

гии искусственных нейронных сетей, способный работать на параллельных машинах / О.В. Крючин, A.A. Арзамасцев, А.Н. Королев, С.И. Горбачев, Н.О. Семенов // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. - Тамбов, 2008. Т. 13. Вып. 5. С. 372-375.

10. Kryuchin, O.V. A universal simulator based on artificial neural networks for computer clusters [Электронный ресурс] — Электрон, дан / O.V. Kryuchin, A.A. Arzamastsev, K.G. Troitzsch // Arbeitsberichte aus dem Fachbereich Informatik Nr. 2/2011. Koblenz. 2011. 13 p. -http://www.uni-koblenz.de/fb4reports/2011/2011_02_Arbeitsberichte.pdf.

11. Kryuchin, O.V. The efficiency comparison of serial and parallel algorithms of the training artificial neural networks with usage of computer clusters [Электронный ресурс] - Электрон, дан. / O.V. Kryuchin, A.A. Arzamastsev, K.G. Troitzsch// Arbeitsberichte aus dem Fachbcreich Informatik Nr. 4/2011. Koblenz. 2011. 12 p. -http://www.uni-koblenz.de/%7Efb4reports/2011/2011_04_Arbeitsberichte.pdf.

12. Крючин, O.B. Параллельные алгоритмы обучения искусственных нейронных сетей. // Матер. XV междун. конф. по нейрокибернетике. Т. 2. Симпозиум «Интерфейс "Мозг-Компыотер"», 3-й Симпозиум по нейроин-форматике и нейрокомпьютерам. - Ростов-на-Дону, Изд-во ЮСУ 2009. -С. 93-97.

13. Крючин, О.В. Параллельные алгоритмы обучения искусственных нейронных сетей с использованием градиентных методов // Актуальные вопросы современной науки, техники и технологий. Матер. II Все-рос. науч.-практич. (заочной) конф. - М.: Издат.-полиграф. комплекс НИ-ИРРР, 2010 - С. 81-86.

14. Крючин, О.В. Прогнозирование температуры в городе Тамбове при помощи аппарата искусственных нейронных сетей с использованием кластерных системах / О.В. Крючин, А,С. Козадаев // Интеллектуальные системы: Тр. девят. междун. симпозиума / Под ред. К.А. Пупкова. — М.: РУСАКИ, 2010. - С. G20-624.

15. Крючин, О.В. Параллельный алгоритм полного сканирования минимизации функций / О.В. Крючин, A.A. Арзамасцев// VII Всеросс. научн. конф. молодых ученых, аспирантов и студентов. Информационные технологии, системный анализ и управление. Таганрог, технолог, ин-т ЮФУ, Таганрог - 2009. - С. 270-272.

16. Крючин, O.B. Использование кластерных систем для обучения искусственных нейронных сетей при применении параллельного вычисления значения невязки // Наука и образование в развитии промышленной, социальной и экономической сфер регионов России [Электронный ресурс]: II Всерос. научн, Зворыкинские чтения. Сб. тез. докл. II Всерос. межвуз. научн. конф. (Муром, 5 февраля 2010 г.). — Муром: Изд.- полиграф, центр МИ ВлГУ, 2010.

17. Крючин, О.В. Параллельные алгоритмы обучения искусственных нейронных сетей // Информационные технологии и математическое моделирование (ИТММ-2009) : Материалы VIII Всероссийской научно-практической конференции с международным участием (12-13 ноября 2009 года). - Томск: Изд-во Том. ун-та 2009. - Ч. 2. с. 241-244.

18. Крючин, О.В. Свидетельство об официальной регистрации программы для ЭВМ №2007610622. «Многофункциональный программный комплекс для компьютерного моделирования на основе искусственной нейронной сети с самоорганизацией структуры» / A.A. Арзамасцев, О.В. Крючин, А.Н. Королев, H.A. Зенкова // Зарегистр. 8 февраля 2007.

21. Крючин, О.В. Свидетельство об официальной регистрации программы для ЭВМ №2008610860. «Универсальный симулятор, базирующийся на технологии нейронных сетей способный работать на параллельных машинах (UNS)» / A.A. Арзамасцев, О.В. Крючин, А.Н. Королев, М.А. Суспи-цына, Е.В. Вязовова, Н.О. Семенов // Зарегистр. 20 февраля 2008.

22. Крючин, О.В. Свидетельство об официальной регистрации программы для ЭВМ №2008614091. «SCRVL (Standart Creo Vector Library)» / O.B. Крючин, А.Н. Королев, A.A. Арзамасцев, С.И. Горбачев, Д.О. Квашенкин, М.А. Суспицына, Е.В. Вязовова, Н.О. Семенов // Зарегистр. 27 августа

23. Крючин, О.В. Свидетельство об официальной регистрации программы для ЭВМ №2010610579. «Клиент с графическим интерфейсом для универсального нейросетевого симулятора (QUNS)» / A.A. Крючин, A.A. Арзамасцев // Зарегистр. 14 января 2010.

Подписано в печать 12.09.13. Формат 60*84 1/16. Усл.печ.л.1 Тираж 100 экз. Заказ 936.

Отпечатано с готового оригинал-макета в типографии Издателъско-полмграфического центра Воронежского государственного университета.

394000, Воронеж, ул.Пушкмнская, 3.

2008.

Текст работы Крючин, Олег Владимирович, диссертация по теме Теоретические основы информатики

ГОУВПО «Тамбовский государственный университет имени Г.Р. Державина»

На правах рукописи УДК 519.711.3

04201364249

Крючин Олег Владимирович „

МОДЕЛИ ИНФОРМАЦИОННЫХ ПРОЦЕССОВ И СТРУКТУР ДЛЯ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ НЕЙРОСЕТЕВОГО СИМУЛЯТОРА

Специальность 05.13.17 - Теоретические основы информатики

Научный руководитель:

доктор технических наук, профессор

Арзамасцев А. А.

Воронеж-2013

ОГЛАВЛЕНИЕ

Перечень условных обозначений и определений 7

Введение 8

1 Состояние проблемы разработки нейросетевых симулято-ров и их информационных моделей 14

1.1 Модели искусственных нейронных сетей............ 14

1.1.1 Биологический прототип ................ 14

1.1.2 Модели искусственного нейрона ............ 16

1.1.3 Информационные процессы обучения искусственных нейронных сетей..................... 18

1.1.4 Анализ нейросетевых структур и информационных процессов их выбора................... 24

1.2 Анализ методов и подходов к построению нейросетевых си-муляторов............................. 28

1.2.1 Нейросимуляторы для персональных компьютеров . . 28

1.2.2 Повышение эффективности построения нейросетевых симуляторов за счет использования параллельных вычислений на кластерных системах........... 35

1.3 Выводы по главе 1 и постановка задачи диссертационного исследования........................... 38

2 Модель информационных процессов обучения и выбора структур нейросетевого симулятора 40

2.1 Построение модели информационных процессов обучения . . 40

2.2 Повышение эффективности информационного процесса обучения на уровне «вычисления значения целевой функции» . 42

2.3 Повышение эффективности информационного процесса обучения на уровне «подбора весовых коэффициентов»..........43

2.3.1 Метод полного сканирования............................43

2.3.2 Метод Монте-Карло......................................47

2.3.3 Градиентные методы......................................47

2.4 Повышение эффективности информационного процесса обучения на уровне «подбора активационных функций» .... 54

2.4.1 Компоненты нейрона......................................54

2.4.2 Подбор активационных функций........................56

2.4.3 Подбор активационных функций всех нейронов ... 61

2.4.4 Повышение эффективности информационного процесса обучения............................................63

2.5 Повышение эффективности информационного процесса выбора структуры сети..............................................64

2.5.1 Определение минимальной структуры..................64

2.5.2 Информационный процесс выбора структуры многослойного персептрона....................................65

2.5.3 Информационный процесс подбора структуры сети каскадной корреляции Фальмана и сети Вольтерри . 67

2.5.4 Повышение эффективности информационных процессов выбора структуры....................................67

2.6 Аналитические модели, связывающие эффективность построения ИНС-модели с характеристиками ИР................68

2.6.1 Вычисление выходных значений сети ..................68

2.6.2 Уровень «вычисления значения целевой функции» . . 72

2.6.3 Уровень «подбора весовых коэффициентов» ..........76

2.6.4 Уровень «подбора активационных функций нейронов» 81

2.6.5 Уровень «подбора структуры сети» ....................82

2.7 Подбор оптимального числа ИР-элементов....................84

2.7.1 Оценка эффективности по временным затратам ... 84

2.7.2 Целочисленная задача подбора оптимального числа ИР-элементов..............................................85

Выводы по главе 2......................................................88

3 Вычислительные эксперименты 91

3.1 Прогнозирование котировок валютных пар....................91

3.1.1 Описание задачи..........................................91

3.1.2 Вычислительные эксперименты..........................93

3.2 Моделирование биоценоза биологической системы............96

3.2.1 Описание задачи..........................................96

3.2.2 Вычислительные эксперименты..........................98

3.3 Прогнозирование температуры воздуха в городе Тамбове . . 100

3.3.1 Описание задачи..........................................100

3.3.2 Вычислительный эксперимент ..........................101

3.4 Определение зависимости профессиональной предрасположенности школьников от их личностных качеств..............103

3.4.1 Описание задачи..........................................103

3.4.2 Вычислительный эксперимент ..........................105

3.5 Выводы по главе 3................................................105

4 Техническая реализация нейросетевого симулятора 108

4.1 Нейросетевой комплекс..........................................108

4.1.1 Архитектура..............................................108

4.1.2 Протокол передачи данных..............................108

4.1.3 Язык конфигурации......................................110

4.1.4 Универсальный нейросетевой симулятор................111

4.1.5 Сервер симуляторов......................................113

4.1.6 Компонент сбора статистической информации .... 115

4.1.7 Клиентская программа ..................................116

4.2 Библиотеки и их описание........................................116

4.2.1 Средство межпроцессорной передачи данных на основе MPI......................................................117

4.2.2 Реализация высокоуровневой надстройки над функциями MPI ................................................119

4.3 Выводы по главе 4................................................124

Заключение 125

Список использованных источников 126

Приложения 137

П.1. Исходный код......................................................137

Модуль ядра обучения ИНС brain::ateacher....................137

Модуль подбора весовых коэффициентов brain::wteacher . . 150

Модуль подбора активационных функций brain::nteacher . . 188

Модуль подбора структуры ИНС brain::steadier .......206

Модуль ядра параллельных алгоритмов parallel::ateacher . . 214

Модуль параллельного подбора весовых коэффициентов

parallel: :wteacher.....................221

Модуль параллельного подбора структуры ИНС и активаци-

онных функций parallel: :teacher.............253

Модуль управления обучением и расчетом management . . . 257

Модуль симулятора simulator..................263

П.2. Свидетельства государственной регистрации.........279

П.2. Свидетельства государственной регистрации.........283

Перечень условных обозначений и определений

ИНС - это адекватная компьютерная модель биологической нейронной сети, отличающаяся от аналога в количественном отношении, но использующая базовые принципы устройства прототипа. В математическом плане ИНС - это набор определенных процедур, хорошо известных в различных областях математики (теория графов, численные методы, методы аппроксимации, методы нелинейного программирования и др.).

Информационный процесс обучения ИНС - выполнение набора действий, направленных на построение модели, основанной на нейронных сетях за конечное время.

Кластерная вычислительная система (вычислительный кластер) - это группа компьютеров, объединённых высокоскоростными каналами связи и представляющая с точки зрения пользователя единый аппаратный ресурс.

Нейросетевой симулятор (НСС) - это универсальная программа построения ИНС-моделей.

Нейросетевой комплекс - это комплекс, предназначенный для построения ИНС-моделей заданных объектов с использованием параллельных вычислений на кластерных вычислительных системах. В состав такого комплекса входят нейросетевой симулятор, реализующий параллельные алгоритмы построения ИНС-модели, сервер симуляторов и клиентская программа, предназначенная для взаимодействия с пользователем.

Введение

Актуальность. На современном этапе развития общества, которое характеризуется возрастающей сложностью информационных процессов с одной стороны и увеличением их количества с другой, особую значимость приобретают симуляторы, которые нашли широкое применение в различных областях науки и техники: системах искусственного интеллекта и распознавания образов, представления знаний, математического моделирования в различных сферах, кибернетике. В основу построения симуляторов были положены методы математического программирования, системного анализа, теории экстремальных задач, при этом математические модели, формализующие предметную область, строились на основе применения детерминированного или стохастического подходов с соответствующими системами допущений, что существенно ограничивало область эффективного применения.

Качественный скачок в области построения симуляторов произошел после введения в рассмотрения искусственных нейронных сетей (ИНС), впервые предложенных МакКалоком У. и Питсом У.

В настоящее время можно выделить ряд зарубежных (Хайкин С., Осовский С.) и российских ученых (Круглов В.В., Борисов В.В., Голушкин А.И.), которые внесли существенный вклад как в развитие теоретических методов построения и настройки нейросетевых структур, так и в расширение области их применения в различных сферах деятельности, включая и построение симуляторов. В связи с этим симуляторы, построенные на основе применения нейросетевых структур, целесообразно назвать неросе-

тевыми симуляторами (HCC).

Однако, при построении и настройке НСС имеет место существенный недостаток, сводящий на нет все приемущества, обеспечиваемые применением нейросетевых структур. Суть данного недостатка заключается в сложности организации соответствующих информационных процессов, обуславливаемых количеством необходимых вычислений.

В связи с этим особое значение приобретают вопросы, связанные с повышением эффективности организации информационных процессов и, как следствие, информационных структур, положенных в основу построения НСС.

Одним из наиболее перспективных подходов при решении данных вопросов является повышение эффективности информационных процессов, связанных с обучением НСС и выбором его структуры.

В настоящее время развитию данного подхода не было уделено должного внимания. В связи с этим тема научного исследования, направленная на повышение эффективности информационных процессов обучения и выбора структур при построении НСС, является актуальной.

Целью данной работы является повышение эффективности функционирования нейросетевого симулятора за счет построеных моделей параллельных информационных процессов обучения и выбора структур. Для достижения поставленной цели необходимо решить следующие задачи:

• построить информационную модель выбора структур нейросетевого симулятора и параллельных процессов обучения;

• построить аналитическую модель расчета эффективности информационных процессов обучения и выбора структур НСС;

• поставить и решить оптимизационную задачу, направленную на определение оптимального числа элементов информационных ресурсов (ИР-элементов), используемых для обучения НСС;

• провести имитационное исследование, подтверждающее адекватность разработанных моделей информационных процессов обучения и выбора структур.

Область исследования. Работа соответствует паспорту специальности 05.13.17 «Теоретические основы информатики», в частности пункту 2.1 «исследование информационных структур, разработка и анализ моделей информационных процессов и структур».

Объект исследования - нейросетевые симуляторы.

Предмет исследования - модели выбора структур и информационных процессов обучения и повышения эффективности нейросетевого си-мулятора.

Научная новизна:

• построена модель информационных процессов обучения и выбора структур нейросетевого симулятора, отличающаяся использованием новых способов реализации информационных процессов обучения НСС, адаптированных для использования большого числа информационных ресурсов;

• построены аналитические модели расчета эффективности, отличающиеся наличием выявленной связи, между эффективностью (скоростью) информационных процессов обучения и характеристиками используемых информационных ресурсов (временными затратами на передачу данных между ИР-элементами и т.д.);

• поставлена и решена оптимизационная задача, направленная на определение оптимального числа ИР-элементов, используемых для обучения НСС;

Практическая значимость работы состоит в следующем.

• разработано программное обеспечение, реализующее параллельные

информационные процессы обучения и выбора структуры НСС, повышающие эффективность построения ИНС-моделей;

• разработана программная реализация нейросетевого комплекса для кластерных вычислительных систем, включающая НСС, сервер си-муляторов и компонент сбора статистической информации, позволяющая эффективно использовать ресурсы кластерной вычислительной системы;

• разработана библиотека, реализующая язык конфигурации ИНС-моделей, базирующийся на XML и позволяющий эффективно формировать задания для обучения НСС;

• разработана высокоуровневая библиотека межпроцессорной передачи данных, базирущаяся на MPI и позволяющая эффективно использовать ИР-элементы.

s

Реализация и внедрение результатов работы. Результаты работы могут найти широкое применение при решении задач, требующих существенно снизить временные затраты на построение моделей. К таким задачам можно отнести моделирование объектов из различных сфер, прогнозирование временных рядов, распознавание образов и т.д.

Данная работа выполнена в соответствии с тематическим планом ТГУ им. Г.Р. Державина по теме «Разработка параллельных алгоритмов математического моделирования на основе нейросетевых методов и символьных вычислений» (регистрационный номер НИР 1.12.09 2009-2010 гг) и при поддержке программы Президента Российской Федерации (приказ Министерства от 03.08.2010 г. №832). Также эта работа поддержана фондом содействия развитию малых форм предприятий в научно-технической сфере «У.М.Н.И.К.» (проект «Программный комплекс для моделирования объектов социально-экономического назначения с использованием искусственных нейронных сетей на кластерных вычислительных системах») и выполнена в рамках совместного европейского проекта TEMPUS TACIS

«Join European Project on System Modernisation of University Management (SMOOTH, UM_JEP 24217-2003)».

Результаты работы внедрены в учебный процесс Тамбовского государственного университета им. Г.Р. Державина, производственный процесс компаний ООО «КреоВектор», ООО «КомпМарт» (г. Тамбов) и ООО «Служба Первая Компьютерная» (г. Котовск).

Апробация работы. Основные результаты диссертации обсуждались на конференциях и научных семинарах: XV международной конференции по нейрокибернетике «Интерфейс "Мозг-Компьютер"» (Ростов-на-дону, 2008), VIII-ой Всероссийской научно-практической конференции с международным участием «Информационные технологии и математическое моделирование (ИТММ-2009)» (Томск, 2009), II Всероссийской научно-практической конференция «Актуальные вопросы современной науки, техники и технологий» (Москва, 2010), VII Всероссийской научной конференции молодых ученых, аспирантов и студентов «Информационные технологии, системный анализ и управление» (Таганрог, 2009), Международном IX симпозиуме «Интеллектуальные системы» (Владимир 2010), II Всероссийской межвузовской научной конференции «Зворыкинские чтения» (Муром, 2010) и XV научной конференции преподавателей и аспирантов ТГУ им. Г.Р. Державина «Державинские чтения» (Тамбов 2010).

Публикации. По результатам диссертации опубликовано 18 печатных работ, из них 11 статей (8 статей в издании из Перечня ВАК для публикации научных результатов диссертаций на соискание ученой степени доктора и кандидата наук), 6 тезисов докладов в материалах Международных, Всероссийских и внутривузовских конференций, 4 свидетельства государственной регистрации программы для ЭВМ.

Основное содержание работы. Диссертация включает в себя перечень условных обозначений, введение, 4 главы, заключение, список используемых источников из 93 наименований и приложения. Работа изложена на 136 страницах, содержит 42 рисунка и 11 таблиц.

Во введении показана актуальность работы, сформулированы цели и основные задачи исследования, представлены основные научные результаты, приведено краткое содержание по главам.

В первой главе приведен анализ методов и подходов к построению НСС и рассмотрены существующие на данный момент. Проведен анализ нейросетевых структур, наиболее подходящих для использования в симу-ляторе, в результате чего были выбраны три - многослойный персептрон, сеть каскадной корреляции Фальмана и сеть Вольтерри. В результате анализа литературных источников сделан вывод, что на данный момент не существует симуляторов, использующих технологии ИНС и обеспечивающих высокую эффективность информационных процессов обучения, и, как следствие, снижается эффективность выбора структур НСС. Это позволило сформулировать цели и задачи диссертационного исследования.

Во второй главе представлена модель информационных процессов обучения и выбора структур ННС.

В третьей главе приведена аналитическая модель расчета эффективности информационных процессов обучения и выбора структур НСС.

В четвертой главе представлены библиотеки, предлагаемые для разработки нейросетевого комплекса, способного работать на кластерных вычислительных системах. Описаны библиотеки, разработанные в ходе диссертационного исследования.

В заключении приводятся основные результаты работы.

В списке использованных источников приведены основные источники по теме диссертации, а так-же работы самого автора.

В приложении приводятся листинги программ, свидетельства регистрации программ и акты внедрения.

1 Состояние проблемы разработки нейросетевых симуляторов и их информационных моде�