автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Суперпозиционное линейно-нелинейное нейроструктурное моделирование
Автореферат диссертации по теме "Суперпозиционное линейно-нелинейное нейроструктурное моделирование"
На правах рукописи
САРАЕВ Павел Викторович
СУПЕРПОЗИЦИОННОЕ ЛИНЕЙНО-НЕЛИНЕЙНОЕ НЕЙРОСТРУКТУРНОЕ МОДЕЛИРОВАНИЕ
Специальность 05.13.18- Математическое моделирование,
численные методы и комплексы программ
АВТОРЕФЕРАТ
диссертации на соискание ученой степени доктора технических наук
4 АПР 2013
Воронеж-2013
005051452
Работа выполнена в ФГБОУ ВПО «Липецкий государственный технический университет»
Научный консультант: Погодаев Анатолий Кирьянович, доктор технических наук, профессор, ФГБОУ ВПО «Липецкий государственный технический университет», заведующий кафедрой прикладной математики
Официальные оппоненты: Еременко Юрий Иванович, доктор технических наук, профессор, Старооскольский технологический институт им. A.A. Угарова (филиал) ФГАОУ ВПО «НИТУ „Московский институт стали и сплавов" », заведующий кафедрой автоматизированных и информационных систем управления;
Леденева Татьяна Михайловна, доктор технических наук, профессор, ФГБОУ ВПО «Воронежский государственный университет», заведующий кафедрой вычислительной математики и прикладных информационных технологий;
Матвейкин Валерий Григорьевич, доктор технических наук, профессор. ФГБОУ ВПО «Тамбовский государственный технический университет», заведующий кафедрой информационных процессов и управления
Ведущая организация: ФГБУН «Институт проблем управления
им. В. А. Трапезникова РАН», г. Москва
Защита диссертации состоится «25» апреля 2013 г. в 11:00 на заседании диссертационного совета Д 212.037.01 при Воронежском государственном техническом университете по адресу: 394026, г. Воронеж, Московский просп., 14.
С диссертацией можно ознакомиться в библиотеке Воронежского государственного технического университета.
Автореферат разослан «25» марта 2013 г.
Ученый секретарь
диссертационного совета Барабанов Владимир Федорович
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Развитие информационных технологий привело к возможности сбора н хранения значительных объемов данных. В настоящее время актуальной является задача глубокого анализа всей имеющейся информации для принятия оптимальных управленческих решений. Наиболее эффективным методом выявления полезной скрытой информации является математическое моделирование, позволяющее определять зависимости, которые содержатся в анализируемых данных. Основная задача в построении зависимостей -конструирование адекватных моделей, обладающих способностями качественно описывать объекты и явления, для получения достоверных выводов на основе исследования соответствующих моделей. Хотя временные затраты в данном случае играют менее важную роль по сравнению с качеством построения моделей, применение эффективных методов конструирования в большинстве случаев положительно сказывается на адекватности получаемых моделей.
В связи со значительной сложностью объектов и явлений, имеющих практический интерес, наибольший приоритет приобретают методы нейрострук-турного моделирования, которые развивают и обобщают нейросетевые методы. Они могут быть использованы для решения широкого круга задач во всех сферах деятельности, в том числе для решения аналитических задач прогнозирования ситуаций и управления развитием моделируемых объектов. Класс ней-роструктурных моделей содержит математические модели, состоящие из связанных между собой базовых нейроноподобных элементов и обладающие характерной суперпозиционной линейно-нелинейной по параметрам структурой. К ним могут быть отнесены нейронные сети прямого распространения, в том числе с неклассическими функциями активации, нейронные сети с радиальными базисными функциями, вероятностные нейронные сети, нейронные сети Фальмана, нечеткие системы Такаги-Суджено, нейро-нечеткие модели структуры А№К и другие. Для таких моделей задача структурной идентификации является частично решенной. Применение нейроструктурных моделей и методов не требует знания априорной информации о характере зависимостей, поэтому позволяет говорить об универсальности данного математического аппарата.
Центральным этапом построения нейроструктурных моделей является обучение - настройку параметров на основе набора вход-выходных данных. Для построения адекватных моделей должны применяться численные методы обучения, которые в отличие от большинства существующих в максимальной степени учитывают особенности задачи нейроструктурного моделирования. Разработка, реализация и тестирование алгоритмов построения и численных методов обучения моделей на основе технологии вычислительного эксперимента с применением современных компьютерных средств представляет собой как высокий научный, так и практический интерес. Это обосновывает актуальность темы диссертационной работы.
Диссертационная работа выполнена в рамках основных научных направлений Липецкого государственного технического университета «Вычислительная математика», «Алгебраические методы прикладной математики и информатики в моделировании и управлении сложными распределенными системами».
Положения работы поддержаны грантами Российского фонда фундаментальных исследований: № 09-07-97531-р_центр_а «Разработка математического и программного обеспечения нейросетевого моделирования на основе интервальных методов и псевдообращения» (2009-2011), № 09-07-00220-а «Разработка и исследование принципов построения универсальной интеллектуальной информационно-аналитической системы» (2009-2011), № 11-07-00580-а «Разработка математического и программного обеспечения для моделирования, прогнозирования, оптимизации и управления сложными системами на основе методов идемпотентной математики и интервального анализа» (2011-2012), № 11-07-97504-р_центр_а «Разработка и исследование методов нейросетевого моделирования и прогнозирования динамики сложных систем» (2011-2012).
Цель исследования. Целью диссертационной работы является разработка единого нейроструктурного подхода к математическому моделированию сложных систем на основе комплекса алгоритмов конструирования и численных методов обучения моделей, учитывающих их суперпозиционную линейно-нелинейную по параметрам структуру.
Задачи исследования. Для достижения цели были поставлены и решались следующие задачи:
— Разработка теоретических основ описания, функционирования и построения нейроструктурных моделей сложных статических и динамических систем - класса моделей нейросетевого типа, обладающих суперпозици-оиной линейно-нелинейной по параметрам структурой.
— Разработка, исследование, реализация и тестирование с применением технологии вычислительных экспериментов класса численных методов обучения нейроструктурных моделей на основе декомпозиции параметров на линейные и нелинейные с учетом суперпозиционного характера моделей.
— Разработка, исследование, реализация и тестирование на основе технологии вычислительных экспериментов численного метода гарантированного глобального обучения нейроструктурных моделей, учитывающего суперпозиционный линейно-нелинейный характер моделей.
— Совершенствование алгоритма оптимального нейроструктурного управления для решения аналитических задач, учитывающего динамические свойства моделируемых процессов, а также специфику задачи построения нейроструктурных моделей.
— Разработка структуры и комплекса программ с применением современных информационных технологий для моделирования и анализа данных на основе предложенных методов построения, обучения и применения
нейроструктурных моделей, учитывающих их суперпозиционный линейно-нелинейный по параметрам характер.
— Создание методики нейроструктурного моделирования для решения аналитических задач на основе предложенных алгоритмов и численных методов с применением разработанного комплекса программ.
Методы исследования. В работе использовались методы математического моделирования, численные методы, методы искусственного интеллекта, методы оптимизации, теория нейронных сетей, нечеткая логика, теория управления, линейная алгебра, методы интервального анализа, объектно-ориентированное программирование.
Научная новнзна. В диссертационной работе получены следующие результаты, характеризующиеся научной новизной и формирующие новый ней-роструктурный подход к моделированию сложных систем:
— Теоретические основы функционирования нейроструктурных моделей сложных систем, отличающиеся возможностью описания широкого класса моделей суперпозиционной линейно-нелинейной по параметрам структуры, развивающие и обобщающие нейросетевой подход к моделированию.
— Единый подход к конструктивному построению нейроструктурных моделей, отличающийся монотонностью снижения ошибки обучения при наращивании структуры на основе использования различных функций активации нейроноподобных элементов, позволяющий реализовать универсальные аппроксимационные способности моделей.
— Блочные рекуррентно-итерационные процедуры для конструирования и обучения нейроструктурных моделей, отличающиеся применением формулы блочного псевдообращения Клайна, повышающие эффективность численных методов обучения моделей за счет псевдообращения матриц меньших размеров.
— Класс численных методов обучения нейроструктурных моделей, отличающихся декомпозицией вектора весов и применением линейно-нелинейного соотношения на основе псевдообращения, численного метода дифференцирования обычных и взвешенных псевдообратных матриц и учетом суперпозиционного характера моделей, позволяющих снизить размерность пространства итерационно оцениваемых параметров.
— Модифицированный интервальный алгоритм Гревиля для оценивания интервального псевдообращения матриц, отличающийся возможностью вычисления псевдообратных матриц к интервальным и позволяющий оценивать устойчивость операции псевдообращения для исходной матрицы в численных методах обучения моделей.
- Численный метод глобального обучения нейросгруктурных моделей от-личающиися применением алгоритмов интервального анализа и сжимающих операторов на основе учета суперпозиционного линейно-нелинейного характера моделей, обеспечивающий выполнение универсальных ап-проксимационных свойств, а также позволяющий повысить адекватность моделирования.
- Алгоритм оптимального управления сложными системами с упреждением на основе нейроструктурного моделирования, который учитывает динамические свойства систем и суперпозиционный характер моделей и позволяет синтезировать управление с учетом его влияния на поведение объекта в течение нескольких периодов.
- Структура и методика применения комплекса программ для нейроструктурного моделирования и анализа данных в информационных системах которые отличаются инвариантностью относительно предметной области и позволяют применять разработанные алгоритмы построения и численные методы обучения для принятия оптимальных управленческих решений. г
Практическая значимость работы заключается в комплексном исследовании научных проблем математического моделирования на основе нейроструктурного подхода, связанного с разработкой, обоснованием и тестированием численных методов обучения, наиболее полно учитывающих суперпозиционную линеино-нелинейную по параметрам структуру моделей, с применением современных компьютерных технологий. Предложенные алгоритмы и методы для решения технических и экономических прикладных проблем позволяют повысить качество принимаемых решений.
Предложен универсальный подход к анализу данных. Разработан комплекс программ, предназначенный для аналитической обработки данных в информационных системах предприятий и организаций независимо от сферы деятельности. Он отличается наличием средств универсального хранения данных и средств оперативной аналитической обработки информации. Основой комплекса является система нейроструктурного моделирования на базе разработанных алгоритмов построения и численных методов обучения моделей
На основе нейроструктурного подхода разработаны алгоритм и программа для анализа эффективности методов доступа к базам данных, отличающиеся использованием объективной информации о времени выполнения запросов и позволяющие оценивать время извлечения информации.
Соответствие паспорту специальности.
На основе нейроструюурного подхода и разработанных и реализованных в виде комплексов проблемно-ориентированных программ численных методов учитывающих суперпозиционную линейно-нелинейную по параметрам структуру моделей, получены результаты, которые формируют новые методы мате-
матического моделирования объектов и явлений. Разработанная система нейро-структурного моделирования, являющаяся основой информационно-аналитического комплекса программ, имеет важное значение для повышения качества принятия управленческих решений в широком классе прикладных областей.
Результаты соответствуют следующим пунктам паспорта специальности 05.13.18 «Математическое моделирование, численные методы и комплексы программ»: п. 1 «Разработка новых математических методов моделирования объектов и явлений»; п. 3 «Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий»; п. 4 «Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента»; п. 8 «Разработка систем компьютерного и имитационного моделирования».
Внедрение результатов работы. Результаты диссертационного исследования прошли апробацию, внедрены или использованы: для прогнозирования дефектов горячекатаного проката в зависимости от технологических параметров разливки стали на машинах непрерывного литья заготовок на основе ней-роструктурных моделей в ОАО «НЛМК»; для моделирования спроса населения на услуги междугородной телефонной связи и оптимизации тарифов на основе методов нейроструктурного моделирования и разработанного алгоритма оптимального управления в ОАО «Липецкэлектросвязь»; для оценки времени доступа к информационной системе документооборота предприятия на основе нейроструктурного подхода и алгоритма анализа эффективности запросов к базам данных в ОГУП «Липецкоблтехинвентаризация»; для прогнозирования объемов добычи сырьевых ресурсов на основе программы нейросетевого моделирования и прогнозирования в ООО «Липецкое карьероуправление».
Результаты диссертационной работы использованы в учебном процессе ЛГТУ при изучении студентами специальностей 230401.65 «Прикладная математика», 220501.65 «Управление качеством», направления магистратуры 231300.68 «Прикладная математика» дисциплин «Математическое моделирование», «Численные методы», «Алгоритмы оптимизации», «Интеллектуальные системы», «Оптимальное управление нелинейными системами», в научно-исследовательской работе студентов, при проведении производственных и преддипломных практик, при выполнении курсовых и дипломных работ.
Апробация работы. Теоретические и практические результаты, полученные в процессе исследования, докладывались и обсуждались на международных конференциях: «Теория активных систем» (Москва, 2007), «Идентификация систем и задачи управления» БЮРЯСОЭ (Москва, 2009), «Молодежь в науке-2011» (Республика Беларусь, Минск, 2011), «Управление развитием крупномасштабных систем» МЬ80'2011 (Москва, 2011), мультиконферен-ции «Управление большими системами-2011» (Москва, 2011); на международ-
ном симпозиуме: GAMM-IMACS по научным вычислениям, компьютерным арифметикам и доказательным численным методам SCAN-2012 (Новосибирск, 2012); на Всероссийских конференциях: «Управление большими системами» (Воронеж, 2007; Липецк, 2008; Ижевск, 2009; Пермь, 2010; Липецк, 2012); «Нейроинформатика» (Москва, 2008); Молодежной конференции по проблемам управления (Москва, 2008); «Управление, информация и оптимизация» (Переславль-Залесский, 2010; Звенигород, 2012), а также на научных семинарах кафедры прикладной математики Липецкого государственного технического университета и научно-образовательных семинарах «Математическое моделирование, информационные технологии и проблемы управления» Липецкого научно-образовательного центра по проблемам управления.
Научные работы по теме диссертационного исследования были отмечены дипломами победителя на конкурсах: научных работ молодых ученых по теории управления и ее приложениям «Нейросетевая идентификация и оптимальное управление экономическими системами» и «Оптимизационные свойства псевдообратных матриц в алгоритмах идентификации моделей» (Москва, 2007, 2009); на Премию им. С.Л. Коцаря для молодых ученых Липецкой области «Идентификация нейросетевых моделей и управление сложными системами» (Липецк, 2008).
Публикации. Основные научные результаты, полученные в ходе диссертационного исследования, опубликованы в 80 работах. 50 наиболее значимых приведены в списке публикаций, из них 2 монографии, 16 статей в изданиях из Перечня российских рецензируемых журналов, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук, 2 свидетельства о регистрации программ для ЭВМ в Роспатенте, 30 публикаций в других периодических научных журналах и трудах международных и всероссийских конференций и симпозиумов.
Структура и объем работы. Диссертация состоит из введения, шести глав, заключения, библиографического списка из 227 наименований, 4 приложений. Работа изложена на 280 страницах машинописного текста, содержит 67 рисунков и 16 таблиц.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность работы, научная новизна, практическая значимость, сформулированы цель и задачи исследования.
В первой главе рассмотрены структура и методика применения нейронных сетей (НС) прямого распространения (НСПР); рассмотрены алгоритмы обучения НСПР, основанные на численных методах (4M) локальной оптимизации и методах решения нелинейных задач о наименьших квадратах (НЗНК); исследованы подходы к глобальной оптимизации; проанализированы алгоритмы построения НСПР оптимальной структуры; рассмотрена возможность применения НСПР для решения задач анализа данных.
НСПР имеют суперпозиционную линейно-нелинейную структуру:
у = уЫ = „М + ^(^(л,-!) ( _ ^(1) + ^ ^ (1)
где 16Е"- входы; </£1-выход; т - число слоев; сг® - функции активации (ФА) нейронов 1-го слоя; € К^' - веса фиктивных единичных входов; Ц -число нейронов в 1-ом слое; И7]® 6 кЛ"'хЛГ'-' - веса между нейронами (I - 1)-го и 1-го слоев. Основной этап построения НСПР - обучение, сутью которого является определение весов ии б минимизирующих функционал качества обучения
к
= (2)
¿=1
где к - число примеров обучающего множества у^}, г = 1,____к, х, € М" -
вектор входов г-го примера, уг е Е - указание учителя, у-^хи) - выход НСПР для г-го примера. Обучение НСПР является НЗНК относительно вектора весов ги, имеющей многоэкстремальный характер.
Исследование литературных источников выявило наличие других классов моделей, функционально эквивалентных НСПР, и при этом отсутствие единого подхода к построению и применению моделей такой структуры. Было выявлено отсутствие алгоритмов конструирования и ЧМ обучения такого класса моделей, наиболее полно учитывающих квадратичный характер функционала качества обучения и их суперпозиционную линейно-нелинейную по весам структуру. Для решения этих проблем были сформулированы задачи формирования единых теоретических основ и методов построения, обучения и применения суперпозиционных линейно-нелинейных моделей, аналогичных НСПР, включая задачу разработки комплекса программ для моделирования и анализа данных на основе разрабатываемых методов.
Во второй главе введены понятия нейроноподобных элементов (НПЭ) и ггейро структурных моделей (НСМ), которые обобщают понятие НСПР; рассмотрено место НСМ в структуре математических моделей; введен класс нелинейных НС Вольтерра; исследовано применение различных ФА; предложен алгоритм конструктивного построения НСМ, позволяющий гарантировать монотонность снижения ошибки обучения; разработаны блочные рекуррентно-итерационные процедуры (БРИП) - алгоритмы конструктивного наращивания и обучения НСМ за счет декомпозиции вектора весов и блочного псевдообращения на основе формулы Клайна.
НПЭ - базовый элемент, функционирование которого подобно искусственному нейрону. НПЭ преобразует вход хеГв выход у е Ж с возможным использованием векторов весов ю е Ел':" и априори задаваемых параметров а е где Л^,, > 0, по формуле:
у = a(net(x,lu),a).
Здесь net : R" x —> R - уровень активности НПЭ - дифференцируемая функция по весам ш; и : I х Кл'а —> К - дифференцируемая ФА. по аргументу net(x, w). В частном случае net(x, w) = X{Wi - взвешенная сумма входов. При Na > О ФА является параметризованной. НСМ - совокупность связанных послойно организованных НПЭ. В отличие от НСПР на входы НПЭ слоя (г 4-1) могут поступать выходы НПЭ у<1,]\ I = 0...., г, от любого из предыдущих слоев. ФА выбирается из множества допустимых ФА Г2, то есть £ П. Множество П может ограничиваться конкретным классом применяемых НСМ.
Класс НСМ включает модели, обладающие структурами, аналогичными НСПР, или, по-другому, нейроподобные модели (рис. 1). Нейроструктурное мо-
Рис. 1. Подклассы нейроструктурных моделей
делирование - математическое моделирование на основе НСМ, являющееся развитием и обобщением подхода, основанного на применении НСПР.
Для моделирования дискретных динамических систем предлагается использовать расширения НС Вольтерра, введенных С. Осовским, за счет применения нелинейных ФА:
y[t] = Wo + X [t - ii]cxh i ... I wili2 + ¿зКз (Whiih + ■■■)
h = l \ V ¿3=1
Модели данного вида также имеют характерную структуру НСМ.
Применение неклассических ФА позволяет повысить вычислительные способности НСМ. Применение периодических тригонометрических функций, например a (net) = sin(nei), позволяет при моделировании динамических процессов выявлять не только трендовую, но и сезонную составляющую.
Для конструктивного построения НСМ предлагается алгоритм, приведенный на рис. 2. На начальном этапе выбирается тип НСМ, что определяет специфику связей в НСМ и ограничения на выбор ФА. Для сохранения гарантий монотонности конструирования моделей множество Г2 должно включать единичную ФА сг(пе£) = пеЬ. При наращивании структуры для сохранения монотонности убывания ошибки обучения необходимо применять специальный способ задания некоторых вновь добавляемых весов. При добавлении нового НПЭ в последний скрытый слой его выход должен идти на выходные НПЭ с нулевыми весами. При формировании нового скрытого слоя перед выходным его выход должен поступать на выходные НПЭ с единичными весами, а при наличии фиктивных входов для выходных НПЭ соответствующие им веса должны быть нулевыми.
БРИП основаны на применении формулы Клайна для блочного псевдообращения, что обосновывается вычислительными преимуществами при псевдообращении матриц небольших размеров. БРИП могут быть применены к последовательному конструированию оптимальной структуры НСМ. При добавлении НПЭ в последний скрытый слой появляется аддитивная добавка
Лгт_2
у(и>, ад; х) = т{ ^ й}0,?+1 + Щл+1?/т~2'г)),
г=1
где и/ 6 Клг*"-2+2 - вектор, составленный из весов добавленного НПЭ и веса от добавленного к выходному НПЭ; у(т-2'!) - выход г-го НПЭ (тп — 2)-го слоя. Добавленная функция зависит от части вектора весов м; предыдущей модели -весов НПЭ скрытых слоев, находящихся с 1-го по (т — 2)-й слои. Новая НСМ реализует функцию
2/тгею(гВ, ж) = у (ад; х) + у (ад, ад; х). Корректировка весов может быть представлена в следующей форме:
Дад = Цупеги(щ, аде) - у) = Ь(у(ад() + у(щ) - у),
Аги = (У^у + V1у)+ (у + у - у - У^уДад), (3)
где (-)+ - операция матричного псевдообращения. Получается зависимость приращения вектора новой НСМ от приращения этого вектора в предыдущей модели и приращения весов добавленного НПЭ:
Лги - (Дад),, + (У^у) + (у - У^уДад) ,
где (Дад),, - приращение, полученное для первоначальной модели у(ад, х), обозначенное так для отличия его от Аги в новой модели. Матрицы Якоби V^у и У ~у, а в случае многослойной НСМ и получаются на основе алгоритма,
9
Рис. 2. Алгоритм конструирования НСМ
учитывающего суперпозиционный характер моделей, который аналогичен методу обратного распространения ошибки (ОРО). При добавлении нового слоя из одного НПЭ перед выходным реализуется новая модель
Vnewiß. w\ х) - wa(y(w, х)).
В этом случае
Aw = (Vly)+ D+ro+ (у + у-у- ФД«?), (4)
где и}+ - скаляр (ui = 0 выполняется лишь в вырожденных случаях), диаго-
Г к
нальная матрица D¡!~ = diag < [^.(й)] f легко определяется.
В третьей главе получена формула 4M нахождения производной псевдообратной матрицы; разработан класс 4M обучения НСМ за счет декомпозиции вектора весов моделей на линейно и нелинейно входящие и использования линейно-нелинейного соотношения (JIHC) на основе псевдообращения; разработано программное обеспечение (ПО), с помощью которого проведено тестирование разработанного класса 4M обучения и сравнительный анализ с традиционными методами обучения; исследована точность и эффективность алгоритмов псевдообращения, в том числе блочного.
Зависимость, реализуемая НСМ с единичными ФА в НПЭ выходного слоя, может быть представлена в виде
ч
у {и, v; х) = ^ Ujipj(v, х) = <ф{у, х)ти, j=i
где tj}j{v,x) - выход j-то НПЭ последнего скрытого слоя, v 6 u е 1'-нелинейно (веса скрытых НПЭ) и линейно (веса выходных НПЭ) входящие веса, w = [ vT ит ] . Функционал (2) можно представить в виде
к к / q \ 2
J(u, v) = Y^ (Ли> Zi) - Vif = -Vi) • (5)
i=1 i=1 \j=l /
Выходы НСМ на обучающем множестве получаются по формуле у = Ф(г<)и, где Ф(г>) 6 ~з1~УЧ - матрица выходов НПЭ последнего скрытого слоя. Для фиксированного вектора v определение оптимальных значений вектора и может быть произведено с помощью JIHC
и = Ф(г>)+?7- (6)
Оптимизация (2) с учетом ЛНС (6) эквивалентна задаче относительно весов v:
J{v) = ||Ф(и)Ф(г;)+у - yf min. (7)
Для разработки ЧМ обучения необходимо знать производную псевдообратной матрицы (А+(у))'у = (А+(у))', состоящей из элементов-функций. Непосредственное вычисление возможно в простейших случаях, поэтому был разработан ЧМ вычисления производной псевдообратной матрицы.
1. Производная обратной матрицы:
(А-у^-А^А'^вА-1), (8)
где А ® В = • В] - тензорное произведение матриц, 1Р - единичная матрица порядка р.
2. Производная прямоугольной матрицы полного столбцового ранга:
(В+У = В+В+т(ВтУ(1р ® (4 - ВВ+)) - В+В'{1Р ® £+). (9)
3. Производная прямоугольной матрицы полного строкового ранга:
{С+)' = (/, - С+С) (СТУ (1Р ® С+ТС+) - С+С' (Гр ® С+). (10)
4. Производная матрицы произвольного размера и ранга:
(Л+)' = (7, - Л+Л)(ЛГ)'(/Р ® Л+гЛ+)+
+ Л+Л+Г(ЛГ)'(/Р ® (Д - лл+)) - Л+Л'(/р ® Л+). (11)
Взвешенное псевдообращение позволяет решить более широкий крут оптимизационных задач. Пусть А\ш с [Р/'хт - взвешенная псевдообратная матрица, где М е Ктхт, N е Кпхп - положительно определенные весовые матрицы. Связь между взвешенной и обычной псевдообратной матрицей описывается выражением
I ( 1 1
Амк = {М2АЫ~2 J М5, (12)
1
где М 2 - матрица, квадрат которой равен Л/. Метод вычисления производной взвешенной псевдообратной матрицы опирается на полученную формулу (11):
(л^У (1р®Ь+) +
-кЛГ5(£+)' (/р® . (13)
В частном случае матрицы М и N являются числовыми, не зависят от вектора параметров у, их производные равны нулевым матрицам. В результате вместо (13) получается более простая формула:
= ® М^ . (14)
Дифференцирование взвешенных псевдообратных матриц полезно при моделировании динамических зависимостей для учета давности поступления данных. Для разработки класса ЧМ обучения НСМ введем обозначение вектора:
H(v) = ф(и)ф(v)+y-y = (<¡>(v)V(v)+ - Ik)y, (15)
матрица Якоби для которого имеет вид:
Н' = Ф+Г(Фт)'(1р ® (Д - ФФ+)у) + (4 - ФФ+)Ф'(/р ® Ф+у) е ЖкхР. (16)
На основе (16) можно реализовывать ЧМ обучения НСМ, базирующиеся на методах оптимизации дифференцируемых функций и на методах решения НЗНК. В частности, ЧМ на основе алгоритма Гаусса-Ньютона с псевдообращением запишется так:
К = Д. - ФФ+,
L = /\ф' (/р ® Ф+) + Ф №(ФТ)' (/р ® К), R! = L(Ip®y),
Av = -[(R')tR'}+ (R'fR, (17)
где Дг; - направление изменения вектора и.
Разработанный класс ЧМ распространяется на многовыходные НСМ за счет представления возникающей матрицы невязок Н(у) = Ф(г>)Ф(?;)т> — Y с помощью операции векторизации vec, минимизации подлежит функционал
|| уесЯ(и)||2 = || vec (ф(?;)ф(?;)+у) - vec ?||2.
Разработанный класс ЧМ применим к обучению многослойных НСМ. Чтобы найти матрицу Якоби для Ф(г>), предложен алгоритм, учитывающий суперпозиционный характер НСМ, аналогичный ОРО. Производная
ду(т~1)
,hn> i = l,--.,Nm_i, h — ... ,т — 2, k=>l,...,Nh,
dwj ' '
где y¡m l\v, x) - выход г-го НПЭ последнего скрытого, (m — 1)-го, слоя; Wjh'k' -j-й вес к-то НПЭ h-го слоя, определяется так:
ду[т-1) ду^ дг/к dnetf dwf'k) dy>¿ dnetf .*> dwf¿) '
о (m-1) Nh+1 „ (/¡+1)
s(i,h,k) = 2'Ei = y- h = m- 2...., 1.
H ti 4
13
Начальное условие для данного рекуррентного алгоритма:
1, г=з О, х±3
Для тестирования разработанного класса ЧМ обучения НСМ на основе декомпозиции задачи обучения и ЛНС было разработано ПО, в котором реализованы 8 методов, осуществляющих выбор направления минимизации, для решения задачи (2) и для минимизации модифицированного функционала (7). Проведены вычислительные эксперименты, в которых обучались 10 НСМ. Использовалось 10 множеств различных объемов, выбранных случайно от 20 до 200 примеров. Генерировалось 2 множества текущего объема и 2 начальных распределения весов. Всего было решено 400 задач. На рис. 3 приведены результаты попарного сравнения ЧМ обучения НСМ на основе анализа качества решения каждой задачи. Алгоритмические реализации на базе разработанного класса ЧМ на основе декомпозиции задачи обучения и ЛНС в большинстве случаев более качественно определяют решение задачи. Причины превосходства методов ВРСБ и ББР для решения НЗНК над ЧМ на основе декомпозиции задачи заключаются в двойном псевдообращении матриц при расчете направления минимизации, что приводит к ошибкам округления. Анализ показал, что использование ЧМ обучения НСМ на основе декомпозиции и ЛНС имеет полное преимущество при объемах обучающих множеств менее 60.
Для определения лучшего решения на основе разработанного класса ЧМ обучения НСМ обычно требуется больше времени. При этом количество итераций, необходимых для решения задачи, для разработанного класса ЧМ меньше. Среднее время работы метода на одну итерацию обучения приведено на рис. 4. Как видно, для разработанного класса ЧМ обучения каждая итерация, как правило, оказывается более затратной по времени. Это свидетельствует о лучшем качестве определения направления минимизации разработанным классом ЧМ обучения из-за учета линейно-нелинейной структуры.
Основой методов обучения НСМ на основе декомпозиции является операция псевдообращения. Возможные подходы к увеличению эффективности вычислительных процедур: применение наиболее устойчивого и эффективного алгоритма псевдообращения матриц, применение операции блочного псевдообращения матриц на основе формулы Клайна. Было проведено сравнение точности и эффективности алгоритмов псевдообращения Гревиля, Фадцеева, на основе СЖ-разложения, на основе БУО-разложения, алгоритм Бен-Израиля. Точность t работы алгоритмов оценивалась в соответствии с выполнением совокупности условий Мура-Пенроуза:
t = \\А-АА+А\\ + \\А+-А+АА+\\ + \\ (А4+)Т-ЛА+|| + || (А+А)Т-А+А\\. (18)
Исследования показали, что наиболее быстро работает алгоритм на основе С}Я-
Рис. 3. Попарное сравнение алгоритмов по ошибке обучения
разложения. Его целесообразно применять при псевдообращении полноранговых матриц. Наиболее неэффективен алгоритм Гревиля, причем с увеличением количества элементов работа алгоритма Гревиля замедляется очень сильно. Если рассматривать самые точные алгоритмы для матриц произвольного ранга, то можно рекомендовать алгоритмы на основе SVD-разложения и Бен-Израиля.
Эффективность вычислений может быть увеличена также при использовании формулы Клайна псевдообращения блочных матриц. Вычислительные эксперименты для блочного псевдообращения матриц с небольшим количеством столбцов в зависимости от количества столбцов, на которое производится разбиение исходной матрицы, показали, что наиболее эффективно разбиение по одному столбцу. Чем больше в исходной матрице строк, тем эффективнее становится алгоритм такого блочного псевдообращения. Исследование матриц с небольшим количеством строк в зависимости от количества столбцов, на которое производится разбиение исходной матрицы, показало, что наиболее эффективно разбиение на блоки с количеством столбцов п = round (¿/4), где I -количество столбцов исходной матрицы, round(-) - операция округления.
Рис. 4. Среднее время одной итерации
В четвертой главе предложено применение методов интервального анализа (ИА) в обучении НСМ, гарантирующих глобальность оптимума; разработаны сжимающие операторы для ЧМ обучения, учитывающие особенности задачи - квадратичный функционал качества обучения и суперпозиционную структуру НСМ; введено понятие интервальной псевдообратной матрицы и предложен модифицированный алгоритм Гревиля для ее оценивания, что позволяет применять ее для оценки устойчивости псевдообращения и использовать в качестве сжимающего оператора; разработано ПО для тестирования разработанного ЧМ; проведено исследование эффективности разработанного ЧМ и сравнительный анализ с методом обучения, основанном на алгоритме ОРО и методе встряхивания весов для поиска глобального оптимума.
В ИА работают с интервалами [.т] = [ж, х] = {х £ К : х < х ^ х}, где х, х - нижняя и верхняя границы интервала соответственно. Арифметические операции с интервалами сводятся к вычислениям над границами, образуя интервальную арифметику Ж. Основная идея интервальных методов глобальной оптимизации - последовательное разбиение исходного бруса (интервального вектора) [ш] Е Ж71 и оценка образа функции на подбрусах. Сходимость обеспечивается монотонностью интервальных функций.
Интервальные методы могут быть применены к обучению НСМ с учетом
суперпозиционного характера моделей. Это позволяет реализовать на практике универсальные аппроксимационные способности и повысить адекватность построенных моделей. Чтобы использовать ФА, области значений которых содержат 0, и не допускать использования функций, у которых одна из границ может получиться близкой О, предложено применять модифицированные ФА, отличающиеся от традиционных на некоторую константу. Например, вместо униполярной сигмоидной логистической ФА целесообразно применять функцию
= 1 + е-пег + (19)
Для проведения вычислительных экспериментов была разработана программа в среде CodeGear 2009 Borland С++ Builder. ПО позволяет анализировать качество и эффективность метода обучения при различных параметрах: начальных брусах, критериях останова, тестах на перспективность бру-сов, функциях включения, способах бисекции ведущего бруса, использовании локального метода обучения, сжимающих операторах. Исследование проводилось на тестовой функции
2 = 0,5 sin(7ra;2) sin(27ry) (20)
при -l^x^l, —1<2/^1на обучающем множестве из 500 примеров. Сводные результаты вычислительных экспериментов и сравнение ЧМ обучения на основе ИА с методом ОРО приведены в таблице 1.
В таблице 2 приведены результаты исследования эффективности ЧМ обучения на основе ИА при использовании различных функций включения. Наибольшую эффективность дает применение комбинации естественной и центрированной функций включения. В таблице 3 приведены данные исследования эффективности применения локального поиска для модификации теста в средней точке для ЧМ обучения на основе ИА. Применение локальных методов поиска не показало свою эффективность, что можно объяснить неэффективностью их применения для брусов малых размеров.
В ряде случаев обучение НСМ приводит к необходимости решения оптимизационных задач большой размерности, поэтому для повышения эффективности целесообразно применение сжимающих операторов. Разработаны и предложены к применению сжимающие операторы:
1. Оператор Сь основанный на учете линейно-нелинейной структуры НСМ для линейно входящих весов:
[«;,] = [u,.] п см,
СМ =-п \ - \ I tz':*]
' ММ,а*) Г
17
■ X] М*» (М-(21)
Таблица 1. Результаты применения ЧМ обучения НСМ на основе ИА и ОРО
1 Показатель НСМ без скрытых НПЭ НСМ с 1 скрытым НПЭ НСМ с 2 скрытыми НПЭ
ЧМ на основе ОРО
Средняя квадратическая ошибка 0,2312 1,1904 1,1704
Время обучения, мин.:с. 00:01 01:23 02:12
ЧМ на основе ИА
Средняя квадратическая ошибка (интервал) [0,1602; 0,2595] [0,1404; 0,3409] [0,0351; 0,8796]
Значение в средней точке 0,2063 0,2046 0,1994
Время обучения, мин.:с. 00:07 25:20 33:06
Ширина бруса 0,0625 0,0850 0,1000
Брусов в списке 78 23309 27028
Удалено по тесту в средней точке 46 1128 0
Удалено по тесту на необходимое условие оптимума 99 1784 48
Таблица 2. Время обучения при разных функциях включения (мин.:с.)
Функция включения НСМ без скрытых НПЭ НСМ с 1 скрытым НПЭ НСМ с 2 скрытыми НПЭ
[}}п 00:09 31:09 39:13
[/]с 00:12 46:35 58:14
[/]пП[/]с 00:07 25:20 33:06
= Уг ±
1
М- Е мм)-»)1,
(22)
где 3 - верхняя оценка функционала качества. 2. Оператор С2, основанный на учете линейно-нелинейной струюуры НСМ
Таблица 3. Время обучения при использовании локального поиска (мин.:с.)
Параметр метода НСМ без скрытых НПЭ НСМ с 1 скрытым НПЭ НСМ с 2 скрытыми НПЭ
Без локального поиска 00:07 25:20 33:06
С локальным поиском (фиксированный шаг) 00:11 45:30 54:19
С локальным поиском (переменный шаг) 00:08 30:42 37:21
для нелинейно входящих весов:
Угг] = Ы п С[г,..н,
С\
(23)
где с 1 - обратная функция к ФА.
3. Оператор С3, основанный на знании производных функционала качества:
К'.] = [ад,-.] п СМ,
¿=1,1^!"
'(24)
где 5 - оощее число весов сети; т - середина бруса, тщ - его г-я координата; д - градиент функционала качества по вектору весов, - его г-я координата.
4. Оператор Сц, основанный на методике согласованности брусов:
С1ю"1=т<*+гаи [0'А ~ '/(т) _ (И -тг) ^км)
СШ = Шг- - г-ТТГТГ,
Ы N
где = ..., ..., К]) + [-У, 0].
5. Оператор С5, основанный на Л НС и интервальном псевдообращении:
СН = Ф+(М)у, (26)
где Ф+([г>]) - интервальная псевдообратная матрица. Для произвольной интервальной матрицы [А] € Жтхп интервальной псевдообратной матрицей назовем наименьшую матрицу [Л]+ € Жпхг", такую что
[Л]+ Э {А+ : А е [А]}.
Для вычисления интервальной псевдообратной матрицы предлагается применять интервальную модификацию алгоритма Гревиля. Предложенный алгоритм обладает свойством монотонности: если [Л] С [В], то [Л]+ С [В]+, что следует из монотонности интервальных операций в алгоритме.
Алгоритм оценивания интервальной псевдообратной матрицы. Пусть [А] 6 Жтх" и [а;ь] - ее к-й столбец, к = 1,..., п. Пусть [Л*] - подматрица [Л], составленная из первых к столбцов [Л]: [Л*..] = [[а^ [аг] • • • [а^]]. Если к = 1, то [Л1] = [ах]. Для к = 2,..., п понятно, что [Ак] = [[^-1] [а*.-]]• Пусть к = 1. Обозначим = ||[а1]||2 = Е™^]2.
{О, если Щ = О,
[а{\т1Щ, если И > О, Ои[а1]Г/[сг1]. иначе,
где 0 е Ж"1 - нулевой брус, и - интервальная оболочка объединения брусов. Пусть к = 2,..., п.
и*]н
К_х]+(/-Ы[Л] у ш
где I - единичная матрица порядка то, и
[с*] = (/ - [л^р^пы и = Ы2,
\ Ыт№к\, если|4]>0,
Ш = < к]т(И,_1]+)г[Л,_.1]+/(1 + ||И*-1]+ЫИ2), если [4] = О,
(Лск]т1[йк] и [ак]т([Ак^тАк_!]+/(! + 1Рк-1]+МН2), иначе.
Таким образом, получаемая на последнем шаге матрица [Л„]+ является искомой оценкой матрицы [Л]+. < Работоспособность алгоритма была исследована на численных примерах. Интервальное псевдообращение может применяться и в других ЧМ для контроля устойчивости операции псевдообращения вещественных матриц.
Результаты исследования эффективности сжимающих операторов на тестовой функции (20) приведены в таблице 4. За исключением оператора Се они достаточно эффективны на брусах больших размеров, однако эффект их применения для узких брусов снижается. Оператор на основе ЛНС и интервального псевдообращения эффективен на малых брусах. Сжимающие операторы, которые не используют производные функционала качества по весам, увеличивают время работы методов.
Таблица 4. Время обучения при разных сжимающих операторах (мин.:с.)
Оператор НСМ без НСМ с 1 НСМ с 2
скрытых скрытым скрытыми
НПЭ НПЭ НПЭ
Без оператора 00:07 25:20 33:06
Оператор С\ 00:08 29:01 40:58
Оператор Сг 00:12 43:25 53:40
Оператор С3 00:07 23:25 31:43
Оператор С4 00:06 21:39 28:09
Оператор С5 00:11 22:16 30:17
Из вычислительных экспериментов по применению ЧМ обучения НСМ на основе ИА сделан вывод, что качество и надежность работы интервальных методов обучения НСМ выше, чем для методов на основе ОРО, хотя и затратнее по временному ресурсу. При этом целесообразно применение пересечения естественной и центрированной функций включения функционала качества, теста на необходимое условие оптимума, а также применение некоторых сжимающих операторов.
В пятой главе предложен универсальный подход к анализу данных с использованием информации баз данных (БД) информационных систем (ИС); разработаны структура универсального хранилища данных (УХД) и структура комплекса программ информационно-аналитической системы (ИАС); разработано ПО для администрирования УХД и ПО для оперативной информационно-аналитической обработки данных; предложен алгоритм управления динамическими системами с упреждением на основе НСМ, учитывающий суперпозиционную структуру моделей; разработаны структура и ПО для нейрострук-турного моделирования на основе методов, учитывающих суперпозиционную линейно-нелинейную структуру НСМ.
Средства формирования отчетности в современных ИС организаций, учреждений и предприятий позволяют решать достаточно узкий класс задач, стоящих перед руководством. Имеющиеся аналитические решения обычно недостаточно универсальны и сложно интегрируемы с корпоративными ИС. Для решения этих проблем предложены универсальные модели и методы, позво-
ляющие совершенствовать процесс применения аналитических систем и алгоритмов анализа данных на основе методов НСМ. На рис. 5 приведена разработанная структура комплекса программ для анализа данных. Предусмотрен доступ систем к УХД и к транзакционным БД ИС.
Рис. 5. Структура информационно-аналитической системы
Система администрирования предназначена для управления пользователями, метаданными, спецификациями, областями доступа, отчетными периодами, для загрузки данных в хранилище. ИАС предназначена для извлечения данных из хранилища для анализа и включает следующие функции: запросы данных из хранилища, отображение и детализацию данных. Предложена методика для анализа данных, основанная на последовательной детализации информации, представляемой с помощью методов извлечения данных из БД в виде двумерных таблиц на основе ЗЕЬЕСТ-запросов.
ПО для нейроструктурного моделирования и анализа данных предназначено для проведения аналитических расчетов и оценок, основанных на использовании НСМ. Для более полной реализации функционала данного ПО был разработан ряд алгоритмов. Одним из них является алгоритм автоматического определения оптимального количества кластеров для снижения размеров обучающего множества на основе применения НС Кохонена.
Другой сложной и важной задачей применения НСМ в аналитической обработке данных является синтез оптимального управления динамическими системами, модель которых имеет вид:
уЩ = / (ш; хЩ, х[Ь - 1],..., х[г - ¿1; уЩ, у[г - 1 ],...,£¿1), (27)
где й - порядок задержки сигналов. Пусть иЩ - вектор управляющих воздействий, являющийся подвектором хЩ. Рассмотрим функционал
Г+5
3 {и[Т + 1],..., и[Т + 5]) = £ а {иЩ, УЩ) , (28)
г=г+1
где Т - последний момент времени, на который известно значение выхода, 5 -период упреждения управления, д - выбираемая в зависимости от задачи функция, дифференцируемая по элементам векторов уЩ, иЩ, í = Т + 1,... ,Т + 51. Рассмотрена максимизация (28) по величинам и[Т+1],..., и[7' + ,5']. При 5 > 1 получается задача оптимального управления с упреждением, т.е. управления, учитывающего длительный характер влияния управляющих воздействий иЩ на поведение системы (27). Разработанный алгоритм оптимального управления на основе НСМ учитывает суперпозиционный характер НСМ объектов управления. Частные производные для (28):
а/
дщ[в] ^ Згф] '
(29)
дд(иЩ,уЩ) _^дд{чЩ,уЩ) дугЩ &Ф] дуг и 'ад-
.. дд{иЩ,уЩ)
Множитель-^ -в (30) определяется, исходя из вида функции
При ¿ = в для произвольного слоя тп = 0,..., М — 1 получаем:
9-
дуг г _ У дуг ду(-т+'*> у г Эу^х.,)
дуЬпЛ) 2-, ¿)у{т+1,5) ' ду(т,г) 2-, Зт+11д ' ду(т,г) ■ (31)
Формула (31) позволяет рекуррентно вычислить величины начиная с номера слоя т = М — 1 и далее уменьшая т. Производную ^М = ^М _ Зг получим при т = 0. При этом:
ду{т+1,ч) ду{т+1,д) дпеЬ(т+1,,) > ^ ^
ду(™Л ~ ду(т# ~ <7"е* \ПеЬ ) '
где cr'net (net(m+1<4)) - производная ФА по своему аргументу - уровню активности НПЭ. Начальное условие вычисляется также по (32). При t > s получаем:
dyr[t] = dyr[t] -Л dyr[t] dyp[s]
дъМ дгф]/ ¿^дУр[з\дщ[зУ ^
дур [s] dyT[t]
ГДЕ du [s\ И <9tr[s] ~ ^оизводные функции (27) как явно зависящей от
р, Г
они определяются по формулам (31) и (32). В (33) 0 , { вычисляются с при-
дуМ
менением формул (31) и (32).
Было разработано специальное ПО в среде CodeGear 2009 Borland С++ Builder для нейроструктурного моделирования, зарегистрированное в Роспатенте. На рис. 6 приведена функциональная структура разработанного ПО.
Рис. 6. Функциональная структура ПО
В шестой главе представлены результаты применения разработанных алгоритмов построения и ЧМ обучения НСМ для прогнозирования дефектов горячекатаного проката в зависимости от комплекса технологических параметров разливки; разработана методика управления ценовой политикой предприятий на основе моделирования спроса потребителей на предлагаемые товары с помощью НСМ и решена задача оптимизации тарифов на услуги междугородной связи для максимизации прибыли или расширения рынка сбыта для оператора
связи; предложен алгоритм анализа эффективности методов извлечения информации из БД ИС с помощью НСМ.
На основе разработанных методов была построена НСМ для прогнозирования дефектов горячекатаного проката в зависимости от комплекса технологических параметров разливки стали на машинах непрерывного литья заготовок конвертерного цеха ОАО «Новолипецкий металлургический комбинат». Таблица данных содержала 16628 строк. В качестве выхода использовалось значение О для проката без дефектов и 1 для проката с дефектами. Входные данные были нормированы в диапазон [0; 1]. Для решения задачи строилась НСМ, выход которой сравнивался с пороговым значением Т, при превышении которого моделировалось появление дефекта. В ходе применения алгоритма конструктивного построения была получена НСМ с 1 скрытым слоем, содержащая 6 НПЭ:
б / 38
¿=1
у = + °ч + ' (34)
где
тге£
• <7! = <72 = <75 = СГ6 = —, <73 = ^4 = 6 2.
В связи со значительным преобладанием информации о прокате без дефектов производилось обучение взвешенного функционала качества с весом для строк с дефектами го = 12,25 (приближенное отношение числа бездефектного проката к дефектному). Получена ошибка С} = 5548, 99. Пороговое значение для отнесения к определенному классу Т = 0,7. Точность классификации приведена в табл. 5.
Таблица 5. Результаты классификации дефектов разливки
Реальный класс Модельный класс Точность
0 1
0 13658 1688 0,89
1 681 574 0,46
Итого 0,86
На основе нейроструктурного подхода разработана методика оптимизации ценовой политики, решена задача определения оптимальных тарифов ОАО «Липецкэлектросвязь» на услуги междугородной телефонной связи (МТС) для населения. Построена модель зависимости трафика на услуги МТС. Входы модели: Х\ - тариф в рабочие дни, О00 — 700; Х2 - тариф в рабочие дни, 700 — 20°°; хз - тариф в рабочие дни, 20°° — 2400; Х4 - тариф в выходные и праздничные дни; Х5 - количество телефонных аппаратов населения. Выход у{, г = 1,..., 4, характеризует трафик, соответствующий тарифу хг. Результаты оптимизации тарифов на ноябрь 2002 г.-апрель 2003 г. приведены в табл. 6.
Таблица 6. Действовавшие и оптимальные тарифы
Текущие тарифы, руб. Оптимальные тарифы для увеличения трафика, руб. Оптимальные тарифы для увеличения дохода, руб.
Рабочие, 0ии - 700 1,8 1,04 2,51
Рабочие, 7°° - 20°° 3,0 3,21 4,00
Рабочие, 20°° - 2400 2,4 2,23 3,76
Выходные и праздничные 1,8 2,49 2,56
Средний трафик в месяц, мин. 1890745,04 2145449,71 1712342,22
Средний доход в месяц, руб. 4524918,10 5051673,85 5846920,74 |
При обработке данных в ИС необходимо обращаться к транзакционным БД. Для оценки эффективности методов извлечения информации из БД было разработано программное обеспечение на основе нейроструктурного моделирования. Необходимость разработки соответствующего приложения связана с тем, что для извлечения требуемой информации из БД могут быть сформулированы разные запросы, возвращающие одинаковый набор данных. Разница в скорости выполнения запросов в сложных ИС может отличаться в несколько раз. На время выполнения запроса влияет комбинация всех параметров запроса, но наибольшее значение имеют список используемых таблиц, применяемые критерии отбора и поля для группировки. Промышленные системы управления БД эффективность в единицах времени не оценивают.
Для оценки эффективности выполнения запросов разработано ПО, реализующее возможность выполнения запросов к БД ИС, сохранение набора эквивалентных запросов, вычисление времени выполнения запросов, построение для каждого запроса модели зависимости времени выполнения от значений параметров, прогнозирование времени выполнения запросов, выбор наиболее эффективного запроса по минимальному времени. Данное ПО внедрено в деятельность ОГУП «Липецкоблтехинвентаризация».
В заключении подведены итоги проделанной работы.
В приложениях приведены результаты вычислительных экспериментов; свидетельства о регистрации программ в Роспатенте; акт внедрения и справки об использовании результатов исследования.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Предложен и исследован нейро структурный подход к моделированию сложных систем с единых позиций учета их суперпозиционной линейно-нелинейной по весам структуры при построении, обучении и применении моделей; разработаны численные методы и алгоритмы для решения задач моделирования и создан комплекс программ для анализа данных на основе нейроструктур-ного моделирования. В результате исследований разработаны теоретические положения, совокупность которых можно квалифицировать как научное достижение в математическом моделировании систем:
1. Разработаны теоретические основы функционирования нейроструктур-ных моделей суперпозиционной линейно-нелинейной по весам структуры, развивающие и обобщающие нейросетевой подход к моделированию.
2. Предложен алгоритм конструктивного построения нейроструктурных моделей, обеспечивающий монотонность снижения ошибки обучения и предназначенный для повышения адекватности построения моделей.
3. Разработаны блочные рекуррентно-итерационные процедуры наращивания структуры и обучения нейроструктурных моделей на основе формулы блочного псевдообращения Клайна, позволяющие использовать вычислительные преимущества при псевдообращении матриц меньших размеров.
4. Разработаны численные методы дифференцирования обычной и взвешенной псевдообратных матриц, элементы которых зависят от вектора параметров. Данные методы основаны на тензорном произведении матриц, позволяющем применять стандартные операции линейной алгебры, и могут быть применены для разработки алгоритмов обучения.
5. Разработан класс численных методов обучения нейроструктурных моделей на основе декомпозиции вектора весов и линейно-нелинейного соотношения с учетом суперпозиционного характера моделей. Подход позволяет снизить размерность пространства итерационно настраиваемых параметров и определить линейно входящие параметры безытерационно.
6. Разработано программное обеспечение для тестирования численных методов обучения на основе декомпозиции вектора весов и линейно-нелинейного соотношения, с помощью которого проведен сравнительный анализ разработанных численных методов с существующими алгоритмами обучения нейронных сетей. Результаты исследования показали более высокое качество работы предложенных методов, а также их высокую эффективность на обучающих множествах небольшого объема.
7. Введено понятие и предложен модифицированный интервальный алгоритм Гревиля для оценивания интервального псевдообращения матриц. Интервальное псевдообращение может применяться для оценки устойчивости псевдообращения в численных методах обучения моделей.
8. Предложен численный метод гарантированного глобального обучения нейроструктурных моделей на основе интервального анализа и учета специфики задачи обучения и суперпозиционной линейно-нелинейной по весам структуры. Метод включает применение модифицированных функций активации и разработанных сжимающих операторов.
9. Разработано программное обеспечение для тестирования численного метода гарантированного глобального обучения на основе интервального анализа, с помощью которого проведен сравнительный анализ с традиционным методом обучения на основе процедуры обратного распространения ошибки. Показано более высокое качество работы предложенного метода.
10. Предложен универсальный подход к анализу данных с использованием информации баз данных информационных систем и разработаны структура универсального хранилища данных и структура комплекса программ информационно-аналитической системы. Основным инструментом анализа данных выступает система суперпозиционного линейно-нелинейного нейроструктурного моделирования статических и динамических систем.
11. Разработаны структура и комплекс программ моделирования и аналитической обработки данных на основе разработанных алгоритмов построения и численных методов обучения нейроструктурных моделей. Предложена методика применения данного комплекса программ.
12. Разработан алгоритм оптимального управления сложными системами с упреждением на основе нейроструктурного моделирования с учетом динамического характера систем и суперпозиционного характера моделей.
13. На основе разработанных алгоритмов построения, численных методов обучения нейроструктурных моделей и комплекса программ решены: задача прогнозирования дефектов горячекатаного проката в зависимости от параметров разливки стали, задача оптимизации тарифов на услуги междугородной телефонной связи, задача прогнозирования эффективности запросов извлечения информации из баз данных предприятий.
СПИСОК ПУБЛИКАЦИЙ Статьи в изданиях из Перечня российских рецензируемых научных журналов, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней доктора и кандидата наук
1. Сараев П. В. Нейросетевое моделирование и управление ценовой политикой // Системы управления и информационные технологии. - 2004. - № 1 (13).-С. 37-41.
2. Сараев П. В. Многошаговое оптимальное нейросетевое управление // Проблемы управления. - 2008. - Т. 5. - С. 14-18.
3. Сараев П. В. Обучение нейронных сетей прямого распространения на основе декомпозиции вектора весов и псевдообращения // Нейрокомпьютеры: разработка, применение. - 2010. - Т. 1. - С. 65-74.
4. Сараев П. В. Нелинейный метод наименьших квадратов и блочные рекур-рентно-итерационные процедуры в обучении нейронных сетей // Управление большими системами. - 2010. - Т. 30. - С. 24-34.
5. Сараев П. В. Исследование эффективности рекуррентного алгоритма Клай-на блочного псевдообращения матриц // Вести ВУЗов Черноземья - 2010 -№3(21).- С. 48-53.
6. Сеньковская И. С., Сараев П. В. Автоматическая кластеризация в анализе данных на основе самоорганизующихся карт Кохонена // Вестник Магнитогорского государственного технического университета им Г.И Носова -2011.-Т. 2,- С. 78-79.
7. Сараев П. В. Комплекс программ для аналитической обработки информации на основе универсального хранилища данных // Системы управления и информационные технологии. - 2011. - № 3.1 (45). - С. 194-199
8. Сараев П. В. Численные методы интервальной оптимизации в нейросете-вом моделировании // Вести ВУЗов Черноземья. - 2011 - № 2(24) - С 3034.
9. Погодаев А. К., Сараев П. В., Тарнакина М. Н. Псевдообращение и численный метод дифференцирования псевдообратных матриц в обучении нейро-сетевых моделей // Системы управления и информационные технологии -2011.-№4.1 (46).-С. 166-170.
10. Сараев П. В. Развитие нейросетевого моделирования сложных систем на основе нейроструктурного подхода // Вести ВУЗов Черноземья - 2012 -№ 2(28). - С. 30-35.
И. Сараев П. В. Конструктивный подход построения нейроструюурных моделей на основе блочного псевдообращения // Вестник ВГТУ- 2012 - Т 8 № 7-1,-С. 46-49. ' '
12. Сараев П. В. Интервальный алгоритм Гревиля для оценивания интервальных псевдообратных матриц // Системы управления и информационные технологии. - 2012. - № 2.2 (48). - С. 289-293.
13. Сараев П. В., Тарнакина М. Н. Численный метод дифференцирования взвешенных псевдообратных матриц // Вести ВУЗов Черноземья - 2012 - № 3(29).-С. 44-46. '
14. Saraev Р. V. Numerical methods of interval analysis in learning neural network // Automation and Remote Control. - 2012. - Vol. 73, No. 11.-Pp. 1865-1876.
15. Сараев П. В., Сяглова Ю. Е. Анализ эффективности выбора функций активации в нейросетевом прогнозировании // Системы управления и информационные технологии. - 2012.-№ 3.1 (49).-С. 165-169
16. Погодаев А. К., Блюмин С. Л., Сараев П. В. Нейроструктурное моделирование: некоторые результаты и направления развития // Вести ВУЗов Черноземья. - 2012. - № 4(30). - С. 30-37.
29
Монографии
17. Блюмин С. Л., Шуйкова И. А., Сараев П. В., Черпаков И. В. Нечеткая логика: алгебраические основы и приложения: Монография. - Липецк: ЛЭГИ, 2002,- 111 с.
18. Сараев П. В. Идентификация нейросетевых моделей: Монография,- Липецк: ЛГТУ, 2011.-94 с.
Зарегистрированные программы для ЭВМ
19. Сараев П. В. Глобальное обучение нейроструктурных моделей на основе интервальных методов,- М.: Роспатент, 2012.- № 2012619533 от 22.10.2012.
20. Сараев П. В. Нейроструктурное моделирование,- М.: Роспатент, 2012.-№ 2012619586 от 24.10.2012.
Статьи в других изданиях и материалы конференций
21. Блюмин С. Л., Сараев П. В. Псевдообращение в обучении искусственных нейронных сетей // Современные проблемы информатизации в непромышленной сфере и экономике: Труды V Международной электронной научной конференции. - Воронеж: Центрально-Черноземное книжное издательство, 2000.-С. 112-113.
22. Блюмин С. Л., Сараев П. В. Алгоритм Голуба-Перейры в обучении искусственных нейронных сетей // Нейроинформатика и ее приложения: Материалы VIII Всероссийского семинара,- Красноярск: ИПЦ КГТУ, 2000.-С. 18-19.
23. Блюмин С. Л., Сараев П. В. Рекуррентно-итерационные процедуры для адаптивного конструирования нейронных сетей // Нейроинформатика и ее приложения: Материалы IX Всероссийского семинара. - Красноярск: ИПЦ КГТУ, 2001,- С. 20-21.
24. Сараев П. В. Использование псевдообращения в задачах обучения искусственных нейронных сетей // Электронный журнал «Исследовано в России»,- 2001,- Т. 29.- С. 308-317,-http://zhumal.ape.relarn.ru/articles/2001/029.pdf.
25. Blyumin S. L., Saraev P. V. Reduction of adjusting weights space dimension in feedforward artificial neural networks training // IEEE International Conference on Artificial Intelligence Systems: Proceedings. - 2002. - Pp. 242-247.
26. Сараев П. В. Исследование эффективности алгоритмов обучения нейронных сетей // Нейроинформатика и ее приложения: Материалы X Всероссийского семинара. - Красноярск: ИПЦ КГТУ, 2002. - С. 120-122.
27. Сараев П. В. Функциональное наполнение программного комплекса для нейросетевого моделирования // Современные проблемы информатизации в непромышленной сфере и экономике: Сборник трудов (выпуск 8) по итогам VIII международной открытой научной конференции,- Воронеж: Центрально-Черноземное книжное издательство, 2003,- С. 115-116.
28. Сараев П. В. Обучение нейро-нечетких систем структуры ANFIS с учетом линейно-нелинейной по параметрам структуры // Нейроинформатика и ее приложения: Материалы XI Всероссийского семинара. - Красноярск: ИПЦ КГТУ, 2003.-С. 146-147.
29. Сараев П. В. Снижение размерности пространства оптимизируемых весов при обучении искусственных нейронных сетей прямого распространения // Перспективные информационные технологии и интеллектуальные системы. - 2003. - Т. 2 (14). - С. 4-8. - http://pitis.tsure.ru/Journall4.htm.
30. Сараев П. В. Понейронное обучение двухслойных нейронных сетей на основе минимизации модифицированного функционала // Нейроинформатика и ее приложения: Материалы XIII Всероссийского семинара. - Красноярск: ИПЦ КГТУ, 2005. - С. 101-103.
31. Сараев П. В. Нейросетевое управление в экономической деятельности коммерческих организаций // Управление большими системами. - 2006. -Т. 14.-С. 147-158.
32. Сараев П. В. Применение методов интервального анализа в обучении нейронных сетей // Искусственный интеллект. Интеллектуальные и многопроцессорные системы-2006. Материалы Седьмой Международной научно-технической конференции. - Т. 2. - Таганрог: Изд-во ТРТУ, 2006. - С. 216220.
33. Сараев П. В. Нейронные сети: многоэкстремальность и глобальная оптимизация // IX Всероссийская научно-техническая конференция «Нейро-информатика-2007»: Сборник научных трудов. - № 3. - М.: МИФИ 2007 -С. 144-151.
34. Блюмин С. JL, Погодаев А. К., Сараев П. В. Нейросетевой подход к оценке эффективности select-запросов в сложных информационных системах // Сборник трудов Международной научной конференции «Сложные системы управления и менеджмент качества CCSQM'2007». - Т. 1,- Старый Оскол: ООО «ТНТ», 2007,- С. 11-13.
35. Сараев П. В. Многошаговое оптимальное управление на основе нейросе-тевых моделей динамических систем // Теория активных систем: Труды международной научно-практической конференции. - Т. 1. - М.: ИПУ РАН 2007.-С. 287-291.
36. Сараев П. В. Комбинирование интервальных методов и псевдообращения в глобальном обучении нейронных сетей // X Всероссийская научно-техническая конференция «Нейроинформатика-2008»: Сборник научных трудов. - № 2. - М.: МИФИ, 2008. - С. 208-215.
37. Сараев П. В. Глобальное обучение нейронных сетей // III Всероссийская молодежная конференция по проблемам управления (ВМКПУ' 2008): Труды. - М.: ИПУ РАН, 2008. - С. 277-278.
38. Сараев П. В. Программное обеспечение для исследования методов гарантированной параметрической идентификации // VIII Международная конференция «Идентификация систем и задачи управления» SICPRO'09: Труды. - М.: ИПУ РАН, 2009. - С. 573-577.
39. Сараев П. В. Алгоритмы псевдообращения матриц в моделировании: вычислительные аспекты // VI Всероссийская школа-семинар молодых ученых «Управление большими системами»: Сборник трудов. - № 1. - Ижевск: ООО Информационно-издательский центр «Бон Анца», 2009. - С. 306-312.
40. Сараев П. В. Обобщающая способность нейронных сетей прямого распространения // VII Всероссийская школа-конфереция молодых ученых «Управление большими системами»: Сборник трудов. - Т. 2. - Пермь: Пермский государственный технический университет, 2010.- С. 346-355.
41. Погодаев А. К., Сараев П. В., Татаринов Е. П. Универсальное информационное и программное обеспечение для аналитической обработки данных // Информационные технологии моделирования и управления. - 2010. - № 4 (63). - С. 543-550.
42. Сараев П. В. Исследование псевдообращения матриц в математическом пакете Maple // XI Международная научная конференция, посвященная 70-летию профессора В.П. Дьяконова «Системы компьютерной математики и их приложения»: Материалы,- № 11.- Смоленск: Изд-во СмолГУ, 2010. — С. 62-65.
43. Сараев П. В. Гарантированная интервальная оптимизация в конструктивном построении нейросетевых моделей // Вторая традиционная всероссийская молодежная летняя школа «Управление, информация и оптимизация».-М.: ИПУ РАН, 2010.- С. 144-151.
44. Сараев П. В. Система поддержки принятия решений на основе последовательного подхода к анализу данных в крупномасштабных производствах // Пятая международная конференция «Управление развитием крупномасштабных систем» (MLSD'2011): Материалы, - Т. 2,- М.: ИПУ РАН, 2011,-С. 287-289.
45. Блюмин С. Л., Сараев П. В. Выявление периодичностей в нейросетевом прогнозировании динамики активных систем // Международная научно-практическая конференция «Теория активных систем - 2011»: Труды.-Т. 1.-М.: ИПУ РАН, 2011,- С. 15-18.
46. Сараев П. В. Нелинейные нейронные сети Вольтерра в моделировании динамических систем // Современные проблемы информатизации в экономике и обеспечении безопасности: Сборник трудов, - № 17.- Воронеж: Научная книга, 2012,-С. 101-103.
47. Сараев П. В. Интервальное псевдообращение // Современные проблемы информатизации в анализе и синтезе программных и телекоммуникационных систем: Сборник трудов. - № 17.- Воронеж: Научная книга, 2012. — С. 279-281.
48. Сараев П. В., Сяглова Ю. Е. Система нейросетевого прогнозирования // Современные сложные системы управления X HTCS-2012: Материалы Международной научно-технической конференции. - Старый Оскол: ТНТ, 2012.-С. 161-164.
49. Сараев П. В. Оптимальное управление с упреждением на основе методов нейроструктурного моделирования // Материалы IX Всероссийской школы-конференции молодых ученых «Управление большими системами». - Т. 1. - Липецк: Изд-во Першина Р.В., 2012. - С. 88-94.
50. Saraev P. Interval Pseudo-Inverses: Computation and Applications // 15th GAMM-IMACS International Symposium on Scientific Computing, Computer Arithmetic and Verified Numerics SCAN-2012: Book of abstracts.-Novosibirsk: Institute of Computational Technologies, 2012.- Pp. 153-154.
Личный вклад автора в работах, опубликованных в соавторстве: [6] - алгоритмы автоматического определения количества кластеров; [9] - численный метод обучения нейросетевых моделей и исследование эффективности алгоритмов псевдообращения; [13] - алгоритм взвешенного псевдообращения; [15] - алгоритм применения функций активации и конструктивного построения нейросетевых моделей; [16] - анализ нейроструктурного подхода в математическом моделировании; [17] - численный метод идентификации нейро-нечетких систем; [21,22,25] - класс численных методов обучения на основе линейно-нелинейного соотношения; [23] - блочные рекуррентно-итерационные процедуры для конструктивного построения нейросетевых моделей; [34] - методика анализа эффективности запросов в базах данных на основе нейросетевых моделей; [41] - структура комплекса программ для анализа данных в информационных системах; [45] - новый класс нейроструктурных моделей; [48] -алгоритмы нейросетевого прогнозирования.
Подписано в печать 26.02.2013 . Формат 60x84 1/16. Бумага офсетная. Ризография. Объем 2,0 п.л. Тираж 120 экз. Заказ № 143.
Полиграфическое подразделение Издательства Липецкого государственного технического университета. 398600 Липецк, ул. Московская, 30.
Текст работы Сараев, Павел Викторович, диссертация по теме Математическое моделирование, численные методы и комплексы программ
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Липецкий государственный технический университет»
На правах рукописи
05201350664
САРАЕВ Павел Викторович
СУПЕРПОЗИЦИОННОЕ ЛИНЕЙНО-НЕЛИНЕЙНОЕ НЕЙРОСТРУКГУРНОЕ МОДЕЛИРОВАНИЕ
Специальность 05.13.18 - Математическое моделирование,
численные методы и комплексы программ
ДИССЕРТАЦИЯ на соискание ученой степени доктора технических наук
Научный консультант - доктор технических наук, профессор
Погодаев Анатолий Кирьянович
Липецк-2012
Оглавление
Введение 7
1. Нейронные сети и нейросетевые методы моделирования 15
1.1. Структура и методика применения нейронных сетей............15
1.1.1. Искусственный нейрон......................................15
1.1.2. Структура нейронных сетей прямого распространения . 18
1.1.3. Методика применения нейронных сетей..................22
1.2. Обучение нейронных сетей..........................................27
1.2.1. Постановка задачи обучения................................27
1.2.2. Классификация методов обучения..........................28
1.2.3. Алгоритм обратного распространения ошибки ..........31
1.2.4. Численные методы локальной оптимизации..............32
1.2.5. Оптимизационные свойства псевдообращения............34
1.2.6. Нелинейный метод наименьших квадратов................38
1.2.7. Подходы к глобальной оптимизации в обучении .... 41
1.2.8. Интервальные методы глобальной оптимизации..........43
1.3. Построение нейронных сетей оптимальной структуры..........52
1.3.1. - Контрастивный подход......................................54
1.3.2. Конструктивный подход....................................58
1.4. Нейросетевые методы в задачах анализа данных..................62
1.4.1. Прогнозирование............................................63
1.4.2. Управление ..................................................65
1.4.3. Классификация..............................................70
1.4.4. Кластеризация................................................70
Постановка задач диссертационного исследования......................73
2. Нейроструктурное моделирование и синтез нейроструктурных моделей 77
2.1. Нейроструктурное моделирование................. 77
2.2. Нейроструктурные методы моделирования динамических систем 83
2.2.1. Нелинейные нейронные сети Вольтерра......... 83
2.2.2. Исследование различных функций активации...... 85
2.3. Конструктивное построение нейроструктурных моделей .... 92
2.3.1. Общий подход к конструированию моделей....... 92
2.3.2. Блочные рекуррентно-итерационные процедуры в конструировании и обучении нейроструктурных моделей . 95
Основные результаты главы 2.......................102
3. Класс численных методов обучения на основе декомпозиции весов
и линейно-нелинейного соотношения 104
3.1. Методы обучения на основе декомпозиции и линейно-нелинейного соотношения.............................104
3.1.1. Линейно-нелинейное соотношение............104
3.1.2. Декомпозиция задачи обучения..............105
3.1.3. Производная псевдообратной матрицы..........107
3.1.4. Модельный пример.....................112
3.1.5. Метод вычисления производной взвешенной псевдообратной матрицы.......................114
3.1.6. Класс численных методов обучения на основе линейно-нелинейного соотношения.................117
3.2. Тестирование эффективности методов обучения.........122
3.2.1. Программное обеспечение для тестирования ......122
3.2.2. Сравнительный анализ эффективности методов обучения 129
3.3. Тестирование эффективности алгоритмов псевдообращения для применения в численных методах обучения...........134
3.3.1. Эффективность алгоритмов псевдообращения......135
3.3.2. Эффективность блочного псевдообращения.......139
Основные результаты главы 3.......................143
4. Численные методы гарантированного обучения нейроструктур-ных моделей на основе интервальных методов оптимизации 146
4.1. Анализ специфики задачи обучения на основе интервальных методов................................146
4.2. Разработка сжимающих операторов на основе учета линейно-нелинейной структуры моделей..................151
4.3. Сжимающий оператор на основе интервального псевдообращения .................................156
4.3.1. Интервальное псевдообращение..............156
4.3.2. Сжимающий оператор на основе интервального псевдообращения .........................162
4.4. Программа для исследования эффективности гарантированного метода обучения.........................163
4.5. Исследование эффективности гарантированных методов обучения моделей............................166
Основные результаты главы 4.......................173
5. Комплекс программ для нейроструктурного моделирования и анализа данных 175
5.1. Структура комплекса программ для информационно-аналитической системы................................175
5.1.1. Технологии построения информационно-аналитических систем............................175
5.1.2. Структура универсального хранилища данных .....177
5.1.3. Программное обеспечение информационно-аналитической системы.........................182
5.2. Алгоритмическое обеспечение для нейроструктурного моделирования ..............................190
5.2.1. Алгоритм оптимального управления динамическими объектами с упреждением на основе нейроструктурных моделей ...........................190
5.2.2. Алгоритм автоматической кластеризации.........195
5.3. Программное обеспечение для нейроструктурного моделирования .................................196
5.4. Методика применения комплекса для нейроструктурного моделирования и анализа данных...................203
Основные результаты главы 5.......................205
6. Приложения нейроструктурных методов к решению практических задач 207
6.1. Прогнозирование дефектов горячекатаной продукции......207
6.2. Управление тарифной политикой оказания услуг междугородной телефонной связи ........................211
6.2.1. Нейроструктурное моделирование экономических систем211
6.2.2. Разработка алгоритма принятия решений по управлению ценовой политикой предприятий...........214
6.2.3. Построение нейроструктурной модели спроса населения на услуги междугородной связи ...........218
6.2.4. Оптимизация тарифной политики на услуги междугородной связи.........................222
6.3. Анализ эффективности запросов в базах данных ........224
6.4. Нейросетевое прогнозирование добычи сырьевых ресурсов . . 227 Основные результаты главы 6.......................229
Заключение 231
Библиографический список 234
Приложения 256
1. Эффективность численных методов обучения на основе декомпозиции весов и линейно-нелинейного соотношения .... 256
2. Копии свидетельств регистрации программ ...........267
3. Моделирование спроса на услуги телефонной связи.......269
4. Копии актов о внедрении и справок об использовании результатов исследования ..................................................272
БД
БРИП
ВР
ИА
ИС
ИАС
ЛНС
МНЛЗ
мпм нзнк
НС
нслв
НСПР
нпэ нем
НСУ
ОРО
ООП
ОУ
ПО
сок екк
СУБД
УХД
ФА
чм
Используемые сокращения
база данных
блочная рекуррентно-итерацнонная процедура временной ряд интервальный анализ информационная система информационно-аналитическая система линейно-нелинейное соотношение машина непрерывного литья заготовок метод переменной метрики нелинейная задача о наименьших квадратах нейронная сеть
нечеткая система логического вывода нейронная сеть прямого распространения нейроноподобный элемент нейроструктурная модель нейросетевое управление обратное распространение ошибки объектно-ориентированное программирование объект управления программное обеспечение самоорганизующиеся карты (Кохонена) сеть каскадной корреляции (Фальмана) система управления базами данных универсальное хранилище данных функция активации численный метод
Введение
Актуальность темы. Развитие информационных технологий привело к возможности сбора и хранения значительных объемов данных. В настоящее время актуальной является задача глубокого анализа всей имеющейся информации для принятия оптимальных управленческих решений. Наиболее эффективным методом выявления полезной скрытой информации является математическое моделирование, позволяющее определять зависимости, которые содержатся в анализируемых данных. Основная задача в построении зависимостей - конструирование адекватных моделей, обладающих способностями качественно описывать объекты и явления, для получения достоверных выводов на основе исследования соответствующих моделей. Хотя временные затраты в данном случае играют менее важную роль по сравнению с качеством построения моделей, применение эффективных методов конструирования в большинстве случаев положительно сказывается на адекватности получаемых моделей.
В связи со значительной сложностью объектов и явлений, имеющих практический интерес, наибольший приоритет приобретают методы нейро-структурного моделирования, которые развивают и обобщают нейросетевые методы. Они могут быть использованы для решения широкого круга задач во всех сферах деятельности, в том числе для решения аналитических задач прогнозирования ситуаций и управления развитием моделируемых объектов. Класс нейроструктурных моделей содержит математические модели, состоящие из связанных между собой базовых нейроноподобных элементов и обладающие характерной суперпозиционной линейно-нелинейной по параметрам структурой. К ним могут быть отнесены нейронные сети прямого распространения, в том числе с неклассическими функциями активации, нейронные сети с радиальными базисными функциями, вероятностные нейронные сети, нейронные сети Фальмана, нечеткие системы Такаги-Суджено, нейро-нечеткие модели структуры АЫР18 и другие. Для таких моделей задача
структурной идентификации является частично решенной. Применение ней-роструктурных моделей и методов не требует знания априорной информации о характере зависимостей, поэтому позволяет говорить об универсальности данного математического аппарата.
Центральным этапом построения нейроструктурных моделей является обучение - настройка параметров на основе набора вход-выходных данных. Для построения адекватных моделей должны применяться численные методы обучения, которые в отличие от большинства существующих в максимальной степени учитывают особенности задачи нейроструктурного моделирования. Разработка, реализация и тестирование алгоритмов построения и численных методов обучения моделей на основе технологии вычислительного эксперимента с применением современных компьютерных средств представляет собой как высокий научный, так и практический интерес. Это обосновывает актуальность темы диссертационной работы.
Диссертационная работа выполнена в рамках основных научных направлений Липецкого государственного технического университета «Вычислительная математика», «Алгебраические методы прикладной математики и информатики в моделировании и управлении сложными распределенными системами».
Положения работы поддержаны грантами Российского фонда фундаментальных исследований: № 09-07-97531-р_центр_а «Разработка математического и программного обеспечения нейросетевого моделирования на основе интервальных методов и псевдообращения» (2009-2011), № 09-07-00220-а «Разработка и исследование принципов построения универсальной интеллектуальной информационно-аналитической системы» (2009-2011), № 11-07-00580-а «Разработка математического и программного обеспечения для моделирования, прогнозирования, оптимизации и управления сложными системами на основе методов идемпотентной математики и интервального анализа» (2011-2012), № 11-07-97504-р_центр_а «Разработка и исследование методов нейросетевого моделирования и прогнозирования динамики сложных систем» (2011-2012).
Цель исследования. Целью диссертационной работы является разработка единого нейроструктурного подхода к математическому моделированию сложных систем на основе комплекса алгоритмов конструирования и численных методов обучения моделей, учитывающих их суперпозиционную линейно-нелинейную по параметрам структуру.
Задачи исследования. Для достижения цели были поставлены и решались следующие задачи:
- Разработка теоретических основ описания, функционирования и построения нейроструктурных моделей сложных статических и динамических систем - класса моделей нейросетевого типа, обладающих суперпозиционной линейно-нелинейной по параметрам структурой.
- Разработка, исследование, реализация и тестирование с применением технологии вычислительных экспериментов класса численных методов обучения нейроструктурных моделей на основе декомпозиции параметров на линейные и нелинейные с учетом суперпозиционного характера моделей.
- Разработка, исследование, реализация и тестирование на основе технологии вычислительных экспериментов численного метода гарантированного глобального обучения нейроструктурных моделей, учитывающего суперпозиционный линейно-нелинейный характер моделей.
- Совершенствование алгоритма оптимального нейроструктурного управления для решения аналитических задач, учитывающего динамические свойства моделируемых процессов, а также специфику задачи построения нейроструктурных моделей.
- Разработка структуры и комплекса программ с применением современных информационных технологий для моделирования и анализа данных на основе предложенных методов построения, обучения и применения нейроструктурных моделей, учитывающих их суперпозиционный линейно-нелинейный по параметрам характер.
- Создание методики нейроструктурного моделирования для решения аналитических задач на основе предложенных алгоритмов и численных методов с применением разработанного комплекса программ.
Методы исследования. В работе использовались методы математического моделирования, численные методы, методы искусственного интеллекта, методы оптимизации, теория нейронных сетей, нечеткая логика, теория управления, линейная алгебра, методы интервального анализа, объектно-ориентированное программирование.
Научная новизна. В диссертационной работе получены следующие результаты, характеризующиеся научной новизной и формирующие новый нейроструктурный подход к моделированию сложных систем:
- Теоретические основы функционирования нейроструктурных моделей сложных систем, отличающиеся возможностью описания широкого класса моделей суперпозиционной линейно-нелинейной по параметрам структуры, развивающие и обобщающие нейросетевой подход к моделированию.
- Единый подход к конструктивному построению нейроструктурных моделей, отличающийся монотонностью снижения ошибки обучения при наращивании структуры на основе использования различных функций активации нейроноподобных элементов, позволяющий реализовать универсальные аппроксимационные способности моделей.
- Блочные рекуррентно-итерационные процедуры для конструирования и обучения нейроструктурных моделей, отличающиеся применением формулы блочного псевдообращения Клайна, повышающие эффективность численных методов обучения моделей за счет псевдообращения матриц меньших размеров.
- Класс численных методов обучения нейроструктурных моделей, отличающихся декомпозицией вектора весов и применением линейно-нелинейного соотношения на основе псевдообращения, численного метода дифференцирования обычных и взвешенных псевдообратных матриц и учетом суперпозиционного характера моделей, позволяющих снизить размерность пространства итерационно оцениваемых параметров.
- Модифицированный интервальный алгоритм Гревиля для оценивания интервального псевдообращения матриц, отличающийся возможностью вычисления псевдообратных матриц к интервальным и позволяющий
оценивать устойчивость операции псевдообращения для исходной матрицы в численных методах обучения моделей.
- Численный метод глобального обучения нейроструктурных моделей, отличающийся применением алгоритмов интервального анализа и сжимающих операторов на основе учета суперпозиционного линейно-нелинейного характера моделей, обеспечивающий выполнение универсальных аппроксимационных свойств, а также позволяющий повысить адекватность моделирования.
- Алгоритм оптимального управления сложными системами с упреждением на основе нейроструктурного моделирования, который учитывает динамические свойства систем и суперпозиционный характер моделей и позволяет синтезировать управление с учетом его влияния на поведение объекта в течение нескольких периодов.
- Структура и методика применения комплекса программ для нейроструктурного моделирования и анализа данных в информационных системах, которые отличаются инвариантностью относительно предметной области и позволяют применять разработанные алгоритмы построения и численные методы обучения для принятия оптимальных управленческих решений.
Практическая значимость работы заключается в комплексном исследовании научных проблем математического моделирования на основе нейроструктурного подхода, связанного с разработкой, обоснованием и тестированием численных методов обучения, наиболее полно учитывающих суперпозиционную линейно-нелинейную по параметрам структуру моделей, с применением современных компьютерных технологий. Предложенные алгоритмы и методы для решения технических и экономических прикладных проблем позволяют повысить качество при
-
Похожие работы
- Синтез нейросетевых структур для моделирования управляемых объектов с распределенными параметрами
- Моделирование и разработка численных методов обучения нейронных сетей суперпозиционной линейно-нелинейной структуры
- Устойчивость моделей нейронных сетей кольцевой и линейной конфигураций с запаздывающими взаимодействиями
- Нейронные сети для обработки временных рядов
- Структурно-параметрический синтез нейросетевых систем обработки информации
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность