автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Погрешности в нейронных сетях
Автореферат диссертации по теме "Погрешности в нейронных сетях"
1 '•"/'' г.На правах рукописи ''' - .'Г
Сенашова Мария Юрьевна
ССС-
ПОГРЕШНОСТИ В НЕЙРОННЫХ СЕТЯХ
Специальность 05.13.16 - применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (в электронике)
Автореферат диссертации на соискание ученой степени кандидата физико-математических наук
Красноярск- 1998
Работа выполнена в Красноярском государственном университете и Институте Вычислительного моделирования СО РАН
Научные руководители:
доктор физико-математических наук, профессор А.Н. Горбань, кандидат физико-математических наук, доцент Е.М. Мирнее
Официальные оппоненты:
Ведущая организация:
доктор физико-математических наук, профессор Р.Г. Хлебоирос, кандидат технических наук, профессор Е.А. Всйсов Сибирский государственный технологический университет
Защита диссертации состоится^ 1998 года в часов
на заседании Диссертационного совета К 064.54.01 при Красноярском государственном техшгческом университете по адресу: 660074, г. Красноярск, ул. Киренского, 26.
С диссертацией можно ознакомиться в научной библиотеке Красноярского государственного технического университета.
Отзывы на автореферат в 2-х экземплярах с подписью составителя, заверенные печатью организации, просим направлять в адрес диссертационного совета.,
Автореферат разослан " ПИ Оклп&Б^а 1998 года Ученый секретарь Диссертационного совета
&
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы
Задача оценки точности вычислений актуальна с тех пор, как шодн начали вычислять. Погрешности вычислений возникают из-за неточных входных данных, из-за погрешностей, вносимых на отдельных этапах вычисления, из-за погрешностей самих методов вычисления.
Каждый раз, когда возникает новая область практики вычислений, вместе с ней появляется и необходимость оценивать погрешности этих вычислений.
Интерес к нейронным сетям переживает в настоящее время очередной всплеск. Это вызвано тем, что они являются удобным и достаточно простым инструментом для создания различных экспертных систем, решения задачи классификации и извлечения знаний из данных и, кроме того, дают возможность высокопараллелыплх реализаций.
Рассматривая нейронную сеть как набор элементов, производящих некоторые вычисления над приходящими к ним данными, можно оценивать точность вычислений как для сети в целом, так и для каждого отдельного элемента. Для нейронной сети можно решать две задачи, относящиеся к оценке точности ее работы: прямую и обратную. Под пряной задачей пошшается оценка погрешностей выходных сигналов сети, если заданы погрешности входных сигналов и погрешности элементов сети. Наиболее близки к этой задаче методы оценки погрешностей счетно-решающих устройств на основе аналоговых элементов.
Гораздо больший интерес представляет обратная задача. Под обратной задачей понимается оценка погрешностей внутренних сигналов сети, ее входных сигналов и весов синапсов по заданным погрешностям выходных сигналов сети.
В работе анализируются допустимые погрешности сигналов и параметров нейронной сети, решается обратная задача оценки погрешностей. Для ее решения создан метод обратного распространения точности. Он позволяет строить интервалы, в которых могут изменяться внутренние и входные сигналы сети при задашгом интервале погрешностей выходных сигналов сети. Ранее
близкие идеи были использованы Дж. Уилкинсоном для анализа вычислительных алгоритмов линейной алгебры (Тьюринговская премия 1970 г.)
Цель работы
Целью работы является:
- получение гарантированных интервальных и среднеквадратических оценок допустимых погрешностей сигналов сети для элементов стандартного нейрона как с учетом собственных погрешностей элементов, так и без них;
- анализ реализуемости сетей с заданными собственными погрешностями элементов;
- получение гарантированных интервальных и среднеквадратических оценок допустимых погрешностей весов синапсов;
- анализ различных типов входных сигналов сети (дискретное множество примеров, непрерывные области входных данных в виде многомерного шара и прямоугольника);
- упрощение сетей (приведение вещественных весов синапсов к значениям -1,0,1) при вычисленных допустимых погрешностях весов синапсов.
Научная новизна
Результаты диссертации являются новыми, в частности, разработан метод обратного распространения точности для сигналов и весов синапсов нейронных сетей. Метод заключается в функционировании сети с той же системой связей, но в обратном направлении. Причем все элементы сети заменяются па двойственные им элементы специального вида. Эта двойственность отличается от той, которая используется в методе обратного распространения ошибки. В работе получены формулы для вычисления погрешностей весов синапсов и сигналов сети. Разработан еще один способ упрощения нейронных сетей (замена сумматоров с вещественными весами синапсов на каскады сумматоров с весами {-1,0,1}).
Практическая значимость При помощи полученных в работе формул могут быть вычислены допустимые погрешности входных сигналов сети, могут быть определены такие интервалы изменения входных сигналов сети, при которых погрешности выходных сигналов не превышают заданную.
Вычисление допустимых погрешностей сигналов сети находит применение при создании аналоговой реализации нейронной сети на основе обученного нейроиммитатора.
Вычисление допустимых погрешностей весов синапсов используется при упрощении нейронных сетей для того, чтобы заменять участки сети более простыми, но менее точными элементами, не превышая при этом погрешность выходных сигналов сети.
Апробация работы Основные результаты работы докладывались и обсуждались на IV, V и VI Всероссийских семинарах "Нейроинформатика и ее приложения" проходивших в г. Красноярске в 1996, 1997 и 1998 годах, на конференциях молодых ученых Красноярского научного центра в 1997 и 1998 годах, на Международной конференции по нейронным сетям в Хьюстоне в 1997 году, на Третьем Сибирском конгрессе по прикладной и индустриальной математике, посвященном памяти С.Л. Соболева (1МРЮМ-98). По теме диссертации опубликовано 14 работ.
Структура диссертации
Диссертация состоит из введения, четырех глав, численных экспериментов, заключения и списка цитируемой литературы из (,6 наименований, содержит 18 рисунков и 28 диаграмм. Общий объем диссертации (с учетом иллюстраций) составляет 136 страниц.
Содержание работы
Перейдем теперь к более подробному изложению работы.
В первой главе дан обзор литературы по погрешностям аналоговых элементов и погрешностям весов синапсов и входных сигналов нейронных сетей.
Во второй главе рассматриваются сети слоистой структуры, состоящие из слоев стандартных нейронов. Стандартный нейрон, состоящий из точки ветвления, нелинейного преобразователя и адаптивного сумматора, является типичным участком любой нейронной сети, поэтому достаточно выяснить, как вычисляются допустимые погрешности для элементов стандартного нейрона.
Рассмотрены два типа оценок допустимых погрешностей сигналов сети: гарантированные интервальные оценки и среднеквадратические оценки отклонений погрешностей.
Вначале рассматриваются гарантированные интервальные оценки погрешностей для элементов стандартного нейрона.
Если известны допустимые погрешности £\ (/ - номер выхода) выходных сигналов точки ветвления, то погрешность ее входного сигнала е оценивается следующим образом: £•< тш{г/}[=|.
Погрешность входного сигнала нелинейного преобразователя е вычисляется исходя из неравенства:
1 хе[<р '(.у-£\),<р (у+е\)) где £\ — погрешность его выходного сигнала, ср - дифференцируемая и строго монотонная функция активации нелинейного преобразователя, у - его точный выходной сигнал. В линейном приближении получена следующая оценка : е < е^ 1\ф'(А)\, где А - точный входной сигнал нелинейного преобразователя, - погрешность его выходного сигнала.
Каждый вход х, сумматора £ имеет некоторую погрешность £,, которая вносит свой вклад в допустимую погрешность выходного сигнала
сумматора £. Эти погрешности могут иметь различные величины в зависимости от того, какой способ распределения допустимой погрешности выходного сигнала по входам сумматора выбирается. Погрешности по входам сумматора могут распределяться равномерно, пропорционально и приоритетно.
Погрешности входных сигналов сумматора Едля равномерного
распределения оцениваются следующим образом: < е/ Е(''_1|а/|, где е -погрешность выходного сигнала сумматора, аг,- веса синапсов соответствующих входов сумматора. Предполагается, что на всех входах погрешности равны между собой (г; =£¡,1 =2 ,...,п).
При пропорциональном распределении погрешности входных сигналов сумматора £, вычисляются по формуле: < £ I где с - допустимая
погрешность выходного сигнала сумматора, п - число входов сумматора. В этом случае для каждого входа сумматора погрешность С, имеет свое значение.
При приоритетном распределении погрешностей по входам сумматора
сначала назначаются величины погрешностей ех для тех входов, которые
наиболее значимы по какому-либо признаку. Затем оставшуюся часть
допустимой погрешности е— Т. [«/¡г'/ распределяют между остальными
'наз
входами равномерно или пропорционально.
В формулах для вычисления погрешностей сигналов сети, которые были описаны выше, не выделялся особо тот вклад, который вносят в погрешности сигналов сами элементы. Далее предполагается, что все элементы сети передают приходящие к ним сигналы с некоторыми погрешностями. Предполагается также, что собственные погрешности элементов известны и фиксированы.
Если £¡4 - собственная погрешность точки ветвления, то погрешность
входного сигнала точки ветвления е не должна превышать - ,
где гу - погрешности ее выходных сигналов.
Собственная погрешность нелинейного преобразователя е^ может
добавляться или к его выходному сигналу или к его входному
сигналу (<р(х± .
В первом случае для погрешности входного сигнала нелинейного преобразователя е справедлива следующая оценка:
£■<(£•1-£■„)/шах г ( V (
1 V 16[р 'О^!-^))]
где е\ - погрешность его выходного сигнала, <р - дифференцируемая и строго монотонная функция активации нелинейного преобразователя, у - его точный выходной сигнал. При этом необходимо, чтобы £\, не превышало^. В линейном приближении формула имеет вид: £ < - где А -
точный входной сигнал нелинейного преобразователя.
Во втором случае погрешность входного сигнала нелинейного преобразователя е оценивается по следующей формуле:
■е<£\/ шах г_, \\<р'{х)\-еа,
*е|?> (у-еО-е^.р 'С+^Н*?]
где £■] - погрешность его выходного сигнала, - дифференцируемая и строго монотонная функция активации нелинейного преобразователя. В линейном приближении получаем следующую оценку погрешности входного сигнала нелинейного преобразователя: £<£\1\(р'{Л)\-ед), где А - точный входной
сигнал нелинейного преобразователя.
Собственная погрешность сумматора может добавляться либо к его
выходному сигналу ( £ щ -(х,- + С/) + ££), либо к его входным сигналам /=1
(£«/•(*/+ 5+ «£))• /=1 у '
В первом случае равномерно, пропорционально и приоритетно по выше
полученным формулам распределяется погрешность е - ££, где е -
допустимая погрешность выходного сигнала сумматора.
Если же имеет место второй вариант, то допустимые погрешности E¡
входных сигналов сумматора для равномерного распределения оцениваются
следующим образом: £■,• < е^ • Х"=1 |а;-1 / где е - погрешность
выходного сигнала сумматора. Предполагается дополнительно, что погрешности
£у равны между собой и собственные погрешности ¿^ равны между собой.
При пропорциональном распределении допустимые погрешности входных сигналов сумматора <г, оцениваются следующим образом:<£} <с/(и|а,-
Для сетей с собственными погрешностями элементов может возникнуть ситуация, когда собственная погрешность элемента превышает погрешность сигнала, который должен выходить из этого элемента. В этой ситуации нельзя напрямую пользоваться формулами, описанными выше. Допустимые погрешности сигналов сети в такой ситуации следует распределять специальным образом.
Сначала предполагается, что у всех элементов собственные погрешности добавляются к выходным сигналам. Вычисляются частичные погрешности, которые приходят при прямой работе сети от предыдущего слоя на /'-ый вход
сумматора следующего слоя: £?аг'= ■\<р'{А)\г£р + гДе ~
собственная погрешность сумматора предыдущего слоя. Затем вычисляется разность 'Z'¡-]a¡ ■ — е. Эта разность - оставшаяся часть допустимой погрешности выходного сигнала сумматора е распределяется равномерно по всем входам, чтобы допустимые погрешности входов превышали погрешности
элементов на одну и ту же величину £ = (£•-• £■""*) / Е"=1|а,-|. Допустимые погрешности входных сигналов сумматора будут равны
Затем предполагается, что собственные погрешности всех элементов добавляются к их входным сигналам. При этом частичные погрешности £?аг1
вычисляются по формуле: еРап - {¿1/ " Н^)'!^' Остальные
вычисления для допустимых погрешностей проводятся аналогично случаю, когда собственная погрешность добавляется к выходным сигналам сумматора.
Далее рассматривается вычисление средпеквадратических оценок погрешностей сигналов элементов стандартного нейрона.
Предполагается, что внутри каждого слоя погрешности сигналов ¿7 являются независимыми случайными величинами. Это предположение позволяет налагать менее жесткие требования при вычислении погрешностей сигналов.
Если £>1,£)2,... - дисперсии выходных сигналов точки ветвления, то в качестве дисперсии входного сигнала точки ветвления выбирается
Среднеквадратическое отклонение погрешности входного сигнала нелинейного преобразователя вычисляется по формуле сг = а\ / где <Х]
- среднеквадратическое отклонение погрешности его выходного сигнала, (р -дифференцируемая и строго монотонная функция активации, А - точный входной сигнал.
Среднеквадратические отклонения погрешностей входных сигналов сумматора сг,- для равномерного распределения определяются следующим
образом: су = сг / , где сг - среднеквадратическое отклонение
погрешности выходного сигнала сумматора.
Формула для вычисления пропорционального распределения среднеквадратических отклонений погрешностей <х,- по входам сумматора
имеет вид: сг,- = а / (л|а,-|).
При приоритетном распределении среднеквадратические отклонения погрешностей распределяются по входам сумматора аналогично тому, как распределялись погрешности в случае гарантированных интервальных оценок.
Далее получены формулы для вычисления среднеквадратических отклонений погрешностей в предположении, что все элементы стандартного нейрона имеют собственные погрешности.
Для точки ветвления, имеющей собственную погрешность, дисперсия
к 2
погрешности ее входного сигнала вычисляется как — сгЛ;, где Dj -
2
дисперсии выходных сигналов точки ветвления, а стЛ, - дисперсия ее собствешюй погрешности.
Собстве1шая погрешность нелинейного преобразователя может добавляться либо к выходному сигналу нелинейного преобразователя, либо к его входному сигналу.
В первом случае дисперсия непосредственно выходного сигнала нелинейного преобразователя без учета его собственной погрешности равна
-122 2 2 2 иокп ~ ~~ °<р> где а\ ~ дисперсия выходного сигнала нелинейного
преобразователя, сг^ - дисперсия его собственной погрешности.
Среднеквадратическое отклонение погрешности входного сигнала нелинейного преобразователя <т вычисляется по формуле а= <Уот11\(р'{А)\, где (р - дифференцируемая и строго монотонная функция активации нелинейного преобразователя, А - его точный входной сигнал.
Во втором случае среднеквадратическое отклонение погрешности входного сигнала нелинейного преобразователя вычисляется следующим
VI 1 1
о-! / <р'(А) - ар .
Собственная погрешность сумматора может добавляться либо к
п
выходному сигналу сумматора: X щ ■ (х/ + е, ) + , либо к каждому входу
/=1
сумматора: £ щ • + щ + , (полагаем, что все е'% равны между собой). 1 = 1 У 1
Если собственная погрешность добавляется к выходному сигналу
сумматора, то для равномерного распределения формула имеет вид:
[( 2 2\ ,-п ~2 2
и^=ЛД(Т — ег^ I' ^¡=1а1 • где °£ - среднеквадратическое отклонение
собственной погрешности сумматора.
При пропорциональном распределении среднеквадратические отклонения погрешностей входных сигналов сумматора вычисляются по формуле:
= + су г.) I , где п - число входов сумматора.
Когда собственная погрешность добавляется к каждому входу сумматора, для равномерного распределения сг,- вычисляются по следующей формуле:
где о"£ - среднеквадратическое отклонение собственной погрешности сумматора.
При пропорциональном распределении среднеквадратические отклонения погрешностей входных сигналов сумматора имеют вид:
/п2а?+(4)2 .
Как и для гарантированных интервальных оценок, может возникнуть ситуация, когда среднеквадратическое отклонение собственной погрешности элемента превышает среднеквадратическое отклонение его выходного сигнала. В этом случае среднеквадратические отклонения нужно распределять специальным образом.
Если собственные погрешности элементов добавляются к их выходным сигналам, то частичные среднеквадратические отклонения вычисляются следующим образом:
где о"£. - среднеквадратическое отклонение собственной погрешности сумматора предыдущего слоя. Вспомогательные величины £ вычисляются по формуле:
2 V« 2 I рап\ 2
Среднеквадратические отклонения погрешностей по входам сумматора
имеют вид: сг, = ^ \сгРаП | + .
Если собственные погрешности элементов добавляются к их входным сигналам, то <гРаг[ в этом случае вычисляется по следующей формуле:
\
■ <р'(А)2 + <4 .
Вспомогательная величина и среднеквадратические отклонения погрешностей по входам сумматора вычисляются по тем же формулам, что и выше.
Рассматривается связь между различными типами входных сигналов сети (дискретное множество примеров, непрерывные области входных данных в виде многомерного шара и прямоугольника) и величиной допустимых погрешностей сигналов сети.
Чтобы вычислить погрешности для дискретного множества входных примеров, вычисляются погрешности сигналов для каждого примера из обучающей выборки. Затем в качестве допустимой погрешности для каждого элемента сети выбирается минимум допустимых погрешностей этого элемента, вычисленных для каждого примера из обучающей выборки.
При вычислении допустимых погрешностей сигналов элементов стандартного нейрона входные сигналы используются только у нелинейного преобразователя. Поэтому для входных данных, являющихся многомерным прямоугольником или шаром, нужно знать, в каких интервалах изменяются входные сигналы нелинейных преобразователей.
Если входные сигналы сети являются многомерным прямоугольником, заменяем каждый входной сигнал интервалом, в котором он может изменяться, и эти интервалы пропускаем по сети как обычные сигналы. Затем для каждого нелинейного преобразователя вычисляем максимум функции активации на интервале его входных сигналов. Для вычисления допустимой погрешности входного сигнала нелинейного преобразователя допустимая погрешность его выходного сигнала делится на модуль максимума производной, вычисленной на интервале его входных сигналов.
В случае, если входные сигналы сети представляют собой многомерный шар, выполняются практически те же действия, что и для многомерного прямоугольника. Отличие состоит в том, что необходимо "развернуть" шаровую область таким образом, чтобы получить интервалы, в которых изменяются входные сигналы сети. Это делается с использованием неравенство Коши.
-15В третьей главе рассматриваются допустимые погрешности весов синапсов. Даются гарантированные интервальные и среднеквадратические оценки погрешностей для весов синапсов.
Для каждого сумматора требуется распределить допустимую погрешность его выходного сигнала на погрешности весов синапсов и погрешности входных сигналов, чтобы иметь возможность вычислить погрешности элементов следующего слоя.
Сначала рассматриваются гарантированные интервальные оценки. Для пропорционального распределения погрешностей получена следующая оценка погрешностей весов синапсов и погрешностей входных сигналов сумматора:
£ I I
—м-*«,
п '
£1, 5
где xj - точный /-ый входной сигнал сумматора, £; - погрешность входного
сигнала ¿-го входа, а, - точный вес синапса его /-го входа,еа -
погрешность / -го веса синапса, е - допустимая погрешность сумматора, п -число входов сумматора. Чтобы вычислить , представляем в виде
еа =к—, где к - некоторый коэффициент. Так как имеет смысл только ' п
неотрицательное значение , к выбирается из интервала: 0 < к < р-г.
к/1
Для равномерного распределения погрешностей весов синапсов и сигналов оценка имеет вид;
£ ~ \х; £ <-— -.
' V П 1 I
Здесь используются те же обозначения, что и для пропорционального распределения. Как и выше, погрешность £а представляется в виде £а. = кг,
где к - некоторый коэффициент. Из условия, что числитель должен быть неотрицательным, находим ограничения на к: 0 < к <---.
Далее рассматриваются среднеквадратические оценки погрешностей весов синапсов и сигналов сети.
Для пропорционального распределения погрешностей весов синапсов и сигналов формула имеет вид:
ст2 /п- Г2 /-Г2 а.
а? н -а2
где х1 - точный /-ый входной сигнал сумматора, а/. - погрешность входного
сигнала /-го входа, а, - томный вес синапса его г-го входа,сга. -
погрешность / -го веса синапса, а - допустимая погрешность сумматора, п -
число входов сумматора. Чтобы вычислить ст. , представляем как ксг2.
1 а,-
Чтобы подкоренное выражение бьшо неотрицательным, требуется, чтобы к
о
находилось в следующих границах: 0 < к < 1 / (их,- ).
При равномерном распределении среднеквадратические отклонения погрешностей сигналов и весов синапсов вычисляются по следующей формуле:
ст2-ст21?=1д:?
Здесь используются те же обозначения, что и для пропорционального
2 2
распределения. Для того, чтобы вычислить а, , представляем <т как ка .
11 а1
Так как подкоренное выражение должно быть неотрицательным, к выбирается исходя из следующего условия: 0 < к 2 1 / Ъ1=\Х1 .
В четвертой главе рассматривается задача упрощения нейронных сетей. Для упрощения сети вещественные веса синапсов бинаризуются, то есть
приводятся к значениям {—1,0,1}. В этой главе используются результаты, полученные в третьей главе.
Для каждого сумматора с вектором весов синапсов {а}, вектором
входных сигналов {х}, точным выходным сигналом А = S/Li«, х-1 и допустимой погрешностью выходного сигнала е, строится бинаризованный сумматор с вектором весов синапсов {ß}, состоящим из нулей и единиц, такой,
что величина В = ф- Xj отличалась бы от А не более, чем на £.
Если вектор {ß}, построенный на основе одного сумматора, не позволяет приблизить точный выходной сигнал А с заданной точностью, то изменяется архитектура сети. Создаются новые сумматоры, работающие параллельно. Вектором входных сигналов для каждого из этих сумматоров будет вектор {л:}. В общем случае, каждому вновь созданному сумматору будет соответствовать свой вектор весов синапсов [ß}. Выходные сигналы этих сумматоров подаются с единичными весами на результирующий сумматор. Выходной сигнал последнего сумматора будет входным сигналом нелинейного преобразователя.
Доказана теорема о том, что для любого сумматора с вектором входных сигналов {х} и вектором весов синапсов {а} с рациональными компонентами существует такое представление его в виде суммы бинаризованных сумматоров, что выходной сигнал результирующего сумматора, деленный на количество сумматоров, совпадает с точным выходным сигналом A = T."=\aixi исходного сумматора.
Как показано в теореме, довольно просто найти вид бинаризованного сумматора для рациональных весов синапсов. Общий знаменатель рациональных весов синапсов определяет количество бинаризованных сумматоров, а числители приведенных к общему знаменателю рациональных чисел определяют количество единиц в бинаризованных сумматорах на / -м входе.
После бинаризации можно получить выходной сигнал сумматора, совпадающий с исходным выходным сигналом, только для рациональных весов синапсов. Но при этом может потребоваться построить тысячи или десятки тысяч бинаризованных сумматоров вместо одного исходного.
Так как вещественные числа невозможно представить в виде рациональной дроби, то для бинаризации вещественных чисел следует ограничиться некоторой точностью, с которой будет работать сумматор после бинаризации.
Так как для рациональных чисел достаточно просто получить бинаризованный вид исходного сумматора, вещественные веса синапсов приближаются рациональными числами с заданной точностью. Исходя из выбранной погрешности выходного сумматора е, вычисляются погрешности весов синапсов еа> по формулам, описанным в главе 3. Затем для каждого веса
синапса выбирается рациональное число, отличающееся от него не более, чем на £а. . Причем это число должно иметь наименьший знаменатель, возможный при
данной погрешности £а., так как знаменатели рациональных дробей влияют на
количество бинаризованных сумматоров. Показано, что цепные дроби позволяют получить рациональные числа, которые удовлетворяют требуемым условиям.
По формулам, полученным в работе, были проведены численные эксперименты.
Был сгенерирован ряд сетей слоистой структуры. Рассматривались сети различной архитектуры: сети с тремя слоями стандартных нейронов с тремя входами, сети с тремя слоями стандартных нейронов с четырьмя входами, сети с четырьмя слоями стандартных нейронов с четырьмя входами и сети с пятью слоями стандартных нейронов с пятью входами. Для всех сетей были выбраны характеристические функции нелинейных преобразователей следующего вида:
х
Параметр с для каждого вида архитектуры принимал значения:
-190.001, 0.01, 0.1, 0.3, 0.5, 0.7, 0.9. При каждом значении параметра с было сгенерировано по сто сетей. Веса синапсов и входные сигналы для каждой из ста сетей случайным образом генерировались из интервала [—1;1]. Заданная погрешность выходных сигналов всех сетей равнялась 0.01. Для каждой сети вычислялись гарантированные интервальные и среднеквадратические оценки погрешностей сигналов при заданной погрешности выходных сигналов сети. При вычислении входных погрешностей сумматора использовались формулы для равномерного распределения. Получены графики с изображением распределения погрешностей входных сигналов сетей для гарантированных интервальных и среднеквадратических оценок, отличающихся на порядок (сколько входных сигналов, например, попало в интервал от 10"3 до 10"2, от 10"2 до 10"1 и т.д.). Для каждого значения параметра с вычислены математическое ожидание и дисперсия гарантированных интервальных и среднеквадратических оценок погрешностей входных сигналов сети. Показаны максимальные и минимальные значения погрешностей входных сигналов сети для обоих типов оценок.
В заключении суммированы основные результаты работы и сделаны выводы.
1. В работе для оценки допустимых погрешностей входных сигналов и параметров нейронных сетей построен метод обратного распространения точности. Он состоит в функционировании сети с той же системой связей, но в обратном направлении и с заменой элементов на двойственные. Эта двойственность отличается от той, которая используется в методе обратного распространения ошибки.
2. Получены формулы для вычисления допустимых погрешностей входных сигналов элементов стандартного нейрона по известным допустимым погрешностям выходных сигналов этих элементов для гарантированных интервальных и среднеквадратических ошибок.
3. Для элементов с собственными погрешностями получены формулы для вычисления допустимых погрешностей входных сигналов как в случае
добавления собственных погрешностей элементов к выходным сигналам элементов, так и в случае добавления собственных погрешностей к входным сигналам элементов. Формулы получены для гарантированных интервальтк и среднеквадратических оценок погрешностей.
4. Построены способы вычисления допустимых погрешностей сигналов сети для различных типов входных сигналов сети (дискретное множество примеров, непрерывные области входных данных в виде многомерного шара и прямоугольника).
5. Получен еще один способ упрощения нейронных сетей. Сумматоры с вещественными весами синапсов заменяются каскадами сумматоров с весами {— 1,0,1}. Замена вещественных весов синапсов на веса 1,0,1} производится при помощи цепных дробей.
6. Численные эксперименты показали, что для одного и того же значения параметра с характеристической функции у сетей с одинаковой архитектурой математическое ожидание гарантированных интервальных ошибок погрешностей входных сигналов сети в среднем на порядок меньше, чем математическое ожидание среднеквадратических оценок погрешностей.
При значениях параметра с > 0.1 значения допустимых погрешностей входных сигналов сети для обоих типов оценок тем меньше, чем больше число слоев сети.
Чем ближе вид характеристической функции к пороговой (т.е. при значения параметра с <0.1) тем больше величины допустимых погрешностей входных сигналов. Причем, чем больше слоев имеет сеть, тем больше величины допустимых погрешностей входных сигналов при одном и том же значении параметра с.
Основные результаты диссертации опубликованы в следующих работах: 1. Сенашова М.Ю. Метод обратного распространения точности // Нейроинформатика и ее приложения: Тез. докл. IV Всероссийского семинара, 57 октября, 1996 г. / Под ред. А.Н. Горбаня; отв. за выпуск Г.М. Цибульский. Красноярск; КГТУ. - 1996. - С.47.
-212. Горбань А.Н., Сенашова М.Ю. Метод обратного распространения точности // Препринт ВЦ СО РАН в г. Красноярске. - 1996. - №17. - 8 с.
3. Горбань А.Н., Сенашова М.Ю. Погрешности в нейронных сетях // Вычислительный центр СО РАН в г.Красноярске. - Красноярск. - 1997. - 38 е., - Рукопись деп. в ВИНИТИ. 25.07.97, №2509-В97.
4. Сенашова М.Ю. Упрощение нейроннных сетей: приближение значений весов синапсов при помощи цепных дробей // Вычислительный центр СО РАН в г.Красноярске. - Красноярск. - 1997. - 11 с. - Рукопись деп. в ВИНИТИ. 25.07.97, №2510-В97.
5. Senashova Masha Yu., Gorban Alexander N., and Wunsch Donald. Back-Propagation of Accuracy // Proc. IEEE/INNS International Coonference of Neural Networks, Houston, IEEE. - 1997. - P. 1998-2001.
6. Сенашова М.Ю. Приближение весов синапсов с помощью цепных дробей // Информатика и информационные технологии: Тез. докл. межвузовской научной конференции студентов, аспирантов и молодых ученых / Под ред. Е.А. Вейсова, Ю.А. Шитова. Красноярск: изд-во КГТУ. - 1997. - С. 1617.
7. Сенашова М.Ю. Метод обратного распространения точности с учетом независимости погрешностей сигналов сети // Тез. докл. конф. молодых ученых Красноярского научного центра. - Красноярск, Президиум КНЦ СО РАН. -1997. - С.96-97.
8. Сенашова М.Ю. Упрощение нейронных сетей. Использование цепных дробен для приближения весов синапсов // Нейроинформатика и ее приложения: Тез. докл. V Всероссийского семинара, 3-5 октября, 1997 г. / Под ред. А.Н. Горбаня; отв. за выпуск Г.М. Цибульский. Красноярск; КГТУ. - 1997. - С. 165166.
9. Сенашова М.Ю. Бинаризация нейронных сетей. Приближение весов синапсов с помощью цепных дробей // Вестник Красноярского государственного технического университета. Информатика, вычислительная техника,
управление: Сб. научных трудов / Под ред. А.И. Рубана, Е.А. Вейсова. Вып. 10. Красноярск: Изд-во КГТУ. - 1997. - С. 37-43.
10. Сенашова М.Ю. Погрешности весов синапсов нейронных сетей // Тез. докл. Третьего сибирского конгресса по прикладной и индустриальной математике (ИНПРИМ - 98). - Новосибирск: изд-во Института математики. -1998. - С.94-95.
11. Сенашова М.Ю. Вычисление допустимых погрешностей весов синапсов нейронных сетей // Нейронные сети и модели: Труды международной НТК "Нейронные, реляторные и непрерывнологические сети и модели", 19-21 мая 1998г., Т.1 / Под ред. Л.И. Волгина. - Ульяновск: УлГТУ. - 1998. - С.9-10.
12. Сенашова М.Ю. Вычисление допустимых погрешностей весов синапсов // Тез. конф. молодых ученых Института вычислительного моделирования СО РАН. - Красноярск, Президиум КНЦ СО РАН. - 1998. -С. 127-128.
13. Сенашова М.Ю. Методы вычисления допустимых погрешностей сигналов и весов синапсов // Нейроинформатика и ее приложения: Тез. докл. VI Всероссийского семинара, 2-5 октября, 1998 г. / Под ред. А.Н. Горбаня; отв. за выпуск Г.М.Цибульский. Красноярск; КГТУ. - 1998. - С. 162.
14. Сенашова М.Ю. Погрешности нейронных сетей. Вычисление погрешностей весов синапсов // Методы нейроинформатики: Сб. научн. трудов / Под ред. А.Н. Горбаня; от за вып. М.Г. Доррер. Красноярск; КГТУ. - 1998. -С. 48-64.
Текст работы Сенашова, Мария Юрьевна, диссертация по теме Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
/Л * • и ~1 -Л :, .„_ .•"Ч
О" * и ^ / / ^ -/' -У с.--'
МИНИСТЕРСТВО ОБЩЕГО И ПРОФЕССИОНАЛЬНОГО
ОБРАЗОВАНИЯ
КРАСНОЯРСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
На правах рукописи
Сенашова Мария Юрьевна ПОГРЕШНОСТИ В НЕЙРОННЫХ СЕТЯХ
05.13.16 - применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (в электронике)
Диссертация на соискание ученой степени кандидата физико-математических наук
Научные руководители:
доктор физико-математических наук, профессор А.Н. Горбань, кандидат физико-математических наук, доцент Е.М. Миркес
Красноярск- 1998
Содержание
Введение...........................................................................................................4
1. Обзор литературы по погрешностям аналоговых элементов и
нейронных сетей.......................................................................................23
2. Метод обратного распространения точности для сигналов
нейронных сетей......................................................................................36
2.1. Гарантированные интервальные оценки погрешностей сигналов
сети...........................................................................................................36
2.2. Гарантированные интервальные оценки погрешностей для элементов сети с собственными погрешностями....................................48
2.3. Анализ реализуемости сетей с собственными погрешностями элементов для гарантированных интервальных оценок..........................55
2.4. Среднеквадратические оценки погрешностей сигналов
сети........................................................:...................................................61
2.5. Среднеквадратические оценки погрешностей для элементов
сети с собственными погрешностями.....................................................67
2.6. Анализ реализуемости сетей с собственными погрешностями элементов для среднеквадратических оценок.........................................73
2.7. Типы входных сигналов нейронных сетей.............................................76
3. Метод обратного распространения точности для весов синапсов нейронных сетей.........................................................................................81
3.1. Гарантированные интервальные оценки погрешностей весов синапсов....................................................................................................81
3.2. Среднеквадратические оценки погрешностей весов синапсов.............94
4. Упрощение нейронных сетей...................................................................101
4.1. Теорема существования бинаризованного вида сумматоров
для рациональных весов синапсов.........................................................101
4.2. Бинаризация весов синапсов сумматора при помощи
цепных дробей........................................................................................104
Численные эксперименты..........................................................................111
Заключение..................................................................................................128
Список использованной литературы........................................................130
Введение
Актуальность темы
Задача оценки точности вычислений актуальна с тех пор, как люди начали вычислять. Погрешности вычислений возникают из-за неточных входных данных, из-за погрешностей, вносимых на отдельных этапах вычисления, из-за погрешностей самих методов вычисления.
Каждый раз, когда возникает новая область практики вычислений, вместе с ней появляется и необходимость оценивать погрешности этих вычислений.
Интерес к нейронным сетям переживает в настоящее время очередной всплеск. Это вызвано тем, что они являются удобным и достаточно простым инструментом для создания различных экспертных систем, решения задачи классификации и извлечения знаний из данных и, кроме того, дают возможность высокопараллельных реализаций.
Рассматривая нейронную сеть как набор элементов, производящих некоторые вычисления над приходящими к ним данными, можно оценивать точность вычислений как для сети в целом, так и для каждого отдельного элемента. Для нейронной сети можно решать две задачи, относящиеся к оценке точности ее работы: прямую и обратную. Под прямой задачей понимается оценка погрешностей выходных сигналов сети, если заданы погрешности входных сигналов и погрешности элементов сети. Наиболее близки к этой задаче методы оценки погрешностей счетно-решающих устройств на основе аналоговых элементов [1 -4].
Гораздо больший интерес представляет обратная задача. Под обратной задачей понимается оценка погрешностей внутренних сигналов сети, ее входных сигналов и весов синапсов по заданным погрешностям выходных сигналов сети.
В работе анализируются допустимые погрешности сигналов и параметров нейронной сети, решается обратная задача оценки погрешностей. Для ее решения создан метод обратного распространения точности. Он позволяет строить интервалы, в которых могут изменяться внутренние и входные сигналы сети при заданном интервале погрешностей выходных сигналов сети. Ранее близкие идеи были использованы Дж. Уилкинсоном [25] для анализа вычислительных алгоритмов линейной алгебры (Тьюринговская премия 1970 г.)
Цель работы
Целью работы является:
- получение гарантированных интервальных и среднеквадратических оценок допустимых погрешностей сигналов сети для элементов стандартного нейрона как с учетом собственных погрешностей элементов, так и без них;
- анализ реализуемости сетей с заданными собственными погрешностями элементов;
- получение гарантированных интервальных и среднеквадратических оценок допустимых погрешностей весов синапсов;
- анализ различных типов входных сигналов сети (дискретное множество примеров, непрерывные области входных данных в виде многомерного шара и прямоугольника);
- упрощение сетей (приведение вещественных весов синапсов к значениям -1,0,1) при вычисленных допустимых погрешностях весов синапсов.
Научная новизна
Результаты диссертации являются новыми, в частности, разработан метод обратного распространения точности для сигналов и весов синапсов
нейронных сетей. Метод заключается в функционировании сети с той же системой связей, но в обратном направлении. Причем все элементы сети заменяются на двойственные им элементы специального вида. Эта двойственность отличается от той, которая используется в методе обратного распространения ошибки. В работе получены формулы для вычисления погрешностей весов синапсов и сигналов сети. Разработан еще один способ упрощения нейронных сетей (замена сумматоров с вещественными весами синапсов на каскады сумматоров с весами {-
1Д1}).
Практическая значимость
При помощи полученных в работе формул могут быть вычислены допустимые погрешности входных сигналов сети, могут быть определены такие интервалы изменения входных сигналов сети, при которых погрешности выходных сигналов не превышают заданную.
Вычисление допустимых погрешностей сигналов сети находит применение при создании аналоговой реализации нейронной сети на основе обученного нейроиммитатора.
Вычисление допустимых погрешностей весов синапсов используется при упрощении нейронных сетей для того, чтобы заменять участки сети более простыми, но менее точными элементами, не превышая при этом погрешность выходных сигналов сети.
Апробация работы
Основные результаты работы докладывались и обсуждались на IV, V и VI Всероссийских семинарах "Нейроинформатика и ее приложения" проходивших в г. Красноярске в 1996, 1997 и 1998 годах, на конференциях молодых ученых Красноярского научного центра в 1997 и 1998 годах, на Международной конференции по нейронным сетям в Хьюстоне в 1997
году, на Третьем Сибирском конгрессе по прикладной и индустриальной математике, посвященном памяти С.Л. Соболева (ШРШМ-98).
По теме диссертации опубликовано 14 работ.
Структура диссертации
Диссертация состоит из введения, четырех глав, численных экспериментов, заключения и списка цитируемой литературы из 66 наименований, содержит 18 рисунков и 28 диаграмм. Общий объем диссертации (с учетом иллюстраций) составляет 136 страниц.
Содержание работы
Перейдем теперь к более подробному изложению работы.
В работе рассматриваются компьютерные модели нейронных сетей.
В первой главе дан обзор литературы по погрешностям аналоговых элементов и погрешностям весов синапсов и входных сигналов нейронных сетей.
Во второй главе рассматриваются сети слоистой структуры, состоящие из слоев стандартных нейронов. Стандартный нейрон, состоящий из точки ветвления, нелинейного преобразователя и адаптивного сумматора, является типичным участком любой нейронной сети, поэтому достаточно выяснить, как вычисляются допустимые погрешности для элементов стандартного нейрона.
Рассмотрены два типа оценок допустимых погрешностей сигналов сети: гарантированные интервальные оценки и среднеквадратические оценки отклонений погрешностей.
Вначале рассматриваются гарантированные интервальные оценки погрешностей для элементов стандартного нейрона.
Если известны допустимые погрешности £j (/' - номер выхода) выходных сигналов точки ветвления, то погрешность ее входного сигнала е оценивается следующим образом: е < 1шп{£, .
Погрешность входного сигнала нелинейного преобразователя е вычисляется исходя из неравенства:
1 хе[<р 1(у-£1),<р 0+^1 4
где е\ - погрешность его выходного сигнала, (р - дифференцируемая и строго монотонная функция активации нелинейного преобразователя, у -его точный выходной сигнал. В линейном приближении получена следующая оценка : £ < £\!\(р'{А)\, где А - точный входной сигнал нелинейного преобразователя, 8\ - погрешность его выходного сигнала.
Каждый вход х, сумматора X имеет некоторую погрешность щ, которая вносит свой вклад в допустимую погрешность выходного сигнала сумматора £. Эти погрешности могут иметь различные величины в зависимости от того, какой способ распределения допустимой погрешности выходного сигнала по входам сумматора выбирается. Погрешности по входам сумматора могут распределяться равномерно, пропорционально и приоритетно.
Погрешности входных сигналов сумматора щ для равномерного
распределения оцениваются следующим образом: < £где £ -погрешность выходного сигнала сумматора, а,- веса синапсов соответствующих входов сумматора. Предполагается, что на всех входах погрешности равны между собой = <£■,-,/ = 2,...,п).
При пропорциональном распределении погрешности входных сигналов сумматора £, вычисляются по формуле: £/ < £ / (п ■ |), где е -
допустимая погрешность выходного сигнала сумматора, п - число входов сумматора. В этом случае для каждого входа сумматора погрешность имеет свое значение.
При приоритетном распределении погрешностей по входам сумматора сначала назначаются величины погрешностей ^ для тех входов, которые наиболее значимы по какому-либо признаку. Затем оставшуюся часть допустимой погрешности е- % \щ\щ распределяют
гназ
между остальными входами равномерно или пропорционально.
В формулах для вычисления погрешностей сигналов сети, которые были описаны выше, не выделялся особо тот вклад, который вносят в погрешности сигналов сами элементы. Далее предполагается, что все элементы сети передают приходящие к ним сигналы с некоторыми погрешностями. Предполагается также, что собственные погрешности элементов известны и фиксированы.
Если £(у - собственная погрешность точки ветвления, то погрешность входного сигнала точки ветвления £ не должна превышать - £и,, где щ - погрешности ее выходных сигналов.
Собственная погрешность нелинейного преобразователя может
добавляться или к его выходному сигналу [(р{х) ± |, или к его входному сигналу [ср{х ±8^.
В первом случае для погрешности входного сигнала нелинейного преобразователя £ справедлива следующая оценка:
где £\ - погрешность его выходного сигнала, ср - дифференцируемая и строго монотонная функция активации нелинейного преобразователя, у -его точный выходной сигнал. При этом необходимо, чтобы £^ не
превышало ^. В линейном приближении формула имеет вид:
£< {б1 - £(р)1\(р'{А)\, где А - точный входной сигнал нелинейного преобразователя.
Во втором случае погрешность входного сигнала нелинейного преобразователя £ оценивается по следующей формуле:
где £\ - погрешность его выходного сигнала, (р - дифференцируемая и
строго монотонная функция активации нелинейного преобразователя. В линейном приближении получаем следующую оценку погрешности входного сигнала нелинейного преобразователя: £< где А -
точный входной сигнал нелинейного преобразователя.
Собственная погрешность сумматора может добавляться либо к его п / \
выходному сигналу ( £ щ • + <£/) + ), либо к его входным сигналам
В первом случае равномерно, пропорционально и приоритетно по выше полученным формулам распределяется погрешность £- где £ -
допустимая погрешность выходного сигнала сумматора.
Если же имеет место второй вариант, то допустимые погрешности щ входных сигналов сумматора для равномерного распределения
оцениваются следующим образом: ^ • 1а-г | / , где £ -
погрешность выходного сигнала сумматора. Предполагается дополнительно, что погрешности «?/ равны между собой и собственные
погрешности ££ равны между собой.
£<£\1 шах
<р
/=1
При пропорциональном распределении допустимые погрешности входных сигналов сумматора оцениваются следующим
образом: щ <£ / () - .
Для сетей с собственными погрешностями элементов может возникнуть ситуация, когда собственная погрешность элемента превышает погрешность сигнала, который должен выходить из этого элемента. В этой ситуации нельзя напрямую пользоваться формулами, описанными выше. Допустимые погрешности сигналов сети в такой ситуации следует распределять специальным образом.
Сначала предполагается, что у всех элементов собственные погрешности добавляются к выходным сигналам. Вычисляются частичные погрешности, которые приходят при прямой работе сети от предыдущего
part
слоя на г-ыи вход сумматора следующего слоя: sf = £Ъ1 V£(p+ £tvi где -собственная погрешность сумматора
предыдущего слоя. Затем вычисляется разность • £fart - £. Эта
разность - оставшаяся часть допустимой погрешности выходного сигнала сумматора £ распределяется равномерно по всем входам, чтобы допустимые погрешности входов превышали погрешности элементов на
одну и ту же величину £ = (е - • sPart) / . Допустимые
погрешности входных сигналов сумматора будут равны £i = £?art + £.
Затем предполагается, что собственные погрешности всех элементов добавляются к их входным сигналам. При этом частичные погрешности
sfart вычисляются по формуле: £РаП = • Sf=1 \-£^-\(p\A)\r£tv.
Остальные вычисления для допустимых погрешностей £j проводятся аналогично случаю, когда собственная погрешность добавляется к выходным сигналам сумматора.
Далее рассматривается вычисление среднеквадратических оценок погрешностей сигналов элементов стандартного нейрона.
Предполагается, что внутри каждого слоя погрешности сигналов £1- являются независимыми случайными величинами. Это предположение позволяет налагать менее жесткие требования при вычислении погрешностей сигналов.
Если £^,£>2,...,Ок - дисперсии выходных сигналов точки ветвления, то в качестве дисперсии входного сигнала точки ветвления выбирается тт{1)1}^=1.
Среднеквадратическое отклонение погрешности входного сигнала нелинейного преобразователя вычисляется по формуле сг = сг} / где
<Т| - среднеквадратическое отклонение погрешности его выходного сигнала, (р - дифференцируемая и строго монотонная функция активации, А - точный входной сигнал.
Среднеквадратические отклонения погрешностей входных сигналов сумматора а^ для равномерного распределения определяются следующим
образом: а 1 = а I л/^-^а,2 , где сг - среднеквадратическое отклонение
погрешности выходного сигнала сумматора.
Формула для вычисления пропорционального распределения среднеквадратических отклонений погрешностей сг; по входам
сумматора имеет вид: <тг- = сг / .
При приоритетном распределении среднеквадратические
отклонения погрешностей распределяются по входам сумматора аналогично тому, как распределялись погрешности в случае гарантированных интервальных оценок.
Далее получены формулы для вычисления среднеквадратических отклонений погрешностей в предположении, что все элементы стандартного нейрона имеют собственные погрешности.
Для точки ветвления, имеющей собственную погрешность, дисперсия погрешности ее входного сигнала вычисляется как
/ О
тш{Д};=1 - о ¡у, где 1)1 - дисперсии выходных сигналов точки
ветвления, а сг^ - дисперсия ее собственной погрешности.
Собственная погрешность нелинейного преобразователя может
добавляться либо к выходному сигналу нелинейного преобразователя,
либо к его входному сигналу.
В первом случае дисперсия непосредственно выходного сигнала
нелинейного преобразователя без учета его собственной погрешности
2 2 2 2 равна <уом;п = с7\- сг^, где ст\ - дисперсия выходного сигнала
нелинейного преобразователя, сг^ - дисперсия его собственной погрешности.
Среднеквадратическое отклонение погрешности входного сигнала нелинейного преобразователя сг вычисляется по формуле о = а0М>п1\(р'{Л)\, где <р - дифференцируемая и строго монотонная функция активации нелинейно
-
Похожие работы
- Математические модели и методы оптимизации функциональной надежности искусственных нейронных сетей
- Нейросетевое управление параметрами многокомпонентных смесей
- Измерение параметров динамических систем на основе искусственных нейронных сетей, использующих алгоритм Калмана
- Технология нейросетевого решения прикладных классификационных задач в экологии, биологии, медицине
- Устойчивость дискретных моделей стандартных конфигураций нейронных сетей с запаздывающими взаимодействиями
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность