автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Метод эволюционного накопления признаков для автоматического построения нейронных сетей

кандидата технических наук
Тютерев, Владислав Валерьевич
город
Томск
год
2001
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Метод эволюционного накопления признаков для автоматического построения нейронных сетей»

Оглавление автор диссертации — кандидата технических наук Тютерев, Владислав Валерьевич

Введение

1. Обзор методов автоматического построения нейронных сетей

1.1. Критерии эффективности нейронных сетей.

1.2. Конструктивный подход к построению нейронных сетей.

1.2.1. Бинарные алгоритмы

1.2.2. Древовидные нейронные сети.

1.2.3. Алгоритмы Monoplan, NetLines и NetSphere.

1.2.4. Метод динамического добавления узлов

1.2.5. Каскадная корреляция и ее-мадификадии.

1.2.6. Методы усечения.

1.3. Эволюционный способ создания нейронных сетей.

1.3.1. Генетические алгоритмы

1.3.2. Эволюционные алгоритмы для нейронных сетей.

1.3.3. Подходы к кодированию нейронных сетей.

1.3.4. Прямое кодирование.

1.3.5. Порождающее кодирование.

1.4. Выводы

2. Метод эволюционного накопления признаков

2.1. Исследование подходов к построению нейронных сетей.

2.1.1. Размерность пространства поиска.

2.1.2. Анализ известных направлений.

2.2. Метод мониторинга динамики изменения ошибки.

2.3. Эволюционное накопление признаков.

2.3.1. Предлагаемая организация поиска архитектуры.

2.3.2. Реализация кодирования путями.

2.3.3. Фитнесс-функция.

2.4. Алгоритм эволюционного наращивания нейронной сети.

3. Исследования алгоритма

3.1. Описание тестовых данных.

3.2. Методика оценки.

3.3. Подготовка данных

3.4. Параметры алгоритма.

3.5. Результаты исследования

3.5.1. Синтетические тесты.

3.5.2. Реальные тестовые наборы из PROBEN1.

3.5.3. Предсказание землетрясений по литосферным импульсам

3.5.4. Задача прогнозирования беременности.

3.6. Обсуждение результатов.

Введение 2001 год, диссертация по информатике, вычислительной технике и управлению, Тютерев, Владислав Валерьевич

Нейронные сети представляют основную структуру для обработки информации в математической дисциплине, носящей название нейроин-форматика. Формально искусственную нейронную сеть можно определить как систему, имеющую входы и выходы, состоящую из большого числа простых параллельных вычислителей, в произвольном порядке соединенных односторонними каналами передачи сигнала. В процессе работы нейронная сеть преобразует поданный сигнал от входов в свои выходы.

Искусственные нейронные сети стали развиваться, начиная с середины двадцатого века, с появлением новых знаний о биологической структуре головного мозга и развитием вычислительной техники. Методы теории нейронных сетей позволяют частично воссоздавать принципы обработки информации, свойственные человеческому мозгу. Любой ребенок способен говорить сам и понимать речь окружающих, узнавать лица родителей и друзей в различных ситуациях. Однако подобные, слабо формализуемые задачи из нашей жизни, достаточно сложно реализовать даже на современных вычислительных машинах.

Представление об устройстве головного мозга появилось только около ста лет назад, когда в 1888 г. испанский доктор Р. Кайал экспериментально показал, что мозговая ткань состоит из большого числа связанных друг с другом однотипных узлов — нейронов. Более поздние исследования при помощи электронного микроскопа показали, что все нейроны, независимо от типа, имеют схожую структуру (см.: рис. 1.).

Общая структура головного мозга очень сложна [1]. Число нейронов можно оценить приблизительно как 10й. Каждый нейрон в среднем имеет 104 синаптических связей, а всего мозг содержит 1015 соединений, большая часть которых формируется в течение нескольких месяцев после рождения. Все синапсы имеют различную силу и расположение.

История искусственных нейронящей из простых вычислителей, созданных по принципу биологического нейрона. В 1962 г. Ф.Розенблатт (Rosenblatt) для решения проблем классификации символов предложил использовать особый тип искусственной нейронной сети, названный им персептроном [2]. Однако уже в 1969 г. Минский (Minsky) и Паперт (Pa-pert) в своей известной работе [3] показали, что персептрон не может решать целый класс простых задач,таких как реализация логической операции XOR (исключающего ИЛИ). Появление этой работы сыграло роковую роль для теории нейронных сетей, все исследования в этой области фактически были приостановлены, вплоть до середины 80-х годов.

В нашей работе мы, в основном, будем работать с одним из самых распространенных типов нейронных сетей - многослойным персептроном (multi-layer per сер tr on). Многослойный персептрон с одним скрытым слоем будет реализовывать следующую сложную функцию:

Здесь W = {wij : г = 1,. , р} — называются весами сети; д(а) —нелинейные пороговые функции, обычно логический сигмоид д(а) = 1/(1 + е~а), или тангенс гиперболический д{а) = tanh = ta+e-a '■> 3k может быть линейной, сигмоидом или tanh; wq и WQj — пороговые значения нейронов, которые обычно переносятся под знак суммы следующей модификациных сетей началась в 1943 г., когда В.Маккуллох (McCulloch) и В.Питтс (Pitts) предложили систему обработки информации в виде сети, состо

Рис. 1. Структура нейрона

0.1) ей входного вектора: х — . , x<i). Число нейронов, их связность и количество слоев будут определять возможность конкретной нейронной сети. Настройку весов многослойного персептрона обеспечивает специальная процедура обучения. В 1986 г. Румельхарт (Rumelhart), Хинтон (Hinton) и Вильяме (Williams) предложили для этого эффективный алгоритм — обратного распространения ошибки.

В 1957 г. Колмогоровым была доказана теорема, которая позволяет говорить о том, что для решения любой задачи возможно построить нейронную сеть [4]: Каждая непрерывная функция d переменных, заданная на единичном кубе d-мерного пространства представима в виде: где hq — непрерывные негладкие функции, ifpq{xp) — стандартные функции не зависящие от вида функции /. В терминах нейронных сетей теорему можно перефразировать следующим образом [5]: Любое отображение входов нейронной сети в ее выходы может быть реализовано 3-уровневой нейронной сетью прямого распространения с d(2d+1) нейронов на первом и 2d + 1 на втором слое. К сожалению, практического применения теорема Колмогорова не имеет [5]. Она только гарантирует существование такой сети, но не определяет алгоритм ее построения. Более общий результат, теоретически обосновывающий эффективность нейронных сетей, приведен в [6].

В настоящее время в исследованиях, связанных с нейронными сетями, существует множество способов задания нейроподобных структур [7],[8], [9]. Нейронные сети специальных типов все чаще применяются для решения не лабораторных, а разнообразных практических задач. Все виды нейронных сетей можно условно разделить на сети прямого распространения и сети с обратными связями. Как следует из названия, в сетях первого типа сигналы от нейрона к нейрону распространяются в четко заданном направлении: от входов сети к ее выходам. В сетях второго типа

0.2) б

Рис. 2. Многослойный персеп- Рис. 3. Классификация нейронных сетей трон направления передачи сигнала не фиксировано: выходные значения любого нейрона сети могут передаваться и к его же входам. Это позволяет нейронной сети моделировать более сложные процессы, например изменяющиеся во времени, но делает выходы подобной сети нестабильными, зависящими от состояния сети на предыдущем цикле. На рис. 3. представлены наиболее распространенные типы нейронных сетей. Разнообразие нейронных сетей увеличивается еще больше, благодаря огромному количеству алгоритмов и методик обучения, а также наличию нескольких видов пороговых функций. К сожалению, по ряду причин невозможно говорить о существовании единой устоявшейся терминологии в теории нейронных сетей, поэтому мы будем придерживаться формализации терминологии, приведенной в [10].

Общая постановка проблемы

В информатике мы постоянно сталкиваемся с необходимостью создания математических моделей, описывающих то или иное явление. Во многих случаях, для построения модели, всякий раз стараются использовать некоторые априорные сведения о предмете моделирования. Модели, которые используют подобные предположения о функциональном виде явления, принято называть параметрическими. Параметрические модели можно охарактеризовать как эффективные и просто реализуемые.

Однако существует большое количество задач, для которых довольно сложно сделать какие-либо априорные предположения о планируемом виде модели. Обычно имеется возможность только получить ограниченный набор измерений, характеризующий определенную задачу — обучающую выборку. К таким, слабо формализуемым проблемам, можно отнести: задачи медицинской диагностики, анализ и прогнозирование в финансовой сфере, системы распознавания и проч. В случае, когда априорные предположения о моделируемом процессе неизвестны, широко применяются т.н. непараметрические модели, к которым относятся и нейронные сети.

Непараметрические модели, в силу своей гибкости, характеризуются большим количеством всех возможных моделей. Из всего класса возможных моделей выбирается такой элемент, который лучше "настраивается" на обучающую выборку. Определим формально критерий выбора такой модели.

Пусть мы имеем некоторую обучающую выборку D из N пар наблюдений вида D = {(xj, г/i) : г = 1,. , N}, определяющих отображение / : х у. Будем считать, что выборка D была сгенерирована по следующему правилу: и = /(*.•) + £(*)• (0-3)

Здесь f(x) — это некоторая неизвестная функция, входы Х{ подаются независимо, с неизвестной стационарной функцией плотности р(х), — независимые случайные величины с нулевым средним £ = 0 и неизвестной дисперсией сг|, а уг — полученные выходные значения.

Задача обучения или задача регрессии будет заключаться в том, чтобы по выборке D среди класса возможных моделей /д (х) выбрать модель f{x,D) как можно точнее оценивающую вид /(ж). В терминах теории нейронных сетей задачу регрессии можно сформулировать, как поиск среди множества всех возможных нейронных сетей А нейронной сети, преобразующей входные вектора Х{ в свои выходы yi и реализующей оценку f(x,D).

Если зафиксировать класс нейронных сетей наиболее распространенным классом — сетями прямого распространения, все множество нейронных сетей А можно разбить на счетное множество подклассов А, определяемых выбранной топологией сети (числом уровней — L, количеством нейронов сети — 7). В пределах каждого класса А{ с А нейронные сети будут характеризоваться дополнительным набором параметров — набором весов связей между нейронами сети W = {w\i = 1,. ,р}. Таким образом, мы имеем вектор настраиваемых параметров нейронной сети в = {L, 7, W}.

Естественным критерием для выбора нейронной сети, реализующей оценку f(x), будет функция, заданная среднеквадратическим отклонением для произвольных входных данных:

Р{х) = Jlf(x) - f{x)fp{x)dx + 4 (0.4) х

При конечном числе примеров для значения Р{х) можно привести оценку:

1 N

0.5) г=1

Здесь (х*,у*) — точки тестовой выборки или новые измерения, полученные по (0.3) и не участвовавшие при конструировании /(ж). Функция Е{-} определяет дисперсию аргумента. Оценка Р(х) характеризует обобщающую способность конкретной нейронной сети.

Задача построения нейронной сети и получения хорошей оценки (0.5) существенно усложнена по причине зашумленности и ограниченного объема обучающей выборки D. Подобный ограниченный объем

Рис. 4. Пояснение к проблеме стабильности-пластичности данных приводит, помимо всего прочего, к проблеме, известной в научной литературе как проблема стабильности-пластичности (biase-variance trade-off) [5]. Рассмотрим эту проблему на простом примере. В качестве способа построения f(x) мы выберем полином степени М. f(x) = WQ-\-wix + . + wMxM. (0.6)

Подбирая некоторым образом веса W{ можно добиться минимального значения Р(х). На рис. 4. (а) приведен результат, полученный для М = 1 (линейной функции). Можно видеть, что такой полином дает очень плохое приближение для f(x) по причине своей ограниченной пластичности. Лучшие результаты мы получим, наращивая степень полинома, тем самым фактически увеличивая число свободных переменных модели. На рис. 4. (б) показана оценка для М = 12. Хотя полином достигает наилучшего приближения к данным обучающей выборки D, тем не менее, оценка Р(х) будет далека от минимальной, вследствие высокой степени осцилляции f(x). Только для варианта на рис. 4. (в) можно сказать, что при М — 3 мы получим лучшую оценку Р(х).

Таким образом, обобщающая способность модели будет кардинально зависеть от ее сложности: модель с малым числом свободных переменных (М = 1) имеет высокую стабильность, в то время как модель с высокой степенью свободы (М — 12) обладает большей пластичностью. Основной задачей регрессии будет определение модели, реализующей некий компромисс между этими крайностями.

Приведенная выше проблема зависимости эффективности модели от ее сложности послужила толчком для появления нескольких более совершенных критериев оценки для выбора лучшей модели. В результате, такие критерии как: информационный критерий Акаика (AIC), байесовский информационный критерий (BIC), сетевой информационный критерий (NIC), обобщенная прогнозируемая ошибка (GPE), описание минимальной длины (MDL) и другие, при построении целевой функции, уже принимают во внимание сложность модели. Более подробно мы остановимся на этих критериях в п. 1.1 на с. 19.

К сожалению, рассмотренные критерии, как общего назначения, так и разработанные специально для нейронных сетей, предлагают только способы оценки эффективности модели в пределах семейства моделей, но не предоставляют механизма поиска моделей-кандидатов. Возвращаясь к нейронным сетям, можно сказать, что подавляющее число исследователей для определения эффективной нейронной сети используют метод эмпирического подбора, когда вручную перебирается несколько вариантов нейронной сети различной архитектуры. Каждый из вариантов проверяется по одному из перечисленных критериев, и выбор останавливается на архитектуре, наиболее точно реализующей оценку. С увеличением сложности задач подобный подход становится чрезвычайно трудоемким и в этом случае качество решения проблемы полностью зависит от опыта и интуиции исследователя.

Решением поставленной проблемы — автоматического нахождения нейронной сети наилучшим образом реализующей f(x), будет являться отказ от жесткой фиксации топологии нейронной сети до начала этапа обучения. Точнее говоря, происходит объединение процесса создания нейронной сети с алгоритмом ее обучения. Таким образом, реализуется следующая общая схема: перебор, в соответствии с некоторым критерием, нейронных сетей возможных архитектур одновременно с оценкой эффективности каждой полученной нейронной сети.

Согласно [11] все способы автоматического построения нейронных сетей можно достаточно условно разделить на два направления — конструктивные алгоритмы и методы глобального поиска.

Исторически более ранние конструктивные методы объединяет то, что нейронная сеть оптимальной топологии получается за счет построения нейронной сети по шагам за счет наращивания или усечения архитектуры. По способу конструирования сети выделяют, соответственно, два подхода: роста (growing) и усечения (pruning) нейронной сети [5]. Подход роста предполагает начало построения с простейшей нейронной сети с последующим добавлением элементов архитектуры сети. Направление усечения последовательно упрощает уже имеющуюся обученную нейронную сеть, поэтапно отсекая фрагменты архитектуры. В качестве варьируемых элементов архитектуры могут выступать, например, количество нейронов в скрытом слое для сетей прямого распространения, или число центров в сетях радиально базисных функций.

Решение о способе модификации нейронной сети принимается в соответствии с фиксированным алгоритмом построения. Алгоритм построения задается таким образом, чтобы добавление новых нейронов (связей) на каждом этапе гарантированно уменьшало (в случае усечения не увеличивало) значение ошибки работы сети. Как правило, схема работы алгоритмов роста носит характер локализации неверно решаемых нейронной сетью примеров обучающей выборки D, фиксирование уже построенной сети для правильно решаемых примеров и добавление архитектуры нейронами (связями), корректирующими работу сети для неверно решаемых примеров. Методика работы алгоритмов усечения предполагает определение степени влияния отдельных элементов архитектуры нейронной сети на значение ошибки и отбрасывание наименее значимых.

Основным преимуществом конструктивного подхода следует признать небольшое время работы. Это непосредственно вытекает из алгоритма построения, при котором всякий раз мы имеем дело с нейронной сетью уже, хотя бы частично, решающей задачу. Каждое дальнейшее усложнение архитектуры только улучшает результат. Еще одним положительным результатом подобного подхода к построению сетей будет являться иерархическая организация архитектур, созданных нейронных сетей. В ряде случаев, при использовании некоторых эффективных критериев оценок обобщающей способности нейронной сети, для корректного сравнения различных построенных нейронных сетей свойство вложенности будет важным [12],[13].

Недостатком конструктивного подхода, точнее направления роста, будет являться то, что архитектура построенной нейронной сети может значительно отличаться от оптимальной. Подобная организация поиска затрагивает фактически только смежные классы архитектур Д в пространстве архитектур А. В таком случае, мы можем только рассчитывать на попадание в ближайший локальный минимум. Более того, большая часть конструктивных алгоритмов жестко фиксирует способ наращивания архитектуры, например, добавлением нейронов в единственный скрытый слой сети (см.: с. 36), или же наоборот, присоединением, всякий раз, нового скрытого слоя с единственным нейроном (см.: п. 1.2.5 с. 33), что приводит к дополнительному раздуванию размеров сети. В плане критики направления усечения можно сказать только то, что единственным неясным моментом является способ получения исходной усекаемой сети. Очевидно, что такую сеть мы сможем предварительно иметь не для всех случаев.

Методы глобального поиска, как следует из названия, основаны на поиске в пределах всех возможных моделей в пространстве архитектур. Среди всех возможных топологий нейронных сетей целенаправленно ищется единственная сеть, которая будет формировать наилучшую оценку f(x). В качестве основного средства обеспечения поиска архитектур нейронных сетей применяются генетические алгоритмы.

Генетические алгоритмы, предложенные Д. Холландом [14], представляют собой аппарат контекстно-независимого адаптивного поиска, основанного на метафоре эволюции живых организмов. Поиск оптимальной топологии сети начинается с выбора способа кодирования архитектуры сети в генетическую строку, описывающую отдельную особь. На каждом этапе эволюции из популяции выбирается несколько лучших особей, порождающих с помощью генетических операций (мутации, кроссингове-ра) новые экземпляры, которые, в свою очередь, перейдут на следующий этап. Выбор особей производится на основе оценочной фитнесс-функции. Процесс порождения эволюций завершается при получении особи (нейронной сети) с искомыми свойствами.

Эволюционный подход обеспечивает нам глобальный охват пространства поиска и, очевидно, в процесс поиска будут вовлекаться как простые, так и сложные архитектуры. Как было показано выше, сложность модели будет существенно влиять на точность построенной оценки /(ж). Для достижения наилучшего результата и избежания эффекта оверфиттинга, способы задания фитнесс-функций предполагают наличие параметров, регулирующих размеры сети, поощряющих получение наименьшего адекватного задаче варианта сети. Необходимо отметить, что критерии оценки, используемые в конструктивных алгоритмах, зачастую не принимает во внимание сложность модели.

К положительным сторонам глобального эволюционного поиска нейронных сетей можно отнести охват всех классов архитектур А, а не только смежных. Поиск по всему пространству дает большие шансы для нахождения глобального минимума оценочной функции. Кроме этого, способ организации работы генетических алгоритмов дает нам возможность находить решение при произвольно сложном виде оценочной фитнесс-функции.

Основным недостатком эволюционного поиска можно считать очень длительное время нахождения решения. Это объясняется тем, что в процессе поиска оптимального решения, на каждом этапе эволюции производится сначала построение, а затем перебор большого числа индивидуумов. В некоторых генетических алгоритмах, для уменьшения времени вычислений, искусственно сужается пространство поиска — в генетической строке ограничивается размер пред ставимой нейронной сети. Это делает алгоритмы эволюционного получения нейронных сетей оптимальной топологии малопривлекательными для задач, требующих получения сложных нейронных сетей.

Оба приведенных выше подхода к автоматическому построению нейронных сетей имеют свои достоинства и свои недостатки. Конструктивные алгоритмы за короткий срок получают субоптимальное решение, а эволюционный поиск находит, как правило, лучший результат, но за более длительное время.

Если сделать попытку объединить сильные стороны обоих подходов, то может получиться алгоритм с лучшими характеристиками. Продвижение в данном направлении и составляет содержание настоящей работы.

Приведенный выше анализ позволяет сделать следующие выводы:

- теория нейронных сетей является быстро развивающейся наукой, обладающей перспективой для развития систем искусственного интеллекта;

- в качестве одной из важных и далеких от всеобъемлющего решения проблем в теории нейронных сетей можно выделить задачу автоматического построения нейронных сетей, ориентированных на определенный класс задач;

- метод эмпирического подбора, заключающийся в переборе нескольких вариантов нейронной сети различной архитектуры, нельзя признать оптимальным в виду его возрастающей трудоемкости при увеличении сложности задач. В этом случае качество решения проблемы полностью зависит от опыта и интуиции исследователя;

- решение проблемы получения эффективной топологии следует искать на пути объединения процесса построения нейронной сети с процессом ее обучения;

- имеющиеся способы автоматического построения нейронных сетей: конструктивные алгоритмы и методы эволюционного поиска обладают своими преимуществами, но не обеспечивают универсального компромиссного решения.

Целью данной работы является реализация эффективного алгоритма построения оптимальной топологии нейронных сетей путем объединения сильных сторон конструктивного и эволюционного подходов.

В работе ставятся следующие конкретные задачи:

1) исследовать современное состояние дел в области разработки алгоритмов автоматического построения нейронных сетей;

2) провести детальный анализ на предмет выявления сильных и слабых сторон конструктивного и эволюционного направлений;

3) обосновать и реализовать собственный подход, объединяющий наиболее сильные стороны обоих алгоритмов;

4) провести сравнительный анализ эффективности и исследовать практические возможности разработанного нами алгоритма на стандартном наборе тестовых примеров;

5) применить разработанный алгоритм к исследованиям некоторых практических прикладных задач.

Структура диссертации

Диссертация состоит из введения, трех основных глав, заключения и двух приложений. Во введении кратко освещено современное состояние теории нейронных сетей, проанализированы основные задачи, возникающие при проектировании нейронных сетей и магистральные пути решения возникающих проблем. Здесь же сформулирована постановка задачи и определены методы исследования.

Заключение диссертация на тему "Метод эволюционного накопления признаков для автоматического построения нейронных сетей"

Основные результаты, давшие основу данной работы, обсуждались по мере их получения на заседаниях семинара по искусственному интеллекту кафедры вычислительной математики и компьютерного моделирования механико-математического факультета ТГУ. Наряду с этим, результаты работы докладывались на следующих научных конференциях и семинарах:

- Региональная научно-практическая конференция "Сибирская школа молодого ученого", Томск, 1999;

- XXXVII международная научная студенческая конференция "Студент и Научно-технический прогресс", Новосибирск, 1999;

- IV межвузовская конференция студентов, аспирантов и молодых ученых "Наука и образование", Томск, 2000;

- IV сибирский конгресс по прикладной и индустриальной математике (ИНПРИМ-2000), Новосибирск, 2000;

- Международная научно-практическая конференция "Компьютерные технологии в науке, производстве, социальных и экономических процессах", Новочеркасск, 2000;

- VIII всероссийский семинар "Нейроинформатика и ее приложения", Красноярск, 2000;

- III всероссийский семинар "Моделирование неравновесных систем", Красноярск, 2000;

- VI всероссийский семинар "Нейрокомпьютеры и их применение", Москва, 2000;

- V межвузовская конференция студентов, аспирантов и молодых ученых "Наука и образование", Томск, 2001;

- III всероссийская научно-техническая конференция "Нейроинформа-тика-2001", Москва, 2001;

- Юбилейная 60-я итоговая научная студенческая конференция студенческого научного общества имени Н.И. Пирогова, Томск, 2001;

- XI Международная конференция по вычислительной механике и современным прикладным программным системам (ВМСППС-2001), Переславль-Залесский, 2001.

Автор выражает глубокую благодарность своему научному руководителю Новосельцеву В.Б. за постановку задачи и обсуждение результатов, а так же другим своим соавторам: Иваненко Б.П., Парфенову А.Н., Шевелеву О.Г., Вдовиной О.В., Будько Т. А. Благодарю Малышкова Ю.П. за любезное предоставление тестового набора данных по задаче предсказания землетрясений по литосферным импульсам.

Заключение

Библиография Тютерев, Владислав Валерьевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Calvin W.H. and Ojemann G.A. Conversations with Neil's Brain: The Neural Nature of Thought And Language. Addison-Wesley, 1994. (http ://facuity. Washington. edu/wcalvin/).

2. Розенблатт Ф. Принципы нейр о динамики. Перцептрон и теория механизмов мозга. М.:Мир, 1965. 480 с.

3. Минский М. , ПайпертС. Персептроны. М.:Мир, 1971.

4. Горбань А.Н., Дунин-Барковский B.JL, Кирдин А.Н. Нейроинфор-матика. Новосибирск: Наука. Сибирское предприятие РАН, 1998. 296 с. (http://www.neuropower.de/rus/).

5. Bishop С. М. Neural Network for Pattern Recognition. Oxford University Press, Oxford, 1997. 482 p.

6. Gorban A.N. and Wunsch D.C. The General Approximation Theorem. II Proceedings of Intern. Joint Conf. on Neural Networks'98, 1998.

7. Muller В., Reinhardt J., Strickland M.T. Neural Networks. Springer-Verlag, 1995. 242 p.

8. Krose В., Van der Smagt. An Introduction to Neural Networks. Univ. of Amsterdam, 8th edition, 1996. 135 p. (http://www.robotic.dlr.de/Smagt/books/neuro-intro.ps.gz).

9. Тютерев В.В., Новосельцев В.Б. Теория нейронных сетей. Томск: Изд. ТГУ, 2001. 70 с.

10. Fiesler E. Neural Network Classification and Formalization. II Computer Standards & Interfaces, V. 16, P. 13, 1994. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/fiesler.formalization.ps.gz).

11. Ripley B.D. Pattern Recognition and Neural Networks. Cambridge University Press, Cambridge, 1997. 403 p.

12. Moody J.E. and Utans J. Architecture selection strategies for neural networks: application to corporate bond rating prediction. II Wiley, P. 277 -300, 1995. (ftp://cse.ogi.edu/pub/tech-reports/1994/94-036.ps.gz).

13. Holland J.H. Adaptation in Natural and Artificial Systems. Univ. of Michigan Press., Second Ed. 1992, MA: The MIT Press edition, 1975.

14. Amari S. , Murata N. and Muller K.R. Asymptotic Statistical Theory of Overtraining and Cross-Validation. II Tech.Rep. METR-95-06, Univ. of Tokyo, 1995. (ftp://archive.cis.ohio-state. edu / pub/neuroprose/ amari. overtraining.ps. gz).

15. Barron A. Predicted squared error: a criterion for automatic model selection. //New York, 1984.

16. Lawrence S., C. Lee Giles and Ah Chung Tsoi. What Size Neural Network Gives Optimal Generalization? Convergence Properties of Backprop-agation. II Tech.Rep. UMIACS-TR-96-22 and CS-TR-3617, Univ. of Maryland, 1996.

17. Utans J. and Moody J. Selecting Neural Network Architectures Via the Prediction Risk: Application to Corporate Bond Rating Prediction. II Tech.Rep., Yale Univ., 1991. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/utans. bondrating.ps.gz).

18. Moody J.E. Note on generalization, regularization and architecture selection in nonlinear learning systems. /I IEEE Computer Society Press, P. 1 10, 1991. (ftp://neural.cse.ogi.edu/pub/neu-ral/papers/moody91.generalize.ps.Z).

19. Moody J.E. The effective number ofparameters: an analysis of generalization and regular ization in nonlinear learning systems, P. 847 854, 1992. (ftp ://neur al. cse. ogi. edu/pub/neural/paper s/ moody 91. p effecti ve. ps. Z).

20. Murata N., Yoshizawa S. , Amari S. Learning Curves, Model Selection and Complexity of Neural Networks. II M.Kaufmann, San Mateo, CA, V. 5, P. 607 614, 1993. (http://www.islab.brain.rik-en. go .jp/ mura/paper/mura93 nips92.ps. gz).

21. Mezard M. , Nadal J.P. Learning in feedforward layered networks: The Tiling algorithm. II Journal of Physics, V. A22, P. 2191 2203, 1989.

22. Bodenhausen U. Automatic Structuring of Neural Networks for Spatio-Temporal Real-World Applications. II PhD thesis, der Fakultat fur Informatik der Universitat Karlsruhe, 1994. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/bodenhausen.thesis.ps.gz).

23. Frean M. The Upstart Algorithm: A Method for Constructing and Training Feed-Forward Neural Networks. II Tech.Rep. 89/469, Edinburgh Univ., 1989. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/frean.upstart.ps.gz).

24. Thimm G. and Fiesler E. Two Neural Network Construction Methods. II Neural Processing Letters, V. 6, P. 25 31, 1997. (http ://w ww. wkap. nl/issuetoc. htm/).

25. Wen W.X., Jennings A. and Liu H. Learning a Neural Tree. II Proceedings Intern. Joint Conf. on Neural Networks'92, Beijing, China, 1992. (ftp:// archive. cis. ohio-state. edu/pub/neuroprose/ wen. sgnt-learn. ps. gz).

26. Wen W.X., Pang V. and Jennings A. A Comparative Study Between SGNT andSONN. //AI'92, Hobart, Australia, Nov 1992. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/wen.sgnt-learn.ps.gz).

27. Ash T. Dynamic Node Creation in Back-Propagation Networks. II Connection Science, V. 1, 1989.

28. Fahlman S.E. and Lebiere C. The cascade-correlation learning architecture. II In Advances in Neural Information Processing II, P. 524 532, 1990. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/fahlman.cascor-tr.ps.gz).

29. Fahlman S.E. An Empirical Study of Learning Speed in Back-Propagation Networks. II Tech.Rep. CMU-CS-88-162, School of Computer Science, Carnegie Mellon University, 1988. (ftp://archive.cis.ohio-state. edu/pub/neuropr ose/fahlman. quickprop-tr. ps. gz).

30. Yang J. and Honavar V. Experiments with the Cascade-Correlation Algorithm. // Tech.Rep. 91-16, Department of Computer Science, Iowa State University, 1991. (ftp://archive.cis.ohio-state. edu/pub/neuroprose/zecchina. committee. ps. gz).

31. Squires C.S. and Jr.Jude W.Shavlik. Experimental Analysis of Aspects of the Cascade-Correlation Learning Architecture. //Neural Networks, 1991. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/squires.cascor.ps.gz).

32. Prechelt L. Investigation of the CasCor Family of Learning Algorithms. II Neural Networks, V. 10, N 5., P. 885 896, May 1997. (ftp ://ftp. ira.uka. de/pub/neuron/neurnetw97. ps .gz).

33. Shultz T.R. and Elman J.L. Analyzing Cross Connected Networks. II Advances in Neural Information Processing Systems, V. 6, P. 1117 1124, 1990. (ftp://archive.cis.ohio-state. edu/pub/neur oprose/shultz. cr о ss. ps. gz).

34. Fahlman S. E. The Recurrent Cascade-Correlation Architecture. II Tech.Rep. CMU-CS-91-100, School of Computer Science, Carnegie Mellon University, 1991. (ftp://archive.cis.ohio-state. edu/pub/neuroprose/fahlman. rcc. ps. gz).

35. Klagges H. and Soegtrop M. Limited Fan-in Random Wired Cascade-Correlation, 1991. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/klagges.rndwired-cascor.ps.gz).

36. Sjogaard S. A Conceptual Approach to Generalization in Dynamic Neural Networks. I/ PhD thesis, Computer Science Department, Aarhus University, 1991. (ftp://archive.cis.ohio-state. edu/pub/neuroprose/sj ogaard. concept. ps. gz).

37. Simon N., Kerckhoffs E. and Corporaal H. Variations on the Cascade-Correlation Learning Architecture for Fast Convergence. II Neural Network World, V. 2, P. 497 510, 1992.

38. Simon N. Constructive Supervised Learning Algorithms for Artificial Neural Networks. II PhD thesis, Delft University of Technology, Faculty of Electrical Engineering, 1993. (ftp://archive.cis.ohio-state. edu/pub/neuroprose/simon. thesis. ps .Z).

39. Treadgold N.K. and Gedeon T.D. Exploring Constructive Cascade Networks. II IEEE Transactions on Neural Networks, 1999. (http://www.cse.unsw.edu.au/ nickt/doc/acasper.ps).

40. Treadgold, N.K and Gedeon T.D. Exploring Architecture Variations in Constructive Cascade Networks. II Proc. Int. Joint Conf. on Neural Networks, Anchorage, P. 343 348, 1998. (http://www.cse.unsw.edu.au/ nickt/doc/tower.ps).

41. Treadgold N.K. and Gedeon T.D. A Cascade Network Algorithm Employing Progressive RPROP. II Int. Work Conf. on Artificial and Natural Neural Networks, Lanzarote, P. 733 742, 1997. (http://www.cse.unsw.edu.au/nickt/doc/casper.ps).

42. Treadgold N.K. and Gedeon T.D. Extending and Benchmarking the CasPer Algorithm. II Australian Conference on Artificial Intelligence, Perth, P. 398 406, 1997. (http://www.cse.unsw.edu.au/ nickt/doc/casperpclass.ps).

43. Treadgold N.K. and Gedeon T.D. Extending CasPer: A Regression Survey. II Int. Conf. on Neural Information Processing, Dunedin, P. 310 -313, 1997. (http://www.cse.unsw.edu.au/ nickt/doc/casperpreg.ps).

44. Mozer M.C., Smolensky P. Skeletonization: a technique for trimming the fat from a network via relevance assessment. II Advances in Neural Information Processing Systems, V. 1, P. 107 115, 1989.

45. Горбань A.H. Обучение нейронных сетей. М.:СП "ParaGraph", СССР-США, 1990. 160 с.

46. Еремин Д.И. Контрастирование. II Нейропрограммы под. ред. Тор-баня А.Н. Красноярск: изд. КГТУ, С. 88 108, 1994.

47. Le Cun Y., Denker J.S., Solla S.A. Optimal Brain Damage. II Advances in Neural Information Processing Systems II (Denver 1989), P. 598 605, 1990.

48. Hassibi В. and Stork D.G. Second Order Derivatives for Network Pruning: Optimal Brain Surgeon. //Neural Information Processing Systems, 1992. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/stork.obs.ps.gz).

49. Pedersen M.W., Hansen L.K. and Larsen J. Pruning with Generalization Based Weight Saliences: jOBD, 7 OBS., 1994. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/pedersen.pruning.ps.gz).

50. Levin A.U., Leen Т.К., Moody J.E. Fast Pruning Using Principal Components. II Advances in Neural Information Processing, V. 6, 1994. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/levin.pruning.ps.gz).

51. Spears W.M., A. De Jong, Back Т., Fogel D.B., Hugo de Garis. An Overview of Evolutionary Computation. II Proceedings of the 1993 European Conference on Machine Learning, 1993. (http://www.aic.nrl.navy.mil/ spears/papers/ecml93.ps).

52. Дмитрович А.И. Интеллектуальные информационные системы. Тет-расистемс, Минск, 1997. 367 с.

53. Hussain T.S. An Introduction to Evolutionary Computation. II Tech.Rep., CITO Researcher Retreat, Ontario, 1998. (http://www.cs.queensu.ca/home/hussain/).

54. Koza J.R. Survey Of Genetic Algorithms And Genetic Programming. II Tech.Rep., Computer Science Department Margaret Jacks Hall Stanford University, 1995. (http://smi-web.stanford.edu/people/koza/).

55. Goldberg D.E. Genetic algorithms in search, optimization and machine learning. Addison-Wesley, Reading, 1989.

56. Whitley D. The GENITOR algorithm and selection pressure: why rank-based allocation of reproductive trials is best. II In: Proceedings of the 3rd International Conference on Genetic Algorithms and their applications (ICGA), P. 116 121, 1989.

57. Hussain T.S. Methods of Combining Neural Networks and Genetic Algorithms. II Tech.Rep., ITRC/TRIO Researcher Retreat, Ontario, May 1997. (http ://www. cs. queensu. ca/home/hus s ain/).

58. Xin Yao. A Review of Evolutionary Artificial Neural Networks. II International Journal of Intelligent Systems, 1991. (ftp://archive.cis.ohio-state. edu/pub/neuroprose/y ao. eann .ps. gz).

59. Branke J. Evolutionary Algorithms for Neural Network Design and Training. II In 1st Nordic Workshop on Genetic Algorithms and its Applications, 1995. (ftp://ftp.aifb.uni-karlsruhe.de/pub/jbr/Vaasa.ps.gz).

60. Boers E.J.W., Borst M.V. and Sprinkhuizen-Kuyper I.G. Evolving Artificial Neural Networks Using the "Baldwin Effect". II Tech.Rep. TR95-14, Computer Science Department, Leiden Univ., 1995. (ftp://ftp.wi.leidenuniv.nl/pub/CS/MScTheses/tr95-14.ps).

61. Koehn Ph. Combining Genetic Algorithms and Neural Networks: The Encoding Problem. II PhD thesis, The University of Tennessee, Knoxville, 1994. (ftp://archive.cis.ohio-state. edu/pub/neuroprose/koehn. encoding .ps. gz).

62. Gruau F., Whitley D., Pyeatt L. A comparison between cellular encoding and direct encoding for genetic neural networks. // Proceedings of the First Genetic Programming Conference, P. 81 -89,1996.

63. Miller G., Todd P. and Hegde S. Designing neural networks using genetic algorithms. II In: Proceedings of the 3rd International Conference on Genetic Algorithms and their applications (ICGA), P. 379 384, 1989.

64. Marti L. Genetically Generated Neural Networks I: Representational Effects. II Tech.Rep. CAS/CNS-TR-92-014, Boston University, Center for Adaptive Systems, 1992.

65. Marti L. Genetically Generated Neural Networks II: Searching for an Optimal Representation. // Tech.Rep. CAS/CNS-TR-92-015, Boston University, Center for Adaptive Systems, 1992. (ftp://archive.cis.ohio-state. edu/pub/neuroprose/marti. ga2. ps. gz).

66. Dasgupta D. Evolving N euro-Controllers for a Dynamic System Using Structured Genetic Algorithms. II Applied Intelligence, V. 8, P. 113 -121, 1998. (http://www.wkap.nl/issuetoc.htm/).

67. Korning P.G. Training Neural Networks by means of Genetic Algorithms Working on Very Long Chromosomes. II PhD thesis, Aarhus University Ny Munkegade, 1997. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/korning.nnga.ps.gz).

68. Figueira Pujol J.C. and Poli R. Evolving the Topology and the Weights of Neural Networks Using a Dual Representation. /I Applied Intelligence, V. 8, P. 73 -84, 1998. (http://www.wkap.nl/issuetoc.htm/).

69. Koza J.R. and Rice J.P. Genetic Generation of Both the Weight and Architecture for a Neural Network. 11 Proceedings of the International Joint Conference on Neural Networks, V. II, P. 397 404, 1991.

70. Wong F. Genetically Optimized Neural Networks. II NIBS Technical Report, TR-940216, 1994. (ftp://archive.cis.ohio-state. edu/pub/neur oprose/wong. nnga .ps. gz).

71. MandischerM. Representation and Evolution of Neural Networks. //Proceedings of the International Joint Conference on Neural Networks and Genetic Algorithms, P. 643 649,1993.

72. Kitano H. Designing neural network using genetic algorithm with graph generation system. II Complex Systems, V. 4, P. 461 476, 1990.

73. Nolfi S. and Parisi D. Growing Neural Network. II Artificial life, V. Ill, P. 16, June 1992. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/nolfi.growing.ps.gz).

74. Nolfi S. and Parisi D. Self-selection of input stimuli for improving performance. II Tech.Rep., Institute of Psychology, CNR, Italy, 1992. (ftp://archive.cis.ohio-state.edu/pub/neuroprose/nolfi.self-sel.ps.gz).

75. Cangelosi A., Parisi D. and Nolfi S. Cell division and migration in a genotype for neural networks. II Network: Computation in Neural Systems, V. 5, P. 497 515, 1993.

76. Fullmer B. and Miikkulainen R. Using Marker-Based Genetic Encoding Of Neural Networks To Evolve Finite-State Behaviour. II To appear in Proceedings of the First European Conference on Artificial Life (ECAL-91), Paris, 1991., 1991.

77. Gruau F. Cellular Encoding of Genetic Neural Networks. II Tech.Rep. 92-21, Laboratoire de l'lnformatique du Parallelisme, Ecole Normale Su-perieure deLyon, 1992. (http://www.cwi.nl/ gruau/gruau/RR92-21.ps.Z).

78. Gruau F. Automatic definition ofsub-neural networks. II Tech.Rep. RR94-28, Laboratoire de l'lnformatique du Parallelisme, Ecole Normale Superieure de Lyon, 1994. (http://www.cwi.nl/gruau/gruau/RR94-28.ps.Z).

79. Gruau F. Neural Network Synthesis Using Cellular Encoding and the Genetic Algorithm. II PhD thesis, Ecole Normale Superieure de Lyon, 1994. (ftp://lip.ens-lyon.fr/pub/LIP/Rapports/PhD/PhD94-01-E.ps.Z).

80. Hussain T.S. Modularity Within Neural Networks. II PhD thesis, Department of Computing and Information Sciences, 1995. (http ://www. cs. queensu. ca/home/hussain/).

81. Gruau F. Automatic Definition of Modular Neural Networks. II Adaptive Behavior, V. 3, P. 151 183, 1995. (http: //www. с wi. nl/ gruau/gruau/А В. p s. Z).

82. Gruau F. Genetic Programming of Neural Networks: Theory and Practice. II Intelligen Hybrid Systems, P. 245 271, 1995. (http://www.cwi.nl/ gruau/gruau/aigp94.ps.Z).

83. Kodjabachian J. and Meyer J.A. Evolution and development of control architectures in animats. II Robotics and Autonomous Systems, V. 16, P. 161 182, 1995. (www.biologie.ens.fr/perso/meyer/publications.html).

84. Kodjabachian J. and Meyer J.A. Evolution and development of modular control architectures for 1-D locomotion in six-legged animats. II (неопуб-ликована), 1997. (www.biologie.ens.fr/perso/meyer/publications.html).

85. Luke S. and Spector L. Evolving graphs and networks with edge encoding: Preliminary report. II Late-Breaking Papers of the Genetic Pro-gramming'96 Conference, 1997. (www.cs.umd.edu/ seanl/papers/graph-paper.ps).

86. Talko B. A Rule-Based Approach for Constructing Neural Networks Using Genetic Programming. II PhD thesis, Univ. of Melbourne, Australia, 1999. (http: // www. cs. mu. oz. au / research/ vislab/).

87. Hussain T.S. and Browse R.A. Genetic Encoding of Neural Networks Using Attribute Grammars. //Tech.Rep., CITO Researcher Retreat, Ontario, 1998. (http://www.cs.queensu.ca/home/hussain/).

88. Hussain T.S. and Browse R.A. Basic Properties of Attribute Grammar Encoding. I/ Late Breaking Papers at the Genetic Programming 1998 Conference (July 22-25, Madison, Wisconsin), P. 256, 1998. (http://www.cs.queensu.ca/home/hussain/).

89. Hussain T.S. Network Generating Attribute Grammar Encoding. II Tech.Rep., Queen's University, Ontario, Canada, March 1998. (http:// www. cs. queensu. ca/home/hus s ain/).

90. Hussain T.S. Cellular Encoding: Review and Critique. II Tech.Rep., Queen's University, July 19 1997. (http:// www. cs. queensu. ca/home/hussain/).

91. Gruau F. Cellular Encoding for interactive Robotics. II Tech.Rep. 425, Sussex University, School of Cognitive and Computing Science, 1996. (ftp://ftp.cogs.susx.ac.Uk/pub/reports/csrp/csrp425.ps.Z).

92. Gruau F. and Quatramaran. Cellular encoding for interactive evolutionary robotics. //ECAL97, 1997. (http://www.cwi.nl/ gruau/gruau/e.ps.gz).

93. Soegtrop M. and Klagges H. A Massively Parallel Neurocomputer. II Tech.Rep., IBM Research Division Physics Group Munich, 1997. (ftp ://archive .cis. ohio-state. edu/pub/neuroprose/klagges .massively-parallel. ps.gz).

94. Тютерев В.В. Методы оптимизации нейронных сетей со сложной топологической структурой. II Труды регион, науч.-практ. конф. "Сибирская школа молодого ученого". Томск: Изд. ТГПУ, Т. 4, С. 28 -30, 1999.

95. Тютерев В.В. Подход к моделированию эффективных по размеру нейронных сетей. II Материалы XXXVII Международная научная студенческая конференция "Студент и Научно-технический прогресс": Математика. Новосибирск: Изд. Новосиб. ун-та, С. 141 142,1999.

96. Малышков Ю.П. и др. Предсказание землетрясений методом измерения литосферных импульсов. II Вулканология и сейсмология, N 1., С. 92, 1998.

97. Тютерев В.В. Определение эффективного размера нейронной сети в процессе обучения методом динамического наращивания узлов. II Сборник трудов VI Всероссийского семинара "Нейрокомпьютеры и их применение". М., С. 549 551, 2000.

98. Тютерев В.В. Построение нейронных сетей эффективного размера методом генетических алгоритмов. II IV Сибирский конгресс по прикладной и индустриальной математике (ИНПРИМ-2000): Тез. докл. Новосибирск: Изд-во Ин-та Математики, Т. 2, С. 126 127, 2000.

99. Siddiqi А.А. , Lucas S.M. A comparison of matrix rewriting versus direct encoding for evolving neural networks. II In Proceedings of Intern. Joint Conf. on Neural Networks'98, Anchorage, Alaska, 1998.

100. Jacob W., Rehder M. Evolution of neural net architectures by a hierarchical grammar-based genetic system. II in Proc. of the International Joint Conference on Neural Networks and Genetic Algorithms, P. 72 79, 1993.

101. Hinton E., Drew van Camp. Keeping Neural Networks Simple by Minimizing the Description Length of the Weights, 1993. (http://www.cs.utoronto.ca/ drew/colt93.ps).

102. Тютерев В.В. Применение генетических алгоритмов для определения оптимальной топологии нейронных сетей. II Нейроинформатика и ее приложения: Материалы VIII Всероссийского семинара/Под общей ред. А.Н. Горбаня. Красноярск: ИПЦ КГТУ, С. 171, 2000.

103. Тютерев В.В. Алгоритм эволюционного наращивания нейронной сети. II Сборник трудов III Всероссийской научн.-технич. конференции Нейроинформатика-2001. М.: МИФИ, Т. 1, С. 213 -218, 2001.

104. Тютерев В.В., Новосельцев В.Б. Автоматическое построение нейронных сетей методом эволюционного наращивания. II Том. ун-т. — Томск, 2001.-22с.:ил. — Библиогр.: 14 назв.-Рус.- Деп в ВИНИТИ 11.09.2001, № 1944-В2001,2001.

105. Тютерев В.В., В.Б. Новосельцев. Исследования алгоритма автоматического построения нейронной сети. II Исследования по анализу и алгебре. Томск: Изд.Томского гос. ун-та, Т. 3, С. 269 281, 2001.

106. Prechelt L. Probenl — A Set of Neural Network Benchmark Problems and Benchmarking Rules. II Tech.Rep. 21/94, Fakultat fur Informatik, Universitat Karlsruhe, Germany, 1994. (ftp://ftp.ira.uka.uka.de/pub/neuron/probenl.tar.gz).

107. Salustowicz R. A Genetic Algorithm for the Topological Optimization of Neural Networks. /I PhD thesis, Technis-che Universitat Berlin, April 1995. (ftp://archive.cis.ohio-state. edu/pub/neuroprose/salusto wicz. evnn .ps. gz).

108. Gronroos M. Evolutionary Design of Neural Networks. II PhD thesis, Computer Science, Department of Mathematical Sciences, University of Turku, Finland, 1998. (http://magi.yok.utu.fi/-Emagi/ opinnot/gradu/mscthesis .ps. gz).

109. Тютерев В.В., Новосельцев В.Б. Метод динамического наращивания узлов как способ построения нейронных сетей эффективного размера. II Нейрокомпьютеры: разработка, применение. М.: Радиотехника, N2., С. 3 -8,2001.

110. Finnoff W., Hergert F., Zimmermann H.G. Improving Model Selection by Nonconvergent Methods. II Neural Networks, V. 6, P. 771 783, 1993.