автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Синтез нейронной сети под заданное приложение
Оглавление автор диссертации — кандидата физико-математических наук Маркин, Максим Игоревич
ВВЕДЕНИЕ
1 Задача синтеза НС под заданное приложение
2 Актуальность темы
3 Цель работы
4 Методы решения
5 Структура работы
6 Благодарности
1 СУЩЕСТВУЮЩИЕ МЕТОДЫ СИНТЕЗА НС
1.1 Обучение НС
1.1.1 Формулировка задачи
1.1.2 Обратное распространение ошибки
1.1.3 Эволюционные алгоритмы и алгоритмы случайного поиска
1.1.4 Гибридные методы
1.1.5 Сравнение методов обучения НС
1.2 Выбор архитектуры НС
1.2.1 Формулировка задачи
1.2.2 Классификация методов выбора архитектуры НС
1.2.3 Статистический подход
1.2.4 Конструктивные методы
1.2.5 Методы сокращения
1.2.6 Эволюционные алгоритмы и алгоритмы случайного поиска
1.2.7 Сравнение методов выбора архитектуры НС
1.3 Выводы
2 ВЫБОР КЛАССА НС
2.1 Задача выбора класса НС
2.2 Основания для построения класса КНС
2.3 Формальная модель КНС
2.4 Свойства КНС
2.5 Эффективность КНС в задачах аппроксимации непрерывных функций
3 ПОСТАНОВКА ЗАДАЧИ СИНТЕЗА КНС
3.1 Задача синтеза КНС
3.2 Анализ задачи
4 РЕШЕНИЕ ЗАДАЧИ СИНТЕЗА КНС
4.1 Декомпозиция задачи
4.2 Выбор архитектуры КНС
4.2.1 Алгоритм имитации отжига
4.2.2 Настройка алгоритма
4.3 Обучение КНС
4.3.1 Подход к решению задачи
4.3.2 Вычисление частных производных
4.3.3 Алгоритм Левенберга-Марквардта
4.4 Экспериментальное исследование алгоритма синтеза КНС
5 ПОВЫШЕНИЕ ВЫЧИСЛИТЕЛЬНОЙ ЭФФЕКТИВНОСТИ
5.1 Метод повышения вычислительной эффективности
5.2 Метрика в пространстве архитектур КНС
5.3 Оценка расстояния между архитектурами КНС
5.3.1 Постановка задачи
5.3.2 Редукция задачи
5.3.3 Алгоритм вычисления расстояния
5.3.4 Алгоритм сопоставления внутренних нейронов
5.3.5 Критерий выбора сопоставляемых нейронов
5.3.6 Настройка параметров
5.3.7 Сложность и оптимальная организация вычислений
5.3.8 Экспериментальное исследование алгоритма вычисления расстояния
5.3.9 Оценка пригодности алгоритма вычисления расстояния
5.4 Оценка аппроксимационной способности (АС) КНС
5.4.1 • Постановка задачи
5.4.2 Модель зависимости АС схожих архитектур КНС
5.4.3 Решение задачи
5.4.4 Алгоритм оценки АС
5.4.5 Сложность алгоритма оценки АС
5.4.6 Экспериментальное исследование алгоритма оценки АС
5.5 Модификация алгоритма синтеза КНС
5.5.1 Структура алгоритма
5.5.2 Анализ свойств модифицированного алгоритма
5.5.3 Экспериментальное исследование модифицированного алгоритма
Введение 2001 год, диссертация по информатике, вычислительной технике и управлению, Маркин, Максим Игоревич
1 Задача синтеза НС под заданное приложение
Данная работа посвящена разработке метода решения задачи синтеза нейронной сети (НС) под заданное приложение. Суть задачи состоит в построении НС, предназначенной для решения определенной прикладной задачи, ставящейся в рамках заданного приложения; при этом требуется, чтобы синтезированная НС обеспечивала решение поставленной прикладной задачи с заданной эффективностью. Критерий оценки эффективности, с которой НС решает поставленную задачу, в общем случае определяется приложением, и может зависеть от таких характеристик, как, например, точность решения, сложность строения НС или степень пригодности НС для реализации на конкретной аппаратуре.
В задаче синтеза НС под заданное приложение требуется определить:
• архитектуру НС, которая задается: а) количеством и типами нейронов, из которых построена сеть, и б) топологией сети (т.е. структурой связей, соединяющих нейроны);
• значения весовых коэффициентов, приписываемых нейронам и связям, соединяющим нейроны;
• алгоритм функционирования НС, задающий правило, в соответствии с которым входному сигналу сети ставится в соответствие выходной сигнал.
В данной работе рассматриваются приложения, в которых возникает задача аппроксимации непрерывных функциональных зависимостей, и исследуются вопросы, связанные с применением для решения этой задачи НС прямого распространения [125]. Предполагается, что задача аппроксимации задается следующим образом:
• задан конечный набор пар вида "аргумент-значение" (выборка), представляющий собой измерения неизвестной функции F в некоторых точках области ее определения;
• априорно предполагается, что функция F непрерывна;
• требуется восстановить функцию F на всей области ее определения.
В такой постановке задача синтеза НС под заданное приложение сводится к задаче построения с помощью НС аппроксимации таблично заданной функции. Эффективность, с которой НС решает поставленную задачу аппроксимации, оценивается по двум критериям:
• точность аппроксимации должна быть максимальна;
• сложность самой НС должна быть минимальна.
Точность аппроксимации, обеспечиваемой НС, оценивается величиной среднеквадратической ошибки аппроксимации, вычисляемой по заданной выборке из аппроксимируемой функции F. Допускается использование различных схем кросс-проверки [54,99,119], подразумевающих подразделение заданной выборки на обучающую и проверочную выборки. Сложность НС является характеристикой архитектуры НС, и может измеряться количеством нейронов, из которых построена сеть, количеством настраиваемых весовых коэффициентов, или количеством элементарных математических операций, необходимых для вычисления выходного сигнала сети. Следует отметить, что приведенные выше критерии эффективности являются противоречивыми и не позволяют однозначно определить оптимальную НС: как правило, при увеличении сложности НС максимально достижимая для такой НС точность аппроксимации также увеличивается (и наоборот). Поэтому предполагается, что постановка задачи синтеза НС под заданное приложение содержит некоторые дополнительные условия, которые позволяют разрешить указанное противоречие. Рассматриваются варианты, когда заданы:
• максимально допустимая сложность НС - тогда оптимальной является НС, обеспечивающая наибольшую точность аппроксимации при соблюдении ограничения на сложность;
• требуемая точность аппроксимации - тогда оптимальной является НС минимальной сложности, обеспечивающая при этом заданную точность;
• относительные приоритеты обоих критериев эффективности - тогда имеется возможность сформировать единый непротиворечивый критерий оптимальности НС, учитывающий и точность аппроксимации, и сложность самой НС.
2 Актуальность темы
Традиционный подход к решению задачи синтеза НС под заданное приложение заключается в том, что исходная задача синтеза разбивается на несколько более простых подзадач, и решается в несколько этапов:
1. Выбирается класс, в котором будет производиться поиск оптимальной НС. Класс НС определяет алгоритм функционирования НС и правила, которым должна соответствовать архитектура НС. Эти правила ограничивают допустимую топологию сети и типы нейронов, которые разрешается использовать при построении сети.
2. В рамках выбранного класса НС строится архитектура НС. На этом этапе точно определяются количество нейронов в сети, тип каждого из них, а также наличие или отсутствие связи между каждой парой нейронов.
3. Производится обучение НС, архитектура которой была определена на предыдущем этапе. В процессе обучения определяются значения весовых коэффициентов сети.
Соответственно, возникают задачи:
1. Задача выбора класса НС, в которой требуется выбрать (или построить) класс НС, наиболее подходящий для заданного приложения. Под наиболее подходящим (оптимальным) классом НС здесь понимается такой класс, в котором возможно построить НС, способную обеспечить наиболее эффективное решение прикладной задачи (в рассматриваемом случае это задача аппроксимации таблично заданной функции).
2. Задача выбора архитектуры НС, в которой требуется в заданном классе НС выбрать оптимальную архитектуру. Под оптимальной здесь понимается архитектура, такая, что обученная НС с этой архитектурой решает поставленною задачу с наибольшей эффективностью среди всех НС выбранного класса.
3. Задача обучения НС, в которой требуется подобрать значения весовых коэффициентов НС с заданной архитектурой таким образом, чтобы максимально повысить эффективность, с которой НС решает поставленную задачу.
Для многих классов НС разработаны, хорошо изучены и с успехом применяются на практике различные алгоритмы обучения НС, такие, как алгоритм обратного распространения ошибки [88]. Наиболее сложными для решения являются задачи выбора класса и архитектуры НС. Для многих прикладных задач, решаемых с помощью НС, неизвестны формальные методы, позволяющие с достаточной точностью, и без проведения трудоемких экспериментальных исследований, оценить, насколько эффективное решение поставленной прикладной задачи может быть получено в заданном классе НС. Также неизвестны методы, позволяющие оценить оптимальность заданной архитектуры НС, не решая при этом задачу обучения НС с такой архитектурой. Это приводит к необходимости использования для выбора оптимальной архитектуры НС вычислительно неэффективных методов переборного типа. Высокая вычислительная сложность переборных методов обусловлена, прежде всего, необходимостью многократного решения задачи обучения НС в процессе поиска оптимальной архитектуры.
Отсутствие вычислительно эффективных методов для точного решения задач выбора класса и архитектуры НС обуславливает использование для решения этих задач различных эмпирических методов. Например,
• на первом этапе выбирается один из "стандартных" классов НС, традиционно использующихся для решения прикладных задач того же рода, что ставится в заданном приложении. Примерами таких классов НС являются многослойные сети прямого распространения [125], сети функций радиального базиса [103], сети встречного распространения [43].
• на втором этапе эмпирически [9,12], или на основании грубых статистических оценок [5,6,108], выбирается размер НС. Если выбранный на предыдущем этапе класс НС таков, что размер НС однозначно не определяет ее архитектуру, то для доопределения архитектуры используются различные эвристические правила.
Для многих приложений такие методы позволяют быстро синтезировать НС, обеспечивающую приемлемую эффективность решения прикладной задачи, ставящейся в рамках приложения.
Однако существуют и приложения, отличительной чертой которых является наличие весьма жестких и принципиальных требований к эффективности решения, обеспечиваемого НС. Будем называть такие приложения "сложными" (здесь подразумевается в виду сложность решения задачи синтеза НС под такие приложения). В качестве примера "сложного" приложения можно привести приложение, в рамках которого ставится задача синтеза НС, предназначенной для решения узкоспециализированной прикладной задачи в условиях аппаратной реализации и функционирования в режиме реального времени. Для "сложных" приложений вероятность того, что использование эмпирических методов для выбора класса и архитектуры НС позволит получить приемлемый результат, может быть весьма малой. Поэтому возникает необходимость:
• для выбора класса НС - проводить тщательный теоретический и экспериментальный анализ прикладной задачи, решаемой с помощью НС. Целью такого анализа является определить, нейроструктуры какого класса наилучшим образом подходят для решения поставленной прикладной задачи. На этом этапе может возникать необходимость в построении нового, специфичного для решаемой задачи, класса НС, и в разработке алгоритмов обучения для НС такого "нестандартного" класса.
• для выбора архитектуры НС - использовать переборные методы, основанные на многократном повторении второго и третьего этапов синтеза НС (т.е. выбор архитектуры и обучение). Схема этих методов такова: выбирается начальная архитектура, НС обучается и оценивается эффективность, с которой обученная НС решает поставленную задачу; если полученный результат неудовлетворителен, то архитектура корректируется, и весь процесс повторяется снова, пока не будет достигнута заданная эффективность решения.
При таком подходе возникает ряд проблем, связанных с высокой трудоемкостью решения задачи синтеза НС. Процесс выбора класса НС не может быть полностью автоматизирован и может требовать значительных трудозатрат как со стороны экспертов в предметной области, так и со стороны специалистов в области использования НС. Переборный характер методов, используемых для выбора архитектуры, обуславливает их низкую вычислительную эффективность: на каждой итерации приходится решать задачу обучения НС, вычислительная сложность которой может быть весьма высокой. Кроме того, при использовании переборных методов для выбора архитектуры НС в заданном классе НС часто проявляется особенность, которая приводит к так называемой проблеме эквивалентных представлений (в оригинале - Permutation Problem или Competing Conventions Problem) [36,38,85,114,130]. Суть этой проблемы заключается в возможности существования, в рамках выбранного способа представления архитектуры НС, различных представлений одной и той же архитектуры НС. Например, два представления одной и той же архитектуры НС могут различаться порядком нумерации нейронов. Такие представления далее будут именоваться эквивалентными. Существование эквивалентных представлений архитектуры НС значительно увеличивает размер пространства, в котором производится поиск архитектуры НС, и, тем самым, снижает вычислительную эффективность переборных методов, осуществляющих поиск в этом пространстве.
Таким образом, можно выделить две наиболее существенные проблемы, возникающие при решении задачи синтеза НС для "сложных" приложений, в которых наивысший приоритет имеет эффективность решения поставленной задачи с помощью синтезируемой НС:
• трудоемкость и неформализуемость методов решения задачи выбора класса НС;
• низкая вычислительная эффективность существующих методов для решения задачи выбора архитектуры НС.
В работе будет показано, что эти проблемы актуальны и в рассматриваемом частном случае, когда НС применяется для построения аппроксимации непрерывной функции.
3 Цель работы
Целью данной работы является разработка метода, позволяющего автоматизировать и ускорить процесс решения задачи синтеза НС под заданное приложение. Рассматривается класс "сложных" приложений, в которых возникает задача аппроксимации таблично заданной функции. В рамках данной работы ставятся следующие задачи:
• предложить способ решения задачи синтеза НС под заданное приложение, не требующий применения неформализуемых эмпирических методов для выбора класса НС;
• разработать алгоритмы, позволяющие снизить вычислительную сложность решения задачи выбора архитектуры НС.
4 Методы решения
В данной работе предлагается метод решения задачи синтеза НС под заданное приложение, имеющий следующие особенности:
• задача выбора класса НС не решается заново для разных приложений, а вместо этого используется достаточно широкий, "универсальный" класс НС, и синтез искомой НС осуществляется в таком классе. Предлагаемый "универсальный" класс НС обладает тем свойством, что в нем с достаточно высокой вероятностью содержатся НС, обеспечивающие эффективное решение для широкого круга прикладных задач аппроксимации;
• при решении задачи выбора архитектуры НС используются алгоритмы, позволяющие минимизировать количество проводимых сессий обучения НС.
При построении метода синтеза НС под заданное приложение использовались недетерминированные поисковые методы, методы нелинейной локальной оптимизации, а также методы регрессионного анализа.
Использование предлагаемого метода позволяет достичь поставленных целей:
• отсутствие необходимости решения задачи выбора класса НС индивидуально для каждого нового приложения позволяет избежать применения неформализуемых эмпирических методов, и, тем самым, достичь полной автоматизации всего процесса решения задачи синтеза НС под заданное приложение; t
• минимизация количества проводимых сессий обучения НС позволяет повысить вычислительную эффективность решения задачи выбора архитектуры НС, и, тем самым, существенно ускорить весь процесс решения задачи синтеза НС под заданное приложение.
Реализация предлагаемого метода содержит следующие компоненты:
1. В качестве "универсального" класса НС, который, как предполагается, хорошо подходит для многих приложений, вводится класс так называемых комбинированных нейронных сетей (КНС). КНС относятся к НС прямого распространения. Отличительной особенностью сетей из класса КНС является то, что топология сети не обязательно является регулярной, как в большинстве известных из литературы [119,125] классов НС, и может задаваться связным ациклическим графом достаточно произвольного вида. Также в КНС допускается использование, в пределах одной сети, различных (в том числе нетрадиционных для НС) типов нейронов. Предположение об эффективности использования КНС для решения задач аппроксимации непрерывных функций подтверждается результатами экспериментального исследования.
2. Предлагается алгоритм, позволяющий строить в классе КНС решения задачи синтеза НС под заданное приложение. Разработанный алгоритм синтеза КНС использует алгоритм имитации отжига [49,56] для выбора архитектуры КНС и алгоритм Левенберга-Марквардта [62,69,78] для обучения КНС.
3. Предлагается метод, позволяющий повысить вычислительную эффективность предложенного алгоритма синтеза КНС. Ускорение достигается за счет сокращения количества сессий обучения КНС, которые необходимо проводить в процессе работы предложенного алгоритма синтеза КНС. Разработанные в рамках предлагаемого метода алгоритмы позволяют: а) заменять, при выполнении определенных условий, проведение сессии обучения КНС значительно более быстрой процедурой вычисления приближенной оценки точности аппроксимации, которая достижима для обученной КНС с заданной архитектурой; б) избегать повторного обучения КНС с эквивалентными архитектурами. Этим достигается снижение негативного влияния проблемы эквивалентных представлений.
5 Структура работы
Заключение диссертация на тему "Синтез нейронной сети под заданное приложение"
Основные результаты работы заключаются в следующем:
• Предложена формальная модель комбинированных нейронных сетей (КНС) и обоснована эффективность использования КНС в приложениях, в которых возникает задача аппроксимации непрерывных функций;
• Разработан алгоритм для решения задачи синтеза КНС под заданное приложение. В качестве критериев оптимальности КНС рассматриваются критерии максимальной точности аппроксимации, обеспечиваемой КНС, и минимальной сложности самой КНС.
• Разработан метод, позволяющий повысить вычислительную эффективность предложенного алгоритма синтеза КНС за счет сокращения количества сессий обучения КНС, проводимых в процессе работы алгоритма.
Предложенный в работе алгоритм синтеза КНС может использоваться для решения задач моделирования непрерывных физических и технологических процессов, данные о которых могут быть получены посредством наблюдения за их поведением. Наиболее эффективен предложенный алгоритм в приложениях, в которых одновременно выдвигаются жесткие требования к точности и сложности искомой модели.
Наиболее перспективным представляется развитие предложенных в работе методов по следующим направлениям:
• разработка и интеграция в алгоритм синтеза КНС более быстрых и точных методов оценки ошибки аппроксимации, достижимой для КНС с заданной архитектурой;
• разработка альтернативных недетерминированных поисковых алгоритмов для решения задачи выбора архитектуры КНС и исследование эффективности их использования в предложенном методе синтеза КНС.
ЗАКЛЮЧЕНИЕ
Библиография Маркин, Максим Игоревич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. Akaike Н. A new look at the statistical model identification // 1.EE Trans. AC, vol. 19, no. 6, 1974, pp. 716-723.
2. Andersen Т., Martinez T. Using multiply node types to improve the performance of DMP (Dynamic Multilayer Perceptron) // Proceedings of the LASTED International Conference on Artificial Intelligence, Expert Systems and Neural Networks, 1996, pp.249-252.
3. Ash T. Dynamic node creation in backpropagation networks // Connection Science, 1(4), 1989, pp. 365-375.
4. Auer P., Herbster M., Warmuth M. Exponentially many local minima for single neurons // Proceedings of the 1995 Neural Information Processing Conference, pp. 316-317. MIT Press, Cambridge, MA, November 1995.
5. Barron A. Approximation and estimation bounds for artificial neural networks // Proceedings of the Fourth Annual Workshop on Computational Learning Theory, 1991, pp. 243-249.
6. Barron A. Complexity Regularization with Application to Neural Networks // Nonparametric Functional Estimation and Related Topics, Roussas G.,editor, Kluwer Academic Publishers, 1991, pp.561-576.
7. Bartlett P., Downs T. Training a neural network with a genetic algorithm // Technical Report, Dept. of Elec. Eng., Univ. of Queensland, January 1990.
8. Berry M., Linoff G. Data Mining Techniques // NY: John Wiley & Sons, 1997.
9. Bertsekas D., Tsitsiklis J. Neuro-Dynamic Programming // Belmont, MA: Athena Scientific, ISBN 1-886529-10-8, 1996.
10. Bertsekas, D. Nonlinear Programming // Belmont, MA: Athena Scientific, ISBN 1886529-14-0, 1995.
11. Boger Z., Guterman H. Knowledge extraction from artificial neural network models // IEEE Systems, Man, and Cybernetics Conference, Orlando, FL, 1997.
12. Bonomi E., Lutton J.-L. The N-city travelling salesman problem: Statistical mechanics and the metropolis algorithm // SIAM Rev. 26 (4), 1984, pp. 551-568.
13. Braun H. On solving traveling salesman problems be genetic algorithms // Parallel Problem Solving from Nature, PPSN 1, Lecture Notes in Computer Science, 1991, pp. 129-133.
14. Braun H., Weisbrod J. Evolving feedforward neural networks // Proceedings of the international conference on Artificial Neural Networks and Genetic Algorithms, ICANNGA93, 1993.
15. Braun H., Zagorski P. Enzo II a powerful design tool to evolve multilayer feed forward networks // Proceedings of the first IEEE conference on evolutionary computation, vol. 2, June 1994, pp. 278-283.
16. Bucyand R., DiEsposti R. Decision tree design by simulated annealing // Math. Modelling Numer. Anal., 1992.
17. Cybenko G. Approximation by Superpositions of a Sigmoidal Function // Math, of Control, Signals and Systems, Vol. 2, No. 4, 1989, pp. 303-314.
18. Dasgupta D., McGregor D. Designing application-specific neural networks using the structured genetic algorithm // Proceedings of the International Workshop on Combinations of Genetic Algorithms on Neural Networks, 1992, pp. 87-96.
19. Deco G., Ebmeyer J. Coarse coding resourceallocating network // Neural Computation, 5(1):105-14, 1993.
20. Dennis J., Jr, Schnabel R. Numerical Methods for Unconstrained Optimization and Nonlinear Equations // Prentice Hall, Inc., 1983.
21. Dodd N. Optimisation of network structure using genetic techniques // Proceedings of the International Joint Conference on Neural Networks, 1990, pp. 965-970.
22. Fahlman S. Faster-Learning Variations on Back-Propagation: An Empirical Study // Touretzky, D., Hinton, G, and Sejnowski, Т., eds., Proceedings of the 1988 Connectionist Models Summer School, Morgan Kaufmann, 1989, pp. 38-51.
23. Fahlman S., Lebiere C. The cascade-correlation learning architecture // In D.S. Touretzky, editor, Advances in Neural Information Processing Systems 2, pp. 524-532. Morgan Kaufmann, Los Altos С A, 1990.
24. Farlow S. Self-Organizing Methods in Modeling : GMDH Type Algorithms // vol. 54 of Statistics: Textbooks and Monographs. Marcel Dekker, Inc., New York, 1984.
25. Fischer M., Hlavackova-Schindler K., Reismann M. A global search procedure for parameter estimation in neural spatial interaction modelling // Papers in Regional Science 78, 1999, pp. 119-34.
26. Fogel D., Fogel L., Porto V. Evolving neural networks // Biological Cybernetics, 63, 1990, pp. 487-493.
27. Friedman J. Adaptive spline networks // In R. Lippmann, J. Moody, and D. Touretzky, editors, Advances in Neural Information Processing Systems 3, pp. 675-683. Morgan Kaufmann, San Mateo, CA, 1991.
28. Friedman J. Multivariate adaptive regression splines (with discussion) // The Annals of Statistics, 19(1):1-141, 1991.
29. Fritzke В. Growing cell structures a self-organizing network for unsupervised and supervised learning // Neural Networks, 7(9): 1441-1460, 1994.
30. Garnick D., Kwong Y., Lazebnik F. Algorithmic search for extremal graphs of girth at least five // Report, Bowdoin College, Brunswick, ME, 1992.
31. Hagan M, Menhaj M. Training feedforward networks with the Marquardt algorithm // IEEE Transactions on Neural Networks, vol. 5, no. 6, 1994, pp. 989-993.
32. Hagan M., Demuth H., Beale M. Neural Network Design // Boston, MA: PWS Publishing, 1996.
33. Hancock P. Coding Strategies for Genetic Algorithms and Neural Nets // PhD thesis, Department of Computing Science and Mathematics, University of Stirling, 1992.
34. Harp S., Samad Т., Guha A. Designing application-specific neural networks using the genetic algorithm // In D. S. Touretzky, editor, Advances in Neural Information Processing Systems 2, pp. 447-454. Morgan Kaufmann, San Mateo, CA, 1990.
35. Harp S., Samad Т., Guha A. Towards the genetic synthesis of neural networks // In J. D. Schaffer, editor, Proc. of the Third Int'l Conf. on Genetic Algorithms and Their Applications, pp. 360-369. Morgan Kaufmann, San Mateo, CA, 1989.
36. Harrison D., Rubinfeld, D. Hedonic prices and the demand for clean air // J. Environ. Economics & Management, vol.5, 81-102, 1978.
37. Hassibi В., Stork D. Second order derivatives for network pruning: optimal brain surgeon // Tech. Report CRC-TR-9214, RICOH California Research Center, Menlo Park, California, USA, May 1992.
38. Hecht-Nielsen R. Counterpropagation networks // Proceedings of the IEEE First International Conference on Newral Networks, eds. M. Caudill and C. Butler, vol. 2, pp. 19-32. San Diego, CA: SOS Printing. 1987.
39. Hirose Y., Yamashita K., Hijiya S. Back-propagation algorithm which varies the number of hidden units // Neural Networks, 4:61-66, 1991.
40. Holland J. Adaptation in Natural and Artificial Systems // University of Michigan Press, 1975.
41. Hornik K., Stinchcombe M., White H. Multi-layer Feedforward Networks are Universal Approximators // Neural Networks, Vol. 2, pp. 359-366, 1989.
42. Ingber L. Adaptive Simulated Annealing (ASA) // Lester Ingber Research, McLean, VA, 1993.
43. Ingber L. Generic mesoscopic neural networks based on statistical mechanics of neocortical interactions // Phys. Rev. A 45 (4), R2183-R2186, 1992.
44. Ingber L. Very fast simulated re-annealing // Mathematical Computer Modelling, vol. 12, 1989, pp. 967-973.
45. Janson D., Frenzel J. Training product unit neural networks with genetic algorithm. // IEEE Expert, 8, October 1993:26-33, 1993.
46. Jennrich R., Moore R. Maximum likelihood estimation by means of nonlinear least squares // Proceedings of the Statistical Computing Section, American Statistical Association, 1975, pp. 57-65.
47. Karunanithi N., Whitley D. Prediction of software reliability using feedforward and recurrent neural nets // Proceedings of the International Joint Conference on Neural Networks, vol. 1, pp. 800-805, Baltimore, MD, USA, June 1992.
48. Kavzoglu Т., Mather P. Assessing artificial neural network pruning algorithm // Proceedings of the 24th Annual Conference and Exhibition of the Remote Sensing Society (RSS'98), 1998, pp. 603-609.
49. Kearns M. A bound on the error of cross validation using the approximation and estimation rates, with consequences for the training-test split // Neural Computation, vol. 9, 1997, pp. 1143-1161.
50. Khorasani K., Weng W. Structure adaptation in feed-forward neural networks // Proceedings of the IEEE International Conference on Neural Networks, volume 3, pp. 1403-1408, Orlando, Florida, USA, June 1994.
51. Kirkpatrick S., Gelatt C., Vecchi M. Optimization by simulated annealing // Science 220 (4598), 1983, pp. 671-680.
52. Kitano H. Designing neural networks using genetic algorithms with graph generation system // Complex Systems, 4:461-476, 1990.
53. Kitano H. Empirical studies on the speed of convergence of neural network training using genetic algorithms // Proceedings of the Eighth Nat'l Conf. on AI (AAAI90), pp. 789-805. MIT Press, Cambridge, MA, 1990.
54. Kwok Т., Yeung D. Constructive feedforward neural networks for regression problems: a survey // Technical report HKUST-CS95-43, Hong-Kong University of Science and Technology, 1995.
55. Mandischer M. Representation and evolution of neural networks // Proceedings of the Conference on Artificial Neural Nets and Genetic Algorithms, pp. 643-649. Springer Verlag, 1993.
56. Marshall S., Harrison R. Optimization and training of feedforward neural networks by genetic algorithms // Proceedings of the 2nd International Conference on Artificial Neural Networks, 1991, pp. 39-43.
57. McKenna S., Ricketts I., Cairns A., Hussein K. Cascade-correlation neural networks forthe classification of cervical cells // In IEEE Colloquium on Neural Networks for Image
58. Processing Applications, pp. 5/1-4, London, UK, October 1992.
59. Miller G., Todd P., Hegde S. Designing neural networks using genetic algorithms // In J.
60. D. Schaffer, editor, Proc. of the Third Int'l Conf. on Genetic Algorithms and Their
61. Applications, pp. 380-384. Morgan Kaufmann, San Mateo, CA, 1989.
62. Mjolsness E., Sharp D., Alpert B. Scaling, machine learning, and genetic neural nets //
63. Advances in Applied Mathematics, 10:137-163, 1989.
64. Moller M. A scaled conjugate gradient algorithm for fast supervised learning // Neural Networks, 6:525-533, 1993.
65. Montana D., Davis L. Training feedforward neural networks using genetic algorithms // Proceedings of Eleventh Int'l Joint Conf. on Artificial Intelligence, pp. 762-767. Morgan Kaufmann, San Mateo, CA, 1989.
66. Moody J. The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems // Moody, J.E., Hanson, S.J., and Lippmann, R.P., Advances in Neural Information Processing Systems 4, 1992, pp. 847854.
67. More J. The Levenberg-Marquardt algorithm: implementation and theory // Watson, G.A., ed., Numerical Analysis, Lecture Notes in Mathematics 630, Springer-Verlag, Heidelberg, 1977, pp. 105-116.
68. Murata N. Network Information Criterion Determining the number of hidden units for an artificial neural network model // University of Tokyo, METR 92-05, June 1992. Murray M., Burr J., Stork D., Leung M.-T., Boonyanit K., Wolff G., Peterson A.
69. Deterministic Boltzmann machine VLSI can be scales using multi-chip modules // Application Specific Array Processors,(Edited by J. Fortes, E. Lee and T.Meng), pp. 206-217, IEEE Computer Society Press, Los Alamitos, CA, 1992.
70. Parker R., Tummala M. Identification of Volterra systems with a polynomial neural network // Proceedings of the 1992 IEEE International Conference on Acoustics, Speech and Signal Processing, volume 4, pp. 561-564, San Francisco, CA, USA, March 1992.
71. Parker D. Learning logic // Invention Report S81-64, File 1, Office of Technology Licensing, Stanford University, Stanford, CA, 1982.
72. Phatak D., Koren I. Connectivity and performance tradeoffs in the cascade correlation learning architecture // IEEE Transactions on Neural Networks, 5(6):930-935, November 1994.
73. Piatt J. A resource-allocating network for function interpolation // Neural Computation, 3:213-225, 1991.
74. Radcliffe N. Genetic set recombination and its application to neural network topology optimization // Technical report EPCC-TR-91-21, University of Edinburgh, Edinburgh, Scotland, 1991.
75. Riedmiller M., Braun H. A Direct Adaptive Method for Faster Backpropagation Learning: The RPROP Algorithm // Proceedings of the IEEE International Conference on Neural Networks 1993, San Francisco: IEEE. 1993.
76. Rissanen J. Stochastic complexity and modeling // Ann. Statist., vol. 14, pp. 1080-1100, 1986.
77. RumelhartD., HintonG., Williams R. Learning internal reprentations by error propagation // In Parallel distributed processing, vol. 1, pp. 318-62. Cambridge, MA: MIT Press, 1986.
78. Schaffer J., Caruana R., Eshelman L. Using genetic search to exploit the emergent behavior of neural networks // Physica D, 42:244-248, 1990.
79. Schiffmann W., Joost M., Werner R. Performance evaluation of evolutionarily created neural network topologies // In H.P. Schwefel and R. Manner, editors, Parallel Problem Solving from Nature, pp. 274-283. Springer Verlag, October 1990.
80. Schraudolph N., Belew R. Dynamic parameter encoding for genetic algorithms // Machine Learning, 9(1):9-21, June 1992.
81. Shafer J., Braun H. Optimizing classifiers for handwritten digits by genetic algorithms // Proceedings of the international conference on Artificial Neural Networks and Genetic Algorithms, ICANNGA95, pp. 10-13, 1995.
82. Shin Y., Ghosh J. Ridge polynomial networks // IEEE Transactions on Neural Networks, 6(2), May 1995.
83. Simic P. Statistical mechanics as the underlying theory of "elastic' and "neural' optimisations //Network 1, 1990, pp. 89-103.
84. Sjoegaard S. Generalization in cascade-correlation networks // In Neural Networks for Signal Processing II. Proceedings of the IEEE SP Workshop, pp. 59-68, Helsingoer, Denmark, September 1992.
85. Smotroff I., Friedman D., Connolly D. Self organizing modular neural networks // Proceedings of the International Joint Conference on Neural Networks, Seattle, WA, USA, July 1991.
86. Stone M. Application of a measure of information to the design and comparison of regression experiments // Annals Math. Stat., 30, 1959.
87. Stone M. Cross-validatory choice and and assessment of statistical predictions // J.R.Statist.Soc. B.36, 1974.
88. Stork D., Walker S., Burns M., Jackson B. Preadaptation in neural circuits // Proceedings of Int'l Joint Conf. on Neural Networks, Vol. I, pp. 202-205, Wash ington, DC, 1990. Lawrence Erlbaum Associates, Hillsdale, NJ.
89. Storn R., Price K. Differential evolution a simple and efficient heuristic for global optimization over continuous spaces // Journal of Global Optimization 11, 1997, pp. 341-359.
90. Storn R., Price K. Minimizing the real functions of the ICEC'96 contest by differential evolution // IEEE Conference on Evolutionary Computation, Nagoya, 1996, pp. 842844.
91. Tao K. A closer look at the radial basis function (RBF) networks // Conference Record of The Twenty-Seventh Asilomar Conference on Signals, Systems and Computers (Singh, A., ed.), vol 1, 401-405, Los Alamitos, CA: IEEE Comput. Soc. Press, 1993.
92. Tenorio M., Lee W. Self-organizing network for optimum supervised learning // IEEE Transactions on Neural Networks, 1(1):100-110, March 1990.
93. Thierens D., Suykens J., Vandewalle J., De Moor B. Genetic weight optimization of a feedforward neural network controller // Proceedings of the Conference on Artificial Neural Nets and Genetic Algorithms, pp. 658-663. Springer Verlag, 1993.
94. Umnov N., Orlov S., Sannikov A. A priori NN structure selection using information about the training data // International Conference on Information Processing by Neural Networks '96. 1996.
95. Utrecht U., Trint K. Mutation operators for structure evolution of neural networks // In R. Maenner Y. Davidor, H.P. Schwefel, editor, Parallel Problem Solving from Nature, WorkshopProceedings, pp. 492-501. Springer, 1994.
96. Vysniauskas V., Groen F., Krose B. The optimal number of learning samples and hidden units in function approximation with a feedforward network // University of Amsterdam Faculty of Computer Science and Mathematics. Technical Report CS-93-15, 1993.
97. Werbos P. Beyond regression: New tools for prediction and analysis in the behavioral sciences // Masters thesis, Harward University, 1974.
98. Whitley D., Bogart C. The evolution of connectivity: pruning neural networks using genetic algorithms. // In Proc. of Int'l Joint Conf. on Neural Networks, Vol. I, pp. 134137, Washington, DC. Lawrence Erlbaum Associates, Hillsdale, NJ, 1990.
99. Whitley D., Hanson T. Optimizing neural networks using faster, more accurate genetic search // In J. D. Schaffer, editor, Proc. of the Third Int'l Conf. on Genetic Algorithms and Their Applications, pp. 391-396. Morgan Kaufmann, San Mateo, CA, 1989.
100. Whitley D., Starkweather Т., Bogart C. Genetic algorithms and neural networks: optimizing connections and connectivity // Parallel Computing, 14:347-361,1990.
101. Wilson S. Perceptron redux: emergence of structure // Physica D, 42:249-256,1990.
102. Yao X. A review of evolutionary artificial neural networks // International Journal of Intelligent Systems, 8(4):539-67, 1993.
103. Yeung D. Constructive neural networks as estimators of Bayesian discriminant functions // Pattern Recognition, 26(1): 189-204, 1993.
104. Yuan J., Fine T. Forecasting demand for electric power // In B. Hassibi and D.G. Stork, editors, Advances in Neural Information Processing Systems 5, pp. 739-746. Morgan Kaufmann, San Mateo, CA, 1993.
105. Горбань А.Н., Миркес Е.М. Логически прозрачные нейронные сети для производства знаний из данных // Вычислительный центр СО РАН в г.
106. Красноярске. Красноярск, 1997. 12 е., библиогр. 12 назв. (Рукопись деп. в ВИНИТИ 17.07.97, № 2434-В97).
107. Доррер М.Г. Аппроксимация многомерных функций полутораслойным предиктором с произвольными преобразователями // Методы нейроинформатики. -Красноярск: издательство КГТУ, 1998.
108. Лигун А. А., Малышева А. Д. Математическая обработка результатов эксперимента// Днепродзержинск: ДИИ, 1992.
109. Матвейкин В.Г., Фролов С.В. Использование байесовского подхода в обучении нейронных сетей // Информационные технологии. М.: Машиностроение, 1998, №10, с. 27-35.
110. Розенблатт Ф. Принципы нейродинамики // М: Мир. 1965.
111. Уоссермен Ф. Нейрокомпьютерная техника // М.Мир, 1992.
112. Маркин М.И. Выбор начального приближения при обучении нейронной сети методами локальной оптимизации // 2-ая всероссийская научно-техническая конференция "Нейроинформатика-2000". Сборник научных трудов ч.1. М.: МИФИ, 2000.
113. Маркин М.И. Об одном методе повышения эффективности обучения нейронной сети прямого распространения // Программные системы и инструменты: Тематический сборник факультета ВМиК МГУ им. Ломоносова №1 под ред. Л.Н.Королева М.: МАКС Пресс, 2000, с.87-97.
114. Маркин М.И., Смелянский Р.Л. Синтез архитектуры нейросетевого аппроксиматора под заданное приложение // Искусственный интеллект. Донецк:2000, №2, с.138-144.
115. M.I. Markin. Fast method for finding an optimal architecture for a neural network approximator // Тезисы докладов 3-й Московской международной конференции по исследованию операций (ORM-2001). М.: Изд-во ВЦ РАН, 2001.
-
Похожие работы
- Математические модели и методы оптимизации функциональной надежности искусственных нейронных сетей
- Нейронные сети для обработки временных рядов
- Применение искусственных нейронных сетей для решения задач управления динамическими объектами
- Технология нейросетевого решения прикладных классификационных задач в экологии, биологии, медицине
- Методы многоуровневого проектирования быстродействующих модульных нейронных сетей прямого распространения на основе иерархических категорных моделей
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность