автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Структурирование и обучение нейронных сетей с применениями к задачам физической химии и медицины

кандидата физико-математических наук
Филимонов, Андрей Викторович
город
Иваново
год
2004
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Структурирование и обучение нейронных сетей с применениями к задачам физической химии и медицины»

Автореферат диссертации по теме "Структурирование и обучение нейронных сетей с применениями к задачам физической химии и медицины"

Ивановский государственный университет

На правах рукописи Филимонов Андрей Викторович

Структурирование и обучение нейронных сетей с применениями к задачам физической химии и медицины

Специальность 05.13.18 - «Математическое моделирование, численные методы и комплексы программ»

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

Иваново - 2004

Диссертация выполнена на кафедре математического и компьютерного моделирования Ивановского государственною университета.

Научный руководитель -

доктор физико-математических наук профессор ГАОсосков.

Официальные-оппоненты:

доктор физико-математических наук

профессор ЕЛ.Косарев (ИФП АН им. Капицы, г.Москва)

кандидат физико-математических наук

доцент С.И.Хашин (Ивановский государственный университет).

Ведущая организация -

Ярославский государственный университет.

Защита состоится «>?■/ » оЫ^-бЛ1 2004 г. в » час.

на заседании диссертационного совета К 212.062.02

в Ивановском государственном университете

(153025 Иваново, ул. Ермака, 37, ИвГУ, учебный корпус 1, ауд. 318).

С диссертацией можно ознакомиться в библиотеке ИвГУ. Авторефераг разослан » <ЛЛ&Л> 2004 г. Ученый секретарь диссертационного совета

кандидат физико-математических наук доцент

Актуальность темы

В силу того, что искусственные нейронные сети (ИНС) широко используются в ряде областей научных и прикладных исследований, проблема выбора оптимальной структуры сетей и алгоритмов их обучения является актуальной научной задачей. Несмотря на то, что существующие методики выбора конфигурации сетей, такие например, как генетические алгоритмы, дают хорошие результаты, их применение на практике осложняется значительными затратами времени на функционирование алгоритмов, что не всегда приемлемо с точки зрения конечного пользователя. Поэтому возникает естественный интерес к поиску более быстрых алгоритмов оптимизации и обучения ИНС, «работающих» в какой-нибудь конкретной прикладной области, например, в медицине. Дело в том, что медицинские данные характеризуются большим числом входных показателей, пропущенных и аномальных данных при ограниченном объеме статистического материала. При работе с такими данными выбор оптимальной структуры сети особенно важен. Для экономии машинного времени при обучении нейронных сетей целесообразно также сжимать входные данные. Однако существующие методики, например метод главных компонент, по ряду причин неприменимы для обработки медицинских данных.

В этой связи поиск новых алгоритмов, проведенный в данной работе, применительно к задачам обучения и структурирования нейронных сетей, а также предобработки данных, является исключительно актуальным.

Цель работы

Целью работы является выбор типа и оптимизация структуры

нейронных сетей, а также разработка новых алгоритмов их обучения,

предобработки данных и создание соответствующего программного

обеспечения для решения двух важных прикладных задач: ^ ^

БИБЛИОТЕКА I

1. Создание медицинских экспертных систем (пульмонология и психология).

2. Построение математической модели процесса сжатия тонких пленок органических соединений на поверхности воды и разработка программ, реализующих обработку данных.

Научная новизна

• Предложен новый подход для создания самоконфигурируемой нейронной сети;

• Па базе сравнительного исследования методов сжатия медицинских данных показано, что метод главных компонент нельзя применять для сжатия, вместо него предложен альтернативный метод сжатия данных с помощью рециркуляционных нейронных сетей;

• В физико-химической задаче создания тонких пленок предложен новый алгоритм для выявления фазовых переходов; построена и исследована математическая модель процесса сжатия тонких пленок органических соединений на поверхности воды.

Практическая ценность

Разработанные методы и программы успешно применяются в практике пульмонологического отделения 7-й Ивановской больницы и Многопрофильной клиники ИвГМА, а также в лаборатории молекулярной физики ИвГУ.

Полученные в работе результаты могут быть использованы:

1. При создании медицинских или иных экспертных систем на основе искусственных нейронных сетей в условиях малого объема статистического материала;

2. В молекулярной физике для изучения поведения пленок органических соединений на поверхности воды.

На защиту автор выносит следующие положения:

1. Разработан комплексный метод динамической оптимизации структуры нейронных сетей типа многослойных персептронов, позволяющий сократить размерность входных данных и оптимизировать структуру персептрона в ходе его обучения;

2. Разработка на этой базе экспертных систем, внедренных для реальной эксплуатации в медицинских учреждениях г. Иваново: (1) программа для дифференциальной диагностики пневмонии и прогнозирования ее исходов (7-ая городская больница г. Иваново), (2) программа для определения показателей интроверсии -экстраверсии на основе физиологических и антропометрических показателей (многопрофильная клиника ИвГМА г. Кохма);

3. Разработка алгоритмов и соответствуюших программ для моделирования процесса сжатия тонких пленок в молекулярной физике на основе применения нейронных сетей;

4. Разработан новый способ выявления фазовых переходов в этом процессе.

Апробация

Наиболее значимые результаты, полученные в ходе работы над диссертацией, доложены на международных конференциях: ФРЭМЭ-2000 (Владимир) и 2-й Российской конференции молодых ученых России (Москва, 2001), в рамках международной летней школы ОИЯИ «Физические методы в медицинских исследованиях» (Ратмино - Дубна, 2001), а также на научном семинаре Лаборатории Информационных Технологий ОИЯИ.

Основные результаты диссертации опубликованы в девяти работах, полный список приведен на стр. 17 автореферата.

Структура диссертации

Диссертация содержит введение, три главы, заключение, список использованных библиографических источников (59 позиций) и 1 приложение. Общий объем текста диссертации — 80 страниц, в него включены 14 рисунков и 9 таблиц.

Содержание работы

Во введении обоснована актуальность темы. Представлен краткий обзор литературы, отмечены факторы, сдерживающие в настоящее время применение нейронных сетей в медицине и других прикладных задачах, и сделан вывод о необходимости разработки методов оптимизации структуры сетей в процессе их обучения, предобработки со сжатием входных данных и создании на этой основе конкретных прикладных программ.

Первая глава носит, в основном, обзорный характер и освещает вопросы, связанные с определением нейронных сетей и особенностями их применения в медицинских задачах. Кратко перечислены основные алгоритмы обучения сетей.

Нейронная сеть состоит из множества одинаковых элементов — нейронов (см. рис. 1)

Рис. 1 Функциональная схема нейрона и нейронная сеть.

Из рисунка видно, что искусственный нейрон, так же, как и живой, состоит из синапсов, связывающих входы нейрона с ядром; ядра нейрона, которое осуществляет обработку входных сигналов и аксона, который связывает нейрон с нейронами следующего слоя. Каждый синапс имеет вес, который определяет, насколько соответствующий вход нейрона влияет на его состояние. Состояние нейрона определяется по формуле

ы

(1)

где

п - число входов нейрона х1 - значение 1-го входа нейрона м/, - вес 1-го синапса Затем определяется значение аксона нейрона по формуле

(2)

где /— некоторая функция, которая называется активационной. Наиболее часто в качестве активационной функции используется так называемый сигмоид, который имеет следующий вид:

1

(3)

1 +

Основное достоинство этой функции в том, что она дифференцируема на всей оси абсцисс и имеет очень простую производную:

Г(х) = а/(х)(1-/(.х-})

(4)

При уменьшении параметра а сигмоид становится более пологим, вырождаясь в горизонтальную линию на уровне 0,5 при При

увеличении а сигмоид все больше приближается к функции единичного скачка.

Обучение нейронной сети заключается в коррекции всех весовых коэффициентов в сети таким образом, чтобы ошибка отклика сети была минимальной.

В ходе работы использовались, в основном, два метода обучения: метод обратного распространения ошибки (Back Propagation) и алгоритм эластичного распространения (Resilient Propagation).

При использовании первого метода обучения коррекция весов происходит после предъявления сети каждого примера из обучающего множества. Такой подход хорош в случае больших по объему обучающих выборок, т.к. обучение может быть завершено и до предъявления всех примеров.

В случае применения сетей для решения медицинских задач ситуация несколько иная. Объемы обучающих выборок невелики, поэтому лучше использовать алгоритмы из семейства так называемого пакетного обучения. При этом подходе веса в сети корректируются только после предъявления всех примеров из обучающей выборки. Образцом подобного алгоритма является метод эластичного распространения

Особенности медицинских задач не исчерпываются выбором алгоритма обучения. Дело в том, что сети, обучаемые на малых выборках, очень чувствительны к выбору структуры сети.

100

J я» 80

1 X ы)

S |

« О 40

3

3 -а О. :о

о ---

1 2 3 4 5 6 7 Число нейринов в скрытом слое

Рис. 2. Зависимость эффективности работы сети от количества нейронов в скрытом слое.

На рисунке 2 представлены результаты тестирования сетей, обученных на одних и тех же данных, но имеющих различную структуру. Видно, что разница даже в один нейрон приводит к падению

эффективности распознавания на 3-4 %! Именно поэтому проблема выбора оптимальной структуры сети является исключительно актуальной. Для решения этой проблемы был разработан метод динамической оптимизации структуры сети. Он описан во второй главе диссертации.

Еще одной особенностью медицинских задач является сильная коррелированность признаков. Этот факт дает возможность уменьшить размерность входных данных. Однако, как показано во второй главе, применять стандартную процедуру для понижения размерности входных данных (метод главных компонент МГТС) нельзя.

В качестве альтернативы предлагается использовать сами нейронные сети. В литературе этот подход известен, как «проход через воронку». Вкратце, суть метода заключается в том, что создается трехслойная нейронная сеть. Входной и выходной слои имеют одинаковое число нейронов, совпадающее с размерностью данных. Число нейронов скрытого слоя должно быть меньше чем во внешних слоях (см. рис. 3). Такая сеть называется еще рециркуляционной.

Рис. 3. Рециркуляционная нейронная сеть.

Такая сеть сжимает и восстанавливает проходящие через нее данные. Проблема заключается в определении количества нейронов в скрытом слое. В описанном в литературе методе1 предлагалось для этого использовать МГК, т.е. количество нейронов устанавливалось равным количеству главных компонент. В данной же диссертации для этих целей было предложено применить динамическое добавление нейронов.

1 Вгу Iiuk D, Starovoitov V Application of recirculation neural network and principal component analysis for face recognition http //metalwamor narod ru

Во второй главе описывается разработанный комплексный метод динамической оптимизации структуры нейронных сетей на примере создания двух экспертных систем для пульмонологии и психологии.

Данный метод состоит из двух частей: понижение размерности входных данных с помощью рециркуляционной нейронной сети и динамического добавления нейронов, а также оптимизация структуры персептронов в ходе их обучения путем объединения методов динамического добавления и удаления нейронов из сети.

Почему размерность данных понижалась с помощью нейросетей, а не использовался стандартный метод главных компонент? Были проведены проверки статистических гипотез о нормальности распределения основных используемых признаков (симптомов), показавшие неприемлемые отклонения многих из них от этой гипотезы. В качестве примера значения коэффициентов асимметрии и эксцесса для семи важнейших параметров приведены в табл.1. Более того, часть признаков вообще не являются непрерывными, являясь ответами на вопрос врача типа «да - нет».

Таблица 1.

Признак А Е Ш ие иа/|А! ие/|Е|

Возраст -0,4987 -0,7194 0,2736 0,5261 0,5486 0,7313

Температура -0,0238 -1,0021 0,2736 0,5261 11,4524 0,5249

Стаж курения 0,2788 -1,3754 0,2736 0,5261 0,9813 0,3825

Частота дыхания 1,3158 2,3436 0,2736 0,5261 0,2079 0,2244

соэ 0,2225 -0,7463 0,2736 0,5261 1,2296 0,7049

Лейкоциты 1,0206 1,9855 0,2736 0,5261 0,268 0,2649

Алкоголизация- -0,0817 -2,0487 0,2736 0,5261 3,3484 0,2567

А - асимметрия, Е - эксцесс, Ш - теоретическое значение погрешности асимметрии, Ш — теоретическое значение погрешности эксцесса.

Подобное несоответствие гипотезе нормальности делает нерациональным применение метода главных компонент.

Это основная причина отказа от МГК при решении медицинских задач. Однако применение МГК имеет еще несколько недостатков:

• Если размерность входного вектора необходимо увеличить, то главные компоненты придется пересчитывать заново.

• При увеличении размерности входного вектора количество математических операций, необходимых для выделения главных компонент, растет по экспоненте.

• Успехи применения МГК в физике, например, во многом объяснялись возможностью использовать метод Монте-Карло для вычисления ковариационной матрицы с высокой степенью точности, что фактически неосуществимо в прикладных медицинских задачах из-за существенной ограниченности статистического материала.

В качестве альтернативы используется рециркуляционная сеть, но не с фиксированным количеством нейронов в скрытом слое, а динамически добавляемым. Такой подход позволяет вообще отказаться от МГК.

В двух словах процесс сжатия выглядит так. Количество нейронов в скрытом слое устанавливается заведомо меньшим, чем требуется для корректного восстановления сжагых данных. Затем сеть начинает учиться воспроизводить входной вектор на выходе с заданной точностью. Если алгоритм не сходится, го добавляется один нейрон в скрытый слои, и обучение продолжается до тех пор, пока не будет достигнута заданная точность.

Для оптимизации структуры было решено использовать такие методы поиска наилучшей конфигурации сети, для которых не требуется создавать популяцию сетей, как в генетических алгоритмах, а достаточно работать с одной и той же сетью. К таким методам следует отнести методы

динамического добавления нейронов, всевозможные виды пранинга (ргапт^ - урезание - выбрасывание малозначимых нейронов) и т.д.

Было предложено объединить усечение и метод динамического добавления нейронов, т.е. предпринята попытка создания самоконфип рируемой сети.

Суть метода в следующем.

Инициализация сети производится случайным образом, т.е. число нейронов в слоях определяется произвольным образом. Затем, сеть начинает обучаться. Если нейронов в сети недостаточно, то нужно добавить нейрон. Причем, когда в сети несколько скрытых слоев, делается оценка их загруженности, и нейрон добавляется в самый загруженный слой. Если же сеть обучилась до нужной погрешности, то делается допущение, что количество нейронов в сети избыточно, и из нее выбрасывается самый малозначимый нейрон. из сети.

При исследовании алгоритма выяснилось, что сеть имеет тенденцию к вырождению. Это связано с тем, что в ходе обучения часть нейронов переходит в насыщенное состояние и сеть слабо реагирует на введение дополнительных нейронов.

В данной главе дается сравнение предложенного алгоритма структурирования сети с другими алгоритмами.

В третьей главе рассматривается возможность применения нейронных сетей для анализа состояния тонких пленок в определенном фазовом состоянии, а именно: интерполяция экспериментальных данных. Здесь нейронные сети используются как метод для построения модели процесса сжатия слоев органических соединений (3 - нитро - 5 - трет -бутил - фталоцианин меди (см. рис.4)) на поверхности раздела фаз вода -воздух.

Рис. 4.3- нитро - 5 - трет - бутил - фталоцианин меди (Х=К02).

В ходе сжатия оцениваются такие физические параметры пленки как: площадь А, приходящаяся на одну молекулу, и поверхностное давление я. На основе полученных данных строятся графики: л^ДА"1) и лА=£(п). Основной интерес вызывают линейные участки графиков, т.к. они соответствуют определенным фазовым состояниям. Используя линейные зависимости:

можно оценить величину, характеризующую фактор сжатия слоя в определенном фазовом состоянии, Е и предельную площадь, приходящуюся на одну молекулу,

Для оценки параметров Е и Ати| при изменении условий формирования слоя (в частности, начальной поверхностной концентрации) требуется проведение нового эксперимента и расчетов. В данной работе с этой целью предлагается использовать математическую модель, построенную на основе использования нейронных сетей.

При построении модели было показано, что нейронные сети нельзя использовать "в лоб" для моделирования экспериментальных зависимостей при различных начальных

концентрациях. Проблема связана с наличием областей сосуществования

тс=а+£А

яА=С+лА„ю|

-I

(5)

(6)

фаз (переходных точек между линейными участками). На основе этого факта был предложен метод выявления области фазовых переходов с помощью нейронных сетей.

Суть данного метода заключается в том, что если наложить друг на друга графики зависимостей полученные

экспериментальным путем и смоделированные сетью, то максимальная ошибка распознавания будет приходится на переходные точки между линейными участками.

Т.к. экспериментальные зависимости 7t=f(A'') и nA=g(rc) не удается корректно смоделировать, то предлагается альтернативный подход для оценки параметров Е и Ато|. В данном подходе предлагается представить Е и как функции от начальной поверхностной концентрации молекул в слое, величины обратной к площади, приходящейся на одну молекулу, и поверхностного давления.

Е = E(N0, A"1, tí) (7)

Amo¡ = A(N0,uA,Jt) (8)

Одновременно с задачей нахождения Е и А„,„| необходимо определить те значения которые соответствуют линейным участкам на графиках зависимостей поскольку Е и определены только

для этих участков.

Предлагается моделировать зависимость No) При этом

имитируются условия эксперимента, когда величина А изменяется равномерно.

При фиксированном значении начальной концентрации на вход сети поочередно подаются смоделированные пары значений и А. На выходе сети, в зависимости от того, на что эта сеть была обучена, получаются Е или Amo|, Если построить графики зависимости Е = Е(А"', я) и Am„i = А(лА, то те значения которые соответствуют линейным участкам на

графиках зависимостей я=ДА"') и тсА=£(я), образуют горизонтальные плато.

Для того, чтобы определить А™! и Е, а также диапазон изменения я для каждого линейного участка, достаточно прогистограммировать А„ю| и Е по всем точкам. На точки областей фазовых переходов, которым соответствуют нелинейные участки зависимостей в

среднем приходится менее 15 % экспериментальных точек. Поэтому при гистограммировании бины с наибольшим количеством попавших внутрь этого бина точек соответствуют линейным участкам. Границы бина определяют начало и конец участка. Середина бина соответствует значению и Е в данном фазовом состоянии.

Для выбора оптимальной структуры сети использовался метод динамической оптимизации структуры сетей.

В Заключении кратко повторно перечислены основные результаты и выводы, полученные в диссертации.

1. Показано, что нельзя использовать метод главных компонент для сжатия данных при решении медицинских задач.

2. Предложена альтернатива методу главных компонент для сжатия данных.

3. Предложен метод динамической самоконфигурации нейронной сети в процессе ее обучения путем объединения методов динамического добавления нейронов и пранинга.

4. Разработаны алгоритмы и соответствующие программы для моделирования процесса сжатия тонких пленок в молекулярной физике на основе применения нейронных сетей.

5. Предложен принципиально новый способ выявления фазовых переходов в этом процессе.

Приложение содержит описание программ, которые были созданы в ходе

работы над диссертацией.

Основные материалы диссертации опубликованы в следующих

работах:

1. Ososkov G.A., Stadnik AV., Filimonov A Artificial neural networks and their applications in medicine. Nuclear physics methods and accelerators in biology and medicine: Proceedings of the International Student School (Dubna, June 27-July 11, 2001).- Dubna: JINR, pp.134-147, 2002.

2. Карманова И.В., Ноговицын Е.А., Ососков Г.А., Филимонов А.В. Применение нейронных сетей для дифференцированной диагностики тяжести течения пневмонии. Труды 4-й международной научно-технической конференции «Физика и радиоэлектроника в медицине и экологии (ФРЭМЭ - 2000)>>. 27-30 июня 2000. Часть 1. Владимир, стр.83-86.

3. Карманова И.В., Ососков ГА, Стадник А.В., Филимонов А.В., Калабанова А.В. Применение нейронных сетей для оценки значимости прогностических признаков в пульмонологии. Фундаментальные науки и прогресс клинической медицины. Материалы 2-й Российской конференции молодых ученых России с международным участием. 2428 апреля 2001. Москва, стр. 156-157.

4. Ососков ГА, Филимонов А.В. Динамическая оптимизация структуры персептронов. Сообщение ОИЯИ Р11-2002-274, Дубна, 2002.

5. Филимонов А.В. Свидетельство об официальной регистрации программы для ЭВМ № 2002611897. Москва, 6 ноября 2002.

6. Филимонов А.В., Валькова Л.А., Ососков ГА Применение нейронных сетей для анализа состояния тонких пленок органических соединений на поверхности воды, http://arxiv.org/abs/physics/040l038.

7. Филимонов А.В., Карманова И.В. Свидетельство об официальной регистрации программы для ЭВМ № 2000610901. Москва, 14 сентября 2000.

8. Филимонов А.В., Ососков ГА, Шелкопляс Е.В. Математические подходы к системному описанию человека и прогнозированию его адаптации. Вестник Ивановской медицинской академии. Т.7, №3-4,

2002, стр.47-48.

9. Чернышова ТА, Филимонов А.В. Анализ состояния слоев диамино-дибензо-18-краун-6 на поверхности воды. Молодая наука в классическом университете. Часть 1. Стр.93-94. Иваново, 21-25 апреля

2003.

Благодарность

Моему научному руководителю доктору физико - математических наук

профессору Ососкову Геннадию Алексеевичу;

Консультантам:

Кандидату физико - математических наук Вальковой Ларисе Александровне; Кандидату медицинских наук Кармановой Ирине Викторовне; Кандидату медицинских наук Шелкоплясу Евгению Валентиновичу.

»12184

Оглавление автор диссертации — кандидата физико-математических наук Филимонов, Андрей Викторович

ВВЕДЕНИЕ.

ГЛАВА 1. НЕЙРОННЫЕ СЕТИ. ОСНОВНЫЕ ПОНЯТИЯ. ОСОБЕННОСТИ ПРИМЕНЕНИЯ НЕЙРОННЫХ СЕТЕЙ В МЕДИЦИНЕ.

Формальный нейрон.

Виды функций активации.

Ограничение модели нейрона.

Многослойный персептрон.

Выбор количества нейронов и слоев.

Подготовка входных и выходных данных.

Методы обучения.

Обучение однослойного персептрона.

Расписание обучения.1.

Персептронная представляемость.

Обучение многослойного персептрона.

Паралич сети.

Локальные минимумы.

Обучение без учителя.

Алгоритмы классификации.

Сеть Кохонена.

Обучение слоя Кохонена.

Метод выпуклой комбинации.

Сеть встречного распространения. Слой Гроссберга.

Обучение сети встречного распространения.

Применение нейронных сетей в медицине.

ГЛАВА 2. ДИНАМИЧЕСКАЯ ОПТИМИЗАЦИЯ СТРУКТУРЫ ПЕРСЕПТРОНОВ.

Постановка задачи.

Понижение размерности входного вектора.

Оптимизация структуры сетей.

Выводы.

ГЛАВА 3. ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ МОДЕЛИРОВАНИЯ ПРОЦЕССА СЖАТИЯ ТОНКИХ ОРГАНИЧЕСКИХ ПЛЕНОК НА ПОВЕРХНОСТИ РАЗДЕЛА ФАЗ ВОДА-ВОЗДУХ.

Выявление областей фазовых переходов.

Интерполяция данных.

Выводы.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Филимонов, Андрей Викторович

В силу того, что искусственные нейронные сети (ИНС) широко используются в ряде областей научных и прикладных исследований, проблема выбора оптимальной структуры сетей и алгоритмов их обучения является актуальной научной задачей. Несмотря на то, что существующие методики выбора конфигурации сетей, такие например, как генетические алгоритмы, дают хорошие результаты, их применение на практике осложняется значительными затратами времени на функционирование алгоритмов, что не всегда приемлемо с точки зрения конечного пользователя. Поэтому возникает естественный интерес к поиску более быстрых •алгоритмов оптимизации и обучения ИНС, «работающих» в какой-нибудь конкретной прикладной области, например, в медицине. Дело в том, что медицинские данные характеризуются большим числом входных показателей, пропущенных и аномальных данных при ограниченном объеме статистического материала. При работе с такими данными выбор оптимальной структуры сети особенно важен. Для экономии машинного времени при обучении нейронных сетей целесообразно также сжимать входные данные. Однако существующие методики, например метод главных компонент, по ряду причин неприменимы для обработки медицинских данных.

В этой связи поиск новых алгоритмов, проведенный в данной работе, применительно к задачам обучения и структурирования нейронных сетей, а также предобработки данных, является исключительно актуальным.

Цель работы

Целью работы является выбор типа и оптимизация структуры нейронных сетей, а также разработка новых алгоритмов их обучения, предобработки данных и создание соответствующего программного обеспечения для решения двух важных прикладных задач:

1. Создание медицинских экспертных систем (пульмонология и психология).

2. Построение математической модели процесса сжатия тонких пленок органических соединений на поверхности воды.

Научная новизна

• Предложен новый подход для создания самоконфигурируемой нейронной сети;

• На базе сравнительного исследования методов сжатия медицинских данных (а именно его и применяют в большинстве популярных нейропакетов) показано, что метод главных компонент нельзя применять для сжатия, вместо него предложен альтернативный метод сжатия данных с помощью рециркуляционных нейронных сетей;

• В физико-химической задаче создания тонких пленок предложен новый алгоритм для выявления фазовых переходов; построена и исследована математическая модель процесса сжатия тонких пленок органических соединений на поверхности воды.

Практическая ценность

Разработанные методы и программы успешно применяются в практике пульмонологического отделения 7-й Ивановской больницы и Многопрофильной клиники ИвГМА, а также в лаборатории молекулярной физики ИвГУ.

Полученные в работе результаты могут быть использованы:

1. При создании медицинских или иных экспертных систем на основе искусственных нейронных сетей в условиях малого объема статистического материала;

2. В молекулярной физике для изучения поведения пленок органических соединений на поверхности воды.

На защиту автор выносит следующие положения:

1. Разработан комплексный метод динамической оптимизации структуры нейронных сетей типа многослойных персептронов, позволяющий сократить размерность входных данных и оптимизировать структуру персептрона в ходе его обучения;

2. Разработка на этой базе экспертных систем, внедренных для реальной эксплуатации в медицинских учреждениях г. Иваново: (1) программа для дифференциальной диагностики пневмонии и прогнозирования ее исходов (7-ая городская больница г. Иваново), (2) программа для определения показателей интроверсии — экстраверсии на основе физиологических и антропометрических показателей (многопрофильная клиника ИвГМА г. Кохма);

3. Разработка алгоритмов и соответствующих программ для моделирования процесса сжатия тонких пленок в молекулярной физике на основе применения нейронных сетей;

4. Разработан новый способ выявления фазовых переходов в этом процессе.

Апробация

Наиболее значимые результаты, полученные в ходе работы над диссертацией, доложены на международных конференциях: ФРЭМЭ-2000 (Владимир) и 2-й Российской конференции молодых ученых России (Москва, 2001), в рамках международной летней школы ОИЯИ «Физические методы в медицинских исследованиях» (Ратмино - Дубна, 2001), а также на научном семинаре Лаборатории Информационных Технологий ОИЯИ.

Содержание работы

Первая глава носит, в основном, обзорный характер и освещает вопросы, связанные с определением нейронных сетей и особенностями их применения в медицинских задачах. Кратко перечислены основные алгоритмы обучения сетей.

Во второй главе описывается разработанный комплексный метод динамической оптимизации структуры нейронных сетей на примере создания двух экспертных систем для пульмонологии и психологии.

В третьей главе рассматривается возможность применения нейронных сетей для анализа состояния тонких пленок в определенном фазовом состоянии, а именно: интерполяция экспериментальных данных.

Заключение диссертация на тему "Структурирование и обучение нейронных сетей с применениями к задачам физической химии и медицины"

ОБЩИЕ ВЫВОДЫ

1. Показано, что нельзя использовать метод главных компонент для сжатия данных при решении медицинских задач, поскольку нарушено принципиальное требование МГК о нормальности распределения входных признаков.

2. Предложена альтернатива методу главных компонент для сжатия данных, которая заключается в использовании трехслойного персептрона с количеством нейронов в скрытом слое значительно меньшем, чем во внешних слоях. Количество нейронов в скрытом слое подбирается путем использования метода динамического добавления нейронов.

3. Предложен метод динамической самоконфигурации нейронной сети в процессе ее обучения путем объединения метода динамического добавления нейронов и пранинга. В качестве обратной связи использовалась средняя квадратичная ошибка на обучающем множестве.

4. Разработаны алгоритмы и соответствующие программы для моделирования процесса сжатия тонких пленок в молекулярной физике на основе применения нейронных сетей.

5. Предложен принципиально новый способ выявления фазовых переходов в этом процессе.

ЗАКЛЮЧЕНИЕ

Автор выражает благодарность:

• своему научному руководителю доктору физико-математических наук, профессору Г.А. Ососкову;

• кандидату физико-математических наук Л.А. Вальковой;

• кандидату медицинских наук И.В. Кармановой;

• кандидату медицинских наук Е.В. Шелкоплясу.

Библиография Филимонов, Андрей Викторович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Almeida L.B. 1987. Neural computaters. Proceedings of NATO ARW on Neural Computers, Düsseldorf. Heidelberg: Springer-Verlag.

2. Bryliuk D., Starovoitov V. Application of recirculation neural network and principal component analysis for face recognition, http://metalwarrior.narod.ru

3. Burr D. J. 1987. Experiments with a connecnionlist text reader. In Proceedings of the IEEE First International Conferense on Neural Networks, eds. M. Caudill and C.Butler, vol. 4, pp. 717-24. San Diego, CA: SOS Printing.

4. DeSieno D. 1988. Adding a conscience to competitive learning Proceedings of the IEEE International Conference on Neural Networks, pp. 117-24. San Diego, CA: SOS Printing.

5. Hebb D. 0. 1961. Organization of behavior. New York: Science Edition.

6. Hecht-Nielsen R. 1987a. Counterpropagation networks. In Proceedings of the IEEE First International Conference on Newral Networks, eds. M. Caudill and C. Butler, vol. 2, pp. 19-32. San Diego, CA: SOS Printing.

7. Hecht-Nielsen R. 1987b. Counterpropagation networks. Applied Optics 26(23): 4979-84.

8. Hecht-Nielsen R. 1988. Applications of Counterpropagation networks. Newral Networks 1: 131-39.

9. Kamarthi S.V., Pittner S. Accelerating neural network training using weight extrapolations. Neural Networks 12(1999) 1285-1299.

10. KohonenT. 1984. Self-organization and associative memory. Series in Information Sciences, vol. 8. Berlin: Springer Verlag.1 l.Kohonen T. 1988. Self-organization and associative memory. 2d ed. New-York, Springer-Verlag.

11. Pittner S. 1996. Basics for conjugate gradient minimum search. Technical Report, Northeastern University, Boston, USA.

12. Grossberg S. 1969. Some networks that can learn, remember and reproduce any number of complicated space-time patterns. Journal of Mathematics and Mechanics, 19:53-91.

13. R. Hecht-Nielsen Neurocomputing, Addison-Wesley Publishing Co., 1989.

14. Rosenblatt F. 1962. Principles of neurodynamics. New York: Spartan Books. (Русский перевод: Розенблатт Ф. Принципы нейродинамики. М.: Мир., 1965.)

15. Т. Khanna Foundations of neural networks, Addison-Wesley Publishing Co., 1990.

16. Thimm G., Emile Fiesler E. Evaluating Pruning Methods. http://www.idiap.ch/nn-papers/pruning/

17. Valkova L., Borovkov N., Pisani M., Rustichelli F. Structure of Monolayers of Copper Tetra-(3-nitro-5-ter/-butyl)-Phthalocyanine at the Air-Water Interface. Langmuir, 2001.V. 17 (12). P.3639-3642.

18. Valkova L.A., Shabishev L.S., Feigin L.A., Akopova O.B. Formation and X-ray diffraction investigation of Langmuir-Blodgett films of liquid-cristalline substituted crown esters Mol.Materials, 1996. V.6. P.291-298

19. Wasserman P. D. 1988a. Combined backpropagation/Cauchy machine. Proceedings of the International Newral Network Society. New York: Pergamon Press.

20. Wasserman P. D. 1988b. Experiments in translating Chinese characters using backpropagation. Proceedings of the Thirty-Third IEEE Computer Society1.ternational Conference. Washington, D. C.: Computer Society Press of the IEEE.

21. WidrowB. 1959. Adaptive sampled-data systems, a statistical theory of adaptation. 1959 IRE WESCON Convention Record, part 4, pp. 88-91. New York: Institute of Radio Engineers.

22. WidrowB., HoffM. 1960. Adaptive switching circuits. I960 IRE WESCON Convention Record, pp. 96-104. New York: Institute of Radio Engineers.

23. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности / Г.К.Вороновский, К.В.Махотило, С.Н.Петрашев, С.А. Сергеев. Харьков: Основа, 1997. - 112с.

24. Годлевский В.А. Введение в анализ экспериментальных данных: Учеб. пособие. Ивановский государственный университет. Иваново. 1993. С.37-39

25. Дорогов А.Ю. Структурные модели и топологическое проектирование быстрых нейронных сетей // Доклады международной конференции "Информационные средства и технологии" 21-23 октября 1997г. г.Москва, т 1, с264-269.

26. Дорогов А.Ю., Алексеев А.А. Структурные модели быстрых нейронных сетей. В сб. «Интеллектуальные системы» /Труды И-го Международного симпозиума, под ред. К.А.Пупкова, т.2 М.: Из-во ПАИМС. 1996, с.138-143.

27. ЗО.Захаров В.Н., Ульянов С.В. Нечеткие модели интеллектуальных промышленных регуляторов и систем управления. Эволюция и принципы построения. Изв. РАН. Техн. Кибернетика. 1993. №4.

28. И.В.Эаенцев. Нейронные сети: основные модели, http://iissvit.narod.ru

29. Калугина Т.Ф., Киселев В.Ю. Математический анализ: Учебное пособие/ Ивановская гос. арх.-строит. академия. Иваново, 1997. С.376-391.

30. Кисель И.В., Нескоромный В.Н., Ососков Г.А. Применение нейронных сетей в экспериментальной физике, ЭЧАЯ, т.24, вып.6, 1993, с. 1551-1595.

31. Короткий С. Нейронные сети: алгоритм обратного распространения. http://www.orc.ru/~stasson/n2.zip

32. Короткий С. Нейронные сети: обучение без учителя. http://www.orc.ru/~stasson/n3.zip

33. Короткий С. Нейронные сети: основные положения. http://www.orc.ru/~stasson/nl .zip

34. Куссуль Э.М. Ассоциативные нейроподобные структуры. К.: Наукова думка, 1990.

35. Лоули Д., Максвелл А. Факторный анализ как статистический метод. М.:Мир, 1967.

36. Горбань А.Н. и др. Методы нейроинформатики. Электронная публикация

37. Положенцев С.Д., Назаренко Г.И., Лебедев М.Ф. //Военно-медицинский журнал. 1987. №2. С.29-32

38. Семянникова М.Н., Кустова Н.И., Ахмедьянова Л.Г., Минина В.М.//4-Й Национальный конгресс по болезням органов дыхания.С.-Петербург, 1992.С. 117

39. Стариков А. Введение в RBF сети, http://www.basegroup.ru/neural/rbf.htm

40. Стариков А. Генетические алгоритмы математический аппарат. http://www.basegroup.ru/genetic/math.htm

41. Стариков А. Метод сопряженных градиентов математический аппарат. http://www.basegroup.ru/neural/conjugate.htm

42. Суровцев И.С., Клюкин В.И., Пивоварова Р.П. Нейронные сети.- Воронеж: ВГУ, 1994. 225 с.

43. Терехов С.А. Нейросетевые информационные модели сложных инженерных систем. http://www.91.ru/Education/Books/Neural%20Net/Bmst/Bookl/gl4/gl4.htm

44. Трушинский З.К., Воробьев В.Н., Соловьев М.Н.//Советская медицина. 1978. №4. С.35-40

45. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика. М.:Мир, 1992

46. Филимонов A.B. Свидетельство об официальной регистрации программы для ЭВМ № 2002611897. Москва, 6 ноября 2002.

47. Филимонов A.B., Карманова И.В. Свидетельство об официальной регистрации программы для ЭВМ № 2000610901. Москва, 14 сентября 2000.

48. Филимонов A.B., Ососков Г.А., Шелкопляс Е.В. Математические подходы к системному описанию человека и прогнозированию его адаптации. Вестник Ивановской медицинской академии. Т.7, №3-4, 2002, стр.47-48.

49. Чернышова Т.А., Филимонов A.B. Анализ состояния слоев диамино-дибензо-18-краун-6 на поверхности воды. Молодая наука в классическом университете. Часть 1. Стр.93-94. Иваново, 21-25 апреля 2003.

50. Шахиди А. Алгоритм обучения RProp математический аппарат. http.V/www.basegroup.ru/neural^rop.htm