автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Искусственные нейронные сети в комплексном решении медико-биологических проблем
Автореферат диссертации по теме "Искусственные нейронные сети в комплексном решении медико-биологических проблем"
На правах рукописи
РУАНЕТ Виктор Вадимович
ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ
В КОМПЛЕКСНОМ РЕШЕНИИ МЕДИКО-БИОЛОГИЧЕСКИХ ПРОБЛЕМ
05.13.01 - Системный анализ, управление и обработка информации (биологические науки)
Автореферат
диссертации на соискание ученой степени доктора биологических наук
□ОЗОБВЭЗО
Тула-2007
003066930
Работа выполнена в ГУП ТО НИИ новых медицинских технологий (г Тула) и ГОУСПО Медицинском колледже РАМН
Научные консультанты:
доктор медицинских наук Хетагурова Алла Константиновна профессор
доктор медицинских наук Хадарцев Александр Агубечирович профессор
Официальные оппоненты
Член-корр РАМН,
доктор биологических наук,
профессор
Доктор биологических наук, профессор
Доктор биологических наук
Фудин Николай Андреевич,
ГУ НИИ нормальной физиологии РАМН им ПК Анохина (г Москва)
Филатова Ольга Евгеньевна,
ГОУ ВПО «Сургутский государственный университет» (г Сургут)
Карташова Наталия Михайловна, ГОУ ВПО «Воронежская государственная медицинская академия» (г Воронеж)
Ведущая организация ГОУ ВПО «Московская медицинская академия им ИМ Сеченова»
Защита диссертации состоится « 2007 г в
часов на заседании диссертационного совета $212211 06 при ГОУ ВПО «Тульский государственный университет» по адресу 300026, г Тула, ул Болдина, 128
С диссертацией можно ознакомиться в библиотеке Тульского государственного университета по адресу 300600, г Тула, пр Ленина, 92.
Автореферат разослан «Л/» Сб/^^&^уу^Р 2007 г
Ученый секретарь диссертационного совета Л доктор медицинских наук // профессор
А.З. Гусейнов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы Рост уровня технического и информационного обеспечения медико-биологических исследований увеличивает количество информации в повседневной работе Современный уровень информационного потока ограничивает время для наработки «опыта», продукта длительного осмысления полученной информации, который необходим для процедуры принятия решения (ППР) ПНР, основанная на анализе окружающей среды, можно отнести к трудно формализуемым проблемным ситуациям (Терехов С А , 1995, 1998, Фролов Ю В , 2000, Калмыков В Л и соавт , 2004, Дьяченко О А , 2006, Коренев-ский Н А , 2007, Мексон М X и соавт, 1995 и др) Так, ППР в области медико-бйологических исследований имеет свои особенности, обусловленные описательным характером большинства данных, выражающихся с помощью формализмов, оценка которых бывает субъективной В биологии на организменном уровне случайность связана с сущностью самого биологического объекта и является его неотъемлемым внутренним признаком, заведомо характеризующим исследуемые процессы, в том числе при воздействии комплекса факторов Многофакторное воздействие в процессе формализации полученной информации ведет к имеющему сложный профиль ответу, далекому от линейной зависимости При этом статистические методы обработки информации не обеспечивают требуемой достоверности (Ежов А, Че-четкин В , 1997, Россиев Д А , 1998, Попов В И и соавт, 2000, Коре-невский Н А , 2001, 2004, Агуреев И Е , Атлас Е Е , 2007) Еще одним фактором, затрудняющим ППР, является то, что человеческий мозг не приспособлен для выполнения большого объема вычислений в процессе анализа сложных систем, состоящих из цепочек взаимосвязей, из-за чего при работе с комплексной и изменяющейся во времени информацией эффективность принятия решений снижается (Вертгеймер М, 1987,СолсоР Л, 1996)
Поэтому для лиц принимающих решения (ЛПР) необходимо умение использовать в своей работе системы, аккумулирующие опыт (интуицию) К ним относятся интеллектуальные системы (ИС) на базе искусственного интеллекта. Использование ИС дня хранения и актуализации информации позволяет не только выявить наиболее значимые взаимозависимые факторы в больших массивах данных, но и избежать когнитивных деформаций, свойственных памяти человека (Попов Э В , Фоминых Е Б , 1996, Рыбина Г В, 2000, Уотерман Д , 1989, Эддоус М, Стенсфильд Р, 1997)
Одним из инструментов создания подобных систем служат искусственные нейронные сети (ИНС) ИНС - информационная технология, ориентированная на анализ сложных нелинейных задач, в частности,
на работу с образной информацией, удельный вес которой в информационном потоке постоянно растет Нейроинформационные технологии (НИТ) - новЬе междисциплинарное направление, связанное с созданием и внедрением в практику современных методов обработки информации, которые позволяют автоматизировать процесс анализа полученных результатов и формирования выводов Искусственные нейронные сети применяются для идентификации и классификации информации в случае ограниченных, неполных и нелинейных источников данных НИТ отличаются универсальностью одна и та же программа обеспечивает возможность работы в разных областях знаний Интеллектуальные системы на базе ИНС, в отличие от классических экспертных систем, основанных на жесткой логике, не нуждаются в перепрограммировании при изменении состава базы данных Эта особенность ИНС значима при постоянно увеличивающемся объеме информации в уже хорошо изученных областях Комплексное внедрение НИТ исключает необходимость привлечения сторонних специалистов (программистов, математиков и т п ) к ППР и интенсифицируют этот процесс Внедрение НИТ актуально для естественнонаучных дисциплин, связанных с обработкой и интерпретацией больших массивов слабоструктурированных и слабо формализованных данных (Горбань АН, Россиев Д А, 1996, Круглов В В , Борисов В В , 2001; Комарцова JIГ, Максимов АВ, 2002, Котов ЮБ, 2004; Haykin S 1994, Bishop С, 1995) Изучение НИТ становится неотъемлемой составляющей учебного процесса подготовки специалистов различного профиля и уровня компетенции, связанных с решением трудно формализуемых задач прогнозирования и классификации в слабо формализованных областях знаний (Поспелов Г С, 1988, Петрушин В А, 1992, Беспалько В П, 1995)
Цель исследования. Создание методологии использования НИТ для комплексного решения медико-биологических проблем на основе применения ИНС различных типов при обработке и интерпретации информации, а также в качестве инструмента унификации и минимизации набора информационных технологий для интеллектуализации учебного процесса
Задачи исследования:
1 Доказать возможность и целесообразность применения различных типов ИНС для обработки информации, полученной в ходе медико-биологических исследований, на широком спектре объектов и методов исследования
2 Разработать метод количественной оценки изучаемого множества с использованием ИНС
3 Разработать метод для решения задач моделирования, возникающих в ходе медико-биологических исследований с использованием ИНС.
4 Создать схему обработки массива трудноформализуемой информации с использованием ИНС
5. Создать экспертные системы на базе нейросетевых технологий для обработки информации, полученной в ходе биологических исследований
6 Подготовить методическую базу обучения (создать базы данных и обучающие интеллектуальные системы на базе ИНС, разработать программы, методические пособия, систему оценки знаний по овладению программными продуктами и их применению в практической деятельности)
7 Разработать психолого-педагогические приемы обучения и внедрить их в учебный процесс
Научная новизна. Впервые разработана универсальная, комплексная и детальная методология применения ИНС для обработки и интерпретации информации, полученной в ходе медико-биологических исследований на широком спектре биологических объектов
Впервые разработана методология применения нейросетевых технологии для обработки и интерпретации результатов анализа элек-трофоретических спектров белков, молекулярных методов маркирования генома (ЯАРО и 18811 анализа) и цитогенетических исследований
Впервые разработан метод количественной оценки схожести исследуемых образцов в выбранной системе параметров, основанный на применении сети Кохонена
Впервые разработан подход по использованию сети Кохонена для решения задач моделирования, возникающих в ходе медико-биологических исследований
Впервые разработана комплексная методология преподавания нейроинформатики, как специального курса, при подготовке специалистов медико-биологического профиля
Научно-практическая значимость. Внедрение нейросетевых технологий в процесс обработки и интерпретации информации повышает объективность оценки результатов проводимых исследований и принимаемых на их основе решений и прогнозов.
Созданные научно-практические и учебные электронные базы данных применимы для развития теории и практики различных областей медико-биологических исследований, в частности, для идентификации видов ,по результатам цитогенетических исследований, преподавания ряда учебных дисциплин (биохимии, микробиологии, медицинской генетики, терапии и др )
Внедрение нейросетевых технологий в процесс обработки и интерпретации информации, полученной в ходе медико-биологических исследований, делает доступным анализ результатов сложных методов исследования (анализ электрофоретических спектров белков, методы
молекулярного маркирования генома, онтогенетический анализ) для специалистов средней технической подготовленности (уровня компетенции), что способствует повышению их статуса в качестве ЛПР
Внедрение в практику результатов исследования. Основные результаты исследования, включая теоретические данные и разработанные методы, используются в научно-исследовательской работе Института общей генетики им Н И Вавилова РАН, в частности в рамках проекта Российского фонда фундаментальных исследований 06-0408244 «Характеристика внутри и межпопуляционного разнообразия видов культурных растений с использованием интеллектуальных систем автоматического анализа генетически детерминированного полиморфизма белков (на примере пшеницы)», программы «Динамика генофондов растений, животных и человека» и в учебном процессе ряда учебных учреждений на территории РФ, в том числе и МГУ им М В Ломоносова
Апробация Результаты исследования доложены на международных и всероссийских конференциях, в том числе на IV и VI ежегодной сессиях НЦ ССХ им АН Бакулева (Москва, 2000), научных конференциях МИФИ (Москва, 2000, 2001), «Second PEN/GIB workshop» (St Petersburg, Russia, October 2001); I национальной конференции «Информационно-вычислительные технологии в решении фундаментальных научных проблем и прикладных задач химии, биологии, фармацевтики и медицины» (ИВТН-2002) (Москва, 2002), VIII съезде генетиков и селекционеров республики Беларусь (Беларусь, 2002), VII Международной конференция по электронным публикациям «EL-Pub2002» (Новосибирск, 2002), II научной конференции, посвященной 115-летию со дня рождения Н И. Вавилова «Актуальные проблемы генетики» (Москва, 2003), II национальной конференции «Информационно-вычислительные технологии в решении фундаментальных научных проблем и прикладных задач химии, биологии, фармацевтики и медицины» (ИВТН-2003) (Москва, 2003), Международной научно-практической конференции «Информационные технологии в системе «Школа - ВУЗ» (Казань, 2005), XV Международной конференции-выставке «Информационные технологии в образовании» («ИТО-2005») (Москва, 2005), «Нейро-информатика 2006» (Москва, 2006), Всероссийской конференции, посвященной 60-летию ЦСБС (Новосибирск, 2006)
Работа апробирована на совместном заседании кафедры внутренних болезней Тульского государственного университета и Ученого совета Государственного унитарного предприятия «НИИ новых медицинских технологий», 2007
Публикации. По теме диссертационной работы опубликовано 39 печатных работ, из них монографий - 1, статей - 19, из которых 10 в рекомендованных ВАК России журналах, 3 учебно-методических пособия.
Структура и объем диссертации. Диссертация имеет общепринятую структуру, состоит из введения; трех глав, в которых представлен обзор литературы, объект и методы исследования, результаты собственных исследований и их обсуждение, заключения, выводов, практических рекомендаций, списка литературы, приложения Работа изложена на 220 страницах, иллюстрирована 31 таблицей и 66 рисунками Список литературы представлен 295 источниками (190 отечественных и 105 зарубежных авторов)
Основные положения, выносимые на защиту:
1 Нейросетевые технологии являются универсальным, естественным, адекватным и эффективным средством реорганизации и модернизации научно-исследовательской и практической деятельности в области медико-биологических исследований
2 Разработанный универсальный подход позволяет пользователю без привлечения посторонних специалистов (программистов, математиков и т п ) решать профессиональные задачи по обработке и интерпретации информации, полученной в процессе профессиональной деятельности
3 Разработанная схема работы с массивом трудноформализуе-мой информации приемлема для практического использования.
4. Нейроинформационные технологии представляют новую платформу для совершенствования и модернизации учебного процесса подготовки специалистов медико-бисшогического профиля Разработанная комплексная методология преподавания нейроинформатики может использоваться при подготовке специалистов медико-биологического профиля
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, сформулированы цель и задачи диссертационного исследования, отражены научная новизна полученных результатов, а также их теоретическое и практическое значение
В первой главе осуществлен аналитический обзор литературы по проблеме использования НИТ для обработки и интерпретации информации, полученной в ходе медико-биологических исследований Один из разделов посвящен строению, принципам работы и обучению искусственных нейронных сетей
Искусственной нейронной сетью называют некоторое устройство, состоящее из большого числа простых параллельно работающих процессорных элементов — нейронов, соединенных адаптивными линиями передачи информации Работа нейросети заключается в преобразовании входного вектора в выходной вектор В настоящее время разработано несколько видов искусственных нейронных сетей. Наиболее популярными из них являются многослойный персептрон (МСП) - рис 1 и самоорганизующиеся карты признаков (Сеть Кохонена)
Входные " сигналы
Выходные
сигналы
1
Слой 1
Слой 2
Слой!
Рис I Схема многослойного персептрона слой 1 (входной слой) - группа связей, по которым ИНС получает информацию из внешнего мира, слой 2 (промежуточный слой) - группа связей, которая обеспечивает возможность моделирования не линейных функций, слой к (выходной слой) - группа выходных связей, с которых снимаются выдаваемые сетью сигналы
МСП может моделировать функцию практически любой степени сложности Число слоев и число элементов в каждом слое определяется сложностью функции и подбирается эмпирически в ходе решения конкретной задачи исследования На практике создание подобной структуры осуществляется программными средствами В настоящее время существует большое количество программных продуктов имитирующих нейросетевые алгоритмы обработки информации (Горбань АН, Россиев Д А , 1996)
Сеть Кохонена, обучаясь на базе данных, способна построить двумерное отображение — топологическую карту (рис 2) многомерных данных с мийимально возможными искажениями
а б
Рис 2 Топологические карты с конфигурацией ячеек а - «4 на 4»; б- «16 на 1»
Такие нейронные сети сохраняют локальную топологию данных -близость на карте подразумевает и близость в исходном пространстве данных Сеть Кохонена может распознавать кластеры в данных, а также устанавливать близость классов, те реализует одно из свойств ИНС - обобщения по подобию Одно из возможных применений таких сетей - разведочный анализ данных (Kohonen Т , 1982) Внешний вид, топологических карт, который представляет пользователю программный пакет Excel Neural Package, представлен на рис 2. Конфигурация сети (число ячеек) задается пользователем При получении ответа от сети на карте выделяются только заполненные ячейки, в которые «попал» тот или иной кластер данных Так, на рис 2а при конфигурации сети «4 на 4» на карте отмечено 7 ячеек, хотя теоретически возможное количество равно 16
Выбор типа сети зависит от характера поставленной задачи При решении задач прогнозирования и классификации чаще всего используются персептроны, при решении задач категоризации данных - чаще сеть Кохонена
Ответственным моментом работы с ИНС является представление обучающих данных Нейросети оперируют числовой информацией Информация же, на основании которой нейросеть должна давать ответ, может быть самого разнообразного вида термины, описывающие какие-либо ситуации, числа различного вида и величины, графики, двух-и трехмерные изображения и т д Поэтому возникает необходимость корректного представления этой информации в виде чисел, сохраняющих смысл и внутренние взаимосвязи данных, т е приходится прибегать к их числовой кодировке (Горбань А Н, 1990)
Характер обучения зависит от выбранного типа сети При работе с персептронами используется «обучение с учителем» При этом способе обучения готовится набор данных, представляющих собой ряд наблюдений, для которых указаны значения входных и выходных переменных (условия задачи ответ) Сеть учится устанавливать связь между ними На рис 3 представлена схема обучения многослойного персептрона Обучение сети производится следующим образом, база данных (набор обучающих пар) делится на две неравные части Большую часть используют как обучающую, а меньшую как тестирующую базу Обучающая база вводится в нейросеть, сеть дает ответ Если ответы сети совпадают с экспертной оценкой - сеть обучена Если ошибка велика, то процесс обучения повторяется до тех пор, пока не будет получен результат, удовлетворяющий пользователя Критерием достижения цели (обучение сети) считается результат тестирования набором примеров с известными ответами, не входящими в обучающую выборку (Каштан Р, 2001)
p-...................... ПРОЦЕСС ОБУЧЕНИЯ
&аяя I нёйросети
даннмх
¥
¡ сеть, сбучеиа |
ответ
применение (
нейрос&ти выбор ■ (, j сети
примера
t
í.„
-we-
I Ошибка
подстройка ...................„„J велика
¡весов сети
Рис. 3 Схема обучения искусственной нейронной сети
При работе с сетью Кохонена используется «обучение без учителя», процесс, при котором на вход нейронной сети подаются данные, содержащие только значения входных переменных. Такие алгоритмы предназначены для нахождения кластеров во входных данных.
В главе 2 изложены объект н методы исследования. Исследования проводились на базе: Института общей генетики им. Н.И. Вавилова РАН, кафедры генетики биологического факультета МГУ им. М.В. Ломоносова и Медицинского колледжа (МК) РАМН,
Фотографии белковых электрофоретических спектров предоставлены д.б.н. A.M. Кудрявцевым - Институт общей генетики им. Н.И. Вавилова РАН. RAPD и ISSR спектры фрагментов ДНК предоставлены к.б.н. Е.З. Кочиевой — Институт общей генетики им. Н.И. Вавилова РАН. Идиограммы хромосом, фотографии метафазных пластинок предоставлены д.б.н. Е.Д. Бадаевой - Институт молекулярной биологии им. В.А. Энгельгардта РАН.
ИНС так же использовались для анализа информации, полученной in silico (базы данных GENBANK - www.ncbi.nlm.nih.gov/ и Human Genome Resources database - wvw.ncbi.nlm.nih.gov/genome/guide/human).
В проведении педагогической части исследования были задействованы: студенты III курса биофака МГУ им. М.В. Ломоносова, студенты II—V курсов медицинского колледжа (МК) РАМН и факультета повышения квалификации (ФПК) при МК РАМН, а так же группа преподавателей, принимавшая участие в проведении занятий.
Компьютерный анализ. В работе были использованы следующие программные продукты:
- для обработки изображений One - Dscan ver. 1.3.
- для проведения статистического анализа полученных результатов использовали программу «STATISTICA for Windows StatSoft, Inc.»
- имитирующие искусственные нейронные сети.
• пакет программных продуктов "Excel Neural Package",
• программа "NeuroPro 0 25",
• "Neural Network StatSoft, lnc STA TISTICA for Windows" Социологические исследования проводились по общепринятым
методикам (Кондрацкий А А., 1982, Компьютерный психологический опросник 17ЛФ-41991) Они позволили оценить изменения ряда параметров (мотивации, самооценки, заинтересованности, усвояемости и выживаемости знаний и др ) в ходе учебного процесса
Статистический метод использовался при обработке полученных данных (медико-биологических исследований и анкетирования)
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ И ИХ ОБСУЖДЕНИЕ
1. Подготовка баз данных
Современные базы данных молекулярно-биологической информации становятся важнейшим инструментом исследователей в области молекулярной биологии и медицины В ходе исследования нами были разработаны оригинальные приемы обработки и кодирования информации, а так же процесса формирования баз данных по результатам электрофоретических (электрофорез белков и нуклеиновых кислот) и цитологических исследований
Одним из перспективных методов для идентификации, например, сортов и видов растений, прослеживания изменений геномов в процессе видообразования является метод дифференциального окрашивания хромосом - С-бэндинг Полученные с его помощью данные позволили обнаружить ряд закономерностей в эволюции культур, а в ряде случаев прояснить картину филогенетического родства видов (Бадаева Е Д, 2000) К сожалению, вопросы, связанные с математической формализацией данных цитогенетических исследований, например, описания карио-типа, остаются недостаточно разработанными Это связанно с процессом формализации образной информации Нейросети являются идеальным инструментом для ее обработки (Баландин С А и соавт, 2002, Кореневский Н А, 2007), поэтому нами была предпринята попытка использовать нейросети для создания генетических баз данных, основанных на результатах цитогенетических исследований
Материалом для составления одной из базы данных, созданных в ходе работы, послужила идиограмма дифференциально окрашенных хромосом Т. spelta (рис 4) На ней указано положение всех блоков, которые могут быть выявлены на хромосомах Короткое плечо хромосом обозначается буквой S (short), длинное - L (long) Всем блокам присваиваются определенные номера, порядок которых возрастает в направле-
нии от центромеры к теломере. Темно окрашенные блоки (гетерохро-матин) обозначены нечетными, а расположенные между ними участки эухроматина - четными цифрами. В том случае, когда хромосома содержит много С-бэндов, плечо подразделяли на несколько районов, границами которых служили крупные постоянные (т.е. всегда выявляемые) С-блоки — маркерные блоки.
abc
2
1 1
2
Рис. 4. Принцип построения хромосомного паспорта на примере хромосомы ЗВ Т. ярека
Таким образом, субтеломерный блок короткого плеча хромосомы 3, например, будет обозначаться как 38.2.7, где: 3 — хромосома, 5— плечо, 2 - регион, 7 - номер блока.
При описании каждого образца в базу данных вносили информацию о наличии и размерах гетерохроматических (ГХ) блоков на хромосомах. Отсутствие блока принимали за «О», слабо окрашенные бэнды соответствовали градации «1»,четкие точечные блоки — градации «2», большие и очень большие - «3» и «4». Последние две градации использовали в основном для того, чтобы дифференцировать крупные блоки по размеру. К ним, в частности, относились блоки, входящие в состав прицентромерных ГХ комплексов. Для примера можно привести описание в виде «хромосомного паспорта» фрагмента рисунка дифференциального окрашивания хромосомы ЗВ Т. эрека (табл. 1).
Таблица 1
Количественное описание рисунка С-окрашивания хромосомы ЗВ Т. зреИа.
звэ ЗВЬ № образца в базе
1 5 2 1 23 25 27 29 2 11 2 1 23 25 27 29 2 11
3 3 4, 0 0 4 0 4 1 0 1 1 0 к-152
Таким образом, каждая колонка в таблице соответствуют конкретному блоку определенного хромосомного плеча, а ряд представляет собой «хромосомный паспорт» отдельного образца, номер которого приводится в последнем столбце Для внесения закодированной информации в электронную таблицу были разработаны соответствующие макросы, которые позволяли автоматизировать процессы формирования электронных таблиц для нейросетевого имитатора
Следующая задача заключалась в выявлении структуры данных Факт наличия структуры можно установить, используя соответствующий кластеризующий критерий В ходе исследования нами был отработан алгоритм формирования базы данных, где в качестве кластеризующего критерия использовалась сеть Кохонена Это принципиальный момент, т к в литературе, рассматривающей вопросы обучения и работы с многослойными персептронами, подчеркивается, что одним из наиболее часто встречающихся препятствий при их обучении является неправильное определение числа классов в обучающей базе (Гор-бань А Н , Россиев Д А., 1996)
2. Обучение и работа с разными типами искусственных нейронных сетей
Одна из задач исследования заключалась в том, чтобы пользователь получил простой в освоении и работе метод, который позволил бы ему без привлечения посторонних специалистов (программистов, математиков) решать профессиональные задачи по обработке информации Поскольку в основе действия нейросетей лежит процесс обучения, то любая связанная с ними работа начинается с подбора оптимальных для решения поставленных задач параметров сети В ходе исследования нами был разработан ряд новых подходов, связанных с обучением и работой с разными типами искусственных нейронных сетей
2.1. Приемы работы с сетью Кохонена
Важными этапами при использовании сети Кохонена являются определение момента окончания ветвления и конфигурация сети. Согласно данным литературы, этот момент определяется самим пользователем на основе уже имеющихся данных, полученных на предыдущих этапах анализа (Каллан Р., 2001). Но такой подход может создать ряд трудностей для среднестатистического пользователя. Для облегчения этого этапа работы с сетью нами были разработаны способы, позволяющие быстро и эффективно определять оптимальную конфигурацию сети при различных типах ветвления и структуре топологических карт.
Бинарный тип ветвления. Анализируя данные, полученные в ходе исследования, можно констатировать, что работу с базами данных логичнее начинать с кластеризации образцов по бинарному типу ветвления - на каждом шаге сеть делит анализируемый набор образцов на два кластера (рис. 5а). Окончание ветвления определяется следующим образом. Если на следующем шаге сеть делит образцы на кластеры, но на топологической карте они представлены как единое целое, то это шаг считается моментом прекращения ветвления (рис. 56). Данный тип ветвления наиболее удобен для построения дендрограмм, которые дают возможность оценить структуру базы данных. Построение дендрограмм является стандартным приемом при проведении кластерного анализа.
Рис. 5. Топологические карты
Однако, следует отметить, что подход, основанный на бинарном типе ветвления, является наиболее субъективным, поскольку сети задаются строгие параметры кластеризации, и у нее нет «свободы выбора».
Метод наиболее устойчивых кластеров. Для детальной характеристики взаимосвязи входящих в базу данных образцов, нами был разработан метод определения наиболее устойчивых кластеров, основанный на последовательном изменение структуры топологической карты (увеличении числа возможного количества кластеров).
Данный подход основан на том, что сети предлагается разделить образцы, входящие в базу данных, на группы (кластеры) с использованием различных по конфигурации карт Этот прием позволяет по разнице между теоретически возможным и практически образовавшимся числом кластеров судить об оптимальной конфигурации сети На рис 6 представлен график изменения соотношения между теоретически возможным и практически формируемым числом кластеров Согласно нашим данным 1 - появление на карте «пустых» ячеек свидетельствует об определении области оптимальных конфигураций карты, 2 - резкий излом на графике свидетельствует об избыточном количестве ячеек Таким образом, на рисунке область оптимальных конфигураций включает в себя 4-ю и 5-ю карты, 3 - если в область оптимальных конфигурации входят несколько карт, то следует использовать вариант с большим числом «пустых ячеек», те. 5-ю карту Применение различных по конфигурации карт позволяет более объективно подойти к оценке схожести образцов в выбранной системе параметров Используя способ деления с большим числом степеней свободы (большим числом ячеек) для сети, мы повышаем объективность анализа Данный механизм также был использован нами при формировании обучающих баз данных для многослойного персептрона
Рис 6 Изменения соотношения между теоретически возможным и практически формируемым числом кластеров
Для иллюстрации описанного выше подхода приведем пример установления видовой принадлежности по кариотипу В качестве модельных объектов были взяты диплоидные виды Aegdops Ае $ре1-Шйев (5), Ае \ongissima (51), Ае якагопетм (5"''). Ае яеатг (5Г), Ае Ьгсогпю (5*), Ае тиНса (М1), Ае итЬеПиШа (II), Ае саийага (С), Ае
umaristata (Un), Ae comosa (M), Ae. heldreichu (Л/1), Ae squamosa (D) Геномы этих видов были подробно охарактеризованы с помощью ци-тогенетических методов, для каждого найден ряд маркеров, которые можно использовать для их характеристики Одним из наиболее значимых параметров при классификации геномов Aegilops является относительное расположение кластеров 185-265 и 55 рРНК генов на спутничных (SAT) хромосомах, определяющее их принадлежность к определенным гомеологичным группам (Бадаева Е.Д, 2000) Для составления обучающей базы были взяты обобщенные идиограммы хромосом диплоидных видов Aegilops, на которых приведено распределение сайтов 18S-26S и 5S рРНК генов Для характеристики генома мы использовали такие параметры, как общее число спутничных хромосом в геноме (1 или 2), а затем для каждой из SAT хромосом 1 — суммарное число сайтов 55 + 1SS-26S рРНК генов в спутнике, 2 - число сайтов 185—265 рРНК генов в спутнике, 3 - число сайтов 55 рРНК генов в спутнике, 4 - число сайтов 185-265 рРНК генов в коротком плече хромосомы, 5 - число сайтов 55 рРНК генов в коротком плече хромосомы, 6 - число сайтов 185-265 рРНК генов в длинном плече хромосомы, 7 — число сайтов 55 рРНК генов в длинном плече хромосомы Характеристики хромосом без спутников брались в качестве дополнительных критериев
На рис 7 показаны различные по конфигурации топологические карты Ниже приведен состав кластеров (латинскими буквами обозначены соответствующие геномы) Состав кластеров, представленных на топологической карте а, свидетельствует, например, о близости геномов. S1, и Sish, С и U, Ми АД т.к. каждая из перечисленных пар распределяется сетью в один и тот же кластер С высокой степенью уверенности можно говорить, что родственные связи, например, между образцами, входящими в кластер А\ и В\ больше, чем между образцами, входящими в кластеры А1 и D4 Кроме того, рассматривая состав кластеров в процессе увеличения конфигурации матрицы (рис 7 а, б, в), можно сделать вывод о том, что близость геномов S1 и Sfh, выше, чем у М и л/', а их геномы в свою очередь ближе, чем у Си U Данные выводы базируется на том, что сеть Кохонена сохраняет локальную топологию данных, близость на карте подразумевает и близость в исходном пространстве базы данных (Kohonen Т., 1997)
Из литературы известно, что сеть Кохонена может использоваться для решения задач классификации и выявления новых данных в технических системах (Терехов С А, 1998) Для проверки применимости данного типа нейросетей к решению аналогичных задач, возникающих в ходе медико-биологических исследований, была использована та же база данных, что и в предыдущем примере
Рис. 7. Топологические карты: а - 4 х 4 (А 1 - геномы АЗ геномы - 5, Г; В1 геном - 5*;
54 геномы - М, Л/1; £>1 геном - О; £>2 - М £»4 геномы - С, Ц)\ 6-5x5 (А\ Л*;/<3-5, Т,В5-М,М"-,С\-^;Е\-0\Е2-Ы-, £4-С; £5- [/); в - 6 х 6 (Л 1 - 51, Л*; /13 - 5; /14 - Г; С1- 5*; С6 - А/; Об - М"; Е1 - О; £4 - У; - /V; £"4 - С)
Задача классификации решалась следующим образом. Обученной сети Кохонена, топологическая карта которой представлена на рис. 8а, предлагалось определить принадлежность Ае. sear.sH (£?) к определенному кластеру, т.е. классифицировать этот геном. Сеть отнесла образец к кластеру Л1 (рис. 8а), что соответствует оценке эксперта.
Задача по обнаружению новых явлений, решалась следующим образом. Обучающая база, в состав которой вошли геномы 51, Л'1^, 8, Т, М, М1', С, и, была кластеризована сетью с конфигурацией 3 на 3. Сеть разделила обучающую базу на четыре кластера. Топологическая карта сети представлена на рис. 8а. Состав кластеров на топологических картах (а): А\ - М, Л/; АЗ - С, Ц; С\ - Я, Г; СЗ - 5й (название кластера и его номер выделены жирным шрифтом). Затем обученной сети было предложено кластеризовать О и N геномы (тестирующая база).
А1
1
С1
б
Рис. 8. Топологические карты: а - распределение на кластеры образцов обучающей и б- тестирующей баз данных
Топологическая карта ответа сети представлена на рисунке 86 На карте появился новый кластер ВЗ, в состав которого вошли Д N геномы Из расположения кластеров на топологических картах (а и б рис 8) видно, что сеть не смогла отнести представленные в тестирующей базе образцы ни к одному из сформированных на стадии обучения кластеров и сформировала для них новый кластер ВЗ, которого не было при кластеризации образцов обучающей базы Следовательно, опираясь на свойства сети Кохонена, можно говорить о том, что мы имеем дело с новым, для данной сети (системы знаний), явлением Это соответствует морфологическим различиям геномов образцов, представленных в обучающей и тестирующей (представленные образцы имеют по одной ЗА Т хромосоме) базах
Приведенные результаты свидетельствуют, что использование сети Кохонена позволяет на уровне предварительных оценок определить возможное генетическое родство образцов, помочь в формализации информации и сократить время необходимое для ее интерпретации
Определение коэффициента несходства Согласно данным литературы, нейросети применяются для вынесения качественной оценки типа «да», «нет» и подсчета вероятности данного события Отсутствие количественной составляющей, при оценке и интерпретации полученной информации, считается слабой стороной ИНС (Каллан Р , 2001), в отличие от статистических методов, например, от часто используемого метода \JPGMA, который в настоящее время применяется для оценки результатов КАРИ и /657? анализа Нами был разработан простой и эффективный подход для количественной оценки несхожести образцов, входящих в базу данных
Как показали наши исследования, для определения количественных характеристик близости объектов необходимо использовать линейную форму топологической карты (рис 26). Для перехода от качественной (ближе, дальше) — к количественной характеристике взаимного расположения кластеров на топологической карте была разработана следующая процедура
1 - нахождение оптимальной конфигурации для сети Кохонена,
2 - определение максимум несходства,
3 - нахождение коэффициента несходства
Рассмотрим процесс определения количественных характеристик базы данных, полученных по результатам ЯАРО и /55/? анализа При определении максимума несходства в качестве, экспертной оценки использовались значения генетических расстояний, полученные с помощью \JPGMA (рис 9) Максимальное генетическое расстояние имеет образец № 58 - 0,27 Данная цифра принята за 100 % несходства образцов, представленных в базе данных Затем на топологической карте (рис 10) определяли расстояние между кластерами А и Р (мак-
симально удаленные на данной карте) Оно равно 4,5 см Затем делили его на высоту топологической карты - 5,3 см Полученное число 0,849 принимали за 100 % несходства для данного типа карты Перечисленные параметры высота топологической карты, расстояние между кластерами и отношение этих величин (отношение расстояний между кластерами к высоте карты) являются постоянными для данного типа карты
№
М
и
Рис 9 Дендрограмма образцов полученная методом ЦРОМА (экспертная оценка значений генетических расстояний)
N 46
N 47
N 48
N 51
N 52
N 55
Р 22
Р 28
Р 34
Р 35
Р 33
Р 49
Р 53
Р 54
Р 56
Р 57
Рис 10 Состав кластеров при конфигурации карты 16x1 (кластеры обведены рамкой, внутри рамки латинская буква обозначает кластер на топологической карте, цифра - № образца в базе данных)
Определение коэффициента несходства (D) для кластеров G — 23-27 и L - 29,41,45,50 (рис 10)
- расстояние между кластерами на карте равно 1,5 см,
- отношение расстояния между кластерами к высоте карты 1,5/5,3 = 0,283
0,849-100%
0,283-х%
(х = 33,3 %) £>i6xi G/L = 33,3 %
О для сходного набора образцов на дендрограмме (рис 9)
0,27-100 %
0,085-х %
(2 = 31,5%) 25 = 31,5%
Значения О для ряда кластеров, полученные по описанному выше алгоритму приведены в табл 2
Таблица 2
Значение коэффициента несходства
Кластеры на карге(рис 10) №Р б/Ь Б/Ы в/о ШГ Ь/Р
В по сети Кохонена ' 13,3 33,3 67,7 20 13,3 26,67
№ образцов на ден-дрограм-ме (рис 9) (46-48,51,52)/ (22,56,5728,34, 49,35,53,54,39) (23-27)/ (29,41,45,50) (13,18-21)/ (46-48,51,52) (23-27)/ (13, 18-21) (29,41,45,50) / (46-48,51,52) (46-48,51,52)/ (22,56,5728,34, 49,35,53,54,39)
Б по ДОвМА 19,6 31,5 62,9 23,2 18,5 25,9
Сравнительный анализ величин генетических расстояний для соответствующих кластеров, полученный с помощью ЦРОМА и сети Кохонена показывают их значительное сходство Результаты, свидетельствуют, что величина коэффициента несходства, рассчитанная на основе топологической карты и значения генетических расстояний, рассчитанных с помощью \JPGMA, статистически достоверно совпадают (г = 0, 92857, р = 0,00863) Следовательно, данный показатель (£>) может быть использован как количественная характеристика взаимного расположения кластеров на топологической карте, например, как мера генетического родства между образцами, входящими в состав соответствующих кластеров Обобщая полученные в ходе работы результаты, можно констатировать следующее Кластеры, полученные при применении статистических подходов (\JPGMA) и сети Кохонена, совпадают при ЯАРО анализе на 93,6 %, а при 188Я анализе на 79,5 % (рис 11) Полученные результаты удовлетворяют общепризнанным нормам, т к точность в 70-90 % правильных ответов на тестируемой выборке соответствует проценту правильных ответов при решении этих же задач экспертом (Россиев Д А , 1998) Учитывая, что нейронные сети позволяют работать при высокой зашумленности, неполноте и противоречивости данных, предложенный подход может оказаться
эффективным. Необходимо отметить, что УРСМА и сеть Кохонена по разному «подходят» к решению вопроса о формировании кластера. ЦРОМА при кластеризации снижает порог, относящийся к решению об объединении двух или более объектов в один кластер. Сеть Кохонена использует диаметрально противоположный подход, т.е. в ходе формирования кластеров увеличивается «строгость» подхода к сходству объектов по выбранным признакам. Следовательно, использование обеих подходов в процессе определения состава кластеров (кластеризации) будет способствовать объективизации таксономической картины изучаемого множества. Определение коэффициента несходства позволяет перейти при использовании сета Кохонена от качественных к количественным характеристикам баз данных, что повышает привлекательность применения данной методики.
иРвМА ИНС
К А Р О
Рис. 11. Результаты кластеризации, полученные с помощью \JPGMA и сети Кохонена (цифры соответствуют номерам образцов в базе данных)
Использование сети Кохонена для решения задач моделирования В литературе есть ссылки на возможности использования многослойного персептрона для моделирования ситуации, — к каким еще классам, кроме найденного, близок тестируемый пример Решения такого типа задач востребованы, например, при дифференциальной диагностике, выработке стратегии и коррекции медикаментозного лечения и т п (Горбань А Н , Россиев Д А, 1996). Результаты наших исследований дают возможность утверждать, что применение сети Кохонена для выявления общих закономерностей процессов, проходящих в сложных системах, более предпочтительно, чем многослойного персептрона, что, на наш взгляд, должно распространяться и на задачи моделирования в биологических системах В ходе исследования нами был разработан алгоритм использования сети Кохонена для решения подобного типа задач Суть решения такова- изменяя в различных направлениях значения параметров примера и повторяя его тестирование, можно видеть, что и на сколько нужно изменить, чтобы пример стал принадлежать к требуемой категории
В процессе работы была отработана следующая схема
Создание «усредненного образца» (химеры) Для облегчения процесса моделирования создается «усредненный образец» для изучаемого кластера (табл 3) Процесс создания заключается в том, что в каждое из входных полей п (п — общее число входных полей в базе данных) такого образца вносятся наиболее часто встречающиеся значения параметров образцов (например, наличие и размеры блоков гетеро-хроматина в хромосоме, данные анамнеза и пр ) В табл 3 это входные поля 1—6, 8 и 9 При отсутствии такого значения берется среднее арифметическое значений параметров, представленных в соответствующем столбце - входное поле 7
Таблица 3
Создание «усредненного» образца
№ входного поля 1 2 3 4 5 6 7 8 9
№ образца
1 0 1 1 1 0 0 0 2 0
2 0 1 0 2 0 0 2 0 0
3 1 0 0 1 0 0 1 0 1
Химера 0 1 0 1 0 0 1 0 0
Нахождение «критичных параметров» Рассмотрим гипотетическую ситуацию Требуется определить какие параметры образца №ш, входящего в кластер А4, необходимо заменить, чтобы он мог быть отнесен сетью к кластеру £>1 (рис 12)
Создаем химеру для кластера DI Меняя значения входных полей образца №т из кластера A4 на значения соответствующих входных полей химеры кластера Du добиваемся того, чтобы сеть отнесла образец, создаваемый на основе образца №ш, к кластеру Д Как было сказано выше, после каждой замены проводится тестирование полученного образца сетью Кохонена (в рамках имеющегося нейропроекта), для проверки результата замены соответствующих входных полей. В ходе этой работы, определяются «критичные» параметры, которые не позволяют сети относить этот образец (№ш) к кластеру D1 Предложенная схема может быть использована в медицине, например, для моделирования стратегии лечения пациента
2.2. Приемы работы с многослойным персептроном (МСП)
Определение оптимальных параметров и обучение МСП. Несмотря на то, что обучение данного класса нейросетей, сложнее, чем сети Кохонена, но МСП представляет более широкие возможности создания адаптированных, к медико-биологическим проблемам, интеллектуальных систем
В табл 4 обобщены результаты исследований по влиянию набора параметров персептрона (число слоев, число нейронов в слое и т п ) на процесс обучения и экспертные возможности МСП
Как следует из приведенных данных, механическое увеличение числа нейронов после достижения их оптимального количества 5-6 нейронов в слое, ведет к тому, что сеть начинает плохо определять тестовые выборки При наличии 5-6 нейронов в слое процент правильных ответов на тестовой выборке составляет 93-96 %, а при 7-10 нейронах только 85-89 % Дело в том, что в силу избыточности нейронов, сеть просто запоминает обучающую выборку, а не устанавливает связи между входом и выходом Это согласуется с данными литературы (Горбань А H, Россиев Д А, 1996).
Рис 12 Топологическая карта
Таблица 4
Зависимость параметров сети и ее экспертных возможностей
Число слоев сети Число нейронов в слое Суммарное число нейронов сети Число циклов обучения сеш Правильных ответов в обучающей базе, % Правильных ответов в тестирующей базе, %
3 I 3 3641 6 0
3 2 6 2750 28 14
3 3 9 1145 58 41
3 4 12 890 74 68
3 5 15 189 100 98
3 6 1S 91 100 93
3 7 21 50 100 89
3 10 30 11 100 85
Как показывает наш опыт работы с NeuroPro 0 25, важным является момент, связанный с количеством циклов обучения сети Как видно из данных, представленных в табл 4, маленькое число циклов обучения обычно связано с избыточным числом нейронов в сети По нашим данным, оптимальным является интервал от 100 до 200 циклов обучения, в котором сеть не только хорошо обучается, но и хорошо распознает тестирующую выборку, максимальное количество циклов обучения сети не должно превышать 300 Суммарное количество нейронов сети коррелирует с процентом правильных ответов в тестирующей базе (г - 0,8078, р = 0,015), кроме того этот параметр сети связан как с количеством циклов обучения сети (г = - 0, 8343, р - 0,01), так и с процентом правильных ответов в обучающей базе (г = 0, 8508, р = 0,007)
Примеры использования МСП. Определение аллелей глиадинко-дирующих локусов у сортов твердой пшеницы по электрофоретте-ским спектрам глиадинов Определение характера внутри- и межпопу-ляционного (межсортового) разнообразия видов культурных растений является фундаментальной научной проблемой (Алтухов Ю П, 1989) Одним из способов ее решения является электрофорез нативных белков, который широко используется при решении теоретических задач общей биологии, медицины и генетики, а также в практических целях Данный метод высокоинформативен, поскольку нативные белки разделяются не только по молекулярной массе и заряду, как это происходит в денатурирующем электрофорезе, но и по другим физико-химическим свойствам молекулы, например, третичной и четвертичной структуре Свойства нативного электрофореза делают его относительно нестабильным Незначительные изменения неконтролируемых условий при его проведении отражаются на результатах, поэтому спектры, полученные от опыта к опыту, незначительно варьируют, отличаясь, друг от друга Они распознаются экспертом, но плохо поддаются формальному математическому описанию, что, в свою очередь, приводит к трудностям при использовании компьютерных программ, позволяющих автоматизировать анализ таких спектров (Кудрявцев А М,
2007) Нами была предпринята попытка решить проблему оценки результатов с помощью многослойного персептрона
Использование МСП в качестве средства работы с информацией, полученной в ходе генетических исследований, потребовало разработки алгоритмов обработки изображений (электрофореграмм) и формирования базы данных
В процессе работы был определен следующий порядок формирования базы данных 1 - сканирование материала (электрофореграммы или их фотографий) для перевода изображения в электронную форму, 2 - обработка сканированных изображений программой One Dscan (оцифровка изображения), 3 - формирование электронной таблицы для ввода информации в МСП
Входными полями для нейросети служили показания оптической плотности сегментов электрофоретической дорожки В ходе работы с базой данных электрофоретических спектров глиадина было установлено, что оптимальным для решения вопросов идентификации является деление электрофоретического трека на 200 сегментов, что соответствовало 200 входным полям. При прочих равных условиях (конфигурации сети, количества циклов обучения) это обеспечивало высокую степень обучаемости сети и максимальный процент правильных ответов на тестирующей выборке. В табл 5, например, приведены первые 5 входных полей Выходными полями служили название сорта и данные о характерных для него аллелей глиадинкодирующих локусов (Gh-Al, Gh-Bl, Gh-A2, Gh-B2 и Gli-B5) Таким же образом подготавливали и вносили в базу данные по всем образцам Для формирования обучающей базы по конкретным локусам Git, из основной базы данных использовали примеры только с идентифицированными экспертом аллельными вариантами для соответствующего локуса В качестве программного средства использовали "NeuroPro 0 25"
Таблица 5
Структура фрагмента базы данных электрофореграмм глиадина сортов яровой твердой пшеницы
Обучающая база
Входные поля Выходные поля
№ пп 1 2 3 4 5 и тд Сорт Лохусы
Gh-Al Gh-Bl Gh-А2 Gh- В2 GIi-В5
1 0,0 42,1 42,1 21,0 0,0 Оренбургская 2 итд е а 0 0 а
Примечание буквами латинского алфавита (а,Ь,е.уо1) обозначены аллельные состояния соответствующих локусов (С/г- А1 итд), 0 - аллельные варианты не были определены Классификация глиадинов и глиадинкодирующих локусов проводилась согласно номенклатуре, предложенной А А Созиновым (1985)
Одна нейросеть обучается решать только одну задачу классификации или предикции (Горбань А Н, 1990), поэтому в результате работы было получено 5 сетей, каждая из которых определяла один из пяти глиадинкодирующих локусов
Таким образом, для определения генетической формулы была задействована следующая схема 1 - составление обучающей базы, 2 -нахождение оптимальных параметров сети, 3 - обучение сети (входными полями служили числовые выражения денситограммы, выходным полем служило название аллельного состояния соответствующего локуса), 4 - последовательный анализ определяемого образца на 5 нейронных сетях (каждая из которых определяла аллельное состояние одного локу9а) для определения аллелей, входящих в локус, 5 - обобщение результатов для вывода генетической формулы Процесс был автоматизирован с помощью соответствующих макросов
Наилучшими показателями после адаптации сети к условиям данной базы обладали трехслойные персептроны, имеющие от 4 до 6 нейронов в каждом слое Число циклов обучения колебалось от 85 до 220 Работу сети проверяли по стандартной схеме, сравнивая полученные результаты с ответом, предложенным экспертом В табл 6 представлены результаты определения аллельных состояний глиадинкодирующих локусов Средний показатель правильных ответов по всем локу-сам составляет 88,64 % (р < 0,035) Даже самый низкий показатель, полученный при определении аллельных состояний локуса Ок-В2, (76 % р < 0,043) соответствует общепринятым нормам правильных ответов на тестовой выборке при решении неформализованных задач в разных проблемных областях Согласно данным литературы норма составляет 70-90 % (Рыбина Г В , 2000)
Разработанные подходы используются в проекте Российского фонда фундаментальных исследований 06-04-08244 «Характеристика внутри и межпопуляционного разнообразия видов культурных растений с использованием интеллектуальных систем автоматического анализа генетически детерминированного полиморфизма белков (на примере пшеницы)», программы «Динамика генофондов растений, животных и человека»
Таблица 6
Результаты определения варианта локуса с помощью нейронных сетей
Локусы
ОИ- ОЬ- а1- ОЬ- ОЬ-
А1 В1 А2 В2 В5
Число аллельных состояний локуса 5 4 5 6 2
Среднее количество примеров на одно аллельное состояние в обучающей базе 93,4 125,75 76,6 28 201,5
Правильных ответов (ответов совпадающих с мнением эксперта) на тестовой выборке, % 84,5 100 85,2 76 97,5
2.3. Комбинирование различных классов нейросетей для уточнения структуры изучаемого множества
Использование ИНС для исследования А1и последовательностей В данном разделе, на примере исследования специфических повторяющихся последовательностей (ПП) ДНК, связанных с синаптонем-ным комплексом (мей-ДНК), демонстрируются возможности применения различных типов нейросетей для работы с трудно формализуемой информацией
В рамках исследований, связанных с моделью петельной организации хромосом в мейозе при формировании синаптонемного комплекса (СК), с помощью методов биоинформатики в геноме человека были найдены повторяющиеся последовательности (ПП) ДНК, предположительно отвечающие за присоединение петель хроматина мейо-тических хромосом к латеральным элементам синаптонемного комплекса Были так же выявлены консенсусяые последовательности для этого класса ПП Показано, что, по крайней мере, часть из них принадлежит субсемейству ^/^-последовательностей - А1иЛ Исследовано распределение копий А1иЛ по главному комплексу гистосовместимо-сти (КГС) человека и их пространственное отношение к сайтам мейо-тической рекомбинации (МР) По частоте повторов выделены две основные группы ПП (рис 13) (Гришаева ТМ и др 2005) В качестве критерия оценки сходства последовательностей были выбраны участки общей протяженностью 254 пар нуклеотидов, поэтому каждый пример (ПП ДНК образца) в базе данных характеризовался 254 входными полями (входными параметрами). Для решения проблемы филогенетических связей между двумя группами ПП был проведен системный анализ базы данных При использовании статистических подходов не удавалось достичь разделения 1 и 2 групп ПП на кластеры с преобладанием одной из групп последовательностей Для достижения цели были использованы нейросетевые технологии
Доля ПП на У-хромосоме
Рис 13 Доля ПП на У-хромосоме (1 - группа последовательностей имеет в своих названиях код 002, 2 — группа последовательностей имеет в своих названиях код 004)
Работа с базой данных началась с построения дендрограммы, для чего был выбран бинарный тип ветвления. Деление проводили до окончания ветвления, этапы которого обозначали римскими цифрами -рисунок 14.
А 5а1иЭС0004
А 22а1иЛЬ-004
А 12а1и$ч-004
А 24а1и&2-004
■1 За1и УОО*
А 19а1иУ-004
А 11а1иУ-004
А 17а1и52х-004
А 18а1и$х-004
А 7а 1 ивд-004
А 23а1иБ2-004
А 21а1и5к-004
А 13а1и5р-004
А 10а 1и5 2-004
А Эа1и8ч-004
А 16а1иЛз-004
А 1а1иЛ>-004
А 2а 11^о-004
А 002-46М2У
А 002-279
А 002-47в«ч
А
А 002-431 И«*
А 002-143.1*1
А 002421-2У
А 002Ч31-1]Ь
А 0С2-Э26-1$2
А 06-284 |р
А оег£гм]ь
А
А 002-вца
В
)В
в 14а1и5р/я-004
в 15РАш-004
в 6Л0РЯАт-004
в 20-КУР1.Ат.004
в Ва1и5р<ц-004
в ООгЧ1»«)и V
в ООа^П^ЙШАт
¡5 0024Т5>ЯАт
3 оса-тццц
в 002-279-2-212Х
в 002-279-1У43
в ш^щыилт
в 002-279-2-1
в 002-445]/РАт 002-109-)]0
в 002-2Т9.1(Ь
ч
А 5а1и5С0004
А 12а1и5ч-004
А 24аШ52-004
А За 1иУ-004
А 19а1иУ-004
А 11а1иУ-004
А 17а1и52х-004
А 18а1и5х-004
■■■ 21а1и8х-004
А 16а1и-Ь-004
А 1а1и-'Ь-004
А 002470-2»*
А. 002-37б(<|
А 002-477.3*1
А 002-43 Мм
А оог-249-<«а
А 002-321-гг
А 002-431-1,'Ь
А 0С2Г328-1»2
А 00244*»"
А ¿02-вЧЬ
в„
в 22а|иЛ)-004
в 7а1и5ч-004
в 23а1и52-004
в 13а1и5р-0С4
в 10а1и52-004
в 9а1и5ч-004
в 2а1и-!о-004
в оог-*вед2У
в в 002477-11Ь оагмщо
А 20^РиАш-004
А 8а 1иЭр/д-004
А 002-41»а1и
А 002.278.1Y43
А 002-27М.1ЙХ
А 002-*45))ПАт
А OM.109.1JO
А 0O2.-279.1jl»
В 14а1и$р/я-004
а 1№Ат4Ю4
в 6ЛРЯАт.004
в оогжфпь*
а ци^-мэрплп»
в ООг.279-2-2»ах
в
А За1иУ-004
А 19а1иУ-004
А 11а1иУ-004
А 17а1иБ2х-004
А 18а1и5х-004
А 002-321-24
За1иУ-004 19а1иУ-004 11а1иУ-004
В 5а1и5 С0004
В 12а1и5Ч-004 24а1и52-004
В 21«1и5ж-004
В 1$а1иЛ>-004
В 1 л Ч.'ЛЬ 004
В 002-379 2м'
В 0024Г5«Ц
В 002-477.2*1
В 002-4*»-1«
В 002-М5-1«Ч
В 002-4Э1-1]Ь
А 5а1и5С0004
А 12а 1^-004
А 24а1и52-004
А 21а1и5х-004
А 002-379-2«
А 002-375Х) 002-477-2«Ч
А 002-431-1м
А 002-249-1 К»
А 002-325-1*2
А 0Й2-64вр
А 7311^-004
А 23а1и52-004
А 13а1иЭр-004
А
А 9а1иБч-004
А 00247М]Ъ
Р 13а1и5р-004 А 9а1иЕч-004 А 002-»77-1|Ь
а
В 7»)и5р-004 В 23а1иЭ2-004 Е 10а1и82-004
22а1иЛЬ-004 2а1иЛо-004 002-48802У 002-431-2#
освммозу:
Г
в„
Представители 1-ой группы
Представители 2-ой группы
Рис. 14. Часть дендрограммы образцов /¡/«-последовательностей (римскими цифрами обозначен порядок ветвления, а - сдвоенные кластеры)
С точки зрения категорий, те кластеризации на основании последовательности нуклеотидов (выбранная система оценки схожести исследуемых образцов), можно говорить о высокой степени схожести последовательностей в обеих группах (002 и 004) Первое деление (рис 16) дало следующие результаты Кластер А включает в себя 31 образец, из которых 18 относятся к группе 2 (58,06 %) Кластер В включает в себя 16 образцов, из которых 11 относятся к группе 1 (69 %) Характер деления — наличие сдвоенных кластеров (рис 14а) на топологической карте (усредненные значения входных параметров для принадлежащих им примеров настолько близки, что сеть не в силах разграничить области данных для кластеров, как, например на II шаге ветвления для кластера Bi - рис 14), свидетельствует о генетическом родстве образцов в выбранной системе оценки
Обобщая окончательные результаты деления базы данных можно сделать следующие выводы
1 - кластер Aj значительно более гетерогенеи по своему составу, чем кластер j5s Для получения окончательного результата для кластера А\ понадобилось девять ветвлений, в тоже время для кластера В\ хватило одного (рис 14)
2 - в кластере At, в свою очередь, можно выделить гомогенную на 70 % состоящую из представителей группы 004 - кластер Вп (для получения окончательного результата IV ветвления) и гетерогенную -кластер Аи (для получения окончательного результата IX ветвления) группы образцов
3 - для группы 2 из удается в процессе ветвления получить более или менее однородные кластеры уже на III шаге - А1В 84 % -(Ai—^Ац-^Ащ), Ат 84 % - (А^Вц—уАщ) Необходимо отметить, что в эти две гомогенные группы входит 43,5 % из общего числа всех представителей 2-ой группы и 56 % от всех представителей 1-ой группы в А\ Для группы 1 этого удается сделать лишь на V ветвлении, причем для кластера Av 70 % (А]—> Ац-* Bni—+Alv-~> Av) 54 % от всех представителей 1-ой группы вАг К такому же выводу можно придти, используя и альтернативный подход для проверки генетической близости объектов, используя различные по конфигурации карты
Согласно данным литературы, продолжение ветвления до терминальных вершин (терминальные вершины или, как их называют, листья, — это узлы дерева, начиная с которых никакие решения больше не принимаются) не рационально, т к не отвечает сути процесса кластеризации (Kohonen Т, 1997, Каллан Р , 2001) В таком подходе есть своя логика Увеличивая конфигурацию карты, мы можем определить сходство образцов в выбранной системе оценок генетического родства, определяя устойчивость состава кластера в процессе деления По ходу работы был • проведен скрининг десяти различных по конфигурации карт Расположение кластеров на топологической карте, а так же их состав подтверждает вывод, сделанный на основе анализа дендро-граммы о том, что обе группы (1-ая и 2-ая) родственно близки в выбранной системе оценок
В качестве примера приведена топологическая карта - 10x1 (рис. 15). На карте только один гомогенный кластер (D) и ряд в той или иной мере гетерогенных кластеров: А - на 80 % из 004; В - на 73 % из 002; I) - 100 % из 004; / на 80 % из 002; G на 67 % из 002; Н на 100 % из 002. В состав этих кластеров входит 33 образца, что составляет 71,7 % от общего числа образцов. В среднем, с помощью сети Кохонена, удается добиться 80 % однородности кластеров. Четко просматриваются две группы образцов: 1 - кластеры А-Е и 2 - G-J, их состав на 100 % идентичен кластерам A¡ и B¡ (бинарное ветвление) соответственно.
\v\
А 3aluY-004
А 19aluY-004
А 002-321-2Y
А HaluY-004
А 17aluS2x-004
А 18aluSx 004
В 002-279-2SX
В 12aluSq-004
В 002-37 5sq
в 002-477-28Q
в 002.431-1sx
в 002-249-lsq
в 002-431-1jb
в 002-325-1 s2
в 21aluSx-004
в O02r84sp
в 16aluJb-004
С 24aiuS2-004
С 9aiuSq-004
с 002-477-1¡b
С 1aluJb-004
с 002-61Jb
е:
D 7aluSq-004
D 23aluS2-004
O 13aluSp-004
O 10aluS2-004
E 00 2-466-2 Y
E 22alu Jb-004
E 002-431-2JO
E 2alujo-004
G 002'477-2JíflATO
G 002-376j(f¡Am
G 0O2-279-2-2S2X
G 15FAm-004
G 002-419jo/frAm
G 6J0FRAm-004
002-92stWq
002-413alu 14aluSp/q-004 002-279-1Y43 002-109-1J0 002-279-1!»
002279-2-1s2x 00?446|/flAm
20J0/FLAm-004 BaljSp/q-004
представители 002 представители 004
Рис. 15. Топологическая карта 10x1
Для кластеров С, Е \\ J (кластеры, в которых не удалось при первой кластеризации добиться преобладания какой-либо группы образцов) была проведена кластеризация внутри каждого кластера для выяснения близости вошедших в них образцов (рис. 16). Полученные результаты позволяют говорить о том, что образцы разных групп (1 -ой
и 2-ой), входящие в кластер, отличаются друг от друга. В перечисленные кластеры входило 13 образцов из них только три: 9а1и8д-0()4, 002477-УЬ, \aluJb-004 (кластер С) не удалось разделить между собой, т.е. сеть Кохонена с точностью 77 % (р < 0,041) делит образцы на группы внутри «проблемных кластеров». Попытка разделить образцы 9я/м5с/-004, 002477-1/6, \aluJb-004 не увенчалась успехом, т.к. 9я/н&т-004, 002477- \/Ь попадали в один кластер. Учитывая свойства нейросетей, можно говорить о том, что эти образцы чрезвычайно близки друг к другу в выбранной системе оценки (Галушкин А.И., 2001; КоЬопеп Т., 1997).
1111111Р1
А 24я1ий2-004 |
с оаЩГ""!
9а1ивд-004 О 002-4?7-1)Ь
1a!uJb-004
Рис. 16. Результаты кластеризации внутри кластеров С
Подобные исследования были проведены и с другими гетерогенными кластерами. Полученные результаты дают возможность утверждать, что при проведении повторной кластеризации внутри кластера удается добиться разделения 80 % входящих в них образцов на гомогенные группы.
Обобщая результаты, полученные при анализе базы данных с помощью сети Кохонена, можно сделать вывод о том, что, несмотря на высокую степень схожести нуклеотидных последовательностей ПП ДНК, сеть Кохонена, в отличие от статистических методов, способна различать две группы образцов. Средний показатель правильных ответов лежит в интервале от 70 до 80 %, что соответствует общепринятым нормам правильных ответов на тестовой выборке при решении неформализованных задач в разных проблемных областях.
На основании полученных результатов была проведена работа по созданию экспертной системы, на базе многослойного персептрона, для определения соответствующих групп образцов (1-ой - 002 и 2-ой -004). Схема создания экспертной системы включает в себя следующие этапы: 1 - формирование базы данных; 2 - нахождение оптимальных параметров сети; 3 - обучение сети; 4 - тестирование сети. Процедура формирования обучающей базы данных для многослойного персептрона проводилась с помощью сети Кохонена, на основе метода наи-
более устойчивых кластеров Были проработаны 11 конфигураций Попытка создания базы данных на основе карт 6x1 и 8x1 не имела успеха, т к 2-ая группа (004) не определялась Дальнейшая работа показала, что низкая определяемость этой группы, по-видимому, связана с неправильно определенным числом классов в базе данных (Горбань А Н, Россиев ДА., 1996, Россиев ДА, 1998) Создание обучающей базы на основе карты 10x1 дало положительные результаты, удалось добиться 75 % определения тестирующей базы (1-ой - 100 %, 2-ой - 50 %)
Для улучшения экспертных возможностей многослойного пер-септрона и создания репрезентативной выборки за основу была взята карта 14x1 Уточнение родственной близости образцов в гетерогенных кластерах было проведено с помощью дополнительной кластеризации Основываясь, на полученных данных, были отобраны образцы, из которых была сформирована база данных для обучения многослойного персептрона Нахождение его оптимальных параметров, обучение и тестирование сети проводили по разработанной нами методике Обученный трехслойный персептрон определял примеры с точностью 100 % (р < 0,025) для любой группы образцов
Данные, полученные в процессе формирования обучающей базы и обучения многослойного персептрона, позволяют высказать предположение, о том, что 2-ая группа по нуклеотидному составу более разнородна, чем 1-ая Минимальное число необходимое для создания обучающей базы данных для группы I составляло 6 образцов, при этом определялось до 90 % представителей данной группы в тестирующей базе Для 2-ой группы минимум составил 14 образцов, при этом их определялось не больше 50 % При небольшой обучающей выборке в 6-9 образцов, нейросеть большинство тестируемых образцов из 2-ой группы, до 90 %, относил к группе 1 Полученные результаты, на наш взгляд, позволяют предположить, что нуклеотидные последовательности 1-ой группы являются базовыми, а 2-ая группа последовательностей возникла на основе первой в процессе эволюции
Для решения вопроса о характере сходств и различий в нуклео-тидных последовательностях представителей 1-ой и 2-ой групп был проведен ряд исследований с химерными (консенсусными) образцами На рис 17 приведена топологическая карта и состав кластеров Консенсусные образцы создавались на основе кластеров А и Б, как наиболее отличающихся друг от друга с точки зрения теории искусственных нейронных сетей (Каллан Р , 2001) Задача заключалась в том, чтобы определить какие участки повторяющихся последовательностей ДНК необходимо заменить (входные поля исследуемого примера в базе данных) на значения из соответствующих входных полей химеры чтобы, например, образец 12а/м5^-004 из кластера А переместился в кластер т е был помещен сетью в кластер, на 75 % состоящий из представителей группы 2, а образец 002321-27 в кластер А, на 83,5 % состоящий из представителей группы 1 (рис 17)
А 0 02 3 7 в « ч
А 002477-2 *4
А 002431-15»
А 00224® е1м
А 002325-1*2
А 1 2 а 1и в ч -0 0 4
002279 -2 ах
1С 2 1 а 1ц в х -РоТ
р 17а1и32х-0 04 [О_1 й а 1ц 5 х -0 0 4
Г 3 а !и У -0 0 4
г 1 9 а 1и У -0 0 4
р 1 1 а 1и У -0 0 4
г 0 0 2 3 г1-2У
Рас. 17. Расположение и состав кластеров, на основе которых создавались химеры
Нейросеть (МСП) обучена с помощью химер, созданных на основе образцов, входящих в кластер А (исключая образец \2aluSq~0M) и кластер Р (исключая образец 002321-2 У)-рис. 17.
Топологическая карта на рисунке 18а представляет собой ответ сети Кохонена после распределения по кластерам созданных химер. В кластер А (рис. 18а) сеть помещает химеры, созданные на основе образцов относящихся к кластеру Р (рис 17), в кластер С (рис. 18а) химеры, созданные на основе образцов, относящихся к кластеру А (рис. 17). Задачей сети является определение принадлежности исследуемых образцов к кластерам А или С (рис. 18а). Если в процессе определения тестируемый образец попадает в кластер А, то произведенные замены в его составе достаточны для его ассоциирования со 2-ой группой ПП ДНК (004). Попадание образца в кластер С к 1-ой группе ПП ДНК (002). Меняя значения входных полей образца 00232\-2У (кластер Р рис. 17) на значения соответствующих входных полей химер кластера С (рис 18а), добиваемся того, чтобы сеть отнесла образец 002321-2У к кластеру С (рис. 18а). После каждой замены проводится тестирование полученного образца сетью Кохонена (в рамках имеющегося нейро-проекта), для проверки результата замены соответствующих входных полей. В ходе этой работы, определяются «критичные» параметры, которые не позволяют сети относить этот образец 002321-2У к класте-
ру С (рис. 18а). Разница в последовательности нуклеотидов в составе химер кластера С и образца 002-321-2 У (кластер Р рис. 17) составляет 15 позиции (25, 34, 51, 64, 120, 140, 149, 196, 217, 231, 247, 248, 249, 251, 252) - 5,9 % от общего числа входных полей, сосредоточенных в основном (5 позиций) в хвостовой части последовательности (10 последних нуклеотидов от 245 до 254, составляющие 3,9 % от всего количества входных полей).
>
щ ШI
"Ч-- • г
в с
Рис. 18. Топологические карты
В нативном состоянии образец 002321-2 К попадает в кластер В (18в), т.е. является для сети новым объектом. Сеть Кохонена, согласно теории функционирования самоорганизующихся карт признаков (Ко-1юпеп Т., 1997), формирует для него новый кластер (В), которого не было при работе с обучающей базой, состоящей из химер. Ниже приведены несколько вариантов производимых замен.
1) 25, 34, 51, 64, 118, 140, 149, 196,217,23! - не дает эффекта, образец 002321-2К попадает в кластер В (рис. 18в);
2) 25, 34, 51, 64, 118, 140, 149, 196, 217, 231, 247, 248 - не дает эффекта, т.к. образец 002321-2К продолжает попадать в кластер В (рис. 18в);
3) 25,34,51,64, 118, 140, 149, 196, 217, 231, 247, 248, 249 - замена эффективна, образец 002321-2 К в кластере С (рис. 18 с);
4) 247, 248 не дает эффекта - образец 002321-2У в кластере В (рис. 18в);
5) 247, 248, 249 -.замена эффективна, образец 002321-2К в кластере С (рис. 18с);
6) 251, 252 - замена эффективна, образец 002321-2У в кластере С (рис. 18с).
Замена в образце 002321 -2 У полей №№ 247, 248, 249 или №№ 251 и 252 дает необходимый эффект - образец распределяется сетью в кластер С (рис. 18с). Характер замен позволяет сделать вывод о том, что они носят качественный характер (замена 13,3 % от общего числа несовпадающих нуклеотидов в последовательности приводит к желаемому результату), а не количественный (замена 80 % от общего числа несовпадающих нуклеотидов в последовательности не приводит к желаемому результату) характер. Рекомбинантные образцы, созданные на основе образца 002321-2 У (варианты: 3, 5, 6) в процессе контрольного тестирования, относились сетью к кластеру А (рис. 17).
При работе с образцом \2aluSq-004 (кластер А рис 17) решалась сходная задача - найти замены, которые позволили бы сети отнести его к кластеру F (рис 17) Различия в последовательностях нуклеоти-дов образца 12aluSq-004 и химер кластера А (рис 18а) составляют 54 позиции — 21 % от общего числа входных полей В отличии от образца 002321-2Y(кластер Fрис 17) у образца \2aluSq-QQ4 (кластер А рис 17) несовпадающие нуклеотиды достаточно равномерно распределены (рис 17) На наш взгляд, в процессе работы получило подтверждение, выдвинутое ранее предположение о том, что 2-ая группа ПП по нук-леотидному составу более разнородна, чем 1-ая, о чем свидетельствует характер замен произведенных в процессе моделирования
Полученные результаты позволяют говорить о том, что сеть Ко-хонена и разработанный подход с созданием и использованием химер является эффективным инструментом для решения задач моделирования в биологических системах, востребованных при решении целого ряда медико-биологических проблем
На основании приведенных данных можно сделать вывод о том, что использование двух типов искусственных нейронных сетей (сети Кохонена и МСП) позволяет уменьшить сроки создания экспертных систем, в случае, когда работа ведется с неструктурированными или слабо формализованными данными. Эффективность перечисленных выше подходов и приемов работы с разными типами нейросетей была доказана в ходе многочисленных экспериментах на различных базах данных и позволила нам создать несколько экспертных систем основанных на анализе электрофоретических спектров белков и фрагментов ДНК; данных цитогенетических исследований
3. Нейросетевые технологии в образовательном процессе
Одной из задач исследования была разработка современной платформы учебного процесса на основе применения нейросетевых методов обработки информации при изучении дисциплин требующих решения трудно формализуемых задач прогнозирования и классификации В ходе ее реализации.
1 — был проведен скрининг нейросетевых приложений для персонального компьютера, с учетом возможности использования их в учебном процессе. Всего было протестировано 9 нейропакетов В качестве критериев отбора фигурировало число учебных часов, необходимых для отработки навыков работы с программным продуктом, и процент обучаемых, оцененных положительно за ее выполнение Исследования показали, что программные продукты NeuroPro 0 25 vi Excel Neural Package являются оптимальными при решении задач прогнозирований и классификации, возникающих в ходе научно-практических работ Они эффективны и в процессе преподавания ней-роинформатики
2 — разработана многоуровневая система оценки знаний, которая позволяет контролировать степень овладения программным продуктом, понять, какие разделы работы с ним недостаточно освоены кон-
кретным студентом, более дифференцировано подойти к оценке знаний, видеть прогресс в овладении методикой, если он присутствует, по переходам с уровня на уровень, учитывать уровень компетенции будущего специалиста Например, для среднего медицинского персонала (которому, согласно должностным обязанностям, вполне достаточно владеть методиками на «Техническом уровне», тогда как студентам высших учебных заведений необходимо уметь работать на «Интеллектуальном уровне»)
Проведены исследования по оценке влияния нейросетевых технологий на процесс освоения учащимися учебного материала Оценка уровня мотивации показала, что у студентов основных групп, где занятия по профильным предметам проводились с применением интеллектуальных систем на базе искусственных нейронных сетей, он был в среднем на 19,5 % (р < 0,029) выше, чем в контрольных группах, где занятия по профильным предметам проводились без применения НСТ Для формирования высокого уровня мотивации, при использовании НСТ для решения профессиональных задач был разработан ряд психо-лого-педагогкческих приемов, например метод «Консилиума» На стадиях повторения и понимания были получены следующие результаты 24,5 % (р < 0,031) и 23,0 % (р < 0,018) - разность в оценках между основной и контрольной группами соответственно Такой высокий процент объясняется тем, что использование нейросетевых технологий в качестве инструмента обработки информации связано с процессом ее кодирования Само по себе кодирование информации представляет педагогический интерес, т к связан с процессом обобщения и формализации учебного материала, что требует от обучаемого не только знаний общих закономерностей, но и тщательной проработки деталей, что положительно влияет на процесс усвоения Кроме того, при работе с электронной таблицей задействовано визуальное закрепление изучаемого материала, которое опосредуется через ручной труд при формировании базы данных (создание электронного документа) При тестировании аудитории на усвоение значимых для изучения дисциплины профессиональных терминов, разница в оценках между экспериментальной и контрольной группами составила 14,5 % (р < 0,029) Вообще, количественные оценки между группами (основными и контрольными) колебались от 15 % (р < 0,045) -организация до 24,5 % (р < 0,031) - повторение Достоверность количественных оценок в процессе исследования составила 96 % (р < 0,0307) при 95 % (р < 0,05) общепринятом уровне достоверности в педагогических исследованиях (Голицына И.Н, 2003)
В ходе работы был проведен ряд экспериментальных исследования по влиянию процесса создания баз данных на процесс усвоения студентами учебного материала Критерием оценки служили результаты решения ситуационных задач по изучаемой теме В основных группах (в процесс изучения учебного материала был включен раздел создания базы данных) средний балл был на 13 % (р < 0,032) выше, чем в контрольных (процесс изучения материала не включал раздел, связанный с созданием база данных) Контроль выживаемости знаний пока-
зал, что в экспериментальных группах средний балл на 16,6 % (р < 0,03) выше, чем в контрольных Полученные результаты свидетельствуют о том, что процессы, связанные с формированием баз данных, благотворно влияют на усвоение учебного материала
В ходе учебного процесса, связанного с использованием нейро-сетевых технологий, 65 % опрошенных студентов высказали пожелание получать более сложные задания Этот показатель заставил нас изучить влияние интеллектуальных систем поддержки принятия решений - на желание обучаемых анализировать и интерпретировать полученные данные, т е заниматься исследовательской работой Разность в оценках мотивации к исследовательской деятельности у учащихся, при работе с учебным материалом, составила, в среднем, 31,3 % (р < 0,029) между основной и контрольной группами. Столь впечатляющие различия связаны с тем, что механизм функционирования отобранных программных продуктов позволяет анализировать имеющийся материал практически в автоматическом режиме Это создает у пользователя иллюзию простоты процесса анализа и вызывает у него желание проявить свои способности в сфере, которую он считал для себя недоступной Оценивая полученные в ходе исследования результаты можно констатировать следующее.
- степень интереса к проблеме искусственных нейронных сетей достаточно высока, 79 % респондентов оценили ее, по пятибалльной системе, оценкой - 4 или 5,
- 72 % респондентов изъявили желание глубже изучить тему,
- 87 % респондентов считают, что легче решить задачу, в сфере профессиональной деятельности, с использованием нейросетевых технологий,
- 71 % респондентов считают, что нейросетевые технологии пригодятся им в профессиональной деятельности
- 69 % респондентов хотели бы иметь пакет нейросетевых приложений на своем рабочем компьютере
- 58 % респондентов хотели бы иметь пакет нейросетевых приложений на домашнем компьютере.
Выявлена статистически достоверная корреляционная зависимость между уровнями
- формализованное™ предмета и желанием обучаемого воспользоваться услугами систем поддержки принятия решений (СППР) на базе ИНС при решении ситуационных задач в предметной области (чем менее формализован предмет, тем выше процент обучаемых, использующих СППР),
- самооценки знаний по предмету и желанием обучаемого воспользоваться услугами СППР при решении ситуационных задач в предметной области (чем ниже самооценка, тем выше процент обучаемых, использующих СППР),
- удовлетворенности обучением и использованием СППР в процессе изучения профильных дисциплин (удовлетворенность обучением возрастает при их использовании)
По данным тестирования установлено, что преподавание нейро-информатики надо начинать с вводной лекции, освещающей основные вопросы функционирования биологических нейронных сетей (нервной системы), и только потом переходить к вопросам, связанным с искусственными нейронными сетями. Выявлены корреляции между порядком изложения материала в лекционном блоке и овладением соответствующей терминологией В основных группах показатели превышали таковые в контрольной группе на 24,6 % (р < 0,032)
Можно сделать вывод о том, что НИТ положительно влияют на процесс усвоения учебного материала и являются необходимым инструментом для создания современной и эффективной модели учебного процесса подготовки специалистов медико-биологического профиля
Создана комплексная методология использования НИТ при проведении медико-биологических исследований на всех этапах от планирования и реализации эксперимента до получения обобщающих аналитических результатов Это обеспечивает интенсификацию экспериментальных исследований на принципиально новом организационном уровне, исключая необходимость привлечения специалистов в области математики, программирования, системной аналитики и др Для специалистов средней технической подготовленности (уровня компетенции), становится доступным принятие решений по результатам таких сложных аналитических методов как анализ электрофоре-тических спектров белков, методы молекулярного маркирования генома, цитогенетический анализ. На основании данных проведенного исследования разработана схема работы со слабоструктурированными данными, полученными в ходе медико-биологических исследований Эффективность разработанного алгоритма работы доказана в ходе многочисленных экспериментов на различных базах данных Создан ряд экспертных систем, основанных на анализе'
1. Элеюпрофоретичестх спектров белков.
Определение глиадин-кодирующих локусов по электрофоретиче-ским спектрам глиадинов - для определения генетических формул глиадинов у сортов твердой пшеницы Средний показатель правильных ответов по всем локусам составляет 88,64 %, при независимой экспертизе, что соответствует общепринятым нормам правильных ответов на тестовой выборке при решении неформализованных задач в разных проблемных областях
Определение сортовой принадлежности образцов твердой пшеницы по электрофоретическим спектрам глиадинов — средний процент правильных определений сортов твердой яровой пшеницы по электрофоретическим спектрам глиадина, с помощью нейронной сети, составил 82,5 %, что соответствует общепринятым нормам
2. Электрофоретических спектров фрагментов ДНК. Определение сортовой принадлежности образцов перцев по результатам Random Amplified Pohmotfic DNA-RAPD При тестировании, обученная сеть определяла образцы из тестирующей базы с точностью 89,5 % по сравнению с экспертной оценкой.
3. Данных цитогенетических исследований.
Установление видовой принадлежности Aegllops на основании анализа О-геномов Средний процент правильных ответов, при определении видовой принадлежности Aegtlops по фотографиям митотиче-ских хромосом .О-геномов с помощью интеллектуальной системы на базе МСП составил 87,5 %
Установление видовой принадлежности Aegllops с помощью различного типа маркеров (распределение сайтов 18Б-268 и 55 рРНК генов) Система определяла видовую принадлежность диплоидных Ае-gllops непосредственно по фотографиям метафазных пластинок с точность до группы геномов с эффективностью 100 %
Разработанные платформы для совершенствования и модернизации учебного процесса подготовки специалистов медико-биологического профиля с использованием НИТ
- обеспечивают интеллектуализацию учебного процесса подготовки специалистов медико-биологического профиля, интенсификацию исследовательской и инновационной деятельности обучаемых,
- служат инструментом унификации и минимизация набора информационных технологий в учебном процессе,
- в учебном процессе обеспечивают учет характера экспериментальной деятельности в предметной области дисциплины и ее изменений в условиях информатизации образовательного процесса,
- способствуют формированию системы многоуровневой информационной подготовки, которая особое внимание уделяет вопросам непрерывности и преемственности информатизации учебного процесса, интеграции специальных и информационных дисциплин
- являются инструментом для решения проблем повышения мотивации и индивидуализации обучения (уже после первого занятия меняется степень интереса к конкретному предмету, тк нейронные сети позволяют усилить мотивационно-занимательную сторону обучения, стимулирующую развитие познавательного интереса),
- обеспечивают решение одной из наиболее сложных задач подготовки специалистов медико-биологического профиля - передачу эмпирических знаний, необходимых для квалифицированного исполнения профессиональных обязанностей.
- способствуют взаимопониманию специалистов разных профессий, позволяют выбрать исходную концептуальную схему модели постановки проблем и их решения, методов исследования, т е построить научно обоснованную систему в технологии взаимодействия участников процесса оказания медицинских услуг населению
ВЫВОДЫ
1 Доказана универсальность нейросетевого подхода и показана целесообразность его применения для обработки информации, полученной в ходе медико-биологических исследований на широком спектре объектов и методов исследования
2 Разработана комплексная система методических подходов и рекомендаций, основанных на использовании нейросетевых технологий, позволяющая автоматизировать и кардинально ускорить обработку информации, получаемой в ходе медико-биологических исследований
3 Разработан метод количественной оценки (коэффициент несходства) изучаемого множества с использования самоорганизующихся карт признаков — Сети Кохонена Результаты экспериментов, свидетельствуют, что величина коэффициента несходства рассчитанная на основе топологической карты и с применением статистических методов (11РОМА), статистически достоверно совпадают (г = 0, 92857, р = 0,000863) Это дает возможность перейти при использовании Сети Кохонена от качественных к количественным характеристикам баз данных
4 Разработана методика и показана принципиальная возможность использования сетей Кохонена для решения задач моделирования, возникающих в ходе медико-биологических исследований
5 На базе нейросетевых технологий созданы экспертные системы для обработки информации, полученной в ходе биологических исследований Средний процент правильных ответов при независимой экспертизе созданных экспертных систем составил в среднем 84,4 %, что соответствует общепризнанным нормам при решении различных неформализованных задач (точность в 70-90 % правильных ответов на тестируемой выборке соответствует проценту правильных ответов при решении этих же задач специалистом-экспертом)
6 Разработана платформа для совершенствования и модернизации учебного процесса подготовки специалистов медико-биологического профиля с использованием НИТ
8 Разработан комплекс дидактических материалов по нейроинформати-ке учебные программы, учебные базы данных, учебные экспертные системы для преподавания ряда предметов (генетики, медицинской генетики, микробиологии, биохимии, терапии, паллиативной помощи и др)
ПРАКТИЧЕСКИЕ РЕКОМЕНДАЦИИ
Разработанная универсальная система методологических положений и рекомендаций, основанная на использовании нейросетевых технологий, позволяющая кардинально ускорить обработку информации, полученную при медико-биологических исследованиях, нуждается в расширенном внедрении в научно-исследовательские и образовательные учреждения Это позволит оптимизировать процесс формирования выводов, расширить круг лиц, способных участвовать в процедуре принятия решений, улучшить качество вырабатываемых решений и прогноза
Внедрение нейросетевых технологий в процесс обработки и интерпретации информации сделает доступным для специалистов средней технической подготовленности (уровня компетенции) принятие решений по результатам таких сложных аналитических методов как анализ электрофоретических спектров белков, методы молекулярного маркирования генома, цитогенетический анализ Это будет способствовать повышению роли среднего медицинского персонала в качестве лиц принимающих решения.
Разработанная эффективная платформа учебного процесса на основе применения нейросетевых методов обработки информации должна использоваться при изучении дисциплин, требующих решения трудно формализуемых задач прогнозирования и классификации
СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ
Монографии
1 Руанет В В Нейросетевые технологии в медико-биологических исследованиях - Тула Изд-во ТулГУ, 2007 - 194 с
Статьи
2 Руанет В.В., Дадашев С Я Нейронные сети и перспективы их использования для обучения среднего медицинского персонала-М МИФИ, 2000-Т 10-С 83-85
3 Руанет В.В, Хетагурова А К Искусственные нейронные сети как средство обучения // Специалист - 2000 - № 11 - С 23-24
4 Руанет В.В., Хетагурова А.К, Дадашев С Я Использование искусственных нейронных сетей для обучения среднего медицинского персонала.- М МИФИ, 2001-Т 10-С 88-89
5 Руанет В.В., Хетагурова А К , Дадашев С Я Результаты внедрения технологии искусственных нейронных сетей в процесс подготовки среднего медицинского персонала // Специалист - 2001 - № 10 - С 26-28
6 Руанет В.В., Дадашев СЯ, Кудрявцев AM Использованием искусственных нейронных сетей при автоматизации анализа и генетической расшифровке электрофоретических спектров глиадинатвердой пшеницы//Генешка.-2001 -Т 37,№10-С 1435-1437
7 Кудрявцев А М, Поморцев А А, Руанет В В , Дадашев С Я Автоматизация анализа электрофореграмм и установление генетических формул глиадина с использованием искусственных нейронных сетей при определении сортовых качеств семян твердой пшеницы//Сельскохозяйственная биология-2002-№ 1 -С 121-124
8 Руанет В.В., Бадаева Е Д Возможность установления видовой принадлежности Aegilops на основании анализа D-геномов с помощью искусственных нейронных сетей // Генетика - 2002 - Т 38, № 11 - С 1339-1342
9 Хетагурова А К , Слепушенко И О , Руанет В.В., Липский Б К Применение нейроинформационных технологий в паллиативной медицине // Сестринское дело-2003-№ 6-С 7-9
10 Руанет В.В, Хетагурова А К, Бадаева Е Д, Использование искусственных нейронных сетей в цитогенетических исследованиях // Биомедицинская химия - 2004 - Т 50, приложение-№ 1 - С 163-171
11 Руанет В.В.. Кочиева Е 3 , Рыжова Н Н Использование сетей Кохонена для обработки результатов RAPD и ISSR анализов для изучения полиморфизма у представителей рода Capsicum L // Генетика - 2005 - Т 41, № 1 - С 1-9
12 Бадаева Е Д, Руанет В.В., Дедкова О С, Митрофанова О П, Зеленин А В , Пу-хальский В А Использование искусственных нейронных сетей для анализа внутривидовой дивергенции гексаплоидной пшеницы Tnticum spelta L на основании рисунков дифференциального окрашивания хромосом // Биологические мембраны - 2005 - Т 22, № 3 - С 230-241
13 Ruanet V.V, Khetagurova А К Neural network technologies as an approach to organize educational process//Educational Technology & Society-2005-Vol 8(4)-P 181-198
14 Руанет B.B., Липский Б К Интеллектуализация работы медицинской сестры с помощью систем поддержки принятия решений // Сестринское дело - 2005 -№7-С 9-15
15 Руанет В.В,, Хетагурова А К Медицинская генетика // Сестринское дело-2006-№ 4-С 10-16
16 Руанет В.В, Хетагурова А К Использование искусственных нейронных сетей для обработки 'результатов биоинформационных исследований // Нейроинформатика (сборник научных трудов) - 2006 - Ч 3-С 196-203
17 Дадашев С Я, Руанет В.В., Хетагурова А.К, Хапарцев А А Использование биологически инспирированных информационных технологии в медико-биологических исследованиях//Вестник новых медицинских технологий-2006-Т ХШ,№4-С 16-19
18 Руанет В.В Хадарцев А А, Хетагурова А К , Использование нейроинформационных технологий для комплексного решения медико-биологических проблем // Вестник новых медицинских технологий - 2007 - Т XTV, № 1 - С 69-72
19 Руанет B.B Хадарцев АА, Хетагурова А К Использование самоорганизующейся карты признаков дяя решения задач моделирования в биологических системах // Вестник новых медицинских технологий - 2007 - Т XIV, №2-С 148-149
20 Руанет В В, Упелниек В П , Пухальский В А, Кудрявцев А М Разработка интеллектуальных систем поддержки принятия решений, на базе нейросетевых технологий, для анализа электрофоретических спектров глиадина пшеницы и определения сортовой принадлежности семян // Известия ТСХА - 2007 - С 18-20
Тезисы
21 Руанет В.В., Хетагурова А.К, Дадашев С Я Обучение среднего медицинского персонала использованию экспертных систем на основе искусственных нейронных сетей // Материалы четвертой ежегодной сессии НЦ ССХ им А Н Бакулева.- М,2000 - С 204
22 Руанет В.В., Хетагурова А К, Дадашев С Я Место компьютерных систем в обучении среднего медицинского персонала // Материалы шестой ежегодной сессии НЦ ССХ им А Н Бакулева -М, 2000 -С 296
23 Дадашев С Я Руанет В.В., Кудрявцев AM Создание генетических баз данных и экспертных систем для решения прикладных задач генетики и селекции с использованием нейросетевых технологий // В сб Первой Национальной Конференции «Информационно-вычислительные технологии в решении фундаментальных научных проблем и прикладных задач химии, биологии, фармацевтики и медицины» (ИВТН-2002) (Москва, май) - М, 2002 - С 129
24 Руанет В В , Дадашев С Я, Хетагурова А К Применение информационно-компьютерных технологий на базе искусственных нейронных сетей в образовательном процессе // В сб Первой Национальной Конференции «Информационно-вычислительные технологии в решении фундаментальных научных проблем и прикладных задач химии, биологии, фармацевтики и медицины» (ИВТН-2002) (Москва, май) - М, 2002 - С 344
25 Руанет В.В., Хетагурова А К, Дадашев С Я Внедрение технологии искусственных нейронных сетей в образовательный процесс // Материалы научно-методической конференции «Научная организация образовательного процесса Повышение качества профессиональной подготовки специалиста» (Москва, июнь) - М , 2002 - С 112-114
26 Руанет В.В, Дадашев С Я, Хетагурова А К Преподавание генетики с использованием нейросетевых технологий // Материалы VID съезда генетиков и селекционеров республики Беларусь «Генетика и селекция в XXI веке» (Беларусь, Минск) - Минск, 2002 - С 399
27 Дадашев С Я Руанет В.В., Поморцев А А , Кудрявцев А М, Бадаева Е Д Использование нейросетевых технологий в генетических исследованиях // Материалы VIH съезда генетиков и селекционеров республики Беларусь «Генетика и селекция в XXI веке» (Беларусь, Минск) - Минск, 2002 - С 245
28 Руанет В.В , Хетагурова А К Нейросетевые технологии как средство организации образовательного процесса и повышения качества профессиональной подготовки специалистов // VII Международная конференция по электронным публикациям "EL-Pub2002" Новосибирск 2002 URL http //www ict nsc ru/ws/elpub2002/
29 Монахова M А, Руанет B.B., Дадашев С Я Биоинформатика и функциональная организация генома в учебном процессе // Материалы 2-ой конференции МОГиС им НИ Вавилова «Актуальные проблемы генетики» - М, 2003 - Т 2-С 311
30 Кудрявцев А.М, Руанет В.В., Дадашев С Я Некомпоненгный анализ белков и нуклеиновых кислот при проведении филогенетических исследований у растений с использованием нейросетевых технологий (сети Кохонена) // Материалы 2-ой конференции МОГиС им Н И Вавилова «Актуальные проблемы генетики»-М, 2003-Т 2-С 154
31 Руанет В.В., Дадашев С Я, Рыжова Н Н Использование сетей Кохонена для обработки результатов Random Amplified Polimorfo; DNA-RAPD // Материалы 2-ой конференции МОГиС им НИ Вавилова «Актуальные проблемы генетики» - М, 2003 - Т 2 - С 180
32 Руанет В.В., Бадаева Е Д Применения искусственных нейронных сетей для обработки и интерпретации данных, полученных в ходе генетических исследований // Материалы 2-ой конференции МОГиС им Н И Вавилова «Актуальные проблемы генетики» - М, 2003-Т 2-С 325
33 Руанет В.В., Хетагурова А К, Бадаева Е Д Использование искусственных нейронных сетей в цитогенетических исследованиях И В сб Второй Национальной Конференции «Информационно-вычислительные технологии в решении фундаментальных научных проблем и прикладных задач химии, биологии, фармацевтики и медицины» - М, 2003 - С 33
34 Руанет В.В , Хетагурова А К Нейросетевые технологии как средство организации образовательного процесса // Информационные технологии в системе «Школа -ВУЗ» (Казань, июнь)-2005-С 123-127
35 Руанет В В , Хетагурова А К Нейросетевые технологии как средство организации учебного процесса // XV Международная конференция-выставка «Информационные технологии в образовании» (ИТО - 2005) - М , 2005 - Т 4 - С 321-325
36 Упелниек В П , Брежнева Т А, Руанет В В., Дадашев С Я Использование искусственных нейронных сетей для оценки системных отношений в генетических исследованиях II Материалы Всероссийской конференции, посвященной 60-летию ЦСБС -Новосибирск,2006-С 294-296
Учебно-методические пособия
37 Руанет В.В , Хетагурова А К Информационные технологии в медицине (введение в медицинскую нейроинформатику) - М МАКСПресс, 2003 - 67 с
38 Руанет В.В Дадашев С Я, Монахова М А Нейросетевые технологии в хромосомном и геномном анализе - искусственные нейронные сети - М Изд-во МГУ, 2003 - 97 с
39 Руанет В.В. Теория и техника лабораторных работ - М ГОУ ВУНМЦ МЗ РФ, 2007- 174 с
СПИСОК СОКРАЩЕНИЙ
ГХ - гетерохроматин
ИНС - искусственная нейронная сеть
ИС - интеллектуальная система
ЛПР - лица принимающие решения
МОП - многослойный персептрон
НИТ — нейроинформационные технологии
HCT - нейросетевые технологии
СППР - система поддержки принятия решений
ЭС - экспертная система
ISSR - Inter Simple Sequence Repeat (полиморфизм меж микросателлитных последовательностей)
RAPD - Random Amplified Polymoiphic DNA (полиморфизм случайно амплифицирован-
ных фрагментов ДНК),
SAT хромосомы - спутничные хромосомы;
SOFM - Self- Organizing Feature Map (самоорганизующиеся карты признаков - сеть Кохонена),
UPGMA - unweighted pair-group method using arithmetic averages (метод не взвешенного no парного арифметического среднего)
JIP № 040905 от 22 июля 1998 г ПД № 00188 от 3 декабря 1999 г
Формат бумаги 60x84/16 Бумага офс Гарнитура «Times New Roman» Печать риз Уел печ л 2,56 Уч-изд л 2,75 Тираж 100 экз Заказ № 627
Отпечатано в ОАО «Тульский полиграфист» 300600, г Тула, ул Каминского, 33
Заключение диссертация на тему "Искусственные нейронные сети в комплексном решении медико-биологических проблем"
ВЫВОДЫ 169
ПРАКТИЧЕСКИЕ РЕКОМЕНДАЦИИ 170
-
Похожие работы
- Математические модели и методы оптимизации функциональной надежности искусственных нейронных сетей
- Применение искусственных нейронных сетей для решения задач управления динамическими объектами
- Устойчивость моделей нейронных сетей кольцевой и линейной конфигураций с запаздывающими взаимодействиями
- Проектирование процедур организации управления объектами машиностроения на основе аппарата фрагментации больших нейронных сетей
- Исследование автоколебательных режимов в сетях импульсных нейронов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность