автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математическое и программное обеспечение прогнозирования выживаемости пациентов на основе нечеткой нейронной сети

кандидата технических наук
Стрункин, Дмитрий Юрьевич
город
Казань
год
2012
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Математическое и программное обеспечение прогнозирования выживаемости пациентов на основе нечеткой нейронной сети»

Автореферат диссертации по теме "Математическое и программное обеспечение прогнозирования выживаемости пациентов на основе нечеткой нейронной сети"

На правах рукописи

СТРУНКИН ДМИТРИЙ ЮРЬЕВИЧ

МАТЕМАТИЧЕСКОЕ II ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПРОГНОЗИРОВАНИЯ ВЫЖИВАЕМОСТИ ПАЦИЕНТОВ НА ОСНОВЕ НЕЧЕТКОЙ НЕЙРОННОЙ СЕТИ

Специальность 05.13.18 - математическое моделирование, численные методы

и комплексы программ

Автореферат диссертации на соискание ученой степени кандидата технических наук

1 7 МАЙ 2012

005044623

Казань-2012

005044623

Работа выполнена в Казанском национальном исследовательском техническом университете им. А.Н. Туполева - КЛИ

Научный руководитель: доктор технических наук, профессор

Нмалетдинова Лилия Юнеровна

Официальные оппоненты: Елизаров Александр Михайлович,

доктор физико-математических наук, профессор, Институт математики и механики им. Н.И. Лобачевского Казанского федерального университета, заместитель директора по научной работе

Катасёв Алексей Сергеевич, кандидат технических наук, доцент, кафедра систем информационной безопасности Казанского национальног о исследовательского технического университета им. А.Н.Туполева- КАИ, доцент

Ведущая организация: Марийский государственный технический

университет

Защита состоится 25 мая_ 2012 года в_часов на заседании диссертационного

сонета Д 212.079.01 в Казанском национальном исследовательском техническом университете им. А.Н. Туполева - КАИ по адресу: 420011, г. Казань, Карла Маркса, 10.

С диссертацией можно ознакомиться в библиотеке Казанского национального исследовательского технического университета им. А.Н. Туполева - КАИ.

Автореферат разослан «_» апреля 2012 г.

Ученый секретарь

диссертационного совета: Дапилаев Петр Григорьевич

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Одним из наиболее важных факторов при выборе метода лечения пациентов со смертельными заболеваниями имеет определение выживаемости этих пациентов в течение определенных временных интервалов. Под выживаемостью в течение времени г понимают вероятность того, что пациент будет жив после момента времени г: (0 = Р(Т > Г). Прогнозы выживаемости для различных методов лечения позволяют врачам определять наилучший метод лечения пациента.

Существующие математические методы прогнозирования выживаемости можно разделить на две группы по составу используемой информации -методы прогнозирования на основании общегрупповой выживаемости и методы прогнозирования на основе индивидуальных показателей здоровья пациента.

Методы первой группы базируются на статистических методах и позволяют получать «общегрупповой» прогноз, который не позволяет учесть индивидуальные особенности здоровья пациентов. Поэтому в последние годы получили распространение методы второй группы, базирующиеся на использовании регрессионных и нейросетевых моделей, методах нечеткой логики и деревьев решений. Проведенный анализ показывает, что целесообразным подходом является использование нечетких нейронных сетей в силу следующих причин: 1) нечеткости, свойственной медицинским данным; 2) способности к автоматическому обучению и обобщению статистических данных; 3) возможности вероятностной оценки получаемых заключений.

Существующие на сегодняшний день нечеткие нейросетевые модели имеют существенные ограничения, такие как невозможность работы с разнотипными данными, отсутствие весовых коэффициентов для ранжирования значимости показателей здоровья пациентов и т.д. Поэтому актуальной задачей является разработка нечеткого нейросетевого метода прогнозирования выживаемости пациентов со смертельными заболеваниями на основе индивидуальных показателей здоровья и предполагаемого метода лечения.

Цель работы и задачи исследования.

Целью диссертационной работы является разработка нечеткого нейросетевого метода прогнозирования выживаемости пациентов на основании

индивидуальных значений показателей состояния здоровья, позволяющего выбирать наилучший с точки зрения выживаемости метод лечения.

Для достижения поставленной цели необходимо решить следующие задачи:

1. проанализировать структуру и состав медицинских данных, а также существующие методы прогнозирования выживаемости пациентов на их основе;

2. разработать алгоритм отбора показателей, значимых для прогнозирования выживаемости пациентов;

3. разработать модель представления знаний для формализации закономерностей в наборе медицинских данных и алгоритм нечеткого логического вывода на модели, а также соответствующую нечеткую нейронную сеть, реализующую прогнозирование выживаемости пациентов на основе индивидуальных значений показателей здоровья и определенного метода лечения;

4. разработать алгоритм обучения нечеткой нейронной сети с использованием информации базы данных электронных историй болезни;

5. разработать программный комплекс, позволяющий строить модели выживаемости пациентов и прогнозировать выживаемость пациента на заданных временных интервалах.

Методы исследования. Для решения поставленной задачи использовались методы корреляционного анализа, экспертных оценок, прикладной статистики, нечеткой логики, теории нейронных сетей и генетических алгоритмов.

Научная новизна. В диссертационной работе получены следующие новые научные результаты:

1. разработан корреляционно-экспертный алгоритм, решающий задачу отбора значимых показателей здоровья пациента и определения тем самым входных параметров нечеткой нейронной сети;

2. разработана модель представления знаний для прогнозирования выживаемости, допускающая работу с различными типами данных;

3. разработана схема нечеткого логического вывода на модели, позволяющая получать решение при частично не определенных входных данных;

4. разработана архитектура нечеткой нейронной сети, соответствующая модели представления знаний и схеме вывода;

5. разработан модифицированный генетический алгоритм обучения нечеткой нейросети с небинарным определением хромосомы и генетическими операторами, не допускающими нарушения логического порядка следования значений нечетких входов сети.

Достоверность результатов работы. Достоверность научных результатов обеспечивается математически строгим выполнением расчетов и сравнением получаемых моделей выживаемости с моделями, полученными классическими статистическими методами.

Практическая ценность работы заключается в разработке программного комплекса, позволяющего строить нечеткие нейросетевые модели выживаемости пациентов со смертельными заболеваниями и проводить расчет выживаемости по индивидуальным значениям показателей здоровья пациента, что повышает эффективность и качество работы медицинских учреждений.

Результаты диссертационной работы внедрены в работу урологического отделения Республиканского клинического онкологического диспансера Министерства здравоохранения Республики Татарстан.

Личный вклад автора. Цель диссертационной работы была сформулирована научным руководителем профессором Емалетдиновой Л.Ю. Анализ особенностей предметной области, постановка решаемых задач, разработка математических моделей и алгоритмов, их программная реализация в виде программного комплекса, анализ полученных результатов и выводы из них выполнены автором самостоятельно.

Апробация работы. Основные результаты работы докладывались и обсуждались на следующих международных и всероссийских конференциях:

XV Международная молодежная научная конференция «Туполевские чтения» (Казань, 2007); XVII Международная молодежная научная конференция «Туполевские чтения» (Казань, 2009); Международная аэрокосмическая школа (Крым, 2009); Всероссийская научная конференция студентов, аспирантов и молодых ученых «Наука. Технологии. Инновации» (Новосибирск, 2009); XVIII Международная молодежная научная конференция «Туполевские чтения» (Казань, 2010); IV международный научный конгресс «Нейробиотелеком-2010» (Санкт-Петербург, 2010); Двенадцатая международная научно-техническая конференция «Измерение. Контроль. Информатизация» (Барнаул, 2010); XIX Международная молодежная научная конференция «Туполевские чтения» (Казань, 2011); Всероссийская научно-

техническая конференция «Проблемы и перспективы развития информационных технологий» (Казань, 2012).

Публикации. По теме диссертации опубликовано одиннадцать научных работ, в том числе восемь тезисов докладов и три статьи, две из которых опубликованы в журналах, рекомендуемых ВАК («Искусственный интеллект и принятие решений», «Ползуновский вестник»).

Структура диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложений.

СОДЕРЖАНИЕ РАБОТЫ

Во введении приведено обоснование актуальности проблемы разработки математического и программного обеспечения для прогнозирования выживаемости пациентов с учетом индивидуальных показателей здоровья и предполагаемого метода лечения.

В первой главе проведен анализ существующих методов прогнозирования выживаемости и особенностей медицинских данных о пациентах. Приведена постановка задачи.

К особенностям медицинских данных о пациентах можно отнести их цензурированность, нечеткость и разнотипность.

Существующие методы прогнозирования выживаемости можно разделить на две группы по составу используемой информации - методы прогнозирования на основании общегрупповой выживаемости и методы прогнозирования на основе индивидуальных показателей здоровья пациента (рис. 1). Проведенный анализ методов прогнозирования выживаемости показал, что для решения поставленной задачи целесообразно использовать нечеткие нейронные сети. Для построения нечеткой нейросетевой системы прогнозирования выживаемости пациентов необходимо разработать:

1. алгоритм отбора показателей пациентов, значимо влияющих на выживаемость;

2. модель представления знаний и схему нечеткого логического вывода;

3. архитектуру нечеткой нейронной сети и алгоритм ее обучения на статистических данных;

4. программное обеспечение, реализующее разработанные математические модели и алгоритмы.

Признаки:

Состав информации

Математический аппарат

Математические методы прогнозирования выживаемости

Методы прогнозирования выживаемости пациента на основе общегрупповой выживаемости

Методы протезирования выживаемости пациента на основе индивидуальных показателей здоровья

Статистические параметрические методы Статиспиеские иепараметричес-те методы Методы, использующие регрессионные модели

Методы, использующие искусственные

нейронные сети (включая нечеткие)

Методы, исполиукхцие аппарат нечеткой логики

Рис 1. Классификация методов прогнозирования выживаемости

Во второй главе приведена постановка задачи отбора значимых для прогнозирования выживаемости пациентов показателей, проанализированы возможные подходы к ее решению, и предложен корреляционно-экспертный алгоритм отбора.

Обозначим: X - множество показателей состояния здоровья

пациента, которые могут быть выражены в дихотомической, порядковой или интервальных шкалах (метод лечения пациента будем также рассматривать как

показатель); У = {У,.....У„) - множество признаков выживания в течение т

определенных временных интервалов, У] е {"ДА'"НЕТ'). Необходимо определить подмножество взаимно независимых показателей X ={ДГ1,...,*г}, г<п, Х,еХ, каждый из которых значимо влияет как минимум на один признак У, е У.

Для решения поставленной задачи можно использовать методы корреляционного анализа или экспертных оценок. Основным недостатком корреляционного анализа при решении поставленной задачи является отсутствие порогового значение коэффициентов корреляции, начиная с которого показатели считаются «значимыми». Недостатком экспертных оценок является отсутствие у экспертов количественной исходной информации о существующих связях. Поэтому разработан следующий корреляционно-экспертный алгоритм отбора:

1. Рассчитываются коэффициенты корреляции ги между Х1.,!=1,п, и , ] = 1, т. Соответствующий коэффициент корреляции определяется в соответствии с таблицей 1. После этого, для каждого показателя

Хг1-1,п, вычисляется суммарная оценка Р/ = г.. |.

м

Таблица 1

Коэффициенты корреляции для различных шкал

Типы шкал Коэффициент корреляции

дихотомическая- дихотомическая коэффициент ассоциации Пирсона

дихотомическая- порядковая коэффициент рангово-бисериальной корреляции

дихотомическая- интервальная коэффициент бисериальной корреляции

порядковая- порядковая коэффициент ранговой корреляции Спирмена

порядковая—интервальная коэффициент ранговой корреляции Спирмена

интервальная-интервальная коэффициент корреляции Пирсона

2. С помощью таблицы 2 определяется сила связи а^ показателей X,,1 = 1 ,п, и признаков У,. ] = 1,т, и заполняется таблица 3, которая предоставляется экспертам для анализа.

Таблица 2

__Сила связи

Модуль значения коэффициента корреляции Сила связи аГ1

очень слабая

0,2<ЦМ.З Слабая

0,3 <| /v |< 0,5 Умеренная

0,5 <| гч |< 0,7 Средняя

0,7<к;| Сильная

Таблица 3 Сила связи показателей и признаков

Показатель

«н

апт

3. Каждый эксперт на основании данных таблицы 3 и собственного опыта оценивает нулем те Х,,1 = 1,п, которые он считает не значимыми при прогнозировании значений признаков , у = 1 ,т, и ранжирует оставшиеся по степени значимости.

4. Для проверки согласованности мнений экспертов вычисляется коэффициент конкордации по формуле:

1У= 125

т^п'-п)'

где 5 =¿(5,--5„)\ 5,. = £г„, Бср =-¿5,..

1=1 И 1=1

5. Если V/ > 0,5, то для принятия решения о существенности IV, то есть о неслучайности согласованности мнений, используется критерий х1-> где

число степеней свободы V = л-1. Для этого вычисляется статистика:

2 125

"т„ („ + !)•

6. Для заданного уровня значимости а (например, а = 0,05) по таблице распределения х2 определяется статистика х1та6л- Если х1факт, то V/ существенен при заданном уровне значимости а. Иначе проводится согласование мнений экспертов по методу Дельфы.

7. Отбрасываются показатели, оцененные нулем большинством экспертов. Дальнейшие шаги проводятся с оставшимися показателями.

8. Между показателями попарно вычисляются коэффициенты корреляции в соответствии с таблицей 1. Если коэффициент корреляции отличен от нуля, то показатели считаются связанными.

9. Для каждого показателя X, вычисляется рекомендация с, е {"отбросить","оставит^'} по правилу: если для X, сумма Р: , определенная на шаге 1, превосходит суммы связанных с ним показателей, то с, принимает значение «оставить», и значение «отбросить» в противном случае.

10. Полученные рекомендации представляются всем экспертам, которые должны подтвердить либо опровергнуть рекомендацию. После получения мнения всех экспертов проводится отбор - те показатели, которые были «отброшены» большинством экспертов исключаются из рассмотрения, а остальные считаются значимо влияющими на выживаемость.

В третьей главе определены необходимые требования к модели представления знаний и разработана модель, допускающая работу с входами различных типов, сформулированы требования к схеме нечеткого логического вывода и разработана схема, позволяющая получать решение при частично не определенных входных данных. Разработана архитектура нечеткой нейронной сети, соответствующая разработанной модели и схеме вывода. Проведен анализ возможных подходов к обучению нечеткой нейронной сети и разработан модифицированный генетический алгоритм с мутацией, не допускающий нарушения логического порядка значений нечетких входов в ходе работы операторов.

Модель представления знаний для прогнозирования выживаемости должна:

1. допускать работу с нечеткими данными в интервальной шкале и четкими данными в порядковой и дихотомической шкалах;

2. быть легко интерпретируема;

3. описывать все возможные зависимости значений выходов от значений входов;

4. содержать веса правил и составляющих их предпосылок для описания степениих «общности» в исходных данных.

В соответствии с требованиями была разработана соответствующая модель, которая описывается правилами вида:

Правило Як. «ЕСЛИ (X, есть Д1) [ и>1] И ... И (X, есть Л') [ п", ],

(1)

ТОУ, естьС^ » [И^], где Х={Х;) - множество входов (значимых показателей пациента); А* -значение параметра X, в правиле /?ь н>' - веса предпосылок (X, есть А') в правиле Я*; - выход правила Я*; СУ, - значение выхода в правиле /?ь - вес правила Л*.

Схема нечеткого логического вывода на модели (1) должна допускать получение решения при частично не определенных входных данных. Исходя из этого, была разработана следующая схема вывода:

1. Для входов X, задаются их текущие значения х, .

2. Для нечетких входов Х( рассчитываются значения функций принадлежности ц\ всех возможных значений А/ по формуле ц'{ = ///(*,)• Для четких входов X, значения д' = 1, если х: = л/, и ц{ = 0, если % * л/ .

3. Вычисляются коэффициенты срабатывания всех правил по формуле:

¿АЧ

я, =-

[ //*, если значение х, известно,

где А = ■

[О в противном случае.

4. Для каждого значения СУ; каждого выхода У, рассчитывается его

суммарный коэффициент срабатывания по формуле:

1=1

, если Ук=У] и СУк = СУ,,

где Н^ :

[О в противном случае.

5. Для каждого выхода У] рассчитывается вероятность каждого возможного значения СЦ по формуле:

Р(У1 ЕСТЬ СУ,.) = х 100%,

к

- , еслг/ СУ. является значением У ,

где =( * >'

[0 в противном случае.

Для построенной модели и схемы вывода разработана соответствующая архитектура нечеткой нейронной сети. На рис. 2 представлен пример архитектуры сети, имеющей два входа и два выхода с общим количеством правил пК.

Проведен анализ литературы, посвященный выбору вида функций принадлежности, и для решения задачи выбраны треугольные функции принадлежности.

В ходе анализа различных подходов к обучению нечеткой нейронной сети выбран генетический алгоритм с мутацией. Реализация генетического алгоритма потребовала решения следующих задач:

1. определения структуры хромосомы;

2. определения функции приспособленности хромосомы;

3. определения способа расчета весов правил и предпосылок;

4. разработки генетических операторов, не нарушающих логического порядка следования значений нечетких входов.

л:

Их

И2

Из

А*

И5

А?

1_____\

■ Иб

Рис 2. Пример структуры нечеткой нейронной сети

Для описания параметров функций принадлежности всех значений нечетких входов предложена хромосома вида:

: (А 1 >С11' Г\ 1' Ал, ' С1л, ' Г\л, ' •••' \к\' Ск\ ' Гк\ > •••' ' Скпк ' Гкп, )'

1-ое значение

последнее значение

1 —ое значение

последнее значение

1-й нечеткий вход к—й нечеткий вход

где /,у,си,ги - действительные числа в диапазоне возможных значений соответствующего нечеткого входа.

Из-за особенностей медицинских выборок данных, предложена следующая функция приспособленности хромосомы:

пВШ^Е(У;к)/(у1к)

" Ет*)

где пВЫБ - объем обучающей выборки; т - количество выходов;

у,к - значение выхода ¥;, имеющее наибольшую вероятность; у*ые - выборочные значения признаков выживания У,,

увьш g {"ДА","НЕГ »не задано"};

[\,еслиу™Б * уik. _ fl, если у™в задано,

f(yik)~i ВЫБ

[и, если yit не задано.

Для вычисления весов правил и предпосылок в правилах используется статистический подход - вес правил и предпосылок должен быть пропорционален количеству вхождений описываемого ими случая в выборку данных. Для реализации этого подхода генетический алгоритм был дополнен разработанными операторами расчета весов для каждой хромосомы.

Для того чтобы генетические операторы не нарушали логического порядка следования значений были разработаны алгоритм генерации начальной популяции, операторы мутации и скрещивания, осуществляющие контроль логического следования значений нечетких входов при каждом изменении хромосомы или гена.

В четвертой главе приведено описание разработанного программного комплекса, реализующего разработанные модели и алгоритмы, его структура и результаты его использования для построения модели выживаемости больных с диагнозом «Рак почки» на основании базы данных электронных историй болезни Республиканского клинического онкологического диспансера. Схема взаимодействия модулей разработанного программного комплекса приведена на рис. 3.

Разработанный программный комплекс состоит из трех программных модулей:

• модуля отбора значимых для прогнозирования выживаемости показателей здоровья пациента, реализующего комбинированный корреляционно-экспертный алгоритм. Расположение модуля на сервере в сети Internet позволило решить проблему привлечения множества квалифицированных экспертов без необходимости их присутствия в определенном месте;

• модуля построения нечеткой нейросетевой модели выживаемости пациента на основе базы данных электронных историй болезни;

• модуля расчета выживаемости пациента на основании индивидуальных значений показателей здоровья и разработанной ранее модели.

Указанный модуль был отделен от модуля построения модели выживаемости для упрощения каждодневной работы врача.

---S — — Выворт денных, включающая вое показатели Модуль отбора эначшьх показателей Ншбор жюшяых ааказатапвЗ Модель построения и обучен« нечеткой иеироовтеяой модели выювммосж

ВД электронных истерий болезни Выборка ветх, включающая топыи значимые показатели

Нвчтпкт мвСроаяиввш

Модуль ратетя выямва»мости гацмнта

пациента

Прояножи • выживаемости на интервалах

Рис 3. Схема взаимодействия модулей программного комплекса

Для создания стационарной части программного комплекса использовалась интегрированная среда разработки Emabarcadero RAD Studio 2010, язык разработки - Object Pascal. Для разработки сетевой части использовалась среда разработки Macromedia Dreamweaver CS3, язык разработки - РНР, используемая СУБД - MySQL.

В работе приведен пример использования разработанного программного комплекса для решения задачи прогнозирования выживаемости пациентов с диагнозом «Рак почки». Приведены постановка задачи прогнозирования, описание структуры базы данных электронных историй болезни, перечень отобранных значимых показателей (возраст, тип предполагаемой операции, наличие осложнений, паллиативность операции, клинические показатели N и М) и описание построенной нейронечеткой модели. Схема разработанной нечеткой нейронной сети приведена на рис. 4.

Для проверки адекватности модели исходным данным на тестовой выборке данных были рассчитаны среднестатистические выживаемости пациентов в течение одного, трех и пяти лет (t=l,3,5) после проведения лечения по формуле:

„ количество выживших в течение t

cmam ^ ' ~ ■

количество наблюдаемых в течение t После этого для каждого из пациентов тестовой выборки были спрогнозированы выживаемости в течение одного, трех и пяти лет. Эти выживаемости были усреднены по формуле:

=-

выб '=1

гДе пшб - размер тестовой выборки, а (г) - прогнозируемая выживаемость в течение времени г для ¡'-го пациента.

возраст

тип операции

осложнения

молрдои ^ Г средний ^

старый

нэфрэктомия ^

резекция почки

паллиатив

> И;

<

3> Да

^ нет

^ да

^ нет

N

да

$ нет

жив в течение 1 гада

жив в течение 3 пет

жив в течение 5 лет

Рис 4. Архитектура нечеткой нейронной сети для диагноза «Рак почки»

Результаты проверки приведены на рис. 5. Из полученных результатов видно, что построенная модель адекватна исходным данным, так как усредненный прогноз практически не отличается от статистически рассчитанной выживаемости.

---Статистически

рассчитанная

80% 75% 70%

1год

3 года

выживаемость

-Усредненный

прогноз выживаемости

Рис 5. Результаты проверки адекватности модели

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Проведены анализ и классификация математических методов прогнозирования выживаемости пациентов, которые показали, что в силу нечеткости, свойственной медицинским данным, и необходимости вероятностной оценки получаемых заключений целесообразным подходом к решению поставленной задачи является использование нечетких нейронных сетей.

2. Предложен алгоритм экспертного отбора значимых для прогнозирования выживаемости показателей здоровья пациента, основанный на предоставлении экспертам качественной информации о корреляции данных и проверке гипотезы о согласованности экспертных мнений.

3. Разработана модель представления знаний для прогнозирования выживаемости, допускающая работу с показателями различных типов, схема нечеткого логического вывода на модели, позволяющая получать решения при частично не определенных входных данных, а также соответствующая архитектура нечеткой нейронной сети.

4. Для обучения нечеткой нейронной сети разработан модифицированный генетический алгоритм с небинарным определением хромосом и новыми генетическими операторами, не допускающими нарушения логического порядка значений нечетких входов.

5. Разработан программный комплекс, реализующий построение модели представления знаний для прогнозирования выживаемости пациентов и саму процедуру прогнозирования. С помощью разработанного программного комплекса решена задача подготовки принятия решений по выбору целесообразного метода лечения пациентов с диагнозом «Рак почки».

Основное содержание диссертации опубликовано в следующих работах;

В рецензируемых журналах:

1. Емалетдинова Л.Ю., Стрункин Д.Ю. Моделирование диагностической деятельности врача на основе нечеткой нейронной сети // Искусственный интеллект и принятие решений. 2010. №3. С. 158-162.

2. Стрункин Д.Ю. Выбор значимых для прогнозирования времени выживания показателей пациента // Ползуновский вестник. 2011. №3/1. С. 73-78.

Другие публикации:

3. Стрункин Д.Ю. Нечеткая нейросетевая модель дифференциальной диагностики состояния пациента // XV Туполевские чтения: Международная молодежная научная конференция, 9-10 ноября 2007 года: Материалы конференции. Казань: Изд-во Казан, гос. техн. ун-та, 2007. С. 35.

4. Стрункин Д.Ю. Автоматизация контроля диагностических решений врача на основе нейросети // XVII Туполевские чтения: Международная молодежная научная конференция, 26-28 мая 2009 года: Материалы конференции. Казань: Изд-во Казан, гос. техн. ун-та, 2009. С. 48-49.

5. Стрункин Д.Ю. Генетический алгоритм обучения нечетких систем // Международная аэрокосмическая школа: Сборник тезисов докладов. М.: Аэрокосмическая инициатива, 2009. С. 191-192.

6. Стрункин Д.Ю. Выбор модели представления знаний для системы контроля диагностических решений врачей // Наука. Технологии. Инновации.: Материалы всероссийской научной конференции молодых ученых в 7ми частях. Часть 1. Новосибирск: Издательство НГТУ, 2009.

С. 240-241.

7. Стрункин Д.Ю., Гиниятуллина Э.Р., Низамова A.M. Программный комплекс создания и ведения базы данных электронных историй болезни онкопациентов // XVIII Туполевские чтения: Международная молодежная научная конференция, 26-28 мая 2010 года: Материалы конференции. Казань: Изд-во Казан, гос. техн. ун-та, 2010. С. 39-41.

8. Емалетдинова Л.Ю., Стрункин Д.Ю. Система ведения электронных историй болезни урологического отделения // Инфокоммуникационные технологии в науке, здравоохранении и обра- зовании : сборник научных трудов IV международного научного конгресса «Нейробиотелеком-2010». СПб.: «ТЕЛЕДОМ» ГОУВПО СПбГУТ, 2010. С. 167-169.

9. Стрункин Д.Ю. Методика определения показателей пациента, значимо влияющих на выживаемость // Измерение, контроль, информатизация: Материалы двенадцатой международной научно-технической конференции. Барнаул: Изд-во АлтГТУ, 2011. С. 202-206.

10. Стрункин Д.Ю., Гайнулин Д.К. Автоматизированная система отбора значимых параметров объекта при прогнозировании // XIX Туполевские чтения: Международная молодежная научная конференция, 24-26 мая

2011 года: Материалы конференции, Казань: Изд-во Казан, гос. техн. унта, 2011. С. 181-182.

11. Стрункин Д.Ю., Емалетдинова Л.Ю. Программный комплекс прогнозирования выживаемости пациентов со смертельными заболеваниями // Всероссийская научно-техническая конференция «Проблемы и перспективы развития информационных технологий»: Материалы конференции. Казань: Изд-во КНИТУ-КАИ, 2012. С. 309-315.

Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Печ. л. 1,0. Усл. печ. л. 0,93. Уч.-изд. л. 0,91. Тираж 100. Заказ А70.

Типография КНИТУ-КАИ. 420111, Казань, К. Маркса, 10

Текст работы Стрункин, Дмитрий Юрьевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

61 12-5/2780

КАЗАНСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ ИМ. А.Н. ТУПОЛЕВА-КАИ

На правах рукописи

СТРУНКИН ДМИТРИЙ ЮРЬЕВИЧ

МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПРОГНОЗИРОВАНИЯ ВЫЖИВАЕМОСТИ ПАЦИЕНТОВ НА ОСНОВЕ НЕЧЕТКОЙ НЕЙРОННОЙ СЕТИ

Специальность:

05.13.18 Математическое моделирование, численные методы и комплексы программ

ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук

Научный руководитель доктор технических наук, профессор Л.Ю. Емалетдинова

Казань 2012

СОДЕРЖАНИЕ

ВВЕДЕНИЕ.................................................................................................................5

ГЛАВА 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧИ.....................................................................................................................12

1.1. Понятие «выживаемости»..............................................................................12

1.2. Особенности медицинских выборок данных...............................................15

1.2.1. Цензурированность данных....................................................................15

1.2.2. Разнотипность данных............................................................................18

1.2.3. Нечеткость данных..................................................................................19

1.3. Математические методы прогнозирования выживаемости пациентов.....20

1.3.1. Методы прогнозирования выживаемости пациента на основе общегрупповой выживаемости.........................................................................21

1.3.2. Методы прогнозирования выживаемости пациентов на основе индивидуальных показателей здоровья...........................................................31

1.4. Постановка задачи..........................................................................................40

Выводы .............................................................................................................41

ГЛАВА 2. ОПРЕДЕЛЕНИЕ ПОКАЗАТЕЛЕЙ ПАЦИЕНТА, ЗНАЧИМО ВЛИЯЮЩИХ НА ВРЕМЯ ВЫЖИВАНИЯ.......................................................42

2.1. Постановка задачи определения значимых показателей пациента...........42

2.2. Методы корреляционного анализа................................................................43

2.2.1. Корреляция между двумя дихотомическими переменными...............44

2.2.2. Корреляция между дихотомической и порядковой переменными.....45

2.2.3. Корреляция между дихотомической и интервальной переменными .46

2.2.4. Корреляция между порядковой и интервальной переменными.........47

2.2.5. Корреляция между двумя порядковыми переменными.......................50

2.2.6. Корреляция между двумя интервальными переменными...................50

2.2.7. Анализ корреляционных методов..........................................................50

2.3. Методы экспертного оценивания..................................................................52

2.3.1. Методы коллективной работы................................................................54

2.3.2. Методы получения индивидуального мнения......................................59

2.3.3. Анализ методов экспертного оценивания.............................................62

2.4. Алгоритм отбора значимых показателей пациента.....................................62

Выводы .............................................................................................................66

ГЛАВА 3. РАЗРАБОТКА АРХИТЕКТУРЫ НЕЧЕТКОЙ НЕЙРОННОЙ СЕТИ И АЛГОРИТМА ЕЕ ОБУЧЕНИЯ............................................................67

3.1. Разработка модели представления знаний и схемы нечеткого логического вывода .............................................................................................................68

3.1.1. Требования к модели представления знаний и схеме нечеткого логического вывода...........................................................................................68

3.1.2. Структура модели....................................................................................69

3.1.3. Алгоритм нечеткого логического вывода.............................................70

3.1.4. Выбор вида функций принадлежности.................................................71

3.2. Разработка структуры нечеткой нейронной сети........................................74

3.2.1. Определение параметров и слоев нечеткой нейронной сети..............74

3.2.2. Пример архитектуры нечеткой нейронной сети и схема ее работы...76

3.3. Разработка алгоритма обучения нечеткой нейронной сети.......................78

3.3.1. Анализ существующих подходов к обучению нечеткой нейронной сети ................................................................................................................79

3.3.2. Требования к алгоритму обучения.........................................................82

3.3.3. Разработка вида хромосомы и функции приспособленности.............83

3.3.4. Разработка модифицированных генетических операторов.................85

3.3.5. Общая схема работы генетического алгоритма обучения нечеткой нейронной сети...................................................................................................90

Выводы .............................................................................................................90

ГЛАВА 4. ОПИСАНИЕ ПРОГРАММНОГО КОМПЛЕКСА

«ВЫЖИВАЕМОСТЬ» И ПРИМЕР ЕГО ИСПОЛЬЗОВАНИЯ......................92

4.1. Описание разработанного программного комплекса..................................92

4.1.1. Модуль отбора значимых показателей..................................................93

4.1.2. Модуль построения и обучения нечеткой нейросетевой модели

выживаемости.....................................................................................................94

4.1.3. Модуль расчета выживаемости пациента на основании

индивидуальных значений показателей здоровья..........................................96

4.2. Разработка модели прогнозирования выживаемости онкопациентов с диагнозом "Рак почки"..........................................................................................97

4.2.1. Постановка задачи...................................................................................97

4.2.2. Исходная база данных электронных историй болезни........................98

4.2.3. Описание разработанной модели.........................................................101

4.2.4. Проверка адекватности полученной модели......................................103

Выводы ...........................................................................................................104

ЗАКЛЮЧЕНИЕ......................................................................................................105

СПИСОК ЛИТЕРАТУРЫ....................................................................................106

ПРИЛОЖЕНИЕ!..................................................................................................117

ВВЕДЕНИЕ

Одним из наиболее важных факторов при выборе метода лечения пациентов со смертельными заболеваниями имеет определение выживаемости этих пациентов в течение определенных временных интервалов. Под выживаемостью в течение времени t понимают вероятность того, что пациент будет жив после момента времени t: S(t) = Р(Т > t). Прогнозы выживаемости для различных методов лечения позволяют врачам определять наилучший метод лечения пациента.

Существующие математические методы прогнозирования выживаемости можно разделить на две группы по составу используемой информации -методы прогнозирования на основании общегрупповой выживаемости и методы прогнозирования на основе индивидуальных показателей здоровья пациента.

Методы первой группы базируются на статистических методах и позволяют получать «общегрупповой» прогноз, который не позволяет учесть индивидуальные особенности здоровья пациентов. Поэтому в последние годы получили распространение методы второй группы, базирующиеся на использовании регрессионных и нейросетевых моделей, методах нечеткой логики и деревьев решений. Проведенный анализ показывает, что целесообразным подходом является использование нечетких нейронных сетей в силу следующих причин:

1. нечеткости, свойственной медицинским данным;

2. способности к автоматическому обучению и обобщению статистических данных;

3. возможности вероятностной оценки получаемых заключений.

Существующие на сегодняшний день нечеткие нейросетевые модели

имеют существенные ограничения, такие как невозможность работы с

разнотипными данными, отсутствие весовых коэффициентов для ранжирования значимости показателей здоровья пациентов и т.д.

Поэтому актуальной задачей является разработка нечеткого нейросетевого метода прогнозирования выживаемости пациентов со смертельными заболеваниями на основе индивидуальных показателей здоровья и предполагаемого метода лечения

Объект исследования: методы анализа и прогнозирования выживаемости пациентов со смертельными заболеваниями.

Предмет исследования: модели и методы прогнозирования выживаемости пациентов на основе индивидуальных значений показателей здоровья.

Цель работы: разработка нечеткого нейросетевого метода прогнозирования выживаемости пациентов на основании индивидуальных значений показателей состояния здоровья, позволяющего выбирать наилучший с точки зрения выживаемости метод лечения.

Для достижения поставленной цели потребовалось решить следующие задачи:

1. проанализировать структуру и состав медицинских данных, а также существующие методы прогнозирования выживаемости пациентов на их основе;

2. разработать алгоритм отбора показателей, значимых для прогнозирования выживаемости пациентов;

3. разработать модель представления знаний для формализации закономерностей в наборе медицинских данных и алгоритм нечеткого логического вывода на модели, а также соответствующую нечеткую нейронную сеть, реализующую прогнозирование выживаемости пациентов на основе индивидуальных значений показателей здоровья и определенного метода лечения;

4. разработать алгоритм обучения нечеткой нейронной сети с использованием информации базы данных электронных историй болезни;

5. разработать программный комплекс, позволяющий строить модели выживаемости пациентов и прогнозировать выживаемость пациента на заданных временных интервалах.

Методы исследования. Для решения поставленной задачи в работе использовались методы корреляционного анализа, экспертных оценок, прикладной статистики, нечеткой логики, теории нейронных сетей и генетических алгоритмов.

Достоверность полученных результатов обеспечивается математически строгим выполнением расчетов и проведением сравнительных испытаний полученных моделей с известными моделями выживаемости.

Научная новизна работы заключается в следующем:

1. разработан корреляционно-экспертный алгоритм, решающий задачу отбора значимых показателей здоровья пациента и определения тем самым входных параметров нечеткой нейронной сети;

2. разработана модель представления знаний для прогнозирования выживаемости, допускающая работу с различными типами данных;

3. разработана схема нечеткого логического вывода на модели, позволяющая получать решение при частично не определенных входных данных;

4. разработана архитектура нечеткой нейронной сети, соответствующая модели представления знаний и схеме вывода;

5. разработан модифицированный генетический алгоритм обучения нечеткой нейросети с небинарным определением хромосомы и генетическими операторами, не допускающими нарушения логического порядка следования значений нечетких входов сети.

Теоретическая значимость работы заключается в разработке:

1. корреляционно-экспертного алгоритма отбора значимых при прогнозировании выживаемости показателей пациента;

2. новой нечеткой модели представления знаний и схемы логического вывода на ней, а также соответствующей архитектуры нечеткой нейронной сети;

3. модифицированного генетического алгоритма обучения нечеткой нейросети с небинарным определением хромосомы и генетическими операторами, не допускающими нарушения логического порядка следования значений нечетких входов сети.

Практическая ценность диссертационной работы состоит в разработке программного комплекса, позволяющего проводить отбор значимых для прогнозирования выживаемости показателей здоровья пациента, строить нечеткую нейросетевую модель выживаемости на основе статистических данных и проводить расчет выживаемости для пациентов.

По проблеме диссертационной работы опубликовано 11 работ, в том числе 2 статьи в журналах из списка, рекомендованного ВАК РФ, 1 статья и 8 тезисов докладов.

С целью апробации основные результаты диссертационной работы докладывались и обсуждались на следующих конференциях:

1. XV Международная молодежная научная конференция «Туполевские чтения» (Казань, 2007);

2. XVII Международная молодежная научная конференция «Туполевские чтения» (Казань, 2009);

3. Международная аэрокосмическая школа (Крым, 2009);

4. Всероссийская научная конференция студентов, аспирантов и молодых ученых «Наука. Технологии. Инновации» (Новосибирск, 2009);

5. XVIII Международная молодежная научная конференция «Туполевские чтения» (Казань, 2010);

6. IV международный научный конгресс «Нейробиотелеком-2010» (Санкт-Петербург, 2010);

7. Двенадцатая международная научно-техническая конференция «Измерение. Контроль. Информатизация» (Барнаул, 2010);

8. XIX Международная молодежная научная конференция «Туполевские чтения» (Казань, 2011),

9. Всероссийская научно-техническая конференция «Проблемы и перспективы развития информационных технологий» (Казань, 2012).

Реализация результатов работы. Результаты исследования внедрены в работу отделения урологии Республиканского клинического онкологического диспансера Министерства Здравоохранения Республики Татарстан в виде системы прогнозирования выживаемости пациентов с диагнозом «Рак почки».

Личный вклад автора. Цель диссертационной работы была сформулирована научным руководителем профессором Емалетдиновой Л.Ю. Анализ особенностей предметной области, постановка решаемых задач, разработка математических моделей и алгоритмов, их программная реализация в виде программного комплекса, анализ полученных результатов и выводы из них выполнены автором самостоятельно.

На защиту выносятся следующие результаты:

1. корреляционно-экспертный алгоритм отбора значимых для прогнозирования выживаемости показателей здоровья пациента;

2. нечеткая модель представления знаний и схема вывода на модели, а также соответствующая архитектура нечеткой нейронной сети;

3. модифицированный генетический алгоритм обучения нечеткой нейросети с небинарным определением хромосомы и генетическими операторами, не допускающими нарушения логического порядка следования значений нечетких входов сети;

4. программный комплекс отбора значимых при прогнозировании показателей пациента, построения нейронечеткой модели выживаемости и расчета выживаемости пациентов на основе индивидуальных значений показателей здоровья.

Структура и объём диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы и приложения.

В первой главе проводится анализ существующих методов прогнозирования выживаемости и особенностей медицинских данных о пациентах. Доказывается, что для решения задачи прогнозирования выживаемости пациентов на основе индивидуальных значений показателей здоровья целесообразно использовать аппарат нечетких нейронных сетей. На основе приведенного анализа существующих архитектур нечетких нейронных сетей и особенностей медицинских данных, а также поставленной задачи, формулируются задачи, требующие решения для достижения цели диссертационной работы.

Во второй главе рассматривается постановка задачи отбора значимых для прогнозирования выживаемости пациентов показателей, анализируются возможные методы ее решения, и доказывается необходимость построения корреляционно-экспертного алгоритма отбора. Приводятся идея алгоритма и разработанный корреляционно-экспертный алгоритм отбора.

В третьей главе сформулированы необходимые требования к модели представления знаний и разработана модель, допускающая работу со входами различных типов, сформулированы требования к схеме нечеткого логического вывода и разработана схема, позволяющая получать решение при частично не определенных входных данных. Разработана архитектура нечеткой нейронной сети, соответствующая разработанной модели и схеме вывода. Проведен анализ возможных видов функций принадлежности значений нечетких входов и для решения задачи выбраны треугольные функции принадлежности. Проведен анализ возможных подходов к обучению нечеткой нейронной сети и разработан

модифицированный генетический алгоритм с мутацией, не допускающий нарушения логического порядка значений нечетких входов в ходе работы операторов.

В четвёртой главе приводится описание разработанного программного обеспечения, реализующего разработанные модели и алгоритмы, его структура и результаты его использования для построения модели выживаемости больных с диагнозом «Рак почки» на основании базы данных электронных историй болезни Республиканского клинического онкологического диспансера. Проведен анализ адекватности полученной модели выживаемости путем сопоставления со статистически рассчитанными прогнозами выживаемости.

В заключении сформулированы научные результаты, полученные в ходе выполнения диссертационной работы.

Диссертация выполнена на кафедре прикладной математики и информатики (ПМИ) Казанского национального исследовательского технического университета им. А.Н. Туполева - КАИ.

ГЛАВА 1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧИ

1.1. Понятие «выживаемости»

Анализом выживаемости называется особая область знания, нацеленная на изучение временных интервалов между началом некоторого процесса и его окончанием. Методы анализа выживаемости, первоначально разрабатываемые для медицинского и биологического использования, получили также широкое распространение и в других областях человеческой деятельности - социо�