автореферат диссертации по приборостроению, метрологии и информационно-измерительным приборам и системам, 05.11.17, диссертация на тему:Компьютерная диагностика хронических гастритов на основе алгоритмов системы классификации
Автореферат диссертации по теме "Компьютерная диагностика хронических гастритов на основе алгоритмов системы классификации"
На правах рукописи
Айисси Гиасинт Анисет
КОМПЬЮТЕРНАЯ ДИАГНОСТИКА ХРОНИЧЕСКИХ ГАСТРИТОВ НА ОСНОВЕ АЛГОРИТМОВ СИСТЕМЫ КЛАССИФИКАЦИИ
Специальность: 05.11.17 - Приборы, системы и изделия
медицинского назначения
Автореферат диссертации на соискание ученой степени кандидата технических наук
003488555
Санкт-Петербург - 2009
003488555
Работа выполнена в Тверском государственном техническом университете.
Научный руководитель -
кандидат технических наук, профессор Матвеев Юрий Николаевич.
Официальные оппоненты:
доктор технических наук, профессор Дмитриев Геннадий Андреевич; доктор биологических наук, профессор Суворов Николай Борисович.
Ведущая организация - Федеральное государственное унитарное предприятие «Научно-исследовательский институт информационных технологий» (ФГУПНИИИТ)
Защита диссертации состоится " 2009 г. в ¡О часов
на заседании совета по защите докторских и кандидатских диссертаций Д 212.238.09 Санкт-Петербургского государственного электротехнического университета "ЛЭТИ" имени В. И. Ульянова (Ленина) по адресу: 197376, Санкт-Петербург, ул. Проф. Попова, 5.
С диссертацией можно ознакомиться в библиотеке университета. Автореферат разослан " 2009 г.
Учёный секретарь совета по защите докторских и кандидатских диссертаций
К.Н. Болсунов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В современных социально-экономических условиях проблема заболеваемости желудка была и остается одной из ведущих в общей структуре заболеваемости желудочно-кишечного тракта. Данные мировой статистики свидетельствуют о широкой распространенности хронического гастрита и язвенной болезни среди взрослого населения всех стран. Согласно отчету Министерства здравоохранения и социального развития РФ в последние годы контингент больных с впервые выявленной язвенной болезнью возрос с 18 до 26%. Результаты диспансерного наблюдения за больными с соответствующей патологией показывают, что заболеваемость в среднем по стране составляет около 10%о и не имеет тенденции к уменьшению. Летальность по причине язвенной болезни за последние годы увеличилась в 1,6 раза.
Сложность диагностирования заболеваний желудочно-кишечного тракта (ЖКТ), особенно на ранних стадиях развития болезни, настоятельно требует разработки новых подходов в разрешении этой проблемы. Суть этих новых подходов заключается в разработке новых аппаратных диагностических средств, позволяющих получать более информативные данные, характеризующие стадии заболеваний, а так же алгоритмов и программных средств математической обработки этих данных с целью принятия оптимального решения в выработке достоверного диагноза заболевания.
Несмотря на большое количество работ по разработке новых интегрированных медицинских информационных систем, дальнейшее развитие и совершенствование методов диагностики различных заболеваний на разных стадиях их развития продолжает оставаться особенно актуальным и требует своего дальнейшего развития.
Целью дайной работы является повышение эффективности автоматизированной диагностики применительно к заболеваниям ЖКТ на ранних стадиях их развития, путём разработки новых методов классификации, основанных на современных компьютерных технологиях обработки экспертной информации.
Задачи исследования. Для достижения поставленной цели необходимо решить следующие задачи:
- Анализ особенностей диагностики заболеваний желудочно-кишечного тракта (ЖКТ).
- Исследование возможностей применения методов кластерного анализа для решения задач классификации заболеваний ЖКТ.
- Разработка математической модели заболеваний ЖКТ и автоматизированных методов обработки их характеристик, позволяющих осуществлять распознавание различных заболеваний и стадий их развития.
- Разработка алгоритма классификации многомерных объектов на заданное число классов.
—
- Разработка программного обеспечения для автоматизированной диагностики заболеваний ЖКТ и оценка эффективности предложенных решений.
Предметом исследования является автоматизированная обработка экспертных оценок заболеваний ЖКТ на различных стадиях их развития.
Методы исследований. В основу исследований положены методы системного анализа, распознавания образов, математической статистики и теории вероятностей, теории принятия решений и кластерного анализа.
Научные положения, выносимые на защиту
1. Алгоритм построения начальных эталонов для каждого класса базируется на определении наиболее удалённых друг то друга признаков.
2. Итерационный алгоритм классификации объектов, оставшихся в исходном множестве после определения эталона, осуществляет коррекцию начального эталона по минимуму внутригрупповой суммы квадратов отклонений.
3. Разработанная математическая модель и алгоритм классификации многомерных объектов позволяют эффективно решать задачу диагностики хронических гастритов на ранних стадиях их развития.
Научная новизна.
1. Разработана новая методика построения формальной математической модели заболеваний ЖКТ на базе показателей гистологического состояния слизистой оболочки желудка, экспертных оценок, позволяющая осуществлять распознавание различных видов гастритов и стадий их развития.
2. Предложен новый подход к решению задачи определения границ кластера, путём определения наиболее удаленных друг от друга объектов.
3. Предложен новый подход двухэтапной классификации многомерных объектов, заключающийся в следующем: на первом этапе формируются начальные эталоны для каждого класса, с помощью определения наиболее удаленных друг от друга объектов, на втором этапе происходит классификация оставшихся элементов исходного множества по принципу "сравнение с эталоном ". При этом после отнесения объекта к какому-либо классу изменяется и эталон данного класса.
Практическая значимость заключается в том, что:
1. Разработанная методика построения формальной математической модели диагностики заболеваний ЖКТ позволила предложить алгоритмы классификации заболеваний ЖКТ на ранних стадиях.
2. Результаты работы могут быть использованы в медицинских клиниках и стационарах, а также преподавателями, аспирантами и студентами медицинских учебных заведений.
3. Результаты экспериментальных исследований, подтверждающие
достоверность предложенных методики алгоритма.
Внедрение результатов
Разработанное в диссертационной работе инструментальное средство используется в составе АРМ - ЖКТ на кафедре факультетской терапии
Тверской государственной медицинской академии.
Апробация работы Научные и практические результаты диссертационной работы докладывались и обсуждались в 2006-2008 годах на научно-техническом семинаре преподавателей и сотрудников Тверского Государственного Технического Университета (5 сообщений), на конференциях "Молодые ученые Верхневолжью", на научно-технических конференциях "Математические методы и информационные технологии в экономике, социологии и образовании". Пенза, 2007,2008 гг.
Публикации. Основное содержание диссертационной работы изложено в 6 публикациях, в том числе и в изданиях, утвержденных ВАК РФ для публикации. Получено свидетельство о регистрации программного средства.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы, одно приложение. Основная часть работы вложена на 159 страницах машинописного текста, содержит 30 рисунков и 4 таблицы.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертации, дается характеристика работы, приводится краткое содержание работы по главам.
В первой главе диссертации рассмотрены общие положения и особенности заболеваний желудочно-кишечного тракта конкретно гастритов. Кратко изложены основные различия гастритов и их проявления.
Рассматриваются методы диагностики гастритов. Приведены классификации гастритов. Особое внимание уделено методике разработанной кафедрой факультетской терапии Тверской Государственной Медицинской Академии (ТГМА), позволяющей классифицировать стадии развития заболеваний ЖКТ по результатам гистологического состояния слизистой оболочки желудка.
По этой методике, для классификации был выделен ряд качественных показателей (признаков) морфологического состояния слизистой оболочки желудка, значения которых выставлялись экспертами по четырехбальной шкале 0vlv2vЗ. Методика классификации, предложенная кафедрой, заключается в вычислении индекса состояния слизистой оболочки желудка (ИССОЖ), который находится как сумма значений всех индексов:
ИССОЖ=ИСПЭ+ИСЖЯ+ИАЖЖ+ИОВП+ИХВП+П-ИМ+С-ИМ+В-ИМ Данная методика позволила исследователям выделить три стадии развития гастритов:
• здоровое состояние (ИССОЖ=1,00±0.3 6 балла)
• период ремиссии (ИССОЖ=31.5010.56 балла)
• период обострения (ИССОЖ-45.46±0.80 балла)
ИССОЖ — индекс состояния слизистой оболочки желудка;
ИСПЭ - индекс состояния покровного эпителия;
ИСЖЯ - индекс состояния желудочных ямок;
ИАЖЖ - индекс атрофии желудочных желез;
ИСЖЭ - индекс состояния железистого эпителия;
ИОВП - индекс острого воспалительного процесса;
ИХВП - индекс хронического воспалительного процесса;
П-ЙМ - периваскулярный индекс микроциркуляции;
С-ИМ - сосудистый индекс микроциркуляции;
В-ИМ - вяутрисосудистый индекс микроциркуляции
Во второй главе диссертации проводится функционально-структурный анализ предметной области исследований. Объектом исследования в данной работе является классификация и распознавание образов.
Сегодня большие системы распознавания - это не просто автоматические устройства, предназначенные для распознавания образов. Система распознавания включает в себя:
• технические средства, предназначенные для выявления признаков объектов и измерения описывающих их параметров;
• совокупность алгоритмов распознавания, преобразующих входную информацию об объектах в определенные выводы;
• вычислительную технику, привлекаемую для реализации этих алгоритмов;
• коллективы специалистов, осуществляющие первичную формализацию исходной априорной информации, а также как полученных апостериорных данных, так и формальных решений задачи распознавания на всех уровнях системы.
Проектирование систем распознавания требует решения целого ряда задач, начиная от группировки объектов и заканчивая оценкой эффективности работы системы. Иными словами, это достаточно сложный итеративный процесс, реализация которого сопряжена с построением постепенно уточняющейся математической или физико-математической модели проектируемой системы.
В общем смысле, распознавание представляет собой задачу преобразования входной информации, в качестве которой уместно рассматривать некоторые параметры, признаки распознаваемых образов, в выходную, представляющую собой заключение о том, к какому классу относится распознаваемый образ (объект).
Исторически сложилось так, что теория распознавания образов развивалась по двум направлениям: детерминистскому и статистическому, хотя чаще всего строго различить их не удается.
Каждый из существующих методов классификации не является универсальным, то есть может быть применим только для решения определенного класса задач. Кроме того, каждому методу присущи свои достоинства и недостатки. Стремление создать универсальный метод и
преодолеть недостатки ранее разработанных - все это объясняет существование большого количества методов классификации.
Процесс классификации можно разделить на два этапа:
1. Этап разработки классификатора
2. Этап определения состояния объекта с помощью данного классификатора, т.е. этап функционирования
Этап разработки классификатора схематично представлен в виде двух блоков (рис.1).
Рисунок 1. Этап разработки классификатора На вход блока обработки исходной информации поступает множество
признаков объекта ? = {Р\<Рг.....Рт),\р\~т, которыми могут быть, например
показания датчиков, тренды, результаты анализов и т.д. На выходе имеем
вектор-признак Х={х\>хг1-х*), 1-^1= Л, причем X<=: Р,п < т.
Число признаков объекта может быть довольно велико, следовательно, их обработка будет требовать больших затрат машинного времени, что непременно скажется на эффективности классификатора. Поэтому программное средство, реализующее функции данного блока, должно также корректно понижать размерность пространства измерений от нескольких тысяч, до сотен или даже десятков признаков. Следовательно, на данный блок возлагаются функции, во-первых, определения информационной значимости признаков, во-вторых, выявления взаимозависимости признаков, и, в-третьих, отбрасывания незначимых признаков. Сделать это корректно не так просто в связи с тем, что все признаки взаимосвязаны и ценность одних может меняться весьма значительно при отбрасывании других, даже несущественных признаков.
Таким образом, основными задачами блока обработки исходной информации являются:
1. определение информационной значимости признаков;
2. выявление взаимозависимости признаков;
3. корректное понижение размерности признакового пространства.
На вход блока построения классификатора поступает так называемый
вектор-признак объекта который содержит только те
признаки, без которых организация процесса распознавания с требуемой точностью невозможна. На выходе данного блока должно быть решение об отнесении распознаваемого объекта к определенному классу, или же, иными
словами, класс распознаваемого объекта ^¡Л =
Таким образом, основная задача блока построения классификатора состоит в разработке структуры, позволяющей определять состояние объекта
по его признакам X = даНная структура может представлять собой
совокупность возможных состояний объекта в виде классов, разделяющих функций, критериев и т.д. в зависимости от наличия априорной информации, типов используемых признаков и методики разработки. Важно отметить, что все признаки, подаваемые на вход данного блока, должны быть формализованы.
Рассматриваются основные методы и критерии кластеризации, их достоинства и недостатки: - Общая внутриклассовая дисперсия
т п
£ = 1X4
1=1 у-1 , (1)
2
где л - дисперсияу'-ого признака в /-том классе,
и-число признаков;
т - число классов.
При этом дисперсия каждого признака может быть определена так:
*
2>у 2л
к
__
(2)
где - признак объекта; к - число объектов в классе.
- Внутригрупповая сумма квадратов отклонений (ВСКО)
"y=iL/=i z w где Хр -j-тый признак г'-того объекта; п - число признаков объекта; z - количество объектов в классе.
- Квадраты внутриклассовых и межклассовых расстояний
7Г _ Wl -
(3)
к
5Х
/-. , (4)
где Рщ - среднее внутриклассовое расстояние; п1 - число объектов I класса; к - число классов;
Л г.
ч - расстояние между объектами г и/ класса 15 (.
'<* . (5)
где ^ои! - среднее межклассовое расстояние;
- число объектов I и 9 классов соответственно; - расстояние между объектами i и j классов и
В третьей главе рассматривается вопрос о разработке модели алгоритма, идея которого, заключается в следующем: на первом этапе формируются начальные эталолны для каждого класса, с помощью определения наиболее удаленных дгуг от друга объектов.
На втором этапе происходит класссификация оставшихся элементов исходного множества по принципу, известному как "сравнение с эталоном". При этом после отнесения объекта к какому-либо классу изменяется и эталон данного класса. Результатом работы алгоритма является разбиение множества объектов на т классов с эталоном для каждого класса.
Под эталоном следует понимать реальный или абстрактный объект, значения признаков которого однозначно идентифицируют принадлежность
Рисунок 2 Обобщенная схема алгоритма классификации объекта определенному классу. Обобщенная схема алгоритма классификации представлена на рис.2. Блок-схема алгоритма классификации объектов на заданное число классов представлена на рис.3.
Рисунок 3. Алгоритм классификации объектов
Разработано программное средство реализующее алгоритм в виде программы языке С++ Builder 5.
В четвертой главе работы исследована работоспособность разработанного алгоритма для решения задачи классификации. Работоспособность разработанного алгоритма проверяется на примере классификации стадий развития заболеваний ЖКТ (гастриты).
Поскольку полная классификация гастритов достаточно сложна, то целесообразно остановиться, например, на классификации стадий развития гастритов по морфологическому признаку (рис. 4).
Рисунок 4. Классификация гастритов по морфологическому признаку.
Как уже было отмечено, классификация ТГМА обладает малой степенью детализации, поскольку не позволяет с высокой точностью говорить о качественном составе признаков, характерных для каждого класса. Поэтому созданное в результате работы над диссертацией программное средство было использовано для классификации заболеваний ЖКТ. Исходными данными для исследований служат:
• Описания объектов на языке признаков ^1) = {Рп>Рп>->Рт}
• Заданное количество классов (т)
Описания объектов на языке признаков приведены в таблице 1.
Объектом классификации в данном случае является желудочно-кишечный тракт человека, а признаками - данные обследования, выраженные числовыми значениями.
Для получения практических результатов была исследована выборка из 20 пациентов. Алгоритму необходимо было на основании данных обследования разбить исходную выборку на т классов таким образом, чтобы пациенты, оказавшиеся в одном классе имели одинаковую или схожую стадию заболевания.
Таблица 1. Исходные данные для классификации.
№ призн. Индекс Исходная выборка объектов
во 81 Э2 83 34 55 86 87 Э8 Э9 ЭЮ БП 812 813 Б14 Э15 Э16 817 818 Э19
Р1 ИСПЭ 0 0 6 б 12 0 12 5 10 4 8 6 4 6 8 6 7 11 6 5
Р2 ИСЖЯ 0 0 2 3 2 0 2 0 2 2 2 2 0 2 3 0 2 3 0 2
РЗ ИАЖЖ 0 0 1 2 1 0 2 2 2 2 1 0 1 2 2 1 1 2 1 0
Р4 ИСЖЭ 1 0 1 3 5 0 4 1 3 2 1 3 2 1 2 3 3 4 1 2
Р5 ИХВП 0 0 1 0 2 0 2 2 3 0 3 0 1 0 2 0 1 2 1 0
Рб п-им 0 0 2 4 3 1 7 3 6 3 4 5 3 2 4 2 4 7 2 2
Р7 с-им 0 0 1 7 и 0 11 7 9 2 4 6 4 9 4 8 12 4 3
Р8 В-ИМ 0 0 2 6 1 0 8 4 7 1 7 6 3 3 7 4 7 7 4 3
В данной работе используется два критерия отнесения объекта к классу. Для того чтобы оценить, как влияет выбор критерия отнесения объекта к классу на результаты классификации, была произведена
классификация на т классов (т = 2,10 ).Зависимость показателей качества классификации от выбора критерия отнесения объекта к классу показана на рисунке 5.
Влияние критерия отнесения объекта к классу на суммарную БСКО классов
23456789 10
Количество классов
О по минимапьой ВСКО шпо минимальному расстоянию
Рисунок 5. Влияние критерия отнесения объекта к классу на суммарную ВСКО классов.
Анализ зависимостей ВСКО классов показывает, что безошибочность СКО классов для каждого из критериев отнесения объекта к классу уменьшается с увеличением числа классов. Эта зависимость легко объясняется тем, что при увеличении количества классов их размеры становятся меньше, а схожесть объектов внутри класса больше.
В результате анализа графиков, можно сделать вывод, наилучшая безошибочность достигается после обучения по критерию суммарной ВСКО.
Следовательно, предложенный в данной работе алгоритм классификации объектов на заданное число классов более эффективен при использовании на втором этапе в качестве критерия отнесения объекта классу критерий суммарной ВСКО.
Эффективность разработанного алгоритма оценивается путем сравнения полученных результатов с результатами работы классического алгоритма Ворда , при одинаковых исходных данных.
Для оценки эффективности разработанного алгоритма была создана программная модель классического алгоритма классификации объектов на заданное число классов.
Эффективность разработанного алгоритма проверяется путем сравнения результатов классификации, полученных каждым алгоритмом. В качестве критерия отнесения объекта к классу для разработанного алгоритма выбран критерий суммарной ВСКО.
Процентное соотношение совпадений составов классов представлено на рис. 6.
Рисунок 6. Процентное соотношение совпадений составов классов
Как видно из рисунка 6, результаты работы двух алгоритмов совпадают не менее, чем на 56% для любого количества классов.
Гистограммы и графики оценки эффективности разработанного алгоритма по суммарной ВСКО представлены на рис. 7.
Эффективность разработанного алгоритма по суммарной ВСКО классов
4 5 Количество классов
О классическим алгоритм
I разработанный алгоритм
45 40 35 30 25 20 15 10
Эффективность разработанного алгоритма по суммарной ВСКО классов
А
\
\
„5 6 7
Количество классов
10
классический алгоритм
■ разработанный алгоритм
Рисунок 7. Безошибочность СКО классов Анализ рисунка 7 показывает, что суммарная ВСКО классов для каждого алгоритма уменьшается с увеличением числа классов. Эта зависимость легко объясняется тем, что при увеличении количества классов их размеры становятся меньше, а сходство объектов внутри класса больше. При этом сходство объектов в классах, полученных с помощью разработанного алгоритма, в большинстве случаев выше, чем в классах, полученных классическим алгоритмом. Следовательно, разработанный
алгоритм по критерию суммарной ВСКО образованных классов эффективнее, чем классический алгоритм Ворда.
Практическая эффективность и пригодность разработанного алгоритма для классификации стадий развития заболеваний ЖКТ проверялась кафедрой Факультетской терапии ТГМА.
С целью оценки практической эффективности разработанного
алгоритма, экспертами для каждого объекта = исходной выборки была заранее определена априорная принадлежность к одному из классов.
Результат разбиения исходного множества на три класса (т~-3) представлен на рис. 8.
Класс №1
81 80 85
0 0 0
0 0 0
0 0 0
0 1 0
0 0 0
0 0 1
0 0 0
0 0 0
иссож-о.оо иссож=1.оо иссож=о.б7
.. 9 ^ 1 7
■■'«и/ 12' 12' 11 ЦВ 2 2 3 1 1 2 2 ,544
ВЪ" % 1 [
Ш п: и 12:
ИССОЖ=ЗЭ.ОО балла ИССОЖ=48.00 балла ИСС0Ж=41.83 балла
Класс№3
512 59 513 515 318 819 83 ' 87 - ш 810
6 4 4 б 6 6 5 6. :-5. ■ 6 :: '81
2 0 2 2 0 0 2 •3 0. : Ш 2
1 1 2 2 1 1 0 "4 0 1
1 2 2 1 3 1 2 ; 3' Ш :3- 1
1 1 0 0 0 1 0 0 2 7 о 3
2 3 3 2 2 2 2 4 Ь? ' ) 5 "4>
1 4 2 2 4 4 3 т ■7-и' "4"
2 3 1 3 4 4 3 в иТб; : .7 ■ :
ИССОЖ= 16.00 балла ИССОЖ=30.00 балла ИССОЖ=21.27 балла
[ I Здоровое состояние [^Поверхностный гастрит ^¡Атрофический гастрит Ш Гипертрофический гастрит
Рисунок 8. Составы классов при т=3
При т=3 можно заметить, что полностью выделен класс здоровых пациентов (класс №1), в класс №2 попали больные с гипертрофическим и атрофическим гастритом, а в класс №3 - с атрофическим и поверхностным. Это позволяет сделать вывод, что атрофический гастрит у пациентов, попавших в класс №2, выражен ярче, чем у пациентов, попавших в класс №3. Выражаясь языком кластерного анализа, это значит, что области классов №2 и №3 частично перекрываются. Следовательно, необходимо ввести по крайней мере еще один класс, чтобы уменьшить эту область неопределенности, или увеличить количество объектов исходной выборки. Что касается ИССОЖ, то его значения близки тем, которые получены исследователями кафедры Факультетской терапии ТГМА (табл.2).
Таблица 2. Сравнение результатов по интегральному показателю
Методика ТГМА Разработанный алгоритм
Здоровое состояние (ИССОЖ=1.00±0.36 балла) Период ремиссии (ИССОЖ=31,50±0.56 балла) Период обострения (ИССОЖ=45.4б±0.80 балла) Класс 1 (ИССОЖ=0,67 балла) Класс 2 (ИССОЖ=21,27 балла) Класс 3 (ИССОЖ=41,83 балла)
Произведен анализ предложенной методики классификации по признакам и методики кафедры Факультетской терапии ТГМА. Выявлено,
что методика классификации по признакам не противоречит методике ТГМА, и является более конкретизированной и точной.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ.
1. Обоснована актуальность решения задачи классификации заболеваний ЖКТ с использованием индексов состояния слизистой оболочки желудка. Проанализированы существующие алгоритмы решения задачи классификации многомерных объектов по их признакам.
2. Построена математическая модель заболевания ЖКТ послужившая основой для разработки классификатора многомерных объектов по признакам на заданное число классов.
3. В интегрированной среде разработки приложений Borland С++ Builder создано программное обеспечение, позволяющее осуществлять разбиение объектов на заданное число классов и реализующее двухэтапный алгоритм классификации.
4. Проведены исследования влияния критериев отнесения объекта к классу на результаты классификации, позволившие оценить эффективность разработанного алгоритма, путем сравнения полученных результатов с результатами работы классического алгоритма по нескольким критериям.
5. Проведена оценка практической значимости разработанного алгоритма для определения стадий развития заболеваний желудочно-кишечного тракта. Программное средство включено в систему поддержки принятия решений в АРМ - врача - клинициста по заболеваниям ЖКТ кафедры общефакультетской терапии Тверской Государственной Медицинской Академии и получило свидетельство № 2009611696 от федеральной службы Российской Федерации по интеллектуальной собственности, патентам и товарным знакам о регистрации программы ЭВМ (автор Айисси Г.А).
ПУБЛИКАЦИИ ПО ТЕМЕ РАБОТЫ
Журналы рекомендованные ВАК:
1. Айисси Г.А, Вероятностная модель медицинской диагностики [Текст] / Г.А. Айисси , Ю.Н. Матвеев// Международный журнал «Проблемы теории и практики управления». Международное научно-практическое приложение «Программные продукты и системы», № 2 (86), Тверь 2009,С.168-170.
2. Айисси Г.А. Классификация стадий развития заболевания желудочно-кишечного тракта // Свидетельство о государственной регистрации программы для ЭВМ № 2009611696. -М.: Роспатент, 2009.
Публикации в других изданиях:
3. Айисси Г.А. Использование алгоритмов самоорганизации в задачах синтеза систем медицинского диагностирования.[Текст] / Г.А. Айисси, Р.Н. Филиппов. //Сборник статьей международной научно-технической конференции «Математические методы информационные технологии в экономике, социологии и образовании», Пенза 2008,С. 97-100.
4. Айисси Г.А. Способы аналитической обработки данных для поддержки и принятия решений. [Текст] /Г.А. Айисси // Сборник статьей международной научно-технической конференции «Математические методы информационные технологии в экономике, социологии и образовании», Пенза 2006,С. 205-207.
5. Айисси Г.А. Применение нечеткой логики в медицине: определение болезни и состояния больного. [Текст]/ Г.А. Айисси // Сборник статьей международной научно-технической конференции «Математические методы информационные технологии в экономике, социологии и образовании», Пенза 2007,С. 210-212.
6. Айисси Г.А. Математические методы и модели в маркетинге.[Текст]/ Г.А. Айисси // Сборник статьей международной научно-технической конференции «Математические методы информационные технологии в экономике, социологии и образовании», Пенза 2006,С. 252-254.
7. Айисси Г.А. Математическое моделирование процессов, материалов и систем. [Текст]/ Г.А. Айисси // Сборник статьей международной научно-технической конференции «Математические методы информационные технологии в экономике, социологии и образовании», Пенза 2008,С. 13-15.
Подписано в печать 19.11.2009. Формат 60x84/16 Отпечатано с готового оригинал-макета в типографии ЗАО «КопиСервис». Печать ризографическая. Заказ № 1/1119. П. л. 1.0. Уч.-изд. д. 1.0. Тираж 100 экз.
ЗАО «КопиСервис» Адрес: 197376, Санкт-Петербург, ул. Проф. Попова, д. 3. тел.: (812) 327 5098
Оглавление автор диссертации — кандидата технических наук Айисси Гиасинт Анисет
ВВЕДЕНИЕ.
ГЛАВА 1. АНАЛИЗ ПРОБЛЕМНОЙ СИТУАЦИИ И ПОСТАНОВКА ЗАДАЧИ
1.1 Болезни ЖКТ: гастрит и хронический гастрит.
1.2 Причины заболевания гастритом.
1.3 Анатомия желудка.
1.4 Гистология слизистой оболочки желудка.
1.5 Диагностика гастритов.
1.5.1 Диагностика и дифференциальная диагностика острых гастритов
1.6 Морфология гастритов.
1.6.1 Острый гастрит.
1.6.2 Хронический гастрит.
1.6.3 Морфологическая классификация хронического гастрита по С.М Рыссу (1966) в модификации Г.И.Дорофеева и В.М. Успенского(1984).
1.7 Классификация хронического гастрита.
1.8 Классификация стадий развития заболеваний ЖКТ, разработанная в тверской государственной медицинской академии.
1.9 Состояние области исследований.
1.10 Постановка задачи исследования в диссертационной работе.
1.11 Выводы по главе.
ГЛАВА 2. ОБОСНОВАНИЕ КЛАСТЕРНОГО АНАЛИЗА ДЛЯ РАЗРАБОТКИ АЛГОРИТМА КЛАССИФИКАЦИИ ЗАБОЛЕВАНИЙ ЖКТ
2.1 Структура системы распознавания.
2.2 • Этапы разработки классификатора.
2.3 Основные задачи классификации.
2.4 Методы классификации.
2.4.1 Байесовская классификация.
2.4.2 Кластерный анализ.
2.5 Цели и задачи кластеризации.
2.6 Состояние области исследований.
2.7 Основные критерии кластеризации.
2.7. / Общая внутриклассовая дисперсия.
2.7.2 Внутригрупповая сумма квадратов отклонений.
2.7.3 Квадраты внутриклассовых и межклассовых расстояний.
2.8 Функции расстояния.
2.8.1 Евклидово расстояние.
2.8.2 Квадрат евклидова расстояния.
2.8.3 Манхэттенское расстояние.
2.8.4 Расстояние Чебышева.
2.9 Меры сходства.
2.10 Типы расстояний.
2.10.1 Расстояние между объектами.
2.10.2 Расстоян ие между классами.
2.10.3 Расстояние между объектом и классом.
2.11 Виды алгоритмов кластерного анализа.
2.11.1 Метод дробящихся эталонов.
2.11.2 Ktiacmepmaifim полным перебором.
2.12 Выводы по главе.
ГЛАВА 3. РАЗРАБОТКА АЛГОРИТМА КЛАССИФИКАЦИИ ОБЪЕКТОВ НА ЗАДАННОЕ ЧИСЛО КЛАССОВ НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА.
3.1 Математическая постановка задачи.
3.2 Исходные данные.
3.3 Критерии оценки результатов работы алгоритма.
3.4 Описание алгоритма.
3.4.1 Метод определения наиболее удаленных объектов.101.
3.4.2 Этап I.Определение начальных эталонов.
3.4.3 Этап II. Завершение классификации.
3.5 Выводы по главе.
ГЛАВА 4. ИССЛЕДОВАНИЕ РАЗРАБОТАННОГО АЛГОРИТМА НА
ПРИМЕРЕ КЛАССИФИКАЦИИ СТАДИЙ РАЗВИТИЯ ЗАБОЛЕВАНИЙ ЖКТ.
4.1 Классификация стадий развития заболеваний ЖКТ.
4.2 Исходные данные.
4.3 Исследование разработанного алгоритма.
4.3.1 Исследование влияния критерия отнесения объекта к классу на результаты классификации.
4.3.2 Исследование зависимости множества начальных эталонов от порядка расположения объектов исходной выборки.
4.4 Оценка эффективности разработанного алгоритма.
4.4.1 Оценка сходства полученных классов.
4.4.2 Эффективность по суммарной ВСКО.
4.4.3 Эффективность по суммарной дисперсии классов.
4.4.4 Эффективность по суммарным межклассовым расстояниям.
4.4.5 Эффективность по обобщенному критерию классификации.
4.5 Практическая эффективность разработанного алгоритма.
4.6 Выводы по главе.
Введение 2009 год, диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам, Айисси Гиасинт Анисет
Согласно данным Всемирной организации здравоохранения (ВОЗ) в настоящее время насчитывается несколько тысячи заболеваний, возникающих от нескольких десятков тысяч причин. Каждое из заболеваний характеризуется набором признаков, которые изменяются с течением времени. На начальных стадиях многие болезни проявляются одинаково (например, повышение температуры, мышечная слабость, изменение частоты сердечных сокращений и т.д.). Это означает, что врач для правильной диагностики заболевания должен обладать обширными знаниями, уметь обрабатывать большие объемы информации, своевременно принимать решения и всю ответственность брать на себя. Для человека это практически невозможно (нет ни одного врача, который бы не ошибался). Поэтому разрабатываются модели и алгоритмы в области медицинской диагностики, которые могли бы на основе информации о заболеваниях помочь врачу принять правильное решение при постановке диагноза заболевания. Однако до сих пор не созданы такие системы, которые позволяли бы это делать удовлетворительно. Сложность решения этой проблемы состоит в огромном количестве информации, которую нужно переработать за ограниченное время, определить какая информация важная, а какая не очень важная. Основная причина состоит в том, что каждый человек представляет собой уникальный организм. Все болеют по-разному, однако, можно выявить среднестатистические показатели, характеризующие то или иное заболевание.
Таким образом, разработка моделей и алгоритмов в области медицинской диагностики, которые поддерживали бы принятие решений* врачом, актуальна и своевременна. Наряду с лечением, важно также своевременно предупреждать заболевания, осуществлять диагностику на ранних стадиях заболевания.
С момента появления цифровых вычислительных машин постоянно возрастает стремление увеличить область их применения. В известной мере это связано с переходом общества в так называемую техногенную эру, где сфера применения техники и технологий стремительно растет.
Очевидно, что одним из основных направлений применения средств вычислительной техники сегодня является использование ЭВМ в системах классификации и распознавания образов, в том числе в медицинских исследованиях. Это вызвано целым рядом причин. Во-первых, необходимостью обработки и упорядочивания больших объемов разнородной информации, с которой приходится иметь дело в процессе классификации и распознавания. Ведь именно от упорядоченности информации зависит скорость ее обработки, а, следовательно, и время принятия решений, которое должно стремиться к минимуму, особенно в условиях риска. Во-вторых, необходимостью автоматизации отдельных видов человеческой деятельности. Это может быть вызвано как повышенной опасностью для человеческой жизни или невозможностью использования человеческих ресурсов, так и ускорению работы определенного звена сложной технологической системы. В-третьих, для ускорения и оценивания принятия решений в различных ситуациях.
Ответ на вопрос, зачем вообще нужна классификация - еще более очевиден. Классификация и распознавание образов (объектов, сигналов, ситуаций, явлений или процессов) - едва ли не самые распространенные задачи, которые человеку приходится решать практически ежесекундно от первого до последнего дня своего существования. Классификация необходима в автоматизированных системах, предназначенных для управления сложными технологическими процессами, для использования в криминалистике, медицине, военном деле и т.д.
Для решения этих задач человек использует огромные ресурсы своего мозга, включая одновременно около 7-8 миллиардов нейронов. Именно это дает возможность людям мгновенно узнавать друг друга, с большой скоростью читать печатные и рукописные тексты, безошибочно водить автомобили в сложном потоке уличного движения, разгадывать коды.
Для решения данных задач с помощью автоматизированных систем используется огромное множество разнообразных математических методов и алгоритмов, обладающих, подчас, высокой степенью сложности и требующих ресурсов высокопроизводительных ЭВМ.
Разнообразие областей, в которых необходима классификация и отсутствие универсальных методов решения поставленной задачи, требуют индивидуального подхода к каждой проблемной ситуации. Поэтому число методов и алгоритмов классификации постоянно растет, учитывая качество и скорость систем распознавания.
Перспективность развития методов классификации, особенно с применением достижений компьютерной техники, для медицинских целей не вызывает сомнений.
Так, в современных социально-экономических условиях проблема заболеваемости желудка была и остается одной из ведущих в общей структуре заболеваемости желудочно-кишечного тракта. Заболевания развиваются обычно в наиболее работоспособном возрасте, а их рецидивы, которые возникают в большинстве случаев 1-2 раза в год, приводят, как правило, к временной утрате трудоспособности на срок до 4-8 недель.
Данные мировой статистики свидетельствуют о широкой распространенности хронического гастрита и язвенной болезни среди взрослого населения всех стран. Согласно отчету Министерства здравоохранения и социального развития РФ в последние годы контингент больных с впервые выявленной язвенной болезнью возрос с 18 до 26%. Результаты диспансерного наблюдения за больными с соответствующей патологией показывают, что заболеваемость в среднем по стране составляет около 10%о и не имеет тенденции к уменьшению. Летальность по причине язвенной болезни за последние годы увеличилась в 1,6 раза.
Сложность диагностирования заболеваний ЖКТ, особенно на ранних стадиях развития болезни, настоятельно требует разработки новых подходов в разрешении этой проблемы. Суть этих новых подходов заключается в разработке новых аппаратных диагностических средств, позволяющих получать более информативные данные, характеризующие стадии заболеваний, а так же алгоритмов и программных средств математической обработки этих данных с целью принятия оптимального решения в выработке достоверного диагноза заболевания.
В этой связи увеличение объема информации, получаемой от диагностической аппаратуры, необходимость учета большого числа взаимосвязанных количественных факторов, экспертных оценок, показателей риска развития заболеваний, результатов клинико-лабораторных и исследований, новейших рекомендаций к классификации и дифференциальной диагностике диктуют необходимость использования методов системного анализа и обработки информации в процессе принятия врачебных решений на уровне алгоритмизации диагностической тактики и выбора методов комплексной этиопатогенетической терапии заболеваний желудка и двенадцатиперстной кишки.
Таким образом, актуальность темы настоящего диссертационного исследования полностью обоснована и определяется необходимостью более четкой работы цепочки « пациент - информации о заболевании - врач клиницист» в практике оказания медицинской помощи в обычных больницах.
Целью данной работы является повышение эффективности автоматизированной диагностики, применительно к заболеваниям ЖКТ на ранних стадиях их развития, путём разработки новых методов классификации, основанных на современных компьютерных технологиях обработки экспертной информации.
Задачи исследования. Для достижения поставленной цели необходимо решить следующие задачи:
Анализ особенностей диагностики заболеваний желудочно-кишечного тракта (ЖКТ).
- Исследование возможностей применения методов кластерного анализа для решения задач классификации заболеваний ЖКТ.
Разработка математической модели заболеваний ЖКТ и автоматизированных методов обработки их характеристик, позволяющих осуществлять распознавание различных заболеваний и стадий их развития.
- Разработка алгоритма классификации многомерных объектов на заданное число классов.
- Разработка программного обеспечения для автоматизированной диагностики заболеваний ЖКТ и оценка эффективности предложенных решений.
Предметом исследования является автоматизированная обработка экспертных оценок заболеваний ЖКТ на различных стадиях их развития.
Методы исследований. В основу исследований положены методы системного анализа, распознавания образов, математической статистики и теории вероятностей, теории принятия решений и кластерного анализа.
Научные положения, выносимые на защиту
1. Алгоритм построения начальных эталонов для каждого класса базируется на определении наиболее удалённых друг то друга признаков.
2. Итерационный алгоритм классификации объектов, оставшихся в исходном множестве после определения эталона, осуществляет коррекцию начального эталона по минимуму внутригрупповой суммы квадратов отклонений.
3. Разработанная математическая модель и алгоритм классификации многомерных объектов позволяют эффективно решать задачу диагностики хронических гастритов на ранних стадиях их развития.
Научная новизна.
1. Разработана новая методика построения формальной математической модели заболеваний ЖКТ на базе показателей гистологического состояния слизистой оболочки желудка, экспертных оценок, позволяющая осуществлять распознавание различных видов гастритов и стадий их развития.
2. Предложен новый подход к решению задачи определения границ кластера, путём определения наиболее удаленных друг от друга объектов.
3. Предложен новый подход двухэтапной классификации многомерных объектов, заключающийся в следующем: на первом этапе формируются начальные эталоны для каждого класса, с помощью определения наиболее удаленных друг от друга объектов, на втором этапе происходит классификация оставшихся элементов исходного множества по принципу "сравнение с эталоном ". При этом после отнесения объекта к какому-либо классу изменяется и эталон данного класса.
Практическая значимость заключается в том, что:
1. Разработанная методика построения формальной математической модели диагностики заболеваний ЖКТ позволила предложить алгоритмы классификации заболеваний ЖКТ на ранних стадиях.
2. Разработанное в диссертационной работе инструментальное средство используется в составе АРМ — ЖКТ на кафедре факультетской терапии Тверской государственной медицинской академии.
3. Результаты работы могут быть использованы в медицинских клиниках и стационарах, а также преподавателями, аспирантами и студентами медицинских учебных заведений.
Внедрение результатов Разработанное в диссертации инструментальное используется в составе АРМ - ЖКТ на кафедре факультеской терапии Тверской государственной медицинской академии.
Апробация работы Научные и практические результаты диссертационной работы докладывались и обсуждались в 2006-2008 годах на научно-техническом семинаре преподавателей и сотрудников Тверского Государственного Технического Университета (5 сообщений), на конференциях "Молодые ученые Верхневолжью", на научно-технических конференциях "Математические методы и информационные технологии в экономике, социологии и образовании". Пенза, 2007,2008 гг.
Публикации. Основное содержание диссертационной работы изложено в 7 публикациях, в том числе одна статья в изданиях, утвержденных ВАК РФ для публикации. Получено свидетельство о регистрации программного средства.
Основные результаты работы. Результаты, полученные в ходе выполнения диссертационной работы, позволяют сделать следующие основные выводы:
• Обоснована актуальность решения задачи классификации заболеваний ЖКТ с использованием индексов состояния слизистой оболочки желудка. Проанализированы существующие алгоритмы решения задачи классификации многомерных объектов по их признакам.
• Построена математическая модель заболевания ЖКТ послужившая основой для разработки классификатора многомерных объектов по признакам на заданное число классов.
• В интегрированной среде разработки приложений Borland С++ Builder создано программное обеспечение, позволяющее осуществлять разбиение объектов на заданное число классов и реализующее двухэтапный алгоритм классификации.
• Проведены исследования влияния критериев отнесения объекта к классу на результаты классификации, позволившие оценить эффективность разработанного алгоритма, путем сравнения полученных результатов с результатами работы классического алгоритма по нескольким критериям.
• Проведена оценка практической значимости разработанного алгоритма для определения стадий развития заболеваний желудочно-кишечного тракта. Программное средство включено в систему поддержки принятия решений в АРМ — врача - клинициста по заболеваниям ЖКТ кафедры общефакультетской терапии Тверской Государственной
Медицинской Академии и получило свидетельство № 2009611696 от федеральной службы Российской Федерации по интеллектуальной собственности, патентам и товарным знакам о регистрации программы ЭВМ (автор Айисси Г.А).
Во введении обоснована актуальность темы диссертации, дается характеристика работы, приводится краткое содержание работы по главам.
В первой главе диссертации рассмотрены общие положения и особенности заболеваний желудочно-кишечного тракта конкретно гастритов. Кратко изложены основные различия гастритов и их проявления.
Рассматриваются методы диагностики гастритов. Приведены классификации гастритов. Особое внимание уделено методике разработанной кафедрой факультетской терапии Тверской Государственной Медицинской Академии (ТГМА), позволяющей классифицировать стадии развития заболеваний ЖКТ по результатам гистологического состояния слизистой оболочки желудка.
По этой методике, для классификации был выделен ряд качественных показателей (признаков) морфологического состояния слизистой оболочки желудка, значения которых выставлялись экспертами по четырехбальной шкале 0vlv2v3. Методика классификации, предложенная кафедрой, заключается в вычислении индекса состояния слизистой оболочки желудка (ИССОЖ), который находится как сумма значений всех индексов:
ИССОЖ=ИСПЭ+ИСЖЯ+ИАЖЖ+ИОВП+ИХВП+ П-ИМ+С-ИМ+В-ИМ Данная методика позволила исследователям выделить три стадии развития гастритов:
• здоровое состояние (ИССОЖ=1.00±0.36 балла)
• период ремиссии (ИССОЖ=31.50±0.56 балла)
• период обострения (ИССОЖ=45.46±0.80 балла)
ИССОЖ — индекс состояния слизистой оболочки желудка;
ИСПЭ - индекс состояния покровного эпителия;
ИСЖЯ - индекс состояния желудочных ямок;
ИАЖЖ - индекс атрофии желудочных желез;
ИСЖЭ — индекс состояния железистого эпителия;
ИОВП - индекс острого воспалительного процесса;
ИХВП - индекс хронического воспалительного процесса;
ГТ-ИМ - периваскулярный индекс микроциркуляции;
С-ИМ - сосудистый индекс микроциркуляции;
В-ИМ - внутрисосудистый индекс микроциркуляции.
Во второй главе диссертации проводится функционально-структурный анализ предметной области исследований. Объектом исследования в данной работе является классификация и распознавание образов.
Сегодня большие системы распознавания - это не просто автоматические устройства, предназначенные для распознавания образов. Система распознавания включает в себя:
• технические средства, предназначенные для выявления признаков объектов и измерения описывающих их параметров;
• совокупность алгоритмов распознавания, преобразующих входную информацию об объектах в определенные выводы;
• вычислительную технику, привлекаемую для реализации этих алгоритмов;
• коллективы специалистов, осуществляющие первичную формализацию исходной априорной информации, а также как полученных апостериорных данных, так и формальных решений задачи распознавания на всех уровнях системы.
Проектирование систем распознавания требует решения целого ряда задач, начиная от группировки объектов и заканчивая оценкой эффективности работы системы. Иными словами, это достаточно сложный итеративный процесс, реализация которого сопряжена с построением постепенно уточняющейся математической или физико-математической модели проектируемой системы.
В общем смысле, распознавание представляет собой задачу преобразования входной информации, в качестве которой уместно рассматривать некоторые параметры, признаки распознаваемых образов, в выходную, представляющую собой заключение о том, к какому классу относится распознаваемый образ (объект).
Исторически сложилось так, что теория распознавания образов развивалась по двум направлениям: детерминистскому и статистическому, хотя чаще всего строго различить их не удается.
Каждый из существующих методов классификации не является универсальным, то есть может быть применим только для решения определенного класса задач. Кроме того, каждому методу присущи свои достоинства и недостатки. Стремление создать универсальный метод и преодолеть недостатки ранее разработанных — все это объясняет существование большого количества методов классификации.
Процесс классификации можно разделить на два этапа:
1. Этап разработки классификатора
2. Этап определения состояния объекта с помощью данного классификатора, т.е. этап функционирования
Этап разработки классификатора схематично представлен в виде двух блоков (рис.1).
Рисунок 1. Этап разработки классификатора На вход блока обработки исходной информации поступает множество признаков объекта которыми могут быть, например показания датчиков, тренды, результаты анализов и т.д. На выходе имеем вектор-признак Х={хх,х2,.хп} ^ \х\ = п ^ ПрИчем хс?,п<т.
Число признаков объекта может быть довольно велико, следовательно, их обработка будет требовать больших затрат машинного времени, что непременно скажется на эффективности классификатора. Поэтому программное средство, реализующее функции данного блока, должно также корректно понижать размерность пространства измерений от нескольких тысяч, до сотен или даже десятков признаков. Следовательно, на данный блок возлагаются функции, во-первых, определения информационной значимости признаков, во-вторых, выявления взаимозависимости признаков, и, в-третьих, отбрасывания незначимых признаков. Сделать это корректно не так просто в связи с тем, что все признаки взаимосвязаны и ценность одних может меняться весьма значительно при отбрасывании других, даже несущественных признаков.
Таким образом, основными задачами блока обработки исходной информации являются:
1. определение информационной значимости признаков;
2. выявление взаимозависимости признаков;
3. корректное понижение размерности признакового пространства. На вход блока построения классификатора поступает так называемый вектор-признак объекта ^={1'i=-r2>-j:J) W=", который содержит только те признаки, без которых организация процесса распознавания с требуемой точностью невозможна. На выходе данного блока должно быть решение об отнесении распознаваемого объекта к определенному классу, или же, иными словами, класс распознаваемого объекта = ^.
Таким образом, основная задача блока построения классификатора состоит в разработке структуры, позволяющей определять состояние объекта по его признакам х^{^^-^п). Данная структура может представлять собой совокупность возможных состояний объекта в виде классов, разделяющих функций, критериев и т.д. в зависимости от наличия априорной информации, типов используемых признаков и методики разработки. Важно отметить, что все признаки, подаваемые на вход данного блока, должны быть формализованы.
Рассматриваются основные методы и критерии кластеризации, их достоинства и недостатки: - Общая внутриклассовая дисперсия т п
1=1 J-I , (1) 2 где л — дисперсия j-ого признака в /-том классе, п — число признаков; т — число классов.
При этом дисперсия каждого признака может быть определена так:
Г 1г \2 к «
IX 2>,
72 = к ( к
7=1 0=1 к к2
2) V где ' j — признак объекта; к — число объектов в классе. - Внутригрупповая сумма квадратов отклонений (ВСКО )
1 п пм z 1 2
1 z /=1
3) где Xji -j-тый признак /-того объекта; п - число признаков объекта; z — количество объектов в классе.
- Квадраты внутриклассовых и межклассовых расстояний
IУ» п к 2 , (4) где ^т — среднее внутриклассовое расстояние; ni - число объектов / класса; к - число классов; d out ~~ V l<q где гон/ - среднее межклассовое расстояние; nvnq — число объектов / и #классов соответственно; d о С у - расстояние между объектами / и j классов и <?. К
В третьей главе рассматривается вопрос о разработки модели алгоритма, идея которого, заключается в следующем: на первом этапе формируются начальные эталолны для каждого класса, с помощью определения наиболее удаленных дгуг от друга объектов.
На втором этапе происходит класссификация оставшихся элементов исходного множества по принципу, известному как "сравнение с эталоном". При этом после отнесения объекта к какому-либо классу изменяется и эталон данного класса. Результатом работы алгоритма является разбиение множества объектов на т классов с эталоном для каждого класса.
Под эталоном следует понимать реальный или абстрактный объект, значения признаков которого однозначно идентифицируют принадлежность объекта определенному классу.
Обобщенная схема алгоритма классификации представлена на рис.2.
Классификация оставшихся объектов исходного множества по методу "сравнение с эталоном"
Принадлежность объекта классу определяется минимальным значением выбранного заранее критерия
Этап I
Формирование начальных эталонов для каждого класса методом определения наиболее удаленных объектов
Этап II
Рисунок 2 Обобщенная схема алгоритма классификации
Блок-схема алгоритма классификации объектов на заданное число классов представлена на рис.3. г в > 3
Увеличить число созданных классов и эталонов на 1 {mt = mt + 1)
Сделать объект S, начальным эталоном En t KJltlCCtl К. и поместить объект S} в новый класс К т[ I
Удалить объект S, из множества S и уменьшить число объектов множества на 1 (/ = / — 1) ла
Определить критерий принадлежности Fy каждого объекта S[, / = 1,/ множества S каждому классу К,-, j = \,> т
Определить min F и соответствующие ему класс К,- и объектSt
Поместить найденный объект St в класс Kj и сформировать новый эталон Ej класса К j Y
Удалить объект St из множества S и уменьшить число объектов множества S на 1 (1 = 1-1)
CJ Ч Я е о х> Н тз к ^
О о я ю о W S3 я S
CD к р Л g бг1 а Е X н > а ю со р со
CD тз В
CD Я К CD
ЛЯ нет
Расчет и вывод результатов (классов, эталонов, ха на первом этапе формируются начальные эталолны для каждого класса, с помощью конец
Рисунок 3. Алгоритм классификации объектов
Разработано программное средство реализующее алгоритм программы языке С++ Builder 5. в виде
В четвертой главе работы исследована работоспособность разработанного алгоритма для решения задачи классификации. Работоспособность разработанного алгоритма проверяется на примере классификации стадий развития заболеваний ЖКТ (гастриты).
Поскольку полная классификация гастритов достаточно сложна, то целесообразно остановиться, например, на классификации стадий развития гастритов по морфологическому признаку (рис. 4).
Умеренный Выраженный
С явлением перестройки желез
Поверхностный
Неатрофический г -ч Атрофический л
Гипер гро фический Атрофический
Рисунок 4. Классификация гастритов по морфологическому признаку
Как уже было отмечено, классификация ТГМА обладает малой степенью детализации, поскольку не позволяет с высокой точностью говорить о качественном составе признаков, характерных для каждого класса. Поэтому созданное в результате работы над диссертацией программное средство было использовано для классификации заболеваний ЖКТ. Исходными данными для исследований служат:
• Описания объектов на языке признаков ) = {Рл' Ра >—' Рт)
• Заданное количество классов (т)
Описания объектов на языке признаков приведены в таблице 1. Объектом классификации в данном случае является человек, а признаками — данные обследования, выраженные числовыми значениями.
Для получения практических результатов была исследована выборка из 20 пациентов. Алгоритму необходимо было на основании данных обследования разбить исходную выборку на т классов таким образом, чтобы пациенты, оказавшиеся в одном классе имели одинаковую или схожую стадию заболевания.
Таблица 1. Исходные данные для классификации.
Индекс Исходная выборка объектов
SO SI S2 S3 S4 S5 S6 S7 S8 S9 S10 SI 1 S12 S13 S14 S15 S16 S17 S18 S19
Р1 ИСПЭ 0 0 6 6 12 0 12 5 10 4 8 6 4 6 8 6 7 11 6 5
Р2 ИСЖЯ 0 0 2 3 2 0 2 0 2 2 2 2 0 2 3 0 2 3 0 2
РЗ ИАЖЖ 0 0 1 2 1 0 2 2 2 2 1 0 1 2 2 1 1 2 1 0
Р4 ИСЖЭ 1 0 1 3 5 0 4 1 3 2 1 3 2 1 2 3 3 4 1 2
Р5 ИХВП 0 0 1 0 2 0 2 2 3 0 3 0 1 0 2 0 1 2 1 0
Р6 П-ИМ 0 0 2 4 3 1 7 3 6 3 4 5 3 2 4 2 4 7 2 2
Р7 с-им 0 0 1 7 11 0 11 7 9 2 4 6 4 2 9 4 8 12 4 3
Р8 В-ИМ 0 0 2 6 7 0 8 4 7 1 7 6 3 3 7 4 7 7 4
В данной работе используется два критерия отнесения объекта к классу. Для того чтобы оценить, как влияет выбор критерия отнесения объекта к классу на результаты классификации, была произведена классификация на т классов (т = 2,10 ).Зависимость показателей качества классификации от выбора критерия отнесения объекта к классу показана на рисунке 5.
Влияние критерия отнесения объекта к классу на суммарную ВСКО классов
Рпоминимальой ВСКО по минимальному расстоянию
Рисунок 5. Влияние критерия отнесения объекта к классу на суммарную ВСКО классов.
Анализ зависимостей ВСКО классов показывает, что безошибочность
СКО классов для каждого из критериев отнесения объекта к классу уменьшается с увеличением числа классов. Эта зависимость легко объясняется тем, что при увеличении количества классов их размеры становятся меньше, а схожесть объектов внутри класса больше.
В результате анализа графиков, можно сделать вывод, наилучшая безошибочность достигается после обучения по критерию суммарной ВСКО.
Следовательно, предложенный в данной работе алгоритм классификации объектов на заданное число классов более эффективен при использовании на втором этапе в качестве критерия отнесения объекта классу критерий суммарной ВСКО.
Эффективность разработанного алгоритма оценивается путем сравнения полученных результатов с результатами работы классического алгоритма Ворда , при одинаковых исходных данных.
Для оценки эффективности разработанного алгоритма была создана программная модель классического алгоритма классификации объектов на заданное число классов.
Эффективность разработанного алгоритма проверяется путем сравнения результатов классификации, полученных каждым алгоритмом. В качестве критерия отнесения объекта к классу для разработанного алгоритма выбран критерий суммарной ВСКО.
Процентное соотношение совпадений составов классов представлено на рис. 6.
Рисунок 6. Процентное соотношение совпадений составов классов
Как видно из рисунка 6, результаты работы двух алгоритмов совпадают не менее, чем на 56% для любого количества классов.
Гистограммы и графики оценки эффективности разработанного алгоритма по суммарной ВСКО представлены на рис. 7.
Эффективность разработанного алгоритма по суммарной ВСКО классов
45 40 со
8 35 о га
§ 30 О
25 Ш к 20 га
15
1,10 О 41,1875 29,2244 ■ 25,1458 13,2107 ■ 12,2086 П 11,3521
9,4333 □ 8.6563 □ 6,5313
7J3708 ■6 2875 □ 4,9479
4,9479 °42917 ■ 4,0521
4 5 6
Количество классов классическии алгоритм
I разработанный алгоритм
Эффективность разработанного алгоритма по суммарной ВСКО классов
45 40 35 ЗО 25 20 15 Ю X
5 6 7
Количество классов
10 классическии алгоритм разработанный алгоритм
Рисунок 7. Безошибочность СКО классов Анализ рисунка 7 показывает, что суммарная ВСКО классов для каждого алгоритма уменьшается с увеличением числа классов. Эта зависимость легко объясняется тем, что при увеличении количества классов их размеры становятся меньше, а сходство объектов внутри класса больше.
При этом сходство объектов в классах, полученных с помощью разработанного алгоритма, в большинстве случаев выше, чем в классах, полученных классическим алгоритмом. Следовательно, разработанный алгоритм по критерию суммарной ВСКО образованных классов эффективнее, чем классический алгоритм Ворда.
Практическая эффективность и пригодность разработанного алгоритма для классификации стадий развития заболеваний ЖКТ проверялась кафедрой Факультетской терапии ТГМА.
С целью оценки практической эффективности разработанного алгоритма, экспертами для каждого объекта s>, i = 0^ исходной выборки была заранее определена априорная принадлежность к одному из классов.
Результат разбиения исходного множества на три класса (т=3) представлен на рис. 8.
Класс №1
S1 so S5
0 0 0
0 0 0
0 0 0
0 1 0
0 0 0
0 0 1
0 0 0
0 0 0 иссож=о.оо иссож=1.оо ИССОЖ=0.67
ИСТОЖ=33.00 балла ИССОЖ=48.(Ю балла ИССОЖ=41.83 балла
Класса Г°3
S2 S12 S9 S13 SIS SI 8 S19 S3 S7 SI1 SI0
6 4 4 6 6 6 5 6 5 6 8
2 0 2 2 0 0 2 3 0 2 2
1 1 2 2 1 1 0 2 2 0 1
1 2 2 1 3 1 2 3 1 3 1
1 1 0 0 0 1 0 0 2 0 3
2 3 3 2 2 2 2 4 3 5 4
1 4 2 2 4 4 3 7 7 6 4
2 3 1
3 4 4 3 6 4 ъ 7
ИССОЖ= 16.00 балла ИССОЖ=ЭО.ОО балла ИССОЖ=21.27 балла Ч nnnoROPсостояние Поирпуностный гястпит □ АтпоЛический гястпит Шк ГипептпогЬический
Рисунок 8. Составы классов при т=3
При т=3 можно заметить, что полностью выделен класс здоровых пациентов (класс №1), в класс №2 попали больные с гипертрофическим и атрофическим гастритом, а в класс №3 — с атрофическим и поверхностным.
Это позволяет сделать вывод, что атрофический гастрит у пациентов, попавших в класс №2, выражен ярче, чем у пациентов, попавших в класс №3.
Выражаясь языком кластерного анализа, это значит, что области классов №2 и №3 частично перекрываются. Следовательно, необходимо ввести по крайней мере еще один класс, чтобы уменьшить эту область неопределенности, или увеличить количество объектов исходной выборки. Что касается ИССОЖ, то его значения близки тем, которые получены исследователями кафедры Факультетской терапии ТГМА (табл.2).
Таблица 2. Сравнение результатов по интегральному показателю
Методика ТГМА Разработанный алгоритм
Здоровое состояние (ИССОЖ=1.00±0.36 балла) Период ремиссии (ИССОЖ=31.50±0.56 балла) Период обострения (ИССОЖ=45.46±0.80 балла) Класс 1 (ИССОЖ=0,67 балла) Класс 2 (ИССОЖ=21,27 балла) Класс 3 (ИССОЖ=41,83 балла)
Произведен анализ предложенной методики классификации по признакам и методики кафедры Факультетской терапии ТГМА. Выявлено, что методика классификации по признакам не противоречит методике ТГМА, и является более конкретизированной и точной.
Заключение диссертация на тему "Компьютерная диагностика хронических гастритов на основе алгоритмов системы классификации"
4.6 выводы по главе
Для разработанного алгоритма проведено исследование влияния критерия отнесения объекта к классу на критерии качества. Выявлено, что при использовании критерия минимальности расстояния между объектом и классом значения всех критериев качества лучше практически для любого числа классов, чем при использовании критерия минимальности ВСКО.
Произведена оценка эффективности разработанного алгоритма, путем сравнения его результатов с результатами классического последовательного алгоритма. Анализ показал, что практически при любом количестве классов значения всех рассмотренных критериев качества для разработанного алгоритма лучше, чем для классического. Это доказывает эффективность разработанного алгоритма.
Продемонстрирована практическая эффективность разработанного алгоритма на примере классификации заболеваний ЖКТ.
Обоснована необходимость применения разработанного алгоритма для классификации стадий развития заболеваний ЖКТ.
154
ЗАКЛЮЧЕНИЕ
В ходе выполнения диссертационной работы произведен анализ существующих классификаторов стадий заболеваний гастритов, отмечены достоинства и недостатки систем классификации заболеваний ЖКТ, поставлены задачи исследования.
Рассмотрены основные критерии кластерного анализа, отражающие наилучший вариант группировки объектов по признакам, осуществлен анализ методов формализации данных, проанализированы типы и функции расстояний, используемых в кластерном анализе, проанализированы основные алгоритмы кластерного анализа, осуществлена математическая постановка задачи классификации объектов на заданное число классов, разработан алгоритм классификации объектов на заданное число классов, включающий два этапа: определение начальных эталонов и завершение классификации.
Разработанный алгоритм реализован в программном виде. В интегрированной среде разработки приложений Borland С++ Builder создана программная модель классификации объектов на заданное число классов, в которой классификация осуществляется по разработанному и классическому алгоритмам.
Для разработанного алгоритма проведено исследование влияния критерия отнесения объекта к классу на критерии качества. Анализ показал, что практически при любом количестве классов значения всех рассмотренных критериев качества для разработанного алгоритма лучше, чем для классического.
Обоснована необходимость применения разработанного алгоритма для классификации стадий развития заболеваний ЖКТ, произведен анализ предложенной методики классификации по признакам и методики кафедры Факультетской терапии ТГМА. Выявлено, что методика классификации по признакам не противоречит методике ТГМА, и является более конкретизированной и точной.
Библиография Айисси Гиасинт Анисет, диссертация по теме Приборы, системы и изделия медицинского назначения
1. Распознавание образов: состояние и перспективы: Пер. с англ./ К. Верхаген, Р.Дёйн, Ф.Грун. и др.; Под ред. И.Б. Гуревича. М.: "Радио и связь", 1985.- 104с.
2. Дюран Б. и Одел П. Кластерный анализ. Пер.с англ. Е.З. Демиденко. Под ред. АЛ.Боярского. М., "Статистика", 1977. 128с.
3. Химмельблау Д. Обнаружение и диагностика неполадок в химических и нефтехимических процессах. — JL: Химия, 1983. — 352с.
4. Горелик А.Л., Скрипкин В.А. Методы распознавания: Учеб. Пособие. 2-е изд., перераб. И доп. - М.: Высш. Шк, 1984. - 208 е., ил.
5. Дуда Р. И Харт П. Распознавание образов и анализ сцен. Перю с англ. Г.Г. Вайнштейна. Под ред. В.Л.Стефанюка. М., "Мир", 1976. 512с.
6. Поспелов Д. А. Основы ситуационного управления: теория и практика. -М.: Наука, 1986. 245с.
7. Клыков Ю. И. Ситуационное управление большими системами. -М.: Энергия, 1974. 220с.
8. Мандель И.Д. Кластерный анализ. М., Финансы и статистика, 1988,- 176 с.
9. Загоруйко Н.Г. Методы распознавание и их применение. Изд. Сов. Радио, М., 1972.
10. Sorenson Т. A method of establishing groups of equal amplitude in plant sociology based on similarity of species content and its application for analyses of the vegetation on Danish commons? Biol. Skr. 5, (1968), 1-34
11. MacNaughton-Smith P. Some statistical and other numerical techniques for classifying individuals. H.M.S.O., London , (1965).
12. Ward J.H. Jr. Hierarchical grouping to optimize an objective function. Statist. Assoc., Vol. 58, № 301, (1963).
13. Bonner R.E. On some clustering techniques, IBM Journal, 22, (Jan.1964).
14. Ту Дж., Гонсалес P. Принципы распознавания образов. Изд. Мир, М.,1978.-411с.
15. Фор А. Восприятие и распознавание образов. С фр. М.: Машиностроение. 1989.-272с.
16. Орлов В.А. Граф-схемы алгоритмов распознавания. М.: Наука.1982.- 120с.
17. Распознавание. Классификация. Прогноз. В.2 Под. Ред. Журавлева Ю.И. М.: Наука. 1989.
18. Растригин JT.A., Эренштеин Р.Х. Метод коллективного распознавания. М.: Энергоиздат 1981.-79с.
19. Реброва М.П. Автоматическая классификация в системах обработки информации. Поиск документов. М.: Радио и связь. 1983.-96с.
20. Горелик A.JL, Гуревич И.Б., Скрипкин В.А. Современное состояние проблемы распознавания. М.: Радио и связь. 1985.-160с
21. Багриновский К. А., Хрустал ев Е. Ю. Новые информационные технологии. М.: "ЭКО". 1996.
22. Гончаров Р.В., Любимов М.Ф., Савельева Н.Г. Информатика. Компьютерные системы и сети: учебное пособие/ РГЭА, Ростов н\Д,1998, -255с.
23. Майоров С. И. Информационный бизнес: коммерческое распостронение и маркетинг. М.: «Финансы и статистика» 1993г.
24. Макарова Н. В., Матвеева Л. А., Бройдо В. Л. Информатика. Учебное пособие. М.: «Финансы и статистика» 1997.
25. Хольденберг В.А. Введение в программирование. Учебное пособие. Мн.ЮОО «Харвест», 1997. 528с.
26. Кулаичев А.П. Методы и средства анализа данных в среде Windows. STADIA 6.0. М.: Информатика и компьютеры, 1996. - 257 с.
27. Лукьянова Н.Ю. Статистический анализ данных с использованием компьютера. Учебное пособие. Калининград: Изд-во КГУ, 2001. - 89 с.
28. Математический анализ биологических данных / Г.Н. Зайцев, М.: "Наука", 1991.-184 с.
29. Плохинский Н.А. Математические методы в биологии. Учебно-методическое пособие. Изд-во Моск. ун-та, 1978. 168 с.
30. Мазурин А.В., Филин В.И., Цвекова Л.Н. Современные пердставления о патологии верхних отделов жчлудочно-кишечного тракта у детей// Педиатрия. 1997. N1. С. 5-7.
31. Баранов А.А., Климанская Е.В. Актуальные проблемы детской гастроэнтералогии//Педиатрия. 1995. №5. С. 48-51.
32. Самсыгина Г.А., Зайцева О.В., Намазова О.С. Заболевания верхних отделов желудочно-кишечного тракта у детей: актуальные проблемы терапии// Рус. мед. журн. 1997. Т5. №19. С. 1252-1262.
33. Аруин Л.И, Григорьев П.Л., Исаков В.А, Яковенко Э.П. Хронический гастрит. Амстердам, 1493. 362 с.
34. Nednul J.G., Czmtl S.J. Helicohacler pylori// Cur. opin.gastroenterol. 1997. Vol. 13. N1. P. 71-78.
35. Покровский В.И., Бондаренко B.M. Язвенная болезнь желудка и двенадцатиперстной кишки в аспекте теточной теории иммунитета И.И. Мечникова// Журн. микробиол. 1995. №3. С. 32-36.
36. Clyne М., Drumin В. Adherence of Helicohacier pylon to fix gastric mucosa// Can. J. Gastromterol 1997. Vol.11. N3. P. 243-248.
37. Bmide E., KImowski E., Varsano R. et al. Superoxide dismutase activity in Helicobacter pylori-positive antral gastritis in children// J. Pediatr. Gastroenterol. Nutr. 1996. Vol. 23. N5. P. 609-613.
38. Sipponen P. Helicohacter pylori Gastritis Epidemiology// J. Gastroenterol. 1997. Vol.32. N2. P. 273-277.
39. Аруин JI.И. Новая классификация гастрита// Рос. журн. гастроэнтерол., гепатол. и колопроктол. 1997. T.YIII. N3. С. 82-85.
40. Hulten К., Han S.W., Emoth Н. et al. Helicobacter pylori in the drinking water of Peru//Gasiroenterology. 1996 Vol. 110. P. 1031-1035.
41. Щербаков П.Л., Филин B.A., Мазурин A.B. и др. Актуальные проблемы пилорического геликобактериоза на современном этапе// Педиатрия. 1997. N1. С. 7-11.
42. Заболевания органов пищеварения у детей/ Под ред. А.Л. Баранова, Е.Л. Климанской, Г.В. Римарчук. М., 1996. 304 с.
43. Щербаков П.Л. Инструментальная диагностика пилорического хеликобактериоза у детей/ /Диагностика и лечение заболеваний, ассоциированных с Helicohacter.
44. Аруин Л.И, Капуллер Л.Л., Исаков В.А. Морфологическая диагностика болезней желудка и кишечника. Москва, ТриадаХ, 1998 г.
45. Ивашкин В.Т., Успенский В.М. Некоторые функциональные и гистохимические изменения в двенадцатиперстной кишке при язвенной болезни (по данным телеметрии и дуоденобиопсии). // Советская медицина, 1970, №3, С. 10-14.
46. Ивашкин В.Т., Дорофеев Г.И. Нарушения резистентности слизистой оболочки желудка и двенадцатиперстной кишки при хроническом гастрите и язвенной болезни. // Советская медицина, 1983, № 2, С. 10-15.
47. Ивашкин В.Т. Эрадикация инфекции Helicobacter pylori и ремиссия язвенной болезни: однозначны ли эти состояния? // Российский журнал гастроэнтерологии, гепатологии и колопроктологии, 1999, Т.8, № 3, С. 71-73.
48. Бабин В.Н, Минушкин О.Н., Дубинин А.В и др. // Росс. журн. гастроэнтерологов, гепатологов, колопроктологов — 1998. — №6. — С. 7682.
49. Дубинин А. В., Бабин В. Н., Раевский П.М., Шихман А.Р. // Клин, мед. — 1991, —№7. —С. 24-28.
50. Елизаветина Г.А., Ардатская М.Д., Минушкин О.Н. // Кремлевская медицина. — 1998. — № 2. — С. 22-25.
51. Минушкин О.Н., Ардатская М.Д., Елизаветина Г. А., Иконников Н.С. и др. // Российский журнал гастроэнтерологов, гепатологов, колопроктологов — 1999. — № 5. — 290 с.
52. Астахов В.А. Лечение гастрита // Здоровье — 2000 №3 — С. 14-15
53. Бровицкий А.С. Виды, симптомы, лечение гастрита // Здоровье, 2000 №2-С.15
54. Веселов А.В. Лечение хронического гастрита // Здоровье, 2000 -№12-С.21
55. Драгунов С.К. Профилактические средства // Здоровье 2000 - №3 - С.32
56. Яковлева М.Ю. Функциональная диагностика // Здоровье, 2000 -№5-С. 10
-
Похожие работы
- Разработка нейросетевых алгоритмов для автоматизации медико-биологических исследований
- Рационализация медицинской помощи больным с патологией желудка и двенадцатиперстной кишки на основе многоуровневого классификационно-прогностического моделирования
- Алгоритмизация и управления качеством процесса реабилитации больных с гастроэнтерологическими заболеваниями на санаторно-курортном этапе
- Исследование, рациональное управление процессом диагностики и лечения хронических болезней органов пищеварения на основе моделирования и прогнозирования
- Исследование и алгоритмизация физиотерапевтических и минералогических воздействий в процессе рационального лечения кариеса и слизистой оболочки полости рта при заболеваниях пищеварительного тракта
-
- Приборы и методы измерения по видам измерений
- Приборы и методы измерения времени
- Приборы навигации
- Приборы и методы измерения тепловых величин
- Приборы и методы измерения электрических и магнитных величин
- Акустические приборы и системы
- Оптические и оптико-электронные приборы и комплексы
- Радиоизмерительные приборы
- Электронно-оптические и ионно-оптические аналитические и структурно-аналитические приборы
- Приборы и методы для измерения ионизирующих излучений и рентгеновские приборы
- Хроматография и хроматографические приборы
- Электрохимические приборы
- Приборы и методы контроля природной среды, веществ, материалов и изделий
- Технология приборостроения
- Метрология и метрологическое обеспечение
- Информационно-измерительные и управляющие системы (по отраслям)
- Приборы, системы и изделия медицинского назначения
- Приборы и методы преобразования изображений и звука