автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Метод оценки значений параметров математической модели медицинской диагностики

кандидата технических наук
Смагин, Сергей Владимирович
город
Владивосток
год
2012
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Метод оценки значений параметров математической модели медицинской диагностики»

Автореферат диссертации по теме "Метод оценки значений параметров математической модели медицинской диагностики"

005054241

На правах рукописи

Смагин Сергей Владимирович

МЕТОД ОЦЕНКИ ЗНАЧЕНИЙ ПАРАМЕТРОВ МАТЕМАТИЧЕСКОЙ МОДЕЛИ МЕДИЦИНСКОЙ ДИАГНОСТИКИ

05.13.18 - Математическое моделирование, численные методы и комплексы программ

Автореферат

диссертации на соискание ученой степени кандидата технических наук

- 1 НОЯ 2012

Владивосток — 2012

005054241

Работа выполнена в лаборатории интеллектуальных' систем Института автоматики и процессов управления Дальневосточного отделения РАН.

Научный руководитель: Клещев Александр Сергеевич-

доктор физико-математических наук, профессор

Научный консультант: Черняховская Мэри Юзефовна

доктор медицинских наук

Официальные оппоненты: Девятисильный Александр Сергеевич

доктор технических наук, профессор, зав. сек. управления и навигации ИАПУ ДВО РАН

Защита состоится «11» октября 2012 года в 10:00 часов на заседании диссертационного совета Д.005.007.01 в Институте автоматики и процессов управления ДВО РАН по адресу: 690041, г. Владивосток, ул. Радио, 5.

С диссертацией можно ознакомиться в библиотеке Института автоматики и процессов управления Дальневосточного отделения РАН.

Кулешов Евгений Львович

доктор технических наук, профессор,

зав. каф. компьютерных систем ДВФУ

Ведущая организация: Институт математики им. С.Л. Соболева

Сибирского отделения РАН, г. Новосибирск

Автореферат разослан « Т » С^-нЯЧ ^ 2012 г.

Ученый секретарь

диссертационного совета Д.005.007.01 к.т.н.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Индуктивное формирование знаний на основе эмпирических данных является основным способом получения новых эмпирических знаний в науке и практике. Он заключается в получении общего знания о некоторой совокупности объектов на основании анализа единообразного описания конечного множества отдельных представителей этой совокупности — обучающей выборки данных (или просто обучающей выборки).

Моделирование такого способа познания лежит в основе многих направлений исследований,' получивших в англоязычной литературе названия: Data Mining (интеллектуальный анализ данных), Machine Learning (машинное обучение), Knowledge Discovery in Databases (обнаружение знаний в базах данных, сокращенно KDD), Pattern Recognition (распознавание образов), Knowledge Extraction (извлечение знаний), Information Discovery (обнаружение информации), Information Harvesting (сбор информации), Data Archaeology (археология данных) и т.д., каждое из которых характеризуется собственным подходом к проблеме индуктивного формирования знаний, собственными постановками задач и многообразием методов их решения! Значительный вклад в эти направления внесли отечественные и зарубежные ученые: Айзерман М.А., Бонгард М.М., Браверманн Э.М., Вагин В Н., Вапник В.Н., Витяев Е.Е., Журавлев Ю.И., Загоруйко Н.Г., Клещев А.С., Лбов Г.С., Розоноэр Л.И., Рудаков К.В., Рязанов В.В., Финн В.К., Червоненкис А.Я., Михальский P.C., Пятецкий-Шапиро Г.И. и другие.

В основополагающих публикациях по данной тематике сформулированы общие постановки основных задач индуктивного формирования знаний — классификации и кластеризации, изучены разнообразные модели зависимости между классами и объектами, а также разработано большое число алгоритмов обучения (классификации и кластеризации), решающих поставленные задачи на этих моделях. Задача классификации состоит в том, чтобы для некоторого множества моделей зависимости, к которому относится неизвестная зависимость между классами и объектами, разработать алгоритм классификации, который на основе описания объектов обучающей выборки строит решающее правило, вероятность правильной классификации которого любых новых объектов как можно выше. Задача кластеризации состоит в том, чтобы, используя некоторую метрику, разработать алгоритм кластеризации, который на основе описания объектов обучающей выборки разбивает обучающую выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались, а также строит описания кластеров, позволяющие относить к ним новые объекты.

Общепризнанной характеристикой алгоритмов классификации считается время обучения - время, за которое алгоритм классификации по обучающей выборке строит решающее правило. Другой характеристикой алгоритмов классификации принято считать качество формируемых с их помощью решающих правил. Основными показателями качества решающих правил считаются вероятность правильной классификации, устойчивость результатов, переобучение и некоторые другие. Для экспериментального исследования показателей качества решающих правил созданы репозитарии баз данных, включающие в себя выборки

реальных данных из различных предметных областей, а также разработано несколько универсальных программ генерации модельных данных. Полученные таким образом значения показателей качества для различных решающих правил (на основе одних и тех же выборок) сравниваются между собой, из этого делается вывод о том, какой из алгоритмов классификации лучше.

По степени того, насколько интерпретируемым для эксперта предметной области получается описание классов, формирующие это описание алгоритмы обучения (классификации и кластеризации) могут быть разделены на следующие группы. Численные алгоритмы обучения строят описание классов, обладающее лишь минимальной интерпретируемостью (названия классов в таком описании соответствуют названиям реальных классов предметной области, названия признаков - названиям признаков объектов этой предметной области, а названия значений признаков - реальным значениям признаков). Логические алгоритмы обучения строят описание классов в виде логической функции, которая может быть задана, например, таблицей истинности, которая может интерпретироваться экспертами предметной области. Описание классов, представленное в форме продукций (а также описания, построенные логико-вероятностными алгоритмами обучения и ДСМ-методом), обладает большей интерпретируемостью, чем в предыдущем случае. Описание классов, построенное для моделей зависимости с параметрами, являющихся реальными онтологиями предметных областей (которые получены в результате формализации представлений экспертов о предметных областях, т.е. взяты из практики), представленных необогащенными системами логических соотношений с параметрами, обладает самой высокой степенью интерпретируемости, также как и сами эти модели зависимости.

Однако, в литературе не рассматривается специфическая постановка задачи классификации для моделей зависимости с параметрами, которая требует от алгоритма классификации формирования описаний классов, обладающих определенным уровнем качества. Степень интерпретируемости описаний классов, которые формируют существующие алгоритмы обучения (классификации и кластеризации) для практически полезных предметных областей, не позволяет экспертам предметных областей использовать эти описания в своей практической деятельности. Поэтому актуальной проблемой является разработка алгоритмов обучения (классификации и кластеризации) для практически полезных и хорошо интерпретируемых математических моделей зависимости с параметрами, являющихся реальными онтологиями предметных областей, формирующих такие описания классов (базы знаний), которые эксперты предметных областей оценивают как достаточные для решения практических задач в этих предметных областях.

Целью диссертационной работы является разработка алгоритма классификации для математической модели зависимости с параметрами (являющейся онтологией медицинской диагностики, приближенной к реальной) который по обучающей выборке находит значения параметров (базу знаний) этой модели, близкие к значениям, характеризующим эту предметную область.

Для достижения этой цели необходимо решить следующие задачи:

1. Разработать общую постановку задачи классификации для математических моделей зависимости с параметрами, как частный случай задачи оценки значений параметров модели.

2. С помощью компьютерных экспериментов исследовать вопрос о связи между разработанной постановкой задачи и постановкой задачи классификации, рассматриваемой в литературе.

3. Разработать алгоритм классификации для практически полезной и хорошо интерпретируемой математической модели зависимости с параметрами, являющейся онтологией медицинской диагностики, приближенной к реальной (заданной системой логических соотношений с параметрами), и провести экспериментальное исследование его свойств.

4. Разработать комплекс программ и технологию его применения для индуктивного формирования баз медицинских знаний в форме, принятой в медицинской литературе.

Методы исследования. Для решения указанных задач использовались методы искусственного интеллекта, машинного обучения, распознавания образов, интеллектуального анализа данных, компьютерного моделирования, теории вероятностей и математической статистики, теории множеств, структурного программирования.

Научная новизна работы состоит в следующем:

• разработана общая постановка задачи классификации для математических моделей зависимости с параметрами, как частный случай задачи оценки значений параметров модели (при этом критерием качества обучения является близость оценок значений параметров к значениям, характеризующим предметную область, а не вероятность правильной классификации решающих правил, получаемых в результате обучения);

• показано, что решение задачи классификации в разработанной общей постановке является и решением задачи классификации в традиционной постановке, однако обратное не всегда верно;

• введены новые понятия внешних и внутренних свойств алгоритма классификации для моделей зависимости с параметрами (как функции вероятности определенных событий, связанных с алгоритмом классификации, зависящие от объема обучающих выборок); эти свойства характеризуют алгоритмы классификации и не зависят от конкретных обучающих выборок; разработан также способ оценки значений этих свойств;

• разработан алгоритм классификации для практически полезной, хорошо интерпрётируемой и адекватной математической модели зависимости с параметрами, являющейся онтологией медицинской диагностики, приближенной к реальной.

Практическая ценность работы состоит в разработке комплекса программ и технологии его использования, позволяющего создавать обучающие выборки (состоящие из историй болезни различных разделов медицины) и на их основе индуктивно формировать базы медицинских знаний (в форме, принятой в медицинской литературе), а также объяснение этих баз знаний.

Реализация результатов работы. Разработанный комплекс программ был использован для индуктивного формирования базы знаний о заболеваниях раздела медицины «острый живот» на основе обучающей выборки объемом 69 историй болезни. Формальное представление базы знаний позволяет использовать ее

в экспертных системах медицинской диагностики. Высокая степень интерпретируемости и достоверность сформированной базы знаний подтверждены экспертом. Результаты работы использованы в Дальневосточном федеральном университете — в учебном процессе при чтении курса лекций по дисциплине «Системы искусственного интеллекта» студентам специальности 010503.65 «Математическое обеспечение и администрирование информационных систем», а также в научной работе и исследованиях сотрудников лаборатории интеллектуальных систем Института автоматики и процессов управления ДВО РАН.

Положения, выносимые на защиту: общие постановки задач классификации и кластеризации для математических моделей зависимости с параметрами, представленные как частный случай задачи оценки значений параметров модели; определения внешних и внутренних свойств алгоритмов классификации и кластеризации для моделей зависимости с параметрами и метод оценки значений этих свойств; алгоритм классификации для практически полезной, хорошо интерпретируемой и адекватной математической модели зависимости с параметрами, являющейся онтологией медицинской диагностики, приближенной к реальной; комплекс программ и технология его применения для индуктивного формирования баз медицинских знаний в форме, принятой в медицинской литературе.

Обоснованность и достоверность результатов работы обеспечиваются применением методов искусственного интеллекта и подтверждены результатами компьютерных экспериментов.

Апробация работы. Основные научные и практические результаты работы докладывались и обсуждались на следующих международных и российских конференциях и семинарах: Дальневосточных математических школах-семинарах имени академика Е.В. Золотова (Владивосток: 2004, 2007, 2008), Втором Международном форуме медицинских информационных технологий для разработчиков и пользователей «Мессой» (Москва: 2006), Седьмой Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы» (Таганрог: 2006), Научных сессиях МИФИ (Москва: 2007, 2008), секции «Вычислительная математика и кибернетика» XVI Международной научной конференции студентов, аспирантов и молодых ученых (Москва: 2009), Всероссийских конференциях с международным участием «Знания - Онтологии — Теории» (Новосибирск: 2009, 2011), конкурсах работ молодых ученых Института автоматики и процессов управления ДВО РАН (Владивосток: 2009, 2011), семинарах лаборатории интеллектуальных систем Института автоматики и процессов управления ДВО РАН и базовой кафедры программного обеспечения ЭВМ Дальневосточного федерального университета (Владивосток: 2005-2012).

Публикация результатов работы. По материалам диссертации опубликовано 25 печатных работ, в том числе 4 статьи в журналах, входящих в список ВАК РФ, и 7 статей в других российских и зарубежных журналах.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы, включающего 103 наименования, глоссария терминов и 15 приложений. Основная часть работы изложена на 133 страницах, содержит 60 рисунков и 4 таблицы.

СОДЕРЖАНИЕ РАБОТЫ

В первой главе представлен обзор литературы по проблеме индуктивного формирования знаний.

Во второй главе решаются первые две задачи диссертации. Обозначим: х -вектор переменных (признаков); X - многомерное (признаковое) дискретное пространство, координатами которого являются переменные вектора х; у = {-Ур---..У„} - множество классов; математическая модель зависимости т(х,у,д) -система соотношений между вектором переменных х, значениями переменной у и вектором параметров ? с областью возможных дискретных значений 2.

Модель зависимости т индуцирует отношение К <= X х у между объектами пространства X и классами у, к которым они относятся. Обозначим Т (множество обучающих выборок) множество непустых конечных подмножеств К, С (множество контрольных выборок) — множество непустых конечных подмножеств объектов Пространства X. Будем считать, что модель зависимости т такова, что по ней однозначно может быть построено зависящее от значений параметров д детерминированное решающее правило : X -> у . Для Я^ обозначим Р(Чтч) - вероятность правильной и точной классификации объектов из X.

Алгоритмом классификации (АК) для модели т назовем отображение Ь : т 2, которое по обучающей выборке * е т вычисляет значения параметров д, и как следствие, решающее правило . Будем считать, что предметная область (ПО), в которой решается задача классификации, характеризуется значениями параметров д*. Обозначим Р^ (р) - вероятность того, что (') = ?* (для

дискретных значений рассмотрим вероятность совпадения значений параметров, а для числовых вещественных значений — вероятность того, что они отличаются не более чем на заданное число) для обучающих выборок * объемом ^.

Постановка задачи классификации: для модели т построить такой АК Ьт, что Р1 (р) стремится к 1 при увеличении объемов ц обучающих выборок. Обозначим: Ят(м) — множество решающих правил Ят1 ^ для обучающих выборок / объемом и; Р. (р) - вероятность правильной и точной классификации объек-

кт

тов из X решающими правилами из Я (р). Назовем функцию Ря (я) - внешним свойством АК Ьт, а функцию (р) - его внутренним свойством.

Будем называть модель т хорошо интерпретируемой, если она является минимально интерпретируемой и, кроме того, названия и значения параметров q, а также соотношения модели т являются хорошо интерпретируемыми, т.е. понятными специалистам соответствующей ПО. Вектор значений параметров д назовем базой знаний, а АК - алгоритмом индуктивного формирования знаний.

Оценки функций Р, (и) и Р„ (и) могут быть получены в сериях компью-

1т кт

терных экспериментов на модельных данных, сформированных следующим образом (Рис.1). Будем считать, что для модели зависимости т может быть по-

строєна зависящая от значений параметров д модель генератора модельных обучающих выборок. Предполагается, что С , является адекватной моделью

тд

генератора выборок для этой ПО. В компьютерном эксперименте по модели т случайным образом (в рамках заданных ограничений) генерируются модельные значения параметров ц* (для хорошо интерпретируемых моделей зависимости будем также называть их модельными базами знаний (МБЗ)); с помощью модели генератора С , генерируется подходящее множество модельных выборок различных объемов и; по модельным обучающим выборкам г с помощью АК Ьт

формируются значения параметров д (для адекватных и хорошо интерпретируемых моделей зависимости будем также называть их индуктивно формируемыми базами знаний (ИФБЗ)), для которых вычисляются оценки функций вероятности: (р) и (р), используя множество модельных контрольных выборок с.

Рис. 1. Схема организации серии компьютерных экспериментов на модельных данных

Степенью разделимости классов ПО будем называть Рк , — вероятность

ГШ/

правильной и точной классификации объектов ПО решающим правилом Д ,.

тд

Внешние свойства АК Ьт будем называть абсолютно хорошими, если с ростом объема ц обучающих выборок і имеет место сходимость Р. (и) к 1 (абсолютно

кт

плохими, если такая сходимость отсутствует). Внешние свойства АК Ьт будем называть относительно хорошими, если с ростом объема ц обучающих выборок

< имеет место сходимость Рв (и) к Р. (относительно плохими, если такая

т *

ПІІ]

сходимость отсутствует). Внутренние свойства АК Ьт будем называть хорошими, если с ростом объема ц обучающих выборок / имеет место сходимость Р1т (р) к 1 (плохими, если такая сходимость отсутствует). Хорошим АК будем

называть тот, который имеет хорошие внутренние свойства. Плохим АК будем называть тот, который имеет плохие внутренние свойства.

Выдвинем гипотезу о том, что внешние свойства АК в большей мере отражают степень разделимости классов ПО, а его внутренние свойства, напротив, отражают именно свойства АК. Для подтверждения этой гипотезы необходимо показать, что для одной и той же модели зависимости с параметрами существуют такие хороший и плохой АК, что: при хорошей разделимости классов ПО плохой АК может иметь как абсолютно хорошие, так и абсолютно (и относительно) плохие внешние свойства; при плохой разделимости классов ПО оба АК имеют абсолютно плохие внешние свойства, а плохой АК и относительно плохие внешние свойства; при любой разделимости классов ПО хороший АК имеет относительно хорошие внешние свойства. ■

В качестве модели зависимости с параметрами т в компьютерных экспериментах использована непримитивная упрощенная онтология медицинской диагностики, представленная системой логических соотношений с параметрами. Каждое заболевание обладает «клинической картиной» (КК) - набором таких признаков, значения которых зависят от заболевания и изменяются его клиническими проявлениями. Каждое «описание клинического проявления» (ОКП) заболевания по признаку представляет собой последовательность периодов динамики (ПД) этого признака, количество которых задается значением параметра «число периодов динамики» (ЧПД). Каждый ПД характеризуется возможными значениями признака в нем, а также верхней и нижней границами своей длительности..

Вектором переменных х в этой онтологии является вектор признаков, значениями переменной у (классами) - названия заболеваний, а компонентами вектора параметров ? являются неинтересные параметры «возможные значения» и «клиническая картина», а также интересные параметры «нормальные значения», «число периодов динамики», «значения для периода», «верхняя граница», «нижняя граница». Значением каждого признака в истории болезни (ИБ) является функция времени с конечной областью определения (конечным множеством моментов наблюдения, своим для каждого признака и каждой ИБ) и конечной областью значений (подмножеством возможных значений признака).

Подставляя названия классов, переменных и известные значения неинтересных параметров в систему логических соотношений с параметрами, получаем, что эта система распадается на группы логических соотношений, соответствую,-щие парам (заболевание, признак). Любые две такие группы логических соотношений не имеют общих интересных параметров. В результате исходная задача классификации сводится к множеству задач классификации, каждую из которых будем называть частной задачей классификации для пары (заболевание у., признак х.). Входными данными частной задачи классификации для пары (заболевание у., признак х.) является подмножество обучающей выборки / - обучающая выборка / , каждый элемент которой представлен функцией времени. Если признак х., не входит в КК заболевания у., то для этой пары декомпозиция задачи

классификации приводит к частной задаче классификации с полной информацией. Если признак х1, входит в КК заболевания у., то для этой пары решается частная задача классификации с неполной информацией.

Результат решения задачи классификации для. упрощенной, онтологии медицинской диагностики представляет собой объединение результатов решения частных задач классификации для всех пар (заболевание у., признак х.).

В компьютерных экспериментах использовались два алгоритма для решения частной задачи классификации с неполной информацией.'Алгоритм случайных расстановок границ периодов динамики сводит частную задачу классификации с неполной информацией к частной задаче классификации с полной информацией путем задания случайных (в соответствии с рядом ограничений) значений ненаблюдаемых неизвестных для каждой ИБ с диагнозом заболевание у. обучающей

выборки. Алгоритм направленного поиска расстановок границ периодов динамики в себя следующие последовательные этапы: итеративный процесс формирования корректного множества альтернатив ОКП, релевантных обучающей выборке; выбор из этого множества одной альтернативы ОКП, называемой первым приближением к ОКП; уточнение значений параметров первого приближения к ОКП - формирование ОКП заболевания у. по признаку, х..

Для проверки выдвинутой в гипотезы были проведены три серии компьютерных экспериментов: в 1-ой серии были получены оценки свойств алгоритма случайных расстановок границ периодов динамики в условиях хорошей разделимости заболеваний (классов ПО), которая смоделирована тем, что в МБЗ у разных заболеваний совпадающими генерировались значения параметров «клиническая картина», «число периодов динамики», а также номера критических ПД для одних и тех же признаков (при этом значения параметров «значения для периода», «верхняя граница» и «нижняя граница» для соответствующих ПД у одних и тех же признаков при разных заболеваниях генерировались случайным образом (в рамках заданных ограничений)); во 2-ой серии были получены оценки свойств обоих АК также в условиях хорошей разделимости заболеваний, которая в отличие от предыдущей серии смоделирована тем, что в МБЗ для соответствующих ПД у одних и тех же признаков при разных заболеваниях случайным образом (в рамках заданных ограничений) генерировались только значения параметров «верхняя граница» и «нижняя граница», а «значения для периода» генерировались совпадающими; в 3-ей серии были получены оценки свойств обоих АК в условиях плохой разделимости заболеваний, которая в отличие от предыдущей серии смоделирована тем, что в МБЗ для соответствующих ПД у одних и тех же признаков при разных заболеваниях случайным образом (в рамках заданных ограничений) генерировались только значения параметра «верхняя граница», а «значения для периода» и «нижняя граница» генерировались совпадающими.

Для каждой серии компьютерных экспериментов были сгенерированы 5 различных МБЗ. На основе каждой МБЗ были сгенерированы: 5 наборов модельных обучающих выборок, каждый из которых включал по одной выборке объемом от 10 до 1280 (каждый следующий объем больше предыдущего в два раза) ИБ каждого заболевания; одна модельная контрольная выборка объемом 1280 ИБ каждого заболевания. Для проведения серий компьютерных экспериментов был разработан комплекс программ, соответствующий схеме организации компьютерных экспериментов на модельных данных, предложенной .в работе (Рис.1). Комплекс

состоит из подсистем: генерации модельных данных, реализации алгоритма классификации, оценки и визуализации результатов.

В компьютерных экспериментах показано (Рис.2), что для алгоритма случайных расстановок границ периодов динамики с ростом объема ц обучающих выборок < сходимость Р1 (ц) к 1 отсутствует для всех интересных параметров.

Также в компьютерных экспериментах показано, что для алгоритма направленного поиска расстановок границ периодов динамики с ростом объема ц обучающих выборок * присутствует устойчивая сходимость Р{ (/л) к 1 для всех интересных

параметров. Кроме того, в проведенных сериях экспериментов показано, что при хорошей разделимости классов ПО алгоритм случайных расстановок границ периодов динамики может иметь как абсолютно (и относительно) хорошие (1-я серия экспериментов), так и абсолютно (и относительно) плохие оценки внешних свойств (2-я серия экспериментов), а при плохой разделимости классов ПО такой алгоритм имеет абсолютно и относительно плохие оценки внешних свойств (3-я серия экспериментов). Также в проведенных сериях экспериментов показано, что вне зависимости от степени разделимости классов ПО, оценки внешних свойств алгоритма направленного поиска расстановок границ периодов динамики являются относительно хорошими, а при плохой разделимости классов ПО оценки внешних свойств такого алгоритма являются абсолютно плохими.

I::

И

II

|||М1»

1 1

1 1

1:

1.......;.....;...

•"I

11"

I.

И

1| 1

Рис.2. Оценки внутренних свойств алгоритма случайных расстановок границ периодов динамики (вверху) и алгоритма направленного поиска расстановок границ периодов динамики (внизу)

Таким образом показано, что решение задачи классификации в разработанной в диссертации постановке является и решением задачи классификации в традиционной постановке, однако обратное не всегда верно.

В третьей главе решается третья задача диссертации. В качестве адекватной и хорошо интерпретируемой модели зависимости т рассматривается онтология медицинской диагностики, приближенная к реальной, которая представлена в виде необогащенной системы логических соотношений с параметрами. В этой онтологии рассматривается один вид причинно-следственных отношений - клинические проявления, каждое заболевание обладает КК. Однако, каждое ОКП заболевания по признаку, входящему в КК этого заболевания, имеет дополнительный параметр: «варианты», значением которого является множество вариантов клинического проявления (ВКП). Каждое ВКП заболевания представляет собой по-

следовательность ПД этого признака, количество которых задается значением параметра «число периодов динамики». Каждый ПД характеризуется возможными значениями признака в нем, а также верхней и нижней границами своей длительности. Вектор переменных х, значения переменной обучающие выборки в этой онтологии определены так же, как в упрощенной онтологии медицинской диагностики. В этой онтологии вектором параметров ^ является набор неинтересных параметров: «возможные значения» (для каждого признака) и «клиническая картина» (для каждого заболевания), а также интересных параметров: «нормальные значения» (для каждого признака), «варианты» (для каждого ОКП), «число периодов динамики» (для каждого ВКП), «значения для периода», «верхняя граница» и «нижняя граница» (для каждого периода динамики).

Подставляя названия классов (заболеваний переменных (признаков х) и известные значения неинтересных параметров онтологии в систему логических соотношений с параметрами, получаем, что эта система распадается на группы логических соотношений, соответствующие парам (заболевание у., признак х.).

Любые две такие группы логических соотношений не имеют общих интересных параметров. В результате исходная задача классификации сводится к множеству частных задач, каждая из которых соответствует одной из групп соотношений. Если в паре (заболевание у., признак х.) признак х., не входит в КК заболевания у., то для этой пары декомпозиция задачи классификации приводит к частной задаче классификации с полной информацией. Если в паре (заболевание у признак х.) признак х., входит в КК заболевания у^, то для этой пары декомпозиция задачи классификации приводит к частной задаче, в которой неизвестно множество классов и, как следствие, неизвестно, к какому ВКП относится конкретная ИБ. Количество параметров в таком ОКП зависит от числа ВКП, а количество параметров в отдельном ВКП равно (СЩ#-1)*3) + 2, где чпд - это значение параметра «число периодов динамики». Из постановки этой задачи следует, что она является частной задачей кластеризации. Результат решения задачи классификации для онтологии медицинской диагностики, приближенной к реальной, представляет собой объединение результатов решения частных задач для всех пар (заболевание у., признак х.),т.е. ИФБЗ.

Обозначим т(х,д) модель зависимости, причем в вектор параметров д входит параметр «множество кластеров» (в), значением которого является конечное множество множеств объектов ПО. Элементы множества, являющегося значением параметра В, будем называть кластерами. Будем считать, что для каждого ЬеВ в ? входит свой набор параметров ць (параметров кластера Ь), а модель зависимости т такова, что для каждого ЬеВ может быть построен предикат П ,

■ ■ - ■ чь

который истинен на всех объектах ПО, входящих в кластер Ь, и только на них.

Будем считать, что: ПО характеризуется значениями параметров д*, в том числе значением параметра В*, элементы Ь* е В* которого будем называть кластерами ПО; д' таково, что кластеры В* попарно не пересекаются.

Будем называть набор значений вектора параметров д допустимым, если множества, определяемые предикатами п попарно не пересекаются. Обозначим 2 - множество всех допустимых наборов значений вектора параметров ц.

Алгоритмом кластеризации для модели т назовем отображение Мт : Г-»£>', которое по обучающей выборке г е Т вычисляет допустимые значения параметров д. Для Мт(г) множества, определяемые предикатами п , будем называть

индуктивными кластерами в . Обозначим Р„ (//) - вероятность того, что для

мт

обучающих выборок / объемом : между множествами индуктивных кластеров В и кластеров ПО в* существует взаимно-однозначное соответствие; для соответствующих индуктивного кластера Ь е В и кластера ПО Ь* е В* наборы параметров этих кластеров ? , и д , совпадают, а значения одноименных параметров ь ь

равны (для дискретных значений рассмотрим вероятность совпадения значений параметров, а для числовых вещественных значений - вероятность того, что они отличаются не более чем на заданное число).

Постановка задачи кластеризации: для модели т построить такой алгоритм кластеризации Мт{(), что Ри (р) стремится к 1 при увеличении объемов ц обучающих выборок. В частной задаче кластеризации для пары (заболевание у признак х.) кластерами ПО Ь* е В* являются варианты клинического проявления ОКП заболевания у. по признаку х.. Каждому ВКП (кластеру ПО) Ь* поставлен

в соответствие свой набор параметров ? ,.

ь

Будем обозначать параметры ВКП (кластера ПО) V: ЧПД(У) — число ПД в ВКП V; для номера р е[1,ЧПД(У)] будем обозначать: ЗДП(у,р) - значения для ПД р в ВКП V, ВГ(У,р) - верхняя граница ПД р в ВКП V, НГ(У,р) - нижняя граница ПД р в ВКП V. Будем говорить, что разные ВКП (кластер ПО) У1 и ВКП (кластер ПО) У2 одного и того же ОКП заболевания у. по признаку х. различаются, если выполнено хотя бы одно из условий (в скобках указан вид различия ВКП (вид различия кластеров ПО)): ЧПД(У^) * ЧПД(У2) («по ЧПД»); существует

ПД с номером р е [\,ЧПД(У)\, для которого имеет место ЗДП(Угр)г\ЗДП(У2,р) = 0 («по значениям»); существует ПД с номером ре[\,ЧПД(У)], для которого имеет место НГ(Уур)-ВГ(У2,р)> 0 («по границам»).

Входными данными частной задачи кластеризации для пары (заболевание у., признак х.) является подмножество обучающей выборки г — обучающая выборка г , каждый элемент которой представлен функцией времени. Областью

определения этой функции является конечное множество моментов наблюдения признака «признак х.» в ИБ с диагнозом «заболевание у.», а областью значений — значения этого признака в эти моменты наблюдения.

Для частной задачи кластеризации для пары (заболевание у., признак х.) будем обозначать: Ну - ИБ, соответствующую ВКП (кластеру ПО) V для пары (заболевание у., признак х.); ЧПД(Ну) - число ПД признака х. в ИБ Ну; ЧМН(Ну, р) — число моментов наблюдения признака х. в ПД с номером р в ИБ Ну. ИБ в обучающей выборке * должны быть хорошо обследованными: для любого ПД с номером ре [1,ЧПД(Ну)] должно иметь место ЧМН(Ну,р)^2.

Алгоритм направленного поиска расстановок границ периодов динамики для решения частной задачи кластеризации для пары (заболевание у., признак )

для онтологии медицинской диагностики, приближенной к реальной, сводится к последовательному решению следующих оптимизационных задач: обобщение всех ИБ обучающей выборки; формирование набора индуктивных кластеров; вычисление значений параметров индуктивных кластеров.

Будем называть последовательностью ПД — последовательность целочисленных интервалов временной оси, имеющих вид (0,р.) при 1 = 1 и вид (а.,р.)

при / > 1, причем для любого / > 1 имеет место = а.-1. Для ИБ Я обучающей

выборки для пары (заболевание у., признак х.) будем обозначать:

ЧМН\н,р) — число моментов наблюдения, принадлежащих ПД с номером р; МНе(Н,р) - момент наблюдения с номером ее[\,ЧМН (Н,р)], принадлежащий ПД с номером р; тачение(МНе (Я, р)) - значение признака в момент наблюдения

с номером ее[1,чмн\н,р)], принадлежащий ПД с номером р .

Обозначим возможные значения(признак) — область возможных значений признака, для которого решается задача кластеризации. Обозначим 0(Я) — разбиение временной оси на ПД (количество которых обозначим А(0(Я))) для признака х. и ИБ Я обучающей выборки < , удовлетворяющее следующим условиям:

А(0(Я))<5; если Л(0(Я))> 1, ТО {значепие{МН\(Я, р)) \ I е [1,ЧМН(Н,р)]} П {значение(МН. (Я, /> +1)) |./ е [ 1,ЧМН (Н, р +1)]} = 0 ДЛЯ />е[1,Л(0(Я))-1]; если к(0(Н)) = 1, то {значение(МН. (Я, 1)) 11 е [1 ,ЧМН (Н, 1)]} * значения(признак); ДЛЯ любого ПД с номером р е [1,А(0(Я))] имеет место ЧМН{Н,р) £ 2.

Обозначим А - набор всех разбиений 0(Я) для некоторой ИБ я для признака х. из пары (заболевание упризнак х.). Каждому /-ому разбиению О,(Я)

поставим в соответствие значение максимальной разности между соседними моментами наблюдения, которые отнесены., к смежным ПД:

г. = тахЩН. (Я, р +1) - МН , (Я,п)),ДЛЯ ре [1, к(0(Щ) -1]. ' р 1 чмн (Н,р)

Наилучшим будем называть такое разбиение О*(Я), для которого

г* = тт(г.). Разбиению О* (Я) поставим в соответствие совокупность параметров:

А

чпд\н) - число ПД; для'любого ПД с номером р е[\,чпд\н)]: здп\н,р) -значения признака в момента наблюдения в ПД с номером р, вг\н,р) - верхняя граница ПД с номером р, ЯГ(Н,р) - нижняя граница ПД с номером р.

Обобщением J(H) ИБ Н будем называть совокупность параметров, имеющих следующие значения: чпд\н) = к(0*(н))\ для каждого ПД с номером />е[1,А(0*(//))] для О*(Я): Здп\н,р)={значение(мн'.(н,р))\1е[1,4мн'(н,р)]}; если Р = 1, то ВГ(Н, 1) = МН, (II, 2), нг\н,\) = мн' , (II, 1); если

1 ЧМН (II, 1)

1 <р<ЧПД\н), ТО ВГ'(Н,р)= МН.(Н,р + \)-Мн' , (II, /> -1) +1,

1 ЧМН (II,р-1)

нг\н,р) = мн , (Н, р) - МП, (Н, р).

ЧМН (Н,р) 1

Задача обобщения всех ИБ обучающей выборки состоит в том, чтобы для каждой ИБ я обучающей выборки < сформировать ее обобщение.

ху

Определим отношение эквивалентности между ИБ обучающей выборки < по признаку, для которого решается задача кластеризации, следующим образом. Будем говорить, что две ИБ Я' и ИБ Яу обучающей выборки эквивалентны,

если для их обобщений 7(11') и /(Я') имеет место ЧПД (Н') = ЧПД(П>) и для всех ПД с номерами р е[\,ЧПД(11')] выполнены следующие условия: 3дп'(н',р)г13дп'(н{,р)*0, вг\н',р)>нг\н',р), нг\н',р)^вг'(11],р). Будем также считать, что для данного отношения выполнено условие транзитивности, т.е. если Я' эквивалентно Я* и Я* эквивалентно Н1, то я' эквивалентно Яу . Из определений индуктивных кластеров в' и отношения эквивалентности между ИБ следует, что две ИБ, принадлежащие одному и тому же индуктивному кластеру, принадлежат одному и тому же ВКП (кластеру ПО). Эти ИБ принадлежат обучающей выборке поэтому каждая из них принадлежит одному из

ВКП (кластеров ПО). Из способа формирования обобщений ИБ и определения эквивалентности ИБ следует, что любому индуктивному кластеру принадлежат ИБ, соответствующие одному и тому же ВКП (кластеру ПО).

Задача формирование набора индуктивных кластеров состоит в том, чтобы разбить обучающую выборку * на классы эквивалентности В .

Задача вычисления значений параметров индуктивных кластеров состоит в

том, чтобы найти оптимальные значения всех параметров ц , всех индуктивных

ь

I

кластеров В , одноименных параметрам ВКП (кластера ПО) ц ,.

ь

Свойства алгоритма направленного поиска расстановок границ периодов динамики для решения частной задачи кластеризации для пары (заболевание у.,

признак х.) для онтологии медицинской диагностики, приближенной к реальной, были исследованы методом получения оценок внешних и внутренних свойств ал-

горитмов классификации. Для этого были проведены две серии компьютерных экспериментов: в 1-ой серии были получены оценки свойств алгоритма в условиях хорошей разделимости заболеваний (классов ПО), которая смоделирована тем, что в МБЗ разные заболевания генерировались независимо друг от друга (случайным образом в рамках заданных ограничений); во 2-ой серии были получены оценки свойств алгоритма в условиях плохой разделимости заболеваний, которая в отличие от предыдущей серии смоделирована тем, что в МБЗ у разных заболеваний (случайным образом в рамках заданных ограничений) генерировались: совпадающими значения параметра «клиническая картина» и количества ВКП (кластеров ПО) для одних и тех же признаков, у соответствующих ВКП совпадающими значения параметров «число периодов динамики» и «номер критического периода динамики», в соответствующих ПД соответствующих ВКП совпадающими значения параметров «значения для периода» и «нижняя граница», а разница между значениями параметров «верхняя граница» в диапазоне от -1 до 1.

Для каждой серии компьютерных экспериментов были сгенерированы 5 различных МБЗ. На основе каждой МБЗ были сгенерированы: 5 наборов модельных обучающих выборок, каждый из которых включал по одной выборке объемом от 10 до 2560 (каждый следующий объем больше предыдущего в два раза) ИБ каждого заболевания; одна модельная контрольная выборка объемом 2560 ИБ каждого заболевания. Для проведения серий компьютерных экспериментов был разработан комплекс программ, соответствующий схеме организации компьютерных экспериментов на модельных данных, предложенной в работе (Рис.1).

В компьютерных экспериментах показано, что алгоритм направленного поиска расстановок границ периодов динамики для модели зависимости с параметрами (онтологии медицинской диагностики, приближенной к реальной) имеет хорошие оценки внутренних свойств во всех сериях компьютерных экспериментов, т.е. что с ростом объема ц обучающих выборок г присутствует устойчивая сходимость Р., (ц) к 1 (Рис.3). Также показано, что вне зависимости от степени

мт .. . ,

разделимости классов ПО, оценки внешних свойств алгоритма классификации для модели зависимости с параметрами (онтологии медицинской диагностики, приближенной к реальной) являются относительно хорошими (Рис.4).

В четвертой главе решается четвертая задача диссертации. Разработан комплекс программ и технология его применения для Индуктивного формирования баз медицинских знаний (в форме, принятой в медицинской литературе), включающий в себя следующие подсистемы: ввода ИБ "(сторонняя); преобразования обучающей выборки во внутренний формат алгоритма Классификации; индуктивного формирования баз знаний, реализующую алгоритм классификации (разработанный в диссертации); представления баз знаний в форме, принятой в медицинской литературе. .

Обучающая выборка реальных данных, которая была использована при апробации комплекса программ, содержит 69 ИБ заболеваний раздела медицины «острый живот»: аппендицит (22, все с операциями), холецистит (17, из них 8 с операциями), панкреатит (16, все без операций), перфоративная язва желудка (14, все с операциями). Комплекс программ формирует описание заболеваний, входящих в базу знаний, состоящее из описаний клинических проявлений признаков,

входящих в КК этих заболеваний. Для каждого признака указывается количество ИБ, в которых он наблюдался, число вариантов его клинического проявления, а также описание этих вариантов. Описание варианта содержит информацию о числе ПД в нем, о значениях признака в этих ПД и о границах длительности этих ПД. При этом для каждого варианта указывается количество ИБ, которое его поддерживает, а также приводятся номера этих ИБ. Описание заболевания содержит дополнительную информацию об ИБ обучающей выборки с этим диагнозом: количество часов, прошедших с момента начала заболевания до поступления больного в клинику, была ли проведена операция (и, если да, то через сколько часов после поступления), а также количество дней, проведенных в клинике.

і'

■ . .

-—

К і •. ■■ 1

■■■і

і '

Рис.3. Оценки внутренних свойств алгоритма классификации для онтологии медицинской диагностики, приближенной к реальной, для случаев хорошей (вверху) и плохой (внизу) разделимости заболеваний

I: 1= 1 1

...... і

к .

Рис.4. Оценки внешних свойств алгоритма классификации для онтологии медицинской диагностики, приближенной к реальной, для случаев хорошей (слева) и плохой (справа) разделимости заболеваний

Приведем пример описания признака «Боли в животе (Локализация)» при заболевании «аппендицит»: Количество ИБ, в которых наблюдался признак, равно 22. Число вариантов динамики равно 9. В 1-ом варианте ЧПД=2: эпигастральная область, затем через 5-7 часов правая подвздошная область (вариант поддерживают 6 ИБ). Во 2-ом варианте ЧПД=1: правая подвздошная область (вариант поддерживают З ИБ). В 3-ем варианте ЧПД=2: весь живот, правая половина живота, затем через 3-12 часов правая подвздошная область (вариант поддерживают 6 ИБ). В 4-ом варианте ЧПД=2: нижний отдел живота, затем через 8 часов правая подвздошная область (вариант поддерживают 2 ИБ). В 5-ом варианте ЧПД=3: околопупочная область, правая подвздошная область, через 12 часов нижний отдел живота, затем через 3 часа околопупочная область (вариант поддерживает 1 ИБ). В 6-ом варианте ЧПД=3: эпигастральная область, затем через 5 часов правая подвздошная область, затем через 4 часа эпигастральная область (вариант поддерживает 1 ИБ). В 7-ом варианте ЧПД=2: весь живот, правая под-

вздошиая область, затем через 13 часов околопупочная область (вариант поддерживает 1ИБ). В 8-ом варианте ЧПД=2: правое подреберье, затем через 9 часов правая подвздошная область (вариант поддерживает 1 ИБ). В 9-ом варианте ЧПД=2: весь живот, затем через 18 часов правая половина живота (вариант поддерживает 1 ИБ).

По мнению эксперта, база знаний, полученная в работе, представлена в форме, понятной практикующему врачу. При этом описания заболеваний соответствуют знаниям, имеющимся в научной и учебной медицинской литературе, а в ряде случаев дополняют их описанием динамики клинических проявлений. Формальное представление базы знаний позволяет использовать ее в экспертных системах медицинской диагностики. При этом, по мнению эксперта, ввиду высокой степени интерпретируемости полученных в работе описаний заболеваний, база знаний может быть использована при обучении студентов медицинских ВУЗов, а в случае обработки обучающей выборки большого (десятки тысяч ИБ) объема, состоящей из хорошо обследованных ИБ, сформированная на ее основе база знаний может быть использована и врачами в их профессиональной деятельности.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Разработана новая постановка задачи классификации для математических моделей зависимости с параметрами (как частный случай задачи оценки значений параметров модели), в которой качество алгоритма классификации оценивается на основе близости вычисленных значений параметров модели к значениям, характеризующим предметную область. -

2. Предложен метод получения оценок внешних и внутренних свойств алгоритмов классификации для моделей зависимости с параметрами с помощью компьютерных экспериментов на модельных данных. Используя этот метод, в сериях компьютерных экспериментов показано, что оценки внешних свойств алгоритмов классификации (которые связаны с: постановкой задачи классификации, рассматриваемой в литературе) в большей мере отражают степень разделимость классов предметной области и в меньшей — свойства алгоритма классификации, а оценки внутренних свойств (которые связаны с постановкой задачи классификации, разработанной в диссертации), напротив, отражают именно свойства алгоритма классификации, и в меньшей мере связаны с разделимостью классов предметной области, т.е. решение задачи классификации в постановке, разработанной в диссертации, является и решением задачи классификации в традиционной постановке, однако обратное не всегда верно.

3. Разработана новая постановка задачи кластеризации для математических моделей зависимости с параметрами (как частный случай задачи оценки значений параметров модели), в которой качество алгоритма кластеризации зависит от выбранной модели зависимости с параметрами. Разработан алгоритм классификации для практически полезной и хорошо интерпретируемой математической модели зависимости с параметрами, являющейся онтологией медицинской диагностики, приближенной к реальной (заданной системой логических соотношений с параметрами), решающий задачу классификации, а также частную задачу кластеризации в новых постановках. С помощью компьютерных экспериментов на модельных данных показано, что разработан-

ный алгоритм классификации имеет хорошие оценки внутренних свойств и что вне зависимости от степени разделимости классов предметной области, оценки внешних свойств этого алгоритма являются относительно хорошими.

4. Разработан комплекс программ и технология его применения для индуктивного формирования баз медицинских знаний в форме, принятой в медицинской литературе. При помощи этого комплекса, на основе обучающей выборки реальных данных, содержащей 69 историй болезни из раздела медицины «острый живот», индуктивно сформирована база знаний, представленная в форме, понятной практикующему врачу. Полученные описания заболеваний, входящие в базу знаний, по оценке эксперта, соответствуют знаниям, имеющимся в научной и учебной медицинской литературе, а в ряде случаев дополняют их описанием динамики клинических проявлений; кроме того, полученная база знаний подтверждена реальными историями болезни из обучающей выборки. Формальное представление базы знаний позволяет использовать ее в экспертных системах медицинской диагностики.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Клещев A.C., Смагин C.B. Распараллеливание вычислений при решении задачи индуктивного формирования баз знаний. // Искусственный интеллект. -2006. - №3. - С. 421-428.

2. Клещев A.C., Смагин C.B. Организация компьютерных экспериментов по индуктивному формированию знаний. // Научно-техническая информация. Серия 2. - М.: ВИНИТИ РАН. - 2008. - №1. - С. 16-24.

3. A.S. Kleshchev and S.V. Smagin. Organization of computer experiments on inductive knowledge discovery. // Automatic Documentation and Mathematical Linguistics.-2008.-Volume42,-Number l.-pp. 17-26.

4. Клещев A.C., Смагин C.B. Общий подход к проведению компьютерных экспериментов по индуктивному формированию знаний. // Программные продукты и системы. — М.: Изд-во Международный научно-исследовательский институт проблем управления. -№1. - 2008. - С. 56-58.

5. Клещев A.C., Смагин C.B. Некоторые свойства метода случайной расстановки границ периодов динамики. // Информатика и системы управления. - 2009. -№1(19).-С. 103-115. ,

6. Клещев A.C., Смагин C.B. Экспериментальное исследование свойств метода Монте-Карло для индуктивного формирования знаний в терминах упрощенной онтологии медицинской диагностики. // Научно-техническая информация. Серия 2. - М.: ВИНИТИ РАН. - 2009. -№7. - С. 12-23.

7. A.S. Kleshchev and S.V. Smagin. Experimental study into the properties of the Monte-Carlo method for inductive formation of knowledge in terms of a simplified ontology for medical diagnostics. // Automatic Documentation and Mathematical Linguistics. - 2009. - Volume 43. - Number 4. - pp. 207-220.

8. Клещев A.C., Смагин C.B. Экспериментальное исследование свойств специализированных методов индуктивного формирования знаний для онтологий медицинской диагностики. // Материалы Всероссийской конференции с международным участием «Знания - Онтологии - Теории» (30HT-2009). - Новосибирск: ЗАО «РИЦ Прайс-Курьер». - 2009. - Том 1. - С. 137-146.

9. Клещев А.С., Смагин С.В. О роли внешних и внутренних оценок свойств методов индуктивного формирования знаний. // Научно-техническая информация. Серия 2. - М.: ВИНИТИ РАН. - 2011. -№4. - С. 22-35.

10. A.S. Kleshchev and S.V. Smagin. The role of internal and external evaluation of - properties of methods for the inductive formation of knowledge. // Automatic

Documentation and Mathematical Linguistics. - 2011. - Volume 45. - Number 2. -pp. 91-106.

11. Клещев A.C., Смагин С.В. Выбор метода индуктивного формирования знаний для практического применения. // Материалы Всероссийской конференции с международным участием «Знания — Онтологии — Теории» (30HT-2011). — Новосибирск: ЗАО «РИЦ Прайс-Курьер». - 2011. - Том 2. - С. 15-24.

12. Клещев А.С., Смагин С.В. Задачи индуктивного формирования знаний для онтологии медицинской диагностики. // Научно-техническая информация. Серия 2. -М.: ВИНИТИ РАН, - 2012. -№1. - С. 9-21.

13. A.S. Kleshchev and S.V. Smagin. Problems of inductive formation of knowledge in the ontology of medical diagnosis. // Automatic Documentation and Mathematical Linguistics. - 2012. - Volume 46. - Number 1. - pp. 8-21.

Личный вклад автора. Все результаты, составляющие основное содержание диссертации, получены автором самостоятельно. В работе [1] автором разработан алгоритм распараллеливания вычислений для задачи индуктивного формирования знаний. В работах [2-4] автором описана схема организации серии компьютерных экспериментов на модельных данных. В работах [5-11] автором проведены экспериментальные исследования алгоритмов классификации. В работах [12,13] автором предложены постановки задач классификации и кластеризации для математических моделей зависимости с параметрами, алгоритм классификации для онтологии медицинской диагностики, приближенной к реальной, а также проведено его экспериментальное исследование.

Смагин Сергей Владимирович

- Метод оценки значений параметров математической модели медицинской диагностики

Автореферат

Подписано к печати 16.07.2012 Формат 60x84/16

Усл. печ.л. 1.0 Тираж 100

Уч.-изд.л. 0.8 Заказ 25

Издано ИАПУ ДВО РАН, Владивосток, Радио, 5 Отпечатано участком оперативной печати ИАПУ ДВО РАН Владивосток, Радио, 5

Оглавление автор диссертации — кандидата технических наук Смагин, Сергей Владимирович

Глоссарий терминов.

Заключение диссертация на тему "Метод оценки значений параметров математической модели медицинской диагностики"

Заключение

В настоящей работе получены следующие результаты:

1. Разработана новая постановка задачи классификации для математических моделей зависимости с параметрами (как частный случай задачи оценки значений параметров модели), в которой качество алгоритма классификации оценивается на основе близости вычисленных значений параметров модели к значениям, характеризующим предметную область.

2. Предложен метод получения оценок внешних и внутренних свойств алгоритмов классификации для моделей зависимости с параметрами с помощью компьютерных экспериментов на модельных данных. Используя предложенный метод, в сериях компьютерных экспериментов показано, что при хорошей разделимости классов предметной области плохой алгоритм классификации может иметь как абсолютно (и относительно) хорошие, так и абсолютно (и относительно) плохие оценки внешних свойств, а при плохой разделимости классов предметной области такой алгоритм имеет абсолютно и относительно плохие оценки внешних свойств. Также показано, что вне зависимости от степени разделимости классов предметной области, оценки внешних свойств хорошего алгоритма классификации являются относительно хорошими, а при плохой разделимости классов предметной области оценки внешних свойств такого алгоритма являются абсолютно плохими. Тем самым показано, что оценки внешних свойств алгоритмов классификации (связанные с постановкой задачи классификации, рассматриваемой в литературе) в большей мере отражают степень разделимости классов предметной области и в меньшей - свойства алгоритма классификации, а оценки внутренних свойств (связанные с постановкой задачи классификации, разработанной в диссертации), напротив, отражают именно свойства алгоритма классификации, и в меньшей мере связаны с разделимостью классов предметной области, т.е. решение задачи классификации в разработанной в диссертации постановке является и решением задачи классификации в традиционной постановке, однако обратное не всегда верно.

3. Разработана новая постановка задачи кластеризации для математических моделей зависимости с параметрами (как частный случай задачи оценки значений параметров модели), в которой качество алгоритма кластеризации зависит от выбранной модели зависимости с параметрами. Разработан алгоритм классификации для практически полезной и хорошо интерпретируемой математической модели зависимости с параметрами, являющейся онтологией медицинской диагностики, приближенной к реальной (заданной системой логических соотношений с параметрами), решающий задачу классификации, а также частную задачу кластеризации в новых постановках. С помощью компьютерных экспериментов показано, что разработанный алгоритм классификации для модели зависимости с параметрами (онтологии медицинской диагностики, приближенной к реальной) является хорошим. При этом показано, что вне зависимости от степени разделимости классов предметной области, оценки внешних свойств разработанного алгоритма для онтологии медицинской диагностики, приближенной к реальной, являются относительно хорошими.

4. Разработан комплекс программ и технология его применения для индуктивного формирования баз медицинских знаний в форме, принятой в медицинской литературе. При помощи этого комплекса, на основе обучающей выборки реальных данных, содержащей 69 историй болезни из раздела медицины «острый живот», индуктивно сформирована база знаний, представленная в форме, понятной практикующему врачу. Полученные описания заболеваний, входящие в базу знаний, по оценке эксперта соответствуют знаниям, имеющимся в научной и учебной медицинской литературе, а в ряде случаев дополняют их описанием динамики клинических проявлений; кроме того, полученная база знаний подтверждена реальными историями болезни из обучающей выборки. Формальное представление базы знаний позволяет использовать ее в экспертных системах медицинской диагностики. При этом, по мнению эксперта, ввиду высокой степени интерпретируемости полученных в работе описаний заболеваний, база знаний может быть использована при обучении студентов медицинских ВУЗов, а в случае обработки обучающей выборки большого объема, состоящей из хорошо обследованных историй болезни, сформированная на ее основе база знаний может быть использована и врачами в их профессиональной деятельности.

Библиография Смагин, Сергей Владимирович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Вагин В.Н., Головина Е.Ю., Загорянская А.А., Фомина М.В. Достоверный и правдоподобный вывод в интеллектуальных системах / Под ред. В.Н. Вагина, Д.А. Поспелова. - М.: ФИЗМАТЛИТ. - 2004. -704 с.

2. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. -Новосибирск: Изд-во Ин-та математики. 1999. - 270 с.

3. Ryszard S. Michalski, Kenneth A. Kaufman. Data Mining and Knowledge Discovery: A Review of Issues and a Multistrategy Approach. 1997. rhttp://citeseer.ist.psu.edu/michalski97data.html.

4. Frawley W., Piatetsky-Shapiro G., Matheus C. Knowledge Discovery in Databases: An Overview. AI Magazine. - 1992. - Vol. 13. No. 3. - pp. 5770. rhttp://www.aaai.org/ois/index.php/aimagazine/article/viewArticle/10111.

5. MachineLearning.ru Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных rhttp://machinelearning.ru/l

6. Fayyad U. Piatetsky-Shapiro G., Smyth P. From Data Mining to Knowledge Discovery in Databases. AI Magazine. - 1996. - Vol. 17. No. 3. - pp. 3754. rhttp://www.aaai.org/ois/index.php/aimagazine/article/viewArticle/12301

7. Вапник B.H., Червоненкис А.Я. Теория распознавания образов. -М.: Наука. 1974.-416 с.

8. Журавлев Ю.И., Рязанов В.В., Сенько О.В. «Распознавание». Математические методы. Программная система. Практические применения. М.: Фазис. - 2006.

9. Neyman J., Pearson E.S. On the problem of the most efficient tests of statistical hypothesis. 1933. - Philos Trans R Soc Lond. - pp. 289-337.

10. Fisher R.A. The use of multiple measurements in taxonomic problems, Ann. Eugenics. 1936. - 7. Part II. - pp. 179-188.

11. Wald A. Contributions to the theory of statistical estimation and testing of hypotheses. 1939. - Ann.Math.Stat. 10. - pp. 299-326.

12. Розенблатт Ф. Принципы нейродинамики (перцептрон и теория механизмов мозга). М.: Мир. - 1965. - 480 с.

13. Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. М.: Наука. - 1970. - 384 с.

14. Бонгард М.М. Проблема узнавания. М.: Наука. - 1967. - 320 с.

15. Журавлев Ю.И., ИЗБРАННЫЕ НАУЧНЫЕ ТРУДЫ. M.: Издательство Магистр. - 1998.-420 с.

16. Мазуров Вл.Д. Метод комитетов в распознавании образов. -Свердловск: ИММ УНЦ АН СССР. 1974. - 165 с.

17. Загоруйко Н.Г. Методы распознавания и их применение. М.: Сов.радио. - 1972. - 206 с.

18. Ивахненко А.Г. Системы эвристической самоорганизации в технической кибернетике. Киев: Техшка. - 1971. - 372 с.

19. Лбов Г.С. Методы обработки разнотипных экспериментальных данных. // Новосибирск. Наука. 1981. - 160 с.

20. Себастьян Г.С. Процессы принятия решений при распознавании образов. -М.: Изд-во «Техника». 1965.

21. Фукунага К. Введение в статистическую теорию распознавания образов.- М.:Наука. 1979. - 367 с.

22. Fu K.S. Sequential Methods in Pattern Recognition and Machine Learning. -1968. Academic Press. New York.

23. Minsky M., Papert S. Perceptrons: An Introduction to Computational Geometry (MIT Press, Cambridge, Mass., 1969). Русский перевод: Перцептроны. - M.: «Мир». 1971.

24. Nilsson N.J. Learning Machines (McGraw-Hill, New York, 1965). Русский перевод: Обучающие машины. - M.: «Мир». - 1967.

25. Дмитриев А.Н., Журавлев Ю.И., Кренделев Ф.П. О математических принципах классификации предметов и явлений. Сб. «Дискретный анализ». Вып. 7. Новосибирск. ИМ СО АН СССР. - 1966. - С. 3-11.

26. Журавлев Ю.И., Никифоров В.В. Алгоритмы распознавания, основанные на вычислении оценок. // Кибернетика. 1971. - №3. - С. 1-11.

27. Журавлев Ю.И., Об алгебраическом подходе к решению задач распознавания или классификации. Проблемы кибернетики. М.: Наука.- 1978. Вып.ЗЗ. - С.5-68.

28. Журавлев Ю.И. Корректные алгебры над множествами не корректных (эвристических) алгоритмов. I. // Кибернетика. 1977. - N4. - С. 5-17., II. Кибернетика. - 1977. - N6., III. Кибернетика. - 1978. - N2. - С. 35-43.

29. Рудаков К.В. Об алгебраической теории универсальных и локальных ограничений для задач классификации. // Распознавание, классификация, прогноз: Матем. методы и их применение. М.: Наука.- 1988. -Вып. 1.-С. 176-200.

30. Матросов В.Л. Синтез оптимальных алгоритмов в алгебраических замыканиях моделей алгоритмов распознавания. // Распознавание, классификация, прогноз: Матем. методы и их применение. М.: Наука. - 1988. -Вып.1. - С.229-279.

31. Рязанов В.В. О построении оптимальных алгоритмов распознавания и таксономии (классификации) при решении прикладных задач. // Распознавание, классификация, прогноз: Матем. методы и их применение. М.: Наука. - 1988. - Вып.1. - С.229-279.

32. Рязанов В.В. Комитетный синтез алгоритмов распознавания и классификации. // ЖВМ и МФ. 1981. - Том 21. - №6. - С. 1533-1543.

33. Рязанов В.В. О синтезе классифицирующих алгоритмов на конечных множествах алгоритмов классификации (таксономии). // ЖВМ и МФ. -1982. Том 22. - №2. - С.429-440.

34. Дюкова Е.В. Асимптотически оптимальные тестовые алгоритмы в задачах распознавания. // Проблемы кибернетики. М.: Наука. - 1982. -Вып.39.-С. 165-199.

35. Дюкова Е.В. Алгоритмы распознавания типа «Кора»: сложность реализации и метрические свойства. // Распознавание, классификация, прогноз (матем. методы и их применение). М.: Наука. - 1989. - Вып.2. -С. 99-125.

36. Сенько О.В. Использование процедуры взвешенного голосования по системе базовых множеств в задачах прогнозирования. // М. Наука, Ж. вычисл. матем. и матем. физ. 1995. -Т.35. -№ 10. - С. 1552-1563.

37. Донской В.И. Алгоритмы обучения, основанные на построении решающих деревьев. // Журнал выч. мат. и матем. физики. 1982. -Т.22. - №4. - С. 963-974.

38. Донской В.И., Башта А.И. Дискретные модели принятия решений при неполной информации. Симферополь: Таврия. - 1992. - 166 с.

39. Лбов Г.С., Бериков В.Б. Устойчивость решающих функций в задачах распознавания образов и анализа разнотипной информации. -Новосибирск: Изд-во Ин-та математики. 2005. - 218 с.

40. Владимир Вежневец. Оценка качества работы классификаторов. Компьютерная графика и мультимедиа. 2006. - Выпуск №4(1).

41. Загоруйко Н.Г. Проблемы построения эмпирической теории интеллектуального анализа данных. // Материалы Всероссийской конференции с международным участием «Знания Онтологии -Теории» (ЗОНТ-07). Т. 1. - Новосибирск. - 2007. - С. 4-13.

42. Орлов А.И. Заметки по теории классификации. Социология: методология, методы и математическое моделирование (Социология: 4M). - 1992. - № 2. - С. 28-50.http://ecsocman.hse.ru/data/2012/03/14/1216861661/Qrlov.pdfl

43. Орлов А.И. Эконометрика. Учебник. М.: Издательство «Экзамен». -2002.

44. Data Mining управление знаниями https://sites.google.com/site/upravlenieznaniami/tehnologii-upravlenia-znaniami/data-miningl

45. Местецкий JIM. Математические методы распознавания образов. Курс лекций. МГУ. ВМиК. Кафедра «Математические методы прогнозирования». - 2002-2004. http://www.ccas.ru/frc/papers/mestetskii04course.pdf.

46. Финн В.К. Интеллектуальные системы и общество: Сборник статей. -Экспертные системы и некоторые проблемы их интеллектуализации. С. 58-90. М.: Российск. гос. гуманит. ун-т. - 2000. - 309 с.

47. Финн В.К. О роли машинного обучения в интеллектуальных системах. // НТИ. Серия 2.-М.: ВИНИТИ РАН. 1999. - № 12. - С. 1-3.

48. Витяев Е.Е. Извлечение знаний из данных. Компьютерное познание. Модели когнитивных процессов: Моногр. / Новосиб. гос. ун-т. Новосибирск. 2006. - 293 с.

49. Data Mining Cup http://www.data-mining-cup.de/en.51. «Полигон алгоритмов» распределенная система тестирования алгоритмов классификации на данных реальных прикладных задач http://poligon.machinelearning.ru/.

50. Воронцов К.В., Инякин A.C., Лисица A.B. Система эмпирического измерения качества алгоритмов классификации. // Математические методы распознавания образов-13. М.: МАКС Пресс. - 2007. - С. 577580.

51. Воронцов К.В. Обзор современных исследований по проблеме качества обучения алгоритмов. // Таврический вестник информатики и математики. 2004.

52. Дружков П.Н., Половинкин А.Н. Реализация параллельного алгоритма обучения в методе градиентного бустинга деревьев решений rhttp://pavt.susu.ru/2012/short/144.pdfl

53. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. -М.: Наука. 1979.-448 с.

54. Приобретение знаний: Пер. с япон. / Под ред. С.Осуги, Ю.Саэки. М.: Мир.-1990.-304 с.

55. Asuncion, А & Newman, D.J. (2007). UCI Machine Learning Repository rhttp://www.ics.uci.edu/~mlearn/mlrepository.htmll. Irvine, С A: University of California, Department of Information and Computer Science.

56. H. Altay Guvenir and I. Uysal, Bilkent University Function Approximation Repository rhttp;//funapp.cs.bilkent.edu.tr/datasets/l. 2000.

57. StatLib Datasets Archive. Data, Software and News from the Statistics Community rhttp://lib.stat.cmu.edu/datasets/l

58. Панкратова E.C., Добрынин Д.А., Цапенко И.В., Зуева М.В., Захарова Г.Ю. Интеллектуальная ДСМ-система для диагностики заболеваний органов зрения. // НТИ. 2007. - Сер. 2. - №3. - С. 14-18.

59. Akhiro Suyama, Takimura Yamaguchi. Specifying and Learning Inductive Learning Systems Using Ontologies. 1998. rhttp://citeseer.ist.psu.edu/suyama98specifying.htmll

60. Реброва О.Ю. Применение методов интеллектуального анализа данных для решения задачи медицинской диагностики. // Новости искусственного интеллекта. 2004. — №3. - С. 76-80.

61. Бериша A.M., Вагин В.Н., Куликов А.В., Фомина М.В. Методы обнаружения знаний в «зашумленных» базах данных. // Известия РАН. Теория и системы управления. 2005. - №6. - С. 143-158.

62. Дюк В.А. Технологии Data Mining в медико-биологических исследованиях. // Новости искусственного интеллекта. №3. - 2004. С. 49-57.

63. Powell Benedict, Larry Rendell, and the University of Illinois, 1990. Data Generation Program/2 V1.0. rhttp://www.ics.uci.edu/~mlearn/databases/dgp-2/l

64. Dataset Generator (DatGen). http://www.datgen.eom/1

65. Michie D. Expert Systems. // The Computer Journal. 1980. - Vol. 23. № 4. - pp. 369-376.

66. Клещев A.C. Задачи индуктивного формирования знаний в терминах непримитивных онтологий предметных областей. // НТИ. Серия 2. М.: ВИНИТИ РАН. - 2003. - № 8. - С. 8-18.

67. Финн В.К. Синтез познавательных процедур и проблема индукции. // НТИ. Серия 2.-М.: ВИНИТИ РАН. 1999. - № 1-2. - С. 8-45.

68. Клещев А.С., Артемьева И.Л. Необогащенные системы логических соотношений. В 2 Ч. // НТИ. Серия 2. М.: ВИНИТИ РАН. - 2000. -№ 7-8: № 7. - С. 18-28, № 8. - С. 8-18.

69. Клещев А.С., Артемьева И.Л. Математические модели онтологий предметных областей. Часть 1. Существующие подходы к определению понятия «онтология». // НТИ. 2001. - Сер. 2. - № 2. - С. 20-27.

70. Клещев А.С., Артемьева И.Л. Математические модели онтологий предметных областей. Часть 2. Компоненты модели. // НТИ. 2001. -Сер. 2.-№ 3. - С. 19-29.

71. Клещев А.С., Смагин С.В. Задачи индуктивного формирования знаний для онтологии медицинской диагностики. // НТИ. Серия 2. М.: ВИНИТИ РАН. - 2012. - №1. - С. 9-21.

72. Клещев А.С., Смагин С.В. Организация компьютерных экспериментов по индуктивному формированию знаний. // НТИ. Серия 2. М.: ВИНИТИ РАН.- 2008. -№!.- С. 16-24.

73. Клещев A.C., Смагин C.B. Организация компьютерных экспериментов по индуктивному формированию знаний. Владивосток: ИАПУ ДВО РАН.-2007.-36 с.rhttp://iacp.dvo.ru/is/publications/2007-Kleschev,Smagin-Qrganizing.pdfl

74. Смагин С.В. Организация компьютерного эксперимента по ИФБЗ на основе непримитивной онтологии медицинской диагностики с использованием МВС. // Сб. тез. докл. Дальневосточной математической шк.-сем. им. акад. Золотова. Владивосток. - 2004.

75. Клещев А.С., Смагин С.В. Генерация модельных данных для экспериментов по индуктивному формированию знаний. // Научная сессия МИФИ-2007. Сборник научных трудов. В 17 томах. Т.З. Интеллектуальные системы и технологии. М.: МИФИ. - 2007. - С. 82-83.

76. Клещев А.С., Смагин С.В. Индуктивное формирование знаний для непримитивных онтологий медицинской диагностики. // Тезисы доклада на Втором Международном форуме «MedSofit-2006» медицинские информационные технологии. 2006.

77. Клещев А.С., Смагин С.В. О роли внешних и внутренних оценок свойств методов индуктивного формирования знаний. // НТИ. Серия 2. М.: ВИНИТИ РАН. - 2011. - №4. - С. 22-35.

78. Клещев A.C., Смагин С.В. О роли внешних и внутренних оценок свойств методов индуктивного формирования знаний. Владивосток: ИАПУ ДВО РАН.-2010.-44 с.http://iacp.dvo.ru/is/publications/2010-Kleschev, Smagin-ExperTwo.pdf.

79. Соболь И.М. Метод Монте-Карло. М.: Наука. - 1968. - 64 с.

80. Miller G.A. The magic number seven, plus or minus two: some limits in our capacity for processing information. // Psycholog. Rev. 1956. - N63. -P.81-97.

81. Клещев A.C., Смагин С.В. Экспериментальное исследование свойств метода Монте-Карло для индуктивного формирования знаний в терминах упрощенной онтологии медицинской диагностики. // НТИ. Серия 2.-М.: ВИНИТИ РАН. 2009. - №7. - С. 12-22.

82. Клещев A.C., Смагин C.B. Некоторые свойства метода случайной расстановки границ периодов динамики. // Информатика и системы управления. 2009. - №1(19). - С. 103-115. rhttp://amursu.ru/attachments/ics/N19 13.pdf)

83. Клещев A.C., Смагин C.B. Компьютерный эксперимент по исследованию свойств метода случайной расстановки границ периодов динамики. Владивосток: ИАПУ ДВО РАН. 2009. - 44 с. rhttp://iacp.dvo.ru/is/publications/2009-Kleschev,Smagin-ExperQne.pdf|

84. Клещев A.C., Смагин C.B. Распараллеливание вычислений при решении задачи индуктивного формирования баз знаний. // Искусственный интеллект. 2006. - №3. - С. 421-428.

85. Клещев A.C., Москаленко Ф.М., Черняховская М.Ю. Онтология и модель онтологии предметной области «Медицинская диагностика». -Владивосток: ПАПУ ДВО РАН. 2005. - 44 с.

86. Грибова В.В., Тарасов A.B., Черняховская М.Ю. Система Интеллектуальной поддержки обследования больных, управляемая онтологией. // Программные продукты и системы. 2007. - №2. -С.49-51.

87. Учреждение Российской академии наук ИНСТИТУТ АВТОМАТИКИ И ПРОЦЕССОВ УПРАВЛЕНИЯ

88. Дальневосточного отделения РАН

89. ИАПУ ДВО РАН Радио ул., д. 5, Владивосток, 690041 Тел./факс (4232) 310439, 310452 E-mail: director@ia

90. ОКПО 02698217, ОГРН 10225021278781. УТВЕРЖДАЮ»гор ИАПУ ДВО РАН.http: www.iacp.dvo.ru 9007627/2539010011. АКТ №от « 29об использовании результатов кандидатской диссертационной работы

91. СМАГИНА СЕРГЕЯ ВЛАДИМИРОВИЧА1. Н. Кульчин Ш2г.

92. Председатель комиссии Члены комиссии:

93. В.В. Грибова A.C. Клещев М.Ю. Черняховская Е.А. Шалфеева

94. МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего профессионального образования

95. Дальневосточный федеральный университетдвфу)1. Школа естественных наук