автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Алгоритм распознавания образов, основанный на принципе самоорганизации, использующий логические решающие правила

кандидата технических наук
Жунусов, Заирбек Мамытбекович
город
Москва
год
1990
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Алгоритм распознавания образов, основанный на принципе самоорганизации, использующий логические решающие правила»

Автореферат диссертации по теме "Алгоритм распознавания образов, основанный на принципе самоорганизации, использующий логические решающие правила"

ГОСУНпРСГЕНтКЬЙ ЮШГЕГ СССР ПО НАРОШОи/ ОБРАЗОВАНИЯ

МОСКОВСКИЙ ОРДЕНА ОКТЯБРЬСКОЙ РЕЭОЯШИ И ОРДЕНА ТРУДОВОГО КРАСШГО ЗНАМЕНИ ИСГШТ НШГИ И ГШ ИМ. И.И. ГУШИНА

На правах рукописи Ш 62-506.2

2ШС0В Заирбек ЦаштСакович

АЛГОРИТМ РАСПОЗНАВАНИЯ ОБРАЗОВ, ОСНОВАННЫЙ НА ПРИНЦИПЕ САМООРГАНИЗАЦИИ, ИСПОЛЬЗУШИЙ ЛОГИЧЕСКИЕ РШЕЕИЕ ПРАВИЛА

Сб.13.18 - Применение вычислительной техники, иатеиатачсского иолалирования и иатецаткческюс ыатодов в научных исследованиях (по отраслям наук)

Автореферат диссертации на соискание ученой степени кандидата технических наук

Москва - 1890

Работа выполнена в Ордена Ленина Институте проблей управления (автоматики и телемеханики) АН СССР.

Научный руководитель:

доктор технических наук, профессор А.и.Петровский

Официальные оппоненты:

доктор технических наук, профессор Б.А..Иинаев

кандидат технических наук, с.к.с. А.Г.Ланита „

Белушая организация: Всесышый научно-исследовательские институт медицинского приборостроения.

Запита состоится "_"_ 1060 г. в час.

уин. на заседании Специализированного совета KQ63.Z7.10 Института нефти и газа иы. И.Ы.Губкина по алресу: 117917, ГСГ1-1, Ленинский просп., 65.

С диссертацией иохно ознакомиться в библиотеке Института нефти и газа им. И.и.Губкина.

Автореферат разослан "_"_ 1690 г.

Ученый секретарь

Специализированного совета 1

кандидат технических наук, дошит В.и.Волков

• V'

Актуальность темы. Многие задачи современного естаствозна- |

кия и техники сводятся к распознаванию объекта и его состояния. |

Н их числу иохно отнести пгоб/ему раннего выявления заболевания, |

I

которая может быть решена с помощью математических методов, ос- |

нованных на распознавании образов. I

I

Проблема раннего выявления заболевания включает сложные, I

I

многсальтврнативныа задачи, значительная часть из которых каса- >

ется разработки и использования формализованных методов рас- !

познавания и управления лечением этих заболеваний. Примером . ■

I

такого рода исследования является серия "ИаШтаисв 1п Це<11е1- I

пе", издаваемая в Оксфордском университете. |

В наше время одноЯ из основных причин инвалидизации и * смертности и связанных с этим трудаштерь являются хронические 1 неинфекционные заболевания. На это обращается внимание и в постановлении Ш КПСС и СЫ СССР "Основные направления развития ох- I раны здоровья населения и перестройка здравоохранения в двенад- ' цатой пятилетке и на период до 2000 года" от 27 ноября 1097 г., | где отмечено, что активное, динамическое наблюдение за здоровьем • каждого гражданина ка протяжении всей его жизни - одна из основ- 1 них задач, стоящих перед здравоохранением страны.

Принятие решения в области раннего выявления и управления

лечением неинфекшсошшх заболевания во многом связывается с \

концепцией распознавания образов и медицинскими экспертными сис- |

темами. При этом существенным является исследование вопроса |

сочетания чисто медицинских знания и формализованных методов в '

рамках рассматриваемой проблемы. Отметим, что алгоритмизация !

диагностики - это новыЯ подход к диагностическому процессу, { который позволяет наряду с "творческим" методом постановки диагноза, основанным на искусстве диагностики, использовать так называемый "коллективный" опыт.

Более того, при распознавании болезни врач располагает все увеличивавшейся сСьаиои медицинской информации, и нередки ситуации, в которых »та информация оказывается неполной и только косвенно связанной с тем, что ему в действительности нужно знать о больном. Для того, чтобы справиться с такими объемами информации нужно использовать соотватствушие математические методы с применением ЗВК. Это освободит врача от необходимости заниматься рутинной работой и позволит использовать формализуете методы диагностики, описываемые в вице алгоритмов.

Исследование суяестаушего опыта применения методов распознавания к решению задач медицинской диагностики показывает, что задача раннего выявления заболеваний является специфической задачей распознавания образов, осховнши особенностями которой являются ограниченность объема обучавдей выборки, наличие информативных сочетаний признаков * разнотипность признаков. Эти особенности накладывают определенные требования на применяемые методы распознавания, поскольку они лежат в существе деда. Разработка алгоритмов распознавания, позволяющих находить относительно легко интерпретхруаше ренегата правила с учетом указанных особенностей задачи раннего выявления заболеваний, а также применение их в современных медицинских экспертных системах является аффективным средством для снижения социальных и экономических последствий хронических наинфехциошмх заболеваний,

Создание принципиальных основ построения диагностических распознающих систем, позволявших/строить на основе данных ограниченного объема доступные и приемлемые для врача, реаевдке правила с целью выявления больных на ранней стадии и оказания им квалифицированной помош является путем для эффективного использования реальных ресурсов здравоохранения.

Цель работы - разработка математических методов, основанных

на творим распознавания образов и ориентированных для построения алгоритмов распознавания, позволяющих находить относительно легко интерпретируемые решашие правила при решении задач специального типа, характеризувдихся следующими основными особенностями: ограниченный объемом обучающей выборки, наличной информативных сочетания признаков и разнотипностью признаков.

Поставленная цель обуславливает решение следующих частных задач:

1. Разработка теоретических основ для построения алгоритма обучения распознавание образов, позволяющего строить легко интерпретируемые решающие правила с учетом специфики выделенного класса задач.

2. Построение математической модели оценивания качества классификации получаемых решающих правил, предназначенной для оптимального разбиения количественных признаков на градации и разделения верифицированной выборки на обучающую и проверочную части.

3. Исследование построенной математической модели и ее верификация путем проведения модельного эксперимента с целью определения достоверности получаемых оценок качества классификации линейных решающих правил.

4. Проверка работоспособности разработанного алгоритма распознавания и сравнение качества получаемых им результатов с результатами работы других известных алгоритмов распознавания при решении тестовой задачи в условиях ограниченности объема данных.

5. Применение разработанного алгоритма распознавания и математической модели для решения задачи формирования групп повышенного риска ¡заболевания на примере сахарного диабета с целью выработки относительно легко интерпретируемых правил и их последующего использования при проведении массовых профилактических осмотров населения; оценка эффективности полученных решающих

правил.

Методы исследования. В теоретических исследованиях использован аппарат теории вероятностен, математической статистики и теории распознавания образов. Пакет программ алгоритмов обучения распознаванию образов и математической модели оценки потерь классификации разработан на СЫ ЭВМ.

Научная новизна. В диссертации разработаны математические методы, ориентированные на новые варианты алгоритмов распознавания образов, предназначенные для решения специфических задач, характеризующихся следующими основными свойствами: ограниченное тьо объема обучающей выборки, наличием информативных сочетаний признаков и разнотипность® признаков. Указанные методы основаны на сочетании принципа самоорганизации математических моделей и использовании класса логических реоаювих правил, в результате чего при помощи созданных алгоритмов оказывается возможным нахождение относительно легко интерпретируемых (правил оптимальной, в смысле выбранных внешних критериев, сложности в условиях ограниченной выборки.

Предложена математическая модель, позволявшая в аналитическом виде оценить ошибки классификации байесовского линейного решавшего правила для независимых мультиномиальных признаков в зависимости от объема обучащай выборки. Разработана методика использования данной модели для оптимального разбиения количественных признаков на градации и разделения верифицированной выборки на обучающую и проверочную части.

Практическая ценность состоит в разработке математических основ и вычислительных методов развития направления распознавания образов, ориентированных на определенный класс задач, вклв-чаший задачи раннего выявления заболеваний.

Применение разработанных математических методов для решения

задач раннего выявления заболевания на примере сахарного диабета, а также использование полученных решавдих правил на практике в рамках медицинской экспертной системы ЗДШР при проведении массовых профилактических осмотров населения путем диалога пациента и ЗШ показало, что благодаря использованию разработанных математических методов удалось в допустимых пределах в два-три раза сократить время опроса пациентов на диабет, снизить нагрузку на участкового врача, улучшить качество работы по выявлению больных, а также экономить примерно ВОЦ тех средств, которые были бы израсходованы при сплошном обследовании населения на диабет путем проведения лабораторных анализов.

Решающие правила, получаемые при помощи разработанных алгоритмов распознавания отвечают основным требованиям, предъявляемым к методике сбора и обработке информации современными экспертными системами.

Реализация результатов работы. Результаты диссертационной работы внедрены в поликлинике Ш1 Главного медицинского Управления АН СССР и центральной поликлинике №1 Главного врачебно-сани-тарного Управления ШС СССР при разработке эндокринологического блока медицинской экспертной системы, предназначенной для формирования групп повышенного риска по основным формам неинфекционных хронических заболеваний: пакет программ, предназначенный для статистической обработки данных, нахождения относительно легко интерпретируемых решающих правил в условиях дефицита данных, а также опроса пациентов; принципы организации ведения диалога и построения решающих процедур.

Апробация работы. Основные результаты диссертации докладывались и обсуждались на:

- Выставках НГО-Яв ВДНХ СССР, ИША-89 выставочного комплекса на "Красной Пресна", 1ШШОС1РОЕШЕ-0О ВДНХ СССР (Серебряная ме-

- о —

даль ВДНХ, 1583 г.);

- XII, XIII конференции молода ученых и специалистов ЮТИ 1967-1868 гг.(Грамота аа I место, 1068 г.);

- Всесоюзной иколе-совеяании "Проблемы проектирования экспертных систем" (Суханово, 1868);

-XIII Международном конгрессе по проблемам сахарного диабета (Сидней, 1868);

- Всесоюзной конференции по прмкладнш проблемам управления макросистемами (Кировск, 1968);

- Первой конференции медицинской иколы мальтийского университета | (Мальта, 1968);

- Международном симпозиуме "ИНШШКЛТИКА-бЭ" (Минск, 1968);

- Первой Международной научно-практической конференции молодых ученых и специалистов в области приборостроения "ИШШРИБ0Р-90" (Москва, 1890).

Публикации, По теме диссертации автором опубликовано 8 печатных работ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения и списка литературы, содержит 162 страницы машинописного текста, 22 рисунка, 10 таблиц, список литературы из 101 наименования.

ООДЛДЯВ РАБОТУ

Во введении обоснована актуальность теш диссертационной работы, показана необходимость использования математических методов, основанных на распознавании оСравов для решения задач раннего выявления неинфекционных хронических заболеваний.

Первой глава содержит обзор методов и алгоритмов распознавания образов применительно к решении задач специального типа.

Исследуются основные особенности этого тшш задач и их влияние на выбор того или иного метода распознавания. Рассмотрена специфика задач медицинской диагностики, а также опыт решения подобных задач, приводимый в литературе.

В 1.1 представлен обзор основных подходов к решение задач распознавания образов, рассмотрены некоторые характеристики этих подходов в плане решения специфических задач, основными особенностями которых являются ограниченность объема обучающей выборки, наличие информативных сочетаний признаков и разнотипность признаков. Показано, что при решении подобных задач известными методами распознавания могут возникать определенные трудности.

В 1.2 исследуются вопросы влияния объема обучающей выборки на качество классификационных правил и выбор класса решающих правил. Обращено внимание на то, что в условиях ограниченной обучающей выборки существует оптимальная мера сложности класса решающих правил, а дальнейшее усложнение правил ведет к ухудшению качества распознавания.

В 1.3 рассмотрен метод структурной шшимиведои риска, который, вообще говоря, позволяет добиться более глубокого гарантированного минимума риска, чем тот, который следует из метода минимизации эмпирического риска. В связи с этим показано, что часто эффективно могут работать лишь те алгоритмы, которые рассчитаны только на достаточно узкий класс задач по сравнению со всеми возможными.

В 1.4 рассмотрены алгоритмы распознавания, использующие класс логических решающих правил. Показано, что данный класс правил обладает рядом важных свойств, такими как малая мера сложности, инвариантность по отношению к допустимым преобразованиям шкал, учет информативных сочетаний признаков, простота и легкая интерпретируемость, возможность реализации последователь-

кой процедуры классификации х др. На основа анализа данни свойств следует утверждение о том, что класс логических релащк правил удовлетворяет требованиям, которые могут бить предъявлен! к классу правил, используемом при решении задач выделанного тип

В 1.5 рассмотрен иетод группового учета аргументов, предназначенный для построения полиномиальная функции по небольшом] числу экспериментальных данных на основе использования принцип; самоорганизации математических моделей и схемы многорядной селекции. Показано, что использование принципа самоорганизации 1 многорядной схемы поиска правил является эффективным средством цля нахождения решений оптимальной сложности в условиях ограниченной выборки.

В 1.6 дала характеристика задач медицинской диагностики, рассмотрен опыт решения этих задач методами распознавания образов, а также представлены особенности специфической задачи медицинской диагностики - задачи раннего выявления заболеваний. Показано, что задача раннего выявления заболеваний относится к выделенному типу задач, т.е. основными ее чертами является ограниченность объема обучающей выборки, наличие информативных сочетаний признаков (смштомохоыпяексов) и разнотипность признаков.

На основе исследования методов распознавания образов и опыта решения задач медицинской диагностики сделан вывод о том, что для эффективного решения проблемы раннего выявления неинфекционных хронических заболеваний существенно создание диагностических распознающих устройств, позволявших в условиях дефицита данных строить приемлемые для врача решащие правила.

Вторая глава посвящена разработке математических методов, ориентированных для построения алгоритмов распознавания, позволяющих находить относительно легко интерпретируемые решающие правила при решении специфических задач, характеризующихся ограни-

чанным объемом обучашей выборки, наличием информативных сочетаний признаков и разнотипностью признаков.

3 2.1 поставлена задача построения алгоритмов распознавания образов, предназначенных для решения задач указанного типа. Постановка данной задачи осуществлена на основе использования системы разработанных методик, сочетаюпих принцип самоорганизации и использование класса логических решающих правил.

3 2.2 разработаны алгоритмы обучения распознаванию образов, основанные на принципе самоорганизации, использующие логические решающие правила. Процесс поиска решений осуществляется путем перебора, воспроизводящего схему многорядноЯ селекции, в результате чего находится дерево решений оптимальной, в смысле выбранных внешних критериев, сложности в условиях ограниченной выборки.

Процесс многорядноЯ селекции организуется таким образом, что на каждом ряду салекшш рассматриваются всевозможные варианты наращивания наиболее перспективных деревьев решений дополнительной вершиной. При помоши обучашей выборки происходит настройка этих решений и отбирается часть из них, имеющая минимальные значения ошибки на обучающей выборке (критерия I). Затем по критериям минимума смешения (критерия II) и регулярности (критерий III), имеющим смысл внешнего дополнения, происходит промажу^ точный отбор определенного числа перспективных деревьев, которые поступают на следущий ряд селекши. При постепенном усложнении решающих правил внешний критерий проходит через минимум, что дает возможность найти единственное для данного критерия оптимальное решение.

Перед применением алгоритма распознавания количественные признаки разбиваются на градации (например так, чтобы каждая градация содержала определенное количество объектов выборки), а полная выборка делится на обучающую и проверочную части.

- IG -

Граф-схема предлагаемого алгоритма распознавания приведена на рис. 1. Величины Ц, Ц и Ц являются параметрами алгоритма и имеет смысл количества решения, отбиравши на каждом ряду селекции соответственно после применения критериев I, II и III. Следует отметить, что приведенная схема поисха решений позволяет отсекать так называеше "вредные" признаки. Этой же цели служит используемая в алгоритме фильтрушая процедура, названная а -ограничением. Его идея состоит в том, чтобы отсекать герядомо неустойчивые решения на верхних рядах селекции. Механизм останова данного алгоритма происходит при достижении критерием III минимального значения.

Б 2.3 построена математическая модаль, позволяющая в аналитическом виде оценить ошибки классификации байесовского линейного решавшего правила для кваависишх мультиномиальных признаков. Приведена методика использования данной модели для оптимального разбиения количественных признаков на градации и разделения поя-ной выборки на обучавшую и проверочную части. Целью использования данной модели является исключение маноинформативных градаций количественных признаков и соответственно уменьшение количества операций в переборной схеме алгоритма.

Итак, пусть имеется г мультиномиальных признаков х1,х2,..., хг, камый из которых может принимать по к^, 1-1,2,...,г, значений. Признаки в первой постановке считаются независимыми. Бве-дены сщртщ» обозначения: PlJ- вероятность появления j-ro ана-чения 1-го признака у первого образа; рС и1)- вероятность появления объектов первого образа в генеральной совокупности (считается известной); x^j- значение j-й градации 1-го признака (равно I, если объект представлен j-й градацией 1-го признака, в противном случае равно О).

Аналогичные параметры можно указать и для второго образа,

■ £_

L-u ceAZKitfjLu.

Рис. В. Граар- схема- лре£ла?аемого алгоритма, распознавания- oTpa¿of,

оки будут обозначаться соответственно о^ и р( ы2). |! к0д1| -матрица потерь, 1<р,1<2. Обычно принимают, что потери от правидь ных решения ки и к^ равны нули. Логарифд отношения правдоподобия наблюдаемого объекта Х^-Сх^-!,^ -1,..., х^-1) равен:

где С-к21р( ы2)/(к12р( ш1)) - порог, иц-Шрц/ац). иатеиатическое ожидание потерь классификации:

Ж е >—р». —д——>+0^ ы2 21 Т)-к '

1

где а^ и о-^, к-1,2 - иатеиатическое ожидание и дисперсия

ЕСХ5 при условии, что Х( ы-к, а выборки, по который определяется

Рц и о^, 1-1.....г, ,}-!,...,к^ имеют объем и п^ Ф(х) -

интеграл вероятностей стандартного нормального распределения. При атом сделано предположение, что Е(х), определяемое выражением (1) согласно обобщенной постановке центральной предельной теоремы по Лкндебергу имеет нормальное распределение при больших г

Величины а^, к-1,2 могут быть достаточно легко опреде-ны из соотношения (1) при условии, что параметры р^ ха^ имеют биномиальное распределение.

Предлагается следующая методика использования математической модели: для участия в работе модели допускаются все исходные признаки, количественные признаки разбиваются на максимально ваг можное количество градаций, выборки каждого класса делятся некоторым образом на обучающую и проверочную (например, пополам). Пля полученной систеш признаков вышеописанным способом вычисляется оценка е, а также величина Р:

- -О -

1/2 1/2 г-р£ ы1 )к12[е11-( е^'!- £1)/ш1) ]ч-р( ш2)к21[с21-( е2(1- е2)/'ш2) ],

где и с2 - соответственно ошибки классификации 1-го и 2-го рола; т1, л>2- объемы проверочных выборок для первого и второго образов. Приведенная величина Г по сыыслу является оценкой верхней границы доверительного интервала для потерь классификации на проверочной выборке. Затем "склеивая" попарно соседние градации количественных признаков и изменяя количественное соотношение обучапшей и проверочной выборок по ииниыуыу величины Г определяется оптимальное описание системы признаков.

Б 2.4 представлены результаты исследования математической модели. На отдельных модельных примерах показана возможность определения оптимальных вариантов разделения выборки на обучающую и проверочнуо части, а также разбиения количественных признаков на градации при помощи математической модели по минимуму величины Г. Приведены рекомендации, позволяющие уменьшить влияние предположения о независимости признаков при использовании результатов, получаемых при помощи математической модели для работы алгоритма распознавания образов.

Б 2.5 приведены результаты модельного эксперимента, проведенного на основе метода статистических испытаний (Цонта-Карло) с целью верификации результатов, получаемых на математической модели. В модельном эксперименте исследуется зависимость погрешности результатов, получаемых при помощи математической модели от количества используемых в задаче признаков с цель» определения достоверности сделанного предположения о нормальности распределения логарифуа отношения правдоподобия Е(х) в выражении (1) при построении модели. Из полученных результатов следует, что максимальная относительная погрешность реализуется в случае использования одного признака и в условиях модели не превышает

По мере увеличения числа признаков относительная погрешность монотонно убывает и при числе признаков г>10, что соответствует практическим задачам распознавания, становится достаточно малой.

В третьей главе продемонстрировано применение алгоритма обучения распознаванию образов и математической модели для решения тестовой задачи. Для сравнения приведены результаты решения той же задачи с помощью некоторых других известных алгоритмов.

В 3.1 приведено описание пакета программ, в виде которого были реализованы разработанные алгоритмы обучения распознавание образов и математическая модель. Пакет написан на языке йЬртран-П в операционной среда РАЙОС на Ш ЗШ.

В 3.2 предлагается описание тестовой задачи и результаты ее решения при помощи разработанного алгоритма распознавания. В модельной задаче участвует 13 завигиных бинарных признаков. Объем верифицированной выборки был выбран равнш 100 и 300 соответственно для первого и второго образов. Выборки каждого образа были разделены на обучающую и проверочную пополам. Приведены значения е и Г, полученные при помощи математической модели,, а также ошибки классификации байесовского оптимального правила. Параметры алгоритма распознавания были равны Ь1-52, 1^-28, Ь3-13 и ом,05. Б результате применения алгоритма было получено царево решений для тестовой задачи.

Тестовая задача была решена также с помощью других алгоритмов распознавания: алгоритмом построения линейной дискриминантно функции (ШШ и алгоритмом "Ш", разработанным Загоруйко А.Г. и

В 3.3 обсуждены результаты решения тестовой задачи при помощи различных алгоритмов распознавания. Отмечено, что при решении тестовой задачи разработанный алгоритм оказался эффективнее алгоритма "Ш" и значительно эффективнее алгоритма построения ЛИФ, основанного на предположении о статистической независимости

признаков. Анализ результатов применения различных подходов к решении тестовой задачи позволил выявить следующие положительные стороны разработанного алгоритма распознавания: возможность выявления информативных сочетания признаков; способность обнаруживать ж исключать из рассмотрения "вредные" признаки; возможность определения сложности окончательного решения в процессе поиска решения по схеме многоряжной сапекции; незначительное влияние несовершенства критерия минимума ошибки распознавания на первых рядах селакиии на качество получаемого решения.

В четвертой главе описаны результаты использования разработанного алгоритма распознавания для решения практической задачи из области медицины - задачи раннего выявления заболеваний на примере сахарного диабета (СИ).

3 4.1 приведено краткое знакомство с некоторыми особенностями данной медицинской проблемы такими, как: актуальность задачи выявления СЛ, распространенность и основные факторы риска СП, представление о ранних формах СИ, методы диагностики СИ, выявление диабета в группах риска и т.п. Отмечено, что даже современные экспресс методы диагностики СБ представляют собой процесс довольно трудоемкий, требуший определенных материальных ресурсов. Указаны преимущества использования методики выявления СЛ в группах риска, формируемой на основе сбора анамнеза путем диалога с ЭШ.

В 4.2 описаны исходные материалы, а также процесс решения задачи формирования групп повышенного риска заболевания. СП. Отметим, что данная задача решалась для двух различных популяций, информация о которых представлена в двух различных выборках. Первая била получена на основе обследования населения в одной из районных поликлиник Цосквы (задача №1), вторая - на основе данных, полученных из Диабетической клиники Госпиталя Св. ¿уки в Республике Цальта (задача М2).

В задача было использовано 13 признаков, причем из них два являлся количественнши (избыточный вес пашанта и его возраст). Выборка была сформирована на основе ответов 1000 адоровых лиц и 125 больных СП лля задачи XI, и соответственна ответов 271 и 113 лип для задачи М2. H исходным описаниям задач была приманена математическая модель с шяы> разбиения количественных признаков на градации и разделения выборки на обучашую и проверочную части. К полученному описании задач бил применен разработанный алгоритм распознавания. Лля обоих задач были выбраны следушие параметры Li-52, L2-2B, L3-13 и а-0,05. В результате для каждой задачи рыли определены решавшие правила в вида дерева решений оптимальной, в сшсле выбранных внешних критериев, сложности,

В 4.3 приведено обсуждение результатов применения алгоритма . распознавания для решения задачи раннего выявления СИ. На основе полученных результатов сделана оиенка эффективности дерева решений, полученного для задачи К1. Показано, что использование раз- ' | работанных методов для решения задачи раннего выявления заболеваний на примере СИ позволило заметно сократить группу риска (примерно на 15 заведомо здоровых липа еженедельно в условиях районной поликлинике Иосквы) при высоком показателе выявляемое!* больных СЛ, уменьшить время опроса в допустимых пределах за счет двух-трех кратного сокращения количества закапаемых вопросов.

Отмечены положительные стороны методики сбора и обработки информации на основе полученного дерева решений при проведении профилактических осмотров населения путем диалога с 3BU.

Благодаря легкой интерпретируемости полученных решений проведено сравнение основных факторов риска двух указанных популяций для раннего выявления СЛ. Наконец, приведены краткие сведения о медицинской экспертной системе ЭШШР, в рамках совершенствования которой проводились данные исследования..

ССЗШШ РЕЗУЛЬТАТЫ РАБОГШ

1. Показано, что разработка теоретических основ и практического применения теории распознавания образов для решения задач, основными особенностями которых являются ограниченность объема обучающей выборки, наличие информативных сочетаний признаков и разнотипность признаков может базироваться на системе разработанных методик, сочетающих принцип самоорганизации математических моделей и использование класса логических решающих правил.

2. На основе исследования особенностей задач выделенного типа сформулированы требования, который должен удовлетворять класс используемых решаших правил; к их числу относятся: небольшая мера сложности, легкая интерпретируемость правил, возможность реализации последовательной процедуры классификации, учет информативных корреляций между признаками и т.д.

3. В работе разработаны математические методы, ориентированные на новые варианты алгоритмов распознавания образов, предназначенные для решения специфических задач, характеризуюцкхся ограниченность» объема обучающей выборки, наличию! информативных сочетаний признаков и разнотипностью признаков. Указанные методы основаны на сочетании принципа самоорганизации математических моделей и использовании класса логических решаших правил, в результате чего при помощи созданных алгоритмов оказывается возможным нахождение относительно легко интерпретируемых правил оптимальной, в смысле выбранных внешних критериев, сложности в условиях ограниченной выборки.

4. Разработана математическая модель, отражающая систему мультиномиальных признаков, позволяющая в аналитической виде оценить ошибки классификации байесовского линейного решающего правила для независимых мультиномиальных признаков в зависимости от

объема об/чашей выборки. В рамках разработанной математической модели показано, что определяем» значения ошибок классификации имеют малую погрешность.

5. Разработана методика использования математической модели для оптимального разбиения количественных признаков на градации и разделения верифицированной выборки на обучающую и проверочную части с целью сохранения количества операций в переборной схема разработанных алгоритмов распознавания.

6. Сравнение изложенного в диссертации подхода к построению решающих правил с другими известными методами распознавания путем решения тестовой задачи показало, что рассматривания подход по сравнению с другими имеет определенные преимущества при решении задач выделенного типа. Поэтому этот подход модно рекомендовать к более широкому применению для решения задач этого типа и, в частности, для решения задач раннего выявления заболеваний.

7. Применение разработанного в работе математического подхода, реализованного в виде пакета прикладных программ, для решения задачи формирования групп повышенного риска заболевания на примере сахарного диабета, показало, что использование данного подхода позволяет снизить нагрузку на участкового врача, улучпить качество работы по выявлению больных, а также экономить значительную часть тех ресурсов, которые были бы израсходованы при сплошном обследовании населения.

Основные результаты исследований д иссертации опубликованы в работах:

1. аунусов 3.11. Алгоритм распознавания, основанный на теории самоорганизации, использующий логические решащие правила. -Труды XIII конференции молодых ученых и специалистов УФТИ. Деп. в ВИНИ1И. И., 1988, ч.З, с.96-101.

2. Петровский A.U., Дартау Л.А., Шунусов 3.U. Проведение и контроль профилактических осмотров населения системой "АСКИС". - Проблемы проектирования экспертных систем. Тезисы докл. Всесоюзной школи-совещания. U., 1988, ч.2, с.212-213.

3. Ifcaoveteky А., Olchanski V., PetrovskiA., Junoussov Z./

- Diabetes Research and Clinical Practice. Supplement 1 to vol. 5, 1SB8, ров-002-256, page 355. (13th Congress of the IDF, Sydney, Australia, 20-25 November 1988).

4. Нунусов З.Ы., Ольшанский В.К. Возможности использования макросистемного подхода в некоторых задачах здравоохранения.

- Прикладные проблемы управления макросистемами. Тезисы докл. Всесоюзной конференции. Кировсх, 1989.

5. Az2opardi J., Uazoveteky A., Olchanski V., Junoussov Z., Fenech. A Test of Integrated Population Health Screening and Follow-up Expert System in Diabetes Uellitus and Other Noncommunicable Diseases. - First Ualteese Uedlcal School Conference in University of Ualta, december 1989.

8. Нунусов 3.U., Петровский A.U. Специальные вопросы построения экспертных систем по обучающим выборкам малого объема. - Труды международного симпозиума "HH40PUA1V5KA-8a". Минск, 1689, т.5, ч.2, с.845-850.

7. Нунусов 3.11., Петровский A.U. Алгоритм распознавания образов в системе профилактических осмотров населения ЭЦЮАР. - Сб. тезисов докл. Первой Цеждународной научно-практической конф. молод, ученых и специалистов в области приборостроения "ШГЕРПРИБОР-еО". U., 1990, ч.З, с. 31-32.

8. Нунусов 3.11., Мазовеший А.Г., Ольшанский В.К., Петровский А.Ы. и др. Использование логических решающих правил при обследовании населения на наличие сахарного.

диабета. - Проблемы эндокринологии, 1860, не. В совместных работах Вунусовьм З.У. сделано следующее: В работе [7] разработан подход к построению логических решавших правил, основанный на принципе самоорганизации, в условиях ограниченной выборки. В [2,8] разработаны и сформулированы требования к родящим правилам, хслользуоиш в мядацингппм экспертных системах, предназначенных до проведения массовых профилактических осмотров путем диалога с ЭВМ. В [3,5,В] приведены результаты применения разработанного подхода к построению логических решающих правил для решения задачи раннего выявления сахарного диабета, сделана ошнха эффективности полученных результатов. В работе [4] сформулированы некоторые принципы использования научно-обоснованного подхода, основанного на достижении теории управления и информатики, для решения проблемы эффективного распределения ресурсов в некоторых задачах здравоохранения.

Заказ 104

Тираж 100

Рогалршгг Ш)ХИ АН СССР Подписано к печати 30.10.90 Объем 1,0 учжазд. д.