автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.14, диссертация на тему:Непараметрические системы классификации в задачах медико-биологических процессов

кандидата технических наук
Высоцкая, Галина Степановна
город
Красноярск
год
1998
специальность ВАК РФ
05.13.14
Автореферат по информатике, вычислительной технике и управлению на тему «Непараметрические системы классификации в задачах медико-биологических процессов»

Автореферат диссертации по теме "Непараметрические системы классификации в задачах медико-биологических процессов"

_ К * ПО '.1:у>

На правах рукописи

ВЫСОЦКАЯ ГАЛИНА СТЕПАНОВНА

НЕПАРАМЕТРИЧЕСКИЕ СИСТЕМЫ КЛАССИФИКАЦИИ В ЗАДАЧАХ ИССЛЕДОВАНИЯ

МЕДИКО-БИОЛОГИЧЕСКИХ ПРОЦЕССОВ

05.13.14 - Системы обработки информации и управления

Автореферат диссертации на соискание ученой степени

кандидата технических наук

Красноярск - 1998

Работа выполнена в Институте вычислительного моделирования СО РАН

Научный руководитель:

Научный консультант:

доктор технических наук, профессор Лапко A.B.

доктор технических наук, Шевырногов А.П.

Официальные оппоненты:

доктор технических наук, профессор Шайдуров Г.Я. доктор технических наук, Семенкин Е.С.

Ведущая организация: Институт математики СО РАН

Защита состоится 17 апреля 1998 г. в 1400 часов на заседании диссертационного совета Д.064.54.01 Красноярского государственного технического университета по адресу: 660074, г.Красноярск, ул.Киренского 26.

С диссертацией можно ознакомиться в библиотеке Красноярского государственного технического университета.

Отзывы на автореферат в двух экземплярах, заверенные печатью учреждения, просим высылать по адресу: г.Красноярск, ул. Киренского, 26, ученому секретарю спецсовета.

Автореферат разослан ". (Ч ." марта 1998 г.

Ученый секретарь диссертационного совета д.т.н., профессор

А.Н. Ловчиков

Общая характеристика работы.

Актуальность темы. Разработка эффективных систем обработки информации, на основе создания мощных банков данных, и возможность более свободного обмена информацией через сети приводит к многократному увеличению ее объемов. В- этих условиях возрастает потребность создания математических средств и разработки программ для структуризации и анализа больших массивов данных с целью обнаружения скрытых закономерностей и представления их в удобном для человека виде. Несмотря на это большое количество информации все-таки остается не востребованной.

Когда пользователь оперирует большой, постоянно увеличивающейся числовой информацией, важным средством исследования систем в условиях исходной неопределенности становятся методы классификации и распознавания образов. Они позволяют создать представление о структуре этих данных, дифференцируя и объединяя их в классы. Если в результате решения задачи классификации получены компактные группы, однородные по характерным признакам, то в дальнейшем анализе мы можем использовать такие группы, как структурные единицы.

Классификация данных обеспечивает обход проблемы сложности и априорной неопределенности при моделировании систем позволяет получить более точные оценки и распространить полученные результаты на множества объектов. Актуальной для классификации и распознавания образов, особенно в области медицины, является также задача о сокращении объема и размерности обучающей выборки.

В настоящее время с различных теоретических позиций разработано большое число способов решения задачи классификации и распознавания образов. Установлено, что трудоемкость сложных методов классификации пропорциональна квадрату объема выборки N, и в лучшем случае имеет порядок O(NlnN). Требуемый объем памяти зачастую также пропорционален квадрату объема выборки.

Известны примеры программных реализаций методов классификации и распознавания в таких коммерческих пакетах, как ER DAS, STATGRAF, STATISTICA, IDRISI и др. Но, как правило, в этих пакетах используется метод к - ближайших соседей и аналогичные методы, основным достоин-

ством, которых является относительно низкая трудоемкость. Из российских разработок наиболее популярны пакеты ОТЭКС и КВАЗАР. В то же время опыт работы в области классификации и распознавания образов показывает необходимость создания быстродействующих алгоритмов классификации, хорошо работающих не только в ситуации хорошо разделимых классов, но и тогда, когда границы между соответствующими классами "размыты".

Работа выполнялась в рамках научной темы Института Вычислительного моделирования СО РАН "Создание теории многоуровневых непараметрических систем принятия решений" (1.13.5.3), грантов РФФИ N93 -012 - 0486, N97 - 01 - 01043.

Цель работы состояла в разработке и исследовании непараметрической системы классификации статистических данных в условиях больших выборок и ее применении при анализе ыедико - экологических процессов.

Цель достигается путем решения следующих задач:

— Разработка и исследование быстродействующих непараметрических алгоритмов и комплекса программ решения задач автоматической классификации и распознавания образов.

— Разработка системы классификации океанических вод по спектральным данным.

— Разработка информационных средств автоматизации исследования и прогнозирования состояний комплекса "сердечно - сосудистая система -углеводный обмен".

Методы исследования. Для решения поставленных задач использовались методы теории вероятностей и теории сложных систем, непараметрические алгоритмы автоматической классификации и распознавания образов, средства программирования.

Научная новизна работы состоит в разработке быстродействующего непараметрического алгоритма автоматической классификации, позволяющего исследовать структуру статистических выборок в условиях априорной неопределенности. Это стало возможным при решении задачи автоматической классификации с позиций теории вероятности.

При этом впервые проблема автоматической классификации реализована в рамках задачи распознавания образов с помощью итерационной процедуры последовательного восстановления непараметрической оценки

уравнения разделяющей поверхности между классами, соответствующими одномодальным фрагментам плотности вероятности. Количество классов априори не задается. Такой подход позволяет существенно снизить трудоемкость классификации.

Для повышения эффективности алгоритмического обеспечения пакета используется интегральная непараметрическая оценка плотности вероятности, которая по сравнению с классической процедурой Розенблатта -Парзена обладает повышенными алпроксимационными свойствами, что обеспечивается введением дополнительного сглаживающего оператора.

Практическая ценность. Разработанные непараметрические алгоритмы классификации и распознавания образов реализованы в виде диалогового пакета программ "ЫРСЬ". Пакет является составной частью программного обеспечения для статистического моделирования сложных развивающихся систем при неполной информации.

Ориентация предложенных моделей и алгоритмов на обнаружение скрытых закономерностей при малом уровне исходной информации придает пакету универсальный характер и позволяет исследовать объекты различной природы.

Разработанный комплекс программ был использован при решении следующих практических задач:

— Построение статистической модели взаимодействия сердечно - сосудистой системы и системы углеводного обмена с целью синтеза критериев диагностики нарушений толерантности к глюкозе по состоянию сердечно - сосудистой системы и данным анамнеза, что позволяет снизить затраты на диагностику и лечение сахарного диабета.

— Моделирование гвдробиоценозов поверхностных вод океана при стационарных и нестационарных условиях по обобщенным биооптическим показателям. Разработанные классификационные модели и программы были использованы при исследовании поверхностных вод по физическим и биологическим параметрам, полученным в 36 рейсе НЙС "Ак. Вернадский" в Западной части тропической Атлантики (май - август 1987г.).

— Автоматизация исследований в медицине, экологии, лесном хозяйстве.

Автор защищает:

1. Методику синтеза и быстродействующие непараметрические алго-

ритмы автоматической классификации больших массивов статистических данных.

2. Диалоговый комплекс программ КРСЬ, обеспечивающий решение задач автоматической классификации, распознавания образов, минимизации описания и визуализации результатов обработки информации.

3. Статистическую модель взаимодействия параметров сердечно - сосудистой системы и системы углеводного обмена.

4. Статистическую модель взаимосвязи между обобщенными биооптическими показателями поверхностных вод океана при стационарных и нестационарных условиях.

Реализация результатов работы. В результате исследования создан диалоговый пакет программ ИРСЬ, на основе которого разработаны системы медицинской диагностики, внедренные в Институте медицинских проблем Севера СО РАМН. Информационная система классификации и анализа спектральных данных используется в Институте биофизики СО РАН при автоматизации научных исследований биоценозов океанических вод.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на международных, всесоюзных и всероссийских конференциях: симпозиум "Машинные методы обнаружения закономерностей" (Минск, 1985), 4-й съезд кардиологов (Москва, 1986), симпозиум "Имитация систем в биологии и медицине" (Прага 1986), Всероссийская научно - практическая конференция "Рискометрия и адаптация в медицине" (Иваново, 1995), Всероссийская конференция "Распознавание образов и анализ изображений. Перспективные информационные технологии" (Ульяновск, 1995), Международный симпозиум "Распространение радиоволн в городе" (Томск 1997), Всероссийская конференция "Проблемы защиты населения и территории в чрезвычайных ситуациях".

Публикации. Результаты проведенных теоретических и экспериментальных исследований опубликованы в 15 печатных работах.

Структура о объем работы. Диссертационная работа состоит из введения, пяти глав, заключения, библиографии (8У наименования), содержите^ страницы машинописного текста и ¿А рисунков.

Автор считает своим долгом выразить глубокую благодарность сотрудникам Института медицинских проблем Севера СО РАМН профессору По-

ликарпову Л.С., к.м.н. Хамнагадаеву И.Й., к.м.н. Шусту Г.М. к.м.н. Пироговскому Н.В. и сотруднику Института биофизики СО РАН д.т.н. Шевырногову А.П. за предоставление данных для обработки и их интерпретацию.

Содержание работы;

Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи исследования, выделены основные положения, имеющие новизну и практическую ценность.

В первой главе изложена формальная постановка задачи автоматической классификации и приведен анализ существующих программных

средств и ряда существующих вероятностных алгоритмов классификации.

Дал обзор программных реализаций методов классификации и распознавания в таких коммерческих пакетах, как ER DAS, STATGRAF, STA-TISTICA, IDRISI, ОТЭКС, КВАЗАР и др. Несмотря на наличие этих пакетов и разнообразие представленных в них алгоритмов, применение их при исследовании сложных медико - биологических систем затруднено.

Сформулированы основные требования, предъявляемые к алгоритмам классификации медико - биологических данных:

— обнаружение "размытых" классов, количество которых априори не определено;

— устойчивость результатов классификации к изменению объема статистических выборок и параметров алгоритма;

— высокая вычислительная эффективность классификации больших

массивов статистических данных;

— затраты памяти пропорциональные объему выборки;

— выделение классов, согласующихся с вероятностной их природой.

Во второй главе изложены теоретические основы непараметрической системы автоматической классификации и рассматривается ее реализация. Предлагаемая система классификации состоит из подсистем, выполняющих следующие функции:

— предварительная обработка данных;

— вычисление непараметрической оценки плотности вероятности;

— выделение компактных групп точек (классов), соответствующих од-номодальным фрагментам плотности вероятности;

— поиск оптимальных параметров непараметрического алгоритма распознавания обнаруженных образов в выбранном подмножестве признаков обучающей выборки;

— организация процедуры распознавания вновь поступающих точек;

— визуализация результатов классификации;

— статистический анализ классов;

— представление результатов классификации, в виде удобном для обработки стандартными пакетами программ.

В результате:

— разработано методическое и алгоритмическое обеспечение непараметрической системы классификации, позволяющее автоматизировать процесс обработки больших массивов данных.

— предложенный непараметрический алгоритм автоматической классификации позволяет обнаруживать классы с несимметричным характером плотности вероятности и снижает требования к оптимальному выбору коэффициента размытости.

— трудоемкость модифицированного алгоритма непараметрической классификации пропорциональна квадрату объема выборки умноженному на коэффициент размытости интегральной оценки плотности вероятности.

Для классификации выборок относительно небольшого объема используется непараметрическах оценка плотности вероятности

р(х) = -г— t П " *})> (1)

п П 2 cjßj i=i

где

О, при \х — и\ > с + ß Ф(х - и) = < ß, при \х -и\ < с — ß

. с+Н*-"1, при с + /3 > |я — и| > с — /?.

Пусть X — {£; = (x;,i,x;,2,--,Si,Ä-)> » = l,n} - таблица "объект - признак", где п - объем выборки, К - количество признаков.

Для классификации и распознавания образов используется не вся таблица, а некоторое подмножество таблицы X - X = {af; = ...,x,-jl), i — 1,п}, где ji < ¡2 < ... < jt, к - количество признаков.

Для упрощения дальнейших вычислений, проводится нормировка значений Xj = x\,i — 1,п для каждого j.

Поскольку ядерная функция в приведенной выше оценке плотности (1) имеет компактный носитель, то подавляющее число слагаемых равны 0. С помощью предварительной сортировки часть таких слагаемых отсеивается, что позволяет существенно снизить количество необходимых вычислений.

Трудоемкость вычислений на этапе вычисления оценки плотности вероятности пропорциональна п2(с + /3). При этом известно, что с -*■ 0,/3 0, хотя пс —► <х>.

Для данных большого объема предлагается следующая процедура. Область определения разбивается на N непересекающихся гиперкубов с ребром 2(3. Пусть Р3 - частоты попадания случайной величины х в j-й интервал. Тогда плотность вероятности р(х) можно оценить статистикой

1 N. к / х _

tWi c¡> ¡=i i/=i

где г\ I = 1, N - центры интервалов. Очевидно, что с = где д - целое число.

Поскольку при преобразовании непрерывного сигнала происходит разбиение области определения на N непересекающихся элементов, то оценка удобна при обработке спутниковой информации. Данный метод применим к анализу спутниковой информации, когда нас интересуют классы, элементы которых не образуют на поверхности связного множества.

Поскольку для реализации метода необходимо подсчитать - частоты попадания случайной величины х в элемент, воспользуемся методом хэш-кодирования. Пусть элементы вектора х1 = (х\, ...х].) являются номерами интервалов, в которые попадают исходные значения после разделения. Данные в оперативной памяти ЭВМ хранятся в М хэш-таблицах, где М - количество различных значений х\. Это позволяет облегчить поиск точек, лежащих в окрестности точки я'. Очевидно, что такие точки могут находится только в соседних хэш-таблицах. По сравнению с алго-

ритмом, использующим одну хэш-таблицу, время просмотра предлагаемой процедурой уменьшается в M/q раз. Кроме того такое использование оперативной памяти связано с ограничениями на максимальный сегмент данных в Delphi.

Выбор алгоритма вычисления плотности вероятности зависит от величин к - количество используемых признаков и q = с/0. Если их значения невелики, то программа осуществляет просмотр окрестности точки х' = (x'j, ...х'к) в виде гиперкуба объемом qk. В противном случае, просмо-триваются q хэш-таблиц, соседних с таблицей, в которой находится точка х'. Выбор того либо иного варианта происходит в зависимости от сравнения величин 71 и Т2. Здесь 2\ = fig*, tx - время вычисления адреса точки х' в хэш-таблицах, а

Т2 = i2 Е Щ, ¿=1

где ¿2 - время проверки принадлежит ли элемент хэш-таблицы окрестности точки х*.

Hi - количество непустых элементов г-ой хэш-таблицы. Эти величины подсчитываются в процессе заполнения хэш-таблиц.

Величина ti прямо пропорционально зависит от размерности признакового пространства, кроме этого реальное значение этой величины зависит от времени, затрачиваемого на возведение в степень и вычисление модуля. Величина Ц прямо пропорционально зависит от вероятности попадания проверяемой точки в гиперкуб и от времени, затрачиваемого на сравнение 2-х чисел. Поскольку абсолютные значения tx и Ц существенно зависят от тактовой частоты процессора, естественно вычислять юс отношение Величины этих соотношений tx/f2 при одних и тех же к и q существенно не меняется для одной и той же марки процессора. Для случая равномерного распределения точек выборки и процессоров Pentium величина ii/i2 изменяется в пределах от 1.6 до 1.8.

Следующим этапом реализации непараметрического алгоритма автоматической классификации является выделение групп точек, соответствующих одномодальным фрагментам плотности вероятности. В качестве примера, иллюстрирующего отличие предлагаемого алгоритма от стандартного, рассмотрим плотность вероятности на рис. 1. В результате применения традиционного алгоритма выделяется 4 класса, помеченные

Рис. 1. Иллюстрация выделения классов, соответствующих одномодальным фрагментам плотности вероятности

цифрами 1, 2, 3, 4. Несмотря на улучшенные аппроксимационные свойства применяемой оценки, класс 2 вполне может быть расценен, как результат дефекта восстановления плотности. При небольшом изменении параметров с и ¡3 в (1) этот класс исчезает. Класс 4 может быть интерпретирован, как группа, образованная случайными помехами, которые так часто имеют место, когда классифицируемая выборка формируется при аппаратном сборе информации.

Определение 1. Класс С1 считается "значимым по высоте" относительно уровня Н\ > 0, если

тах{|р(а:') - р(х>)\,Чх\х> € С*} >

Введем отношение "сходства", между элементами выборки. Определение 2. Пусть

р(»\;) = тах|«/ - х)\

Будем считать, что точки схожи, если р(г, .?) < с.

Тогда алгоритм обнаружения одномодальных классов может быть представлен в виде последовательности действий:

1. Провести сортировку элементов выборки со значениями плотностей большими h в порядке убывания плотностей. Обозначим через п' - количество таких элементов. Номера элементов выборки будем хранить в массиве Addr3.

2. Пусть t = 1, К = 0, где К - количество классов.

3. Определить множество й = {х* : р(хл<иг3Щ = p{x'),j = 1, £}.

4. Сформировать множество точек а, с которыми близки точки из а.

for 1:=1 to L do

if (NumClass[Addr3[l]] = 0) then begin

for j:=LowLimits[Addr3[l]] to UpperLimits[Addr3ß]] do if (NumClass[Addr3[l]}^0) & (p(Addr3[l],Addr3[j])< c)then begin

{пополняется множество ä} endjuHiara no j}; епй{цикла по 1};

5. Проверяем точки множества 8, сравнивая их с точками из а.

При этом возможны следующие варианты:

5.1. Точка сходна с точками только из одного класса. Тогда точка помечается, как кандидат на присоединение к этому классу.

5.2. Точка связана с элементами классов h < h < ••• < h- Проводим проверку "значимости по уровню разделения классов".

Пусть t, и tq вершины классов s и q(s < q), если p(tq) — p(xl) < h2, то присоединить точки из класса q к множеству а.

Если классы хорошо разделены, то точка помечается, как кандидат на присоединение к классу с наиболее близкой вершиной.

6. После проверки всех точек из а, старые элементы множества а удаляются, помеченные точки присоединяются к классам, исключаются из множества а и помещаются в множество а.

Если остались ^расклассифицированные точки, то перейти к п.5.

Если помеченных точек не было, то оставшиеся точки разделяем на тп связных подмножеств и объявляем их центрами классов. Увеличить К ~ К + т.

7. Положить г — г + Ь. Если г < и'; перейти к 3.

8. Провести распознавание точек выборки со значениями плотностей меньшими Лг с использованием непараметрического алгоритма распознавания образов.

Предложенный алгоритм отличается тем, что трудоемкость пропорциональна СпП2.

В результате работы этого алгоритма для примера на рис. 1 выделяется 2 класса, помеченные Цифрами I, II.

Предложенный алгоритм менее чувствителен к изменению параметров с и Появление или отсутсвие класса 4 зависит от выбора параметра Л2. В свою очередь выбор этого параметра зависит от целей преследуемых при классификации. Если пользователя интересуют большие классы, то рекомендуется принять Л = 0.05Р, где

Р = тахр(я').

1=1, в

При исследовании, например, небольших объектов на снимках поверхности Земли, порог к уменьшается.

После появления первой точки, принадлежащей границе между классами, классы не считаются сформированными, а продолжают пополняться. Это связано с тем, что двойной просмотр точек, лежащих ниже границы, приводит к увеличению трудоемкости алгоритма.

Предложенный алгоритм ориентирован не на теоретическую плотность, а на ее непараметрическую оценку. При этом си р могут быть выбраны меньше оптимальных, но результат классификации не изменится. Поскольку трудоемкость всех этапов алгоритма классификации зависит от с и ¡3 такая возможность приводит к сокращению объема вычислений.

В третьей главе приведено описание разработанного пакета программ "КРСЬ". Разработанное программное обеспечение предоставляет исследователю следующие возможности: при решении задач самообучения:

— автоматическая классификация статистических данных, составленных из непрерывных признаков с симметричными и несимметричными законами распределения;

— агрегирование результатов классификации;

при решении задач распознавания образов:

— обучение распознаванию образов в условиях непараметрической неопределенности с позиций различных критериев оптимальности;

— распознавание образов при ограниченном объеме обучающей выборки;

— статистическое оценивание вероятности ошибки распознавания образов;

при решении вычислительных проблем классификации:

— формирование наборов информативных признаков;

— оптимизация непараметрических алгоритмов классификации;

— восстановление плотностей вероятности на основе интегральной непараметрической оценки и ее оптимизация;

— оформление многомерных результатов классификации в виде последовательности таблиц;

— отображение многомерных результатов классификации в пространство признаков размерностью более чем два;

— картирование результатов классификации при наличии соответствующих данных;

— корректировка исходных данных, параметров алгоритма, результатов расчета по требованию специалиста;

— ознакомление со справочным аппаратом, содержащим общие сведения о пакете, информацию об используемом математическом аппарате и категориях.

В четвертой главе рассматривается применение разработанных непараметрических методов и программ для типизации океанических вод по спектральным данным. Предлагается подход к построению статистических моделей взаимосвязи между обобщенными биооптическими показателями поверхностных вод океана при стационарных и нестационарных условиях.

Исходную информацию составили данные по физическим и биологическим параметрам поверхностных вод, полученные в 36 рейсе НИС "Ак. Вернадский" в Западной части тропической Атлантики (май — август 1987г.).

Исследуемый район характеризуется весьма большим диапазоном из-

менений оптических свойств поверхности океана, так как для западной части полигона характерно наличие вод Амазонки, выходящих в океан, а северо-восточная и юго-восточная часть полигона — это, соответственно, наличие северной субтропической водной массы с большим количеством взвешенного и растворенного вещества.

Используемые при анализе данные представляют собой набор спектров яркости, измеренных через шахту корабля в дневное время по ходу судна и на станциях. Спектральный диапазон измерения от 395 до 587 нм., содержащий 10 участков с шириной спектральных каналов 12-15 нм. Максимумы пропускания спектральных каналов находится на длинах волн 395, 420, 461, 503, 534, 556, 575 и 587 нм. Пространственное разрешение при скорости корабля 13 узлов составляло 30-80 метров.

Так как свет, попавший в шахту корабля, а затем в объектив спектрофотометра проходит через большую водную толщу, то динамика взвешенного биологического вещества и растворенной органики вызывает изменение спектрального состава принимаемого излучения.

Для устранения влияния условий освещенности параметры спектра излучения нормировались относительно яркости на длине волны 478 нм.

В связи со сложностью и динамичностью процессов в океане, определяемой сложной структурой течений, взаимодействием атмосферы и океана, изменчивой биологической структурой, как по составу так и в пространстве, зависимостью этой структуры как от внешних условий, так и от внутренних особенностей ее развития, исследуемая система имеет нестационарный характер.

Была разработана обобщенная статистическая модель, устанавливающая соответствие между макросостояниями системы, соответствующим некоторым областям в пространстве ее входных и выходных переменных. Например, между типами спектральных оптических характеристик океанических вод и интервалами содержания в них хлорофилла.

Пусть у = у (у, ¿) £ У, х — х(и, г) е X векторы параметров, определяющие соответственно биологические и спектральные оптические характеристики океанических вод в конкретных временных 4 € Т и пространственных V € V координатах.

В общем случае, пространственно - временная взаимосвязь М(х,у,и) является сложной, зависящей от начальных значений (хо, Уо) и от внешних

условий и (температура, соленость характер пространственного распределения составляющих компонент и т.д.).

За вектор х примем значения индексов цвета в выбранных спектральных диапазонах

г Л Л «/»•,

Х = {Х1 = — ,ж2 = —,..., яэ = -г}-

«/5 «/5 -/5

Под з - м типом индексов цвета будем понимать "компактную" область X1 С X, соотвествующей одномодальному фрагменту плотности вероятности Р{х). Таким образом, множество является обобщенным показателем спектральных характеристик наиболее характерных для конкретных условий. Данный обобщенный показатель является вероятностным, что обеспечивает его устойчивость и позволяет значительно снизить размерность модели исследуемой системы.

Если между хиу существует взаимосвязь, то каждому типу спектральных характеристик € Sx,j = 1, Мх в пространстве биологических показателей соответствует некоторая область значений € 5у,,) = 1 ,Му. При этом не исключается условие Мх > Му, то есть некоторые могут соответствовать нескольким типам из Это возможно, если их вероятностные характеристики достоверно не отличаются в рассматриваемом подмножестве

Модель изучаемой системы представляется в виде последовательной смены во времени обобщенных показателей (5х(<), 5у(г), I £ Т}, что может быть представлено в виде следующей логической схемы:

М(Х\г)) В(хЩН(Зх,Зу,х'(т = t+lЬ Т,

где В(-) — оператор ввода частично наблюдаемого вектора ж(<);

Я(-) — решающее правило, предназначенное для оценивания обобщенного показателя ¿У по значениям я'(<);

7 — логическое условие выхода из процесса прогноза £у.

Операторы алгоритма срабатывают слева направо, при выполнении условия процесс вычислений заканчивается, в противном случае осуществляется переход по стрелке.

Изменение условий V в системе М(х,у,и) влечет изменение закономерностей взаимосвязи между элементами множеств Зх, 5'у.

Предположим существование взаимосвязи между изменяющимися условиями и некоторым набором компонент х" наблюдаемого вектора х'. Тогда, некоторой компактной области условий V С и, г = 1,N в пространстве х" соответствует конкретная область С}).». Пусть Мд|.(а'(4)) модель системы для сложившихся условий II'. Тогда допустимо построение коллектива моделей {М^, («',(<))} Для различных условий V с и в режиме реального времени проведения полевого эксперимента (режим мониторинга). В данном случае (¿1* представляет собой область компетентности г-ой модели.

По поступающим экспериментальным данным ж, на основе имеющихся на данный момент моделей, оценивается последовательность обобщенных показателей и проводится их сравнение с экспериментальными значениями у в соответствии с принятым критерием 1(Зу,у). Если

тт/(Я, у) > /*, то существующий набор моделей не является достаточ-1 *

ным и соответствующие значения х', у накапливаются для последующего построения новых моделей, а ж" из х' запоминается для построения их областей компетентости. Здесь I* заданные значения критерия, а -обобщенный показатель, определенный по г-ой модели из имеющегося набора.

При достижении достаточного объема наблюдений х', у, не согласующихся с существующими моделями, по предложенной методике, строится новая, которая дополняет имеющийся их набор. Тогда, обобщенная модель динамики взаимосвязи между х'(1), представляется следующей логической схемой

М(ХЩ :1 В(х'(т<(х^г))м^(х'тг = г +1)7 Т,

где В(х'({)) — оператор ввода частично наблюдаемого вектора — алгоритм выбора г-ой модели;

М(— модель системы в условиях С^;

7 — логическое условие выхода из процесса прогноза .

ДЧ*"(г)) : х"(г) £ С?х, если Р.р^х") > Рир„(х>%

V = ф и

N — количество моделей в коллективе а р&х") — непара-

метрическая оценка плотности вероятности компонент вектора х" 6 <Э1Х»

в области компетентности г'-ой модели, Д- — оценка априорной вероятности распределения х" 6 Решающее правило реализуется с помощью непараметрических алгоритмов распознавания образов.

Предложенные методы были применены:

— для разработки критериев дифференциации и оценивания спектральных оптических характеристик поверхностных вод океана,

— картирования поверхностных вод океана по результатам классификации спектральных оптических характеристик,

— исследования взаимосвязи типов спектральных характеристик с содержанием хлорофилла.

В пятой главе рассматривается применение разработанных методов и программ для построения классификационной модели комплекса "сердечно - сосудистая система - углеводный обмен". Рассматриваются критерии д иагностики нарушений толерантности к глюкозе по состоянию сердечнососудистой системы и другим косвенным признакам. Значение этой проблемы определяется большими затратами при традиционных методах диагностики сахарного диабета.

В качестве исходной информации для построения статистической модели комплекса "сердечно-сосудистая система — углеводный обмен" использовались данные эпидемиологических исследований 1319 жителей Крайнего Севера. У обследуемых проводились стандартизованное измерение артериального давления (АД), уровня гликемии натощак и через 30, 60, 120 мин. после нагрузки 50г. глюкозы, а также измерение антропометрических показателей и анкетирование.

Была разработала статистическая модель комплекса систем с односторонним характером взаимодействия. Пусть комплекс систем < 5 —► С} > характеризуется выходными у<г) и входными переменными (я, г), отражающими взаимодействие комплекса с внешней средой. Вектор х = (ш, и) состоит из управляемых и и контролируемых а» воздействий. Причем переменные г не контролируются.

Система <3 под воздействием у8 системы в в условиях (х, х) может находиться в одном из макросостояний (¿¡,1 € которые определяются с

помощью соотношения

Мд(УЯ) ■ У° е если > О,

где — уравнение разделяющей поверхности между <5,- и <2; =

и^У Я}1 3 € /д, априори заданное с точностью до набора параметров а£ Л<?-

Существует стохастическая зависимость : ув х X —» у*2. Дополнительно задана обучающая выборка (ж', у<э(г)т У(о!<')), г = 1 ,п, составленная из наблюдений переменных (г, у^,у5) и указаний об их принадлежности к конкретному макросостоянию <2,-, г £ 1д, формируемых на основе решающего правила .

С учетом стохастической зависимости <££? : у5 х X ► у® определим решающее правило

Мд(у5,х) : (1/,х) £ <3;, если х, а, аР) > О

для оценивания в пространстве (у5 х X) областей соответствующих состояниям системы <3.

Обозначим через рр(а®,а) выражение ошибки прогноза макросостояний = 1д, статистическая оценка рр-(-) которой может быть вычислена в режиме "скользящего экзамена". Пусть при некотором значении а® € Д<5 определен вид уравнения разделяющей поверхности Рц(-), г £ /д.

Тогда оптимизация тпд(у3,х) осуществляется в результате решения задачи

тр/эНс^а), £ Дд.

Основываясь на вышеизложенном, модель комплекса систем в терминах макросостояний запишется в виде семейств решающих правил

{Л?(У3,Х),{ £ £ /5}.

Вид </?д(-) априори неопределен. При построении решающего правила используются методы непараметрической статистики.

Основываясь на предложенном подходе синтезирована структура комплекса < 3 <2 >, проведен ее анализ. Установлена неоднородность состояний систем комплекса. В частности — по показателям гликемиче-ской кривой выделяется 4 состояния углеводного обмена у женщин и 5 состояний у мужчин, достоверно отличающиеся между собой.

Основным дифференцирующим свойством системы углеводного обмена является возраст, остальные функциональные признаки и факторы оказывают комплексное влияние на формирование состояний системы.

Подтверждена неоднородность обследуемой популяции по показателям сердечно-сосудистой системы. Обнаружены по три состояния как у мужчин, так и у женщин близкие по своим значениям к общепринятой дифференциации (норма, пограничное состояние, артериальная гипертония).

Для исследования взаимосвязи между системами комплекса восстановлены операторы сопряжения между его состояниями, обнаруженными на предыдущем этапе синтеза структуры. С этой целью из условия минимума ошибки прогноза выделены наборы информативных признаков.

Наибольшее влияние на прогноз состояний (норма, нарушение толерантности к глюкозе) углеводного обмена у мужчин при конкретных состояниях сердечно-сосудистой системы оказывают следующие сочетания признаков: количество употребляемого алкоголя, уровень систолического и диастолического артериального давления, частота сердечных сокращений и индекс массы тела. При этом следует отметить, что признак "возраст" очевидно оказывает влияние на прогноз опосредованно через возрастные изменения выше перечисленных параметров. Ошибка прогноза составляет при этом 8%. Использование дополнительных признаков — вегетативный индекс, характер трудовой деятельности снижает ошибку прогноза до 2%.

У женщин характерен такой же набор информативных признаков, только признак "количество употребляемого алкоголя" заменяется возрастом. Ошибка прогноза состояний составляет при этом 9%.

При известном состоянии углеводного обмена уровни артериального давления, соответствующие норме, артериальной гипертонии и пограничному состоянию, в значительной мере (ошибка прогноза 4%) определяются индексом массы тела, степенью тяжести физического труда, количеством употребляемого алкоголя и показателями гликемии натощак и через 30 минут после углеводной нагрузки. Курение, возраст, вес, вегетативный индекс оказывают меньшее влияние на состояние сердечно-сосудистой системы, что не исключает, однако, возможности их опосредованного влияния.

Небольшое количество косвеннных признаков, определяющих процесс

взаимодействия систем, дозволяет практически использовать полученные результаты в виде критериев оценивания состояний комплекса систем и провести дальнейший анализ свойственных им закономерностей.

По результатам анализа комплекса "сердечно-сосудистая система — углеводный обмен" разработаны наборы таблиц, которые являются доступным средством для решения вопросов индивидуальной профилактики и прогноза развития нарушений углеводного обмена. Проверка предложенных критериев оценки состояний углеводного обмена по косвенным признакам осуществлялась Г.М. Шустом в Якутском республиканском эндокринном диспансере. Точность оценивания составила 93.3%.

Основные результаты и выводы.

1. Разработано методическое, алгоритмическое и программное обеспечение непараметрической системы классификации, позволяющее автоматизировать процесс обработки больших массивов статистических данных.

2. Предложенный непараметрический алгоритм автоматической классификации позволяет обнаруживать классы с несимметричным характером плотности вероятности и снижает требования к оптимальному выбору коэффициента размытости.

3. Трудоемкость модифицированного алгоритма непараметрической классификации пропорциональна квадрату объема выборки умноженному на коэффициент размытости интегральной оценки плотности вероятности.

4. Разработан диалоговый пакет программ ^РСЬ", функциональные возможности которого позволяют выполнять комплексную обработку разнотипной медико-экологической информации. Ориентация математического обеспечения пакета на экспериментальные данные, позволяет использовать его при исследовании объектов различной природы.

5. Разработана статистическая модель взаимосвязи между спектральными оптическими характеристиками поверхностных вод океана и концентрациями хлорофилла. Разработанные критерии на основе непараметрических алгоритмов классификации могут использоваться для определения концентрации хлорофилла в поверхностном слое воды;

6. Разработаны классификационные модели оценивания и прогнозирова-

них состояний комплекса "сердечно-сосудистая система — углеводный обмен" в условиях Севера. Выделен набор наиболее информативных признаков, позволяющий прогнозировать состояния системы углеводного обмена у мужчин и женщин с ошибкой менее 9%.

Основное содержание диссертационной работы изложено в следующих публикациях:

1. Высоцкая Г.С., Лапко A.B., Поликарпов JI.C., Пироговский Н.В. Диспансеризация больных артериальной гипертонией в условиях Крайнего Севера. // Тезисы докл. 4 Съезда кардиологов, Москва, 1986. - N306

2. Высоцкая Г.С., Лапко A.B., Орехов К.В. и др. Комплекс систем "Сердечно-сосудистая система - система углеводного обмена": принципы моделирования, алгоритмы управления, результаты исследований. // Имитация систем в биологии и медицине: Материалы 5-го Пражского симпозиума соц. стран - Прага 1986. - N717

3. Высоцкая Г.С., Лапко A.B., Каленюк Н.М. Имитация в задачах исследования медико-биологических систем // Имитация систем в биологии и медицине: Материалы 5-го Пражского симпозиума соц. стран - Прага 1986. - N717

4. Лапко А.В, Высоцкая Г.С. Simulation and control of a complex of discrete-time systems when information is not complete // Advances in Modelling & Simulation, AMSE Press, Paris, 1987. - vol 7. - N 2. - pp.18-20.

5. Седов K.P., Лапко A.B., Высоцкая Г.С., и др. Статистическая модель комплекса "сердечно-сосудистая система - углеводный обмен" // Препринт ВЦ СО АН СССР, 1989г. - N16. - 18с.

6. Седов K.P., Лапко A.B., Высоцкая Г.С., и др. Статистическая модель взаимодействия сердечно-сосудистой системы и углеводного обмена в экологических условиях Севера // Биофизические и биотехнические аспекты шмеостаза, Красноярск ИФ СО АН СССР, 1989г. - с.40-48.

7. Высоцкая Г.С. Диалоговый пакет прикладных программ для моделирования развивающихся медико-биологических систем // Математические модели и алгоритмы в задачах обработки данных, Красноярск, КГУ, 1993г. - с.128-137.

8. Лапко A.B., Высоцкая Г.С., Ануфриева H.K. и др. Распознающие системы в задачах исследования и прогноза динамики древостоев // Математические модели и алгоритмы в задачах обработки данных, Красноярск, КГУ, 1993г. - с.21-37.

9. Высоцкая Г.С., Шевырногов А.П. Статистические модели в задачах оценивания динамики океанических биоценозов и сопряженных океанологических характеристик // препринт ЙФ СО АН СССР, 1991г. - 47с.

10. Высоцкая Г.С. Диалоговый пакет программ "NPCL" // Непараметрические методы классификации и их применение, Новосибирск, Наука, 1993г. - с.131 -134.

11. Лалко A.B., Высоцкая Г.С., Секурцева Т.Т - Непараметрические системы классификации. // Известия высших учебных заведений. Физика. - 1995г. - N9 - с.90-95.

12. Поликарпов Л.С., Соустин В.П., Ченцов C.B., Высоцкая Г.С., Лапко

A.B. Информационная технология комплексного исследования процессов в системе "человек - окружающая среда" при неполной информации. // Информационные системы в науке,- М.: РФФИ, 1995г. - с.68-69.

13. Высоцкая Г.С., Поликарпов Л.С., Хамнагадаев И.И., Щербаков

B.В., Лапко A.B., Шуст Г.М. Прогностическая значимость факторов риска сердечно-сосудистых заболеваний среди жителей Крайнего Севера. // Рискометрия и адаптация в медицине: (Материалы Всесоюзной научно-практической конференции, Иваново). - Иваново: Ивановская государственная медицинская академия, 1995.г. - с.12 -13.

14. Высоцкая Г.С., Лапко A.B., Ченцов C.B. Непараметрические системы распознавания образов в условиях больших выборок. // Распознавание образов и анализ изображений. Перспективные информационные технологии. Материалы Всероссийской конференции с международным участием (РОАИ-95). Ульяновск, 27 августа - 3 сентября 1995 г. - Ульяновск: Гос. Техн. университет, 1995г. - с.59 -61,

15. Поликарпов Л.С., Хамнагадаев И.И., Лапко A.B., Высоцкая Г.С. Прогнозирование ишемической болезни сердца у мужчин сельского населения Севера (методические рекомендации). // Красноярск: Краевое управление здравоохранения, 1995г. - 15с.

16. Лапко A.B., Высоцкая Г.С., Секурцева Т.Т., Поликарпов Л.С., Ченцов C.B. Информационная технология моделирования и принятия решений

в системе "человек - окружающая среда"// Экологические аспекты устойчивого развития регионов. Тезисы международной конференции. Новгород, 22-25 сентября 1995 г. - Новгород: Нов. ГУ, 1995г. - с.101-107.

Подписано к печати . .

Формат 60 х 84 х 16. Бумага писчая 2.

Тираж 100 экз. Заказ .

Участок оперативной полиграфии ИВМ СО РАН

660036 Красноярск, Академгородок