автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.14, диссертация на тему:Непараметрические методы классификации статистических данных в условиях"Неидеального учителя"

кандидата технических наук
Новоходько (Куцых), Наталия Анатольевна
город
Красноярск
год
1996
специальность ВАК РФ
05.13.14
Автореферат по информатике, вычислительной технике и управлению на тему «Непараметрические методы классификации статистических данных в условиях"Неидеального учителя"»

Автореферат диссертации по теме "Непараметрические методы классификации статистических данных в условиях"Неидеального учителя""

Ч 1 НОЙ

На правах рукописи

НОВОХОДЬКО (КУЦЫХ) НАТАЛИЯ АНАТОЛЬЕВНА

НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ КЛАССИФИКАЦИИ СТАТИСТИЧЕСКИХ ДАННЫХ В УСЛОВИЯХ "НЕИДЕАЛЬНОГО УЧИТЕЛЯ"

05.13.Ы - Системы обработки информации и управления

Автореферат диссертации на сонскание ученой степени ^

кандидата технических наук ,, ^

Р

КРАСНОЯРСК - 1996

Работа выполнена в Красноярском государственном техническом университете.

Научный руководитель: доктор технических наук, профессор,

академик Международной академии высшей школы Лапко Александр Васильевич

Научный консультант: кандидат технических наук, доцет

Крохов Сергеи Иванович

Официальные оппоненты: доктор технических наук, профессор

Шайдуров Григории Яковлевич, кандидат технических наук, доцет Красноштанов .Александр Петрович.

Ведущая организация Институт математики Спбирскогс

отделения РАН г. Новосибирск

Защита состоится "/3 "МОЯьРЯ 1996 г. в час. мин. на заседанш диссертационного Совета Д.064.54.01 Красноярского государственного тех нического университета по адресу: 660074, г. Красноярск-74, ул. Киренского 26, ауд.З"*^.

С диссертацией можно ознакомиться в библиотеке университета. Автореферат разослан 1996 г.

Ученый секретарь диссертационного Совета доктор технических наук, профессор.

В. Н. Тимофеев.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Классификационные системы являются эффективным средством исследования сложных объектов при априорной неопределенности. Применение методов распознавания образов позволяет прогнозировать закономерности изучаемых явлении и процессов на основе накопленной информации.

Методы классификации н средства их реализации в виде систем диагностики. оценки и управления качеством изделий, автоматизации обработки разнообразной информации нашли в последнее десятилетие широкое распространение в народном хозяйстве н научных исследованиях.

Большой вклад в формирование теории распознавания образов внесли работы М. А. Айзермана, Т.В.Андерсона, Ю. Л. Барабаша, М. М. Бонграда, Э. М. Бравсрмаиа, М. Н. Ваннцвапга, В. Н.Вапнпка, Д. М. Грнна, Л.Девроя, Р.О.Дуда. Л.Дьерфп. Ю.П.Журавлева, Н. Г. Загорупко, Т. М. Ковера, Г. С. Лбова. Т. Мэрпла, Л. А. Растрпгина, К. С. Фу, П. Е. Харта, Я. 3. Цыпкина, А. Я. Червоненкпса и других ученых.

Методы размытой классификации и распознавания можно рассматривать как развитие традиционных алгоритмов на условия принятия решений, приближающиеся к естественным. Основными источниками необходимости введения нечеткого описания в задачах распознавания являются:

- ограничения на ресурсы моделирования (временные, стоимостные), не-позволяющие получить в принципе существующую четкую информацию и вынуждающие воспользоваться знаниями экспертов, которые выражаются в виде нечетких инструкций относительно распределения объектов по классам;

- случайный характер сигнала, что обусловлено наличием различного рода помех на этапах съемки и передачи сигнала (погрешности измерения, связанные с реакцией человека, разрешающей способностью прибора и т.п., неоднородные характеристики канала передачи и т.д.);

- то обстоятельство, что "большинство реальных классов размыты по своей природе в том смысле, что переход от принадлежности к непринадлежности для этих классов скорее постепенен, чем скачкообразен" (цитируя Л. А. Заде).

В настоящее время особую актуальность приобретают проблемы еннтеза и анализа распознающих алгоритмов для решения задач, занимающих промежуточное положение между традиционными задачами классификации (распознавание образов и автоматическая классификация), способных эффективно работать в условиях неполной или неоднозначной информации об исследуемых сложных объектах.

Известны работы /Дж. Беждек п др., 1981/, в которых излагаются раз личные подходы к построению алгоритмов автоматической классификации имеющих целыо определение степенен принадлежности овь'-к классам размытым множествам. Применение прикладной теории нечетких множестс при решении задач управления связано с работами С. А. Орловского /1981/ С. А. Дубровского, В. X. Каллова. А. А. Селюгнна /1985/. Менее разработан нымп являются нечегкие алгоритмы распознавания образов, хотя первы< результаты в этом направлении были получены еще в 60-е годы /Л. А. Заде 1968, А. Н. Борисов, 1969/. Их дальнейшее развитие связано с работам! А. И. Борисова /1989/. К. В. Кириллова, Ю. П. Пытьева /1995/. Среди совре менных публикаций можно отметить работу Л. И. Бородкипа и О. Е. Стад нпка /1985/, где формулируется наиболее близкая предлагаемой в данно работе постановка задачи распознавания размытых образов, в которой пр линейном виде разделяющей поверхности нечеткие определения классов вве дятся при формировании критерия ошибки распознавания образов.

Исследуемый в настоящей работе подход использует нечеткие указани "учителя" о распределении объектов обучающей выборки по классам пр восстановлении функций принадлежности сигнала размытым образам и оснс вываетея на методах непараметрнческоп статистики, что позволяет обоПт проблему детальной формулировки математической модели путем статист! ческой интерпретации исходной информации.

Распознавание образов с позиции "иеидеальпого учителя" отража( объективно существующую неоднозначность в описании обьектов и позвол ет учитывать знания "неуверенного эксперта", тем самым повышается эффе; тпвность пспользования априорной информации, расширяется круг решаемь задач.

Учитывая важность решения проблемы сокращения размерности в з дачах классификации, рассматриваются методы повышения вычпелителык эффективности алгоритмов распознавания образов путём преобразован! исходной информации на основе выявления пространственных закономерн стей расположения классов.

Диссертационная работа выполнена в соответствии с программ« "Технические университеты России", раздел "Интеллектуальные пнформац онные системы" при поддержке Красноярского Краевого Фонда Науки.

Цель работы: разработка и исследование непараметрических метод классификации в условиях "неидеального учителя", охватывающих пробле.ч синтеза и анализа эффективных алгоритмов распознавания образов, миним зацми описания п их применения в системе прогнозирования уровня фи: ческой подготовленности студентов.

Цель достигается путем решения следующих задач:

- разработка и исследование непараметрпческпх алгоритмов распознавания образов при нечетких указаниях "учителя";

- создание высокоэффективных структурно-аналнтнческих методов минимизации описания в задачах классификации статистических данных больших объемов, обеспечивающих максимальный учет априорных сведений;

- программная реализация предложенных алгоритмов и их применение при прогнозировании уровня физической подготовленности студентов на базе информационном компьютерной системы "Здоровье", внедренной в Красноярском государственном техническом университете.

Методы исследования. Для решения поставленных задач использовался аппарат непараметрическом статистики, теории классификации, теории нечётких множеств н теории графов, методы коллективных решении и статистического моделирования.

Научная новизна диссертации состоит в постановке и решении нетрадиционной задачи распознавания образов в условиях сложной структуры классов нечеткой природы на основе неоднозначных указании "учителя".

В отличии от существующих в этом направлении разработок предлагаемый подход основывается на априорном знании функций принадлежности классам обьектов обучающей выборки и имеет целыо построение размытого решающего правила, выявляющего степень принадлежности распознаваемого сигнала размытым образам.

Предложен оригинальный структурно-аналитический метод минимизации описания в задачах распознавания образов п исследованы его свойства в зависимости от объема и размерности исходных статистических данных.

Практическая ценность.

1. Разработано алгоритмическое и программное обеспечение решения задач классификации с "нендеальным учителем" с использованием которого создана система прогнозирования уровня физической подготовленности студентов. На этой основе специалистами лаборатории "Мониторинг здоровья" Красноярского государственного технического университета разработаны методики укрепления здоровья и повышения физической подготовленности студентов вузов.

2. Научные и практические результаты диссертационной работы могут быть использованы:

- при прогнозировании в условиях неполного описания объекта задачи; исследовании объектов сложной структуры, когда неоднозначная принадлежность выделенным классам является объективным свойством; оценке возмож-

ных траекторий изменения состояний развивающихся систем с дискретным временем;

- при создании высокоэффективных методов распознавания образов н классификации в условиях больших выборок; разработке и исследовании алгоритмов выбора наиболее информативных признаков, отличающихся низким уровнем эвристики и базирующихся на графовых методах выявления закономерностей локализации классов; разработке и программной реализации средств повышения наглядности и качества интерпретации результатов классификации.

Защищаемые тезисы.

1. Нетрадиционная математическая постановка задачи распознавания образов в условиях "неидеального учителя";

2. Непараметрическне методы классификации статистических данных при "неидеалыюм учителе", вычислительные аспекты их применения н свойства;

3. Структурно-аналитические методы минимизации описания в задачах распознавания образов на основе графовых преобразований исходной информации, результаты исследования показателен их эффективности и свойства;

4. Статистическая модель прогноза уровня физической подготовленности студентов на основе функциональных параметров организма при нечетком определении классов;

5. Результаты прогнозирования физической подготовленности студентов.

Реализация результатов работы. Разработанная методика распознавания образов (РО) в условиях неоднозначных указаний "учителя" и программное обеспечение внедрены при обследовании студентов Красноярского государственного технического университета, Красноярского государственного торгово-экономического института н Томского государственного университета.

Апробацпя работы. Основные положения диссертационной работы докладывались и обсуждались на научно-технической конференции с международным участием "Проблемы техники и технологий XXI века" (Красноярск,

1994), VIII Международным Симпозиуме по непараметрическим и робастным методам в кибернетике (Красноярск, 1995), Всероссийской конференции с международным участием "Математические методы распознавания образов -7", посвященной 60-летню академика РАН Ю. И. Журавлева (Пущино на Оке,

1995), Всероссийской конференции с международным участием "Распознавание образов и анализ изображений. Перспективные информационные технологии" (Ульяновск, 1995), Межрегиональной конференции "Проблемы

информатизации региона" (Красноярск, 1995), Региональной конференции "Экологическое состояние и природоохранные проблемы Красноярского края" (Красноярск, 1995), межвузовской научно-методической конференции "Новые технологии обучения и реализация, государственного образовательного стандарта в технических вузах" (Красноярск, 199£), городской конференции "Проблемы информатизации города" (Красноярск, 1995), II Сибирском Конгрессе по Прикладной и Индустриальной Математике (Новосибирск, 1996).

Публикации. По теме диссертации опубликовано 13 печатных работ. Личный вклад автора в публикациях соответствует основным положениям, выносимым на защиту.

Структура и объем работы. Диссертационная работа представлена на 140 страницах машинописного теста, иллюстрируется 36 рисунками и 24 таблицами и состоит из введения, 4 глав, заключения, списка литературы из 149 наименований и приложения.

СОДЕРЖАНИЕ РАБОТЫ.

Во введении обоснована актуальность проблемы, рассматриваемой в диссертационной работе, определены цель и задачи исследования, выделены основные положения, имеющие новизну и практическую значимость.

В первом главе приводятся основные понятия и определения современной теории распознавания образов, классическая постановка задачи РО и систематизация методов её решения на основе оценки уровня априорной информации о классе и об уравнении разделяющей поверхности. Дается анализ методов распознавания образов, эксплуатирующих вероятностную модель классов, и методов, использующих аппарат теории нечетких множеств. Определяется положение задачи нечеткого распознавания в теории классификации. Рассматриваются методы минимизации описания в задачах классификации статистических данных.

Показано, что многообразие вероятностных алгоритмов классификации определяется различием подходов в решении задач оценивания по статистическим данным вероятностных характеристик классов, организацией самообучающихся и обучающихся процедур (не исключая их совместное использование) последовательного восстановления асимптотически оптимальных решающих функций, синтеза решающих правил и классификации на их основе вновь поступающих сигналов.

Развитие теории распознавания образов осуществляется путем обобщения существующих методов и использования коллективов решающих правил, что обусловливается сложностью исследуемых объектов и необходимостью максн-

мального учета априорных сведений, содержащихся в обучающей последоватеш носгн данных и множестве исходных решающих правил. Проблема распознавани образов при "непдеальном учителе" относится к данному перспективному напраг лению, а её решение позволит обобщить классические постановки задач класс! фнкацни.

Анализ сложных объектов требует предварительной обработки эксперимеь тальных данных с целью уменьшения их объема. Перспективным направление! сокращения набора входных параметров является преобразование исходных пр1 знаков во вторичный набор меньшей размерности, обеспечивающее макспмал! ный учет априорных сведений - структурных п количественных. Структурно аналитические методы преобразования исходных признаков являются новым эффективным средством минимизации описания в задачах распознавания образо и автоматической классификации.

Во второй главе рассматривается методика решения нетрадиционной за дачи распознавания образов при "неидеальном учителе". В условиях сложно структуры классов нечеткой природы при однозначном указании принадле» носгн объекта конкретному классу существует риск сделать грубую ошибку Предлагаемая постановка позволяет учитывать неоднозначную прпнадлеж ность объекта классам и использовать знания "неуверенного эксперта".

Пусть каждому объекту а(х), характеризуемому вектором параметро х е Л*, ставится в соответствие множество функций принадлежности класса! /^(лг), / = 1, а/, значения которых лежат в интервале [0,1] и их сумма равна 1

Совокупность п таких статистически независимых реализаций составля ет обучающую выборку

с неизвестными плотностями вероятности по классам , j = \,M I

равномерно непрерывной плотностью вероятности р(х).

Функции принадлежности формируются на основе нечетких ннструкцш экспертов, как результат обобщения указании "учителя" относительно не скольких частных критериев либо по итогам решения группы независимы; экспертов.

Идея предлагаемого нечеткого метода распознавания образов состоит ] восстановлении по обучающей выборке К функций принадлежности снтуацш к классам в виде непараметрическнх регрессий.

Алгоритмическая реализация предложенного подхода может быть осущест влена на основе непараметрнческих методов моделирования простых и много связных статических объектов.

Если принять в качестве оценок соответствующих плотностей вероятности оценки парзеновского типа, то непараметрическпе оценки решающей функции представляются следующим выражением

xv - xv

{ crU)

, / = !,Л/,

¿=1

где Ф(и) - симметричные, положительные колоколообразные функции, удовле-творяющне условиям нормированностн, а с(п) - последовательности положительных констант (коэффициентов размытости) такие, что

lim с = 0 , lim пс = ос .

Л-*« n—f.о

Если априорная информация при построении математической модели задачи распознавания размытых образов содержит не только статистические наблюдения параметров исследуемых объектов и соответствующие указания "учителя" о принадлежности классам, но и сведения о существовании некоторых взаимосвязей между значениями функции принадлежности ц}(х) , j = \,М , тогда задача классификации .V сводится к численному решению системы уравнении

//, = f,(x. //,, я=7Гл7. у = /Гл7.

Предложена методика определения оценок взаимосвязанных значении функций принадлежности, которая основана на организации дополнительного вычислительного эксперимента и обработки его результатов с помощью процедур локальной аппроксимации. , ____..-„с __

Выбор оптимальных коэффициентов размытости ядерных функцнн-в регрессионных оценках осуществляется из условия минимума эмпирического критерия ошибки распознавания образов. Вид минимизируемого критерия выбирается исходя из анализа конкретной практической задачи и отражает как качественную характеристику точности распознавания (доля ошибочно классифицированных объектов, математическое ожидание оценок функций принадлежности по классам, вероятность неверного распределения классов по степени принадлежности к ним распознаваемого объекта), так и количественную (среднеквадратическое относительное, абсолютное отклонение оценочных значений функций принадлежности от истинных и т.п.).

Решающее правило ставит в соответствие классифицируемой ситуации х множество нормированных оценочных значений функций принадлежности заданным образам

__/ м _

т(х): [x,ltj(x)J = \,M^ , где ¡i j{x) = Jt ¡{х)^Jij(x), j = \,M.

В рамках теоретического исследования получены условия асимптотической несмещенности и состоятельности нелинейной непараметрической статистики, применяемой при формировании решающего правила классификации. Показано, что смещение

л/

m{mj(x)~ fij(x)) ap)M(jij(x) - flj(x)) - ~ /',(*)) .

i*=i ]*v

где a £ max|^/i„(.t)J |, fi> max

M(ftj{x) - fij{x)) = c)A)(.x) + CjAj(.x) + 0(cj ), A){x) = ft j(x)pj2\x) / 2Pj(x) + ¿,f(.x )Py\x)i Pj(x) + nf{x) / 2, A j(x) = pj\x)^\x)\, |4ф(.#)л / 4Pj(x), Pjm>(-), jJj"'(-) - w»-e производные no .v соответствующих функций; среднеквадратнческое отклонение

MfijW-MjW)1 <а2 +0

¿л/(//„ (х)-мЛ*))2 +

м(Т,^х)-р/х))2 =p2J(x)¡Ф2(u)dulnJcJpJ(x)+ciJA'J(x)+0(cJl>,J)+0(c6Jl

Для изучения свойств предлагаемых алгоритмов распознавания образов с "нендеальным учителем" при конечных выборках использовался метод статистического моделирования. Исследовалась зависимость показателей эффективности алгоритма от объема, размерности обучающих выборок и процентного содержания в них четких указаний "учителя", а также уровня зашумлен-ностн значений признаков и функций принадлежности в двуальтернатнвной задаче распознавания образов. Изменение качества распознавания оценивалось на основе статистик Смирнова и Стьюдента.

, где

Результаты исследований подтвердили теоретические утверждения: показатели эффективности алгоритма распознавания улучшаются с ростом объема обучающей выборки (рис. 1), параметры размытости ядерных функций стремятся к нулю (рис. 2).

-1-1-г

2.4

Г

I

7.2

нг

п

( X ÎOO)

Зависимость доли (Р¡) ошибочно классифицированных объектов от количества (к") признаков, известных при распознавании, процентного содержания (р) точек с четкими указаниями "учителя" и объема (п) обучающей выборки. Кривые I, 2, 3 - определяются значением 0^80%, кривые 4, 5, б - /3^20%. Сплошные линии соответствуют случаю к -5; штриховые - к'=4; пунктирные - к'=3, при общем количестве признаков, характеризующих объект, - к=5.

Рис. 1.

При равных условиях значения оптимальных параметров размытости ядерных функций увеличиваются при увеличении размерности пространства признаков и уменьшаются с ростом процентного содержания в обучающих выборках четких указании "учителя" (рис. 2).

Предложенный подход позволяет проводить распознавание образов в условиях частичного наложения классов обучающей выборки, однако, при выраженной локализации классов качество распознавания закономерно выше (рис. 1). Установлено что, алгоритмы размытого распознавания обеспечивают качественное распознавание при потере 20% признаков, составляющих описание объекта (рис. 1). По сравнению с традиционными, они более устойчивы к зашумленности обучающей выборки, остаются работоспособными при 30% уровне помех (рис. 3, 4). Причем наличие помех в значениях признаков распознаваемой ситуации более существенно, чем зашумленность указаний "учителя" в смысле вероятности появления ошибки классификации. Для других критериев эта закономерность не так существенна.

Copt

э —

T

7. г

II

I

Зависимость среднего по классам оптимального значения параметра Сор! в регрессионных оценках функций принадлежности от процентного содержания (/3) точек с четкими указаниями "учителя", размерности (к) м объема (п) обучающей выборки. Кривые 1, (2, 3, 4), 5 соответствуют размерности обучающем выборки к=2.5.10. Сплошные линии определяются значеннем ¡3 = 80%. штриховые - /3 ~50°. о. пунктирные - ¡3 »20%

Рис. 2.

Ч:

n

Т-1-1-1-1-1-1-1-1 1 1 | I 1 1 | 1 I I |

О 2.4 4.8 7.2 9.6 ( ^

Зависимость доли (Pj) ошибочно распознанных образов от процентного содержания (ДI точек с четкими указаниями "учителя", объема (п) обучающей выборки и уровня зашумленности (s) входных параметров; размерность обучающей выборки: к=5. Лрнвые 1,2,3-определяются значением [3^0%, кривые 4, 5, 6 - /3-20%i Сплошные лпшш соответствуют уровню помех е=0%, штриховые - £ =15% РИС. 3.

5

1 . 8

А

1 . 2

1

т

I

Т

1 I I 1

п

_ ю

< X 100»

Зависимость доли (Р¡) ошибочно распознанных объектов от процентного содержания (Д| точек с четкими указаниями "уч1ггеля", объема (п) обучающей выборки и уровня зашумленности (с) указаний "учителя". Размерность обучающей выборки: к=5: кривые 1,2,3 определяются значением /З^ЗОН. а кривые 4, 5, б - (1-20%: сплошные линии соответствуют уровню помех £=0%, штриховые - е=15%, пунктирные - £=30%

Рис. 4.

В результате экспериментальной апробации на широко известных тестовых данных Фишера доля ошибочно классифицированных объектов составила 5%.

В третьей главе предлагается структурно-аналитический метод преобразования исходного набора признаков объектов обучающей выборки, во вторичный, меньшей размерности. Суть подхода состоит в учёте пространственных закономерностей расположения классов обучающей выборки п использовании аппарата теории графов.

Алгоритм, реализующий методику минимизации описания в задачах классификации.

1. В режиме скользящего экзамена вычислим на исходной выборке ошибку р° распознавания образов в условиях "нендеального учителя".

Положим в качестве корневой вершины лг5'-1 графа Г точку, максимально удаленную от геометрического центра выборки V. Присвоим 51=1.

2. Построим остовное дерево Г минимального веса (рис. 4а) во взвешенном графе О(Х,К) взаимосвязей между точками обучающей выборки V, где

X = {.г',/ = 1,и} и Я = {г''у,1 = \,п, у = \,п,1 * V} - множества вершин и ребер. Каждому ребру г1'1' ставится в соответствие его вес и(/, V) - расстояние между соответствующими вершинами.

Сформируем очередной вторичный признак , /' = 1,/| для всех точек выборки в виде длины кратчайшего пути по остову Т, соединяющего корневую вершину и точки выборки х', / = 1,и .

3. Аналогично этапу 1, находим по обучающей выборке

К5' ={^й-'>//7(л:'),/ = й7,/ = й} ошибку распознавания.

4. Если р5' - р° > Д либо ¿к' то, выбрав в качестве новой корневой вершины .Vй*1'1 точку, максимально удаленную в среднем от множества корневых вершин {дс,,1,д = , перейдем к этапу 2 при 5У=5/+7, иначе перейти к этапу 5.

5. Выполним преобразование : исходной информации для классифицируемого сигнала л-' и проведем процедуру распознавания по выборке . Алгоритм закончил свою работу.

Алгоритм формирования очередного вторичного признака.

1. Для вершины .г' =;г5/11 положим </'•* = О.и считаем это значение сформированным новым признаком.

Для всех других вершин х', / = 1,л, положим ¿/5''' = да н выполним присвоение:

р=Б, Ь(1)=<х>, И(¡) =5. / = 1,н.

2. Для всех вершин х', где новые признаки не сформированы, выполнить: если Ц0> »</>>') •то присвоить Ь(1)=)у(р,1), Л(7)=р.

3. Пусть 7*0 - множество вершин, для которых новые признаки еще не найдены. Выберем вершину V, такую что

"" Цу) = ,;Ш,(Ц1)). ' "......

/е/о

4. Присвоим с!*"' = ¿^г+Цу), определив таким образом значение нового признака для вершины с номером V.

5. Если \ Т0\*О, то положим р=у и перейдем к шагу 2, иначе - алгоритм завершил свою работу, очередной вторичный признак для всех точек обучающей выборки сформирован.

Применение в задачах распознавания образов методов минимизации, основанных на преобразовании исходного набора параметров во вторичный, меньшей размерности, требует соответствия признаков, характеризующих классифицируемый объект, новому описанию данных обучающей выборки.

Рассматривалось три варианта преобразования исходных признаков в процессе классификации:

- точка, соответствующая распознаваемому объекту а(х°), присоединяется к ближайшей вершине уже существующего графа (рис. 5Ь), если таких вершин несколько, то к той, где значение нового признака минимально;

- каждый новый признак распознаваемого объекта а(х°) формируется в виде длины кратчайшего пути по минимальном остову 7", восстанавливаемому из соответствующей корневой вершины по точкам обучающей выборки V с учетом появления точки, описывающей объект а (х°), в исходном пространстве (рис. 5с), значения вторичных признаков обучающей выборки остаются неизменными;

- признаки распознаваемой ситуации а(х ) преобразуются аналогично предыдущему варианту, но значения вторичных признаков объектов обучающей выборки, откорректированы с учетом появления в остове Т' минимального веса новой вершины х° (рис. 5<1).

4

3 2 1 -

а)

6 \ 3 4 - ^ 6 О 3

/5 "7 1 2 4 2 -1 - .-• 5 *7 ......!у*2 *4

0 12 3 4

6 7 8 X]

Ь)

1-Г"

1 3

4 -

3 -

г 1

л

4 -1 2 -1 -

0 1 2 3 4 5

х3

X]

0 12 3 4 5

Х3

а) Остов Т минимального веса, сформированный по обучающей выборке V с корневом вершиной в точке № б. Ь) Сплошной линией выделен отрезок, соединяющим точку распознаваемого объекта .V0 с ближайшем точкой остова Т ('изображен пунктиром,), при распознавании используются вторичные признаки объектов обучающем выборки V, сформированные в виде веса кратчайших путем по минимальному остову Т. с) Минимальный остов 7", который строится по точкам выборки V, пока не присоединится точка х°, изображен сплошном линией, минимальным остов Т, построенный ранее - пунктиром. (I) Минимальный остов 7". сформированным по точкам выборки V с учетом точки х°, изображен сплошном линией, минимальным остов Т, построенный ранее - пунктиром

Рис. 5.

Предложенный алгоритм минимизации описания исследовался на основе двуальтернативной задачи распознавания образов в условиях "нендеального

учителя" на основе методов статистического моделирования. Преобразования выполнялись для выборок с исходным набором в 5 (10) признаков, представленных 1000 объектами (50% - доля точек с четкими указаниями "учителя"). Рассматривались все три варианта формирования нового набора признаков для распознаваемой ситуации (тестовые выборки были представлены 500 объектами, где 50% - доля объектов с четкими указаниями "учителя"). При организации вычислительного эксперимента контролируемые значения критериев по результатам имитаций усреднялись. Качество распознавания на вторичном наборе по отношению к ошибке распознавания до преобразовании оценивалось на основе статистик Смирнова и Стыодента.

Применение структурно - аналитического метода минимизации в задачах нечеткого распознавания позволяет при снижении временных затрат (рис. 6а) приблизиться к ошибке на первичном наборе признаков. Наиболее эффективный. сточки зрения временных затрат. 1-ый вариант преобразования признаков классифицируемого объекта обеспечивает наиболее низкое качество распознавания, а наиболее емкий по времени. 3-ий способ - даег лучшее приближение к ошибке распознавания на исходном наборе признаком (рис. 6Ь).

1'|

«.26

• .24 (.22

0,К

1.К

(,14

• .12 • .1

+

+

+ +

0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 о

>186

1

исходный 1 вариант 2 вариант 3 вариант

■л) .....• . / • ----------------- ]>) -;;

а) Изменение доли (Р¡) ошибочно распознанных объектов с ростом размерности к' вторичного набора признаков (обозначение +). Прочерком обозначена ошибка на исходном наборе размерности к = Ю. Ь) Гистограмма результатов распознавания образов и временных затрат в случае различных вариантов преобразования исходной информации о классифицируемом объекте: столбцы, обозначенные штриховкой (контуром), соответствуют доле Р/ (Р0) ошибочно распознанных (нераспознанных) объектов, затемненные столбцы -временным затратам, необходимым в каждом случае Рис. 6.

Предлагаемый подход исключает потерю информации и упрощает задачу интерпретации результатов классификации вновь прибывших объектов.

В четвертой главе рассматривается применение методики распознавания образов в условиях "неидеального учителя" в медико-биологических исследованиях. проводимых лабораторией "Мониторинг здоровья" Красноярского государственного технического университета под руководством профессора

+

КГТУ, Заслуженного Тренера России О. Н. Московченко, при установлении соответствия между существующими учебными нормативами по предмету физическая культура п функциональными возможностями организма студента.

Исходную информацию составили сведения о 1.5 тыс. студентов, предоставленные лабораторией "Мониторинг здоровья" п кафедрой физического воспитания. Сложность формулировки математической модели в данном случае определялась следующими условиями:

- преподаватель имеет право поставить оценку несколько выше показанного результата, ссылаясь на добросовестное отношение к занятиям и успехи студента в реализации собственной учебно-тренировочной программы;

- оценка может быть ниже функциональных возможностей студента, что обусловливается отсутствием у него мотивации на достижение предельных результатов и несерьезным отношением к занятиям в течении семестра и т.п.;

- наличие погрешности измерений, связанной с реакцией регистрирующего и разрешающей способностью измерительного прибора;

- влияние на результаты погодных условий, психологической подготовленности студента;

- различные условия выполнения контрольных нормативов (опорные реакции бега по разным покрытиям: гаревому, тартану н пересеченной местности неодинаковы).

Статистический характер медико-бпологических данных определяется замером исходных характеристик накануне выполнения норматива, а не непосредственно перед стартом. Эти особенности позволяет учесть нетрадиционная постановка задачи распознавания образов с "неидеальным учителем".

Значения показателей эффективности прогноза выполнения основных контрольных нормативов по предмету физическая культура представлены в таб.1, где Рг (Pi.Pi) - среднеквадратическое относительное (абсолютное, сред-неквадратическое) отклонение оценочных значений функций принадлежности объектов классам обучающей выборки от истинных значении, Р4 (Рп) - показатель, оценивающий долю неверно- классифицированных (нераспознанных) объектов: п' (пп *) - количество объектов указанного класса, отнесенных в "чужой" класс (нераспознанных объектов), ррг (пррг) - процент ошибок классификации в указанном классе (процент ситуаций, где не был дан прогноз), ррг (прр2) - процент ошибочно классифицированных объектов, относительно количества объектов в обучающей выборке (процент неклассифицированных объектов).

Формируя с помощью метода статистического моделирования из множества представленных характеристик различные наборы исходных параметров,

были выявлены группы признаков, наиболее сильно влияющие на выполнение определенного норматива. При прогнозировании результатов в беге на 3000м. набор информативных признаков составили параметры, характеризующие состояние сердечно-сосудистой системы и уровень выносливости организма (частота сердечных сокращений в покое, время восстановления пульса после нагрузки, минутный объём крови, жизненный индекс, показатель внешней работы сердца и становой индекс); в беге на 100м. - весоростовой, жизненный и становой индексы, индекс Керге и время восстановления. Наилучшее качество прогноза выполнения упражнения, отражающего уровень развития силы у мужчин, было достигнуто на следующем наборе: весоростовой индекс, относительный показатель развития силы мышц спины и кисти, показатель эластичности мышц спнны.

Таблица 1.

КРОСС

л,- Р1 Рг Р> Р4 Рп

он. л' РР' РР' лл' лРР1 "РР'

"5" 370 71.5987 0.230 0.1190 190 51.3 13.5 76 20.5 5.4

381 72.0314 0.236 0.1138 270 70.8 19.4 68 17.8 4.8

"3" 660 55.5272 0.347 0.2207 169 25.6 12.0 146 22.1 10.4

Л о*щ/ Рср. 1411 66.3858 0.270 0.1512 629 (44.6%) 49.2 14.9 290 (20.6% 20.1 6.9

ККГ на 100м.

л; Р, Р> Р> Р4 Рп

он. л' РР1 РР' лл' прр, прр,

м^м 216 72.8653 0.158 0.0800 111 51.4 07.9 33 15.3 2.4

"4" 265 57.1724 0.212 0.0836 209 78.8 14.9 56 21.1 4.0

"3" 930 29.4489 0.292 0.1603 121 13.0 08.6 185 20.0 13.1

л Рср. 1411 53.1622 0.221 0.1080 441 (31.1%) 49.2 10.5 274 (19.4) 18.8 6.5

СИЛОВОЕ УПРАЖНЕНИЕ

л,- Рг Р2 Р> Р* Рп

ои. л' РР1 рр1 лл' "РР' пррг

"5" 453 62.3985 0.221 0.1115 214 47.2 15.2 99 21.0 7.0

"4" 464 40.1352 0.221 0.0965 216 46.5 15.3 94 20.3 6.7

"3" 494 57.0820 0.261 0.1433 184 37.2 13.0 103 20.8 7.3

П общ/ Рср. 1411 53.2052 0.234 0.1171 614 (43.5%) 43.6 14.5 296 (21%) 21.0 7.0

В рассматриваемом случае трудно подобрать универсальный показатель эффективности прогноза. С позиции критерия, фиксирующего оценку (номер класса), много ошибок по ситуациям, где был показан пограничный результат. Однако, качественный анализ абсолютного отклонения оценочных значений функций принадлежности от истинных в виде процентного распределе-

ния объектов по интервалам, в зависимости от величины абсолютной ошибки дает удовлетворительный результат (рис. 7).

а) 35,1 Ь)

39,1 30,1 25,1 20,1 15,1 10,1 5,1 0.1

ЬЬплллд.-!

35,1 30,1 25,1 20,1 15,1 10,1 5,1 0,1

10 20 30 40 50 60 70 90 90 100

45,1 40,1 35,1 30,1 25,1 20,1 15,1 10,1 5,1 0,1

10 20 30 40 50 00 70 80 90 100

С)

ил.

10 20 30 40 50 !0 70 80 90 100

Гистограммы (а) п (с) - результаты прогноза выполнения контрольных тестов (3000м. п ЮОм.), (Ь) - силового упражнения. Затемненные (светлые, заштрихованные) столбцы соответствуют процентной доли объектов, для которых абсолютная ошибка функции принадлежности классу "отличников" ("ударников", "троечников") попадает в указанный

интервал Рис. 7

Анализ состава обучающей выборки, наиболее информативных признаков и результатов прогноза вероятностных оценок в беге на ЮОм. показал, что для значительного числа студентов результат этого теста не достаточно адекватно отражает уровень развития скоростно-силовых качеств и координационные возможности организма, и позволил выдвинуть гипотезу о возможности получить более достоверную оценку перечисленных качеств по результатам выполнения упражнения - бег 30м. с ходу.

Для сравнения экспертам кроме результатов прогноза в рамках вышеуказанной модели были также представлены результаты прогнозирования в условиях "идеального учителя" и в случае, когда восстанавливалось значение времени (числа повторений) при выполнении теста. В связи с этим было отмечено, что в рамках первой модели ошибки распознавания отражают не только уровень взаимосвязи между параметрами и адекватность постановки задачи её исследования, но также проявление неоднозначности в описании, существующей объективно.

Основные результаты и выводы.

1. Предложена нетрадиционная математическая постановка задачи распознавания образов на основе неоднозначных указании "учителя", позволяющая учитывать знания "неуверенного эксперта" н размытую природу реальных образов.

2. Рассмотрена методика синтеза п оптимизации непараметрпческих алгоритмов распознавания образов с "непдеальным учителем", выполнена их программная реализация.

Установлены условия асимптотической несмещенности и состоятельности нормированной неиараметрнческой оценки функции принадлежности классам, используемой при формировании решающего правила распознавания образов.

Установлено, что по сравнению с традиционными, непараметричеекпе нечеткие алгоритмы распознавания образов более устойчив),I к зашумленности обучающей выборки. Такой подход оказывается гибким и эффективным в условиях высокой априорной неопределенности за счет снятия жесткого требования однозначных чказапии "учителя" па этапе формализации задачи.

3. Разработан оригинальный метод минимизации описания в задачах распознавания образов и классификации на основе графовых структурно-аналитических преобразовании исходного набора параметров во вторичный, меньшей размерности. Его применение позволяет при снижении временных затрат приблизим,ея к ошибке распознавания на исходном наборе признаков н упрощает ншсрпрстацню результатов классификации вновь прибывших объектов.

4. Впервые на основе непараметрпческих методов распознавания размытых образов создана математическая модель и решена задача прогнозирования уровня физической подготовленности студента на основе показателей функционального состояния его организма.

Основные положения отражены в следующих работах:

/. Липко А. В.. Куцых Н. А. Непараметричеекпе алгоритмы распознавания образов в условиях "неидеального учителя" // Проблемы техники и технологий XXI века: Тез. докл. науч.-техн. конференции с международным участием, Красноярск, 1994. - С. 20.

2. Куцых II. А. Распознавание образов в условиях "неидеального учителя" // Математические методы распознавания образов г 7: Тез. докл. конференции с международным участием, посвященной 60-летию академика РАН Ю. И. Журавлева . - Москва. 1995. - С. 118-119.

3. Лапко А. В., Московчепко О. Н., Востропшна А. С., Куцых Н. А. Применение непараметрпческих алгоритмов распознавания образов при моделировании медико-биологических систем // Распознавание образов п анализ изображении: Новые информационные технологии: Тез. докл. Второй Всероссийской с участием стран СНГ конференции. - Ульяновск, 1995. - Ч. 3. -С. 7-10.

4 С.оусп'ч.ч Г, ГГ.. л. В., Ченцов С. В., Куцых Н. А.. Востропш-

J. с ¿тат..стнческие модели оценивания профессиональной способности абитуриентов и динамического прогнозирования успеваемости студентов // Новые технологии обучения и реализация государственного образовательного стандарта в технических вузах: Тез. докл. межвузовской науч.-метод. конференции. - Красноярск, 1995. - С. 16.

5. Ктпцшш Т. А.. Новоходько Н. А.. Крайкома О. Л/., Дашкевич Р. А., Бу-каемская А. Г.. Караулин В. А. Метеотропная реакция сердечно-сосудистой системы организма человека // Новые технологии обучения и реализация государственного образовательного стандарта в технических вузах: Тез. докл. межвузовской науч.-метод. конференции. - Красноярск, 1995. - С. 87.

6. Куцых Н. А. Алгоритмы распознавания образов в условиях "неидеального учителя " и их применение // Информатика и процессы управления: Межвузовский сборник научных статей. - Красноярск: КГТУ, 1995. - С.87-94.

7. Московченко О. Н.. Востротина А. С., Новоходько Н. А. Компьютерная диагностика физического состояния студентов // Проблемы информатизации региона: Труды межрегиональной конференции. - Красноярск, 1995. -С. 454.

5. Куцых II. А., Московченко О. Н. Прогнозирование уровня физической подготовки на основе методов распознавания образов // Экологическое состояние и природоохранные проблемы Красноярского края: Тез. докл. краевой конференции. - Красноярск, 1995. - С. 262-265.

9. Куцых И. А.. Московченко О. Н„ Востротина А. С. Распознающие модели оценивания морфофункционального состояния и прогноза уровня физической подготовки студентов // Проблемы информатизации города: Тез. докл. городской конференции. - Красноярск, 1995. - С. 102-103.

10. Лстко А. В.. Ченцов С. В.. Крохов С. II. Фельдман Л. А., Куцых Н. А. Обучающиеся системы обработки информации и принятия решений. - Новосибирск: Наука. Сиб. отд.-нпе, 1996. - С. 84-87.

11. Лапко А. В.. Московченко О. Н.. Новоходько Н. А. Применение алгоритмов размытого распознавания для прогноза физической подготовленности студентов // Тез докл. Второго Сибирского Конгресса по Прикладной и Индустриальной Математике (ИНПРИМ-96). - Новосибирск: Институт математики им. С. Л. Соболева СО РАН, 1996. - С. 42.

12. Куцых Н. А. Непарамегрические алгоритмы распознавания образов с "непдсальным учителем" и их исследование // Информатика и системы управления: Межвузовский аспирантский и докторантский сборник научных статен. - Красноярск: КГТУ, 1996 - С. 89-97.

13. Востротина А. С, Куцых Н. А., Захарова Н.С. Принятие решений в системах с дискретным временем при нечетких условиях // Информатика и процессы управления: Межвузовский сборник научных статей. - Красноярск: КГТУ, 1996. - С. 130-137.