Непараметрические системы распознавания образов в условиях разнотипных данных

Аникина, Галина Олеговна

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Непараметрические системы распознавания образов в условиях разнотипных данных

кандидата технических наук: Аникина, Галина Олеговна
город: Красноярск
год: 2005
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Непараметрические системы распознавания образов в условиях разнотипных данных»

Автореферат диссертации по теме "Непараметрические системы распознавания образов в условиях разнотипных данных"

На правах рукописи

АНИКИНА ГАЛИНА ОЛЕГОВНА

НЕПАРАМЕТРИЧЕСКИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ ОБРАЗОВ В УСЛОВИЯХ РАЗНОТИПНЫХ ДАННЫХ

Специальность 05.13.01 - системный анализ, управление и обработка информации (по отраслям: информатика, вычислительная техника и

управление)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Красноярск - 2005

Работа выполнена в Красноярском государственном техническом университете на кафедре автоматизированной обработки информации и в Институте вычислительного моделирования СО РАН

Научный руководитель- доктор технических наук, доцент

Лапко Василий Александрович

Официальные оппоненты: доктор физико-математических наук, профессор

Смирнова Елена Валентиновна

кандидат технических наук Высоцкая Галина Степановна

Ведущая организация: Государственное образовательное учреждение

высшего профессионального образования "Сибирский государственный аэрокосмический университет" (г. Красноярск)

Защита состоится «23» сентября 2005 года в 14:00 на заседании диссертационного совета Д 212.098.04 при Красноярском государственном техническом университете по адресу: ул. академика Киренского, 26, Красноярск, 660074, ауд. Д-501

Факс: (3912) 43-06-92 (КГТУ, для каф. САПР) e-mail: sovet(a front ru

С диссертацией можно ознакомиться в библиотеке Красноярского государственно! о технического университета.

Автореферат разослан «/J? » августа 2005 года

Ученый секретарь диссертационного совета, доктор технических наук ¿ЧрЛЛЛУ С А Бронов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Обработка разнотипных данных, содержащих пропуски, всегда вызывала методологические и вычислительные трудности применения традиционных алгоритмов классификации. Подобные условия часто встречаются при решении задач в социологии, медицине, геологии, археологии и экономике.

Практически все методы многомерной классификации ориентированы на один тип переменных Введение мер близости в пространстве разнотипных переменных связано с методологическими трудностями: при вычислении подобия (расстояния) между описаниями двух объектов приходится оперировать компонентами, которые являются результатами измерения очевидно несравнимых величин. В связи с этим, возникает необходимость в принципиально новом подходе к анализу эмпирической информации в условиях разнотипности переменных (Загоруйко Н.Г., 1999, Лбов Г.С., 1981, Журавлев Ю.И., 1971). Как правило, ищутся такие меры, которые удовлетворяли бы обычным аксиомам метрического пространства (непрерывности, симметричности и т.п), были инвариантны к допустимым преобразованиям для данного типа шкалы и не зависели от состава изучаемых объектов. Разработано несколько универсальных в некотором роде алгоритмов, осуществляющих согласование разнотипных шкал на основе усиления, например, номинальных переменных до порядковых и количественных, и ослабления количественных переменных до порядковых и номинальных. Однако усиление и ослабление шкал вносят некоторое искажение информации, поэтому применение такого подхода нельзя считать обоснованным. К тому же подобные расчеты требуют немалых временных затрат. В связи с этим, актуальным является создание методов «обхода» проблемы вычисления расстояния (меры близости) между объектами, характеризующимися разнотипными признаками.

Требуют совершенствования методы решения задачи распознавания образов на основе выборок данных, содержащих пропуски тех или иных характеристик классифицируемых объектов (Загоруйко Н.Г., 1999, Лбов Г.С., 1999).

Непараметрические системы классификации представляют собой эффективное средство исследования сложных объектов при априорной неопределенности, позволяющее «обойти» перечисленные выше трудности. Применение таких методов классификации позволяет на основе накопленной информации прогнозировать закономерности изучаемых явлений и процессов без предварительного построения их детальных математических моделей.

Предлагаемые в настоящей работе непараметрические системы распознавания образов в условиях разнотипных данных, основанные на условно-последовательной процедуре принятия решений, обобщают традиционные локальные алгоритмы классификации.

Исследования выполнялись в рамках грантов РФФИ №00-01-00001, №03-0100081.

Объект исследования - процессы классификации выборок разнотипных данных с пропусками. Г ми- и... ———,

*ИВДиеТЕКА/ I

Предмет исследования - непараметрические алгоритмы классификации разнотипных данных с пропусками, основанные на условно-последовательной процедуре распознавания образов, и их показатели эффективности.

Цель диссертации состоит в разработке методических, алгоритмических и информационных средств синтеза и анализа многоуровневых непараметрических систем классификации разнотипных данных с пропусками, обеспечивающих высокую вычислительную эффективность решения задач классификации, и преемственность результатов научных исследований.

Задачи исследования. Для достижения поставленной цели решаются следующие задачи:

- Разработать и исследовать эффективные алгоритмы синтеза и анализа структуры многоуровневых систем распознавания образов в условиях выборок разнотипных данных, основанные на условно-последовательной процедуре классификации.

- Разработать и исследовать новые непараметрические алгоритмы распознавания образов в пространстве дискретных, лингвистических и непрерывных переменных с учетом взаимосвязи между признаками, обобщающие традиционные локальные методы классификации.

- Развить методику синтеза непараметрических алгоритмов распознавания образов при наличии обучающих выборок с пропусками данных.

- Создать информационные средства автоматизации проектирования многоуровневых непараметрических систем распознавания образов в условиях обучающих выборок разнотипных данных, содержащих их пропуски.

- Внедрить полученные научные результаты при исследовании эффективности учебного процесса и медико-биологических систем.

Основная идея диссертации состоит в применении условно-последовательной процедуры формирования решений, методов имитационного моделирования и непараметрической статистики для синтеза непараметрических систем классификации в условиях разнотипных данных с пропусками.

Методы исследования. Для решения поставленных задач использовались методы непараметрической статистики, теории распознавания образов и статистического моделирования. Программная реализация алгоритмов синтеза и анализа многоуровневых непараметрических систем распознавания образов осуществлялась в среде Microsoft Visual Basic 6 0.

Основные результаты:

- методика синтеза и анализа многоуровневых непараметрических систем распознавания образов в пространстве разнотипных признаков классифицируемых объектов, основанная на условно-последовательной процедуре формирования решений;

- новые непараметрические алгоритмы классификации в пространстве дискретных, лингвистических и непрерывных переменных с учеюм взаимосвязи между признаками, составляющие структуру многоуровневых систем распознавания образов при разнотипных данных;

- методика синтеза непараметрических алгоритмов распознавания образов при наличии обучающих выборок с пропусками данных, основанная на использовании принципов имитации систем;

- комплекс программ, реализующий методику построения многоуровневых непараметрических систем распознавания образов в условиях выборок разнотипных данных с пропусками;

- результаты внедрения комплекса программ при исследовании показателей эффективности учебного процесса и прогнозировании исходов закрытой травмы сердца.

Научная новизна исследований заключается в "обходе" проблем синтеза непараметрических алгоритмов классификации разнотипных данных с пропусками за счет использования условно-последовательной процедуры принятия решений и имитационных методов заполнения пропусков данных.

Установлены свойства статистических оценок показателей эффективности разработанных непараметрических систем классификации в зависимости от объема, размерности обучающей выборки и параметров структуры изучаемых систем.

Разработана оригинальная меюдика распознавания объекюв в пространстве дискретных признаков, основанная на непараметрическом подходе и позволяющая значительно сократить исходное количество признаков, а также уменьшить время распознавания.

Предложен алгоритм классификации лингвистических переменных, основанный на сочетании методов теории нечетких множеств и непараметрической статистики, позволяющий определять оптимальные значения функции принадлежности по каждому лингвистическому признаку и синтезировать надежные решающие правила распознавания образов при относительно небольшом возрастании времени классификации.

Разработана модификация непараметрического алгоритма распознавания образов в пространстве непрерывных переменных на основе введения дополнительного признака, учитывающего взаимосвязь между переменными в пределах классов, чю приводит к значительному уменьшению ошибки классификации при сравнительно небольшом возрастании времени распознавания.

Предложен имитационный метод заполнения пропусков данных в обучающей выборке и новый непараметрический алгоритм классификации неоднородных данных. Определены условия асимптотической несмещенности и состоятельности оценки плотности распределения случайных неоднородных данных.

Значение для теории. Впервые с единых теоретических позиций разработаны методические и алгоритмические средства построения непараметрических систем классификации разнотипных данных с пропусками, обеспечивающие рациональный учет априорных сведений и значительно повышающие вычислительную эффективность решения задач распознавания образов. Создаются предпосылки решения актуальной проблемы кибернетики, связанной с созданием методологии комплексного исследования сложных систем в условиях априорной неопределенности на основе методов распознавания образов и непараметрической статистики.

Значение для практики. Создан комплекс программ синтеза структуры многоуровневых непараметрических систем классификации выборок разнотипных данных, который настраивается для решения задач распознавания в конкретной предметной области. Предложенная система допускает использование традиционных алгоритмов распознавания, что обеспечивает преемственность результатов научных исследований

Имитационная модель заполнения пропусков данных и непараметрические алгоритмы распознавания образов в условиях неоднородных обучающих выборок обеспечивают эффективное использование ресурсов, затрачиваемых на получение исходных данных.

Разработанные в диссертации методические, алгоритмические и информационные средства распознавания образов открывают возможность решения широкого класса задач в социологии, образовании и медицине, условия исследования которых характеризуются наличием выборок разнотипных данных с пропусками.

Достоверность результатов работы подтверждается исследованием свойств предлагаемых непараметрических алгоритмов аналитически и с помощью методов статистического моделирования; их сравнением с традиционными классификаторами; успешным внедрением разработанных алгоритмов и программных средств при исследовании учебного процесса и медико-биологических систем

Реализация результатов работы. Комплекс программ, реализующий методику построения многоуровневой непараметрической системы классификации разнотипных данных, был использован для исследования показателей эффективности учебного процесса (Краевой педагогический центр по работе с одаренными детьми и талантливой молодежью «Школа Космонавтики» и филиал Красноярского государственного педа! 01 ического университета, г Железногорск) при прогнозировании исходов закрытой травмы сердца (Больница скорой медицинской помощи г. Красноярска и Красноярская государственная медицинская академия); при исследовании и оптимизации рейтинговой системы оценки деятельности профессорско-преподавательского состава (Красноярский государственный технический университет) Результаты диссертационной работы использованы в учебном процессе подготовки студентов специальности 220200 -«Автоматизированные системы обработки информации и управления». Внедрение результатов диссертационной работы подтверждается соответствующими актами

Апробация работы. Основные научные результаты работы докладывались и обсуждались на следующих конференциях- Международный конгресс «Математика в XXI веке. Роль ММФ НГУ в науке, образовании и бизнесе» (г Новосибирск, 2003); Межвузовская научная конференция «Информатика и информационные технологии» (г Красноярск, 2003); Восьмая Всероссийская научно-практическая конференция «Проблемы информашзации региона» (г. Красноярск, 2003), 10-ая Российская научно-практическая конференция «Инновации в профессиональном и профессионально-педагогическом образовании» (г Екатеринбург 2003); Первая краевая дистанционная научно-практическая конференция «Научно-педагогические исследования как ресурс развития образования Красноярскою края» (г. Красноярск.

2004); Всероссийская научно-методическая конференция «Совершенствование систем управления качеством подготовки специалистов» (г. Красноярск, 2004), Международная научно-техническая конференция «Математические методы и информационные технологии в экономике, социологии и образовании» (г. Пенза, 2004); Международная научно-техническая конференция «Наука и образование» (г. Мурманск, 2004), 7-я Международная конференция «Распознавание образов и анализ изображений: Новые информационные технологии» (г. Санкт-Петербург, 2004); Краевая научно-практическая конференция «Информатизация краевого образования» (Красноярск, 2004). Результаты исследований докладывались на научных семинарах Красноярского государственного технического университета и Института вычислительного моделирования СО РАН

Публикации. Основное содержание диссертации отражено в 12 научных работах Личный вклад автора в результаты работ, опубликованных в соавторстве, состоит в разработке методов синтеза структуры многоуровневых непараметрических систем классификации разнотипных данных с пропусками, их реализации в виде комплекса программ, исследовании свойств новых непараметрических алгоритмов методом вычислительного эксперимента.

Структура и объем диссертации. Результаты работы изложены на 182 страницах текста, содержащего 1 таблицу, 33 рисунка и 1 приложение. Список использованных источников включает 126 наименований. Работа состоит из введения, пяти разделов текста с выводами по каждому из них, заключения, списка использованных источников и приложения.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность проблемы, указаны цель и задачи исследования; научная новизна, практическая ценность и реализация результатов работы; сформулированы основные положения, выносимые на защиту, отражены вопросы апробации и достоверность полученных результатов.

В первом разделе рассматриваются классические задачи распознавания образов в вероятностной постановке, а также методики их решения, основанные на байесовых решающих правилах. Обосновано применение методов непараметрической статистики при синтезе алгоритмов распознавания образов в условиях априорной неопределенности. Анализируются возможности традиционных методов распознавания образов и алгоритмов классификации разнотипных данных. Рассматриваются сильные и слабые стороны этих алгоритмов Формулируются задачи исследования методов классификации разнотипных данных, содержащих пропуски.

Основными проблемами традиционных методов распознавания образов в условиях выборок разнотипных данных являются:

- Потеря полезной информации, содержащейся в выборках разнотипных данных из-за неприспособленности традиционных алгоритмов классификации к распознаванию в подобных условиях. Такие алгоритмы предварительно сводят все данные к одной шкале, на которую они рассчитаны.

- Значительные временные затраты на классификацию в условиях больших размерностей признаков, которыми характеризуются сложные объекты.

- Невозможность эффективной обработки данных с пропусками.

Перспективным направлением построения алгоритмов классификации

выборок разнотипных данных с пропусками является синтез и анализ многоуровневых систем распознавания образов, основанных на условно-последовательной процедуре формирования решений

R(x) = {Rj(x(j)% j = WN}, x = (x(j), j = ijVj, где алгоритм Rj(x(j)) осуществляет классификацию на j-м этапе в пространстве однотипных признаков x(j) (непрерывных, дискретных или лингвистических) при условии принадлежности x{j -1) области пересечения классов.

Во втором разделе разрабатываются и исследуются новые непараметрические алгоритмы распознавания образов в пространстве дискретных и лингвистических признаков Предлагается и исследуется модификация непараметрического алгоритма классификации непрерывных переменных с учетом взаимосвязи признаков внутри классов, что позволяет уменьшить ошибку классификации для зависимых признаков. Исследуются алгоритмы заполнения пропусков данных на основе принципов имитации систем.

Пусть имеется обучающая выборка V = (x'v, v = \,к, a{i), i = Цл) объема п, i де x'=(x'v,v = \ ,к) — описания объектов, характеризующиеся признаками (непрерывными, дискретными, лингвистическими) размерности к; [o(i) =1, Kl) -

«указания учителя» о принадлежности ситуации х' к одному из М классов. Причем, непрерывные и дискретные признаки являются случайными векторами с неизвестной функцией распределения. Лингвистические признаки - это переменные, значением которых являются слова или предложения естественного или искусственного языка, связываемые между собой с помощью функций принадлежности.

Решающее правило т{х) о принадлежности ситуации х к определенному

классу П , j = 1, М , например, соответствующее критерию максимального

правдоподобия для двуальтернативной задачи распознавания образов имеет вид.

ГлеП„ 7п(х)>0 т(х):\ — , (1}

[хеП2, /и(х)<0

где /12М = Pi(x)- р2(х) (2)

- оценка решающей функции.

В качестве оценок плотностей вероятности Pj(x) для непрерывных признаков в работе приняты статистики «ядерного» типа:

Р,(х) =

Л"1

и,П (2

ХП !

Ф

<ь.

(3)

где Ф(-) - ядерная функция, удовлетворяющая условиям положительности, симметричности и нормированности; с „, V = 1 ,к - ее параметры размытости;

, у = \,к - параметры сглаживания; /, - множество номеров точек, принадлежащих ку'-му классу у = 1 ,М .

]. Для уменьшения ошибки распознавания образов целесообразно учитывать информацию о мере связанности признаков внутри классов. В диссертации предлагается модификация непараметрического алгоритма классификации непрерывных переменных, основанная на введении дополнительного признака, учитывающего взаимосвязь переменных внутри классов. Благодаря подобной модификации уменьшается область ошибочной классификации (пересечения классов).

Пусть классифицируемый объект характеризуется, например, двумя признаками в двуальтернативной задаче распознавания образов. Структура предлагаемого алгоритма изображена на рисунке 1. Символами А] и Д2 обозначены процедуры получения дополнительного признака г, на основании которого будет строиться алгоритм распознавания образов. Здесь, Дь Д2 соответственно -процедуры получения меры связанности признаков х}, х2 в предположении, что сигнал, обладающий такими признаками относится к первому либо второму классу.

Тогда обучающая выборка будет выглядеть следующим образом: (х[,х12,г',а (0,1 = 1 ,п).

Меру связанности между признаками сигнала будем определять следующим образом:

А\=р!(х1,х!2)-р,(х1)*р1(х'2),

(4)

где рх(х¡,х2) - оценка совместной плотности вероятности признаков х1: х2, а Р\(х\ 2) ~ оценки плотностей вероятности соответственно х,, х2 в первом классе

Рисунок 1 - Структура алгоритма, учитывающего взаимосвязь между признаками

По аналогии определяется Д'2 = р2 (х\ > х2 ) - Рг (х{) * Рг (х2 )• Дополнительный признак г можно определить одним из следующих способов-

г1 = (А1!, Лг2 ), г'=(А\,Аг'), г' = (Д'2, Аг'), где

Аг' = А\ - Д'2 , Дг' = Д', /Д'2 , Лг' = 1п Д', - 1п Д'2

Эффективность использования дополнительной информации о мере связанности признаков внутри классов, подтверждается результатами вычислителыгых экспериментов Контрольные выборки формировались с помошью датчика случайных чисел. Использовались нормальные законы распределения и их комбинации для получения уравнений разделяющей поверхности различной сложности Получаемые результаты многовариантных расчетов при конкретных условиях эксперимента усреднялись и анализировались Оптимизация оценки решающей функции осуществлялась исходя из минимума оценки вероятности ошибки р распознавания образов в режиме скользящего экзамена.

где ег(у) - «указания учителя» из обучающей выборки; сг(у') - «указания учителя», полученные исходя из решающего правила (1).

В рабочем алфавите насчитывалось М- 3 класса, объем выборки до п=1000, а размерность признакового пространства до к-10 (рисунки 2, 3). Классы характеризуются следующими параметрами:

- первый класс - математическое ожидание признаков тх = 0, у = 1 ,к;

среднеквадратическое отклонение о\ = 0 7; сгл е [1;1.5], у = 2,к;

- второй класс-тч =0; =3,/ = 2,~к; &, е [1,1 5], _/ = 1Д;

- третий класс - тХ[ = 0; mXJ =-3, _/ = 2,к; <тС) =1.3; <ух £ [1,1 5], у = 2,к.

Требовалось исследовать зависимость ошибки распознавания образов от объема и размерности обучающей выборки при решении задачи классификации с помощью традиционного непараметрического алгоритма классификации непрерывных переменных и его модификации, использующей дополнительную информацию.

Контрольные примеры при фиксированных условиях исследований генерировались 10 раз. Достоверность преимущества модификации непараметрического алгоритма подтверждается с помощью критерия Смирнова-Колмогорова при уровне значимости 4% Незначительно (в 1.2 раза) возрастает время распознавания из-за увеличения размерности задачи классификации при использовании дополнительного признака.

Подобная методика использовалась с небольшими изменениями при проведении вычислительных экспериментов с другими алгоритмами классификации, предлагаемыми в диссертации

р = -¿1(т(у), <7(7))

V стО) = стО)

V а

р,% 30-25-20-15

10

5--

100 200 300 400 500 600 700 800 900 1000

4-1-1—I—I—I—I—I—I—н

5 10 15 20 25 30 35 40 45 50

Модифицированный алгоритм Традиционный алгоритм

Рисунок 2 - Зависимость оценки ошибки распознавания р от объема обучающей выборки и при кол-ве признаков к=10, кол-ве классов М=3

Рисунок 3 - Зависимость оценки ошибки распознавания р от количества признаков к при объеме выборки л-400, кол-ве классов Л/-3

2. Алгоритм распознавания образов в пространстве дискретных признаков основан на введении вероятностной меры близости между дискретными переменными и вычислении на этой основе оценки плотности вероятности. Для решения задачи классификации заменим в обучающей выборке значения признаков,

характеризующих ситуацию х', на частоту ее встречаемости среди элементов

к _ _

каждого класса, например, Р,(х') = Р,(х[,), г = 1 ,М . Сформируем новую

обучающую выборку из частот V = (рд*'), сг(г), / = 1 ,М, ' = 1,«)■ Определим оценки плотностей вероятности новых признаков в каждом из М классов на основе непараметрической оценки Розенблата-Парзена

Р,{Р(х)) = -

1

м

хп*

У=1

(5)

м

У=1

На основе найденной непараметрической оценки плотности вероятности можно определить оценку решающей функции типа (2) и построить решающее правило (1).

Исходное пространство признаков из выборки Г = (*(,, у 1Д-. <т(г), / = ],«) можно также разбить на несколько групп (исходя из специфики задачи классификации). Для каждой группы признаков можно оценить частоту встречаемости этой группы во всех классах из имеющегося алфавита классов. Вычисленные частоты каждой из групп подставить в ядра Ф(-) и оценить вероятность принадлежности объекта с такими признаками к некоторому классу. Разбиение исходного множества признаков на группы целесообразно, так как в группах может содержаться дополнительная информация, отражающая специфику решаемой задачи.

100 200 300 400 500 600 700 800 900 1000

.............. Непараметричсский алгоритм

—Частотный алгоритм

Рисунок 4 Зависимость оценки ошибки распознавания р о г объема выборки и при кол-ве признаков к -J0 кол-ве классов Ы=5

Н-1-1-1-

-t-

Н-1-

15

20 25 30 Зэ 40 45 50

■........... ■ ■ Непараметричесхии алгоритм

Частотный алгоритм

Рисунок 5 Зависимое!ь оценки ошибки распознавания р от количества признаков к при объеме выборки п 400, кол-ве классов М=5

Опишем условия проведения эксперимента, подтверждающего преимущество предлагаемого непараметрического алгоритма классификации дискретных переменных по сравнению с традиционным частотным алгоритмом. В рабочем алфавите насчитывалось М -5 классов, объем выборки до п=1000, размерность признакового пространства до к= 10 (рисунки 4, 5). Классы определялись нормальными законами распределения их признаков.

Получаемые выборки непрерывных переменных преобразовывались в выборки дискретных признаков путем сопоставления их значений интервалам значений непрерывных переменных.

Достоверность преимущества непараметрического алгоритма классификации дискретных переменных подтверждается с помощью критерия Смирнова-Колмогорова при уровне значимости 5%.

3 Алгоритм классификации лингвистических переменных основан на замене значений лингвистических признаков на степени их принадлежности к определенным свойствам (множеству термов) и вычислении на этой основе оценки плотности вероятности. Для решения задачи классификации представим значения лингвистической переменной в виде степени их принадлежности к некоторому свойству объекта. Определим степень принадлежности м(х') лингвистической

переменной х' к некоторому свойству в качестве исходного терма. Присвоим начальному терму значение т в диапазоне от 0 до 1 с шагом Р Свяжем остальные степени принадлежности /и(х') с начальным термом некоторыми эвристическими соотношениями (функциями принадлежности) Сформируем новую обучающую выборку из степеней принадлежности V - (и(х'),сг0), г = 1 ,п). Решающее правило о принадлежности объекта д- к определенному классу будем строить аналогично (1)

Непараметрические оценки плотности вероятности значений функции принадлежности нового объекта х к каждому из М классов можно вычисли гь следующим образом:

1

1 = \,М-

(6)

п<с \

Значение начального терма ц(х'~) находится из условия минимума статистической оценки ошибки распознавания образов

Аналогичная процедура осуществляется при нахождении оптимального значения начального терма для каждого лингвистического признака из обучающей выборки.

Основным преимуществом непараметрического алгоритма классификации лингвистических признаков, по сравнению с алгоритмами Л.А. Заде, является возможность настройки степеней принадлежности к определенному множеству термов для каждой конкретной задачи.

Опишем условия проведения эксперимента, подтверждающего преимущество предлагаемого непараметрическою алюритма классификации лингвистических переменных по сравнению с частотным алгоритмом классификации дискретных признаков. Последний заключался в сопоставлении значений лингвистических переменных с целыми числами и проведении распознавания в пространстве дискретных признаков с помощью предлагаемого в диссертации алгоритма классификации дискретных признаков. В рабочем алфавите насчитывалось М 2 класса, объем выборки п-1000, размерность признакового пространства к /О (рисунки 6, 7). Классы характеризуются следующими параметрами:

- первый класс - тх = 0, / = ; сгч = 0.7; сг1 е [1;1 5], ] = 2,к;

- второй класс-тГ| = 2; т^ =0,7 = 2,= 0.8; е [1,1 5], / = 2,к .

Исследовалась зависимость ошибки распознавания образов от объема и

30-25-20--

15-

10

5--

100 200 300 400 500 600 700 800 900 1000

■ ............. Непараметрический алт оритм

Частотный алгоритм

Рисунок 6 - Зависимость оценки ошибки распознавания р от объема выборки п при кол-ве признаков к-10 ко1-ве классов М~2

ч—ь

50

—I—I—,—, —

5 10 15 20 25 30 35 40 45

............. Не параметрический алгоритм

Час штньт алгоритм

Рисунок 7 - Зависимость оценки ошибки растоннавания р от кочичества признаков £ при объеме выборки аг 40(), ко )-ве классов № 2

размерности обучающей выборки. Контрольные примеры при фиксированных условиях исследований генерировались 10 раз. Получаемые выборки непрерывных переменных преобразовывались в выборки лингвистических признаков путем сопоставления определенного интервала значений непрерывной переменной со значением лингвистической переменной.

Достоверность преимущества непараметрического алгоритма классификации лингвистических переменных подтверждается с помощью критерия Смирнова-Колмогорова при уровне значимости 3%.

Единственным недостатком предлагаемого алгоритма является увеличение времени классификации в результате оптимизации значения начального терма для каждого лингвистического признака.

4. В диссертации предлагается эффективный алгоритм заполнения пропусков данных, основанный на использовании принципов имитации систем.

Дана обучающая выборка У0 - (4, у = \Д, ст(0, / = 1,«), содержащая п, объектов с пропусками значений исходных данных. Переместим их в отдельную выборку V - \,к, <т(у), 7 = 1 ,п,). Возьмем /-ю строку из выборки V, и

определим т ближайших к ней строк (например, по Евклидову расстоянию) из выборки данных без пропусков У0. Сформируем т копий у'-й строки, в которой пропуски заполнены данными из ближайших строк. Подобные преобразования осуществим со всеми строками из выборки Ку.

Построим непараметрическую оценку решающей функции по выборке данных без пропусков ¥0, например, для двуальтернативной задачи распознавания образов. Пусть /¿(*) - непараметрическая оценка решающей функции, сформированная по выборке данных с заполненными пропусками V,. Тогда непараметрическая оценка обобщенной решающей функции имеет вид

где, весовой коэффициент а и количество ближайших строк т определяются из условия минимума оценки ошибки распознавания образов

Предложена непараметрическая оценка смеси плотностей вероятности Р(х) = Р\р1(х) +Ргр2(х), х = (х1>х2)> составляющие которой р) (х), р2(х) восстанавливаются соответственно по выборкам данных без пропусков (х{,х'2,1 = 1,И]) и с заполненными пропусками по признаку х\

(х[,х'г,1 = щ+\,п). Здесь Р\ - Г'1 = - значения частот, определяемые но

п п

соответственно количеству наблюдений без пропусков И; и с заполненными пропускамип2 - п-п¡.

Доказана теорема ее асимптотической несмещенности и состоятельности. При конечной дисперсии <т2 погрешности имитационного алгоритма заполнения пропусков данных установлены условия асимптотической несмещенности и состоятельности:

„ щи2 п п7

сх -> 0, с2 -*■ 0, —--> 0, — 0 при «!-><», «2 со,

п п

где cx,v- 1,2 - параметры размытости непараметрических оценок плотностей вероятности р{(х), рг(х).

В третьем разделе рассматриваются процедуры синтеза и анализа многоуровневых непараметрических систем распознавания образов в условиях выборок разнотипных данных. Формулируется постановка задачи и предлагается методика построения многоуровневых нспараметрических систем классификации разнотипных данных. Методом статистического моделирования исследуются свойства оценок показателей эффективности разработанных систем классификации в зависимости от объема исходной информации и параметров структуры изучаемой системы

Широкое распространение последовательных методов обработки данных в задачах распознавания образов объясняется возможностью их разбиения на ряд задач принятия решений т(х) = {m,(x(t)),t = \,Т) по ограниченным наборам признаков сигнала х = (x{t), t = \,Т). Идея предлагаемого подхода состоит в формировании наборов однотипных признаков x(t) (или признаков, объединенных общим смыслом в соответствии с постановкой задачи), которым сопоставляются этапы m,(x(t)) последовательной процедуры формирования целевого показателя При этом каждый последующий этап принятия решений осуществляется в области ошибочных решений предыдущего этапа.

Рассмотрим алгоритм классификации разнотипных данных, например, для двуальтернативной задачи распознавания образов.

1) Разделить к исходных разнотипных признаков на Т групп однотипных признаков (непрерывных, дискретных, лингвистических и др.).

2) Инициализировать значение параметра / I.

3) В соответствии с решающим правилом m, (x(t)) определить принадлежность контрольной ситуации x{t) области пересечения классов Г112 = Q, О Q2. Если x(t) не принадлежит Г212, то решение принято. В противном случае перейти к этапу 4.

4) Принягь t=t+l. Если V"Т, перейти к этапу 3, иначе к этапу 5.

5) Вычислить Р}(х),Р2(х) в пространстве признаков x(t), /= /. При Р\{х)> Р2(х) отнести ситуацию х к первому классу, иначе - ко второму классу

На заключительном этапе Т решение о принадлежности распознаваемой ситуации какому-либо классу принимается на основании решающего правила т, (х(Т)) независимо от принадлежности х(Т) области С212

Для достижения вычислительной эффективности алгоритма целесообразно в первый набор xil) включать наиболее информативные однотипные признаки, т к в этом случае вероятность принятия решения будет выше уже на первом этапе Второй и грегий наборы должны состоять из менее информативных признаков Информативность наборов однотипных признаков (например, для трех наборов признаков) можно определить следующим образом' выполнить классификацию на первом 3iane в пространстве каждого из наборов однотипных признаков

Определить набор, дающий наименьшую опенку ошибки классификации и соотнести его с первым этапом. На втором этапе провести классификацию в пространстве оставшихся наборов однотипных признаков и снова определить набор, дающий наименьшую ошибку, и соотнести его со вторым этапом. Третий этап соотнести с оставшимся набором признаков.

Применение многоуровневых систем распознавания образов позволяет «обойти» проблему классификации выборок объектов большой размерности за счет разбиения исходного множества признаков на наборы и решения задачи классификации в пространстве признаков меньшей размерности.

Методом статистического моделирования исследованы показатели эффективности многоуровневых алгоритмов классификации разнотипных данных и установлены их преимущества по сравнению с традиционными методами, основанными на сведении разнотипных данных к одной шкале. В рабочем алфавите насчитывалось М 2 класса, объем выборки до п=1000, размерность признакового пространства до к=10. Причем х/г х2, х3 - дискретные (бинарные) признаки; х4, х5, хл - лингвистические признаки; х% хн, х9, х!0 - непрерывные признаки. Классы характеризуются следующими параметрами:

- первый класс - тх = 0, у = 1,к; сг^ = 0.7; сгх е [1;1.5], у = 2,к;

- второй класс - т^ = 0; тх = -3, у = 2,к; а^ =1 3; ст^ £ [1,1.5], у = 2,к.

Получаемые выборки непрерывных переменных преобразовывались в выборки разнотипных данных.

В эксперименте рассматривалось четыре случая:

- 7 = 7. Все признаки переводились в количественные, и распознавание производилось с помощью предлагаемого алгоритма классификации дискретных переменных.

- Т = 3: 1этап(л/, х2, *з), 2утш(х4, х5, хг), Зтп(х- Х8, х% х,и). На первом уровне распознавание производилось с помощью предлагаемого алгоритма классификации дискретных признаков, на втором - лингвистических, на третьем - непрерывных.

- 'I' 4: 1„ап(*/, х2, х3), 2этлп(х4, х5, х6), Зэтап(*7, хц), 4,тапсгР, хю). На первом уровне распознавание производилось с помощью предлагаемого алгоритма классификации дискретных признаков, на втором - лингвистических, на третьем и четвертом — непрерывных.

- Т 10. Каждому /-му этапу I = 1,10 соответственно сопоставлялся у-й признак у = 1,10 . На первых трех уровнях распознавание осуществлялось с помощью предлагаемого алгоритма классификации дискретных признаков, на следующих трех - лингвистических, на последних четырех -непрерывных.

Исследовалась зависимость оценки ошибки распознавания образов и времени решения задачи классификации от объема обучающей выборки и параметров структуры изучаемой системы. Контрольные примеры при фиксированных условиях исследований генерировались 10 раз.

Достоверность преимущества многоуровневого алгоритма классификации разнотипных переменных подтверждается с помощью критерия Смирнова-Колмогорова при уровне значимости 5%.

Установлено, что при увеличении количества уровней наблюдается сокращение времени распознавания (рисунок 8). С увеличением числа уровней ошибка распознавания незначительно возрастает (рисунок 9). Таким образом, многоуровневый алгоритм классификации разнотипных данных по сравнению с традиционным имеет большую эффективность, тк. дает ощутимый выигрыш во времени при небольшом росте ошибки распознавания образов.

100 200 300 400 500 600 700 800 900 1000

Рисунок 8 - Зависимость среднего времени расчетов т от объема выборки п и количества уровней / при кол-ве признаков к-]0 кол-ве классов М 2

100 200 300 400 500 600 700 800 900 1000

Рисунок 9 - Зависимость обшей ошибки распознавания р от объема выборки п в количества уровней 2 при кол-ве признаков к 10 кот ве классов Л/ 2

Преимущество предложенного подхода состоит в возможности использования известных решающих правил классификации в пространстве однотипных признаков, тем самым соблюдается принцип преемственности результатов научных исследований в теории распознавания образов

В четвертом разделе описывается структура и функциональные возможности разработанного комплекса программ синтеза и анализа многоуровневых непараметрических систем распознавания образов в пространстве разнотипных переменных. Программное обеспечение разработано в среде программирования Microsoft Visual Basic 6.0 и представляет собой стандартное приложение Windows ( Комплекс программ позволяет осуществлять синтез многоуровневых

алгоритмов распознавания образов в условиях выборок разнотипных данных, содержащих пропуски и исследовать свойства моделируемых реальных систем Функциональные возможности программно1 о обеспечения:

- Определение оптимальной структуры иерархического алгоритма распознавания образов в зависимости от исходных данных с помощью разработанного метода

- Оптимальный синтез алгоритмов распознавания образов, реализующих этапы последовательной процедуры обработки выборок разнотипных данных.

- Синтез алгоритма заполнения пропусков данных, основанный на принципах имитации систем.

- Сравнение показателей эффективности традиционных и многоуровневых непараметрических алгоритмов классификации выборок разнотипных данных.

- Интерпретация результатов решения задачи распознавания образов в графическом виде.

В пятом разделе приводятся результаты применения комплекса программ при исследовании показателей эффективности учебного процесса на основе оценок личностных факторов учащихся и при прогнозировании исходов закрытой травмы сердца на основе данных лабораторных анализов пациентов.

Описывается методика прогнозирования обобщенного показателя успеваемости на основе оценок личностных факторов студентов и школьников. Данная методика позволяет исследовать влияние субъективных и объективных личностных факторов на эффективность образовательного процесса и определять тенденции развития личности учащегося Совместно со специалистами-психологами Красноярского краевого педагогического центра по работе с одаренными детьми и талантливой молодежью «Школа Космонавтики» и филиала Красноярского государственного педагогического университета города Железногорска установлены закономерности влияния личностных факторов на обобщенный показатель успеваемости.

При участии специалистов Красноярской государственной медицинской академии и врачей Больницы скорой медицинской помощи города Красноярска разработана методика прогнозирования исходов закрытой травмы сердца на основе данных лабораторных анализов пациентов. Данная методика позволит врачам эффективно планировать способы оказания помощи конкретному пациенту. Программное обеспечение используется в настоящее время врачами для проведения научных исследований и в качестве тренажера.

В приложении приведены документы, подтверждающие внедрение результатов диссертационной работы при исследовании показателей эффективности учебного процесса в Красноярском краевом педагогическом центре по работе с одаренными детьми и талантливой молодежью «Школа Космонавтики» и филиале Красноярского государственного педагогического университета в городе Железногорске; при прогнозировании исходов закрытой травмы сердца в Красноярской государственной медицинской академии и Больнице скорой медицинской помощи города Красноярска; в учебный процесс студентов специальности 220200 - «Автоматизированные системы обработки информации и управления» Красноярского государственного технического университета.

ЗАКЛЮЧЕНИЕ

Поставленная в диссертации цель достигнута в результате следующего: 1. Предложены методические и алгоритмические средства решения задачи распознавания образов в условиях разнотипных данных, основанные на условно-последовательной процедуре принятия решений с использованием информации о ранее вскрытых закономерностях исследуемого процесса, позволяющей повысить вычислительную эффективность нецараметрических алгоритмов классификации.

2 Разработаны новые непараметрические алгоритмы распознавания образов в пространстве дискретных, лингвистических и непрерывных переменных с учетом взаимосвязи между признаками, которые составляют струкгуру многоуровневых систем распознавания образов в условиях разнотипных данных

3. Методом статистического моделирования исследованы показатели эффективности предложенных в диссертации непараметрических алгоритмов классификации разнотипных данных и показаны их преимущества по сравнению с традиционными непараметрическими классификаюрами Установлено, что применение последова1ельной процедуры принятия решений значительно снижает время распознавания (в 2-2 5 раза) при небольшом росте ошибки классификации

4. С позиций принципов имитации систем предложен оригинальный метод заполнения пропусков непрерывных признаков и новый непараметрический алгоритм классификации получаемых неоднородных данных. Определены условия асимптотической несмещенности и состоятельности оценки плотности распределения неоднородных данных

5. Разработан комплекс программ синтеза и анализа многоуровневых непараметрических систем классификации выборок разногипных данных, который настраивается для решения задач распознавания в конкретной предметной области. Предложенная система допускает использование традиционных алгоритмов распознавания, что обеспечивает преемственность результатов научных исследований Функциональные возможности про1раммного обеспечения предусматривают синтез оптимальной структуры последовательной процедуры обработки разнотипной информации, процедуру заполнения пропусков непрерывных признаков, оценку показателей эффективности системы классификации и удобную интерпретацию результатов расчетов.

6. Результаты теоретических исследований использованы при прогнозировании показателей эффективности учебною процесса и исходов закрытой травмы сердца. Это позволило, в первом случае, исследовать влияние субъективных и объективных личностных факторов на эффективность образовательного процесса и определять тенденции развития личности учащегося Во втором

* случае созданы условия для более эффективного планирования способов

оказания помощи конкретному пациенту на основе данных его анализов

Основное содержание диссертации опубликовано в следующих работах:

1 Аникина. Г О Авюма1изация исследования показателей эффективности учебного процесса /ГО Аяикина // Информатизация краевого образования материалы краевой научно-практической конференции - Красноярск КК ИПК РО, 2004 - С 106-109.

2 Аникина, Г О Комплекс программ анализа и прогнозирования показа!елей эффективности учебною процесса ' А В Лапко, 11 В Соснин. Г О Аникина // Проблемы информа!изации региона ПИР-2003 ма1ериалы восьмой Всероссийской научно-практической конференции - Красноярск И1ЩК1 1 У, 2003 - С 91-97

3 Аникина, 1 О Непараметрические алгоритмы распознавания образов в пространстве дискретных признаков /ГО Аникина // Инфор\шика и системы управления' мсжвуз. сб науч тр Вып 9. - Красноярск: ГУ НИИ ИПУ КГТУ, 2003 -С. 55-64

4. Аникина, Г О. Непараметрические методы оценивания успеваемости учащихся /1 О. Аникина // Информатика и системы управления- межвуз сб науч тр Вып 9. -Красноярск. ГУ НИИ ИПУ КГТУ, 2003 - С. 342-350.

5. Аникина, Г О. Комплекс программ для рейтинговой системы оценки деятельности преподавателя вуза / Г О Аникина, Н. В Соснин // Математические методы и информационные технологии в экономике, социологии и образовании- материалы Международной научно-технической конференции. - Пенза, 2004 - С 310-312

6 Аникина, Г О. Многоуровневая непараметрическая система оценки рейтишов профессорско-преподавательского состава / Г. О Аникина, Н В Соснин // Магматические методы и информационные 1ехнологии в экономике социологии и образовании материалы Международной научно-технической конференции -Пенза, 2004 - С. 99-102.

7 Аникина, Г О Многоуровневая непараметрическая система прогнозирования успеваемости учащихся / ГО. Аникина /' Информатика и информационные 1ехнологии материалы межвузовской научной конференции. - Красноярск. ИПЦ КГТУ, 2003.-С 4-10

8 Аникина, Г О Моделирование показателей эффективности учебного процесса / Г О. Аникина, Н. В Соснин // Наука и образование - 2004 материалы Международной научно-технической конференции. - Мурманск- МГ1У, 2004. - С. 73-77.

9. Аникина, Г О Непараметрические системы обработки информации в исследованиях образовательных систем / А В Лаико, Н. В Соснин, Г О Аникина // Инновации в профессиональном и профессионально-педагогическом образовании гезисы докладов 10-й Российской научно-нракшческой конференции. -Екатеринбург 2003 - С 63-65

10 Аникина, Г О Система анализа и прогнозирования успеваемосш учащихся /ГО Аникина, Н В Соснин // Научно-педагогические исследования как ресурс развития образования Красноярского края' материалы первой краевой дистанционной научно-практической конференции - Красноярск' КК ИПК РО, 2004 - С 77-82

11 Аникина. I О Методологическое и математическое обеспечение рейтинговой системы KI ГУ / Н. В. Соснин, Г О. Аникина // Совершенствование систем управления качеством подготовки специалистов: материалы Всероссийской научно-методической конференции - Красноярск. ИПЦ КГТУ. 2004 - С 288-289.

12 Anikrna, G О Synthesis and analysis of non-parametric algorithms of classification in the space of discrete characteristics /GO Anikina, A V. Lapko, N V Sosnin // 7th International Conference on Pattern Recognition and Image Analysis New Information Technologies (PRIA-7-2004) Conference Proceedings (Vol 1-П1) Volume I. - St Petersburg SPbETU, 2004 -P 9-12

Аникина Галина Олеговна Непараметрические системы распознавания образов в условиях разнотипных данных Автореферат диссертации на соискание ученой степени кандидата технических наук Подписано в печать 2005 Заказ Формат 60x90/16 Уел печ л 1 Тираж 100 экз Типография Красноярскою юсударственнот о технического университета

i

f

J1 3 5 8 4

РНБ Русский фонд

2006-4 11295

Оглавление автор диссертации — кандидата технических наук Аникина, Галина Олеговна

Введение.

1 Анализ методов распознавания образов в условиях разнотипных данных

1.1 Основные понятия и определения теории распознавания образов.

1.2 Проблемы распознавания образов в условиях разнотипных данных.

1.3 Анализ и типизация алгоритмов распознавания образов при разнотипных данных.

1.3.1 Алгоритмы распознавания, основанные на преобразовании разнотипных признаков к одной шкале.

1.3.2 Алгоритмы распознавания, основанные на вычислении оценок.

1.3.3 Алгоритмы, основанные на логических решающих правилах.

1.4 Задачи исследования алгоритмов распознавания образов в условиях разнотипных данных.

Выводы.

2 Непараметрические алгоритмы распознавания образов в условиях разнотипных данных

2.1 Непараметрические алгоритмы распознавания образов в пространстве непрерывных признаков.

2.2 Модификация непараметрических алгоритмов классификации с учетом взаимосвязи между признаками.

2.3 Непараметрические алгоритмы распознавания образов в пространстве дискретных признаков.

2.3.1 Типизация методов распознавания образов в пространстве дискретных признаков.

2.3.2 Синтез непараметрического алгоритма классификации дискретных признаков.

2.4 Непараметрические алгоритмы классификации лингвистических переменных.

2.4.1 Основные понятия теории размытых (нечетких) множеств.

2.4.2 Методы классификации лингвистических переменных.

2.4.3 Синтез непараметрического алгоритма классификации лингвистических переменных.

2.5 Непараметрические алгоритмы распознавания образов в условиях пропуска данных.

Выводы.

3 Синтез и анализ многоуровневых непараметрических систем распознавания образов в пространстве разнотипных переменных

3.1 Постановка задачи распознавания образов в условиях разнотипных данных.

3.2 Методика синтеза многоуровневых непараметрических систем распознавания образов при разнотипных данных.

3.3 Показатели эффективности многоуровневых непараметрических систем распознавания образов.

3.4 Исследование свойств многоуровневых систем распознавания образов при разнотипных данных.

Выводы.

4 Комплекс программ синтеза и анализа многоуровневых непараметрических систем распознавания образов

4.1 Назначение и функциональные возможности комплекса программ.

4.2 Структура комплекса программ.

4.3 Инструкции пользователю комплекса программ.

Выводы

5 Анализ результатов применения многоуровневых непараметрических систем распознавания образов при исследовании эффективности учебного процесса и при прогнозировании исходов закрытой травмы сердца

5.1 Применение многоуровневых непараметрических систем распознавания образов при исследовании эффективности учебного процесса.

5.1.1 Основные особенности исследуемого процесса прогнозирования обобщенного показателя успеваемости как объекта статистического моделирования.

5.1.2 Методика разработки системы прогноза обобщенного показателя успеваемости.

5.1.3 Описание комплекса программ для прогнозирования обобщенного показателя успеваемости учащихся.

5.2 Применение многоуровневых непараметрических систем распознавания образов при прогнозировании исходов закрытой травмы сердца.

5.2.1 Основные особенности исследуемого процесса прогнозирования исходов закрытой травмы сердца как объекта статистического моделирования.

5.2.2 Методика разработки системы прогноза исходов закрытой травмы сердца.

5.2.3 Описание комплекса программ для прогнозирования исходов закрытой травмы сердца.

Выводы.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Аникина, Галина Олеговна

Актуальность работы. Обработка разнотипных данных, содержащих пропуски, всегда вызывала методологические и вычислительные трудности применения традиционных алгоритмов классификации. Подобные условия часто встречаются при решении задач в социологии, медицине, геологии, археологии и экономике.

Практически все методы многомерной классификации ориентированы на один тип переменных. Введение мер близости в пространстве разнотипных переменных связано с методологическими трудностями: при вычислении подобия (расстояния) между описаниями двух объектов приходится оперировать компонентами, которые являются результатами измерения очевидно несравнимых величин. В связи с этим, возникает необходимость в принципиально новом подходе к анализу эмпирической информации в условиях разнотипности переменных (Загоруйко Н.Г., 1999, Лбов Г.С., 1981, Журавлев Ю.И., 1971). Как правило, ищутся такие меры, которые удовлетворяли бы обычным аксиомам метрического пространства (непрерывности, симметричности и т.п.), были инвариантны к допустимым преобразованиям для данного типа шкалы и не зависели от состава изучаемых объектов. Разработано несколько универсальных в некотором роде алгоритмов, осуществляющих согласование разнотипных шкал на основе усиления, например, номинальных переменных до порядковых и количественных, и ослабления количественных переменных до порядковых и номинальных. Однако усиление и ослабление шкал вносят некоторое искажение информации, поэтому применение такого подхода нельзя считать обоснованным. К тому же подобные расчеты требуют немалых временных затрат. В связи с этим, актуальным является создание методов «обхода» проблемы вычисления расстояния (меры близости) между объектами, характеризующимися разнотипными признаками.

Требуют совершенствования методы решения задачи распознавания образов на основе выборок данных, содержащих пропуски тех или иных характеристик классифицируемых объектов (Загоруйко Н.Г., 1999, Лбов Г.С., 1999).

Непараметрические системы классификации представляют собой эффективное средство исследования сложных объектов при априорной неопределенности, позволяющее «обойти» перечисленные выше трудности. Применение таких методов классификации позволяет на основе накопленной информации прогнозировать закономерности изучаемых явлений и процессов без предварительного построения их детальных математических моделей.

Предлагаемые в настоящей работе непараметрические системы распознавания образов в условиях разнотипных данных, основанные на условно-последовательной процедуре принятия решений, обобщают традиционные локальные алгоритмы классификации.

Исследования выполнялись в рамках грантов РФФИ №00-01-00001, №03-01-00081.

Объект исследования — процессы классификации выборок разнотипных данных с пропусками.

Предмет исследования - непараметрические алгоритмы классификации разнотипных данных с пропусками, основанные на условно-последовательной процедуре распознавания образов, и их показатели эффективности.

Цель диссертации состоит в разработке методических, алгоритмических и информационных средств синтеза и анализа многоуровневых непараметрических систем классификации разнотипных данных с пропусками, обеспечивающих высокую вычислительную эффективность решения задач классификации, и преемственность результатов научных исследований.

Задачи исследования. Дня достижения поставленной цели решаются следующие задачи:

- Разработать и исследовать эффективные алгоритмы синтеза и анализа структуры многоуровневых систем распознавания образов в условиях выборок разнотипных данных, основанные на условно-последовательной процедуре классификации.

- Разработать и исследовать новые непараметрические алгоритмы распознавания образов в пространстве дискретных, лингвистических и непрерывных переменных с учетом взаимосвязи между признаками, обобщающие традиционные локальные методы классификации.

- Развить методику синтеза непараметрических алгоритмов распознавания образов при наличии обучающих выборок с пропусками данных.

- Создать информационные средства автоматизации проектирования многоуровневых непараметрических систем распознавания образов в условиях обучающих выборок разнотипных данных, содержащих их пропуски.

- Внедрить полученные научные результаты при исследовании эффективности учебного процесса и медико-биологических систем.

Основная идея диссертации состоит в применении условно-последовательной процедуры формирования решений, методов имитационного моделирования и непараметрической статистики для синтеза непараметрических систем классификации в условиях разнотипных данных с пропусками.

Методы исследования. Для решения поставленных задач использовались методы непараметрической статистики, теории распознавания образов и статистического моделирования. Программная реализация алгоритмов синтеза и анализа многоуровневых непараметрических систем распознавания образов осуществлялась в среде Microsoft Visual Basic 6.0.

Основные результаты:

- методика синтеза и анализа многоуровневых непараметрических систем распознавания образов в пространстве разнотипных признаков классифицируемых объектов, основанная на условно-последовательной процедуре формирования решений;

- новые непараметрические алгоритмы классификации в пространстве дискретных, лингвистических и непрерывных переменных с учетом взаимосвязи между признаками, составляющие структуру многоуровневых систем распознавания образов при разнотипных данных;

- методика синтеза непараметрических алгоритмов распознавания образов при наличии обучающих выборок с пропусками данных, основанная на использовании принципов имитации систем;

- комплекс программ, реализующий методику построения многоуровневых непараметрических систем распознавания образов в условиях выборок разнотипных данных с пропусками;

- результаты внедрения комплекса программ при исследовании показателей эффективности учебного процесса и прогнозировании исходов закрытой травмы сердца.

Научная новизна исследований заключается в "обходе" проблем синтеза непараметрических алгоритмов классификации разнотипных данных с пропусками за счет использования условно-последовательной процедуры принятия решений и имитационных методов заполнения пропусков данных.

Установлены свойства статистических оценок показателей эффективности разработанных непараметрических систем классификации в зависимости от объема, размерности обучающей выборки и параметров структуры изучаемых систем.

Разработана оригинальная методика распознавания объектов в пространстве дискретных признаков, основанная на непараметрическом подходе и позволяющая значительно сократить исходное количество признаков, а также уменьшить время распознавания.

Предложен алгоритм классификации лингвистических переменных, основанный на сочетании методов теории нечетких множеств и непараметрической статистики, позволяющий определять оптимальные значения функции принадлежности по каждому лингвистическому признаку и синтезировать надежные решающие правила распознавания образов при относительно небольшом возрастании времени классификации.

Разработана модификация непараметрического алгоритма распознавания образов в пространстве непрерывных переменных на основе введения дополнительного признака, учитывающего взаимосвязь между переменными в пределах классов, что приводит к значительному уменьшению ошибки классификации при сравнительно небольшом возрастании времени распознавания.

Предложен имитационный метод заполнения пропусков данных в обучающей выборке и новый непараметрический алгоритм классификации неоднородных данных. Определены условия асимптотической несмещенности и состоятельности оценки плотности распределения случайных неоднородных данных.

Значение для теории. Впервые с единых теоретических позиций разработаны методические и алгоритмические средства построения непараметрических систем классификации разнотипных данных с пропусками, обеспечивающие рациональный учет априорных сведений и значительно повышающие вычислительную эффективность решения задач распознавания образов. Создаются предпосылки решения актуальной проблемы кибернетики, связанной с созданием методологии комплексного исследования сложных систем в условиях априорной неопределенности на основе методов распознавания образов и непараметрической статистики.

Значение для практики. Создан комплекс программ синтеза структуры многоуровневых непараметрических систем классификации выборок разнотипных данных, который настраивается для решения задач распознавания в конкретной предметной области. Предложенная система допускает использование традиционных алгоритмов распознавания, что обеспечивает преемственность результатов научных исследований.

Имитационная модель заполнения пропусков данных и непараметрические алгоритмы распознавания образов в условиях неоднородных обучающих выборок обеспечивают эффективное использование ресурсов, затрачиваемых на получение исходных данных.

Разработанные в диссертации методические, алгоритмические и информационные средства распознавания образов открывают возможность решения широкого класса задач в социологии, образовании и медицине, условия исследования которых характеризуются наличием выборок разнотипных данных с пропусками.

Достоверность результатов работы подтверждается исследованием свойств предлагаемых непараметрических алгоритмов аналитически и с помощью методов статистического моделирования; их сравнением с традиционными классификаторами; успешным внедрением разработанных алгоритмов и программных средств при исследовании учебного процесса и медико-биологических систем.

Реализация результатов работы. Комплекс программ, реализующий методику построения многоуровневой непараметрической системы классификации разнотипных данных, был использован для исследования показателей эффективности учебного процесса (Краевой педагогический центр по работе с одаренными детьми и талантливой молодежью «Школа Космонавтики» и филиал Красноярского государственного педагогического университета, г. Железногорск); при прогнозировании исходов закрытой травмы сердца (Больница скорой медицинской помощи г. Красноярска и Красноярская государственная медицинская академия); при исследовании и оптимизации рейтинговой системы оценки деятельности профессорско-преподавательского состава (Красноярский государственный технический университет). Результаты диссертационной работы использованы в учебном процессе подготовки студентов специальности 220200 — «Автоматизированные системы обработки информации и управления». Внедрение результатов диссертационной работы подтверждается соответствующими актами.

Апробация работы. Основные научные результаты работы докладывались и обсуждались на следующих конференциях: Международный конгресс «Математика в XXI веке. Роль ММФ НГУ в науке, образовании и бизнесе» (г. Новосибирск, 2003); Межвузовская научная конференция «Информатика ^информационные технологии» (г. Красноярск, 2003); Восьмая Всероссийская научно-практическая конференция «Проблемы информатизации региона» (г. Красноярск, 2003); 10-ая Российская научно-практическая конференция «Инновации в профессиональном и профессионально-педагогическом образовании» (г. Екатеринбург, 2003); Первая краевая дистанционная научно-практическая конференция «Научно-педагогические исследования как ресурс развития образования Красноярского края» (г. Красноярск, 2004); Всероссийская научно-методическая конференция «Совершенствование систем управления качеством подготовки специалистов» (г. Красноярск, 2004); Международная научно-техническая конференция «Математические методы и информационные технологии в экономике, социологии и образовании» (г. Пенза, 2004); Международная научно-техническая конференция «Наука и образование» (г. Мурманск, 2004); 7-я Международная конференция «Распознавание образов и анализ изображений: Новые информационные технологии» (г. Санкт-Петербург, 2004); Краевая научно-практическая конференция «Информатизация краевого образования» (Красноярск, 2004). Результаты исследований докладывались на научных семинарах

Красноярского государственного технического университета и Института вычислительного моделирования СО РАН.

Публикации. По результатам выполненных исследований опубликовано 12 научных работ.

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав и заключения.

Заключение диссертация на тему "Непараметрические системы распознавания образов в условиях разнотипных данных"

ЗАКЛЮЧЕНИЕ

Впервые с единых теоретических позиций предложен метод решения задачи распознавания образов в условиях разнотипных данных, основанный на условно-последовательной процедуре принятия решений, что позволяет повысить вычислительную эффективность непараметрических алгоритмов классификации. Исследованы показатели эффективности многоуровневых непараметрических алгоритмов классификации разнотипных данных методом статистического моделирования и показаны преимущества многоуровневых алгоритмов по сравнению с традиционными непараметрическими классификаторами. Установлено, что применение последовательной процедуры принятия решений значительно снижает время распознавания (в 2-2,5 раза) при небольшом росте ошибки классификации.

Разработаны и исследованы новые непараметрические алгоритмы распознавания образов в пространстве дискретных, лингвистических и непрерывных переменных с учетом взаимосвязи между признаками, которые составляют структуру многоуровневых систем распознавания образов в условиях разнотипных данных.

Предложена модификация непараметрического алгоритма, которая путем введения дополнительного признака позволяет учитывать взаимосвязь переменных внутри классов, что приводит к уменьшению ошибки классификации (примерно на 6%) при сравнительно небольшом возрастании времени распознавания (примерно в 1,2 раза) по сравнению с традиционным непараметрическим алгоритмом.

Предложен оригинальный непараметрический алгоритм классификации дискретных переменных, позволяющий сократить исходное количество признаков за счет замены их значений на частоту встречаемости распознаваемой ситуации в каждом классе. При этом значительно уменьшается время распознавания (примерно в 3 раза) и ошибка классификации (примерно на 5%) по сравнению с частотным методом.

Разработан и исследован алгоритм классификации лингвистических переменных, основанный на сочетании методов теории нечетких множеств и непараметрического подхода. Его использование позволяет определять оптимальные значения функции принадлежности по каждому лингвистическому признаку и синтезировать надежные решающие правила распознавания образов при небольшом возрастании времени классификации.

С позиций принципов имитации систем предложен метод заполнения пропусков данных в обучающей выборке и новый непараметрический алгоритм классификации неоднородных данных. Определены условия асимптотической несмещенности и состоятельности оценки плотности распределения случайных неоднородных данных.

На основе результатов теоретических исследований разработан комплекс программ, реализующий методику синтеза многоуровневых непараметрических систем классификации разнотипных данных с пропусками, который настраивается для решения задач распознавания в конкретной предметной области. Предложенная система допускает использование традиционных алгоритмов распознавания, что обеспечивает преемственность результатов научных исследований. Функциональные возможности программного обеспечения предусматривают синтез оптимальной структуры последовательной процедуры обработки разнотипной информации, процедуру заполнения пропусков непрерывных признаков, оценку показателей эффективности системы классификации и удобную наглядную интерпретацию результатов расчетов. Для повышения эффективности программной реализации была использована объектно-ориентированная визуальная среда разработки Microsoft Visual Basic 6.0. Интерфейс комплекса программ выполнен в стиле Windows и является интуитивно-понятным, не требующим больших навыков работы на компьютере.

Комплекс программ был использован для исследования показателей эффективности учебного процесса на основе оценок личностных факторов школьников и студентов (Краевой педагогический центр по работе с одаренными детьми и талантливой молодежью «Школа Космонавтики» и филиал Красноярского государственного педагогического университета, г. Железногорск); при прогнозировании исходов закрытой травмы сердца пациентов на основе результатов лабораторных анализов (Больница скорой медицинской помощи, г. Красноярск).

Библиография Аникина, Галина Олеговна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Азаров, В. Н. Моделирование процессов образовательной деятельности с целью улучшения ее качества / В. Н. Азаров, А. М. Жичкин // Качество, инновации, образование.- 2002.- №3- С. 23-33.

2. Аникина, Г. О. Непараметрические алгоритмы распознавания образов в пространстве дискретных признаков / Г. О. Аникина // Информатика и системы управления: межвуз. сб. науч. тр. Красноярск: ГУ НИИ ИПУ КГТУ, 2003. - Вып. 9. - С. 55-64.

3. Аникина, Г. О. Непараметрические методы оценивания успеваемости учащихся / Г. О. Аникина // Информатика и системы управления: межвуз. сб. науч. тр. Красноярск: ГУ НИИ ИПУ КГТУ, 2003. - Вып. 9. - С. 342350.

4. Антамошкин, А. Н. Автоматизация проектирования систем управления: учебное пособие / А. Н. Антамошкин, М. А. Воловик, Б. П. Соустин. — Красноярск: ИПЦ КГТУ, 1995. 60 с.

5. Архангельский, С. И. Учебный процесс в высшей школе, его закономерные основы и методы: учебное пособие / С. И. Архангельский. М.: Высшая школа, 1980. - 368 с.

6. Вайнцвайг, М. Н. Алгоритм обучения распознаванию образов «Кора» / М.Н. Вайнцвайг // Алгоритмы обучения распознаванию образов. М.: Наука, 1973.-С. 110-115.

7. Вапник, В. Н. Теория распознавания образов (статистические проблемы обучения) / В. Н. Вапник, А. Я. Червоненкис. М.: Наука, 1974. - 416 с.

8. Вентцель, Е. С. Исследование операций. Задачи, принципы, методология / Е. С. Вентцель. -М.: Высшая школа, 2001. 208 с.

9. Гладун, В. П. Эвристический поиск в сложных средах / В. П. Гладун. -Киев: Наукова думка, 1977. 166 с.

10. Гласс, Дж. Статистические методы в педагогике и психологии: пер. с англ. / Дж. Гласс, Дж. Стенли. М.: Прогресс, 1976. - 495 с.

11. Голендер, В. Е. Алгоритм выявления экспериментальных закономерностей и восстановления функциональной зависимости / В. Е. Голендер, А. Б. Розенблит // Распознавания образов. 1974. - №1. - С. 118-127.

12. Гольдман, Р. С. Логический анализ математического описания объектов в задачах диагноза / Р. С. Гольдман // Автоматика и телемеханика. 1974. -№11.-С. 123-129.

13. Горб, В. Г. Теоретические основы мониторинга образовательной деятельности / В. Г. Горб // Педагогика. 2003. - №5. - С. 10-14.

14. Горелик, А. А. Методы распознавания / А. А. Горелик, В. А. Скрипник. -М.: Высшая школа, 1977. 222 с.

15. Горелик, A. JI. Методы распознавания: учеб. пособие для вузов / A. JL Горелик, В. А. Скрипкин. — 2-е изд., перераб. и доп. М.: Высшая школа, 1984.-208 с.

16. Горелик, A. JI. Об одном методе решения задач классификации объектов или явлений / A. JI. Горелик, В. А. Скрипкин // Техническая кибернетика. -1965. -№1. -С.10-19.

17. Горленко, О. А. Повышение качества преподавания лекционных курсов на основе мониторинга исходной и текущей подготовки студентов / О. А. Горленко, В. М. Лебедева, Т. П. Можаева // Качество, инновации, образование. 2002. - №3. - С. 34-38.

18. Грабарь, М. И. Применение математической статистики в педагогических исследованиях. Непараметрические методы / М. И. Грабарь, К. А. Краснянская. М.: Педагогика, 1977. — 136 с.

19. Губарев, В. В. Алгоритмы статистических измерений / В. В. Губарев. М: Энергоатомиздат, 1985. - 272 с.

20. Губарев, В. В. Системное представление качества образования / В. В. Губарев // Стандарты и качество. 2002. - №4. - С. 30-34.

21. Гурский, Е. И. Теория вероятностей с элементами математической статистики: учебное пособие для вузов / Е. И. Гурский. — М.: Высшая школа, 1971.-328 с.

22. Дахин, А. Н. Педагогическое моделирование: сущность, эффективность и неопределенность / А. Н. Дахин // Педагогика. 2003. - №4. - С. 21-26.

23. Домрачев, В. Г. Прогнозирование показателей качества образовательных услуг на основе успеваемости / В. Г. Домрачев, О. М. Полещук, И. В. Ретинская // Качество. Инновации. Образование. 2002. - №4. - С. 49-52.

24. Домрачев, В. Г. О тенденциях развития систем обработки информации в образовательной среде / В. Г. Домрачев, О. М. Полещук, И. В. Ретинская // Качество, инновации, образование. — 2002. №1. — С. 67-69.

25. Дуда, Р. Распознавание образов и анализ сцен / Р. Дуда, П. Харт. М.: Мир, 1976.-559 с.

26. Дюк, В. А. Компьютерная психодиагностика / В. А. Дюк. СПб.: Братство, 1994.-364 с.

27. Ермолаев, О. Ю. Математическая статистика для психологов: учебник / О. Ю. Ермолаев. М.: Фланта, 2002. - 336 с.

28. Журавлев, Ю. И. Алгоритмы распознавания, основанные на вычислении оценок / Ю. И. Журавлев, В. В. Никифоров // Кибернетика. 1971. - №3. -С. 1-11.

29. Журавлев, Ю. И. Экстремальные задачи, возникающие при обосновании эвристических процедур / Ю. И. Журавлев // Проблемы прикладной математики и механики. М.: Наука, 1971. - 459 с.

30. Загвязинский, В. Моделирование в структуре социально-педагогического проектирования / В. Загвязинский // Вестник высшей школы. 2004. -№9.-С. 21-25.

31. Загоруйко, Н. Г. Алгоритмы обнаружения эмпирических закономерностей / Н. Г. Загоруйко, В. Н. Елкина, Г. С. Лбов. -Новосибирск: Наука, Сиб. отд-ние, 1985. 108 с.

32. Загоруйко, Н. Г. Методы распознавания и их применение / Н. Г. Загоруйко. — М.: Советское радио, 1972. 207 с.

33. Загоруйко, Н. Г. Прикладные методы анализа данных и знаний / Н. Г. Загоруйко. Новосибирск: Изд-во Ин-та математики, 1999. - 270 с.

34. Загоруйко, Н. Г. Экспертные системы и распознавание образов / Н. Г. Загоруйко // Вычислительные системы. 1986. - №117. - С.3-10.

35. Заде, Л. А. Понятие лингвистической переменной и его применение к принятию решения / Л. А. Заде. М.: Мир, 1976. - 165 с.

36. Кибернетика и проблемы обучения: сборник переводов / Под ред. Берга. -М.: Прогресс, 1970. 390 с.

37. Классификация и кластер. М.: Мир, 1980. - 392 с.

38. Колесников, А. Социально-педагогические системы и перспективы их математического моделирования / А. Колесников, И. Лебедева // Вестник высшей школы. 2004. - №9. - с. 25-28.

39. Комплексная социально-психологическая методика изучения личности инженера: учебное пособие / Э. С. Чугунова и др.. JL: Изд-во ЛГУ, 1991.-184 с.

40. Кузьмина, Н. В. Методы исследования педагогической деятельности / Н.В. Кузьмина. Л.: Изд-во ЛГУ, 1970. - 114 с.

41. Лазарев, В. С. Нормативный подход к оценке инновационной деятельности школы / В. С. Лазарев, Б. П. Мартиросян // Педагогика. —2003.-№3.-С. 17-25.

42. Лапко, А. В. Имитационные модели неопределенных систем / А. В. Лапко. Новосибирск: Наука, Сиб. отд-ние, 1993. - 112 с.

43. Лапко, А. В. Непараметрические алгоритмы автоматической классификации, распознавания образов и их применение в задаче идентификации / А. В. Лапко // Адаптация и обучение в системах управления и принятия решений. 1982. — № 3. - С. 152-163.

44. Лапко, А. В. Непараметрические методы классификации и их применение / А. В. Лапко. Новосибирск: Наука, Сиб. отд-ние, 1993. - 152 с.

45. Лапко, А. В. Непараметрические системы обработки информации: учебное пособие / А. В. Лапко, С. В. Ченцов. М.: Наука, 2000. - 350 с.

46. Лапко, А. В. Обучающиеся системы обработки информации и принятия решений: непараметрический подход / А. В. Лапко, С. В. Ченцов, С. И. Крохов. Новосибирск: Наука, Сиб. издат. фирма РАН, 1996. - 216 с.

47. Лапко, А. В. Статистические методы моделирования и принятия решений в развивающихся медико-биологических системах / А. В. Лапко, О. М. Новиков, Л. С. Поликарпов. Новосибирск: Наука, Сиб. отд-ние, 1991. — 221 с.

48. Лапко, В. А. Непараметрические методы обработки данных: учебное пособие / В. А. Лапко, М. И. Соколов. Красноярск: ИПЦ КГТУ, 2001. -116 с.

49. Лбов, Г. С. Логические решающие функции и вопросы статистической устойчивости решений / Г. С. Лбов, Н. Г. Старцева. — Новосибирск: Изд-во Ин-та математики, 1999. — 212 с.

50. Лбов, Г. С. Логические функции в задачах эмпирического предсказания / Г. С. Лбов // Вычислительные системы. 1978. - Вып. 76. - С. 34-64.

51. Лбов, Г. С. Метод обнаружения логических закономерностей на эмпирических таблицах / Г. С. Лбов, В. И. Котюков, Ю. П. Машаров // Вычислительные системы. 1976. - Вып. 67. - С. 29-42.

52. Лбов, Г. С. Методы обработки разнотипных экспериментальных данных / Г. С. Лбов. Новосибирск: Наука, Сиб. отд-ние, 1981. - 160 с.

53. Лбов, IV* С. Об одном алгоритме распознавания в пространстве разнотипных признаков / Г. С Лбов, В. И. Котюков, А. Н. Манохин // Вычислительные системы. 1978. - Вып. 55. - С. 98-107.

54. Лбов, Г. С. Распознавание образов при разнотипных признаках в условиях малой выборки / Г. С. Лбов, А. Н. Манохин // Статистические проблемы управления. Вильнюс: Пяргале, 1976. - Вып. 14. - С. 57-63.

55. Лебедева, Л. И. Математическое моделирование в педагогическом исследовании / Л. И. Лебедева // Педагогика. 2002. - №10. - С. 29-37.

56. Машинные методы обнаружения закономерностей: сб. науч. тр. / Гл. ред. Ю. Г. Косарев // Вычислительные системы. 1981. — Вып. 88. - 100 с.

57. Медведев, А. В. Основы теории обучающихся систем: учебное пособие / А. В. Медведев. Красноярск ИПЦ КГТУ, 1982. - 108 с.

58. Методы системного педагогического исследования: учебное пособие / Под ред. Н. В. Кузьминой. Л.: Изд-во ЛГУ, 1980. - 165 с.

59. Михеев, В. И. Моделирование и методы теории измерений в педагогике: научно-методическое пособие / В. И. Михеев. М.: Высшая школа, 1987. - 200 с.

60. Непараметрические системы классификации / А. В. Лапко и др.. -Новосибирск: Наука, Сиб. отд-ние, 2000. 240 с.

61. Нестерова, Н. В. Тестовый контроль знаний: технология формирования и структура / Н. В. Нестерова // Инновации в образовании. 2003. - №4. — С. 81-94.

62. Обучающиеся системы обработки информации и принятия решений / А.В. Лапко и др.. — Новосибирск: Наука, Сиб. издат. фирма РАН, 1996. — 269 с.

63. Орловский, С. А. Проблемы принятия решений при нечеткой исходной информации / С. А. Орловский. М.: Наука, 1981. - 208 с.

64. Осипов, Г. В. Методы измерения в социологии / Г. В. Осипов, Э. П. Андреев. М.: Наука, 1977. - 120 с.

65. Перегудов, Ф. И. Введение в системный анализ / Ф. И. Перегудов, Ф. П. Тарасенко. М.: Высшая школа, 1989. - 367 с.

66. Пикялис, В. С. Сравнение методов вычисления ожидаемой ошибки классификации / В. С. Пикялис // Автоматика и телемеханика. 1976. — №5.-С. 59-64.

67. Пфанцагль, И. Теория измерений: пер. с англ. / И. Пфанцагль. М.: Мир, 1974.- 164 с.

68. Распознавание образов: состояние и перспективы: пер. с англ. / К. Верхаген [и др.]. М.: Радио и связь, 1985. - 104 с.

69. Растригин, Л. А. Принятие решений коллективом решающих правил в задачах распознавания образов / Л. А. Растригин, P. X. Эренпггейн // Автоматика и телемеханика. 1975. - №9. - С. 133-145.

70. Рубан А. И. Методы анализа данных: учебное пособие. В 2 ч. 4.1. / А. И. Рубан. Красноярск: ИПЦ КГТУ, 1994. - 220 с.

71. Рубан А. И. Методы анализа данных: учебное пособие. В 2 ч. 4.2. / А. И. Рубан. Красноярск: ИПЦ КГТУ, 1994. - 125 с.

72. Солонин, С. И. Статистические методы как инструмент менеджмента в вузе / С. И. Солонин // Качество, инновации, образование. 2002. - №3. -С.17-23.

73. Субетто, А. И. Квалиметрия / А. И. Субетто. СПб.: Астерион, 2002. -288 с.

74. Тарасенко, Ф. П. Непараметрическая статистика / Ф. П. Тарасенко. -Томск: Изд-во ТГУ, 1976. 294 с.

75. Теория систем и методы системного анализа в управлении и связи / В. Н. Волкова и др.. М.: Радио и связь, 1983. - 248 с.

76. Тутубалин, В. Н. Теория вероятностей: краткий курс и научно-методические замечания / В. Н. Тутубалин. М.: Изд-во МГУ, 1972. - 230 с.

77. Тутушкина, М. К. Практическая психология: учебник / М. К. Тутушкина, С. А. Волков, О. Б. Годлиник. СПб.: Дидактика Плюс, 1998. - 336 с.

78. Фу, К. Последовательные методы в распознавании образов и обучении машин / К. Фу. М.: Наука, 1971.-250 с.

79. Хант, Э. Искусственный интеллект / Э. Хант. М.: Мир, 1978. - 560 с.

80. Цыба, В. Т. Математико-статистические основы социологических исследований / В. Т. Цыба. — М.: Финансы и статистика, 1981. 255 с.

81. Цыпкин, 3. Я. Основы теории обучающихся систем / 3. Я. Цыпкин. М.: Наука, 1970.-252 с.

82. Чепелов, П. Н. Оценка эффективности педагогических технологий непараметрическими методами математической статистики / П. Н. Чепелов // Вестник высшей школы. 2001. - №2. - С. 29-35.

83. Энциклопедия психологических тестов: личность, мотивация, потребность / Под ред. Карелина. М.: Изд-во ACT, 1997. - 300 с.

84. Aeberhard, S. Comparative analysis of statistical pattern recognition methods in high dimensional settings / S. Aeberhard, D. Coomans, O. de Vel // Pattern Recognition. 1994. - Vol.27. № 8 - P. 1065-1077.

85. Afifi, A. A. Missing observation in multivariate statistics / A. A. Afifi, R. M. Elashoff// J. Amer. Statist. Assoc. 1966. - Vol.61. - P.595-604.

86. Backer, E. Cluster Analysis by Optimal Decomposition of Induced Fuzzy Sets / E. Backer // Delfts: Univ. Press, 1978.

87. Ball, G. H. A novel Method of Data Analysis and Pattern Classification / G. H. Ball, D. J. Hall // Menlo Park, CA: Stanford Research Institute, 1995.

88. Beale, E. M. Missing values in multivariate analysis / E. M. Beale, R. J. Little //J.Roy. Statist. Soc. Ser. В. 1975.-Vol.37.-P. 129-145.

89. Buck, S. F. A method of estimation of missing values in multivariate data / S. F. Buck // J. Roy. Statist. Soc. Ser. B. 1960. - Vol.22. - P.202-206.

90. Chan, E. Y. An optimization algorithm for clustering using weighted dissimilarity measures / E. Y. Chan , W. K. Ching , J. Z. Huang // Pattern Recognition. 2004. - Vol.37. № 5 - P.943-952.

91. Cheng, V. Dissimilarity learning for nominal data / V. Cheng, C.-H. Chun-Hung Li, J. T. Kwok, Chi-Kwong Li // Pattern Recognition. 2004. - Vol.37. № 7-P.1471-1477.

92. Dempster, A. P. Maximum likelihood from incomplete data via the EM-algorithm / A. P. Dempster, N. M. Laird, D. B. Rubin // J. Roy. Statist. Soc. Ser. B. 1977. - Vol.39. - P. 1-38.

93. Diatta, J. A mixed measure of content on the set of real numbers / J. Diatta // Journal of Computational and Applied Mathematics. 2003. - Vol.151. № 1 -P.85-105.

94. Diday, E. Leaning hierarchical clustering from examples / E. Diday, J. V. Morean // Pattern Recognition Letters. 1985. - Vol.2. - P.365-368.

95. Diday, E. Symbolic Data Analysis / E. Diday // Paris: INRIA Roquencourt. -1995. -P.l-136.

96. Dodge, Y. Analysis of Experiments with Missing Data / Y. Dodge // N. Y.: John Wiley & Sons, 1985.

97. Engelman, L. An efficient algorithm for computing covariance matrices from data with missing values / L. Engelman // Communs Statist. Theory Methods. — 1982. Vol.11. - P. 113-121.

98. Frane, G. M. Some simple procedure for handling missing values in multivariate analysis / G. M. Frane // Psychometrika. 1976. - Vol.41. — P.409-415.

99. Glasser, M. Linear regression analysis with missing observation among the independent variables / M. Glasser // J. Amer. Statist. Assoc. 1964. - Vol.59. -P.834-844.

100. Gleason, Т. C. A proposal for handling missing data / Т. C. Gleason, R. Staelin // Psychometrika. 1975. - Vol.40. - P.229-252.

101. Gowda, K. Ch. Divisive clustering of symbolic objects using the concepts of both similarity and dissimilarity / K. Ch. Gowda, Т. V. Ravi // Pattern Recognition. 1995. - Vol.28. № 8 - P.1277-1282.

102. Gowda, K. Ch. Symbolic clustering using a new dissimilarity measure / K. Ch. Gowda, E. Diday // Pattern Recognition. 1991. - Vol.24. № 6 - P.567-578.

103. Guru, D. S. Multivalued type dissimilarity measure and concept of mutual dissimilarity value for clustering symbolic patterns / D. S. Guru, В. B. Kiranagi // Pattern Recognition. 2005. - Vol.38. № 1 - P.151-156.

104. Jambu, M. Cluster Analysis and Data Analysis / M. Jambu, M.O. Lebeaux // Amsterdam: North-Holland, 1983. 898 p.

105. Little, R. J. Editing and imputation for quantitative survey data / R. J. Little, P. J. Smith // J. Amer. Statist. Assoc. 1987. - Vol.82. - P.58-68.

106. Little, R. J. Maximum likelihood estimation for mixed continuous and categorical data with missing values / R. J. Little, M. D. Schluster // Biometrics. 1985. - Vol.72. - P.497-512.

107. Little, R. J. Statistical Analysis with Missing Data / R. J. Little, D. B. Rubin // N. Y.: John Wiley & Sons, 1987.

108. Niemann, H. Pattern Analysis and Understanding / H. Niemann // Berlin e. a.: Springer-Verl., 1998.

109. Parzen, E. On estimation of a probability density / E. Parsen // Ann. Math. Stat. 1969. -N 4. -P.1038-1050.

110. Srivastava, M. S. Multivariate data with missing observations / M. S. Srivastava // Communs Statist. Theory Methods. 1985. - Vol.14. - P.775-792.

111. Walsh, J. E. Computer-feasible method for handling incomplete data regression analysis / J. E. Walsh // J. Assos. Comput. Math. 1961. - Vol.18. - P.201-211.

112. Wilks, S. S. Moments and distributions of estimates of population from fragmentary samples / S. S. Wilks //Ann. Math. Statist. 1932. - Vol.3. -P.163-195.