автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Информационная система для решения задач классификации с использованием непараметрических методов и операторов-проекторов
Автореферат диссертации по теме "Информационная система для решения задач классификации с использованием непараметрических методов и операторов-проекторов"
1 5 ДЬЛ
На правах рукописи
Шкатова Галина Ивановна
ИНФОРМАЦИОННАЯ СИСТЕМА ДЛЯ РЕШЕНИЯ ЗАДАЧ КЛАССИФИКАЦИИ С ИСПОЛЬЗОВАНИЕМ НЕПАРАМЕТРИЧЕСКИХ МЕТОДОВ И ОПЕРАТОРОВ-ПРОЕКТОРОВ
Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин и систем
Автореферат диссертации на соискание ученой степени кандидата технических наук
Томск-1996
Работа выполнена в Томском политехническом университете
Научный руководитель: кандидат химических наук, старший научный сотрудник Вылегжанин О.Н.
Официальные оппонента:
доктор технических наук, профессор Тарасенко Ф.П.,
кандидат технических наук, доцент Воловоденко В.А. Ведущая организация: ВЦ СО РАН (Г.Красноярск) Защита диссертации состоится и4 Iя дМа8р& 1996г. в /¿Г часов на заседании диссертационного Совета Д 063.80.03 Томского политехнического университета по адресу: 634004, г. Томск, пр. Ленина, 30.
С диссертацией можно ознакомиться в библиотеке института. Автореферат разослан "_"_" 1996г.
Ученый секретарь диссертационного совета, кандидат технических наук доцент
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность тешл. В настоящее время исследования в области разработки интеллектуальных систем, выполняющие роль эксперта или консультанта, лежат на магистральном направлении развития компьютерной информационной технологии. В процессе функционирования таких систем происходит накопление фактов и эвристических элементов и использование этой базы накопленных знаний вместе с механизмом "заключения" для по-пучения логических выводов. Такие системы особенно эффективны, когда пользователь оперирует большой, постоянно увеличивающейся числовой информацией. Разработка таких систем, ориентированных на применение в различных проблемных областях, использующих различные методы обра-эотки информации и ведущих с пользователем диалог на языке, близком к эазговорному, позволяет расширить приложение формализованных математических методов к решению научных и технических проблем.
Важным средством исследования сложных систем являются методы шассифгасации и распознавания образов. Они позволяют создать представление о структуре этих систем по совокупности наблюдений, объединяя IX в классы. Если в результате решения задачи классификации получены группы, однородные по характерным признакам, то в дальнейшем анализе .!ы можем оперировать такими группами как структурными единицами.
Известны примеры разработок интеллектуальных систем в различ-шх проблемных областях: психодиагностике(система АСПД, Белюк Л. В.), профориентации (система "Ориентир"), (ОТЭКС, Загоруйко), (КВАЗАР, Казанцев З.С.) и др. В то же время опыт работы в области классификации и распо-тавания образов и участие в последних конференциях по математиче-:ким методам распознавания образов привели нас к заключению, что к гастоящему времени не разработаны такие интеллектуальные системы для герсональных компьютеров, которые позволяли бы им выступать в роли щаптивных экспертов при решении задач, связанных с распознаванием
образов и классификацией и давали бы возможность посредством де дукции пройти путь от решений, предоставляемых простейшими ре тающими правилами в ситуации хорошо разделимых классов, до слож ных комбинаций таких правил, когда границы между соответствующим! классами " размьггы ". В то же время практика показывает целесообраз ность разработки такого рода систем.
Цель работы состоит в разработке интеллектуальной интегрированной системы решения задач классификации, исследовании и практическом применении алгоритмов классификации объектов, заданных численными характеристиками. Основными задачами исследования являются:
- разработка и реализация структуры интегрированной интеллектуальной системы классификации;
- получение и исследование процедур синтеза признакового пространства а также процедур формирования решающих правил в виде линейны; функций с вещественными коэффициентами;
- разработка алгоритмов и программ решения основных задач классифи кации и построения линейных моделей;
- исследование разработанных алгоритмов и программ на модельны: примерах и выработка рекомендаций по применению этих алгоритмов i программ;
- внедрение разработанных алгоритмов и программ в практику.
Научная новизна.
1. Разработана концептуальная модель и макетный вариант интел лектуальной системы, позволяющей решать широкий набор задач класси фикации. В основу алгоритмов решения различных задач положен единьп подход, основанный на рекуррентном псевдообращении и построении one раторов-проекторов.
2. Разработан алгоритм решения задачи распознавания образов, ос нованный на рекуррентной процедуре, сочетающей отбор информативны:
признаков и построения соответствующей линейной дискриминантной функции.
3. Разработана процедура включения простых решающих правил типа линейных дискриминантных функций в более сложные структуры типа" "сллсхтивы " и" комитеты" решающих правил.
4. Разработан метод кластеризации, который сводит решение задачи многомерной таксономии к последовательности одномерных задач.
5. Разработан алгоритм выбора наилучших линейных регрессоров для построения линейных моделей.
Методы псследозанпз. Методы и модели теории вероятностей и математической статистики, системологии, линейной алгебры, вычислительной математики и программирования.
Обоснованность и достоверность выдвигаемых и использованных в диссертации научных положений, выводов и рекомендаций подтверждается:
- теоретическим обоснованием;
- апробированием программных реализаций;
- опытом применения для решения конкретных задач;
- перспективой дальнейшего совершенствования.
Практическая цешгосп». Разработана вариант интегрированной интеллектуальной системы решения задач классификации. Разработанные в диссертационной работе алгоритмы и программы решения задач классификации и построения линейных моделей на базе рекуррентного псевдообращения реализованы в виде комплекса программ, который позволяет производить широкомасштабное исследование структуры экспериментальных данных.
Апробапгея работы. Основные положения диссертационной работы докладывались и обсузкдались на: 3-й (г. Львов, 1987г. ); 4-й (г. Рига, 1989г. ); 5-й (г. Москва, 1991г. ) Всесоюзных конференциях "Математические методы распознавания образов"; Всесоюзной конференции "Химическая информатика"^. Черноголовка, 1992г.).
ГЫмшкапии. По результатам выполненных исследований было опу бликовано 16 работ.
Тезисы, представляемые к защите.
1. Сформулирована единая математическая постановка задач класси фикации и построения линейных моделей.
2. В основу алгоритмов синтеза признакового пространства, построе ния линейных решающих функций, кластер-анализа может быть положен: рекуррентная процедура построения оператора-проектора, вычисляемого < помощью псевдообратной матрицы.
3. Процедура построения линейной дискриминантной функции но жет быть объединена с алгоритмом выбора информативных признаков I единый рекуррентный процесс.
4. Процесс распознавания может быть реализован средствами интел лектуальной системы по принципу от "простого" к "сложному" с возмож ностъю пересмотра стратегии на любом этапе решения.
Кроме приведенных выше тезисов к защите представлены алгоритмь и программы синтеза признакового пространства, построения линейны; дискриминантаых функций, построения линейных моделей, кластер анализа, формирование коллективных методов на основе линейных дис криминангных функций.
Сгруктура и объем диссертации. Диссертация состоит из введения четырех глав и заключения, изложенных на 142 страницах машинописной текста, содержит 38 рисунков, 28 таблиц, список литературы из 90 найме нований и приложения.
СОДЕРЖАНИЕ РАБОТЫ
Во введения обосновывается актуальность темы диссертации, приводятся цели и задачи работы, определяются научная новизна и практическая ценность работы.
В пераой главе рассматриваются основные проблемы, возникающие при разработке интеллектуальных систем (ИС) решения задач классификации. Они определяются наличием двух предметных областей. Первая предметная область - это область решаемой проблемной задачи, а вторая охватывает общие методы решения системных задач, к которым сводится решение проблемной задачи, или системная область.
Проблемная область ИС определена двумя классами задач:
1) разбиение множества обьектов на подмножества .объединенные между собой по какому - либо критерию.
2) построение различного рода моделей, главным образом, регрессионных, которые описывают количественные связи между отдельными признаками ,либо между отдельными объектами.
Показано, что при определенных условиях можно сформулировать единую математическую постановку этих задач и свести ее к задаче отыскания минимума функционала среднего риска вида:
= | а))/(х)<1х | (1)
где 0.(у) - функция потерь; ё(х,а)- оцениваемая функция, в которой неизвестный параметр а е А, А - область допустимых значений параметров;/^ - функция плотности вероятностей; х- вектор измерений. При построении линейных моделей g есть функция регрессии, а при РО - это решающее правило.
Оценка функционала среднего риска м.б. получена с помощью функ ционала эмпирического риска:
п
/э(в)вЕй(й, (2)
1=1
При этом функция потерь для задачи (РО) с обучающей выбор^ задается в виде:
<21(&а) = (о>1-8(хпа))2, (3)
где «в,-реакция учителя, а при построении линеиных моделей в виде:
= (4)
здесь у, -наблюдаемое значение функции регрессии. Функция р , пред сгавляющая собой верхнюю оценку уклонения функционала эмпирическог« риска от функционала среднего риска:
Р(аир(/с(а)-7э(а))<р) = ^, (5)
где 7 - доверительная вероятность, р определяется формулой:
Р"Ц-у-• (6>
здесь / - объем выборки; т~ - функция роста, определяющая максимальное число способов разделения выборки.
Утверждается, что поскольку в описываемой системе используютя либо линейные дискриминантные функции (ЛДФ), либо линейные модели, то минимум функционала эмпирического риска достигается при значении параметра а, равном:
а = в + (х)-у ( (7)
где в* (х)- матрица, псевдообратная к матрице (/, элементы которой суть значения функции g(x) ь точках х, а у - значения решающей функции в этих точках. Этот вывод позволил вести разработку алгоритмов на единой основе.
Показано, что для оценки качества получаемых решений м.б. использованы обычные статистические критерии.
Показано, что в качестве меры информативности признака, характе-ризущего классифицируемые объекты, можно взять дисперсию компонента вектора этого признака, ортогональной к множеству остальных векторов-признаков:
= (8) где х - значение вектора-признака, К - оператор-проектор:
Я = \-Х1-Х[+, (9)
~де - матрица, псевдообратная к матрице X1, составленной из векторов гголбцов остальных признаков.
А мерой информативности всей совокупности признаков для данной обучающей выборки может служить величина:
где X - матрица из всех векторов.
Проведен анализ предметной области с позиций построения системы Определены требования к организации и функционированию систем основанные на двух логических схемах:
- логика действия пользователя, который на каждом шаге делает выборы, ведущие по его предположению к достижению глобальной цели;
- логика действий системы, которая на каждом шаге предлагает пользователю список альтернатив, достижимых посредством имеющиха ресурсов.
Соответственно осуществляется разделение компетенций ИС и поль зователя, как Лица Принимающего Решение.
Построена концептуальная схема ИС. Для этого разработаны ти пы задач, определенных проблемной областью, типы задач, связанных < математическим моделированием, и типы системных требований. Сформу лированы задачи, составляющие проблемную область:
1. Синтез пространства распознавания:
а) выбор исходного признакового пространства;
б) масштабирование;
в) выбор признаков, используемых для классификации.
2. Построение решающих правил:
а) линейных дискриминантных функций (ЛДФ);
б) коллектива ЛДФ (выбор функций для коллектива, обучение I синтез коллектива);
(10)
-11в) комитета ЛДФ (отбор функций для комитета, настройка параметров комитета).
3. Кластерный анализ.
4. Построение линейных моделей:
а) зыбор кайлу чших линейных регрессоров;
б) оценка коэффициентов линейных моделей;
в) проверка адекватности;
Требования к системе определяются необходимостью обеспечить пользователя следующими возможностями: выбором режимов и параметров обработки, прокладкой маршрута на графе обработки, отображением и оценкой качества промежуточных решений по выбранным критериям, дискриминацией лонных решений по формализованным и неформализованным критериям, предоставлением возможности возврата к уже пройденным вершинам графа обработки или оперативного изменения маршрута обработки, выполнением операции обмена с архивом, выбором формы представления конечных результатов.
Для обеспечения системных требований в систему должны быть заложены следующие компоненты: совокупность априорных знаний об изучаемом объекте, система целеполагания, в том числе набор статистических гипотез и критериев их принятия или дискриминации, система выбора стратегий пользователя, сценариев и схем обработки, система статистического анализа, система интерпретации результатов, помогающая делать выводы и формулировать очередные локальные и глобальные цели.
На основании концептуальной модели сформированы функциональные возможности системы.
Вторая глава представляет разработанные графы подсистем. В соответствии с концептуальной моделью в каждый из моментов взаимодействия пользователя с системой, ИС находится в определенном информационном состоянии. Сеанс общения пользователя с системой можно представить себе как процесс перехода из одного информационного состояния в другое пока
не будет достигнута глобальная цель пользователя. Объединение множества возможных состояний и возможных путей перехода из одного состояния в другое образуют граф. Последовательность шагов решения конкретной задачи составляет маршрут на этом графе. Стратегия - правила выбора маршрута, позволяющего перейти из исходного информационного состояния в другое, соответствующее поставленной цели.
Последовательность операций, обеспечивающая взаимодействие методологических средств, ресурсов базы данных и базы знаний, и экспертной поддержки для удовлетворения потребностей пользователя в обработке конкретной концептуальной модели, определяется соответствующим графом задачи. Рассматриваются графы подготовки данных, распознавания образов для задач, которые реализованы в данной системе.
В третьей главе дано обоснование и изложение алгоритмов задач, используемых в системе. Выбор алгоритмов определялся стремлением к унификации используемого математического аппарата. Решаемые задачи представлены следующими группами:
1) предварительная подготовка данных;
2) построение решающих правил;
3) построение линейных моделей;
4) кластерный анализ.
Содержание предварительной обработки заключается в масштабировании и выделении информативных признаков.
1. В основу метода отбора информативных признаков легли: обеспечение максимальной полноты сохранения информации и устойчивость операторов отображения, используемых в процедурах классификации.
Пусть Х(ИхМ) - матрица, описывающая N объектов, охарактеризованными М признаками, ранг матрицы ткХ-к. Предлагается метод отбора признаков, основанный на формировании матрицы ^содержащей выбранные из X к столбцов, образующих набор максимального обьема. Устойчивость обеспечивает полнота ранга матрицы X. Критерием выбора
чередного вектора х из матрицы X является длина г его компоненты, ор-огональной к линейному пространству, натянутому на X:
де / - множество индексов выбираемых столбцов матрицы Хг К - опера-ор-проектор вида:
= 1-ХкХ+к, (12)
цесь Х*к- матрица, псевдообратная к матрице Хх, К - количество ото-ранных столбцов. Процесс повторяется пока I >= <1 - некоторого порога, пределяемого погрешностью измерения элементов матрицы X.
Показана возможность поэтапной обработки, когда матрица X раз-ивается на г, групп ХиХг,...,Хк по л, столбцов в каждой группе, где =/,..., 4. Процедура выбора применяется к каждой из матриц X,.
2. В настоящей работе в качестве решающих правил используется инейные дискриминантные функции, а также их комбинации в коллективе и комитетах. Использование линейных дискриминантных функций в 1чесгве базовых основано на том, что качество распознавания опреде-кггея не только величиной функционала эмпирического риска /э, но и ¡ачением функции р, которое тем меньше, чем меньше размерность про-ранства распознавания и "проще" класс решающего правила.
Метод построения ЛДФ опирается на известную матричную формует:
-14- _
где Z - вектор значений признаков классифицируемого объекта, JT, - вез
тор средних значений признаков объектов, принадлежащих к классу 1, Т2
вектор средних значений признаков объектов, принадлежащих к классу
S- ковариационная матрица вида:
S = -^(X-Xf<X-X), (14)
где Х- матрица общих средних значений, FN = (N - 2) число степени свободы. В работе доказано, что ковариационная матрица 5""' может быт представлена в виде:
= -FN, (15)
где X1 ~-=Х-Y, а Хь - матрица, псевдообратная к Г1. На этом основаню построен рекуррентный алгоритм построения ЛДФ , сочетающий ot6oj информативных признаков с использованием операторов-проекторов (12).
С целью повышения качества принимаемого решения при слох-шыз границах между классами, разработаны процедуры объединения построен ных ЛДФ в коллективы и комитеты решающих правил.
3. Разработка алгоритма построения моделей основана на утверждении, что близость к минимуму функционала среднего риска 1с(а) обеспечивается при минимизации 1с(а) на достаточно узком класс« функций. В частности, таким классом функций может быть класс F(x,a) функций, линейных по параметрам :
к
F(x,а) = «о + • <pj(*), к = 0,1,2,••
(16)
-де я, - -вещественные числа, <р} -вещественные функции, j = 1,..,к. Показа-ю, что для системы наблюдений оценка вектора 2 = {^,..,0,.}, доставляю-цего минимум функционалу 1С, может бьггь получена н нкде:
(17)
■де Ф* - матрица, псевдообратная к матрице Ф вида:
Ф =
1 ^(х,) 1 <рх(хг)
1 СО
9 Л* 1)
<Рк(х2)
<Рк(хп)
(18)
спя которой уже разработаны расчетные формулы. Т. о. , в основу всех тгоритмов положена единая вычислительная процедура - операция 1севдообращения.
4. В работе предлагается алгоритм кластерного анализа, который [ереводит процедуру решения многомерной задачи к последовательности »дномерных. Утверждается, что если классы линейно разделимы, то метод [риводит к выделению таксонов. В основу метода положено две режуррент-ю выполняемые операции: выбор осей, вычисление проекций.
На каждом шаге рекурсии выбирается ось, проходящая через два гбьекта выборки, наиболее удаленных друг от друга в пространстве, пер-[ендикулярном пространству, в котором классификация уже была осуществлена, и вычисляются проекции всех классифицируемых объектов на ту ось. Для построения очередной оси выбирается два обьекта: первый А^ -дя которого строка признаков имеет наибольшую самоковариацию:
I е/
где /- множество индексов, а второй объект XI - через который прохода ось -это будет обьект с наибольшей проекцией на вектор ОХ\ :
Х1 = шах(-^+ • (20)
где XI* — столбец, псевдообратный к строке X].:
у»+ _ лк
к ~ У1Т -У1 • <21>
лк л к
Проекции всех классифицируемых объектов на ось Х1к ■ XI вычисляю' ся по формуле:
Ру=(Х1-Х2кУ-Х.. (22)
где} - ¡,N-2 - порядковый номер обьекта, Ы- число обьектов. Разделен! объектов на кластеры производится на основании сравнения расстоянл между проекциями обьектов на ось:
(23)
гдеу = 1.
Решение об отнесении данного расстояния к межкластерному прин: мается на основании значения критерия:
ИМЯ п ; /
Е оа-^г'(24)
/ 71 П
:де (I вычисляется по формуле:
1десь тат - - это минимальное из рассматриваемых межкластерных расстояний, а раа - - максимальное из внутрикластерных расстояний, по-1авших в интервал рассмотрения; [п(1-й)] - целая часть от числа п(1-(1) , п -шсло интервалов, заключенных между рассматриваемым расстоянием и, ¡начала, ближайшим левым межкластерным расстоянием, а затем, ближай-
пим правым; (у)- - число сочетаний из п по /. Р (й) ~ g, где £ берется рав-
[ым 0. 9, 0. 95, 0. 99 или др. в зависимости от желания пользователя. Если «численное Р (<1) получается меньше заданного значения, то расстояние 1Тносится к межкластерным, иначе к внутрикластерным. Рекуррентный [роцесс заканчивается, когда длина очередной выбранной оси становится [еньше некоторого порога.
Чегаертая глава содержит описание структуры информационной си-темы. Представлена архитектурная модель, описывается система подготов-и данных и формирование базы знаний. Излагается структура интегриро-анной среды. Описывается комплекс программ системы и экспертная оддержка. Приводится содержательная интерпретация процесса достиже-ия целей задач подготовки данных и распознавания образов.
В пятой главе приведены результаты исследования с помощью разра-отанной системы данных клиноортостатической пробы (КОП) группы но-орожденных. КОП заключается в измерении показателей сердечно-эсудистой деятельности человека в трех состояниях: покоя, воздействия завитационной нагрузки типа "ступенька" и снятия этой нагрузки. В даль-ейшем для краткости будем называть эти три состояния: "покой", «грузка", "сброс нагрузки". Ставились следующие задачи:
-181. Сформировать совокупность признаков для проведения классиф;
кадии.
2. Определить их сравнительную информативность.
3. Разработать методику отнесения классифицируемых объектов определенному классу по состояниям: здоров, средней тяжести, тяжелы: крайне тяжелый.
4. Установить возможность прогноза состояния объекта.
На основании анализа исходных данных произведена классификац* обьектов в соответствии с медицинскими показателями по: степени дон< шенноста; апгару; биологическому анамнезу матери; акушерскому анамн зу; гинекологическому анамнезу; течению беременности; родам; диагно; ребенка.
Проведен анализ статистической значимости изменения ра: личных показателей при проведении КОП, и показано, что только и: менения частоты сердечных сокращений(ЧСС) являются статистически зн; чимыми.
Сформирован набор из 12 признаков, характеризующих обьекг в с< стоянии "покоя", а также отражающих изменение состояния объекта пр "нагрузке" и "сбросе нагрузки":
1 - среднее значение систолического артериального давления (САД) а "покое";
2 - среднее значение диастолического артериального давления (ДАД) в "покое";
3 - среднее значение давления (СРАД) в "покое";
4 - среднее значение частоты сердечных сокращений (ЧСС) в "покое";
5 - среднее значение показателя Кердо в "покое";
6 - среднее значение отклонения ЧСС при "нагрузке" от среднего значения ЧСС "в покое;
7 - тангенс угла наклона прямой, аппроксимирующей кривую изменени ЧСС при "нагрузке";
-19! - дисперсия ЧСС при "нагрузке";
1 - среднее значение отклонения ЧСС при "сбросе нагрузке" от среднего СС в "покое";
0 - тангенс угла наклона прямой, аппроксимирующей кривую кзкекения ССпри "шросе нагрузки";
1 - дисперсия ЧСС при " сбросе нагрузки";
2 - разница между средним ЧСС и последним его значением при -бросе".
Проведен анализ взаимной коррелированности и с помощью алго-ггма отбора признаков, описанного в главе 3, выделен набор из 8 инфор-1ТИЗНЫХ признаков с номерами: 5, 10, 8, 4, 6, 1, 3, 11, 12 , из которых пер-хе 4 признака дают 80% вклада в общую изменчивость.
Было проведено сопоставление изменения показателей состояния для ¡ьектов с синдромами общего угнетения и возбуждения, доношенных и доношенных и показано, что наличие возбуждения, угнетения ,а также дстор доношенносш не являются значимыми для формирования класса.
Были построены решающие правила для отнесения классифицируе-IX объектов к классам: "здоров", "средней тяжести", "тяжелый", райне тяжелый". Качество распознавания на обучающей выборке по по-эоенным ЛДФ не хуже, чем 90%.
Для изучения вопроса о разделении анализируемых объектов на клас-на основании формальных методов проведена процедура таксономии. В >ультате чего выделены классы, обьединяющиие объекты по тяжести со->яния, что хорошо согласуется с результатами классификации по обу-¡ощей выборке.
Для выявления взаимосвязи между объектами, а также вычисляемым ¡заметрам, были построены различные линейные модели, которые могут ть в дальнейшем интерпретированы специалистами, как причинно-¡дственные.
Для оценки изменения измеряемых показателей, используемых дх классификации, бьша проверена гипотеза, что реакция ребенка в прои вольный день может быть представлена в виде линейной комбинации т кой реакции в некоторые фиксированные - информативные дни жизни.
Оказалось, что для здоровых детей таким информативным днем я] ляеггся один день и он приходится на 3, 4 или 5 дни жизни, а для больнь детей соответственно количество информативных дней равно трем. Суд по полученным результатам, можно оценить динамику изменения состо: ния объекта по дням жизни относительно фиксированных дней,*что пре, ставляегся очень перспективным для изучения закономерности развита как здоровых детей, так и прогнозирования состояния здоровья детей различными патологиями.
Приведены графики, отображающие изменения измеряемых показ; телей по выбранному базовому дню для "здоровых" обьектов, объектов состоянием "средней тяжести" с состояниями "возбуждения" и " угнетения'
ВЫВОДЫ
Основным результатом диссертационной работы является разработа макетного варианта интегрированной интеллектуальной системы, испол! зующей комплекс алгоритмов решения задач восстановления зависимости Сформулируем основные выводы.
1. Определен перечень задач, составляющих предметную область ра работанной интеллектуальной системы. Показано единство матемап ческой постановки задач распознавания образов и оценивания регресси] что позволило унифицировать алгоритмы выбранного перечня задач.
2. На основании семантического анализа и анализа структуры пре; метной области определены требования к функциональным возможностя системы, разработана концептуальная модель интеллектуальной системы макетный вариант интеллектуальной системы, позволяющей решать шир< кий набор задач классификации.
-213. На базе концептуальной модели разработаны графы решения задач
этассификации. Показано, что решение конкретной задачи может быть
федставлено в виде маршрута, прокладываемого на графе. При решении
:онкретной задачи Пользователь, выбирая в ответ на предложения системы
оответствующие его выбору альтернативы, прокладывает маршрут на об-
цем графе решения задач исхода из имеющихся ресурсов, значений оценоч-
:ых функций, специфики полученных результатов.
4. Разработана функциональная структура интеллектуальной си-
темы.
5. Для решения задач, составляющих предметную область системы, азработаны алгоритмы и программы , позволяющие решать широкий на-ор задач классификации: синтеза признакового пространства, построения инейных дискриминантных функций, построения линейных моделей, ластер-анализа, формирования коллективных методов на основе линей-ых дискриминантных функций. В основу алгоритмов решения различных адач положен единый подход, основанный на рекуррентном псевдообра-1ении и построении операторов-проекторов.
6. Разработан алгоритм решения задачи распознавания образов, ос-ованный на рекуррентной процедуре, сочетающей отбор информативных ризнаков и построения соответствующей линейной дискриминантной ункции. 1
7. Разработан механизм включения простых решающих правил типа инейных дискриминантных функций в более сложные структуры типа " эллективы " и" комитеты " решающих правил.
8. Разработан метод кластеризации, который сводит решение задачи ногомерной таксономии к последовательности одномерных задач.
9. Разработан алгоритм выбора наилучших линейных регрессоров тя построения линейных моделей.
-2210. Разработаны архитектура и структура информационной системы
включающие подсистемы поготовки БД и БЗ, блок управления, блок экс
пертной поддержки и методологические средства.
11. Работоспособность разработанных алгоритмов и системы в цело! демонстрируется на примерах решения задач классификации в области геохимии, химии и медицине.
12. Приведены результаты обработки данных клиноортостатическо пробы группы новорожденных.
Основное содержание диссертации опубликовано в следующих рабе
тах:
1. Берестнева О.Г., Васильев Н.В., Кочегуров В.А., Константинов Л.И., Берестнева О.Г.,Удут И.В., Шкатова Г.И. Системный анализ и ра; работка методологии исследования процессов адаптации биосистем измененным климато-географическим условиям. // Проблемы солнечш биосферных связей. - Новосибирск., 1982. С. 124-126.
2. Берестаева О. Г., Кочегуров В. А. , Константинова, Пеккер } С., Шумилов Б. М. , Шкатова Г. И. Алгоритмы автоматизированной о< работки электрокардиосигналов при массовых обследованиях рабочл промышленных предприятий в условиях Крайнего Севера/ЛТроблеы создания технических средств для диагностики и лечения сердечн* сосудистой системы: Тез.докл. Всесоюз. конф. - Москва, 1983. С.51-52.
3. Берестнева О. Г., Иглакова Е. Ф., Шкатова Г. И., Шумилов Б. Л Программное обеспечение автоматизированного комплекса для массовь профилактических осмотров населения. //Автоматизированные электро] ные системы для массовых профилактических осмотров населения. -Л. 1985, С. 62-63.
4. Берестнева О.Г., Шкатова Г.И., Шумилов Б.М. Алгоритмы авт матизированной обработки электрофизиологических сигналов при масс вых обследованиях. // Применение математических методов обработки м
дако-биологических данных в ЭВМ и медицинской технике. -М„ 1984, С. >5-67.
5. Берестнеаа О.Г., Пеккер Я. С., Шкатова Г.И. Программное обеспе-[ение автоматизированного комплекса для массовых обследований. // Во-1росы медицинской электроники.,-Таганрог., 1986, п 6, - С. 26-27.
6. Берестнева О.Г., Кочегуров В.А., Константинова Л.И., Удут И.В., Пкатова Г.И. Математическое моделирование процессов адаптации на азных уровнях организации биосистем // Отчет. / Томский политехниче-кий институт, п гр 78045087, -Томск., 1981,97с.
7. Берестнева О. Г., Кочегуров В. А., Константинова Л. И., Шкатова И., Шумилов Б.М. Создание аппарата для автоматизированной обра-
отки медико-биологических данных при массовых обследованиях рабочих ромышленных предприятий в условиях Крайнего Севера. //Отчет. Томский политехнический институт, п гр 0182. 2 018779, -Томск., 1982, 79с.
8. Вылегжанин О.Н., Шкатова Г.И. Выбор информативных призна-ов описания объектов для задачи распознавания образов // Математиче-■сие методы распознавания образов: Тез. докл. III Всесоюз. конф. 10-11 но-5ря 1987.- Львов, 1987.4.1. С.139-140.
9. Вылегжанин О.Н., Шкатова Г.И. Сравнительная оценка двух ме-эдов выбора наилучших линейных регрессоров// Применение математиче-сих методов и ЭВМ в медико - биологических исследованиях. - Томск: зд-во Томск, политехи, ин-та, 1988. С. 18-22.
10. Вылегжанин О.Н., Шкатова Г.И. Отбор признаков для решения дачи распознавания образов по данным физиологических измерений, омск, 1989. Деп. в ВИНИТИ 21.03.89 _ 1747-В89.
11. Вылегжанин О.Н., Шкатова Г.И. Построение линейных дискри-инантных функций с использованием псевдообратной матрицы. Томск, >90. Деп. в ВИНИТИ
12. Вылегжанин О.Н., Шкатова Г.И. Рекуррентный метод построе-1Я линейной дискриминантной функции, минимизирующий верхнюю
оценку функционала среднего риска // Математические методы распозн: ваши образов: Тез.докл.У Всесоюз, конф. ноябрь 1991. -Москва, 199 Ч.1.С.25 - 26.
13. Вылегжанин О.Н., Шкатова Г.И., Пеккер Я.С., Рауш A.^ "РАСКОЛ" - пакет прикладных программ для распознавания образе //Математические методы распознавания образов: Тез. докл. V Всесою конф. ноябрь 1991. - Москва, 1991. Ч.1.С.27.
14. Вылегжанин О.Н., Шкатова Г.И. Алгоритмы построения лине! ных моделей//Химическая информатика: Тез. докл. всесоюз. конф. 1992 Черноголовка, Ч.1.С.290.
15. Вылегжанин О.Н., Шкатова Г.И. Поэтапный отбор признаке для решения задачи распознавания образов //Математическая теория методология распознавания: Тез. докл. IV Всесоюз. конф. 1989,-Рига, 198 Ч.1.С.31 - 32.
16. Шумилов Б.М., Шкатова Г.И. Алгориитмы и программы а томатизированной обработки кардиологической информации при масс вых обследованиях // Вопросы разработки и внедрения радиоэлектро ных средств при диагностики сердечно-сосудисгыхзаболеваний. -М.: Р дио и связь, 1987. С. 139-140.
-
Похожие работы
- Многоуровневые непараметрические системы распознавания образов на основе декомпозиции обучающей выборки по ее размерности
- Непараметрические модели коллективного типа в задачах восстановления стохастических зависимостей
- Многоуровневая непараметрическая система обработки информации
- Синтез и анализ непараметрических коллективов решающих правил
- Синтезированные голограммы-проекторы Френеля для фотолитографии
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность