автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.14, диссертация на тему:Непараметрические модели коллективного типа в задачах восстановления стохастических зависимостей
Автореферат диссертации по теме "Непараметрические модели коллективного типа в задачах восстановления стохастических зависимостей"
РГВ од
2 7 ОПТ 1333
На правах рукописи
ЛАПКО ВАСИЛИЙ АЛЕКСАНДРОВИЧ
НЕПАРАМЕТРИЧЕСКИЕ МОДЕЛИ КОЛЛЕКТИВНОГО ТИПА В ЗАДАЧАХ ВОССТАНОВЛЕНИЯ СТОХАСТИЧЕСКИХ ЗАВИСИМОСТЕЙ
05.13.14. - Системы обработки информации и управления
Автореферат Диссертации на соискание учёной степени кандидата технических наук
Красноярск - 1998
Работа выполнена на кафедре «Автоматизированной обработки информации» Красноярского государственного технического университета и Институте вычислительного моделирования СО РАН.
Научный руководитель:
Научный консультант:
Официальные оппоненты:
Ведущая организация:
кандидат технических наук, доцент Ченцов С.В.
доктор медицинских наук, профессор Поликарпов Л.С.
доктор технических наук, профессор Воловик М А. кандидат технических наук, доцент Красноютанов А.П.
Институт математики СО РАН.
Защита состоится _ 1998 г. в {4 часов на
заседании диссертационного совета Д.064.54.01 Красноярского
государственного технического университета по адресу: 660074, г. Красноярск, ул. Киренского 26.
С диссертацией можно ознакомиться в библиотеке Красноярского государственного технического университета.
Отзывы на автореферат в двух экземплярах, заверенные печатью учреждения, просим выслать по адресу: 660074 г. Красноярск, ул. Киренского, 26, учёному секретарю спецсовета.
Автореферат разослан.
1998 г.
Учёный секретарь диссертационного совета,
д.т.н., профессор А.И. Ловчиков
Общая характеристика работы
Актуальность проблемы. Принципы коллективного оценивания находят широкое распространение на современном этапе развития теории адаптивных систем, когда возникла необходимость обобщения и получения интегрированных значений в задачах исследования систем.
Обязательным условием синтеза традиционных моделей коллективного типа является наличие конечного множества решающих правил, каждое из которых имеет самостоятельное значение и характеризуется некоторым показателем эффективности. Тогда коллектив моделей, например, с позиций "средневзвешенного" преобразования аккумулирует преимущества составляющих её решающих правил.
Другим примером крайнего случая коллектива являются непараметрические статистики, структуру которых образуют элементы обучающей выборки и соответствующие им ядерные функции. Каждая ядерная функция оказывает влияние на процесс формирования решения только в пределах конкретной ситуации из обучающей выборки.
В настоящее время настойчиво обсуждается и разрабатывается идея о совместном использовании в коллективе разнотипных моделей - как средства наиболее полного учёта априорной информации. Известно яркое высказывание В.Хардле. "Совмещение параметрических и непараметрических составляющих может даже привести к построению лучшей модели, чем непараметрический или параметрический подход!". Получены первые успешные результаты исследований в данном направлении, к которым можно отнести методы локальной аппроксимации, гибридные модели, полупараметрические и частично линейные модели. Подобное разнообразие методов определяется различием условий моделирования и подходов их реализации.
В предлагаемой работе исследуются новые непараметрические модели коллективного типа, основанные на построении упрощённых параметрических аппроксимаций относительно системы опорных точек из обучающей выборки с последующим их сглаживанием в коллективе с помощью методов непараметрической статистики. Рассматриваемые модели адекватны уровню априорной неопределённости, соотр.ггствующему классу локальных аппроксимаций и обобщают их.
Диссертационная работа выполнялась в рамках программы Госкомвуза РФ "Технические университеты" (раздел 2.3. "Интеллектуальные информационные технологии" и гранта РФФИ №97-01-01043.
Цель работы: Разработать и исследовать непараметрические модели коллективного типа, сочетающих преимущества параметрических и локальных методов аппроксимации при решении задач восстановления стохастических зависимостей и распознавания образов. Создать на этой основе программные средства и внедрить их при изучении закономерностей функционирования медико-экологических систем.
Цель достигается путём решения следующих задач:
1. Осуществить синтез и анализ непараметрических моделей коллективного типа при решении задач восстановления стохастических зависимостей и распознавания образов в условиях неполной информации.
2. Исследовать асимптотические свойства непараметрических аппроксимаций коллективного типа и сравнить их с непараметрической регрессией.
3. Решить проблемы оптимизации непараметрических аппроксимаций коллективного типа, связанных с оцениванием условий их компетентности и формированием эффективной системы опорных функций (элементов коллектива).
4. Создать программные средства, реализующих непараметрические аппроксимации коллективного типа и применить их при исследовании медико-экологических систем.
Научная новизна диссертации состоит в разработке и исследовании нового класса непараметрических моделей коллективного типа, занимающих промежуточное положение между локальными и параметрическими аппроксимациями, что позволяет использовать их преимущества и на этой основе повысить эффективность решения задач восстановления неизвестных стохастических зависимостей и распознавания образов. В частности:
• Теоретически обоснована последовательная процедура синтеза предлагаемых моделей, использующая идею построения упрощённых параметрических аппроксимаций относительно системы "опорных
точек" с последующей их организацией в коллектив непараметрического типа, что позволяет, по сравнению с традиционными методами, в наиболее полном объёме использовать информацию обучающих выборок.
• Установлены условия асимптотической несмещённости и состоятельности непараметрических аппроксимаций коллективного типа, которые использованы для аналитического определения областей их компетентности.
• Решена проблема комплексной оптимизации непараметрических аппроксимаций коллективного типа, охватывающая оценивание условий их компетентности, выбора рациональных законов распределения системы "опорных" точек модели, определения их количества и методики формирования.
• Обнаружена слабая зависимость аппроксимационных свойств непараметрических моделей коллективного типа от вида "опорных" функций. Для линейной системы "опорных" функций разработана методика оценивания вклада аргументов в формирование значений восстанавливаемой зависимости.
Практическая ценность диссертации заключается в разработке методики, алгоритмических и программных средств управляемого синтеза структуры непараметрических моделей коллективного типа, ориентированных на исследование статических объектов различной природы при априорной неопределённости.
Полученные научные результаты рекомендуются для использования при выборе методов аппроксимации, построении непараметрических моделей коллективного типа в задачах восстановления стохастических зависимостей и распознавания образов, их оптимизации и дифференциации аргументов по степени влияния на формирование значений оцениваемых функций.
Непараметрические модели взаимосвязи между параметрами гемодинамики используются при формировании критериев оценивания состояния сердечно-сосудистой системы организма человека в экологически условиях Севера (Институт медицинских проблем Севера СО РАМН).
Методы исследования. При выполнении работы использованы: аппарат непараметрической статистики, теории обучающихся систем, методы коллективных решений и статистического моделирования.
Автор защищает:
1. Непараметрические аппроксимации коллективного типа для решения задач восстановления стохастических зависимостей и распознавания образов на основании обучающих выборок, их асимптотические свойства и результаты сравнения с традиционными непараметрическими моделями.
2. Методика оценивания областей компетентности непараметрических аппроксимаций коллективного типа и их зависимость от объёма обучающих выборок и параметров моделей.
3. Итерационные алгоритмы синтеза структуры непараметрических аппроксимаций коллективного типа, реализующих процедуры формирования рациональной системы "опорных" функций.
4. Методика оценивания вкладов аргументов в формирование значений восстанавливаемой зависимости на основе непараметрических аппроксимаций коллективного типа с линейной системой "опорных" функций.
5. Зависимость показателей эффективности непараметрических аппроксимаций коллективного типа от объёма, размерности и уровня зашумлённости обучающих выборок.
6. Программные средства, реализующие непараметрические аппроксимации коллективного типа и результаты их применения при исследовании медико-экологических процессов (взаимосвязи параметров гемодинамики сердечно-сосудистой системы организма человека в экологических условиях Севера, оценивание скорости распространения нефтяных загрязнений).
Реализация результатов работы. Разработанные непараметрические модели коллективного типа и программные средства внедрены в Институте медицинских проблем Севера СО РАМН при исследовании взаимосвязей между параметрами гемодинамики сердечно-сосудистой системы организма человека в экологических условиях Севера, включены в комплекс программ имитационного моделирования распространения
нефтяных загрязнений (Институт вычислительного моделирования СО
РАН).
Апробация работы. Основные положения диссертации представлялись и докладывались на региональных и Всероссийских конференциях: 3-я Всероссийская конференция с участием стран СНГ "Распознавание образов и анализ изображений: новые информационные технологии" (Нижний Новгород, 1997; Всероссийская конференция "Здоровье общества и безопасность жизнедеятельности" (г.Красноярск, 1997); 3-й Сибирский конгресс по прикладной и индустриальной математике (г. Новосибирск, 1998).
Результаты исследований включались в основные научные достижения Института вычислительного моделирования СО РАН в 1997 г., представлены в отчётах гранта РФФИ №97-01-01043 и программы "Технические университеты России" за 1997 г.
Публикации. Результаты теоретических, экспериментальных и прикладных исследований опубликаваны в 8 печатных работах.
Структура и объём работы. Диссертация состоит из введения, пяти глав, заключения, списка использованной литературы (75 наименований), содержит 108 страницы машинописного текста, иллюстрируется 23 рисунками.
Содержание диссертации.
Во введении обоснована актуальность проблемы, рассматриваемой в
диссертации, определены цель и задачи исследования, выделены основные положения работы, имеющие научную новизну и практическую значимость.
В первой главе анализируются статистические модели коллективного типа, характеризующиеся множеством элементов их структуры, оператором сопряжения между ними и особенностью процедуры оптимизации решающего правила. На основе степени конкретизации восстанавливаемой зависимости элементами коллектива и вида оператора их сопряжения предложена методика классификации статических моделей коллективного типа, позволяющая систематизировать существующие подходы и определить новые постановки задач моделирования.
Показано, что изучаемые в работе непараметрические модели коллективного типа занимают промежуточное положение между коллективами решающих правил и методами кусочной аппроксимации.
Во второй главе рассматриваются непараметрические модели коллективного типа при решении задач восстановления стохастических зависимостей и распознавания образов, исследуются их асимптотические свойства и оцениваются области компетентности моделей.
Идея предлагаемого подхода состоит в построении упрощённых параметрических моделей относительно некоторого набора точек из обучающей выборки с последующей их организацией в коллективе на основе методов непараметрической статистики.
Оценивание стохастических зависимостей. Пусть дана выборка V =(*', у', ¿ = 1,п) из статистически независимых наблюдений неизвестной зависимости и её аргументов
y = <p{x)\f xeRk. (1)
Считается, что функция (1) и плотности вероятности р(х), р(х,у) достаточно гладкие и имеют хотя бы первые две производные.
Поставим в соответствие некоторым точкам обучающей выборки (х ',у') некоторую аппроксимацию <pt(x,a') зависимости (1), параметры которой удовлетворяют условиям
У =ср,. (*', а1) j " _
а'= argmin--У (yJ- <р,(х\а))г , i = 1 ,N
n-ijZi
Упрощённые аппроксимации <р,(х,а') проходят через опорные точки (х' ,у',! = \,n) и близки в среднеквадратическом к элементам выборки V.
Примем в качестве статистической оценки зависимости (1) процедуру условного усреднения
N
У = /(*) = X <РЛх,а)Л'(х), (2)
где положительная, ограниченная значением единица, функция Х'(х) определяет "вес" правила ср,{х,а') при формировании решения в ситуации
х.
Примером функции Х'(х) является нормированное расстояние между точками (*,.*') либо "весовая" функция
к ( Л х„ - х,
Пф
Х(х)=-
\ Су
N к
1П*
у = I у=|
I, - X.,
составленная из "ядерных" функций су'ф
г , л
на основе которых
строятся непараметрические модели.
Непараметрическая модель коллективного типа (2) допускает представление
у = ф{х)+г{х),
первое слагаемое ф(х) является непараметрической регрессией, построенной на опорных точках; а второе г(х) - играет роль поправочного члена и отражает условную взаимосвязь между точками обучающей выборки, значение которого снижается по мере роста объёма исходной информации. Наличие поправочного члена делает коллектив (2) схожим с гибридными моделями, а слабая зависимость его свойств от вида опорных функций - с непараметрической регрессией.
Оценивание решающей функции в задаче распознавания образов. Пусть У=(х',о(х'), ; = 1, п) обучающая выборка, составленная из параметров складывающейся ситуации х' и соответствующих им "указаний учителя" а(х') о принадлежности ;-й ситуации к одному, например, из двух классов.
Следуя методике синтеза коллективов решающих правил, для каждой опорной точки построим уравнение разделяющей поверхности ср12(х, а'), / = между классами.
Параметры /'-й опорной функции находятся из условия минимума
эмпирической ошибки распознавания образов.
Без существенного снижения эффективности строящегося коллектива решающих правил, вид уравнений разделяющих поверхностей может быть принят линейным, что значительно сократит требуемые вычислительные ресурсы.
С этих позиций непараметрический коллектив уравнений разделяющих поверхностей в двуальтернативной задаче распознавания образов запишется как
( I \
' Х-Х
(3)
Отличие от традиционной непараметрической байесовой оценки разделяющей поверхности заключается в замене "указаний учителя" на
упрощенные решающие функции ф\г(х>а ')>' = 1. N.
Обобщенное решение классификации формируется с учетом знака уравнения /]2(х) ■
Оценивание вклада аргументов в формирование значений функции. Сформируем в нормированном пространстве аргументов х = j = 1,к)
линейные "опорные" функции <р^х, ау) у = . Тогда непараметрическая модель коллективного типа (2) является линейной аппроксимацией
Я*) = 2>А (*)+*>.(*)
N _
с нелинейными коэффициентами Ь„(х) = ^1Л'(х)а]" , у = 0,к ,
м
нормированные значения которых Ь[{х\ V = \,к определяют вклад
аргументов ху,у = 1,к и свободного члена модели в формирование значения оцениваемой многомерной зависимости в ситуации х . При этом величина К{х) может быть интерпретирована, как вклад факторов неучтённых при формировании исходного набора признаков.
Асимптотические свойства_непараметрических моделей
коллективного типа определяются теоремой: Пусть 1) восстанавливаемая
Ы
стохастическая зависимость <р(х) и плотности вероятностей р(х, у), р(х) ограничены и непрерывны со всеми своими производными до порядка 2 включительно; 2) закон распределения р{х) аргументов х задан; 3) ядерные функции Ф(ы) являются положительными, симметричными и нормированными при |ит Ф(и) с1и < со Уш<°о; 4) последовательность
с=с(л)-»0 при п—»со, а яс—»со; 5) количество опорных функций N—»00. Тогда непараметрическая модель коллективного типа у = <р(д:) обладает свойствами асимптотической несмещенности и состоятельности.
В частности, минимальное среднеквадратическое отклонение М(<р(х)-<р{х))2 при оптимальных значениях коэффициентов размытости определяется выражением
„2
72(Х)|Ф(И)|Г
пр(х)
(у(х)р(х)У Р(х)
А(х,у)(А(х,у) + 4р(х)Р(х)А, (х,у))'
х ........
где А(х,у), А{(х,у) - нелинейные функционалы от <р(х), р(х,у), р(х) и их производных; 0(х) - дисперсия х .
Установлено, что асимптотические свойства непараметрических моделей коллективного типа "слабо" зависят от вида упрощённых аппроксимаций и объёма выборки в задаче их идентификации Эффективность предлагаемых моделей в значительной степени определяется законом распределения системы опорных точек и повышается с ростом их дисперсии.
Области компетентности <р{х). В результате аналитических исследований отношения среднеквадратических критериев точности
аппроксимации оценена область преимущества разработанных моделей по сравнению с непараметрической регрессией, границы которых для равномерных законов распределения х и опорных точек определяются неравенством
>11
С у(1) ^
✓ I
шах
+ 7
шах
V у0> 2 у(" у
^ ^шах _ / шах ✓шах
■Ах)) П{х) 3 Иг(х)
где Утч> - максимальные значения восстанавливаемой зависимости и
её производной.
Границы между областями компетентности моделей в новой системе координат (поворот осей) представляются эллипсом, параметры которого
количественной оценки информации, содержащейся в "опорных" точках непараметрической модели коллективного типа и во взаимосвязи между ними.
В третьей главе предлагается решение проблемы комплексной оптимизации непараметрических моделей коллективного типа, охватывающей оценивание условий их компетентности, выбор оптимальных законов распределения системы "опорных" точек модели, определение их количества и методики формирования.
Выбор оптимальной плотности вероятности "опорных" точек непараметрической модели коллективного типа у{х) осуществляется путём минимизации асимптотического выражения среднеквадратического критерия точности аппроксимации при условии нормированное™ />,(*).
Показано, что для минимизации главного члена дисперсии непараметрической модели у(х) необходимо формировать систему
восстанавливаемую зависимость.
Для снижения смещения непараметрических аппроксимаций коллективного типа рациональным законом распределения является смесь плотностей вероятности: равномерной и плотности, зависящей от восстанавливаемой функции и её производных.
Полученные теоретические результаты позволили разработать два подхода формирования системы "опорных" точек в процессе синтеза структуры непараметрической модели коллективного типа. Первый подход основан на моделировании "опорных" точек с законом распределения, соответствующим значениям восстанавливаемой зависимости. Второе направление базируется на итерационной процедуре последовательного формирования упрощённых аппроксимаций, минимизирующих на каждом этапе относительную эмпирическую ошибку расхождения между
зависят от отношения
На этой основе предложены критерии
'опорных" точек с законом
восстанавливаемой зависимостью и её коллективной моделью:
1. Выбрать в качестве первой опорной точки,}-ю точку с максимальным значением функции. Принять значение параметра 1=0, I, = {/},
2. Проверить гипотезу на наличие ошибки в ]-ом наблюдении. Если ¡-г наблюдение ошибочное, принять у е /. и перейти к этапу 6.
3. Оценить параметры модели «>,(*,«,) из условия
гшп£а,))' •
4. Включить номер }-й опорной точки в множество 11+,. Проверить соответствие количества опорных точек |/,| требуемому N. Если условие выполнено, то процесс заканчивается.
5. Построить непараметрическую модель коллективного типа Ч^О •
6. Определить точку (х}, у1) из условия
шах (у -(ру(х',ау),у = 1,г + 1 ))2,
х ,у ,/е/—
где /. - множество номеров ошибочных точек. Принять 1 = 1 +1 и перейти к этапу 2.
На основе анализа кусочно-линейной аппроксимации областей компетентности непараметрических моделей коллективного типа предложены численные критерии выбора количества N "опорных" точек, например,
[(3.25У- О.ббг+ 1.235)г-0.3677|<~ <-■ . 1 п
по объёму исходной выборки п и значениям относительных максимальных значений восстанавливаемой зависимости г = и её
производной V
Показано, что оптимальные колоколообразные функции для непараметрических моделей коллективного типа совпадают с ядром Епанечникова.
В четвёртой главе, используя методику вычислительного эксперимента, исследуются зависимость свойств непараметрических моделей коллективного типа от параметров их структуры, объёма, размерности и уровня зашумлённости обучающих выборок. С целью сравнения результатов исследований контрольные задачи выбирались по известным литературным источникам.
Восстановление стохастических зависимостей проводилось на примере функции
и её многомерном аналоге, представленных в книге В. Хардле (Прикладная непараметрическая регрессия- М.: Мир, 1993). На значение функции и её аргументов накладывались аддитивные помехи с нормальным законом распределения.
При построении непараметрической модели использовались линейные "опорные" функции и ядра Епанечникова. Оценивание показателей эффективности изучаемых моделей для каждого условия эксперимента проводилось по N=25 имитациям обучающих выборок.
Установлено, что на качество аппроксимации, особенно при малом количестве опорных функций, влияет значение параметра размытости ядра Епанечникова.
В области изменения производной изучаемой функции качество аппроксимации снижается, что согласуется с результатами исследования асимптотических свойств непараметрических оценок коллективного типа.
Аппроксимационные свойства непараметрических моделей коллективного типа достоверно менее чувствительны к помехам в данных и размерности обучающей выборки по сравнению с непараметрической регрессией, методом к - ближайших соседей и сплайн-аппроксимациями. Этот факт объясняется двойным сглаживанием в структуре моделей коллективного типа и наиболее полным использованием информации,
(4)
содержащейся в обучающей выборке.
Установлена закономерность смещения рациональных отношений
в область их меньших значений с ростом объёма обучающей выборки. Достаточно системы 15 опорных функций для обеспечения достоверного преимущества непараметрической модели коллективного типа над непараметрической регрессией. Причём, использование итерационной процедуры формирования "опорных" точек позволяет на треть сократить их необходимое количество. Существуют условия, когда возможно обеспечить преимущество моделей коллективного типа, восстанавливаемых по выборке меньшего объёма, чем при оценивании непараметрической регрессией.
N/(1
—ад.......ад—вд—вщ—ад.....веб—
Рис.1. Зависимость средней относительной ошибки аппроксимации функции (4) от отношения с помощью
непараметрической оценки коллективного типа при- объёме обучающих выборок «=50 (кривая!), л=100 (3), /1=200 (5) и равномерном законе распределения "опорных" точек. Штриховые линии (2,4,6) соответствуют итерационной процедуре формирования опорных точек. Значения функции в обучающей выборки зашумлены аддитивной помехой А;(0;1). Прямая 7 -
точность аппроксимации непараметрической регрессии при л=100.
С ростом помех качество аппроксимации ухудшается. Эта тенденция усиливается с уменьшением объёма обучающих выборок. Вместе с тем, двойное сглаживание в моделях коллективного типа гарантирует их преимущество над непараметрической регрессией.
Показано, что исследуемые модели менее чувствительны к увеличению размерности по сравнению с непараметрической регрессией даже при неоптимальных условиях применения моделей коллективного типа (равномерный закон распределения опорных точек). Этот факт можно объяснить возможностью моделей коллективного типа использовать информацию, содержащуюся не только в точках обучающей выборки, но и во взаимосвязи между ними.
к
-----ВД.......Бле----Вд!-Вд»
Рис.2. Зависимость средней относительной ошибки
аппроксимации функции >(х) = ~ ^ +ехр(-200(х;.-0.5))] с
У-1
помощью непараметрической оценки коллективного типа при М/ = 0.15 и объёме обучающей выборки «=50 (кривая1), л=100 (2),
л=200 (3). Кривая 4 соответствует непараметрической регрессии при и=200.
Непараметрические алгоритмы распознавания образов коллективного типа исследовались при классификации двух случайных совокупностей с нормальным законом распределения, приведённых в работе П.И. Чи и Дж.В. Райзина (Классификация и кластер. - М.: Мир, 1980. - С.328-350). Достоверность отличия эмпирических ошибок распознавания расчитывалась по критерию Смирнова.
Результаты сравнения трёх непараметрических классификаторов приведены на рис.3. При этом определяются условия преимущества алгоритма коллективного типа, которые при отношении = 0.075
наблюдаются в интервале л>150. С ростом отношения левая граница
интервала сдвигается в область меньших значений объёма обучающих выборок.
п
.......Рад1----Ряз2 --РяяЗ
Рис.3. Зависимость оценок ошибок распознавания образов от
объёма обучающей выборки для гистограммного метода (кривая1),
непараметрического алгоритма ядерного типа (2) и
непараметрического алгоритма коллективного типа (3) при
отношении М/ = 0.075. /п
При отношении ^/>0.15 эффективность алгоритмов коллективного
типа достоверно (/? = 0.05) не отличается для л=150 и л=300. Причём при > 0.3 эмпирическая ошибка распознавания образов коллективного
классификатора достоверно не отличается от теоретического значения. В этом случае (и=150) коллектив образуют //=45 упрощённых линейных аппроксимаций решающей функции, т.е. на каждый признак приходится 25 опорных точек. Такое же эмпирическое соотношение наблюдается для выборки /2=300, при котором верхняя граница % = 0.15.
N/n
.......Bö----ВД-Bis
Рис.4. Зависимость оценки ошибки распознавания образов непараметрического алгоритма коллективного типа от отношения N/n при я=50 (кривая 1), /1=150 (2), //=300 (3).
Устанавливается достоверное (ß = 0.05) преимущество алгоритма коллективного типа над непараметрическим классификатором ядерного типа при = 0.075 для п> 150.
Таким образом, уже при N>6 опорных аппроксимаций проявляется преимущество классификаторов коллективного типа. Форма ядерных функций в непараметрических алгоритмах принята оптимальной (ядро Епанечникова).
Установлено, что с ростом уровня помех качество классификации
снижается за счёт выхода опорных точек из области пересечения классов, тем самым снижается информативность аппроксимирующих функций. Данный факт особо проявляется при малых объёмах обучающих выборок.
В пятой главе приводится описание программных средств, реализующих непараметрические модели коллективного типа при решении задач восстановления многомерных стохастических зависимостей и распознавания образов. Рассматриваются результаты их применения при исследовании медико-экологических систем.
Комплекс программ разработан в среде визуального программирования Delphi для IBM совместимых компьютеров и позволяет решать следующие задачи: восстановление многомерных стохастических зависимостей, распознавание образов на основе непараметрического оценивания решающих функций в виде коллектива линейных аппроксимаций; оценивание вклада входных переменных в формирование значений выходной переменной изучаемого объекта; исследование свойств изучаемых объектов на основе их непараметрических моделей коллективного типа; графическая интерпретация результатов
На основе разработанных программных средств уточнены модели закономерностей взаимосвязи между параметрами гемодинамики сердечно-сосудистой системы организма человека с учётом возраста и стажа проживания на Севере.
Непараметрические модели коллективного типа строились по выборке объёма /2=560, их структуру составляли линейные упрощённые аппроксимации в пространстве топического коэффициента и среднегемодинамического артериального давления для различных половозрастных групп.
Средняя относительная ошибка моделирования составила - 5.7%, что почти в два раза ниже непараметрической регрессии.
Для лиц с нормальным артериальным давлением характерна близкая к постоянной зависимость скорости распространения пульсовой волны по
сосудам мышечного типа (О от топического коэффициента, что подчёркивает наличие у них адаптационного потенциала. При этом, с ростом артериального давления, значения см увеличиваются. Такая же тенденция наблюдается с ростом стажа проживания на Севере, что
позволяет рассматривать значения см как критерий оценивания состояния сердечно-сосудистой системы.
При пограничной артериальной гипертонии ярко выражена экспоненциальная зависимость см от топического коэффициента, которая характеризует стремление организма поддержать гомеостаз за счёт его резервных возможностей (повышение состояния сосудистого тонуса).
Снижение эластических свойств сосудов особо проявляется у больных артериальной гипертонией. Истощение адаптационных возможностей организма не обеспечивают адекватную функциональную перестройку сердечно-сосудистой системы. Это проявляется в снижении явной зависимости между скоростью распространения пульсовой волны и топическим коэффициентом, что приводит к развитию неблагоприятного клинического течения гипертонической болезни и сосудистым катастрофам на фоне повышения артериального давления.
Таким образом, критерии оценивания состояния сердечно-сосудистой системы определяются не только повышенным артериальным давлением, его предвестником являются значения скорости распространения пульсовой волны и их динамика.
На основе непараметрических моделей коллективного типа процессов гемодинамики научным коллективом под руководством профессора Л.С. Поликарпова (Институт медицинских проблем Севера СО РАМН) уточнены критерии оценивания состояния сердечно-сосудистой системы.
Непараметрические модели коллективного типа включены в комплекс программ имитационного моделирования процесса распространения нефтяных загрязнений (ИВМ СО РАН) и используются при прогнозировании скорости распространения нефтяных загрязнений.
Средняя относительная ошибка прогноза с помощью непараметрической модели коллективного типа составила 7% и ниже на 10% по сравнению с линейной аппроксимацией скорости распространения загрязнений. Использование предлагаемых моделей при имитации процессов распространения нефтяных загрязнений позволяет повысить точность совпадения фронтов загрязнений на (6-10)% при увеличении времени расчётов в 3 раза. Однако снижение вычислительной эффективности при решении задач проектирования нефтяных загрязнений не является принципиальным.
Основные результаты и выводы
1. Разработан новый класс непараметрических моделей коллективного тииа для решения задач восстановления стохастических зависимостей и распознавания образов, занимающих промежуточное положение между локальными и параметрическими методами аппроксимации и использующие их преимущества. Идея предлагаемого подхода состоит в построении упрощённых параметрических аппроксимаций относительно системы "опорных" точек из обучающей выборки с последующей организацией их в коллективе на основе непараметрической статистики, что обеспечивает наиболее полное использование априорной информации и повышенную помехозащищённость моделей.
2. Доказана теорема об асимптотической несмещённости и состоятельности непараметрических моделей коллективного типа, установлена "слабая" зависимость их свойств от вида "опорных" функций.
3. Из условия минимума асимптотического выражения среднеквадратического критерия точности аппроксимации непараметрических моделей коллективного типа определён оптимальный закон распределения опорных точек в виде смеси плотностей вероятности, характеризующих восстанавливаемую зависимость. На этой основе разработаны итерационные методики управляемого синтеза структуры предлагаемых моделей, минимизирующих на каждом этапе относительную эмпирическую ошибку моделирования.
4. Аналитически определены области компетентности моделей коллективного типа по сравнению с непараметрической регрессией, границы которых в пространстве относительных максимальных значений восстанавливаемой функции и её производной ограничены эллипсом. Размеры области компетентности увеличиваются с ростом количества опорных точек. Предложены численные методы их выбора.
5. Для линейной системы опорных функций разработана методика оценизания вклада аргументов в формиропание значений восстанавливаемой зависимости, что имеет актуальное прикладное значение.
6. Результаты статистического моделирования 1<ри конечных объёмах обучающих выборок на контрольных примерах зарубежных авторов
подтвердили выводы теоретических исследований и преимущество непараметрических моделей коллективного типа над непараметрической регрессией, сплайн-аппроксимациями и моделями ¿-ближайших соседей. Эффективность непараметрических моделей коллективного типа повышается с ростом отношения "количество опорных точек - объём выборки", при использовании процедур усреднения опорных точек и итерационного метода их формирования.
7. Создано программное обеспечение, реализующее непараметрические модели коллективного типа при решении задач восстановления стохастических зависимостей и распознавания образов, методику оценивания вклада компонент входных переменных.
Применение непараметрических моделей коллективного типа в исследовании зависимости параметров гемодинамики сердечно-сосудистой системы организма человека в экологических условиях Севера позволяет в два раза повысить точность прогнозирования скоростей распространения пульсовой волны по мышечному и эластическому типу. На этой основе количественно подтверждена гипотеза об информативности скоростей распространения пульсовой волны и их динамики на состояние сердечнососудистой системы, уточнены критерии его оценивания.
Основное содержание диссертационной работы изложено в следующих публикациях:
1. Лапко В.А., Ченцов C.B. Непараметрические модели статических объектов на основе методов коллективного оценивания // Информатика и системы управления.- Красноярск: КГТУ, 1996. -С.56-60.
2. Лапко В.А., Ченцов C.B. Асимптотические свойства непараметрических моделей коллективного типа // Организационные модели управления территориальными энергосистемами,- Красноярск: КГТУ, 1997. -С.56-63.
3. Ченцов C.B., Лапко В.А. и др. Имитационные модели распределённых систем // Организационные модели управления территориальными энергосистемами.- Красноярск: КГТУ, 1997. -С.179-188.
4. Лапко В.А., Ченцов C.B. Исследование асимптотических свойств
непараметрических моделей коллективного типа // Информатика и системы управления,- Красноярск: КГТУ, 1997. -С.12-19.
5. Лапко A.B., Лапко В.А., Ченцов C.B. Непараметрические модели распознавания образов на основе методов коллективного оценивания // Математические методы распознавания образов. Тезисы докладов 8-ой Всеросийской конференции,- М.: ВЦ РАН, РФФИ, 1997. -С.70-72.
6. Лапко A.B., Лапко В.А., Ченцов C.B. Непараметрические модели стохастических зависимостей коллективного типа // Многоуровневые непараметрические системы принятия решений,- Новосибирск: Наука, 1997,- С.136-141.
7. Лапко В.А. Непараметрические модели коллективного типа // Тезисы докладов 3-го Сибирского конгресса по прикладной и индустриальной математике.- Новосибирск: ИМ СО РАН, 1998.-С.101.
8. Лапко В.А. Оптимизация непараметрических аппроксимаций коллективного типа // Информатика и системы управления,- Красноярск: КГТУ, 1997,- С.65-73.
Текст работы Лапко, Василий Александрович, диссертация по теме Системы обработки информации и управления
X ^ - ^ .А • .••' -С/ _ ¿У
¿^ / ^ »..,' V ^ I/
Министерство общего и профессионального образования России Красноярский государственный технический университет
На правах рукописи
ЛАПКО ВАСИЛИЙ АЛЕКСАНДРОВИЧ
НЕПАРАМЕТРИЧЕСКИЕ МОДЕЛИ КОЛЛЕКТИВНОГО ТИПА В ЗАДАЧАХ ВОССТАНОВЛЕНИЯ СТОХАСТИЧЕСКИХ
ЗАВИСИМОСТЕЙ
05.13.14 Системы обработки информации и управления
диссертация на соискание ученой степени кандидата технических наук
Научный руководитель: кандидат технических наук доцент Ченцов C.B.
Научный консультант: доктор медицинских наук профессор Поликарпов Л.С.
КРАСНОЯРСК -1998
Содержание
Введение 5
ГЛАВА 1. Анализ статистических моделей коллективного
типа 11
1.1. Типизация статистических моделей коллективного
типа 11
1.2. Непараметрическая регрессия 13 1.3 .Частично линейные модели 14
1.4. Модели дерева регрессии 15
1.5. Регрессия целенаправленного проектирования 18
1.6. Гибридные модели 20
1.7. Метод группового учёта аргументов (МГУА) 20 1.8 .Аддитивные сепарабельные модели 21 1.9. Коллективы моделей, имеющих самостоятельное
значение 23
Выводы 24
ГЛАВА 2. Непараметрические модели коллективного типа и их
асимптотические свойства 26
2.1. Непараметрические модели многомерных стохастических зависимостей коллективного типа 26
2.2. Непараметрические модели коллективного типа в задаче распознавания образов 29
2.3.Оценивание вклада аргументов восстанавливаемой многомерной
зависимости в формирование её значений 32
2.4.Асимптотические свойства непараметрических моделей
коллективного типа 34
2.5. Сравнение аппроксимационных свойств непараметрических моделей 42
Выводы 50
ГЛАВА 3. Оптимизация непараметрических моделей
коллективного типа 52
3.1. Оптимизация непараметрической модели коллективного типа по закону распределения системы «опорных»
точек 52
3.2. Критерии оценивания условий применения непараметрических моделей коллективного типа 58
3.3. Методика формирования системы «опорных» точек непараметрической модели коллективного типа 60
3.4. Оптимизация непараметрических моделей коллективного типа по формуле «ядерной» функции 64
Выводы 66
ГЛАВА 4. Исследование свойств непараметрических моделей
коллективного типа при конечных объёмах обучающих выборок 68
4.1. Исследование свойств непараметрических моделей коллективного типа в задаче восстановления стохастических зависимостей 68
4.2.Исследование свойств непараметрических алгоритмов распознавания образов коллективного типа 81
Выводы 87
ГЛАВА5. Программное обеспечение непараметрических
моделей коллективного типа и его применение 89
5.1. Комплекс программ и его функциональные
возможности 89
5.2.Структура комплекса программ 90
5.3.Восстановление взаимосвязи между показателями гемодинамики сердечно-сосудистой системы организма человека в экологических условиях Севера 92
5.4.Моделирование скорости распространения нефтяных загрязнений96
Выводы 99
Заключение 100
Литература 102
Введение
Принципы коллективного оценивания находят широкое распространение на современном этапе развития теории адаптивных систем, когда возникла необходимость обобщения и получения интегрированных значений в задачах исследования систем.
Обязательным условием синтеза традиционных моделей коллективного типа является наличие конечного множества решающих правил, каждое из которых имеет самостоятельное значение и характеризуется некоторым показателем эффективности. Тогда коллектив моделей, например, с позиций «средневзвешенного» преобразования аккумулирует преимущества составляющих её решающих правил [52-55].
Другим примером крайнего случая коллектива являются непараметрические статистики, структуру которых образуют элементы обучающей выборки и соответствующие им ядерные функции. Каждая ядерная функция оказывает влияние на процесс формирования решения только в пределах конкретной ситуации из обучающей выборки [2527,31,41,57,58,62].
В настоящее время настойчиво обсуждается и разрабатывается идея о совместном использовании в коллективе разнотипных моделей - как средства наиболее полного учёта априорной информации. Известно яркое высказывание В.Хардле [62]: «Совмещение параметрических и непараметрических составляющих может даже привести к построению лучшей модели, чем непараметрический или параметрический подход!». Получены первые успешные результаты исследований в данном направлении, к которым можно отнести методы локальной аппроксимации [26], гибридные модели [30,31], полупараметрические и частично линейные модели [62,71]. Подобное разнообразие методов определяется различием условий моделирования и подходов их реализации.
В предлагаемой работе исследуются новые непараметрические модели коллективного типа, основанные на построении упрощённых параметрических аппроксимаций относительно системы опорных точек из обучающей выборки с последующим их сглаживанием в коллективе с
помощью методов непараметрической статистики. Рассматриваемые модели адекватны уровню априорной неопределённости, соответствующему классу локальных аппроксимаций и обобщают их.
Диссертационная работа выполнялась в рамках программы Госкомвуза РФ «Технические университеты» (раздел 2.3. «Интеллектуальные информационные технологии» и гранта РФФИ №97-01-01043.
Цель работы: Разработать и исследовать непараметрические модели коллективного типа, сочетающих преимущества параметрических и локальных методов аппроксимации при решении задач восстановления стохастических зависимостей и распознавания образов. Создать на этой основе программные средства и внедрить их при изучении закономерностей функционирования медико-экологических систем.
Цель достигается путём решения следующих задач:
1. Осуществить синтез и анализ непараметрических моделей коллективного типа при решении задач восстановления стохастических зависимостей и распознавания образов в условиях неполной информации.
2. Исследовать асимптотические свойства непараметрических аппроксимаций коллективного типа и сравнить их с непараметрической регрессией.
3. Решить проблемы оптимизации непараметрических аппроксимаций коллективного типа, связанных с оцениванием условий их компетентности и формированием эффективной системы опорных функций (элементов коллектива).
4. Создать программные средства, реализующих непараметрические аппроксимации коллективного типа и применить их при исследовании медико-экологических систем.
Научная новизна диссертации состоит в разработке и исследовании нового класса непараметрических моделей коллективного типа, занимающих промежуточное положение между локальными и параметрическими аппроксимациями, что позволяет использовать их преимущества и на этой основе повысить эффективность решения задач
восстановления неизвестных стохастических зависимостей и распознавания образов. В частности:
• Теоретически обоснована последовательная процедура синтеза предлагаемых моделей, использующая идею построения упрощённых параметрических аппроксимаций относительно системы «опорных точек» с последующей их организацией в коллектив непараметрического типа, что позволяет, по сравнению с традиционными методами, в наиболее полном объёме использовать информацию обучающих выборок.
• Установлены условия асимптотической несмещённости и состоятельности непараметрических аппроксимаций коллективного типа, которые использованы для аналитического определения областей их компетентности.
• Решена проблема комплексной оптимизации непараметрических аппроксимаций коллективного типа, охватывающая оценивание условий их компетентности, выбора рациональных законов распределения системы «опорных» точек модели, определения их количества и методики формирования.
• Обнаружена слабая зависимость аппроксимационных свойств непараметрических моделей коллективного типа от вида «опорных» функций. Для линейной системы «опорных» функций разработана методика оценивания вклада аргументов в формирование значений восстанавливаемой зависимости.
Практическая ценность диссертации заключается в разработке методики, алгоритмических и программных средств управляемого синтеза структуры непараметрических моделей коллективного типа, ориентированных на исследование статических объектов различной природы при априорной неопределённости.
Полученные научные результаты рекомендуются для использования при выборе методов аппроксимации, построении непараметрических моделей коллективного типа в задачах восстановления стохастических зависимостей и распознавания образов, их оптимизации и
дифференциации аргументов по степени влияния на формирование значений оцениваемых функций.
Непараметрические модели взаимосвязи между параметрами гемодинамики используются при формировании критериев оценивания состояния сердечно-сосудистой системы организма человека в экологических условиях Севера (Институт медицинских проблем Севера СО РАМН).
Методы исследования. При выполнении работы использованы: аппарат непараметрической статистики, теории обучающихся систем, методы коллективных решений и статистического моделирования.
Автор защищает:
1. Непараметрические аппроксимации коллективного типа для решения задач восстановления стохастических зависимостей и распознавания образов на основании обучающих выборок, их асимптотические свойства и результаты сравнения с традиционными непараметрическими моделями.
2. Методику оценивания областей компетентности непараметрических аппроксимаций коллективного типа и их зависимость от объёма обучающих выборок и параметров моделей.
3. Итерационные алгоритмы синтеза структуры непараметрических аппроксимаций коллективного типа, реализующих процедуры формирования рациональной системы «опорных» функций.
4. Методику оценивания вкладов аргументов в формирование значений восстанавливаемой зависимости на основе непараметрических аппроксимаций коллективного типа с линейной системой «опорных» функций.
5. Зависимость показателей эффективности непараметрических аппроксимаций коллективного типа от объёма, размерности и уровня зашумлённости обучающих выборок.
6. Программные средства, реализующие непараметрические аппроксимации коллективного типа и результаты их применения при исследовании медико-экологических процессов (взаимосвязи
параметров гемодинамики сердечно-сосудистой системы организма человека в экологических условиях Севера, оценивание скорости распространения нефтяных загрязнений).
Реализация результатов работы. Разработанные непараметрические модели коллективного типа и программные средства внедрены в Институте медицинских проблем Севера СО РАМН при исследовании взаимосвязей между параметрами гемодинамики сердечно-сосудистой системы организма человека в экологических условиях Севера, включены в комплекс программ имитационного моделирования распространения нефтяных загрязнений (Институт вычислительного моделирования СО РАН).
Апробация работы. Основные положения диссертации представлялись и докладывались на региональных и Всероссийских конференциях: 3-я Всероссийская конференция с участием стран СНГ «Распознавание образов и анализ изображений: новые информационные технологии» (Нижний Новгород, 1997; Всероссийская конференция «Здоровье общества и безопасность жизнедеятельности» (г.Красноярск, 1997); 3-й Сибирский конгресс по прикладной и индустриальной математике (г. Новосибирск, 1998).
Результаты исследований включались в основные научные достижения Института вычислительного моделирования СО РАН в 1997 г., представлены в отчётах гранта РФФИ №97-01-01043 и программы «Технические университеты России» за 1997 г.
Публикации. Результаты теоретических, экспериментальных и прикладных исследований опубликаваны в 8 печатных работах.
Структура и объём работы. Диссертация состоит из введения, пяти глав, заключения, списка использованной литературы (75 наименований), содержит 108 страницы машинописного текста, иллюстрируется 23 рисунками.
Содержание диссертации. В первой главе исследуется структура моделей коллективного типа, характеризующаяся множеством элементов,
оператором их сопряжения и особенностями процедуры оптимизации решающего правила. На этой основе предлагается методика классификации коллективных моделей и определяется место изучаемых аппроксимаций.
Теоретическому обоснованию методики синтеза и анализа непараметрических моделей коллективного типа при решении задач восстановления стохастических зависимостей и распознавания образов при априорной неопределённости посвящена вторая глава диссертации. Доказывается теорема об асимптотической несмещённости и состоятельности изучаемых аппроксимаций. Полученные результаты используются при определении областей их компетентности относительно непараметрической регрессии.
В третьей главе решаются проблемы оптимизации непараметрических аппроксимаций коллективного типа, направленные на оценивание условий их компетентности и формирование эффективной системы опорных функций.
В четвёртой главе методом статистического моделирования исследуются зависимости показателей эффективности непараметрических аппроксимаций коллективного типа от объёма, размерности и уровня зашумлённости обучающих выборок. В качестве исходной информации используются данные известных в научной литературе контрольных примеров, что позволяет на единой информационной основе сравнить эффективность различных подходов.
Сведения о программных средствах реализации непараметрической аппроксимации коллективного типа и их применению при исследовании медико-экологических систем излагаются в пятой главе.
Исследования по диссертации выполнялись в Красноярском государственном техническом университете и Институте вычислительного моделирования СО РАН.
ГЛАВА 1. Анализ статистических моделей коллективного типа.
Рассматриваются статистические модели, при построении которых используются принципы коллективного оценивания. Исследуются структура моделей коллективного типа, характеризующаяся множеством элементов, оператором их сопряжения и особенностями процедуры оптимизации решающего правила. На этой основе предлагается методика классификации моделей коллективного типа, позволяющая систематизировать существующие подходы и определить новые постановки задач моделирования.
1.1 Типизация статистических моделей коллективного типа.
Развитие теории непараметрической статистики сопровождалось с принципиальным изменением мнений исследователей об использовании параметрических и локальных методов аппроксимации стохастических зависимостей.
До шестидесятых годов преобладало заключение Р. Фишера (1922): «Мы должны ограничиться теми формами, относительно которых нам известно, как их обрабатывать, или для которых были сформированы какие-либо необходимые таблицы» [62]. В настоящее время настойчиво обсуждается и разрабатывается идея о совместном применении разнотипных моделей - как средства наиболее полного учёта априорной информации. Известно яркое высказывание В. Хардле (1989): «Совмещение параметрических и непараметрических составляющих может даже привести к построению лучшей модели, чем непараметрический или параметрический подход!». Получены первые успешные результаты исследований в данном направлении, к которым можно отнести локально-статистические модели [26], гибридные модели [28,31], полупараметрические модели [62], непараметрические модели коллективного типа [34,35]. Подобное разнообразие примеров совместного использования непараметрических и параметрических аппроксимаций
объясняется не только перспективностью рассматриваемого направления, но и разнообразием условий моделирования, а также подходов их реализации. Поэтому важное значение приобретает проблема их систематизации, что позволяет провести их классификацию и определить новые постановки задач моделирования.
Структуру (Х¥,^>,И/Г) коллектива моделей составляют множество элементов (р, оператор их сопряжения ¥ и критерий оптимизации Ж. Поэтому за основу примем характеристики тройки степень
конкретизации восстанавливаемой зависимости элементами коллектива;
вид Лр оператора сопряжения Ч*; особенность процедуры оптимизации коллектива.
Будем различать следующую степень конкретизации восстанавливаемой зависимости элементами коллектива: использование
значений /,/ = \,т зависимости (/1); линейная и нелинейная аппроксимация в ограниченных областях (/2); упрощённая аппроксимация во всей области определения, не имеющая самостоятельное значение (/З); аппроксимация во всей области определения искомой зависимости (г4).
Вид оператора сопряжения будем разл
-
Похожие работы
- Синтез и анализ непараметрических коллективов решающих правил
- Многоуровневая непараметрическая система обработки информации
- Непараметрические модели нестационарных временных зависимостей в условиях малых выборок
- Синтез и анализ непараметрических моделей стохастических зависимостей и распознавания образов в условиях малых выборок
- Многоуровневые непараметрические системы распознавания образов на основе декомпозиции обучающей выборки по ее размерности
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность