автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Построение логико-вероятностной модели прогнозирования системы разнотипных переменных
Автореферат диссертации по теме "Построение логико-вероятностной модели прогнозирования системы разнотипных переменных"
На правах рукописи
Ступина Татьяна Александровна
ПОСТРОЕНИЕ ЛОГИКО-ВЕРОЯТНОСТНОЙ МОДЕЛИ ПРОГНОЗИРОВАНИЯ СИСТЕМЫ РАЗНОТИПНЫХ ПЕРЕМЕННЫХ
05.13.18 — математическое моделирование,
численные методы и комплексы программ
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
Новое ибнрск-2006
Рабата выполнена в Институте математики им. С.Л. Соболева Сибирского Отделения Российской Академии Наук
Научный руководитель:
доктор технических наук, профессор Г.С. Лбов
Научный консультант:
доктор физико-математических наук, Ю.А. Зуев
Официальные оппоненты:
доктор технических наук, доцент А.С. Родионов
кандидат физико-математических наук, доцент И.А. Пестунов
Ведущая организация:
Новосибирский государственный технический университет
Защита состоится «14.» ноября 2006 г. в 1^-00
На заседании диссертационного совета Д 003.061.02 при Институте вычислительной математики и математической геофизики СО РАН по адресу: 630090, Новосибирск, пр. ак, Лаврентьева,6.
С диссертацией можно ознакомиться в библиотеке Института вычислительной математики и математической геофизики СО РАН.
Автореферат разослан « 9 » октября 2006 г.
Ученый секретарь диссертационного совета доктор физико-матемаггических наук
С.Б. Сорокин
Общая характеристика работы Актуальность темы. Одним из важных направлений в области информатики является решение задач построения решающих функций распознавания и прогнозирования на основе анализа эмпирической информации, заданной в виде таблиц данных, временных рядов и экспертных знаний. Методы построения решающих функций с успехом применяются в различных научных исследованиях при решении задач в таких областях, как экология, медицина, социология, археология и т.д. К настоящему времени разработано большое количество методов построения решающих функций, основанных на различных идеях, гипотезах и принципах. Однако существующие подходы и методы построения решающих функций в задачах анализа многомерной эмпирической информации ориентированы, в основном, на случай одной целевой переменной (например, задача распознавания образов, регрессионного анализа). Случай одновременного прогнозирования нескольких переменных рассматривался, например, для количественных переменных в задачах многооткликовой регрессии. Поэтому работы в данной области остаются актуальными.
При решении задач анализа данных с использованием эмпирического материала ограниченного объема важными в теоретическом и практическом плане являются проблема определения качества метода и исследование его зависимости от сложности распределения, сложности используемого класса решающих функций и объема обучающей выборки. В работах данного направления понятие сложности распределения, сложности класса решающих функций формализуется по-разному. Результаты исследований дают возможность строить наилучшую решающую функцию при ограниченном объеме обучающей выборки с учетом сложности распределения, сложности класса решающих функций. Основные результаты решения этой проблемы получены в области построения решающих функций распознавания (Ш.Ю. Раудис, Г.С. Лбов, Н.Г. Старцева, В.Б. Бериков и др.).
Необходимость разработки методов прогнозирования системы разнотипных переменных и исследование их качества обуславливается существованием достаточно широкого круга прикладных задач в естественнонаучных областях. В качестве примера можно привести задачу выявления взаимосвязи между характеристиками экологической обстановки и характеристиками здоровья населения региона. В этой задаче необходимо по характеристикам экологической ситуации предсказать разнотипный набор характеристик здоровья населения. Как показывают теоретические и экспериментальные исследования (Г.С. Лбов, Н.Г. Старцева), наиболее подходящим классом функций для анализа разнотипной информации является класс логических решающих функций, который послужил основой при построении логико-вероятностной модели и стал средством исследований, проделанных в работе.
Цель работы заключается в разработке метода построения . логико-вероятностной модели прогнозирования системы разнотипных переменных и способа его исследования, в частности, исследование методов построения кусочно-линейных регрессионных функций.
Методы исследований, В работе используется аппарат теории вероятностей, математической статистики, теории статистических решений, линейного регрессионного анализа, распознавания образов.
Научная новизна. В работе впервые получены следующие результаты: • разработан способ оценивания качества метода прогнозирования системы разнотипных переменных (ПСРП);
• предложен метод построения логико-вероятностной модели прогнозирования системы разнотипных переменных;
• получены зависимости, позволяющие определить влияние типа переменной (с упорядоченным и неупорядоченным набором значений) на качество решения при ПСРП в условиях малой выборки;
• получены зависимости качества метода ПСРП от сложности распределения, сложности класса решающих функций и объема выборки;
• для порогового метода построения кусочно-постоянных решающих функций при заданном классе распределений получена нижняя оценка его качества в зависимости от сложности класса решающих функций и объема выборки;
. • предложен критерий обнаружения значимого подмножества переменных МНК-метода построения линейной регрессионной функции.
Практическая ценность результатов работы. Теоретические исследования и методы, предложенные в данной работе, позволяют решать прикладные задачи выбора значимого подмножества переменных в линейном регрессионном анализе, задачи прогнозирования системы разнотипных переменных, что существенно расширяет круг прикладных задач анализа данных, анализа многомерных временных рядов. Результаты были использованы при решении прикладных задач из области медицины и гидрологии. Программная реализация разработанных методов является эффективным инструментом в статистической обработке данных и может быть применена в научно-исследовательских работах в области медицины, экологии, гидрологии и других естественнонаучных областях.
На защиту выносятся;
Разработка способа оценивания качества метода прогнозирования системы разнотипных переменных.
Метод построения логико-вероятностной модели прогнозирования системы разнотипных переменных, основанный на предложенном критерии, с учетом влияния разнотипности пространства.
Результаты анализа зависимости качества метода ПСРП от сложности распределения, сложности решающих функций, объема выборки.
Результаты оценивания качества порогового метода построения кусочно-постоянных функций в зависимости от сложности класса решающих функций и объема выборки при известном классе распределений.
Критерий обнаружения значимого подмножества переменных МНК-метода построения линейной многомерной регрессионной функции.
Апробация работы. Основные положения работы докладывались и обсужда-. лись на Конгрессе по индустриальной и прикладной математике (ИНПРИМ-98, Новосибирск); Всероссийских конференциях «Математические методы распознавания образов» (ММРО-99, 2001, 2003, 2005, Москва); VI Международной конференции «Современные методы математического моделирования природных и антропогенных катастроф» (2001, Красноярск); Международной конференции «Искусственный интеллект» (2002, 2004, Алушта); Международной конференции «Информационные системы и технологии » (IST'2002, 2004, Минск); VII и VJII Международной научной конференции (PRIP-2003, 2005, Минск); Всероссийской конференции «Математические и информационные технологии в энергетике, экономике, экологии» (2003, Иркутск); научной немецко-российской школе-семинаре «Распознавание образов и изображений» (2003, АлтаЯ); Международной конференции «Knowledge-Dialogue-Solution» (KDS'2005, 2006 Bulgaria),
Связь с государственными программами. Работа выполнена в рамках проектов № 95-01-00930а, 98-01-00673, 01-01-00839, 04-01-00858, поддержанных РФФИ; Интеграционного проекта СО РАН №13.10 «Анализ и моделирование экстремальных гидрологических явлений».
Публикации. По теме диссертации автором опубликована 21 работа. Структура и объем работы. Диссертация объемом 155 страниц состоит из введения, четырех глав, заключения, списка литературы из 92 наименований.
Содержание работы Во введении обоснована актуальность темы диссертационной работы, сформулированы цель работы и задачи исследований, приведены основные положения, выносимые на защиту, дано краткое изложение по главам.
Первая глава является вводной и содержит краткий обзор существующих методов построения решающих функций (моделей) и способов определения их качества в задачах распознавания образов и регрессионного анализа. Рассматривается общая постановка задачи восстановления зависимости, для которой задачи распознавания образов и регрессионного анализа являются частными случаями.
Пусть объект а из генеральной совокупности Г описывается набором (системой) переменных (X},..„XH;Yt,...%Y„), которому соответствует набор значений (х,у) = в многомерной разнотипной области D = Dx х Dr , где
t>x множество допустимых значений . переменной XJt
Dr = П"е1 , Oyf - множество допустимых значений переменной Yj. Оба набора
переменных могут, быть произвольных типов (количественные, порядковые, номинальные), Пусть задано вероятностное пространство < ДВ,Я > , где Р ~ P[D] - вероятностная мера на борелевской а -алгебре В (такую меру будем обозначать через с и называть стратегией природы). Под решающей функцией/понимается соответствие между набором значений переменных (х^ и набором значений прогнозируемых (целевых) переменных (у}, у2 ), т.е. / : Dx —> p(Dy ), где р(Оу) - область значений функции. Качество решающей функции оценивается с
помощью функционала качества F (с, f). Если F {с, /* ) = inf F(c,f) (либо
/еФ
F(c,f*)*supF(c,f)), то /* - оптимальная решающая функция в' заданном классе.
/еФ
Обозначим через Ф* класс всех измеримых функций, тогда ФсФ'.
Прит™1, p(Dy ) =■» имеем задачу распознавания образов для номинального типа переменной ( Dr = {«>,,,...а»*}, ù>j - имя образа) и задачу восстановления зависимости (регрессионной функции) для непрерывного типа переменно Й(\£>г R ). Критерий качества решающей функции в этих случаях, как правило, определяется чер& функцию риска F(c, f) = R(c,f) я /£{/,y)dP[D] (ожидаемые Потеридля'ре'шаю-
щей функции J). Функция потерь L(f, у) задается в зависимости от типа 'перемекной (например, Ц/, у) - ^ в распознавании образов, L(f,y) = {y- /)2 в регрес-
сионком анализе) н от специфики прикладной задачи (например, матрицей потерь). Оптимальной решающей функцией распознавания в классе Ф* всех измеримых является байесовская решающая функция /д, для которой Р/ = inf R(c,/), врегресси-
/еФ*
окном анализе — функция регрессии /(*) =» ¡D ур(у/x)dy. В главе 3 для многомерного случая, m ¿ 1, рассматривается решающая функция прогнозирования области и вводится соответствующий критерий качества.
Заметим, что для оценивания качества решающей функции кроме риска может использоваться такое понятие как трудоемкость алгоритма вычисления решающей функции (время принятия решения для фиксированного объекта). Однако риск является наиболее важным, поэтому при определении качества именно он и рассматривается.
При анализе эмпирической информации, представленной выборкой v^ ограниченного объема N, методом Q строится выборочная решающая функция / = Q(vn) из класса Ф . Под методом будем понимать отображение Q : {vjy} —> Ф и сам способ его построения (алгоритм). Необходимо определить качество метода и исследовать его в зависимости от сложности стратегии природы, сложности класса решающих функций и объема обучающей выборки. Результаты исследований позволят судить о возможности применения (области применимости) метода (получения хороших решений) при анализе данных ограниченного объема.
На практике, как правило, стратегия природы неизвестна, поэтому принимаются предположения о виде распределения (ограничения на класс распределений Л ) либо о постулируемой модели (ограничения на класс решающих функций Ф ), либо о том и другом. Разнообразие сделанных предположений указывает на существование достаточно большого количества исследований, проводимых при изучении качества метода.
При заданной стратегии природы определим качество метода через ожидаемый
по выборкам функционал качества EKífF(c,/). Также может быть вычислена степень
неадекватности класса решающих функций к стратегии природы
j'(c)= inf F(c,f) — inf F(c,f), ФсФ° и степень отклонения от оптимального в /еФ /еФ*
классе K{c)*EVuF(c,f)~ inf F(e,/) для метода Q. Величину ir(c) можно рассмат-
" /еф
ривать как некоторую дополнительную меру качества метода. Исследование метода обучения сводится к нахождению функциональной зависимости Е^ F (с,/) от
сложности M ф класса решающих функций, в котором работает метод, и от объема обучающеЯ выборки, т.е. gt(c,M^,N) . Такой подход был применен Ш, IO. Раудисом, Г. С. Лбовым и др. к задаче распознавания образов, когда функционал качества определялся вероятностью ошибки.
Если на множестве Л всех стратегий природы задано распределение Р[Л], то качество метода определяется как усредненный по стратегиям природы и выборкам функционал качества ЕСЕyNF(c,f). Исследование качества метода обучения в данном варианте сводится к нахождению функциональной зависимости величины
-6-
^(с, /) от сложности Л/Л класса стратегий природы, сложности Мф класса решающих функций и объема обучающей выборки, т. е.
Если стратегия природы неизвестна, то о качестве метода построения решающих функций, вообще говоря, судить сложно, поскольку всегда найдется стратегия, при которой данным методом может быть получена плохая решающая функция.
Отдельный вопрос, который затрагивается в третьей главе, - оценивание качества решающей функции, построенной по фиксированной выборке при неизвестной стратегии природы. Для его решения в литературе существует хорошо известный подход Вапника-Червоненкиса, основанный на определении доверительной границы е отклонения риска от эмпирического риска Р{/) . Для получения аналитических оценок данным способом необходимо знание или возможность вычисления ёмкостной характеристики класса решающих функций, в котором строятся решения. Однако многие используемые на практике методы обладают бесконечной ёмкостью либо трудно вычислимой. В диссертационной работе для некоторых параметрических семейств стратегий природы эмпирически было оценено смещение эмпирического функционала качества е^(с) = Е^Р{с,/)-"Еу/[1Р{]')1 которое позволяет судить о
качестве решающей функции по значению эмпирического функционала.
Одновременно с определением качества метода возникают вопросы о том, как вводить ограничения на класс распределений, на класс решающих функций, как определять МЛ сложность класса стратегий и Мф сложность класса решающих функций, каков должен быть достаточный объем обучающего материала //для достижения заданного качества. Многие из этих вопросов остаются открытыми до сих пор.
В работе автором рассматриваются методы построения решающих функций из заданного класса, основанные на минимизации (максимизации) эмпирического функционала качества. Для построения решающих функций в разнотипном пространстве был использован класс логических решающих функции (ЛРФ), описание которого приводится в параграфе 5.
Во второй главе проведено исследование качества метода построения кусочно-постоянных регрессионных функции при заданном классе распределений в зависимости от сложности решающей функции и объема выборки. Предложен критерий обнаружения значимого подмножества (набора) переменных МНК-метода построения многомерной линейной регрессионной функции и проведено исследование его качества.
Как частный случай задачи, сформулированной в первой главе, рассматривается одномерная кусочно-постоянная регрессионная модель, л=1, от=1,
$>{Ог} = Ву =11. Сложность решающей функции определяется числом М' областей разбиения, сложность стратегии природы при фиксированном равномерном распределении внутри каждой подобласти — числом М подобластей постоянства.
По выборке пороговым методом (У(ум) строится кусочно-
постоянная решающая функция ? = /(*)*= где у4Ьг,
= к =1.....А/', т.е. / е Фм., = М'. Пороговый ме-
тод осуществляет расстановку выборочных границ Ък в случае преодоления элементами выборки некоторого порога Л., т.е. max . | у, - у, 2А.. При заданной
стратегии природы с = {р(х, у), р(л) е U[0,]],p(y/х е )) е U[s, -h,s, + /¡],
he Dr,s, e Dy, [b,,i,b,)ea,a e = 1,...,A/} сложности Л/д = M , где 4V -множество разбиений области Dx на М подобластей, t/fr],^) -. класс равномерных на отрезке [ > ] распределений, функционал качества выборочной решающей функции определяется через риск и равен -/(*))г
Наилучшим является решение, при котором данный критерий принимает минимальное значение.
Будем рассматривать метод Q(yN~) расстановки М' = М эмпирических границ 4 такой, что решение принимается в виде f(x)=$k (среднее значение в интервале), где Nt - число точек выборки попавших в интервал , ). С применением аппарата порядковых статистик получена: 1) нижняя оценка качества порогового метода Е^F(c,/)£SÍtí'\bt -(/fe +1(^)1+
з^дг^- (Af++ -jjj-)+, где ¡h - номер порядковой статистики в ранжированном ряде jf(l SJf^ <. x¡k ; 2) степень отклонения от оптимального решения в
классе k(c,N) =■ ЕVNF(c,f) ~^-; 3) для стратегий природы из класса
A'(AÍ) = {c|£* =ir-s' я JF& верхняя оценка
качества метода EVn F(c, /) 5 (1 + ^f-).
В качестве дополнительного результата найдена плотность распределения границ областей разбиения (утверждение 2.6).
В третьем параграфе рассматривается еще один частный случай задачи в общей постановке, когда m«1, $>(Dr)=* Dr, Dx =■ Dr =Н,Д/Ф =«,МЛ =(k,<j1), т.е. задача обнаружения значимого подмножества из к переменных в классической линейной многомерной регрессионной модели. Под сложностью решающей функции в данном случае рассматривается число наблюдаемых переменных (регрессоров). Модель в матричном виде: }' = & + £ — W(S + s = (Л', Z)(0, + е = = А +•*•+PkXi + A+i^t+i +.«+p„Z„ + e, где Y - прогнозируемая переменная, Xi - значимая переменная (¿-1,...,к), Z¡- незначимая переменная, т.е. О
..,,«), е - шум ( р(с) е //(0,/сг2) ). Значимый и незначимый наборы переменных становятся практически неразличимы при принятии решения по выборкам малого объема (например, < 10) в случае сильной зашумленности (уровень шума определяется его дисперсией). Для этой модели функция риска в : точке .....z„) определяется как среднеквадратичная ошибка прогноза, т.е.
^.■Л-ЕЦУ.П-Ч^-ЧП)*]. где /(«,) = К«Д + д-мнк-
оценка параметра Д . Показано, что р(с, /)"Ь[Ур] + - в)1, где $р = Е[Ур],р-
количество параметров, оцениваемых на подмодели (линейная регрессионная функция от р переменных, р<")- На полной модели (от п переменных) индекс р опушен. Второе слагаемое указывает на степень неадекватности выбранной модели по отношению к истинной в. Величина ошибки прогноза при исключении из модели значимого набора по отношению к величине ошибки на полном наборе переменных изменяется значительно больше, чем при исключении незначимого набора. Эта идея используется в критерии. Для известной дисперсии шума <т2 критерий представляется отношением
ЕЦУ ,УУБ1{гк,У) ^(^(^"'«"А^ау'*)
Если (Ху, £1, то набор из к переменных, предполагаемый значимым, на самом деле не является полным набором значимых переменных (либо обрабатываемые данные обладают недостаточной информацией). Бели > 1, то набор из к переменных, предполагаемый значимым, действительно таковым является, В случае неизвестного распределения для построения выборочной оценки введенного критерия предлагается
использовать статистику Маллоуса: Цу, = —А = !г - = —~±|—- , где
С, -статистика Маллоуса на модели от I параметров, и, = I + , и2 = 1 + -¡¡Т^} • - остаточная сумма квадратов на модели из р переменных.
На модельных примерах показана эффективность предложенного метода обнаружения истинного подмножества значимых переменных. С этой целью было проведено моделирование ста выборок фиксированного объема N=10, 20, 50, 70. ¡00 при заданном уровне шума сг и заданном числе к значимых переменных, определяющих стратегию природы.
В третьей главе приводится постановка задачи прогнозирования системы разнотипных переменных (ПСРП), разработан способ оценивания качества метода ПСРП, который включает задание класса стратегий природы и функционала качества решающих функций. Предложен метод ПСРП в классе логических решающих функций, основанный на предложенном эмпирическом критерии, и представлены результаты исследования зависимости его качества от сложности стратегии природы, сложности класса решающих функций и объема выборки. Прогнозирование осуществляется в классе функций, значения которых представимы областями в многомерном разнотипном пространстве переменных. Отмечается, что задачи распознавания образов и регресснойного анализа являются частными случаями предложенной постановки.
Пусть определено вероятностное пространство < В,В,Р > , где О — Вх х Ог, (НтОд- =п, <Ит£>)/ = т , В-борелевскаяст -алгебра на £>, Р[В\- вероятностная мера на В (будем обозначать через с). На разнотипном {номинально-вещественном) пространстве О = Д, х £>в определим меру ц так, что для любого Ее В,
£ = р(Е) = 1 где Е„ - проекция множества £ на простран-
ство номинальных переменных D„, z-1 • элемент Еи, £/ - соответствующая элементу 2-* область в Dt, ft(Ej) - лебегова мера множества Е# , Для любого подмножества подпространств Dx либо Dr мера fi задается аналогичным образом. Пусть Ф* ■={/: Dx —> fp{Dr ), piPY ) = } - класс функций с областью определения Dx и со значениями, представленными в виде произвольных множеств Еу s Dr (будем
обозначать / (*) » Еу ). Ф° такой, что существует функционал F (с, f), Eylx)-ft{Ey))dPix), где Р(у ч Еу!х) - вероятность события {jî^jEj,} при фиксированном х (в дальнейшем обозначается Р(Еу /х) ), p(Dy ) -множество всех подмножеств области Dy .
Задача прогнозирования системы разнотипных переменных (ПСРП) состоит в том, чтобы для произвольного объекта а из генеральной совокупности Г по известным значениям переменных Х],Хц—,Хц из области Dx предсказать некоторое множество Еу значений системы целевых (прогнозируемых) переменных У1,У2,...,Ут из области Dy . Для предсказания необходимо построить такую решающую функцию / из заданного класса Ф с Ф*. что /* =argmax/ïei F{c,f),
Утверждение 3.1. Для произвольной стратегии природы с функционал качества F(c,f) представим через функцию риска как
1 - R(c, f)= \ Kl - Цу,/W))î>(*.y)dxdy с потерями вида L(y,f) = ■
Ряд свойств данного критерия формулируется в виде утверждений и следствий.
Утверждение 3.2. При распознавании к образов решающей функцией f
F (с, f) » ^ - Pj , Pf - вероятность ошибки распознавания.
Утверждение 3.3, Б регрессионном анализе оптимальная решающая функция /„ arg m ах F(c,/) , /, = Еу = + â2], E(j»/j) - оптимальная рег-
/сФ
рессионная функция, доставляющая минимум функции риска, S\ е Dy , Si € Dy .
Предлагается рассматривать решение задачи ПСРП в классе логических решающих функций Фм . Для задачи ПСРП класс ЛРФ определяется следующим образом: Фм ={/еФ.|/~<а:,)-(я)>(«ЕЧ'^,г(сг)еД|1/} (знак ' обозначает соответствие паре < а, г (а) > символьного знака функции/), где Ч*^-множество всевозможных разбиений a = {E)c,...iE%\Е'Х E'Xj z DXj,t = UT,[JE'x = Dx) области на M непересекающихся областей, - множество всевозможных решений г(а) = {Еу.....Е^ |Еу е,/ = 1,А/), -множество всевозможных т-
мерных интервалов. Сложность класса ЛРФ определяется параметром M в случае одновариакгного предсказания (решение представляется в форме: если х е Е'х, то
ysE^,). Мф = M , и набором в случае многовариантного предсказания,
когда = Ufí] Еу , 1 = 1,...,А/ и Е?уг\Е^ =0 для (решение представляется в форме: если jf е Е?х , то у е v Е^ v... v ). В работе рассматривается случай Мф = M .
Утверждение 3.4. Если / е Фм , то F {с, /) = p'x(p'yix где
Следующее утверждение показывает свойство универсальности класса ЛРФ и возможность его применения без ограничения общности на вид решающих функций.
Утверждение 3.5. Для любой функции / е Ф® и е > 0 существует M и некоторая ЛРФ fM s Фм такая, что | F(c,/) - F(c,fM > £ в .
Определение 3.1. Будем говорить, что стратегия природы с принадлежит классу Le (А/), если существует / е Фм такая, что | F (с,/) - F (с, fa)lS е для некоторого малого s . Стратегия природы с имеет сложность М.
Определение 3.2. Определим стратегию природы см следующим образом:
СМ = <р'(*.У)- РхРу)X = Л*« VO-« / *« Ejf ),Í- и
О SÍÍiPÍ - 1 ; 2) PíE'y /Е'х) = , 3) Р(Е1У !Е'х) = \-р\,х , где Е^еа,
Еу ег(а), <а,г(а)>еФм, 4) V Ах <¿E'X Р(Ах)~р',^± и V АУ^Е'Г Р(Ау / Ех) = />', Будем говорить, что данная стратегия порождается функцией из класса Фм . Замечание: Стратегия см, порожденная функцией из класса Фм, принадлежит классу Le(M),
Утверждение 3.6. Для произвольной / бФ^- сложиости КС при фиксированной стратегии сИ е LC(M) сложности M выполняется
F(cM, /) = F(a) = Zp'Îp' = SPr (p'yn -ß'y), где / -< S, r(a) >, i1»!
« = .....Êx,...,Ê% ), ~см порождается /-<a,r(a)>, а = },
i M , mèÇ^ u < /V* " тг ¿-Pi-,г< . Pylx —77ГТ— + ^ Pyi*>-:—П7Т- *
Pi (-1 МЁД-) V М4> 1"Л(£}.) )
Замечание. Бели стратегия такова, что для некоторого t множество Еу совпала-
ет со всей областью Dr,то = ¿ .
рх r=l p(£xi м(£у)
Следствие 3.6.1. Для /еФм. Р(Ёу 1Ё'х)"\-р'у1х .
Следствие 3.6.2. Если М-1 » Еу = Dy, то F(c,,/)«0.
Следствие 3.6.3. Если / е Ф^. и стратегия С] порождается /, для которой £}■ ~Dy, то F(c|,/) = 0.
Следствие 3.6.4. Если / е Ф| и Еу « Oy , то F(c¡^,/) = О для Л/ ä I.
Утверждение 3.7. Для произвольной стратегии cMeLs(M) (порожденной /, б Ф^ ) сложности М и решающей функции / £ Фд^ точность приближения функционала качества оценивается по формуле: |F(c,/.)-F(c,/)|£|F(c,/.)| Дм,
где Аи^^Е'Б^^ + МЁ'Е^^^тя), £* = /.(*). £3=/(х) при некотором фиксированном значении jr € .Djf .
Утверждение 3.8. Пусть стратегия природы c¡, распознавания к образов порождена функцией /* такой, что f'(x) = Ey при д: е Е'х,тогда вероятность ошибки распознавания правилом / таким, что /(*) = co¡, о», е Е^,, при , есть величина
Следствие 3.8.1. + .
Утверждение 3.9. Множество всевозможных стратегий можно упорядочить по сложности, т.е. ¿i (1) с L , (2) сс I, (í) е.. с (W) с... с ¿', причем
rj+1 St*, где А/ц,) = í - сложность класса стратегий природы, т" - допустимый уровень ошибки класса ¿(j) .
Предлагаемый метод ö(v«) построения выборочной решающей функции / основывается на максимизации эмпирического функционала качества
W-Iffi №„-Д;>,где р'.^Ш^. Vy=HÍ¿y), íV('*') - число выборочных точек, попавших или образующих соответствующую область /~<а,г(а)>, а = (Ё\.....r{a) = е Наилучшей выборочной решающей функцией является функция j " arg шах max F(f), Для решения данной экстремальной задачи применяется
алгоритм MLRP последовательного увеличения ветвей дерева. Производится разветвление той вершины построенного дерева, для которой происходит максимальное увеличение значения критерия F(J"), до тех пор пока вершина является делимой либо F(/)ä F*. Вершина дерева является неделимой, если I) число конечных. вершин М' =* М' либо 2) N' £ N*. Критерий и параметры F", A/*, N' определяют метод построения выборочной решающей функции.
Для оценивания качества предложенного метода ПСРП было проведено статистическое моделирование. Оценивалось математическое ожидание функционала качества: тр(с) « EV/JF(c,f) при фиксированной стратегии природы. Кроме того, с целью оценивания качества решения эмпирическим способом было исследовано смещение усредненного эмпирического функционала качества при фиксированной стратегии природы: (с) •» Ej,w/Чс,/) - F(/) и максимальное смещение математического ожидания эмпирического функционала качества при фиксированном значении
эмпирического функционала: e'N(c)= sup eN(c) для некоторых параметрических
е
классов стратегий природы. Исследования проводились при фиксированной стратегии природы сложности М , сложности М' решающих функций, построенных алгоритмом MLRP по выборке объема N. Параметры п, т (размерности областей Dx и Dr ) и количество переменных определенного типа рассматривались в постановке задачи в целом и определяли сложность стратегии природы и решающей функции. Для моделирования параметров стратегий природы был разработан алгоритм GenMLRP. Генерирование стратегий природы осуществлялось в соответствии с введенным определением 3.2, где параметры задаются случайно в фиксированном диапазоне. При параметрах, определяющих равномерное распределение на всей области Dy, значения функционала качества отражены в доказанных следствиях (следствие 3.6.2, 3.6.3, 3.6.4).
Результаты проведенных исследований в диссертации представлены в таблицах и графиках. Продемонстрируем некоторые из них. Например, для задачи прогнозирования т (т-1,2,3,4,5) непрерывных (Ott) переменных по одной непрерывной
переменной и стратегии природы, заданной параметрами М=\, min/<(£i,) = 1,
Ру/ж = I, математическим моделированием получены зависимости £ц(с) от размерности пространства прогнозируемых переменных и сложности решающей функции АГ'=1,2,3,4,5 приЛ^О(рис. I).
Рис. 2. Зависимость (с) от сложности класса ре-рис, 1, Зависимость от размерности т при Иш20,. шаюшкх функций гтрн 1.
0.5 0.4 0.3 0.2 0,1 в
0.3
0.6
Рис. 3. Зависимость е^ (с) от
На рис. 2 приводится график зависимости величины еи(с) от сложности класса решающих функций М' для объемов выборки 20 и 50 при м-=1.
В следующем примере для непрерывного случая задачи прогнозирования одной переменной рассматриваются различные по параметрам м(Еу) и Ру/х стратегии
природы сложности №1. На графике (рис, 3) каждой точке соответствует значение оценки смещения еи(с) при фиксированном значении эмпирического функционала качества решающих функций. Рассматривались сложности М' = 1,2,3,4,5 и объем выборки равный 20, Полученные результаты дают возможность по значению эмпирического функционала качества предварительно оценить максимальное смещение (с). Результаты моделирования, приведенные в работе, демонстрируют на сколько и как изменяются исследуемые величины £ц{с), >"р(е) в зависимости от парамет-
ров М, М', т . Половина длины 95-ти процентного доверительного интервала для оцениваемых параметров имеет следующий порядок: 0.024 при 0.011 при ЛГ=20; 0.008 при Л^-50.
В §8 рассматривается дополнительная процедура учета эффекта влияния типа переменной на качество прогноза. Отметим, что предложенному критерию качества может удовлетворять не одна, а несколько подобластей с одинаковым значением меры /г' и с одинаковым числом точек Ы', образующих данную подобласть, но с различным (упорядоченным или неупорядоченным) набором значений переменных. Процедура предпочтения одной области другой заключается в том, что менее вероятная подобласть в предположении равномерного распределения на всей области £>у в большей степени претендует на "закономерность". Получено аналитическое и алгоритмическое представление вероятностей Р(ЕуУ в зависимости от типа переменной, меры подобласти и объема выборки, образовавшей её. На следующем графике представлены результаты различия этик вероятностей.
По оси ординат представлена сумма по всевозможным мерам абсолютной разности вероятностей образования "оболочек" для неупорядоченной и упорядоченной переменной
лр-тиъ&'ммч-ым'.ьн'х,
//=(/,£; по оси абсцисс - отношение
числа значений, принимаемых переменной, к числу точек, образующих подобласть
N-15 - - — -
1ч/
Рис. 4. Зависимость от -
фиксированной меры. Результаты (рис. 4) показывают, что при достаточно больших значениях N' и заданном Lj (уже при ~ <0.6) эта разница незначительна и близка
к нулю. При сравнимых значениях Lj и jV' или малых N' различие существенно.
Четвертая глава посвящена демонстрации решения прикладных задач из области медицины и гидрологии, раскрывается их актуальность,
В первом параграфе рассматривается задача, поставленная научными сотрудниками института клинической и экспериментальной медицины, которая состоит в определении возможности применения унифицированного метода «рискометрии» в анализе взаимосвязи вероятности патологии с гелиогеофизическими характеристиками среды в пренатальный период жизни человека. На основе компьютерной базы исследовательских данных была сформирована выборка лиц обоего пола в количестве 1556 человек в возрасте от 19 до 67 лет, у которых был определен риск по каждому из 11 патологических синдромов. На каждого вошедшего в указанную выборку, с помощью компьютерной программы «Cosmic - V.01», была получена информация о гелио-геофизической обстановке усредненно на каждую из 40 недель, предшествующих дате рождения. В классе логических решающих функций выявлены логические закономерности взаимосвязи между величинами показателей солнечной активности, обобщенной характеристики напряженности магнитного поля Земли на различных сроках пренатального развития и уровнями риска
патологических синдромов на момент исследования.
Целевыми данными явились признаки, представляющие собой количественный
показатель вероятности риска патологических синдромов: АГ-артериальная гипертония, ИБС-болезнь сердца, ЖКТ-нарушение деятельности
органов желудочно-кишечного тракта, ПЕЧ- печени, ЛЕГ-органов дыхания, ЭНД-эндокринной системы, ИММ-иммунной системы, РЕН-почек, НРВ- неврологических, заболеваний, ПСИ-психнческие, полученные с помощью математической программы АСКОРС в лаборатории клинической физиологии ИКЭМ. Для каждого синдрома полученные закономерности (порядка 14) объединяются в дерево решений, которое легко интерпретируется на языке близком к обычному языку высказываний. На рис. 5 приведено дерево решений для ИБС величины риска синдрома в группах, характеризующихся годом рождения (Гр) и различной величиной солнечной активности (Оисп) и геомагнитной индукции (Игв). Качество решения было оценено вероятностью ошибки на контроле и равнялось 0.3, что являлось вполне удовлетворительным результатом.
с.м
о.зв
Рис, 5. Дерево решений для ИБС
Во втором параграфе рассматривается решение задачи прогнозирования водосбора воды, проходящей через русло реки Обь, среднемесячной температуры и осадков по данным метеорологических наблюдений в контрольной точке за 86 легг (с 1913 по 2000 год). Были обработаны данные ежемесячных замеров за ноябрь, декабрь, январь и апрель месяцы в контрольной точке г. Колпашево с целью построения решающего правила предсказания трех переменных в апреле по трем переменным за три месяца (ноябрь, декабрь, январь). Решающая функция прогноза была построена по обучающей выборке объема 76. Оценка критерия качества (оценка вероятности принятия верного решения по правилу /) получена по контрольной выборке объема 10 (последние десять лет) и равна 0.8, что является вполне удовлетворительным результатом. При последовательном построении дерева решений были выделены четыре значимых признака из девяти, по которым и было проведено разбиение. В соответствии с построенным правилом оказалось, что наибольшее влияние на качество прогноза оказывают среднемесячная температура в ноябре (Х1) и январе (ХЗ), осадки в ноябре (Х4) и водосбор в ноябре (Х7).
Основные результаты работы состоят в следующем: ]. Разработан способ оценивания качества метода прогнозирования системы разнотипных переменных (ПСРП).
2. Предложен метод построения логико-вероятностной модели прогнозирования системы разнотипных переменных, основанный на предложенном критерии качества.
3. Получены зависимости, позволяющие определить влияние типа переменной {с упорядоченным и неупорядоченным набором значений) на качество решения при ПСРП в условиях малой выборки.
4. Проведены исследования зависимости качества метода ПСРП от сложности распределения, сложности класса решающих функций и объема выборки.
5. Для порогового метода построения кусочно-постоянных решающих функций (одномерный случай) при заданном классе распределений получена нижняя оценка его качества в зависимости от сложности класса решающих функций (число областей разбиения) и объема выборки.
6. Предложен критерий обнаружения значимого подмножества переменных МНК-метода построения линейной регрессионной функции.
7. На модельных примерах и прикладных задачах продемонстрирована эффективность предложенных методов.
ПУБЛИКАЦИИ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ
1. Ступина Т.А. О соотношении прозрачности воды it концентрации фитопланктона в Байкале.// Сб. статей «математические проблемы экологии», Новосибирск, 1994 — с. 125-128.
2. G.S. Lbov, Т.Д. Stupina. Некоторые вопросы устойчивости выборочных решающих функций.// Pattern Recognition and Image Analysis. Vol 9.N3,1999-pp. 408-4)5.
3. ' Лбов Г.С., Ступина Т.А. О статистической устойчивости решающих функций в задачах распознавания И регрессионного анализ ai/ ДАН, 1999, том 368, N1, - с. 31-34,
«4.V Ступина TIA, Задача предсказания многомерной переменной.//Доклады IX Всероссийской - конференции «Математические метода распознавания образов». РАН ВЦ, 1999-е. 67-69. ■ Д.-. В.р. ¡Казначеев, Я.В. Поляков, A.B. Трофимов, Г.С. Лбов, Т.А. Ступина и др. Геяиогеофиэи-чеекие факторы среды при пренатальном развитии в вероятностей модели прогноза здоровья человека.//Весник МНИКА, выпуск N6,1999, Н-ск. - с. 37-43.
6. O.S. Lbov, Т.А. Stupina. The influence of type of objective variabe on quality of prediction.// Proceedings of the Sixth International Conference, Minsk, 2001 -pp. 250-253,
7. Лбов Г С., Ступина Т.А. О критерии качества решающей функции предсказания многомерной переменнойV/ Доклады X Всероссийской конференции ММРО, Москва 2001 — с. 138-141.
8. Ступина Т.Д. О критерии значимости переменных в линейном регрессионном анализе в условиях малых выборок.// VI Международная конференция «Современные методы математического моделирования природных и антропогенных катастроф», Красноярск 2001 - с. 270-274.
9. Лбов Г.С., Ступина Т.А. О критерия качества решающей функции при прогнозировании многомерной переменной.// Таврический вестник информатики и математики. Изд-во НАН Украины, 2002 - с. 172-179.
10. Лбов Г.С., Ступина Т.А. Построение функции прогноза в многомерном разнотипном пространстве.// Труды I международной конференции «Информационные системы н технологии (IST2002)». Минск, 2002 - с. 253-254,
11. G.S. Lbov, Т-А. Stupina. То question Of statistical stability of sampling decision function of prediction multidimensional variable.// Proceeding of the seven international conference, (РЮР'2003), Minsk, Vol 2.-е. 57-61.
12. Лбов Г.С., Ступина Т.А, Полякова Г.Л. Метод обнаружения закономерностей для прогнозирования многомерной разнотипной переменной,// Труды Всероссийской конференции «Математические и информационные технологии в энергетике, экономике, экологии», Иркутск, 2003 -с, 199-203,
13. G.S. Lbov, Т.А. Stupina, V.B. Berikov, A. A, Vikent'ev, On statistical stability of sample decision function in pattern recognition and prediction,//The 6-th genman-russion workshop "Pattern recognition aid Image Understanding", Altai, 2003 - pp. 46-49.
14. Лбов Г.С., Ступина Т.А. Исследование зависимости критерия качества прогнозирования многомерной переменной от объема выборки н сложности решающей функции У/ Труды XI Всероссийской конференции ММРО-ОЗ. Москва, 2003 - с. 127-129.
15. G.S. Lbov, Т.А. Stupina. Statistical Stability of Sampling Decision Functions in Recognition and Prediction Problems.// "Pattern Recognition and Image Analysis", Vol. 14, No 2'2004 - pp. 231-236.
16. Г.С. Лбов, Т.А. Ступина. Исследование эффективности метода прогнозирования многомерной переменной.// Таврический вестник информатики и математики. Изд-во НАН Украины 2004, № 1-е, 117-122,
17. Т.А. Stupina The Properties of Risk Function In Heterogeneous Multivariate Prediction.// Proceeding of the S international conference, (PRIP'2005), Minsk, Vol t - pp. 80-83.
18. Лбов Г.С., Бериков В.Б., Герасимов M.A., Ступина Т.А. Анализ многомерных разнотипных временных рядов для прогнозирования экстремальных гидрологических ситуаций.// II-Международная конференция «Фундаментальные проблемы изучения и использования воды и водных ресурсов», Иркутск, 2005 - с. 235-236.
19. Ступина Т.А. Оценка смещения функционала качества в задаче прогнозирования многомерной разнотипной переменной.// Доклады Всероссийской конференции "Математические методы распознавания образов (ММРО-12)", Москва, 20-26 ноября 2005 - с. 209-212.
20. G.S. Lbov, Т.А. Stupina. Application of the multivariate prediction method to time series.// International Journal ГГНЕА, Vol 13, No 3'2006-pp. 278-285.
21. T.A. Stupina Recognition of the Heterogeneous Multivariate Variable.// Proceeding of the international conference, 2006 (KDS'2006), Varna (Bulgaria), Vol 1 - pp. 199-202.
Ступина Татьяна Александровна
ПОСТРОЕНИЕ ЛОГИКО-ВЕРОЯТНОСТНОЙ МОДЕЛИ ПРОГНОЗИРОВАНИЯ СИСТЕМЫ РАЗНОТИПНЫХ ПЕРЕМЕННЫХ
Автореферат диссертации на соискание ученой степени кандидата физико-математических наук
Подписано в печать 04.10.2006 Формат 60*84 1/16.
Усл. печ. л. 1,0 Уч.-изд. л. 1,0 Печать офсетная.
Тираж 100 экз. Заказ № 112
Отпечатано в ООО «Омега Принт» 630090, Новосибирск, пр. Лаврентьева, 6
Оглавление автор диссертации — кандидата физико-математических наук Ступина, Татьяна Александровна
Введение.
Глава 1. Методы построения решающих функций и способы оценивания их качества
1.1 Описание проблемы.
1.2 Введение основных понятий.
1.3 Подходы к оцениванию качества решающих функций и качества методов их построения в задачах распознавания образов и регрессионного анализа.
1.4 Обзор методов решения задач распознавания и регрессионного анализа.
1.5 Методы построения решений в классе логических решающих функций
1.5.1 Класс логических решающих функций (ЛРФ).
1.5.2 Алгоритмы распознавания и построения регрессионной функции в классе ЛРФ.
Глава 2. Оценивание качества методов построения решающих функций в некоторых задачах регрессионного анализа
2.1 Постан овка задачи.
2.2 Оценивание качества порогового метода построения кусочно-постоянных решающих функций в одномерном случае.
2.3 Обнаружение значимого подмножества переменных мнк-метода построения линейной регрессионной функции.
2.4 Метод выбора значимых переменных в ЛРА, основанный на методе случайного поиска с адаптацией.
Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Ступина, Татьяна Александровна
Актуальность темы. Одним из важных направлений в области информатики является решение задач построения решающих функций на основе анализа эмпирической информации, заданной в виде таблиц данных, временных рядов и экспертных знаний. Хорошо известны такие задачи как распознавание образов и задачи регрессионного анализа. Методы построения решающих функций с успехом применяются в различных научных исследованиях при решении задач в таких областях, как экология, медицина, социология, археология и т.д. К настоящему времени разработано большое количество методов построения решающих функций, основанных на различных идеях, гипотезах и принципах, но тем не менее работы в данном направлении остаются актуальными. Появляется большое число исследований, использующих нейросети (Anil К. Jain, S. Raudys, А.Н. Горбань и др.), коллективы решающих функций (Ю.И. Журавлев, В.Д. Мазуров, Н.Г. Загоруйко,
A.В. Лапко и др.), логические решающие функции (А.В. Тимофеев,
B.И. Донской, R S Michalski, Leo Breiman, Г.С. Лбов и др.), экспертные знания при анализе временных рядов (В.Б Головченко). Однако существующие подходы и методы построения решающих функций в задачах анализа многомерной эмпирической информации ориентированы в основном на случай одной целевой переменной (например, задача распознавания образов, регрессионного анализа). Случай одновременного прогнозирования нескольких переменных рассматривался, например, для количественных переменных в задачах многооткликовой регрессии (N.R. Draper, W.G. Hunter, M.J. Box,
C.A. Айвазян). Кроме того, существует большое число работ [79,84] в области многомерного статистического анализа, посвященных изучению статистических связей между двумя совокупностями случайных величин. Однако в этом случае, во-первых, не ставится вопрос о прогнозировании и, во-вторых, обе совокупности переменных включают в себя только количественные переменные. Таким образом, задача построения моделей прогнозирования системы разнотипных переменных является актуальной.
При решении задач анализа данных важной в теоретическом и практическом плане является проблема оценивания качества метода построения решающих функций, суть которой заключается в том, чтобы найти взаимосвязь между качеством метода, сложностью распределения, сложностью используемого класса решающих функций и объемом обучающей выборки. В работах данного направления понятие сложности распределения, сложности класса решающих функций формализуется по-разному. Под сложностью распределения может пониматься равенство или неравенство матриц кова-риации для разных классов при нормальном законе распределения, гладкость функций распределения в непараметрических методах, независимость, зависимость между двумя, тремя и т.д. бинарными переменными в ряде Бахадура и т.д. Под сложностью класса решающих функций может пониматься ёмкостная характеристика класса (VC-ёмкость), степень полинома восстанавливаемой зависимости или размерность пространства при фиксированной степени полинома, в классе логических решающих функций - число конечных вершин дерева решений и т.д.
Исследования, проводимые в данном направлении, дают возможность строить наилучшую решающую функцию (модель) предлагаемым методом при ограниченном объеме обучающей выборки с учетом сложности распределения, сложности класса решающих функций. Основные результаты решения этой проблемы получены в области построения решающих функций распознавания. Известными работами в данном направлении являются работы В.Н. Вапника, А .Я. Червоненкиса, Ш.Ю. Раудиса. Этой проблеме посвящен и ряд работ в институте математики СО РАН (Г.С. Лбов, Н.Г. Старцева, В.Б. Бериков, В.М. Неделько). Подход В.Н. Вапника, А .Я. Червоненкиса основан на принципе равномерной сходимости частот к вероятностям. Дж. Хьюджом, А.А. Боровковым, Ш.Ю. Раудисом был использован байесовский подход. Из теоретических исследований следует, что чем более сложные модели используются для построения решений, чем больше переменных и меньше число наблюдений (объем выборки), тем больше вероятность получения «плохого» решения - решения сильно отличающегося от оптимального. Так, например, может оказаться, что квадратичная решающая функция распознавания будет хуже, чем линейная, либо линейная функция, заданная на всем множестве переменных, будет хуже линейной функции, заданной на некотором их подмножестве.
Необходимость прогнозирования системы разнотипных переменных и исследование качества метода построения таких моделей обуславливается существованием достаточно широкого круга прикладных задач. В качестве примера можно привести задачу выявления взаимосвязи между характеристиками экологической обстановки и характеристиками здоровья населения региона, в которой необходимо по характеристикам экологической ситуации предсказать набор (систему) характеристик здоровья населения. В подобного рода задачах, как правило, переменные разнотипные, что значительно усложняет построение решающих функций. Указанную особенность (разнотипность) необходимо учитывать при разработке новых методов прогнозирования. Как показывают теоретические и экспериментальные исследования [60], наиболее подходящим классом функций для анализа разнотипной эмпирической информации является класс логических решающих функций, который и стал основным средством исследований, проводимых автором.
Цель работы заключается в разработке и исследовании качества метода построения логико-вероятностной модели прогнозирования системы разнотипных переменных, в частности, исследование методов построения кусочно-линейных регрессионных функций.
Методы исследований. В работе используется аппарат теории вероятностей, математической статистики, теории статистических решений, линейного регрессионного анализа, распознавания образов.
Научная новизна. В работе впервые получены следующие результаты: • разработан способ оценивания качества метода прогнозирования системы разнотипных переменных (ПСРГТ);
• предложен метод прогнозирования системы разнотипных переменных в классе логических решающих функций;
• получены зависимости, позволяющие определить влияние типа переменной (с упорядоченным и неупорядоченным набором значений) на качество решения при ПСРП в условиях малой выборки;
• получены зависимости качества метода ПСРП от сложности распределения, сложности класса решающих функций и объема выборки;
• для порогового метода построения кусочно-постоянных решающих функций (одномерный случай) при заданном классе распределений получена нижняя оценка его качества в зависимости от сложности класса решающих функций (число областей разбиения) и объема выборки;
• предложен критерий обнаружения значимого подмножества переменных МНК-метода построения линейной регрессионной функции. Практическая ценность результатов работы.
Теоретические исследования и методы, предложенные в данной работе, позволяют решать прикладные задачи выбора значимого подмножества переменных в линейном регрессионном анализе, задачи прогнозирования системы разнотипных переменных, что существенно расширяет круг прикладных задач анализа данных, анализа многомерных временных рядов. Результаты были использованы при решении прикладных задач из области медицины и экологии. Программная реализация разработанных методов является эффективным инструментом в статистической обработке данных и может быть применена в научно-исследовательских работах в области медицины, экологии, гидрологии и других естественнонаучных областях. На защиту выносятся:
Разработка способа оценивания качества метода прогнозирования системы разнотипных переменных.
Метод построения логико-вероятностной модели прогнозирования системы разнотипных переменных, основанный на предложенном критерии, с учетом влияния разнотипности пространства.
Результаты анализа зависимости качества метода ПСРП от сложности распределения, сложности решающих функций, объема выборки.
Результаты оценивания качества порогового метода построения кусочно-постоянных функций в зависимости от сложности класса решающих функций и объема выборки при известном классе распределений.
Критерий обнаружения значимого подмножества переменных МНК-метода построения линейной регрессионной функции.
Апробация работы. Основные положения работы докладывались и обсуждались на Конгрессе по индустриальной и прикладной математике (ИН-ПРИМ-98, Новосибирск); Всероссийских конференциях «Математические методы распознавания образов» (ММРО-99, 2001, 2003, 2005, Москва); VI Международной конференции «Современные методы математического моделирования природных и антропогенных катастроф» (2001, Красноярск); Международной конференции «Искусственный интеллект» (2002, 2004. Алушта); Международной конференции «Информационные системы и технологии » (IST2002, 2004, Минск); VII и VIII Международной научной конференции (PRIP-2003, 2005, Минск); Всероссийской конференции «Математические и информационные технологии в энергетике, экономике, экологии» (2003, Иркутск); научной немецко-российской школе-семинаре «Распознавание образов и изображений» (2003, Алтай); Международной конференции «Knowledge-Dialogue-Solution» (KDS'2005, 2006, Bulgaria).
Связь с государственными программами. Работа выполнена в рамках проектов № 98-01-00673, 01-01-00839, 04-01-00858 поддержанных РФФИ; Интеграционного проекта СО РАН №13.10 «Анализ и моделирование экстремальных гидрологических явлений».
Публикации. По теме диссертации автором опубликована 21 работа.
Структура и объем работы. Диссертация объемом 155 страниц состоит из введения, четырех глав, заключения, списка литературы из 92 наименований.
Заключение диссертация на тему "Построение логико-вероятностной модели прогнозирования системы разнотипных переменных"
Основные результаты диссертационной работы состоят в следующем:
1. Разработан способ оценивания качества метода прогнозирования системы разнотипных переменных (ПСРП), который включает определение класса стратегий природы и функционала качества решающей функции из заданного класса. Качество метода определялось через математическое ожидание функционала качества по выборкам фиксированного объема. Доказано свойство универсальности класса логической решающей функцией в смысле предложенного критерия при решении рассматриваемой задачи.
2. Предложен MLRP-метод прогнозирования системы разнотипных переменных в классе логических решающих функций (метод построения логико-вероятностной модели), основанный на предложенном критерии качества.
3. Получены зависимости, позволяющие определить влияние типа переменной (с упорядоченным и неупорядоченным набором значений) на качество решения при ПСРП в условиях малой выборки.
4. Проведены исследования зависимости качества предложенного метода ПСРП от сложности распределения, сложности класса решающих функций и объема выборки. Разработан GenLRP-алгоритм генерации стратегии природы с заданными параметрами. Результаты численного моделирования представлены таблично и графически.
5. Для порогового метода построения кусочно-постоянных решающих функций (одномерный случай) при заданном классе распределений получена нижняя оценка его качества в зависимости от сложности класса решающих функций (число областей разбиения) и объема выборки.
6. Предложен критерий обнаружения значимого подмножества переменных МНК-метода построения линейной регрессионной функции.
7. На модельных примерах и прикладных задачах продемонстрирована эффективность предложенных методов. Были рассмотрены три прикладные задачи из области экологии, медицины и гидрологии.
Результаты являются новыми в области анализа многомерной разнотипной информации и несут вклад как в развитие теории, так и в развитие алгоритмической базы компьютерных систем обработки разнотипных данных.
ЗАКЛЮЧЕНИЕ
Библиография Ступина, Татьяна Александровна, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Barlach F. A linear classifier design approach.// Pattern Recognition, 1991, Vol 24, No.9, pp.871-877.
2. Berikov V.B. A priori estimates of recognition quality for discrete features. Pattern Recognition and Image Analysis, 2002, Vol. 12, N 3, pp.235-242.
3. Berikov V.B. An approach to the evaluation of the performance of a discrete classifier.// Pattern Recognition Letters, 2002, No 23, pp.227-233.
4. Breiman L., Friedman J., Olshen R., Stone C. Classification and Regression Trees.// Wadsworth International, California, 1984.
5. Chou P. Optimal partitioning for classification and regression trees.// IEEE Trans. Pattern Anal, and Mach. Intell., 1991, Vol.13, No.4, pp.340-354.
6. Fix E., Hodger I.L. Discriminatory analysis, nonparametric discrimination.// USAF Shool of aviation medicine, Randolph field, Tex., Project 21-49-004. Rept.4, Contract AF4-1 (128) 31, 1951.
7. Greene W.H. Econometric Analysis, 3rd edition, Prentice-Hall.
8. Hyghes G.F. On the mean accuracy of statistical pattern recognizers.// IEEE Trans. Inform theory, 1968, Vol. IT-14, N.l, pp.55-63.
9. J. Ross Quinlan. C4.5: Programs for Machine learning. Morgan Kaufmann Publishers 1993.
10. Kheri S., Batarekh P. A binary decision algorithm.// Inf. Sci. (USA), 1991, 53, №3, pp.251-270.
11. Lbov G.S., Stupina T.A. Some questions of stability of sampling decision functions.// Pattern Recognition and Image Analysis, Vol 9, 1999, pp.408-415.
12. Lbov G.S., Stupina T.A. Application of the multivariate prediction method to time series.// Proceeding of the international conference, 2005 (KDS'2005), Varna (Bulgaria), Vol 2, pp.60-67.
13. Lbov G.S., Stupina T.A., Berikov V.B., Vikent'ev A.A. On statistical stability of sample decision function in pattern recognition and prediction.//The 6-th german-russion workshop "Pattern recognition and Image Understanding", Altai, 2003, pp.46-49.
14. Lbov G.S., Stupina T.A. Statistical Stability of Sampling Decision Functions in Recognition and Prediction Problems.// "Pattern Recognition and Image Analysis", Vol. 14, No 2'2004, pp 231-236.
15. Lbov G.S., Stupina T.A. The influence of type of objective variabe on quality of prediction.// Proceedings of the Sixth International Conference, 2001, Minsk, pp. 250-253.
16. Lbov G.S., Stupina T.A. To question of statistical stability of sampling decision function of prediction multidimensional variable.// Proceeding of the seven international conference, 2003 (PRIP'2003), Minsk, Vol 2, c.57-61.
17. Lbov G.S., Stupina T.A. Некоторые вопросы устойчивости выборочных решающих функций.// Pattern Recognition and Image Analysis, Vol 9, N 3, 1999, pp 408-415.
18. Nedel'ko V. M. Exact estimations of empirical risk bias for discrete feature.// Proc. the 6th Korea-Russia Int. Symp. on Science and Technology (KORUS), University of Ulsan, Republic of Korea, 2003.
19. Nedel'ko V. M. On the accuracy of Vapnik-Chervonenlcis Risk estimations in discrete case.// PRIP'2003, Minsk, Proceeding of the seventh international conference, 2003, Vol 2, pp.75-79.
20. Nedellco V. M. Estimating a Quality of Decision Function by Empirical Risk.// LNAI 2734. Machine Learning and Data Mining in Pattern Recognition. Third International Conference, MLDM 2003, Leipzig. Proceedings. Springer-Verlag. 2003,pp. 182-187.
21. Park Y., Slclansky J. Automated design of linear tree clas-sifier.// Pattern Recognition and Image Analysis, 1993, Vol 3, No 3, pp.248-252.
22. Ryszard S. Michalski. Machine Learning and Data Mining.// England, 1998, pp. 432.
23. Shlien S. Multiple binary decsion tree classifiers.// Pattern Recognition, 1990, Vol.23, No7,pp.757-763.
24. Stupina T.A. The Properties of Risk Function In Heterogeneous Multivariate Prediction.// Proceeding of the 8 international conference, 2005 (PRIP'2005), Minsk, Vol l,pp 80-83.
25. Абусев P.A. Несмещенное оценивание плотностей распределений достаточных статистик обратного нормального распределения.// Стаистические метды оценивания и проверки гипотез. Пермь, Изд-во ПТУ, 1995, с.5-13.
26. Адлер Ю., Горский В. Предисловие к русскому изданию Н. Дрейпер и Г. Смит, Прикладной регрессионный анализ. Кн.1. М.: Финансы и статистика, 1986.
27. Айвазян С.А., Енюков Е.С., Мешалкин И.Д. Прикладная статистика: Классификация и снижение размерности. Москва, Финансы и статистика, 1988, 450с.
28. Айвазян С.А., Мхитарян B.C. Прикладная статистика и основы эконометрики. М.: Юнити, 1998.
29. Айзерман М.А., Браверманн Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. Москва, Наука, 1970, 383 с.
30. Андерсон Т. Введение в многомерный статистический анализ.// пер. с англ., под ред. Б.В. Гнеденко, Москва, Физматлит, 1963, 500 с.
31. Вайнцвайг М.Н. Алгоритм обучения распознаванию образов.// Алгоритмы обучения распознаванию образов, Москва, 1973, с. 110-115.
32. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. Москва: Наука, 1979.
33. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. Москва: Наука, 1970.
34. Воронцов К.В. Обзор современных исследований по проблеме качества обучения алгоритмов, www.ccas.ru/frc/paper/voron04twin.pdf.
35. Вентцель Е.С. Теория вероятностей. Изд-во: Наука, Москва, 1969.
36. Гладун В.П. Эвристический поиск в сложных средах.// Киев, Наукова думка, 1977, 166 с.
37. Головченко В.Б. Прогнозирование временных рядов по разнородной информации. Новосибирск: Наука. Сибирская издательская фирма РАН, 1999, 88 с.
38. Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере. Изд-во «Наука», Новосибирск, 1996, 276 с.
39. Гумбель Э. Статистика экстремальных значений. Мир, Москва, 1965.
40. Демиденко Е.З. Линейная и нелинейная регрессия.- М.: Финансы и статистика, 1981.
41. Джонсон Дж. Эконометрические методы. М., Статистика, 1980.
42. Дискант В.А. Алгоритмы построения правил классификации в структурно-аналитических моделях распознавания.// Математические методы анализа динамических систем. Харьков, 1983, №7, с. 124-127.
43. Донской В.И. Алгоритмы обучения, основанные на построении решающих деревьев.// Журн. вычисл. Математики и математической физики, 1982, Т.22, №4, с. 963-974.
44. Донской В.И., Башта А.И. Дискретные модели принятия решений при неполной информации.//Смферополь, Таврия, 1992, 125 с.
45. Дуда Р., Харт П. Распознавание образов и анализ сцен. Москва, Мир, 1976, 559 с.
46. Дюкова Е.В. Алгоритмы распознавания типа «Кора»: сложность реализации и метрические свойства.// Распознавание, классификация, прогноз (математические методы и их применение), Москва, Наука, 1989, Вып.2, с. 99-125.
47. Живоглядов В.П., Медведев А.В. Непараметрические алгоритмы адаптации.//Фрунзе: ИЛИМ, 1974, 134с.
48. Журавлев Ю.И. Непараметрические задачи распознавания образов.// Кибернетика. Москва, 1976, №6, с.93-103.
49. Журавлев Ю.И., Загоруйко Н.Г. Класс коллективно-групповых решающих правил, основанных на дисперсионном критерии компетентности предикторов.// Анализ данных и сигналов, Новосибирск, 1998 (вып. 163), с. 82-90.
50. Загоруйко Н.Г. Методы распознавания и их применение. Москва, Сов. Радио, 1972, 206 с.
51. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск, ИМ СО РАН, 1999, 270 с.
52. Казначеев В.П., Поляков Я.В., Трофимов А.В., Лбов Г.С., Ступина Т.А. и др. Гелиогеофизические факторы среды при принатальном развитии в вероятностей модели прогноза здоровья человека.// Весник МНИКА, выпуск N6, 1999г., Новосибирск, с.37-43.
53. Кендал М., Стьюарт А. Многомерный статистический анализ и временные ряды. Москва, Наука, 1976, 740 с.
54. Колмогоров А.Н. Теория информации и теория алгоритмов. М.: Наука, 1987,305 с.
55. Колмогоров А.Н., Фомин С.В. Элементы теории функций и функционального анализа. Изд-во: Наука, Москва, 1979.
56. Котюков В.И. Многофакторные кусочно-линейные модели. М.: Фин. и стат., 1984, 216 с.
57. Крамер Г. Математические методы статистики. Мир, Москва 1975.
58. Лапко А.В., Лапко В.А., Ченцов С.В. Непараметрические модели стохастических зависимостей коллективного типа.// Многоуровневые непараметрические системы принятия решений, Новосибирск: Наука, 1997, с.136-141.
59. Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск, Изд-во «Наука», 1981, 152 с.
60. Лбов Г.С. Алгоритмы поиска приближенного значения глобального экстремума функций.// Проблемы случайного поиска, 1980, вып. 8.
61. Лбов Г.С., Неделько В.М. Восстановление условного распределения на основе экспериментальных данных.// "Информатика и процессы управления". Межвузовский сборник. КГТУ, Красноярск, 1997, с.54-61.
62. Лбов Г.С. О представительности выборки при выборе эффективной системы признаков.// Вычислительные системы, 1966, вып. 22, с.39-58.
63. Лбов Г.С., Старцева Н.Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск: Изд-во Ин-та математики, 1999, 212 с.
64. Лбов Г.С., Старцева Н.Г. Сложность распределений в задачах классификации.// ДАН, 1994, т. 338, №5, с.592-594.
65. Лбов Г.С., Ступина Т.А. О критерии качества решающей функции при прогнозировании многомерной переменной.// "Искусственный интеллект 2'2002" Труды международной конференции, Алушта, 2002, с. 172-179.
66. Лбов Г.С., Ступина Т.А. Построение функции прогноза в многомерном разнотипном пространстве.// Труды I международной конференции «Информационные системы и технологии(18Т'2002)», Минск, 2002, с. 253-257.
67. Лбов Г.С., Ступина Т.А. Исследование зависимости критерия качества прогнозирования многомерной переменной от объема выборки и сложности решающей функции.// Труды XI Всероссийской конференции ММРО-03, Москва, 2003, 127-129.
68. Лбов Г.С., Ступина Т.А. Исследование эффективности метода прогнозирования многомерной переменной.// Труды международной конференции «Искусственный интеллект-2004», Алушта, 2'2004, с. 117-122.
69. Лбов Г.С., Ступина Т.А. О статистической устойчивости решающих функций в задачах распознавания и регрессионного анализа.// ДАН, 1999, том 368, Nl,c.31-34.
70. Лбов Г.С., Ступина T.A. Об устойчивости выборочных решающих функций к объему выборки в регрессионном анализе.// Тезисы Третьего Сибирского конгресса по индустриальной и прикладной математике (ИН-ПРИМ-98), сЛ04-105.
71. Лбов Г.С., Ступина Т.А. Построение функции прогноза в многомерном разнотипном пространстве.// Труды I международной конференции «Информационные системы и технологии (IST'2002)», Минск, 2002, с.253-254.
72. Лисицин Д.В. О критериях выбора структуры многооткликовой регрессионной модели.// Сибирский Журнал Индустриальной математики, 2004, Т.7, №1(17), с.61-72.
73. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Изд-во «Дело», Москва, 2001, 400 с.
74. Мазуров В.Д. Применение методов распознавания образов в оптимальном планировании и управлении.// Труды Ин-та математики и механики АН СССР, Урал.науч.центр, 1974, вып№6, с. 58-80.
75. Манохин А.Н. Методы распознавания образов, основанные на логических решающих функциях.// Вычислительные системы. Новосибирск, 1976, Вып. 67, с.42-53.
76. Миркин Б.Г. Анализ качественных признаков. Москва, Статистика, 1976, 250 с.
77. Орлов В.А. Граф-схемы алгоритмов распознавания (с применением к геофизическим задачам). Москва, Наука, 1982, 120 с.
78. Раудис Ш.Ю. Влияние объема выборки на качество классификации.// Статистические проблемы управления. Вильнюс, 1976, Вып.18, с.1-185.
79. Раудис Ш.Ю. О количестве априорной информации при построении алгоритма классификации.// Изв. АНСССР, Техн. кибернетика, Москва, 1972, №4, с.168-174.
80. Раудис Ш.Ю. Ограниченность выборки в задачах классификации.// Статистические проблемы управления, Вильнюс. Институт математики и кибернетики, 1976. Вып. 18, с. 1-185.
81. Ростовцев П.С. Алгоритм построения типологий для больших массивов социально-экономической информации.// Модели агрегирования социально-экономической информации. Сб. Науч. тр.-ИЭ и ОПП СО АН СССР, 1978.
82. Старцева Н.Г. Оценка сходимости математического ожидания вероятности ошибки классификации для усредненной стратегии.// Д.А.Н, 1995, т. 341, № 5, с.606-609.
83. Ступина Т.А. Задача предсказания многомерной переменной.// Доклады j IX Всероссийской конференции «Математические методы распознаванияобразов». РАН ВЦ, 1999, с.67-69.
84. Ступина Т.А. О критерии значимости переменных в линейном регрессионном анализе в условиях малых выборок.// VI Международная конференция «Современные методы математического моделирования природных и антропогенных катастроф», Красноярск, 2001, с.270-274.
85. Ступина Т.А. О распределении границы в одномерном случае кусочно-постоянной регрессионной функции.// Труды международной научно-технической конференции «Научные основы высоких технологий»у, (НОВТ-97), с. 170-173.
86. Ступина Т.А. О соотношении прозрачности воды и концентрации фитопланктона в Байкале.// Сб. статей «математические проблемы экологии», 1994, с.125-128.
87. Ступина Т.А. Оценка смещения функционала качества в задаче прогнозирования многомерной разнотипной переменной.// Доклады Всероссийской конференции "Математические методы распознавания образов (ММРО-12)", Москва, 2005, с.209-212.
88. Тимофеев А.В. Оптимальные полиномиальные алгоритмы опознания.// Обнаружение и распознавание. Планирование экспериментов, Москва, 1975, с.5-12.
89. Хант Э. Искусственный интеллект. Под ред. B.JI. Стефанюка, Москва, Мир, 1978, 558 с.1. Y!
-
Похожие работы
- Методы построения логико-вероятностных моделей временных рядов
- Повышение точности оценки параметров систем по разнотипной измерительной информации
- Информационная поддержка принятия решений в процессе управления лизинговой деятельностью
- Алгоритмы формирования знаний для экспертных систем в слабоструктурированных предметных областях
- Методы построения моделей объектов управления в классе логических решающих функций
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность