автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Регресионный анализ для структурированных объектов
Автореферат диссертации по теме "Регресионный анализ для структурированных объектов"
Новосибирский государственный технический университет
РГБ ОД
2 2 ИЮН 1933 На правах рУ_
Людвина Нина Александровна
РЕГРЕССИОННЫЙ АНАЛИЗ ДЛЯ СТРУКТУРИРОВАННЫХ ОБЪЕКТОВ
Специальность 05Л3.16 - применение вычислительной техники, математического моделирования и мате,матических методов в научных исследованиях
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Новосибирск - 1998
Работа выполнена в Новосибирском государственном университете
Научный руководитель:
Официальные оппоненты:
доктор технических наук, профессор Лбов Г.С.
доктор технических наук, профессор КотюковВ.И.
кандидат технических наук, доцент Абденов А.Ж.
Ведущая организация: Институт вычислительной математики и математической геофизики СО РАН (г. Новосибирск)
Защита состоится 1998 г. в (О час.
на заседании диссертационного совета Д 063.34.03 при Новосибирском государственном техническом университете (630092, г.Новосибирск, пр. К. Маркса, 20).
С диссертацией можно ознакомиться в читальном зале библиотеки НГТУ.
Автореферат разослан "¿1 » ¡А^быЯ 1998 г.
Ученый секретарь диссертационного совета Д 063.34.03 _
к.т.н., доцент ' ./!"*'"' Г-П. Чикильдин
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. В настоящее время методы регрессионного анализа продолжают находить самое широкое применение в различных областях исследования. Однако при решении прикладных задач используется в основном небольшое число хорошо известных методов. Кроме того, мало внимания уделяется адекватности применяемых моделей, не анализируется, насколько исходные допущения, лежащие в их основе, соответствуют реально имеющимся эмпирическим данным. Например, большинство статистических методов ориентированы на обработку данных, измеренных лишь в количественных шкалах, т.е. шкале интервалов или отношений, тогда как реальные наблюдения могут быть выражены также в порядковой и номинальной шкалах. При этом часто предполагаются достаточно сильные ограничения на вид распределения вероятностей изучаемой случайной величины, в частности, нормальность распределения. В большинстве прикладных задач нет оснований априорно предполагать нормальность распределения, а проверка нормальности является достаточно сложной и трудоемкой процедурой, требующей большого числа наблюдений.
В некоторых областях исследования встречаются объекты, описание которых не укладывается в рамки традиционного представления в виде набора количественных и качественных характеристик объекта. Объект в этом случае состоит из некоторого случайного достаточно большого числа подобъектов (элементов), каждый из которых описывается набором характеристик. При моделировании таких сложных, названных нами структурированными, объектов необходимо учитывать как свойства объекта в целом, так и его подобъектов. Применение классических статистических методов для структурированных объектов невозможно, а методов, ориентированных на подобного рода объекты, на сегодняшний день не существует. Сведение структурированного объекта к обычному путем усреднения характеристик его подобъектов приводит к большой потере информации.
Поэтому актуальным является разработка новых методов регрессионного анализа, учитывающих структурированность объектов, использующих данные о его внутренней структуре.
Одним из перспективных подходов к решению данной задачи, является логико-статистический метод, допускающий весьма слабые ограничения на вид распределения и ориентированный на обработку разнотипных данных. Кроме того, метод устойчив к малым объемам выборок, результаты анализа, представленные в виде логико-
статистических закономерностей, легко интерпретируемы специалистами прикладных областей исследования. Цель работы состояла в построении регрессионных моделей структурированных объектов с использованием класса логических решающих функций, разработке алгоритмов построения данных моделей и апробации их на основе статистического моделирования, а т^кже применении алгоритмов для решения прикладных задач. Методы исследования включают в себя аппарат теории вероятностей и математической статистики, функционального анализа, математическое моделирование с применением средств вычислительной техники.
Научная новизна. В диссертационной работе получены следующие научные результаты:
Введен класс логических решающих функций от разнотипных переменных для структурированных объектов. Под структурированным объектом понимается объект, состоящий из некоторого случайного числа подобъектов (или элементов), каждый из которых описывается своим набором характеристик. Характеристики структурированного объекта делятся на внешние и внутренние, т.е. описывающие объект в целом и его подобъекты.
Исследованы некоторые свойства логических решающих функций для структурированных объектов (сходимость логической решающей функции к регрессионной, инвариантность алгоритма построения оптимальной логической решающей функции относительно допустимых преобразований шкал характеристик, свойство симметричности или независимости функции от перенумерации подобъектов объекта). Описан алгоритм построения логической решающей функции для структурированных объектов в виде дерева решения.
Предложена оценка регрессионной функции на основе статистически эквивалентных блоков. Доказана состоятельность оценки.
Разработаны алгоритмы построения регрессионных моделей структурированных объектов:
- в классе логических решающих функций,
- по принципу статистически эквивалентных блоков,
- на основе данных многолетнего эксперимента.
Предложены алгоритмы классификации структурированных объектов:
- на основе критерия однородности эмпирических выборок,
- с использованием специально введенной метрики (доказаны свойства симметричности, эквивалентности и адекватности метрики).
Введена в рассмотрение оценка индекса корреляции между внешней и внутренней переменными на основе решающей функции, аппроксимирующей их зависимость.
Реализован алгоритм оценки качества регрессионной модели по известному методу "хаотизации".
Анализ эффективности разработанных алгоритмов осуществлен на основе статистического моделирования, решения ряда модельных задач.
Практическая ценность и реализация результатов работы. Практическая ценность диссертации заключается в создании программной системы статистического анализа структурированных объектов. Разработанные система предназначена для изучения свойств структурированных объектов на основе анализа их структуры, выявления взаимосвязи между переменными, описывающими объект в целом и его подобъекты. Логические решающие функции для структурированных объектов наглядны и удобны для интерпретации. Предложенные методы дают возможность сократить сроки выполнения прикладных исследований, повысить степень научной обоснованности прогнозов, снизить уровень информационной неопределенности при изучении структурированных объектов.
Эффективность разработанных в диссертационной работе алгоритмов была продемонстрирована на примере решения прикладных задач в различных областях исследования. Система использовалась для контроля качества технологических операций в ходе производства интегральных микросхем. Прогноз качества продукции на основе построенных моделей, осуществляемый на разных этапах технологического процесса, позволил повысить его эффективность, снизить себестоимость. Алгоритмы применялись также в генетико-селекционных исследованиях. Были построены логико-вероятностные модели зависимости урожайности растения от различных факторов с учетом информации о его внутренней структуре, разработана новая методика отбора элитных растений. Апробация работы. Основные результаты работы докладывались на: К Всесоюзной конференции "Математические проблемы экологии", г. Новосибирск, июнь, 1994 г.; генетико-селекционной школе Генетические ресурсы и эффективные методы создания нового селекционного материала сельскохозяйственных растений", г. Новосибирск, декабрь, 1994 г.; 1-ом съезде Вавиловского общества генетиков и селекционеров (ВОГИС), г. Саратов, декабрь 1994 г.; III Международной конференции "Математические проблемы экологии" (МАПЭК-96), г. Новосибирск, июнь, 1995 г.; 1У-ой международной конференции "Распознавание образов и информационные процессы", г. Минск, 1997 г.; Всероссийской конференции "Математические
методы распознавания образов-8" (ММРО-8), г. Москва, октябрь, 1997 г., на IX Международном симпозиуме по непараметрическим методам в кибернетике и информатике, г. Красноярск, октябрь, 1997 г.; на семинарах Института математики СО РАН, кафедры теоретической кибернетики Новосибирского государственного университета. Публикации. По теме диссертации опубликовано 11 научных работ. Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложения. Основной текст работы изложен на 136 страницах машинописного текста. Список литературы включает 104 наименования.
СОДЕРЖАНИЕ РАБОТЫ
Во ВВЕДЕНИИ обоснована актуальность выполненных в диссертационной работе исследований. Сформулирована цель исследования, дана общая характеристика работы (кратко изложено содержание работы, отражены основные положения, имеющие научную новизну и практическую ценность).
ПЕРВАЯ ГЛАВА диссертации посвящена анализу состояния предмета исследования. В ней представлен обзор методов регрессионного анализа, приведена формальная постановка задачи исследования. Проведенный анализ показал необходимость разработки методов выявления статистических закономерностей для структурированного объекта с учетом особенностей его структуры, позволил обосновать использование класса логических решающих функций для решения поставленной в работе задачи.
Во ВТОРОЙ ГЛАВЕ рассмотрены регрессионные модели структурированных объектов и исследованы некоторые их свойства.
В §2.1 вводится класс логических решающих функций от разнотипных переменных для структурированных объектов [1,2,6]. Пусть для описания объекта а из генеральной совокупности Г используются переменные X, 2, А, У, где Х=(Х, Будем считать переменные А - факторами
(предсказывающими переменными), переменную У - откликом (целевой переменной). Объект а состоит из некоторого случайного числа 1-Л(а) подобъектов, для каждого из которых измеряются значения переменных Х1,... ,... Д,.
Будем полагать, что Х],...Х1,---Х„-Х - непрерывные случайные величины, переменные - дискретные случайные
величины. Каждому объекту а можно поставить в соответствие следующие значения:
б
\.(Х(а {),... ¿({а¿((а!)) - набор -значений переменной X для подобъектов объекта «, где -
значение переменной X для подобъекта Х,{а,)е. - значение
переменной Х; для подобъекта <7,;
2. (2(Я|),...Д(|Я1),...,2(а/)) - набор значений переменной 2 для подобъектов объекта а, где ,7,„(«,)) -значение переменной 2 для подоб7>екта с/„ 2((й,)еЙ;1 - значение переменной для подобъекта
3./=Л(а)еОг={ 1,2,...,¿} - значение неременной Л (число подобъектов);
4. _у=Г(а)еД - значение целевой переменной }'.
Здесь Дж , , Д и О, - области значений переменных Л}, Л и }'.
Введем следующие обозначения: Й^Дх/ХхД, где Д = () ] /)у ) ,
/-1 '
А: = ( П ) • Будем считать, что объекту а соответствуют векторы /Ы *
*=(дг|,-"Л)е£'хИ2=(2|,...^) 6 О; такие, чго .V, = Х(а1),..., X/ - Х(а,) и г1 =
Пусть определены условная плотность распределения р(х,у1г,1) в области Д,хД и распределение вероятностей /'(г,/) п области ДхД. Необходимо построить решающую функцию/ /Х- > Д. из некоторою класса Ф, оптимальную в смысле следующего критерия
= I I л*//) \р(Фм ¡(у-г(х,г,1))2-р(у/х,2,1т</х.
2 40, 1)х 0,1
Отметим, что функция /еф должна обладать следующими свойствами:
1) для любого (х,г,/)еО и любой нереепшовки л"е/7/, где я(1,...,л,...,/)=(л(1),...,7ф),...,::(/)), /7/ - группа перестановок на / элементах, выполняется соотношение:
/(х>2>0~ Д*;г(|) >•••'■**(/)»*/•! I..»')> С)
т.е. функция не зависит от перенумерации подобъектов объекта;
2) для любых /пеД, (х,2)е ДхД
Д х, 2,1 = /0) = (х,,..., х/(| .. ,2/о), (2)
где^, :(ПД )'«х(ПД,)'°-> Д,-/=1 ' ¿ы "
Далее вводится класс логических решающих функций для структурированных объектов. Рассмотрим множество Ч^ всевозможных разбиений а пространства £> на не более, чем счетное
м
число м подмножеств ех ,...£! таких, что ие'=0,
1-1
Е'ПЕ =0, к=1,М, ык. Подмножество Е' имеет вид: Е=Е[хЕ[хЕ\, где £,'={/} СО„ ЕхОЛх, Е[ Срг. Подмножество Е'х определим следующим образом:
Ех= II Е'хЛцХ...хЕ'хМ1) х Е'х,^х...хЕ'хМ ,
кЩ
пк,, с и о е[ со 5-17;
где Ех^ = я
пй
У"1
Аналогичный вид имеет множество . Для описания каждого подмножества Е'х (Е[) используется своя подсистема из п, (т,) переменных ), поэтому Е'х ¿(Ю^, если уб/^
если и если если
). Здесь 4 ={у,,...,)П1 }{1[={к„...}).
м
Логическая решающая функция/(х^/)= , (х,г,I), где у[ -
некоторая константа, >■/ %Е, С-Г ,/) - характеристическая
функция подмножества Таким образом, логическая решающая функция /(*,£,/) задается парой <а,г(а)>, где разбиение а={£'....£м} и набор решений г(а)= {у{,...,у\ ,...,у'м}. Из построения очевидно следующее утверждение. Утверждение 2.1.1. Логическая решающая функция удовлетворяет свойствам (1) и (2).
Дня поиска оптимальной логической решающей функции вводится следующий критерий:
F/=F(LasJ=2F[(x,zJ)eE,]-F} ,
I-1
где P[(xzf)<=E]= 2 P(l) 2p(z/lySp(x/z,l)dx - вероятность /set,' га; e'x
попадания точки (x^i) в подмножество E'\
F}- 2P(l)lP(z/l)ipdxlz,l){i(y-y',)2p(yfx,z,l)dy}dx- значение leef z£e[ dy
критерия для области Е'.
Под оптимальной решающей функцией fM 6ФД, понимается
функция, при которой F.. = min min F(a,ra)= min F(a,ra).
/и aGPMraERM aei'M
На практике условные распределения неизвестны, решающая
функция строится по подмножеству наблюдений А={а'} СГ,
которому соответствует таблица данных V, называемая обучающей выборкой. В §2.2 описана выборка для структурированных объектов, имеющая следующий вид:
),Zk (4, ) Ла'),У(а'),1 - IN ,j = lji ,к - Tjn,s, - 1 ,Л(а') },
где Л(й')=/' - число подобъектов объекта a', Xj(a's), Zk(a's ) -значения переменных Хр Zk для подобъекта а\. объекта о'; Y(a' )=у' -значение переменной Y для объекта а'.
Зафиксируем разбиение ам(=х1>и, получим для него наилучший
v'
набор решений гПд( ={>',',... ,у,',... ,у'и }, где y't = J -j— . Здесь
вектор х' = (х\ ,...,x'l)S.Dx такой, что х\ = Х(а\),...
...,х'г, = Х{а'[, ) (аналогичный вид имеет вектор z'ED.), N, - число точек (¿¿'J'), принадлежащих подмножеству Е.
Под оптимальной выборочной решающей функцией fM ЕФМ, определенной по таблице V, будем понимать функцию, для которой значение выборочного критерия Fj минимально. Вводится следующий выборочный критерий:
, (у'-Ю2.
Далее исследуются некоторые свойства логической решающей функции для структурированных объектов. В §2.3 показано, что для достаточно широкого класса регрессионных зависимостей, описывающих структурированные объекты, можно строить
логические решающие функции /Д,ЕФМ, аппроксимирующие регрессионные функции с заданной точностью.
Утверждение 2.3.1. Если функция ц:(х£/) удовлетворяет свойствам (1) и (2) и для любого и'=(г функция ср(х,и-')
переменной х измерима, то для любого е>0 существует логическая решающая функция /м{х+,/)£Фд, такая, что для любых выполняется неравенство | | <е [9].
Из утверждения вытекают два следствия, в которых близость функций рассматривается в смысле среднеквадратичного уклонения, а также близости значений критерия качества.
В §2.4 доказывается инвариантность алгоритма построения оптимальной логической решающей функции для структурированных объектов относительно допустимых преобразований шкал характеристик [9]. Каждой шкале можно поставить в соответствие множество допустимых преобразований значений на этой шкале. Если мы наблюдаем не х, а (р(х), где ф - допустимое преобразование шкалы, в которой измерена переменная X, то желательно получить статистический вывод (решение), не зависящий от того, наблюдаем мы х или ф(х). Именно это требование и лежит в основе принципа инвариантности.
Обозначим через V множество структурированных выборок. Пусть <3(У)СФ - подмножество решающих функций, на котором
достигается минимум критерия /•■(/,= —У Су' -/(*', г',/'))" •
N ¡. 1
Будем называть отображение ц, сопоставляющее выборке УЕ\/ решающую функцию /€Е<3(У), алгоритмом построения решающей функции в классе Ф, оптимальной в смысле критерия Р .
Пусть для характеристик {/,,...,£/,„У, где (¿У,,...,(7,,)= заданы группы Р,,...,?,.,^,,, допустимых преобразований соответствующих шкал. Обозначим ф=(ф1,...,ф(,...,ф/,),
Ф(и''НФ,(и{).-,Ф/и;.),...,Ф*(^)), где
ф„+,€Р„+]. Здесь и'=(х'х'), Ыу=*у, если 7=1 ,п, и если
] = п + 1,/г. Пусть отображения (¡=1,И + 1) взаимно однозначные.
Будем считать алгоритм д построения оптимальной решающей функции / из класса Ф инвариантным относительно допустимых
а + 1
преобразований шкал характеристик, если для любых (ф.ф,,,,)^ [] Р^,
У-1
УЕЧ , Г6<3(У) существует ГфеО(ф(У)) такая, что фм(Г (и,0Н;(ф(и) А
ю
Утверждение 2.4.1. Алгоритм построения логической решающей функции /МЕФМ, оптимальной в смысле критерия ,
инвариантен относительно допустимых преобразований шкал характеристик, если группой допустимых преобразований целевой переменной является группа линейных преобразований.
Разбиение а&¥м удобно описывать в виде дерева решений. Под деревом решений В понимается корневое дихотомическое дерево, у которого каждой внутренней вершине (узлу) ставится в соответствие некоторая конъюнкция предикатов вида:
1.7 (а, е\,е^,...,е'х]^..,е'х11) =" е\, л^е^,,...
и {а, Е[, ..,£;,) = "/%)££/, гк{а^)&Е[к
Ветвям, исходящим из внутренней вершины, соответствует истинность или ложность высказывания, получающегося при замене переменных их значениями. Каждой конечной вершине Ь,, г=1,...,А/, дерева В приписывается решение у,'. Выбор класса разбиений у1>м обусловлен возможностью интерпретации результатов на языке, близком к естественному языку логических суждений, что имеет большое значение при использовании методов в прикладных областях исследования таких, как биология, медицина, социология и т.д. В §2.5 описан алгоритм построения логической решающей функции в виде дерева решений. Решающая функция определяется рекурсивно, и в основе алгоритма ее поиска лежит построение двоичного дерева.
В §2.6 предлагается регрессионная модель структурированного объекта, построенная по принципу статистически эквивалентных блоков. Пусть имеется выборка значений переменных X, А, У. Рассмотрим разбиение множества Бх х О, на некоторое конечное число подмножеств вида Е'=Е1ххЕ\ (г = 1,М ,2<;Л/<оо), где
К - О 0^(1)х...хО;(;) Е\ = {/}СО„ причем {\0'5
ПЩ 5-1
- сегменты, содержащие приблизительно одинаковое число точек х'Е1>х или статистически эквивалентные блоки. Сопоставим точкам области Е' значение решающей функции, равное среднему арифметическому значений отклика У для точек из этой области. Очевидно, построенная решающая функция удовлетворяет свойствам (1) и (2). В работе доказана состоятельность полученной опенки, т.е. оценка сходится по вероятности к регрессионной функции.
В ТРЕТЬЕЙ ГЛАВЕ описаны алгоритмы построения регрессионных моделей структурированных объектов. Трудоемкость сбора эмпирического материала, время, затрачиваемое на статистическое обследование структурированных объектов могут быть весьма значительными. Поэтому, как правило, объем обучающей выборки (т.е. количество обследованных объектов) мал. Кроме того, дискретная переменная л (число подобъектов) в выборке может быть представлена некоторым подмножеством значений Г>1 С . В этом случае предсказать значение целевой переменной можно лишь для объектов с числом подобъектов /Е/),, тогда как желательно было бы по построенной решающей функции предсказывать значение отклика для объекта с любым числом подобъектов 1ЕОПоэтому для построения регрессионных моделей структурированных объектов с достаточно большим числом подобъектов на основе выборок небольшого объема предлагается использовать алгоритм, описанный в §3.2 [7].
Пусть имеется структурированная выборка
У={1]¡{а\),Л{а'),у1}, / = 1^7, ;' = ТХ я,-= 1,А(а''). Переменные
{/,,...,£/,, могут быть разнотипными. Введем обозначение: А
Ои=(ПА, )\гДе Ц, область значений переменной Ц. Осуществим Н ' '
трансформацию пространства £>=Оцх£),. Пусть В1 - упорядоченное
множество выборочных значений переменной А (числа подобъектов).
На первом шаге алгоритма определяется разбиение
аi - {е] ,...,е\,...} множества оь наилучшее в смысле
_ 1 м .
описанного в §2.2 критерия Е1 - — 2 2 (у'_>'|) > гДе
¡'ее;
Е\ < / ^ V;} > А (у0=0, уд!=£■)■ Пусть А' - множество
объектов, для которых значение V Е.Е\, а 1, - множество номеров этих объектов.
На втором шаге алгоритма объекты из каждого множества А' классифицируются по степени близости наборов значений переменной для их подобъектов (алгоритм классификации описан ниже), при этом множество точек {иу,(' Е/г} разбивается на п^
кластеров: С^1 ,.. Сопоставим каждому кластеру С^
некоторое значение ^ из множества натуральных чисел, причем * g^, если или р*г|.
На третьем шаге осуществим трансформацию v: Duy.D, —*Dü
h
пространства DL,xD, в пространство Dü= = {gj})
дискретных переменных Ux,...,Uh. Отображение
v(u,l) = (ü) = (üx,...,üj,...,üh), где üj=g'f, если /££,' и pj(uj,Gf)= min Pj(u j ,G'j ). Здесь Pj(uj ,Gf) - расстояние от точки u/
lsrsii^
до кластера G'^. При этом структурированная таблица данных V преобразуется в таблицу V = Щ ,у'} , i = 1 ,N ,j = l,/i .
Далее на четвертом шаге алгоритма по таблице V, которая является обычной таблицей типа "объект-свойство" строится
логическая решающая функция / (й). Положим
/(«,/) = /(v(« ,/)) = /(«).
Алгоритм позволяет учесть при классификации объектов информацию о структуре объекта и использовать ее при построении решающей функции. Классификация структурированных объектов здесь является промежуточным результатом, хотя может представлять и самостоятельный интерес.
В работе предлагается несколько подходов к решению задачи классификации. Один из подходов основан на применении критерия однородности эмпирических выборок. Он заключается в следующем. Сначала для каждой пары векторов наблюдений, относящихся к двум различным объектам, подсчитывается значение критерия. Из всех значений критерия выбирается минимальное и сравнивается с допустимым значением е. Если оно больше £, то классификация прекращается и все векторы рассматриваются как существенно различающиеся. В противном случае пара векторов наблюдений, на которой достигнуто минимальное значение критерия, объединяется в один вектор и процедура проверки гипотезы однородности повторяется. Однако применение критериев однородности в целях группировки объектов затруднено достаточно сильными ограничениями, накладываемыми или на исходное распределение случайных величин, или на число наблюдений в сравниваемых выборках.
Другой подход заключается в использовании иерархического агломеративного алгоритма. В работе описан критерий качества разбиения, лежащий в основе алгоритма, вводится специальная метрика в пространстве структурированных объектов (в работе доказаны свойства эквивалентности, симметричности и
инвариантности введенной метрики), а также мера близости кластеров объектов [7,11].
Выбор метрики и алгоритма классификации, особенно при отсутствии каких-либо априорных сведений, субъективен, он зависит в основном от целей исследования, физической и статистической природы вектора наблюдений. Окончательный критерий качества классификации - критерий практической полезности результата, в случае использования классификации для построения регрессии -критерий качества решающей функции. Процедуры классификации целесообразно проводить несколько раз, меняя алгоритм, метрики, функционал качества и другие параметры настройки, что легко можно сделать в разработанном алгоритме классификации структурированных объектов.
В §3.3 описан алгоритм построения решающей функции на основе принципа статистически эквивалентных блоков для структурированных объектов. Решающая функция аппроксимирует зависимость пары количественных переменных: внешней и внутренней. Оценка регрессии строится с учетом информации о подобъектах объекта. Данную оценку можно использовать также для вычисления индекса корреляции между переменными X и У:
о2
= —где о2; - дисперсия функции регрессии Дх), Оу - дисперсия
Оу
зависимой переменной у. Предлагается в качестве оценки регрессии использовать решающую функцию, построенную на основе статистически эквивалентных блоков.
Результаты многолетнего эксперимента значительно зависят от случайных благоприятных или неблагоприятных внешних факторов. В средних многолетних данных влияние этих случайных факторов в значительной степени взаимно погашается, поэтому качество прогноза по многолетним данным значительно лучше, чем по одногодичным. В §3.4 предлагается алгоритм построения регрессионной модели по выборке многолетних наблюдений, в которой значения количественных переменных-факторов для объектов каждой одногодичной выборки центрированы и масштабированы.
Для реальных задач характерны априорная неопределенность относительно вида распределения изучаемых случайных величин, регрессионные зависимости достаточно сложного вида, небольшой объем выборки, соизмеримый с размерностью признакового пространства. Поэтому на практике используются так называемые "алгоритмические" оценки качества построенной модели. В работе предлагается использовать оценку по методу "хаотизации". Реализован соответствующий алгоритм, который описан в §3.5.
Обозначим через V, и \?г псевдовыборки, полученные из V путем случайной перестановки значений {у'}, через б^,,^) - оценку среднеквадратической ошибки модели /у , вычисленной на основе
выборки К2, т.е. ЩУ2~) = — 2 (/ - /у (/',«'' ))2 . Тогда в
n (¡"¿уу&2 '
качестве оценки "хаотизации" б для модели}{1м) может быть взято
одно из следующих выражений:
б, +
ь2^ьуу)-щу2)/ьу1у).
В §3.6 представлены результаты проверки эффективности предложенных алгоритмов на модельных примерах. Разработана следующая процедура статистического моделирования. С помощью датчика случайных чисел многократно генерировались структурированные выборки в соответствии со случайно выбранными распределениями. Каждой структурированной выборке ставилась в соответствие обычная выборка, полученная путем усреднения значений внутренних переменных для подобъектов объекта. По структурированным выборкам строились решающие функции с помощью исследуемых алгоритмов, по соответствующим выборкам усредненных значении - с применением традиционных методов. Оценивалось качество построенных решающих функций. Проведенные эксперименты подтвердили эффективность разработанных алгоритмов.
В ЧЕТВЕРТОЙ ГЛАВЕ описаны программная система, реализующая представленные в работе алгоритмы, и результаты ее применение для решения ряда прикладных задач анализа данных. Система позволяет изучать свойства структурированного объекта с учетом его внутренней структуры, строить решающие функции, на основе которых можно осуществлять прогноз значений целевой переменной, определять наиболее информативные переменные, вычислять оценку степени зависимости между внешней и внутренней переменными. Система также позволяет решать задачу кластеризации объектов по степени близости значений переменных. В §4.1 описаны структура, назначение и возможности предлагаемой системы, в §4.2 и §4.3 - результаты использования ее для прогноза качества отдельных технологических операций процесса изготовления интегральных микросхем, при проведении генетико-селекционных исследований [35,8,11].
Результаты анализа, представленные в виде списка логико-статистических закономерностей с использованием графического сопровождения, удобны и просты для интерпретации специалистами
прикладных областей. В закономерности указывается для внешней переменной-фактора подмножество ее значений, для внутренней переменной-фактора - диаграмма распределения, среднее значение и разброс, а также соответствующее значение целевой переменной и множество номеров объектов, удовлетворяющих закономерности.
ЕСЛИ
прод.кустистость> 19 (шт.) И масса колоса в среднем = 2.28 (г), разброс - 0.47 (г)
ИЛИ масса колоса в среднем =2.04 (г), разброс = 0.54 (г)
ТО
УРОЖАЙНОСТЬ б среднем = 63.99 (г), разброс = 8,70 (г)
MIN значение УРОЖАЙНОСТЬ 52.50 (г), МАХ значение УРОЖАЙНОСТЬ = 76.20 (г) количество объектов закономерности = 9 номера объектов: 7 8 16 20 21 65 72 75 1 15
Посредством усреднения характеристик подобъектов объекта (т.е. сведения структурированного объекта к обычному) и применения традиционных методов были построены модели, сравнительный анализ которых с соответствующими логико-статистическими моделями показал эффективность разработанных алгоритмов. Анализ качества моделей был проведен с использованием метода "хаотизации". Кроме этого, прогностическая ценность моделей была подтверждена практическими экспериментами.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Основные результаты диссертационной работы состоят в следующем:
1. Введен класс логических решающих функций от разнотипных переменных для структурированных объектов. Под структурированным объектом понимается объект, состоящий из некоторого случайного числа подобъектов (или элементов), каждый из которых описывается набором характеристик. Характеристики структурированного объекта делятся на внешние и внутренние, т.е. описывающие объект в целом и его подобъекты.
2. Исследованы некоторые свойства логических решающих функций для структурированных объектов (сходимость логической решающей функции к регрессионной, инвариантность алгоритма построения оптимальной логической решающей функции относительно допустимых преобразований шкал характеристик,
независимость решающей функции от перенумерации подобъектов).
3. Описан алгоритм построения логической решающей функции в виде дерева решений.
4. Предложена оценка регрессионной функции для структурированных объектов по принципу статистически эквивалентных блоков. Доказана состоятельность оценки.
5. Разработаны и исследованы с помощью процедур статистического моделирования алгоритмы построения регрессионных моделей в классе логических решающих функций; по принципу статистически эквивалентных блоков; по данным многолетнего эксперимента.
6. Разработаны алгоритмы классификации структурированных объектов по степени близости значений переменных для их подобъектов на основе критерия однородности эмпирических выборок, а также с использованием введенной метрики. Доказаны свойства симметричности, эквивалентности и инвариантности метрики. Эффективность алгоритмов проверена на тестовых примерах.
7. Введена в рассмотрение оценка индекса корреляции между внешней и внутренней переменными на основе решающей функции, аппроксимирующей их зависимость.
8. Реализован алгоритм оценки качества решающей функции по методу "хаотизачии".
9. Создана программная система, реализующая разработанные в диссертационной работе алгоритмы. Эффективность системы проиллюстрирована результатами решения прикладных задач в различных областях исследования (система использовалась для технической диагностики качества технологических операций, в генетико-селекционных исследованиях).
СПИСОК РАБОТ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ
1.Людвина H.A., Попова И.С., Старцева Н.Г. Использование "внутрииндивидуалыюй" изменчивости для оценки экологической пластичности растений. // И Всерос. конф. "Математические проблемы экологии" : Сб. статей. Новосибирск: Ин-т математики СО РАН, 1994. С. 128-132.
2.Людвина H.A., Старцева Н.Г. Анализ нормы реакции растения на воздействия окружающей среды. // II Всерос. конф. "Математические проблемы экологии" : Тез.докл. Новосибирск: Инт математики СО РАН, 1994. С. 104-105.
3. Людвина H.A. Отбор элитных растений по комплексу признаков с использованием регрессионного анализа, основанного на
логических решающих функциях. // Материалы 1-го съезда Вавиловского общества генетиков и селекционеров (ВОГИС): Генетика, приложение, Москва,1994, Том 30. С.93.
4. Людвина Н.А. Анализ связи модификационной изменчивости с его селекционной ценностью. // Тезисы докладов генетико-селекционной школы "Генетические ресурсы и эффективные методы создания нового селекционного материала с-х растений. Новосибирск, 1994. С.54-55.
5. Людвина Н.А. Метод анализа модификационной изменчивости. // III Междунар. конф. "Математические проблемы экологии" (МАПЭК-96): Тез. докладов. Новосибирск, 1996. С. 15.
6. Людвина Н.А., Старцева Н.Г. Регрессионный анализ для структурированных объектов. // Доклады РАН. 1996, Том 346, №5. С.600-603.
7. Ludvina N.A., Startseva N.G. Récognition of quantative variable for structural objects. // Pattern Récognition and Image Analysis, 1996, Vol. 6. №3. P. 487-490.
8. Людвина H.A., Попова И.С., Шумный B.K. Использование регрессионного анализа, основанного на логических решающих функциях, при отборе элитных растений. // Сельскохозяйственная биология. 1996, №3. С. 107-117.
9. Ludvina NA. Logical functions for structural objects. // Proceedings of Fourth Intern. Conf. "Pattern Récognition and Information Processing", Minsk, 1997. P. 26-31.
10. Людвина Н.А. Построение решающих функций распознавания для сложных биологических объектов. // Всерос. конф. "Математические методы распознавания образов" (ММРО-8): Тез. докладов. Москва, 1997. С. 32.
11. Людвина Н.А., Попова И.С., Старцева Н.Г. Метод анализа сложных метамерных организмов в классе логических решающих функций. // Генетика. 1998, Том 34. №5. С. 1-7.
-
Похожие работы
- Разработка и исследование методов и средств оценки качества биотехнической системы на основе психофизического шкалирования на примере тракторов
- Методология алгоритмизации управления и моделирования процессов оптимизации конструкторско-технологических параметров бортовых комплексов
- Моделирование тепловых процессов замкнутых испарительно-конденсационных устройств
- Совершенствование технологии восстановления шеек коленчатых валов судовых среднеоборотных дизелей формированием износостойких покрытий
- Математическое моделирование миграционных процессов в территориях
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность