автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Обнаружение и использование закономерностей в исходных данных при построении регрессионных моделей и планировании эксперимента

доктора технических наук
Тимофеев, Владимир Семенович
город
Новосибирск
год
2012
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Обнаружение и использование закономерностей в исходных данных при построении регрессионных моделей и планировании эксперимента»

Автореферат диссертации по теме "Обнаружение и использование закономерностей в исходных данных при построении регрессионных моделей и планировании эксперимента"

005010859

На правах рукописи

м

Тимофеев Владимир Семенович

ОБНАРУЖЕНИЕ И ИСПОЛЬЗОВАНИЕ ЗАКОНОМЕРНОСТЕЙ В ИСХОДНЫХ ДАННЫХ ПРИ ПОСТРОЕНИИ РЕГРЕССИОННЫХ МОДЕЛЕЙ И ПЛАНИРОВАНИИ ЭКСПЕРИМЕНТА

Специальность 05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук

- 1 МАР 2012

Новосибирск-2011

005010859

Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Новосибирский государственный технический университет»

Научный консультант: доктор технических наук, профессор

Денисов Владимир Иванович

Официальные оппоненты: доктор технических наук, профессор

Горский Владимир Григорьевич доктор технических наук, профессор Загоруйко Николай Григорьевич доктор технических наук, профессор Родионов Алексей Сергеевич

Ведущая организация: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Московский государственный университет путей сообщения»

Защита состоится «22» марта 2012 г. в 1400 часов на заседании диссертационного совета Д 212.173.06 при Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Новосибирский государственный технический университет» по адресу: 630092, Новосибирск-92, пр. К.Маркса, 20.

С диссертацией можно ознакомиться в библиотеке Новосибирского государственного технического университета.

Автореферат разослан «10» февраля 2012 г.

Ученый секретарь диссертационного совета

Чубич В.М.

Актуальность темы исследований. Проведение прикладных исследований, связанных с контролем качества продукции, оптимизацией технологических процессов, сертификацией сложных технических изделий, решением социологических и экономических задач, медико-биологических и сельскохозяйственных исследований, исследований в демографии и др. часто приводит к необходимости анализа данных. При этом естественным является желание экспериментатора располагать наиболее достоверными и качественными результатами, которые максимально согласуются с природой имеющихся исходных данных. Для получения таких результатов требуется комплексное применение широкого спектра методов теоретической и прикладной статистики, обеспечивающих извлечение и последующее использование присущих исходным данным закономерностей.

В этой связи стоит обратить внимание на метод максимального правдоподобия (ММП) и связанное с ним количество информации по Фишеру, роль которого в математической и прикладной статистике трудно переоценить. Он часто ставится в основу не только теоретических, но и прикладных статистических исследований включая задачи анализа многофакторных объектов. В частности, можно говорить о том, что на нем основана теория планирования эксперимента, поскольку одно из ее базовых понятий -информационная матрица определяется именно через вторую производную логарифмической функции правдоподобия. Хорошо известна связь классического метода наименьших квадратов (МНК) с методом максимального правдоподобия для нормально распределенный ошибок. Обеспечивая при данном предположении наличие целого ряда оптимальных свойств получаемых оценок, метод максимального правдоподобия становится объектом предпочтения специалистов.

На сегодняшний день существует достаточно большое число теоретических и прикладных работ, посвященных применению метода максимального правдоподобия. В области планирования оптимальных экспериментов следует отметить результаты, полученные Налимовым В.В.,

Федоровым В.В., Горским В.Г., Лецким Э.К., Ермаковым С.М., Седуновым Е.В., Козловым В.П., Денисовым В.И., Григорьевым Ю.Д., Поповым A.A., Хабаровым В.И., Лисициным Д.В. В области классического регрессионного анализа следует отметить работы Айвазяна С.А., Pao С.Р., Кендалла М.Дж., Стьюарта А., Сирла С., Дрейпера Н., Смита Н.

Однако предположение нормальности распределения случайной компоненты уравнения регрессии, лежащее в основе классических методов, является достаточно сильным и серьезно ограничивает спектр корректно решаемых задач. В частности, при наличии тех или иных неоднородностей в условиях проведения наблюдений (экспериментов) может иметь место появление некоторого числа наблюдений, резко выделяющихся из основной массы. Это обстоятельство может привести к той или иной потере точности в силу искажения априорного распределения случайной компоненты, т.е. к нарушению предположения нормальности. Для решения данной проблемы разработан целый ряд специальных устойчивых методов, в том числе непараметрических. Исследованиями в этой области занимались такие признанные специалисты как Хьюбер П., Хампель Ф, Davies Р., Rousseeuw Р. Смоляк С.А., Болдин М.В., Тюрин Ю.Н., Лисицин Д.В. и др. Вместе с тем, отказ от метода максимального правдоподобия часто означает и потерю оптимальных свойств оценок, присущих данному методу. Это одна из причин, из-за которой автор остается в рамках классического подхода максимально-правдоподобного оценивания, присущего Новосибирской школе анализа многофакторных объектов и планирования эксперимента.

С другой стороны, фактически реализуемые на практике распределения случайных ошибок далеко не всегда удается представить в рамках тех или иных хорошо известных теоретических законов. Исследователь может лишь иметь общие представления о его форме, плюс, возможно, сформулировать отдельные гипотезы о наличии тех или иных особенностей (например, сделать корректное предположение о значении математического ожидания). Очевидно, что в этом случае метод максимального правдоподобия в классической постановке

применить не получится. Методы и алгоритмы планирования эксперимента также могут приводить далеко не к самым оптимальным вариантам решения, поскольку они разрабатывались в предположении нормальности распределения случайной ошибки. Следовательно, алгоритмы идентификации должны сами извлекать информацию о характере распределения из исходных данных и обладать определенной гибкостью для осуществления подстройки под многообразие фактически реализуемых распределений. На данный момент известны такие алгоритмы для обобщенного распределения Лапласа (Денисов В.И., Лисицин Д.В. Методы построения многофакторных моделей по неоднородным, негауссовским, зависимым наблюдениям), но они сильно ограничены предположением симметрии изучаемого распределения.

Один из вариантов решения заключается в переходе к универсальным распределениям. Их основное преимущество состоит в возможности описания большого круга практических ситуаций. В частности, использование кривых Пирсона позволит говорить об анализе ситуаций с такими распределениями как бета-, гамма-, Стьюдента, экспоненциальное и др. Еще более широким является обобщенное лямбда-распределение, включающее не только хорошо известные в теории вероятности распределения, но и целое множество других. Перспективным также представляется переход в частотную область посредством построения характеристической функции, что обеспечит привлечение более полной информации и позволит идентифицировать так называемые устойчивые распределения. Они также являются весьма широким классом распределений, включающим распределения с большой или даже бесконечной дисперсией (например, распределение Коши). Это обстоятельство делает его предпочтительным при исследовании закономерностей на основе сильно засоренных данных.

Цель и задачи. Таким образом, актуальным является построение универсальных алгоритмов оценивания параметров регрессионных моделей, основанных на методе максимального правдоподобия, которые обеспечивают корректную идентификацию для широкого круга практически реализуемых

распределений. Решение этой проблемы откроет новые возможности и для развития теории планирования эксперимента, а также, в ряде случаев, будет обеспечивать устойчивость оценивания и сохранение хорошо известных оптимальных свойств. Именно такая формулировка и рассматривается автором в качестве цели данной работы. Для достижения данной цели были поставлены и решены следующие задачи:

• обеспечить возможность адаптации алгоритмов оценивания параметров регрессионных уравнений к широкому спектру практически реализуемых распределений случайной компоненты;

• разработать новые алгоритмы устойчивого оценивания, позволяющие использовать информацию об индивидуальной информативности наблюдений, а также реагировать на разный характер имеющихся в исходных данных выбросов;

• провести расширение возможностей теории планирования эксперимента за счет более слабого предположения о принадлежности распределения случайной ошибки обобщенному лямбда-распределению;

• разработать алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь, а также алгоритм идентификации моделей компонент дисперсии знаковым методом;

• осуществить построение программной системы, интегрирующей все предложенные алгоритмы устойчивого и адаптивного оценивания параметров линейно-параметризованных регрессионных уравнений, а также алгоритмы планирования эксперимента и с ее помощью провести решение задач технического и экономического содержания.

Область исследования. Содержание диссертации соответствует области исследования п.5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений» паспорта специальности 05.13.17 - «Теоретические основы информатики» (в области технических наук).

Методы исследования. Исследование основано на корректном использовании положений теории вероятностей, математической статистики, математического анализа и линейной алгебры, теории планирования эксперимента, регрессионного анализа, численных методов, методов оптимизации и методов статистического моделирования.

Достоверность и обоснованность научных положений, рекомендаций и выводов обеспечивается корректным использованием методов исследования, согласованностью выводов с известными теоретическими законами и положениями, а также подтверждением полученных аналитических выводов результатами вычислительных экспериментов, проведенными на основе технологии статистического моделирования.

Научная новизна работы заключается в следующем:

впервые предложено проводить адаптивное оценивание параметров линейно-параметризованных регрессионных уравнений на основе восстановленной по моментам функции плотности случайной компоненты, а также показана возможность использования для этой цели универсальных распределений;

сформулировано и доказано утверждение, на основе которого впервые разработан уникальный алгоритм синтеза оптимальных планов эксперимента для распределений ошибки, представимых в классе лямбда-распределения;

показана возможность перехода в частотную область при построении характеристической функции для обнаружения закономерностей распределения случайной компоненты и более качественного восстановления регрессионной зависимости. Разработаны и исследованы параметрические и непараметрические алгоритмы;

предложен ряд новых алгоритмов построения оценочных подмножеств для метода наименьших уравновешенных квадратов, использующих показатели концентрации наблюдений, а также идеи планирования эксперимента. Посредством статистического моделирования проведено исследование разработанных алгоритмов, по результатам которого сформулирован ряд рекомендаций по их использованию;

предложены и исследованы алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь, а также алгоритм идентификации моделей компонент дисперсии знаковым методом;

создана программная система, предназначенная для устойчивого и адаптивного оценивания параметров линейно-параметризованных регрессионных моделей и планирования эксперимента, с использованием которой решен ряд реальных задач технического и экономического содержания.

Практическая значимость. Полученные результаты позволяют проводить восстановление регрессионных зависимостей и планирование эксперимента на основе информации, непосредственно извлекаемой из исходных данных. Используемая адаптация к структуре исходных данных позволяет говорить о представленных алгоритмах как о гибком инструменте построения регрессионных моделей, существенно расширяющем и улучшающем возможности существующего алгоритмического обеспечения устойчивого и адаптивного оценивания, а также планирования эксперимента. Разработанная программная система позволяет автоматизировать процесс построения регрессионных зависимостей в условиях засоренных данных, с отличным от нормального распределением. Система зарегистрирована в виде объекта интеллектуальной собственности как программа ЭВМ (№ гос. per. 2011613035) [28].

Реализация результатов работы. Разработанные методы и алгоритмы используются в аналитической работе мэрии города Новосибирска, ООО «ЗапСибГеоПроект», торговым холдингом «Сибирский Гигант», а также в учебном процессе НГТУ, что подтверждено актами о внедрении. На защиту выносятся:

• семейство алгоритмов построения оценочных подмножеств, позволяющих вычислительной схеме метода наименьших уравновешенных квадратов реагировать на характер появления выбросов, а также учитывать индивидуальную информативность наблюдений;

• алгоритмы адаптивного оценивания, существенно расширяющие сферу корректного применения метода максимального правдоподобия и

основанные на таких универсальных семействах распределений как устойчивые распределения, кривые Пирсона, обобщенное лямбда-распределение;

• результаты исследований разработанных алгоритмов идентификации регрессионных уравнений, основанных на переходе в частотную область (использовании характеристической функции);

• способ вычисления информационной матрицы Фишера для линейно-параметризованных регрессионных моделей с распределением ошибки, представимом в классе универсального лямбда-распределения;

• алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь и результаты их исследования;

• программная система устойчивого и адаптивного оценивания, а также планирования экспериментов для линейно-параметризованных регрессионных моделей и результаты решения задачи технического содержания, связанной с оцениванием провиса проводов воздушных линий.

Апробация работы. Результаты научных исследований, проведенных автором, докладывались и обсуждались на: пятой международной научно-практической конференции «Актуальные проблемы электронного приборостроения» АПЭП-2000 (Новосибирск, 2000); десятой международной научно-практической конференции «Актуальные проблемы электронного приборостроения» АПЭП-2010 (Новосибирск, 2010); пятой международной научно-практической конференции «Высокие технологии, фундаментальные и прикладные исследования, образование» (Санкт-Петербург, 2008).

Работа выполнена при поддержке ФЦП «Научные и научно-педагогические кадры инновационной России 2009-201 Згг.» (проект №П263), аналитической ведомственной целевой программы «Развитие научного потенциала высшей школы (2009-2011 гг.)», проводимой по заданию Министерства образования и науки РФ (проект №1.5.11), аналитической ведомственной целевой программы «Развитие научного потенциала высшей школы (2006-2008гг.)» (проект № РНП.2.1.2.43).

Публикации. Результаты, полученные в диссертации, опубликованы-в 29 научных работах общим объемом 49 п.л. (авторских 18,9 п.л.), включая: рекомендованные ВАК издания - 22, материалы трудов научно-технических конференций - 3, свидетельство о регистрации программы ЭВМ - 1, депонированные рукописи - 2, учебник, содержащий научные разделы, - 1.

Структура и объем работы. По структуре диссертация состоит из введения, шести разделов основного содержания, заключения, списка использованных источников и приложений. Основное содержание представлено на 329 страницах, включая 59 таблиц, 90 рисунков и список использованных источников из 164 наименований.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ Первый раздел имеет обзорный характер. В п.1.1 рассматриваются основные определения, понятия, используемые при анализе многофакторных объектов, существующие классические и устойчивые методы оценивания неизвестных параметров регрессионных уравнений. Приведена постановка задачи восстановления регрессионных зависимостей по результатам наблюдений за многофакторными объектами.

Пусть истинная зависимость отклика У рассматриваемой многофакторной системы от набора входных факторов может быть описана линейно-

параметризованным регрессионным уравнением вида:

у = Х9 + е, (1)

'/МО ••• /д(х1дУ

где X = : ' •. I - матрица значений регрессионных функций, /\(хт) •••

имеющая полный столбцовый ранг, т.е. = 6 = (8 р.,.,0^)7 - вектор

неизвестных параметров, подлежащих оцениванию, q - число неизвестных параметров, N - количество проведенных экспериментов; /¡(х) - известные действительные функции вещественного аргумента х, Ху - детерминиро-

ванные значения входных факторов Т7,,-,^ в N наблюдениях, у-(у У »)т - вектор значений отклика, е = (е,,...,£„/ - вектор случайных ошибок,

независящих от значений входных факторов.

Будем предполагать, что ошибки наблюдений е, являются независимыми

одинаково распределенными случайными величинами с плотностью у(м), для которых верно, что

Е(е,) = 0, £>(е,.) = о2. (2)

Задача состоит в том, чтобы по имеющимся исходным данным (значениям отклика и входных факторов) как можно точнее оценить вектор неизвестных параметров уравнения регрессии (1).

Далее, в п. 1.2 представлены результаты исследования методов оценивания одной из основополагающих характеристик случайных величин, математического ожидания, с точки зрения устойчивости по отношению к грубым ошибкам наблюдений. Сформулированы и доказаны утверждения о виде информационных матриц для порядковых статистик случайных величин, имеющих экспоненциальное и равномерное распределения [5].

Полученные результаты послужили обоснованием возможности перехода от классических алгоритмов идентификации регрессионных уравнений, основанных на использовании стандартных оценок математического ожидания, к устойчивым, и далее к адаптивным оценкам, более полно учитывающим закономерности, присущие исходным данным.

Второй раздел посвящен устойчивым методам оценивания параметров линейно-параметризованных регрессионных уравнений. Для построения алгоритмов, способных реагировать на различный характер вхождения выбросов, в п. 2.1 проведен анализ применимости показателей концентрации и показателей точности оценивания, основанных на остатках регрессии [6,26].

Теоретически факт присутствия единичных выбросов в выборке, как правило, не противоречит даже предположениям классических методов оценивания, поскольку и для нормально распределенной случайной ошибки

допустимы сколь угодно большие по абсолютной величине значения. Это соображение не дает формальных оснований для отклонения классических методов идентификации. Однако их применение в таких ситуациях может приводить к абсурдным результатам (оценкам). Традиционно рекомендуемые в таких ситуациях методы отбраковки также могут приводить к нежелательным результатам.

Тем не менее, использование информации, содержащейся в остатках, полученных после применения классических методов (например, МНК), помогает глубже исследовать особенности и свойства исходных данных, сделать необходимые корректировки в своих априорных предположениях и более обоснованно выбрать метод оценивания. При этом одна из основных задач состоит в определении информативности индивидуальных наблюдений.

Наиболее перспективным и удобным для практического использования автор считает подход, основанный на использовании хорошо известной матрицы проектора и связанных с ней величин. Учитывая введенные ранее обозначения и ориентируясь на метод наименьших квадратов, запишем вектор прогнозов для регрессионного уравнения (1)

у = Ну,

где Н = X(XrXj Хт — идемпотентная матрица проектора.

Как отмечают Rao C.R., Toutenburg Н. диагональные элементы этой матрицы /г.. определяют степень влияния i-го наблюдаемого значения отклика у, на оценку >', • Использование этой информации совместно с регрессионными остатками дает возможность исследовать характер влияния выбросов. Для этого предлагается рассматривать такие характеристики, как нормализованные остатки, стандартизованные остатки, внутренне и внешне стыодентизированные остатки. Поскольку эти величины взаимосвязаны, на практике достаточно рассматривать либо внутренне, либо внешне стыодентизированные остатки. Согласно Rao C.R. внешне стыодетизированные остатки более чувствительны к наличию выбросов, и с этой точки зрения их

использование предпочтительнее. Известны и расстояния Кука и Велша-Куха, также рассматриваемые автором при построении алгоритмов.

Учет взаимного расположения точек в пространстве входных факторов можно провести, используя не только диагональные элементы /г7 в качестве нормировок в стьюдентизированных остатках, но и явно. Для этого предлагается рассчитывать расстояния Махаланобиса и робастное расстояние. Первое из них определяется как мера удаления выбранного наблюдения от центра облака рассеяния исходных данных:

т =л/(/(х)-ц)т.г'(/(л.)-ц), о)

где /(•*,) - значение вектора регрессионных функций уравнения (1), вычисленное в точке i, р. - вектор средних значений регрессионных функций, S - ковариационная матрица в пространстве регрессоров.

В робастном расстоянии вектор средних значений и ковариационная матрица заменяются робастными оценками Т(х) и С соответственно:

Л0, = >/(/(*,)-П*))Г C'\f{Xi)-T{X)). (4)

По рекомендациям Rousseeuw P.J. способ оценки среднего должен соответствовать способу оценки параметров уравнения регрессии. Например, при использовании LMS-оценивания в качестве Т(х) выступает медиана, при LTS метода (англ. «least trimmed squares») среднее лучше оценивать через шорт.

Представленные в п.2.2 алгоритмы следует рассматривать как дальнейшее развитие идеи использования классификационного представления (рис.1), введенного Rousseeuw P.J.

ы' Выбросы (4) Наблюдения

разбалансировки

(Т) Регулярные Хорошие

наблюдения наблюдения

0 D*

Рис.1. Классификационное представление

В качестве значений £> при построении классификационного представления (см.рис.1) могут выступать значения робастного расстояния (4)

остатков |е,| можно заменить абсолютным значением любой из рассмотренных вариаций (нормализованные, стандартизованные и др.). Кроме того, выделенные на рис.1 области проранжированы по степени отрицательного влияния содержащихся в них наблюдений на точность оценивания параметров регрессионных уравнений. Это и позволило автору выдвинуть идею построения алгоритма управления оценочным подмножеством, который бы одновременно учитывал как характеристики точности (остатки), так и информативности наблюдений. Вычислительная схема алгоритма совпадает с ЬТ8-оцениванием, однако принцип формирования оценочного подмножества более гибкий, теперь он основан на ранжировании областей классификационного представления.

В п.2.3. рассматривается задача устойчивого оценивания при наличии одностронних выбросов [13]. В этой связи проводится развитие известной идеи К. Коепкег о квантильной регрессии на базе метода наименьших модулей. Данная идея может быть обобщена на случай произвольной функции потерь, если искать оценку неизвестных параметров исходного регрессионного уравнения (1) как решение оптимизационной задачи

где (е;) - функция потерь; <?,. - остатки регрессии; т - уровень используемого квантиля (0 < Т< 1).

Вид функции потерь следует определить в соответствии с базовым (желаемым) методом поиска оценок регрессионного уравнения. В частности, если исследователь отдает предпочтение классическому МНК:

При использовании квантильной регрессии по Я, Коепкег берется функция потерь на основе абсолютных значений остатков:

или расстояния Махаланобиса (3). По вертикальной оси абсолютное значение

в = агёшт£4(е,.),

При построении квантильных оценок на основе знакового метода предлагается решать следующую оптимизационную задачу

2

(5)

Очевидно, что задача (5) может быть записана в более простом виде

в = агяттУ г ]Г хи + ~ Е ха

ее«' И|>0 ",'<0

Однако при ее решении с использованием алгоритмов из [1,2] удобнее

использовать именно представление (5).

В п.2.4. рассматривается задача обнаружения гетероскедастичности в регрессионных уравнениях [7]. Данная проблема может иметь место при той или иной неоднородности условий проведения экспериментов, в том числе и при большой доле засорения выборки выбросами. Предлагаемый критерий основан на 5-методе множественного сравнения дисперсионного анализа. На первом шаге необходимо произвести разбиение области изменения переменной X на к классов однородности (интервалов) и осуществить построение вспомогательной однофакторной модели дисперсионного анализа

где в качестве значений переменной уа выступают абсолютные величины (или квадраты) У-го остатка из интервала I уравнения (1), ос, - главные эффекты, их число определяется количеством к, п,-число наблюдений в интервале г, ц-генеральное среднее, - случайная ошибка. Проверяемая гипотеза

Я0 :о? = о2 должна быть отвергнута, если хотя бы одна функция, допускающая оценку, представленная в виде парных сравнений главных эффектов, значима.

В п.2.5 показана возможность использования устойчивых методов, в частности знакового, для идентификации более сложных моделей, а именно моделей компонент дисперсии [3], записываемых в виде:

15

У = Хр+е, (6)

где У = (у|,...,у„)г - вектор, состоящий из ЛГнаблюдений; /?=(//,Д,...,/?^)7" -вектор фиксированных параметров, в котором: ц- генеральное среднее,

Д =(Д-1—-'Дл,-) ■ Д>- главный эффект у-го уровня /-го фиксированного фактора, 1=1,.,.,р, ] = ; и, - число уровней г-го фиксированного фактора, р - число фиксированных факторов; X - известная матрица значений переменных, соответствующих фиксированным параметрам; е = {е{,...,еи)т - вектор ошибок, обладающий следующей структурой

где г = 1 ,...,г - векторы главных эффектов случайных факторов; г -количество случайных факторов; С/,-, / = 1,...,г - известные матрицы значений переменных, соответствующих случайным факторам; е= (е,,..„е^)г - вектор случайных ошибок. При этом предполагается, что

Ъ ~ (О,0?/„,.), г = 1,...,г, соу(£,„^) = 0. ], соу(^.,е) = 0, е~(0,с#), где т, - число уровней (-го случайного фактора. Или в более сжатой форме

Е(е) = 0, Д(е) = ое2У, (7)

г о?

где V = +1. Величины с* ,...,а2г,с>1 получили название компонент

1=1 сте

дисперсии, а модель (6), (7) - модели компонент дисперсии.

Данная постановка отличается от классической отсутствием предположения о виде распределения случайных величин, здесь указываются только их математические ожидания и дисперсии.

При оценивании векторов неизвестных параметров ¡5 и °*2 = ...,сх*,<7*)г начинают, как правило, с определения оценок компонент дисперсии а?„.„а*, зная которые, вычисляют оценки фиксированных параметров по обобщенному методу наименьших квадратов:

р = (ХТУ'1Х)~ХТУ-1У, где V = t^rUyJ +1.

ы аге

Для оценивания компонент дисперсии разработано множество методов, в данной работе использованы оценки минимальной нормы или MINQ-оценки (англ. «minimum norm quadratic»). Для применения знакового метода проведено преобразование модели (6). Введем новую переменную

Z = V 2Y. (8)

Очевидно, что для Z справедливы соотношения

E(Z) = V 2ХР = ХР, D{Z) = C2J. (9)

С учетом (8), (9) знаковые оценки фиксированных параметров модели (6) могут быть получены как решение соответствующей оптимизационной задачи (п. 1.3). При этом, естественно, предполагается, что ошибки наблюдений должны быть независимыми случайными величинами с симметричным относительно нуля распределением.

В п.2.6. приведены результаты вычислительных экспериментов, направленных на исследование точности. разработанных алгоритмов. Проведенный анализ полученных результатов подтвердил работоспособность новых алгоритмов, а также позволил сделать некоторые рекомендации.

В третьем разделе представлены результаты, существенно расширяющие сферу корректного применения метода максимального правдоподобия. Основная идея состоит в привлечении дополнительной информации о закономерностях распределения случайной компоненты, извлекаемой непосредственно из имеющихся исходных данных. Разработанные алгоритмы реализуют данную идею, восстанавливая функцию плотности распределения, необходимую для применения метода максимального правдоподобия. Для обеспечения работоспособности разрабатываемых алгоритмов при различных практически реализуемых распределениях, в том числе при большой или даже бесконечной дисперсии, предлагается проводить идентификацию функции плотности в классе универсальных семейств распределений. В этой связи автор

рассматривает кривые Пирсона (п.3.3.1) [19,20], обобщенное лямбда-распределение (п.3.3.2) [24], устойчивые распределения (п.3.3.3) [23,27], а также ортогональное разложение функции плотности в ряд по моментам типа Грама-Шарлье (п.3.2) [9]. Кроме того, неизвестную функцию плотности предлагается восстанавливать с использованием непараметрического подхода, а именно на основе ядерных функций (3.4.2) [22], а также с помощью построения эмпирического аналога характеристической функции (п.3.4.1) [21].

Общая схема алгоритма предполагает выполнение следующих действий.

Шаг 1. Определение начального приближения оценок вектора неизвестных параметров 8° (к = 0), вычисленного, например, с помощью обычного МНК.

Шаг 2. Вычисление остатков ек = у-Хвк уравнения (1) и их выборочных моментов до требуемого порядка. Восстановление неизвестной функции плотности на основе того или иного из рассматриваемых подходов.

Шаг 3. Поиск очередного приближения 8м = arg шах /(ef ,<?*.....ekN, Qk),

( N \ N

где /(ej,...,eN,6) = ln( ПФ(с<''®)1 = - логарифмическая функция

правдоподобия.

Шаг 4. ЕслиЦё^1 — 0*|<6, то.завершение процесса, в противном случае

к := к +1 и переход на шаг 2(5- заданная погрешность вычисления).

Известно, что распределение с плотностью \|/(дс) является распределением Пирсона, если оно удовлетворяет дифференциальному уравнению вида

<3?\}/(jc) _ (*-а)\|/(дг). dx b0 + blx+b2x2 ' где а, b0, bu Ь2 - некоторые коэффициенты, значения которых определяются на основе первых четырех моментов изучаемой случайной величины: начальных mI,m2,m3,OT4 или центральных ¡а, Различают 12 типов кривых, 3

из них основные, оставшиеся - переходные.

Обобщенное лямбда-распределение также полностью определяется первыми четырьмя моментами, однако оно представляет собой более широкий

18

класс распределений. Особенностью данного распределения является тот факт, что функция плотности выражается в терминах обратных функций:

Я,

g(x) =

где 0<и<1, х-(2(и,Я.1Д2Дз>^4) = ^1

Л2

- функция, обратная к функции распределения изучаемой случайной величины.

Дальнейшее увеличение объема привлекаемой для использования информации может быть достигнуто за счет применения ортогональных разложений функции плотности в ряд по моментам, в частности разложение нормальной плотности известно как ряд Грама-Шарлье типа А

У(*)=-Фо

1 „ Г1 (х-тЛ \ п ТТ (х-т}

(10)

aya

я

где т - математическое ожидание, о - стандартная ошиока, р.=—i-,

а

P2=¿~-3 = -^--3 - коэффициенты асимметрии и эксцесса соответственно, о4

#,(•) - ортогональные полиномы Чебышева-Эрмита, Фо(-) - функция плотности стандартного нормального распределения.

Как отмечает Г.Крамер, если \|/(х) имеет ограниченную вариацию, то ряд (10) сходится к \у(х) в каждой точке непрерывности, а значит, может использоваться для аналитического представления искомой функции плотности с любой степенью точности.

Однако наиболее полный объем информации можно привлечь при использовании характеристической функции, которая, как известно, является полным аналогом функции плотности с точки зрения характеристики искомого распределения. Кроме того, в силу существования хорошо известного разложения характеристической функции по моментам можно говорить о том, что эта функция как бы объединяет в себе всю информацию, содержащуюся в моментах. Также известно, что семейство устойчивых распределений можно

ввести именно через характеристическую функцию, логарифм которой имеет вид (Золотарев В.М. Одномерные устойчивые распределения):

1пф(*) =

/ц/ - са |/| + фsign(t)tg — J, а * 1,

г|Х? — + ¿рл'^^О-— 1п|/|а = 1,

где i = ^PÍ - мнимая единица, 0<а<2, -1<Р<1, а>0, -о°<|1<°° -неизвестные параметры.

Устойчивые распределения упоминаются еще в работах П. Леви, датированных 1925 годом. Они вводятся как предельные (имеется в виду сходимость по распределению) для суммы одинаково распределенных случайных величин. Наиболее известным представителем данного семейства является нормальное распределение.

Из определения устойчивых распределений для а ^ 1 следует

Кеф(г) = ехр|-|ш|а ^соб^цг + |ш|а ?>sign(t)tg™j, (11)

На основе имеющейся реализации х,,...,^ случайной величины % можно определить выборочную оценку характеристической функции

= + (13)

¡=I

Обратный переход от характеристической функции к искомой функции плотности осуществляется посредством преобразования Фурье

где ф(() =11еф(*) + г1тф(?), Яеф(г), 1тф(г) определены в (11) и • (12)

соответственно (в работе были использованы значения к = 1.....Т,

Г-заданное число).

Достаточно простая идея идентификации устойчивых распределений состоит в минимизации расстояния между эмпирической оценкой (13) и аналитическим представлением характеристической функции (12):

||Ф(0-Ф(0|-> •

Известно (Press S.J.), ЧТО полученная таким образом оценка состоятельна. Данная идея была объединена с подходом Press S.J., в результате удалось повысить эффективность работы алгоритма (Press S.J. предлагал алгоритм полного перебора) и качество оценивания параметров регрессионного уравнения (1), что косвенно подтверждает и качество восстановления функции плотности.

В качестве альтернативного варианта автор предлагает использовать непараметрическое восстановление функции плотности, наиболее известным вариантом является оценка Розенблата-Парзена:

♦м-тЖ^х*)

где X - ширина ядра, К (г) - функция ядра. В работе рассматривались различные варианты ядерных функций, в том числе Епанечникова, Айвазяна и др.

В п.3.5 представлены результаты проведенных многочисленных вычислительных экспериментов, направленных на исследование работоспособности и применимости предложенных методов адаптивного оценивания в различных условиях засорения. Итогом можно считать выводы и рекомендации, сделанные на основе анализа результатов. В частности, показан результат идентификации устойчивого распределения по характеристической функции и восстановленная функция плотности остатков уравнения регрессии. В качестве истинной рассматривалась квадратичная зависимость, зашумленная аддитивной ошибкой

yi = Q0 + Qlxi + Q2x? + e,, ¿ = 1,...,N, (15)

где 60 = 50, в, =25, в2 =10, значения входного фактора jc выбирались из отрезка [-2,2]. Случайные ошибки е, моделировались независимыми и одинаково распределенными с функцией распределения

где ^.(хДа,) - функция нормального распределения с математическим

ожиданием, равным 0, и дисперсией а); це [0,1], ¿ = 1,2. Дисперсия сг,

соответствовала уровню шума 5%, дисперсия а22 - уровню шума 50%, доля выбросов 2%.

На рис.2,а представлены графики действительной и мнимой части характеристической функции восстановленного устойчивого распределения как функции ге[-тс,к]. Рис.2,б содержит графики выборочной эмпирической и восстановленной характеристических функций в комплексной области. На рис.2,в показаны графики эмпирической функции плотности и функции

плотности восстановленного устойчивого распределения остатков,

вычисленных на основе полученных оценок параметров 9.

Рис.2. Результаты восстановления распределения ошибок регрессии

Представленные рисунки позволяют сделать вывод о влиянии наличия в выборке даже небольшой доли выбросов на характеристическую функцию. Так, из рис.2,а и рис.2,б следует наличие мнимой части, что противоречит хорошо известному факту теории вероятности о действительности характеристической функции для центрированных нормально распределенных величин. Следствием, естественно, является искажение формы восстановленного распределения, что хорошо видно из рис.2,в, где наблюдается некоторая

асимметрия. Данные рисунки также свидетельствуют о достаточно хорошем качестве восстановления характеристической функции и плотности искомого распределения ошибок.

Далее рассмотрим результаты сравнительного исследования точности оценивания алгоритма, основанного на эмпирической характеристической функции, алгоритма с восстановлением устойчивого распределения (Koutrouvelis I.A.), а также модифицированного алгоритма Press S.J. и стандартного МНК. Исследование проводилось при разном уровне засорения ц. Варьирование ц будет приводить к изменению степени отклонения распределения случайной ошибки от нормального распределения (при ц, близких к 0.5, можно говорить о существенном изменении формы). Дисперсии а1, и аг2 такие же, как и ранее, ц изменялось от 0 до 0.5 с шагом 0.02. Результаты оценивания параметров уравнения (15) представлены на рис. 3, где

показано изменение

Q уст ~ 6

е.

для рассматриваемых алгоритмов. Объем

выборки - 500. Результаты усреднены по 600 вычислительным экспериментам.

of о- с,, о, о- о-" u О- о- Q' О- 4

Рис. 3. Точность оценивания в зависимости от ц (N = 500)

Из рис.3 видно, что алгоритм с идентификацией устойчивого распределения на основе подхода Koutrouvelis I.A., (линия «Уст.распрі») при малой степени засорения выбросами несколько превосходит алгоритм,

основанный на использовании эмпирической характеристической функции (линия «характ. функ»). Начиная примерно с (J. = 0.28 наблюдается обратная картина, что, видимо, связано с потерей унимодальности эмпирического распределения случайных ошибок, которая приводит к появлению у восстановленной функции плотности дополнительных «пиков» на «хвостах». В этом случае ММП не всегда удается найти глобальный экстремум, что сказывается на точности оценок алгоритма с эмпирической характеристической функции. Устойчивые распределения, как показано Золотаревым В.М., унимодальны, что является большим преимуществом с точки зрения использования ММП. Однако очевидно, что качественно описать неунимодальное распределение унимодальным возможно далеко не всегда, что приводит к примерно одинаковому качеству оценок, полученных всеми рассматриваемыми здесь алгоритмами (кроме МНК), при больших [I. Тем не менее лучшие результаты показывает алгоритм, основанный на модифицированном подходе Press S.J. (линия «Уст.распр2»), Причем его преимущество при малых и средних уровнях засорения выборки выбросами достаточно существенное.

Четвертый раздел посвящен задаче планирования эксперимента. В п.4.1 приведена постановка задачи, в п.4.2 проведено исследование влияния выбросов на информационную матрицу Фишера, используемую в МНК [8]. В частности отмечено, что наличие гетероскедастачности, которая может быть следствием присутствия в выборке грубых ошибок наблюдений, оказывает влияние на значения функционалов от информационной матрицы и, как следствие, на оптимальность планов. В связи с этим в п.4.3 предложены алгоритмы формирования оценочных подмножеств вычислительной схемы LTS-оценивания, учитывающие индивидуальную информативность наблюдений и обеспечивающие максимально возможное в условиях имеющихся данных приближение фактически используемого плана эксперимента к оптимальному [8,10,11].

Однако на практике может встречаться не только неоднородность дисперсии, но и неоднородность распределения ошибок на области планирования. Классические алгоритмы построения оптимальных планов эксперимента основаны на предположении о нормальности распределения ошибок наблюдений и не позволяют синтезировать планы в таких условиях. В связи с этим в п.4.4 посредством перехода к универсальным семействам распределений (обобщенному лямбда-распределнию) автору удалось разработать алгоритмы планирования, • учитывающие отмеченную неоднородность . распределения. В их основе лежит следующее сформулированное и доказанное утверждение [29].

Утверждение. Для регрессионной модели (1) с независимыми и имеющими лямбда-распределение ошибками £,-, i = l,...,N, элементы информационной матрицы вычисляются по следующей формуле:

N 1

МЛ , ] = \...р, к = \...р. (16)

1=1

Далее обозначим интеграл из (16) через = > ' = А^

о

и учтем, что при проведении наблюдений в соответствии с заданным планом £ соотношение (16) удобнее будет записать через весовые коэффициенты: ■

/=1 о

г

или м# =-%р1^(.Ху)/к(хис)Х(х1), что в точности совпадет с классической

М -

формулой (Федоров В.В.). Этот факт весьма интересен, поскольку позволяет говорить о некотором обобщении функции эффективности. В классическом варианте речь шла только о нормальном распределении и функция эффективности определялась

и давала возможность учитывать лишь неоднородность по дисперсии. Здесь, при обобщенном лямбда-распределении ошибок функция эффективности дает возможность учитывать неоднородность формы распределения, что, естественно, существенно расширяет область применения теории планирования эксперимента.

В п.4.5 приведены результаты работы представленного алгоритма в разных условиях, в том числе при наличии неоднородности в дисперсии случайной компоненты на области планирования и при неоднородности распределения. Прежде всего, необходимо отметить, что при отсутствии каких-либо неоднородностей интеграл в (16) можно вынести за знак суммы и его значение будет лишь постоянным сомножителем, не влияющим на получаемые планы. Однако далее при появлении неоднородной дисперсии с нормальным распределением функция эффективности уже не является постоянной на всей области планирования, и элементы информационной матрицы можно вычислять с использованием (16), поскольку нормальное распределение также представимо в классе лямбда-распределения.

Данное утверждение стало теоретической основой при построении алгоритмов синтеза оптимальных планов для D- и А-критериев оптимальности. Перейдем к рассмотрению результатов. Пусть истинная зависимость представлена в простейшем виде, как модель парной регрессии:

Э\-=0о + 01*и + ее i = где возможные значения входного фактора хп находятся в отрезке [-1,1],

Qucm = (25,25)т - истинные значения неизвестных параметров.

Поскольку область планирования - это отрезок [—1,1], предположим, что, например, на участках [-1,-0.5) и (0.5,1] ошибки имеют дисперсию равную 1, а на отрезке [-0.5,0.5] ошибки имеют дисперсию равную 0.5. Применение разработанного алгоритма для критерия D-оптимальности привело к хорошо известному результату (Федоров В.В. Теория оптимального эксперимента), представленному в табл. 1. Приведенное в последнем столбце значение

произведения К(х)с1(х,^*) свидетельствует об оптимальности планов. Это подтверждает корректность работы алгоритма.

Оптимальные планы при нормальном распределении ошибок

Таблица 1

Распределение ошибок Оптимальный план Mx)d(x,£,*)

GLD{0,1.408,0.161,0.161), хє [-1,-0.5) GLD(0,1.991,0.161,0.161), *є [-0.5,0.5] GLD(0,1.408,0.161,0.161),хє (0.5,1] Г -1 -0.5 0.5 [0.25 0.25 0.25 0. 2.001

Далее рассмотрим ситуацию, когда ошибки имеют отличное от нормального распределение. Были взяты следующие варианты обобщенного лямбда-распределения: с левой асимметрией GLD, (0,1,0.002,0.5), с правой асимметрией GLD2(0,1,0.5,0.002) и симметричное GLD3(0,1,0.5,0.5) и близкое к распределению Вейбулла GLD4 (0,1,0.04,0.3). В результате работы алгоритма были синтезированы оптимальные планы для следующих трех случаев распределения ошибок є,-:

I. GLD, при хє [-1,0) и GLD2 при хє [0,1] ;

II. GLDX при хє [-1,-0.5), GLD3 при хє [-0.5,0.5] и GLD2 при хє (0.5,1];

III. GLD, при хє [^1,-0.5), GLD3 при хє [-0.5,0), GLDA при хє [0,0.5] и GLD2 при хє (0.5,1].

На рис. 4.6, а)-в) представлены графики функции эффективности, вычисленной для данных ситуаций через интеграл. Естественно, что здесь не следует отождествлять значения функции эффективности с величинами, обратными дисперсии ошибки. В данном случае она характеризует неоднородность формы распределения на области планирования.

Из рис. 4,а) видно, что функция эффективности является постоянной на всей области планирования, поэтому оптимальные планы, полученные по предложенному алгоритму, будут совпадать с классическими. В случаях, представленных на рис. 4,6) и 4,в), функция эффективности не является постоянной, что является следствием неоднородности распределений на различных участках области планирования.

27

а) Для случая I б) Для случая II в) Для случая III

Рис. 4. Графики функции эффективности

В табл. 2 представлены результаты работы нового алгоритма планирования эксперимента для всех только что описанных случаев. Отметим, что в случае I, как и предполагалось, синтезированный авторским алгоритмом план совпал с классическим. В случаях II и III построенные оптимальные планы уже отличаются от классических. Также для всех трех случаев в последнем столбце приведено значение "к(х)<1(х,£,*), которое свидетельствует о выполнении условия Б-оптимальности.

Таблица 2

Синтезированные планы эксперимента__ ■

Распределение ошибок Оптимальный план

Случай I ■ [0.5 0.5] 2.001

Случай II Г-1 -0.5 0.5 11 [0.30 0.20 0.19 0.31] 2.002

Случай III ъ [0.12 0.39 0.49] 2.002

Далее приведем результаты, подтверждающие эффективность полученных планов. Для оценки эффективности планов воспользуемся величиной:

. ф рМ.100%, (17)

где ^о — классический оптимальный план эксперимента. В качестве итоговых

т , «

показателей точности оценивания £(0)"™ — 0,) , эффективности плана (р и

/=г '

28

определителя дисперсионной матрицы использовались усредненные по 100 вычислительным экспериментам значения. Результаты представлены в табл. 3. Кроме МНК оценивание также проводилось адаптивным методом, основанным на лямбда-распределении.

Таблица 3

Точность оценивания параметров регрессии на построенных планах

№ Метод наименьших квадратов Метод адаптивного оценивания ф, %

detM-'Clo) detiVT1^*)

I 2.654Е-02 2.851Е-01 2.654Е-02 4.564Е-02 0,38

II 9.650Е-02 5.188Е+00 2.272Е-02 8.439Е-03 5,82

III 1.213Е-01 3.560Е+00 6.798Е-02 8.589Е-02 3,85

По табл.3 видно, что в случае I качество оценок параметров для МНК и адаптивного метода практически совпадает. Значения определителя дисперсионной матрицы также близки. Это объясняется постоянством функции эффективности. Однако при неоднородности распределения случайной компоненты на области планирования применение адаптивного метода на синтезированных планах дает более точные результаты, выигрыш в среднем составляет 2.34 раза, и оценки обладают наименьшей общей дисперсией. Кроме того, построенные планы являются более эффективными, что подтверждается значением показателя (17), приведенным в таблице.

В пятом разделе описывается разработанная программная система устойчивого и адаптивного оценивания, а также планирования эксперимента [25,28]. В ее состав включены все рассмотренные в настоящей работе алгоритмы устойчивого и адаптивного оценивания параметров регрессионных зависимостей, а также алгоритмы планирования эксперимента. Полный перечень реализованных в программной системе методов представлен в табл.4.

Интерфейс данной программной системы реализован в среде программирования С++ Builder 6, которая, как известно, предоставляет средства визуального программирования, использование которых существенно ускоряет процесс разработки оконного диалога с пользователем.

Реализованные методы

Моделирова-

Метод Монте-Карло:

• Равномерное распределение;

• Нормальное распределение;

• Смесь двух нормальных распределений

Идентификация распределения остатков

• Метод моментов для идентификации

ОЬ-раслределе-ния;

• -Идентификации типа кривой Пирсона,

• Проверка унимодальности

распределения остатков.

Таблица 4

по режимам работы программной системы

Оценивание параметров регрессионных моделей

> Классические методы:

✓ МНК;

^ ММП с нормальной функцией плотности. ■ Устойчивые методы на основе МНК:

С-шаг ^ ЬТ5 с расстоянием Махаланобиса;

ЬТЭ с робастным расстоянием; ^ ЬТ5 с расстоянием Кука; ЬТЭ с расстояниемВелша-Куха

Другие устойчивые методы: ^ Знаковый;

Ранговый; ^ Квантильная регрессия: >на основе критерия знаков; >на основе МНМ; >на основе МНК. Адаптивные методы на основе:

Разложения плотности по моментам:

^Разложение Шарлье; ^Разложение Эджворта. ^ Универсальных распределений: >ОЬ-распределение;

> Кривые Пирсона. Характеристической функции: >По эмпирическому аналогу; >С идентификацией

устойчивого распределения. ^ Ядерных оценок: Жвадратическая функция; >Ядро Епанечникова;

V Гауссов о ядро; >Ядро Айвазяна;

> Прямоугольное ядро;_

Планирование эксперимента

• Построение плана, близкого к А- и Б-оптимальному для схемы ЬТ5-оценивания.

• Классический алгоритм построения А-. и В-оптималыюго плана.

• Обобщенный алгоритм построения А- и О-оптималыюго плана с

использованием

вь-

распределения.

Отдельные вычислительные алгоритмы, реализующие те или иные методы оценивания, создавались как самостоятельные \Ута00\¥5-пршюжения. Такой подход признан автором более практичным из-за наличия возможностей

отдельного компилирования и отладки модулей, а также их автономного использования. Последнее весьма удобно при проведении вычислительных экспериментов для исследований алгоритмов и вычислительных схем. Язык разработки вычислительных алгоритмов Си с элементами Си++.

Интеграция вычислительных модулей в головную программу осуществлялась посредством динамического создания новых процессов. Оперативная память под необходимые массивы также выделяется динамически, следовательно, ее требуемый объем полностью определяется размерностью задач и числом проведенных экспериментов. Размеры массивов, как правило, задаются пользователем в ходе определения модели и исходных данных либо вычисляются во время выполнения программы. Общий размер программной системы 8,48 Мб. Минимальные требования к системе - операционная система Microsoft Windows 9X/NT/2000/2003/XP.

В шестом разделе приведено решение практических задач технической и экономической направленности с использованием предложенных алгоритмов устойчивого и адаптивного оценивания параметров, а также планирования эксперимента. Результаты решения практических задач с использованием разработанных методов опубликованы в [4,14-17,26].

В п.6.1. рассматривается задача оценивания величины провиса проводов воздушных линий по данным лазерного сканирования. Результаты были использованы при проектировании генерального плана объектов ВОХР южного портала тоннеля №6 и северного портала тоннеля №7 проекта «Строительство второго сплошного пути на участке Сочи-Адлер Северо-Кавказской железной дороги» (улучшение инфраструктуры железнодорожной линии Туапсе-Адлер).

В п.6.2. рассматривается задача планирования уточняющих наблюдений для контроллинга состояния воздушных линий, решение которой получено на основе авторских алгоритмов планирования эксперимента, учитывающего особенности распределения случайной ошибки на разных участках проводов.

В п.6.3. представлены результаты применения устойчивых (LTS) и адаптивных методов в задаче построения уравнений зависимости расходов на

продовольственные, непродовольственные товары и услуги от потребительских расходов по данным бюджетных обследований домохозяйств НСО.

В заключении приведены основные результаты, полученные в диссертационной работе. Они сформулированы в виде следующих положений.

1) Проведено существенное развитие сферы корректного применения метода максимального правдоподобия при оценивании линейно-параметризованных регрессионных уравнений за счет перехода к универсальным семействам распределений (обобщенное лямбда-распределение, кривые Пирсона, устойчивые распределения).

2) Доказано утверждение, на основе которого впервые разработаны алгоритмы вычисления информационной матрицы и планирования экспериментов для распределений ошибки, представимых в семействе обобщенного лямбда-распределения.

3) Предложено и исследовано семейство новых алгоритмов формирования оценочных подмножеств, основанных на учете концентрации и индивидуальной информативности наблюдений.

4) Предложен оригинальный алгоритм выявления гетероскедастичности, основанный на идеях дисперсионного анализа. С помощью статистического моделирования проведено сравнительное исследование с другими алгоритмами обнаружения гетероскедастичности по мощности.

5) Разработана программная система устойчивого и адаптивного оценивания и планирования экспериментов для линейно-параметризованных регрессионных зависимостей.

6) Предложены, разработаны и исследованы алгоритмы оценивания параметров регрессионного уравнения, основанные на разложении функции плотности по моментам, а также использующие непараметрическую оценку неизвестной функции плотности по эмпирическому аналогу характеристической функции и на основе ядерных оценок.

7) Сформулированы и доказаны утверждения о ковариационных матрицах порядковых статистик для равномерного и экспоненциального распределений.

8) Предложены и исследованы алгоритмы, обобщающие идею квантилышй

регрессии на другие функции потерь, а также алгоритм идентификации

моделей компонент дисперсии знаковым методом.

9) С помощью разработанных алгоритмов решены практические задачи

технического и экономического содержания.

Основные научные результаты опубликованы в следующих работах:

1. Тимофеев B.C., Андрианова E.JI. Случайный поиск в задаче знакового оценивания параметров линейных регрессионных моделей. // «Актуальные проблемы электронного приборостроения-2000»,- Новосибирск: НГТУ,2000.-Т.З.-С.83-85.

2. Денисов В.И., Тимофеев B.C. Знаковый метод: преимущества, проблемы, алгоритмы //Научн.вестн.НГТУ.-Новосибирск:НГТУ.-2001.-Nl(10).-C.21-35.

3. Тимофеев B.C., Фаддеенков A.B., Щеколдин В.Ю. Исследование алгоритмов оценивания параметров модели . со структурированной ошибкой с использованием знакового метода //Научн. вестн. НГТУ. - Новосибирск: НГТУ,- 2005. -N2(20).-C.71-84.

4. Тимофеев B.C., Шипкова О.Т. Исследование социально-экономической детерминации преступности в региональном разрезе // Вопросы статистики.

- М.:2006, N3.-C.56-61.

5. Тимофеев B.C., Щеколдин В.Ю. Об оценивании статистических характеристик при анализе многофакторных объектов //Научн. вестн. НГТУ.

- Новосибирск: НГТУ.- 2006, -N3(24).-C.47-58.

6. Тимофеев B.C., Вострецова Е.А. Устойчивое оценивание параметров регрессионных моделей с использованием идей метода наименьших квадратов //Научн.вестн. НГТУ.-Новосибирск:НГТУ.-2007.-Н2(27).-С.57-67.

7. Тимофеев B.C., Фаддеенков A.B. Исследование критериев обнаружения гетероскедастичности в регрессионных моделях //Научн. вестн. НГТУ. -Новосибирск: НГТУ,- 2007. -N4(29).-C.3-14.

8. Денисов В.И., Тимофеев B.C. Исследование влияния грубых ошибок наблюдений на информационную матрицу Фишера // Сибирский журнал

индустриальной математики. - Новосибирск: СО РАН, 2008, Т. XI, № 2(34).

- С.65-73.

9. Денисов В.И., Тимофеев B.C. Оценивание параметров регрессионных зависимостей с использованием аппроксимации Грама-Шарлье // Автометрия. - Новосибирск: СО РАН, 2008.-Т.44, №6, С.3-12.

Ю.Тимофеев B.C., Вострецова Е.А. Адаптация алгоритмов метода наименьших взвешенных квадратов к использованию на оптимальных планах эксперимента //Высокие технологии, фундаментальные и прикладные исследования, образование. Сб. трудов пятой междунар. научн.-практич. конф. СПб., 28-30 апр. 2008г. - СПб.: Политехи, ун-т, 2008. -Т.12.-С.120-121.

П.Тимофеев B.C., Вострецова Е.А. Использование алгоритмов планирования .эксперимента в схеме LTS-оценивания //Научи, вестник НГТУ. -Новосибирск:НГТУ. - 2009. - N1(34). -С.95-106.

12. Денисов В.И., Тимофеев B.C. Построение алгоритмов оценивания параметров уравнения квантильной регрессии //Научн. веста. НГТУ. -Новосибирск-.НГТУ.- 2009. -N2(35).-C. 13-22.

13.Денисов В.И., Тимофеев B.C., Щеколдин В.Ю. Применение теории канонических моментов для оценивания плотности случайной величины, распределенной на отрезке И Вычислительные технологии. - Новосибирск: Изд-во СО РАН, 2009.- Т. 14, №4, С. 16-27.

14.Колесникова А.Ю., Скосырский В.А., Тимофеев B.C., Храмцова О.В., Чистяков В.М. Оценка доступности социально-значимых товаров для малообеспеченного населения // Сибирская финансовая школа. -Новосибирск, Изд-во САФБД. - 2009,- N2(73). - С.24-30.

15.Тимофеев B.C., Колесникова А.Ю. Прогнозирование продаж предприятия розничной торговли // Экономика и математические методы. - М.: Наука, 2009.- Т.45, №3. - С.48-63.

16.Тимофеев B.C., Фаддеенков A.B., Щеколдин В.Ю. Эконометрика. Учебник.

- Новосибирск: НГТУ, 2009,- 346с.

17.Тимофеев B.C., Колесникова А.Ю. Идентификация моделей зависимости спроса от дохода в рамках неоклассической теории. //Доклады академии наук высшей школы РФ. - Новосибирск: НГТУ.- 2009. -N2(13).-C.51-65.

18. Совершенствование методов и алгоритмов анализа сложных многофакторных объектов / А. 10. Колесникова, Е. С. Морозова, В. С. Тимофеев, Е. А. Хайленко / НГТУ., каф. ТР., Новосибирск, 2009. - 101 с. -Деп. в ВНТИЦ №ГР 02201150649.

19.Тимофеев В,С. Оценивание параметров регрессионных зависимостей с использованием кривых Пирсона. 4.1 //Научн. вестник НГТУ. -Новосибирск: НГТУ. - 2009. - N4(37). -С.57-66.

20.Тимофеев B.C. Оценивание параметров регрессионных зависимостей с использованием кривых Пирсона. 4.2. //Научн. вестник НГТУ. -Новосибирск: НГТУ. -2010. -N1(38). -С.57-62.

21.Тимофеев B.C. Оценивание параметров регрессионных зависимостей на основе характеристической функции. //Научн. вестник НГТУ. -Новосибирск: НГТУ. - 2010. - N2(39). -С.43-52.

22.Тимофеев B.C. Ядерные оценки плотности при идентификации уравнений регрессии //Научн. вестник НГТУ- Новосибирск: НГТУ.-2010.-№(40).-С.41-50.

23. Денисов В.И., Тимофеев B.C. Повышение качества идентификации устойчивых распределений и оценивание параметров регрессий //Научн. вестник НГТУ. - Новосибирск: НГТУ. - 2010. - N4(41). -С. 3-12.

24.Тимофеев B.C., Хайленко Е.А Адаптивное оценивание параметров регрессионных моделей с использованием обобщенного лямбда -распределения // Доклады академии наук высшей школы РФ. -Новосибирск: Изд-во НГТУ.- 2010. -N2(15).-C.25-36.

25.Тимофеев B.C., Хайленко Е.А. Программная система устойчивого и адаптивного оценивания параметров регрессии и планирования эксперимента // «Актуальные проблемы электронного приборостроения»

АПЭП-2010: Материалы X междунар. конф., Новосибирск, 22-24 сент. 2010г. - Новосибирск: Изд-во НГТУ, 2010. -Т.6.- С.73-79.

26. Совершенствование методов и алгоритмов анализа сложных . многофакторных объектов / В. С. Тимофеев, А. Ю. Колесникова,

Е. С. Морозова, Е. А. Хайленко / НГТУ., каф. ТР., Новосибирск, 2010. - 80с.

- Деп. в ВНТИЦ №ГР 2201156798.

27.Денисов В.И., Тимофеев B.C. Устойчивые распределения и оценивание параметров регрессионных зависимостей //Известия Томского политехнического университета. - Томск: Изд-во ТПУ. - 2011. - Т.318, №2.

- С.10-15.

28.Пат. 2011614692. Программная система устойчивого и адаптивного оценивания параметров регрессионных моделей и планирования эксперимента /Денисов В.И., Тимофеев B.C., Хайленко Е.А., НГТУ -2011613035; залв. 28.04.11; опуб. 15.06.11,- 1с.

29.Тимофеев B.C., Хайленко Е.А. Оптимальное планирование эксперимента для регрессионных .моделей с обобщенным лямбда-распределением ошибок //Научн. вестник НГТУ. - Новосибирск:НГТУ. - 2011. - N1(42). -С. 27-37.

Отпечатано в типографии Новосибирского государственного технического университета 630092, г. Новосибирск, пр. К. Маркса, 20,

тел./факс (383) 346-08-57 формат 60 X 84/16 объем 2.5 п.л. тираж 115 экз. Заказ № 279 подписано в печать 07.02.2012 г

Оглавление автор диссертации — доктора технических наук Тимофеев, Владимир Семенович

Введение.

1. ЛОГИКА И ОСНОВНЫЕ ПРОБЛЕМЫ ПРИКЛАДНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА МНОГОФАКТОРНЫХ ОБЪЕКТОВ.

1.1. Генеральная совокупность, выборка и основные определения.

1.2. Оценивание основных статистических характеристик случайных величин.

1.2.1. Оценивание математического ожидания случайных величин.

1.2.2. Оценивание других характеристик случайных величин.

1.3. Идентификация регрессионных зависимостей.

1.3.1. Постановка задачи регрессионного анализа

1.3.2. Классические методы идентификации

1.3.3. Основные проблемы идентификации.

1.3.4. Устойчивые методы.

1.3.4.1. Метод наименьших модулей, Ьр- и М - оценки.

1.3.4.2. Знаковый метод.

1.3.4.3. Ранговый метод.

1.3.4.4. ЬТБ-метод (метод наименьших уравновешенных квадратов).

1.3.4.5. ЬМБ-метод.

1.3.4.6. Квантильная регрессия.

1.3.5. Непараметрическая регрессия.

1.3.6. Повышение эффективности оценивания посредством использования теории планирования эксперимента.

1.3.5.1. Основные понятия и определения.

1.3.5.2. Критерии оптимальности.

1.4. Обоснование целей и задач исследования.

1.5. Выводы.

2. УСТОЙЧИВЫЕ МЕТОДЫ ИДЕНТИФИКАЦИИ РЕГРЕССИОННЫХ МОДЕЛЕЙ.

2.1. Анализ инструментов для исследования информативности наблюдений и влияния выбросов.

2.2. Модификация вычислительной схемы ЬТБ-оценивания.

2.3. Некоторые обобщения метода квантильной регрессии.

2.4. Алгоритм обнаружения гетероскедастичности, основанный на идеях дисперсионного анализа.

2.5. Адаптация знакового метода для оценивания моделей компонент дисперсии.

2.5.1. Постановка задачи идентификации модели компонент дисперсии.

2.5.2. Идентификация модели компонент дисперсии знаковым методом.

2.5.3. Проблема вычисление функции от матрицы.

2.6. Результаты вычислительных экспериментов.

2.6.1. Исследование семейства алгоритмов ЬТБ-оценивания.

2.6.2. Исследование алгоритмов квантильного оценивания.

2.6.3. Сравнение критериев выявления гетероскедастичности.

2.7. Выводы.

3. ПОСТРОЕНИЕ АДАПТИВНЫХ МЕТОДОВ И АЛГОРИТМОВ ОЦЕНИВАНИЯ РЕГРЕССИОННЫХ ЗАВИСИМОСТЕЙ.

3.1. Постановка задачи.

3.2. Использование ортогональных разложений плотностей.

3.2.1. Разложение Грама-Шарлье.

3.2.2. Построение.алгоритма адаптивной идентификации.

3.2.3 Оценка плотности случайной величины, распределенной на отрезке

3.3. Использование универсальных семейств распределений

3.3.1. Распределения Пирсона.

3.3.2. Лямбда-распределение

3.3.3. Устойчивые распределения.

3.3.3.1. Способы идентификации устойчивых распределений.

3.3.3.2. Улучшение подхода Б-ТРгезБ

3.3.3.3. Построение алгоритма.

3.4. Непараметрические оценки плотности.

3.4.1. Использование характеристической функции.

3.4.2. Использование ядерных оценок функции плотности.

3.5. Результаты вычислительных экспериментов.

3.5.1. Исследование алгоритма, основанного на разложении Грама-Шарлье.

3.5.2. Исследование МЕС-алгоритма.

3.5.3. Исследование алгоритма, основанного на кривых Пирсона.

3.5.4. Встречаемость различных типов кривых Пирсона.

3.5.5. Исследование алгоритма, основанного на Лямбда-распределении.

3.5.6. Исследование алгоритмов, основанных на устойчивых распределениях.

3.5.7. Исследование алгоритмов, основанных на непарамерических оценках плотности.

3.5.7.1. Исследование алгоритма, основанного на эмпирической характеристической функции.

3.5.7.2. Исследование алгоритмов, основанных на ядерных оценках плотности.

3.6. Выводы.

4. ПОВЫШЕНИЕ КАЧЕСТВА УСТОЙЧИВОГО И АДАПТИВНОГО ОЦЕНИВАНИЯ ПОСРЕДСТВОМ ИСПОЛЬЗОВАНИЕ ИДЕЙ ТЕОРИИ ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА.

4.1. Постановка задачи.

4.2. Влияние выбросов на информационную матрицу метода наименьших квадратов.

4.3. Алгоритм формирования оценочного подмножества.

4.4. Планирование уточняющих наблюдений для адаптивного алгоритма, основанного на лямбда-распределении.

4.5. Результаты исследований.

4.5.1. Исследование алгоритма формирования оценочных подмножеств

4.5.2. Построение и исследование планов при обобщенном лямбда-распределении ошибки

4.6. Выводы.

5. ПРОГРАММНАЯ СИСТЕМА УСТОЙЧИВОГО И АДАПТИВНОГО ОЦЕНИВАНИЯ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ

И ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА.

5.1. Предпосылки для создания программной системы.

5.2. Назначение, технические характеристики и особенности построения

5.3. Решаемые задачи и структура программной системы.

5.4. Интерфейс программной системы.

5.4.1. Режим моделирования.

5.4.2. Режим оценивания параметров уравнения регрессии.

5.4.3. Режим идентификации распределения остатков.

5.4.4. Режим планирования эксперимента.

5.5. Выводы.

6. ПРИМЕНЕНИЕ ПРЕДЛОЖЕННЫХ МЕТОДОВ И АЛГОРИТМОВ

ДЛЯ РЕШЕНИЯ РЕАЛЬНЫХ ЗАДАЧ.

6.1. Оценивание кривой провисания троса.

6.1.1. Постановка задачи

6.1.2. Результаты оценивания

6.2. Планирование уточняющих наблюдений для контроллинга воздушных линий.

6.3. Идентификация зависимостей спроса от дохода.

6.3.1. Описание проблемы, характеристика и подготовка исходных данных.

6.3.2. Результаты идентификации простейших моделей.

6.4. Выводы.

Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Тимофеев, Владимир Семенович

Актуальность темы исследований. Проведение прикладных исследований, связанных с контролем качества продукции, оптимизацией технологических процессов, сертификацией сложных технических изделий, решением социологических и экономических задач, медико-биологических и сельскохозяйственных исследований, исследований в демографии и др. часю приводит к необходимости анализа данных. При этом естественным является желание экспериментатора располагать наиболее достоверными и качественными результатами, которые максимально согласуются с природой имеющихся исходных данных. Для получения таких результатов требуется комплексное применение широкого спектра методов теоретической и прикладной статистики, обеспечивающих извлечение и последующее использование присущих исходным данным закономерностей.

В этой связи стоит обратить внимание на метод максимального правдоподобия (ММП) и связанное с ним количество информации по Фишеру, роль которого в математической и прикладной статистике трудно переоценить. Он часто ставится в основу не только теоретических, но и прикладных статистических исследований включая задачи анализа многофакторных объектов. В частности, можно говорить о том, что на нем основана теория планирования эксперимента, поскольку одно из ее базовых понятий -информационная матрица определяется именно через вторую производную логарифмической функции правдоподобия. Хорошо известна связь классического метода наименьших квадратов (МНК) с методом максимального правдоподобия для нормально распределенных ошибок. Обеспечивая при данном предположении наличие целого ряда оптимальных свойств получаемых оценок, метод максимального правдоподобия становится объектом предпочтения специалистов.

На сегодняшний день существует достаточно большое число теоретических и прикладных работ, посвященных применению метода максимального правдоподобия. В области планирования оптимальных экспериментов следует отметить результаты, полученные Налимовым В.В., Федоровым В.В., Горским В.Г., Лецким Э.К., Ермаковым С.М., Седуновым Е.В., Козловым В.П., Денисовым В.И., Григорьевым Ю.Д., Поповым A.A., Хабаровым В.И., Лисициным Д.В. [20-23,56,57,66,112]. В области классического регрессионного анализа следует отметить работы Айвазяна С.А., Pao С.Р., Кендалла М.Дж., Стьюарта А., Сирла С., Дрейпера Н., Смита Н. [1,3,31,42,76,148,149,157].

Однако предположение нормальности распределения случайной компоненты уравнения регрессии, лежащее в основе классических методов, является достаточно сильным и серьезно ограничивает спектр корректно решаемых задач. В частности, при наличии тех или иных неоднородностей в условиях проведения наблюдений (экспериментов) может иметь место появление некоторого числа наблюдений, резко выделяющихся из основной массы. Это обстоятельство может привести к той или иной потере точности в силу искажения априорного распределения случайной компоненты, т.е. к нарушению предположения нормальности. Для решения данной проблемы разработан целый ряд специальных устойчивых методов, в том числе непараметрических. Исследованиями в этой области занимались такие признанные специалисты как Хьюбер П., Хампель Ф, Davies Р., Rousseeuw Р. Смоляк С.А., Болдин М.В., Тюрин Ю.Н., Лисицин Д.В. [9,21,79,115,120,131,150-155] и др. Вместе с тем, отказ от метода максимального правдоподобия часто означает и потерю оптимальных свойств оценок, присущих данному методу. Это одна из причин, из-за которой автор остается в рамках классического подхода максимально-правдоподобного оценивания, присущего Новосибирской школе анализа многофакторных объектов и планирования эксперимента.

С другой стороны, фактически реализуемые на практике распределения случайных ошибок далеко не всегда удается представить в рамках тех или иных хорошо известных теоретических законов. Исследователь может лишь иметь общие представления о его форме, плюс, возможно, сформулировать отдельные гипотезы о наличии тех или иных особенностей (например, сделать корректное предположение о значении математического ожидания). Очевидно, что в этом случае метод максимального правдоподобия в классической постановке применить не получится. Методы и алгоритмы планирования эксперимента также могут приводить далеко не к самым оптимальным вариантам решения, поскольку они разрабатывались в предположении нормальности распределения случайной ошибки. Следовательно, алгоритмы идентификации должны сами извлекать информацию о характере распределения из исходных данных и обладать определенной гибкостью для осуществления подстройки под многообразие фактически реализуемых распределений. На данный момент известны такие алгоритмы для обобщенного распределения Лапласа [21], но они сильно ограничены предположением симметрии изучаемого распределения.

Один из вариантов решения заключается в переходе к универсальным распределениям. Их основное преимущество состоит в возможности описания большого круга практических ситуаций. В частности, использование кривых Пирсона позволит говорить об анализе ситуаций с такими распределениями как бета-, гамма-, Стьюдента, экспоненциальное и др. Еще более широким является обобщенное лямбда-распределение, включающее не только хорошо известные в теории вероятности распределения, но и целое множество других. Перспективным также представляется переход в частотную область посредством построения характеристической функции, что обеспечит привлечение более полной информации и позволит идентифицировать так называемые устойчивые распределения. Они также являются весьма широким классом распределений, включающим распределения с большой или даже бесконечной дисперсией (например, распределение Коши). Это обстоятельство делает его предпочтительным при исследовании закономерностей на основе сильно засоренных данных.

Цель и задачи. Таким образом, актуальным является построение универсальных алгоритмов оценивания параметров регрессионных моделей, основанных на методе максимального правдоподобия, которые обеспечивают корректную идентификацию для широкого круга практически реализуемых распределений. Решение этой проблемы откроет новые возможности и для развития теории планирования эксперимента, а также, в ряде случаев, будет обеспечивать устойчивость оценивания и сохранение хорошо известных оптимальных свойств. Именно такая формулировка и рассматривается автором в качестве цели данной работы. Для достижения данной цели были поставлены и решены следующие задачи:

• обеспечить возможность адаптации алгоритмов оценивания параметров регрессионных уравнений к широкому спектру практически реализуемых распределений случайной компоненты;

• разработать новые алгоритмы устойчивого оценивания, позволяющие использовать информацию об индивидуальной информативности наблюдений, а также реагировать на разный характер имеющихся в исходных данных выбросов;

• провести расширение возможностей теории планирования эксперимента за счет более слабого предположения о принадлежности распределения случайной ошибки обобщенному лямбда-распределению;

• разработать алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь, а также алгоритм идентификации моделей компонент дисперсии знаковым методом;

• осуществить построение программной системы, интегрирующей все предложенные алгоритмы устойчивого и адаптивного оценивания параметров линейно-параметризованных регрессионных уравнений, а также алгоритмы планирования эксперимента и с ее помощью провести решение задач технического и экономического содержания.

Область исследования. Содержание диссертации соответствует области исследования п.5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений» паспорта специальности 05.13.17 - «Теоретические основы информатики» (в области технических наук).

Методы исследования. Исследование основано на корректном использовании положений теории вероятностей, математической статистики, математического анализа и линейной алгебры, теории планирования эксперимента, регрессионного анализа, численных методов, методов оптимизации и методов статистического моделирования.

Достоверность и обоснованность научных положений, рекомендаций и выводов обеспечивается корректным использованием методов исследования, согласованностью выводов с известными теоретическими законами и положениями, а также подтверждением полученных аналитических выводов результатами вычислительных экспериментов, проведенными на основе технологии статистического моделирования.

Научная новизна работы заключается в следующем: впервые предложено проводить адаптивное оценивание параметров линейно-параметризованных регрессионных уравнений на основе восстановленной по моментам функции плотности случайной компоненты, а также показана возможность использования для этой цели универсальных распределений; сформулировано и доказано утверждение, на основе которого впервые разработан уникальный алгоритм синтеза оптимальных планов эксперимента для распределений ошибки, представимых в классе лямбда-распределения; показана возможность перехода в частотную область при построении характеристической функции для обнаружения закономерностей распределения случайной компоненты и более качественного восстановления регрессионной зависимости. Разработаны и исследованы параметрические и непараметрические алгоритмы; предложен ряд новых алгоритмов построения оценочных подмножеств для метода наименьших уравновешенных квадратов, использующих показатели концентрации наблюдений, а также идеи планирования эксперимента. Посредством статистического моделирования проведено исследование разработанных алгоритмов, по результатам которого сформулирован ряд рекомендаций по их использованию; предложены и исследованы алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь, а также алгоритм идентификации моделей компонент дисперсии знаковым методом; создана программная система, предназначенная для устойчивого и адаптивного оценивания параметров линейно-параметризованных регрессионных моделей и планирования эксперимента, с использованием которой решен ряд реальных задач технического и экономического содержания. Данная система была зарегистрирована в виде объекта интеллектуальной собственности как программа ЭВМ (№ гос. per. 2011613035) [73]. На защиту выносятся:

• семейство алгоритмов построения оценочных подмножеств, позволяющих вычислительной схеме метода наименьших уравновешенных квадратов реагировать на характер появления выбросов, а также учитывать индивидуальную информативность наблюдений;

• алгоритмы адаптивного оценивания, существенно расширяющие сферу корректного применения метода максимального правдоподобия и основанные на таких универсальных семействах распределений как устойчивые распределения, кривые Пирсона, обобщенное лямбда-распределение;

• результаты исследований разработанных алгоритмов идентификации регрессионных уравнений, основанных на переходе в частотную область (использовании характеристической функции);

• способ вычисления информационной матрицы Фишера для линейно-параметризованных регрессионных моделей с распределением ошибки, представимом в классе универсального лямбда-распределения;

• алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь и результаты их исследования;

• программная система устойчивого и адаптивного оценивания, а также планирования экспериментов для линейно-параметризованных регресс-сионных моделей и результаты решения задачи технического содержания, связанной с оцениванием провиса проводов воздушных линий. Апробация работы. Результаты научных исследований, проведенных автором, докладывались и обсуждались на: пятой международной научно-практической конференции «Актуальные проблемы электронного приборостроения» АПЭП-2000 (Новосибирск, 2000); десятой международной научно-практической конференции «Актуальные проблемы электронного приборостроения» АПЭП-2010 (Новосибирск, 2010); пятой международной научно-практической конференции «Высокие технологии, фундаментальные и прикладные исследования, образование» (Санкт-Петербург, 2008). Разработанные методы и алгоритмы используются в аналитической работе мэрии города Новосибирска, ООО «ЗапСибГеоПроект», холдинге «Сибирский Гигант», а также в учебном процессе НГТУ, что подтверждено актами о внедрении.

Работа выполнена при поддержке ФЦП «Научные и научно-педагогические кадры инновационной России 2009-2013гг.» (проект № П263), аналитической ведомственной целевой программы «Развитие научного потенциала высшей школы (2009-2011 гг.)», проводимой по заданию Министерства образования и науки РФ (проект № 1.5.11), аналитической ведомственной целевой программы «Развитие научного потенциала высшей школы (2006-2008гг.)» (проект № РНП.2.1.2.43).

Публикации. Результаты, полученные в диссертации, опубликованы в 29 научных работах [24-30,45,78,80,81,88-107,133] общим объемом 49 п.л. (авторских 18,9 п.л.), включая: рекомендованные ВАК издания - 22, материалы трудов научно-технических конференций - 3, свидетельство о регистрации программы ЭВМ - 1, депонированные рукописи - 2, учебник, содержащий научные разделы, - 1.

Структура и объем работы. По структуре диссертация состоит из введения, шести разделов основного содержания, заключения, списка использованных источников и приложений. Основное содержание представлено на 329 страницах, включая 59 таблиц, 90 рисунков и список использованных источников из 164 наименований.

Заключение диссертация на тему "Обнаружение и использование закономерностей в исходных данных при построении регрессионных моделей и планировании эксперимента"

Основные результаты, полученные в диссертационной работе, могут быть сформулированы в виде следующих положений.

1) Проведено существенное развитие сферы корректного применения метода максимального правдоподобия при оценивании линейно-параметризованных регрессионных уравнений за счет перехода к универсальным семействам распределений (обобщенное лямбда-распределение, кривые Пирсона, устойчивые распределения).

2) Доказано утверждение, на основе которого впервые разработаны алгоритмы вычисления информационной матрицы и планирования экспериментов для распределений ошибки, представимых в семействе обобщенного лямбда-распределения.

3) Предложено и исследовано семейство новых алгоритмов формирования оценочных подмножеств, основанных на учете концентрации и индивидуальной информативности наблюдений.

4) Предложен оригинальный алгоритм выявления гетероскедастичности, основанный на идеях дисперсионного анализа. С помощью статистического моделирования проведено сравнительное исследование с другими алгоритмами обнаружения гетероскедастичности по мощности.

5) Разработана программная система устойчивого и адаптивного оценивания и планирования экспериментов для линейно-параметризованных регрессионных зависимостей. Данная система была зарегистрирована в виде объекта интеллектуальной собственности как программа ЭВМ (№ гос. per. 2011613035) [73].

6) Предложены, разработаны и исследованы алгоритмы оценивания параметров регрессионного уравнения, основанные на разложении функции плотности по моментам, а также использующие непараметрическую оценку неизвестной функции плотности по эмпирическому аналогу характеристической функции и на основе ядерных оценок.

7) Сформулированы и доказаны утверждения о ковариационных матрицах порядковых статистик для равномерного и экспоненциального распределений.

8) Предложены и исследованы алгоритмы, обобщающие идею квантильной регрессии на другие функции потерь, а также алгоритм идентификации моделей компонент дисперсии знаковым методом.

9) С помощью разработанных алгоритмов решены практические задачи технического и экономического содержания.

ЗАКЛЮЧЕНИЕ

Библиография Тимофеев, Владимир Семенович, диссертация по теме Теоретические основы информатики

1. Айвазян С.А. Прикладная статистика. Исследование зависимостей.-Справочное издание. М.: Финансы и статистика, 1985.-488с.

2. Айвазян С.А., Мхитарян B.C. Прикладная статистика и основы эконометрики. Т.2. М.: Юнити, 2001. - 432 с.

3. Александров П. С. Лекции по аналитической геометрии. М.: Наука, 1971. - 328 с.

4. Андерсон Т. Статистический анализ временных рядов. М.: Мир, 1976.-756с.

5. Архангельский А.Я. Программирование в С++ Builder- M.: Бином, 2010. -1230с.

6. Беляев Н.М. Сопротивление материалов. М.: Наука, 1965. - 856 с.

7. Бирман И.Я. Уровень жизни: проблемы измерения // Экономическая наука современной России. 2000. - №2. - С. 35-52.

8. Болдин М.В., Симонова Г.И., Тюрин Ю.Н. Знаковый статистический анализ линейных моделей. М.: Наука, Физматлит, 1997. - 208 с.

9. Ю.Боровков A.A. Математическая статистика. Оценка параметров, проверка гипотез. М. Наука, 1984. - 472с.

10. Введение в теорию порядковых статистик. / Пер. с англ. Боярского А.Я. -М.: Статистика, 1970. 414 с.

11. Вучков И. и др. Прикладной линейный регрессионный анализ / И. Вучков, Л. Бояджиева, Е. Солаков М.: Финансы и статистика, 1987. 239с.

12. Гаек Я., Шидак 3. Теория ранговых критериев. М.: 1971. 375с.

13. Гантмахер Ф.Р. Теория матриц. М.: Наука, 1966. - 576 с.

14. Геолидар Электронный ресурс. Режим доступа: http://geolidar.dev.machaon.ru/ publications/article/electro-info(6)-2004. - Загл. с экрана.

15. Гихман И.И., Скороход A.B., Ядренко М.И. Теория вероятностей и математическая статистика. Киев, 1979. - 408 с.

16. Гнеденко Б.В. Курс теории вероятностей. М.: Едиториал УРСС, 2001. -320 с.

17. Горшков А.Г. Трошин В.Н., Шалашилин В.И. Сопротивление материалов: Учеб. Пос. 2-е изд., испр М.: Физматлит,2005. - 544с.

18. Григорьев Ю.Д., Щеколдин В.Ю. Канонические моменты вероятностных мер. // Сборник научных трудов НГТУ, №3(27), 2000. С. 17-20.

19. Денисов В.И. Математическое обеспечение системы ЭВМ-экспериментатор (регрессионный и дисперсионный анализы). М.: Наука, 1977. - 252 с.

20. Денисов В.И., Лисицин Д.В. Методы построения многофакторных моделей по неоднородным, негауссовским, зависимым наблюдениям. -Новосибирск: Изд-во НГТУ. 2008. - 360с.

21. Денисов В.И., Полетаева H.A., Хабаров В.И. Экспертная система для анализа многофакторных объектов. Дисперсионный анализ. Прецедентный подход. Новосибирск, 1992. 127с.

22. Денисов В.И., Попов A.A. Пакет программ оптимального планирования эксперимента. М.: Изд-во "Финансы и статистика", 1986.-159с.

23. Денисов В.И., Тимофеев B.C. Знаковый метод: преимущества, проблемы, алгоритмы //Научн. вестн. НГТУ. Новосибирск: Изд-во СО РАН.- 2001. -N1(10).-С.21-35.

24. Денисов В.И., Тимофеев B.C. Исследование влияния грубых ошибок наблюдений на информационную матрицу Фишера // Сибирский журнал индустриальной математики. Новосибирск: Изд-во инстит. матем. СО РАН, 2008, Т. XI, № 2(34). - С.65-73.

25. Денисов В.И., Тимофеев B.C. Оценивание параметров регрессионных зависимостей с использованием аппроксимации Грама-Шарлье // Автометрия. Новосибирск: Изд-во СО РАН, 2008.- Т.44, №6, С.3-12.

26. Денисов В.И., Тимофеев B.C. Повышение качества идентификации устойчивых распределений и оценивание параметров регрессий //Научн. вестник НГТУ. Новосибирск: Изд-во СО РАН. - 2010. - N4(41). -С. 3-12.

27. Денисов В.И., Тимофеев B.C. Построение алгоритмов оценивания параметров уравнения квантильной регрессии //Научн. вестн. НГТУ. -Новосибирск: Изд-во СО РАН,- 2009. -N2(35).-C. 13-22.

28. Денисов В.И., Тимофеев B.C. Устойчивые распределения и оценивание параметров регрессионных зависимостей // Известия Томского политехнического университета. Томск: Изд-во ТПУ. - 2011. - Т.318, №2.- С.10-15.

29. Денисов В.И., Тимофеев B.C., Щеколдин В.Ю. Применение теории канонических моментов для оценивания плотности случайной величины, распределенной на отрезке // Вычислительные технологии. Новосибирск: Изд-во СО РАН, 2009.- Т. 14, №4, С. 16-27.

30. Дрейпер Н., Смит Н. Прикладной регрессионный анализ. М.: Статистика, 1973.- 392 с.

31. Жданов А.И. Прямые рекурентные методы решения линейных задач метода наименьших квадратов. // Журнал вычислительной математики и математической физики. 1995. Т.34. №6. - С.805-814.

32. ЗЗ.Закс JL Статистическое оценивание. М.: Статистика, 1976. 598с.34.3акс Ш. Теория статистических выводов. М.: Мир, 1975,- 776с.

33. Золотарев В.М. Одномерные устойчивые распределения. -М.: Наука. 1983.- 304с.

34. Ивахненко А.Г., Степашко B.C. Помехоустойчивость моделирования. -Киев: Наукова думка, 1985. 216с.

35. Ивченко Г.И., Медведев Ю.Я. Математическая статистика: Учебное пособие для ВТУЗов. М.: Высш. школа, 1994. - 248 с.

36. Интер-ГЕО Электронный ресурс. Режим доступа: http://www.intergeo.ru/ catalog.php?id=819. - Загл. с экрана.

37. Интрилигатор М. Математические методы оптимизации и экономическая теория. М.: Прогресс, 1975. - 606 с.

38. Иохвидов И.С. Ганкелевы и теплицевы матрицы и формы. Москва: "Наука", 1974. - 264 с.

39. Каханер Д., Моулер К., Нэш С. Численные методы и программное обеспечение.-М.:Мир, 2001. 575с.

40. Кендалл М., Стьарт А. Статистические выводы и связи. М.: Наука, 1973. -899с.

41. Кендалл М., Стьарт А. Теория распределений. М.: Наука, 1966. - 587с.

42. Клейман Б.С. Численно устойчивые регрессионные методы идентификации систем по неоднородным данным. Диссертация на соискание уч.степени к.т.н., Самара, 1998. 131с.

43. Колесникова А.Ю., Скосырский В.А., Тимофеев B.C., Храмцова О.В., Чистяков В.М. Оценка доступности социально-значимых товаров для малообеспеченного населения // Сибирская финансовая школа. -Новосибирск, Изд-во САФБД. 2009,- N2(73). - С.24-30.

44. Корн Г., Корн Т., Справочник по математике для научных работников и инженеров. М.: Наука, 1984. - 832 с.

45. Крамер Г. Математические методы статистики. М.: Мир, 1975. 648с.

46. Крянев A.B., Лукин Г.В. Математические методы обработки неопределенных данных. М.: Физмалит, 2006. - 216с.

47. Ланкастер П. Теория матриц. М.: «Наука», 1973. - 280 с.

48. Лемешко Б.Ю. О задаче идентификации закона распределения случайной составляющей погрешности измерений // Метрология. 2004. № 7. С. 8-17

49. Лемешко Б.Ю. Робастные методы оценивания и отбраковка аномальных измерений // Заводская лаборатория. 1997. - Т.63. - № 5. - С. 43-49.

50. Лемешко Б.Ю., Чимитова E.B. Оптимальные L-оценки параметров сдвига и масштаба распределений по выборочным квантилям. // Заводская лаборатория. Диагностика материалов, 2004. Т. 70, № 1. - С.54-66.

51. Липкин М.И. Кривые распределения в экономических исследованиях. М.: Статистика, 1971. - 114 с.

52. Лисицин Д.В. Конструирование робастных оценок параметров регрессии при неоднородных наблюдениях. // Научный вестник НГТУ. Новосибирск, 2004.-№3(18).-С.43-55.

53. Львовский E.H. Статистические методы построения эмпирических формул: учебное пособие для ВТУЗов. М.: Высш. школа, 1988. - 239 с.

54. Математическая теория планирования эксперимента./ Под редакцией Ермакова С.М. М.: Наука, 1983. - 392 с.

55. Математические методы планирования эксперимента. Новосибирск: Наука, 1981.-251с.

56. Матросов A.B. Maple 6. Решение задач высшей математики и механики. -М.: Издательство BHV, 2001. 528 с.

57. Меркин Д.Р. Введение в механику гибкой нити. М.: Наука, 1980. - 240с.

58. Микроданные обследования бюджетов домашних хозяйств / Федеральная служба государственной статистики. Режим доступа: http://www.micro-data.ru/obdh/obdhmicr/Main.htm. - 24.08.11.

59. Митропольский А.К. Техника статистических вычислений. М.Наука, 1971-576с.

60. Мудров В.И., Кушко В.Л. Метод наименьших модулей. М.: Знание, 1971. -61 с.

61. Надарая Э.А. О непараметрических оценках плотности вероятности и регрессии // Теория вероятностей и ее приложения. М.: Наука, 1965. Том X, вып.1. - С. 199-203.

62. Надарая Э.А. Об оценке регрессии // Теория вероятностей и ее приложения. М.: Наука, 1964. Том IX, вып.1. - С. 157-159.

63. Наследов А.Д. SPSS 19. Профессиональный статистический анализ данных,- СПб.: Питер, 2011.- 400с.

64. Новые идеи в планировании эксперимента. Под ред. Налимова В.В. -М.:Наука, 1969,-334с.67.0ппенгейм A.B., Шафер Р.В. Цифровая обработка сигналов. -М.: Связь, 1979.-416С.

65. Организационно-методологические основы обследования бюджетов домашних хозяйств в системе государственной статистики // Вопросы статистики. 1999. - №8. - С. 49-53.

66. Орлов А. И. Часто ли распределение результатов наблюдений является нормальным? // Заводская лаборатория. М.: 1991. - Т. 57. - № 7. - С.64-66.

67. Орлов А.И. Неустойчивость параметрических методов отбраковки резко выделяющихся наблюдений // Заводская лаборатория. 1992. Т. 58. - № 7. -С. 40-42.

68. Орлов А.И. Эконометрика: учебное пособие для ВУЗов. М.: Экзамен, 2002. - 575 с.

69. Панюков A.B. Тырсин А.Н. Взаимосвязь взвешенного и обобщенного вариантов метода наименьших модулей //Известия Челябинского научного центра. 2007,- Вып. 1(35). - С.6-11.

70. Пат. 2011614692. Программная система устойчивого и адаптивного оценивания параметров регрессионных моделей и планирования эксперимента /Денисов В.И., Тимофеев B.C., Хайленко Е.А., НГТУ -2011613035; заяв. 28.04.11; опуб. 15.06.11. 1 с.

71. Правила устройства электроустановок (все действующие разделы ПУЭ-6 и ПУЭ-7). Новосибирск: Сиб. универ. изд-во, 2009. - 853 с.

72. Пугачев B.C. Теория вероятностей и математическая статистика.- М.: Наука, 1979. -496с.

73. Рао С.Р. Линейные статистические методы и их применение. М., Наука, 1968. 548с.

74. Рудин У. Основы математического анализа. Спб.: Изд-во ЛАНЬ, 2004320 с.

75. Смоляк С.А., Титоренко Б.П. Устойчивые методы оценивания. М.: Статистика, 1980. - 208с.

76. Совершенствование методов и алгоритмов анализа сложных многофакторных объектов / А. Ю. Колесникова, Е. С. Морозова, В. С. Тимофеев, Е. А. Хайленко / НГТУ., каф. ТР., Новосибирск, 2009. 101 с. -Деп. в ВНТИЦ №ГР 02201150649.

77. Совершенствование методов и алгоритмов анализа сложных многофакторных объектов / В. С. Тимофеев, А. Ю. Колесникова, Е. С. Морозова, Е. А. Хайленко / НГТУ., каф. ТР., Новосибирск, 2010. -80с. Деп. в ВНТИЦ №ГР 2201156798.

78. Справочник по специальным функциям с формулами, графиками и таблицами / Под ред. Абрамовича М., Стигана И. -М.:Наука.- 1979. 832с.

79. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход / Б. Ю. Лемешко, С. Б. Лемешко, С. Н. Постовалов, Е. В. Чимитова. Новосибирск : Изд-во НГТУ, 2011. - 888 с.

80. Суетин П.К. Классические ортогональные многочлены. Москва: Физматгиз, 1976. - 328 с.

81. Сычёва B.C. Исторический очерк бюджетных исследований в Западной Европе и США // Социологические исследования. 1998. - № 4. - С.48-56.

82. Тарасенко Ф.П. Непараметрическая статистика. Томск, 1976.

83. Таха Х.А. Введение в исследование операций. М.: Юнити-ДАНА, 2000. -389 с.

84. Тимофеев B.C. Оценивание параметров регрессионных зависимостей на основе характеристической функции. //Научн. вестник НГТУ. -Новосибирск: Изд-во СО РАН. 2010. - N2(39). -С.43-52.

85. Тимофеев B.C. Оценивание параметров регрессионных зависимостей с использованием кривых Пирсона. 4.1 //Научн. вестник НГТУ. -Новосибирск: Изд-во СО РАН. 2009. - N4(37). -С.57-66.

86. Тимофеев B.C. Оценивание параметров регрессионных зависимостей с использованием кривых Пирсона. 4.2. //Научн. вестник НГТУ. -Новосибирск: Изд-во СО РАН. 2010. - N1(38). -С.57-62.

87. Тимофеев B.C. Ядерные оценки плотности при идентификации уравнений регрессии. //Научн. вестник НГТУ. Новосибирск: Изд-во СО РАН. - 2010. - N3(40). -С.41-50.

88. Тимофеев B.C., Андрианова E.JI. Случайный поиск в задаче знакового оценивания параметров линейных регрессионных моделей. // «Актуальные проблемы электронного приборостроения-2000».-Новосибирск: изд-во НГТУ,2000.-Т.З.-С.83-85.

89. Тимофеев B.C., Вострецова Е.А. Использование алгоритмов планирования эксперимента в схеме LTS-оценивания //Научн. вестник НГТУ. -Новосибирск: Изд-во СО РАН. 2009. - N1(34). -С.95-106.

90. Тимофеев B.C., Вострецова Е.А. Устойчивое оценивание параметров регрессионных моделей с использованием идей метода наименьших квадратов //Научн. вестн. НГТУ. Новосибирск: Изд-во СО РАН.- 2007. -N2(27).-С.57-67.

91. Тимофеев B.C., Колесникова АЛО. Идентификация моделей зависимости спроса от дохода в рамках неоклассической теории. //Доклады академии наук высшей школы РФ. Новосибирск: Изд-во НГТУ.- 2009. -N2(13).-С.51-65.

92. Тимофеев B.C., Колесникова А.Ю. Исследование устойчивости в задачах оптимизации потребительского выбора. //Доклады академии наук высшей школы РФ. Новосибирск: Изд-во НГТУ.- 2010. -Nl(14).-C.47-61.

93. Тимофеев B.C., Колесникова А.Ю. Прогнозирование продаж предприятия розничной торговли // Экономика и математические методы. М.: Наука, 2009- Т.45, №3. - С.48-63.

94. Тимофеев B.C., Новоселова И.Г. Знаковый метод в задаче идентификации для стационарной дискретной динамической модели в пространстве состояний //Научн. вестн. НГТУ. Новосибирск: Изд-во СО РАН.- 2006. -N3(24).-С.35-46.

95. Тимофеев B.C., Фаддеенков A.B. Исследование критериев обнаружения гетероскедастичности в регрессионных моделях //Научн. вестн. НГТУ. -Новосибирск: Изд-во СО РАН,- 2007. -N4(29).-C.3-14.

96. Тимофеев B.C., Фаддеенков A.B., Щеколдин В.Ю. Исследование алгоритмов оценивания параметров модели со структурированной ошибкой с использованием знакового метода //Научн. вестн. НГТУ. Новосибирск: Изд-во СО РАН,- 2005. -N2(20).-C.71-84.

97. Тимофеев B.C., Фаддеенков A.B., Щеколдин В.Ю. Эконометрика. Учебник. Новосибирск: Изд-во НГТУ, 2009.- 346с.

98. Тимофеев B.C., Хайленко Е.А. Адаптивное оценивание параметров регрессионных моделей с использованием обобщенного лямбда -распределения // Доклады академии наук высшей школы РФ. -Новосибирск: Изд-во НГТУ,- 2010. -N2(15).-C.25-36.

99. Тимофеев B.C., Хайленко Е.А. Оптимальное планирование эксперимента для регрессионных моделей с обобщенным лямбда-распределением ошибок

100. Научн. вестник НГТУ. Новосибирск: Изд-во СО РАН. - 2011. - N1(42). -С. 27-37.

101. Тимофеев B.C., Шипкова О.Т. Исследование социально-экономической детерминации преступности в региональном разрезе // Вопросы статистики. М.:2006, N3.-С.56-61.

102. Тимофеев B.C., Щеколдин В.Ю. Об оценивании статистических характеристик при анализе многофакторных объектов //Научн. вести. НГТУ. Новосибирск: Изд-во СО РАН,- 2006. -N3(24).-C.47-58.

103. Уровень жизни населения Новосибирской области: статистический сборник / Территориальный орган Федеральной службы государственной статистики по Новосибирской области. Н., 2004. - 83 с.

104. Уровень жизни населения Новосибирской области: статистический сборник / Территориальный орган Федеральной службы государственной статистики по Новосибирской области. Н., 2007. - 83 с.

105. Уровень жизни населения Новосибирской области: статистический сборник / Территориальный орган Федеральной службы государственной статистики по Новосибирской области. Н., 2010. - 86 с.

106. Фаддеенков A.B. Исследование алгоритмов оценивания параметров и проверки статистических гипотез в моделях компонент дисперсии // Сб. научных трудов НГТУ. Новосибирск, 1999. №1 (14). - С. 148-156.

107. Федоров В.В. Теория оптимального эксперимента. М.: Наука, 1971. -312 с.

108. Формирование выборки / Данные обследований бюджетов домашних хозяйств. Режим доступа: http://www.micro-data.ru/obdh/obdhm09/IssWWW.exe/81§/2009%20год/02%20метаданные/01%20описание%20обследования/06%2 0формирование%20выборки.Ы:т. 26.08.11.

109. Халафян A.A. Statistica 6. Статистический анализ данных. М.: Бином, 2007.-512с.

110. Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике: подход на основе функций влияния. М.: Мир, 1989. 512с.

111. Хан Г., Шапиро С. Статистические модели в инженерных задачах. М.: Мир, 1969. - 396с.

112. Хардле В. Прикладная непараметрическая регрессия. М.: Мир, 1993.

113. Хеттманспергер, Томас П. Статистические выводы, основанные на рангах / Пер. с англ. Шмерлинга Д.С.-М.: Финансы и статистика, 1987. 333с.

114. Химмельблау Д. Прикладное нелинейное программирование. М.: Мир, 1975. - 534с.

115. Хыобер П. Робастность в статистике. М.: Мир, 1984. - 303 с.

116. Центральная база статистических данных. Режим доступа: http://www.gks.rU/dbscripts/Cbsd/DBInet.cgi#l. - 25.08.11.

117. Шаттелес Т. Современные эконометрические методы. М.: Статистика, 1975. -240с.

118. Шеффе Г. Дисперсионный анализ.- М.: Наука. Физматлит, 1997. 288 с.

119. Шметтерер Л. Введение в математическую статистику. М.: Наука, 1976. - 520с.

120. Шурыгин A.M. Прикладная статистика: робастность, оценивание, прогноз. М.: Финансы и статистика, 2000,- 224с.

121. Шютте Г.Г. Методология проведения обследования семейных бюджетов в Германии // Труд за рубежом. 1995. - №1. - С. 30-44.

122. Яшин A.B., Лотонов М.А. Выбор метода решения задачи идентификации законов распределения случайных погрешностей средств измерений // Измерительная техника. 2003. № 3. - С. 3-5.

123. Andrews D. F., Bickel P. J„ Hampel F. R., Huber P. J., Rogers W. H., Tukey J. W. Robust estimates of location: Survey and advances. Princeton University Press, Princeton, N.J., 1972. - 373 p.

124. Charlier, C.V.L. Researches into the Theory of Probability. Hakon Ohlsson, Lund. - 1906.

125. Chung-Ming Kuan. An introduction to quantile regression. Taiwan, 2007. -21p.

126. Davies P.L. Linear regression. Eindhoven, 2005. - 108 p.

127. Delwiche L.D. Slaughter S.J. The little SAS book. Cary, NC: SAS Institute Inc., 2003. - 337p.

128. Denisov V. I., Timofeev V.S. Study of the influence of the gross observation errors on the Fisher information matrix // //Journal of Applied and Industrial Mathematics. M.: MAHK HayKa/HHTepnepno/iHKa. - 2010, T4. - №1- C.35-42.

129. Dette H., Studden W.J. Theory of canonical moments and its applications in statistics, probability and analysis. John Wiley & Sons Inc. - New York, 1997. -330 p.

130. Elderton W.P. Frequency curves and correlation.- London, 1906.- 172p.

131. Feuerverger A., Mureika R.A. The emperical characteristic function and its applications //The annals of statistics. Vol.5, N.l, 1977. - P.88-97.

132. Grubel R. The length of the shorth. // Ann. Statist. 16 (№ 2), 1988. pp. 619628.

133. Hampel F.R., Rousseeuw P.J., Ronchetti E. The Change-of-variance curve and optimal redescending M-estimators. // J. Amer. Statist. Ass. 76 (1981) - p. 643648.

134. Hill T.W. On determining a distribution function known only by its moments and/or moment generating function. PhD dissertation. /Arizona state university.— 1969.— 174p.

135. Huber M., Rousseeuw P.J. Robust regression with both continuous and binary regressors. //Journal of statistical planning and inference.- 1997, N57,- P. 153163.

136. Karian Z.A., Dudewicz E.J. Fitting statistical distributions: the Generalized Lambda Distribution and Generalized Bootstrap methods. // New York, CRC Press LLC, 2000 435p.

137. Koenker R. G. Bassett. Regression Quantiles //Econometrica, Vol.46 Nol (1978).

138. Koutrouvelis I. A. Regression-type estimation of the parameters of stable laws // Journal of the American statistical association. Vol.75, N.372, 1980. - P.918-928.

139. Lakhany A., Mausser H. Estimation the parameters of the Generalized Lambda Distribution. // ALGO research quarterly, 2000 Vol.3, №3 - P.27-58.

140. Pagan A., Ullah A. Nonparametric econometrics. New York-1999.

141. Paulson A.S., Holcomb E.W., Leitch R.A. The estimation of parameters of the stable laws // Biometrica. N.62. - P. 163-170.

142. Press S.J. Estimation in univariate and multivariate stable distributions // Journal of the American statistical association. Vol.67, N.340, 1972. - P.842-846.

143. Rao C.R., J.Kleffe Estimation of variance components and applications., N.Y. 1988, 374p.

144. Rao C.R., Toutenburg H. Linear models: least squares and alternatives. New York.: Springer, 1999. 428p.

145. Rousseeuw P.J. Least median of squares regression. // J. Amer. Statist. Ass. -79 (1984)-p. 871-880.

146. Rousseeuw P.J. Robust regression, positive breakdown. Encyclopedia of statistical sciences: update vol.1. - New York: John Wiley, 1997. - P.481-495.

147. Rousseeuw P.J. Tutorial to robust statistics. // Journal of chemometrics, Vol.5. 1991.

148. Rousseeuw P.J., Leroy A.M. Robust regression and outlier detection NY.: John Wiley& Sons, 1987, - 334p.

149. Rousseeuw P.J., van Driessen K. Computing LTS regression for large data sets. // Dept. Mathematics, University of Antwerp, 1999. 21 p.

150. Rousseuw P.J., Leroy A.M. A robust scale estimator based on the shortest half. // Statistica Neerlandica, № 42 (nr. 2), 1988. pp. 103-116.

151. Russia Longitudinal Monitoring Survey of HSE UNC Carolina Population Center. - Режим доступа: http://www.cpc.unc.edu/projects/rlms-hse. -24.08.11.

152. Searle S.R. Linear models. 1971, 532p.

153. Shohat J.A., Tamarkin J.D. The problems of moments. American Mathematical Society. - Providence, Rhode Island, 1963.

154. Skibinski M. Extreme n-th moments for distributions on 0,1. and the inverse of a moment space map. // J. App. Probab. 1968. - vol. 5 - p. 693-701.

155. Szego G. Orthogonal polynomials. American Mathematical Society, 531 West 116 St. - New York, 1959. - 500 p.

156. Tukey J. W., McLaughlin D. H. Less vulnerable confidence and significanc procedures for location based on a single sample: Trimming/Winsorization. // Sankhya, Series A 25, 1963. pp. 331-352.

157. Wand M.P., Jones M.C. Kernel Smoothing. London.: Chapman&Hall, 1995. - 212p.

158. Wang H., Zidek J.V. Selecting likelihood weights by cross-validation. // The annals of Statistics. 2005. Vol.33, N2,- P.463-500.

159. Welling M. Robust higher order statistics // Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics (AISTATS 2005), Barbados, 2005. P.405-412.

160. Алгоритм проверки унимодальности распределения

161. Алгоритм составлен в полном соответствии со следующей теоремой унимодальности 141.

162. Алгоритм проверки унимодальности функции распределения. На входе необходимо иметь выборку х1,.,хы значений оцененной плотности.

163. Оценивание моды М исследуемого распределения случайной величины

164. Вычисление выборочных начальных моментов до четвертого порядка включительно

165. Проверка неравенства (П. 1.1).

166. Вычисление коэффициентов а, Ь, с, сі по соотношениям (П.І.З)-(П.І.б).

167. Определение корней гх,г2 и г3 кубического уравнения (П. 1.2).6. Проверка условий:а. Если все коэффициенты ненулевые: аФ 0, Ъф 0, с^О, ¿Ф 0:

168. Уравнение у-а-г3+Ь-г2 + с-г + сі имеет один действительный корень г{ (а остальные два комплексные).

169. Если при а> 0 выполняется гх<М, то конец алгоритма с результатом «Функция распределения унимодальна»;

170. Если при а < 0 выполняется гх>М , то конец алгоритма с результатом «Функция распределения унимодальна»;

171. Иначе конец алгоритма с результатом «Функция распределения неунимодальна»;й> 0.ті = —* = 1>2,3,4.1 ^

172. Уравнение у-а-гъ + Ь- г2 + с-г + й имеет три действительных корня г{,г2 и г3, причем обозначены они в соответствии с порядком возрастания гх<г2<гг.

173. Если при а > 0 выполняются условия гъ<М или г, < М < г2, то конец алгоритма с результатом «Функция распределения унимодальна»;

174. Если при а < О выполняются условия г{> М или г2<М<г3, токонец алгоритма с результатом «Функция распределения унимодальна»;

175. Иначе конец алгоритма с результатом «Функция распределения неунимодальна»;

176. Если ¿><0 и выполняется неравенство г{<М<г2, то конецалгоритма с результатом «Функция распределения унимодальна»;

177. Если Ь > 0 и выполняется неравенство г, > М или г2 < М , токонец алгоритма с результатом «Функция распределения унимодальна»;

178. Иначе конец алгоритма с результатом «Функция распределения неунимодальна»;ii. Уравнение у = Ь-г2 + с-г + сі имеет два комплексных корня г{,г2.

179. Если выполняется неравенство ¿>>0, то конец алгоритма с результатом «Функция распределения унимодальна»;

180. Иначе конец алгоритма с результатом «Функция распределения неунимодальна»;

181. Результаты вычисление фактических уровней значимости для тросов в{, в3, £),, 1)2, £)3, т

182. Фактически реализуемые уровни значимости для троса Ві1. Без фиксированной точки 1.S с LTS с ЬТБ с LTS с

183. Метод LTS LMS расстоянием робастным расстоянием расстоянием

184. Махаланобиса расстоянием Кука Велша-КухаtKp(*,N-m) 2.256 1.680 2.261 2.191 2.111 2.238ос -100% 2.421 9.316 2.390 2.860 3.493 2.5361. С фиксированной точкой 1кД,М-т) 2.254 1.740 2.261 2.194 2.111 2.235ос -100% 2.433 8.205 2.390 2.838 3.493 2.556