автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Расширенный модифицированный рекуррентный метод наименьших квадратов в задачах анализа данных
Текст работы Теклина, Лариса Григорьевна, диссертация по теме Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
Цч ■■■■'/ -.......... У
МИНИСТЕРСТВО ОБЩЕГО И ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ ПРИКЛАДНОЙ МАТЕМАТИКИ И КИБЕРНЕТИКИ при НИЖЕГОРОДСКОМ ГОСУДАРСТВЕННОМ УНИВЕРСИТЕТЕ
им. Н. И. ЛОБАЧЕВСКОГО
На правах рукописи ТЕКЛИНА Лариса Григорьевна
РАСШИРЕННЫЙ МОДИФИЦИРОВАННЫЙ РЕКУРРЕНТНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ В ЗАДАЧАХ АНАЛИЗА ДАННЫХ
05.13.16 - применение вычислительной техники, математического моделирования и математических методов
в научных исследованиях
Диссертация
на соискание ученой степеци кандидата физико-математических наук
Научный руководитель: акад. РАЕН, д.т.н., проф. Неймарк Ю.И.
НИЖНИЙ НОВГОРОД 1999
Т/Т^е^шш.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ............................................................................................ 3
1. РАСШИРЕНИЕ РЕКУРРЕНТНОЙ ФОРМЫ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ.................................................... 22
1.1. Увеличение ж сокращение исходных данных......................... 27
1.2. Изменение числа определяемых параметров путем расширения и сужения исходной модели........................................36
2. МЕТОДИКА ПРИМЕНЕНИЯ РАСШИРЕННОЙ РЕКУРРЕНТНОЙ ФОРМЫ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ ПРИ ОБРАБОТКЕ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ.........................................................................................42
2.1. Адаптивный выбор базиса........................................................44
2.2. Авторегрессионный анализ временных рядов
( по материалам эксперимента акустической локации накопления повреждений в нелинейно деформированном теле)......53
3. ПОСТАНОВКА ЗАДАЧИ РАСПОЗНАВАНИЯ Й КОДИРОВАНИЕ ОБРАЗОВ, СОГЛАСОВАННЫЕ С МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ,.................................67
4. АЛГОРИТМЫ РАСПОЗНАВАНИЯ, ОСНОВАННЫЕ НА РЕКУРРЕНТНОЙ ФОРМЕ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ..................................................................................80
4.1. Локальные решающие правила...,..................... ......................87
4.2. Открытые решающие правила................................................93
4.3. Итерационный алгоритм обучения с взвешиванием объектов......................................................................................... 112
4.4. Примеры приложения алгоритмов распознавания
к принятию решений в медицине................................................. 122
5. ИСПОЛЬЗОВАНИЕ РЕКУРРЕНТНОЙ ФОРМЫ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ ПРИ ПРИНЯТИИ СОГЛАСОВАННОГО РЕШЕНИЯ................................................ 128
ЗАКЛЮЧЕНИЕ..................................................................................141
ЛИТЕРАТУРА...................................................................................144
ВВЕДЕНИЕ
Анализ данных - дисциплина, посвященная построению и исследованию процедур, осуществляющих преобразование от "исходных данных" к "результату". В последние годы этот термин - "анализ данных" - заменил традиционный, но более узкий по значению термин "обработка результатов наблюдений (измерений)".
Под исходными данными обычно понимают некоторый первичный набор показателей, полученных в процессе проведения исследования: результаты измерения некой физической величины; совокупность параметров, характеризующих какое-либо событие или состояние системы, установки, физического тела; число случаев осуществления наблюдаемого события; констатация факта наличия или отсутствия анализируемого признака и т. п. Регистрируемые показатели (признаки,переменные), среди которых могут быть количественные (измеряющие в определенной шкале степень проявления изучаемого свойства объекта), порядковые (позволяющие упорядочивать анализируемые объекты по степени проявления в них изучаемого свойства) и классификационные (позволяющие разбивать исследуемую совокупность объектов на не поддающиеся упорядочиванию однородные по анализируемому свойству классы), образуют многомерный вектор - наблюдение, а множество полученных наблюдений составляют исходный массив данных.
Результатами анализа данных обычно являются либо итоговые показатели (например, при обработке многократных измерений некоторой физической величины), либо параметры модели, описывающей исследуемое явление, либо вывод о справедливости какой-либо теории, либо решение задач фильтрации, классификации, идентификации, дискриминации, прогнозирования и т. п.
Практически любая задача "анализа данных решается в два этапа: исследование данных и обработка данных. Исследование данных,
или предварительный, разведочный анализ, - это такие операции, выполнение которых определяется конкретными данными и конкретной постановкой задачи. Цель такого анализа - оценка качества полученных данных, их надежности (достоверности), устранение грубых ошибок, выбор схемы проведения исследования и возможных методов решения задачи. До настоящего времени весь этот круг вопросов чаще всего решается благодаря индивидуальному подходу, с учетом реального содержания задачи и опыта специалиста-исследователя. Обработка данных- это собственно процедура получения результата по выбранной схеме решения задачи. Традиционно основным математическим аппаратом анализа данных является математическая статистика [67,74].
Перспективы использования анализа данных весьма широки, поскольку практически во всех областях человеческого познания, в том числе и в физических исследованиях, возникает необходимость оценивания и интерпретации данных, охватывающих либо большое число объектов, либо большое число наблюдений над некоторым объектом, характеризуемых одновременно многими переменными. Например, современные экспериментальные исследования в области ядерной физики, геофизики, физики атмосферы, океана и др. характеризуются огромным объемом получаемой первичной информации. Анализ данных таких экспериментальных исследований немыслим без использования быстродействующей вычислительной техники и средств автоматизации [39,68]. Автоматизация необходима и для обработки больших массивов данных, когда возможности человека крайне ограничены, и для проведения самого эксперимента. Автоматизация эксперимента -комплекс средств и методов для ускорения сбора и обработки экспериментальных данных, интенсификации использования эсперименталь-ных установок, повышения эффективности работы исследователей. Использование ЭВМ при этом позволяет не только хранить и обрабатывать большое количество информации, обслуживать одновременно несколько установок, но и управлять экспериментом в процессе его прове-
дения [15,41]. Первые попытки автоматизации эксперимента возникли в пятидесятые годы в исследованиях, связанных с ядерной физикой. В последующие годы автоматизация эксперимента нашла применение и в других областях физики и естествознания вообще: в физике элементарных частиц, термоядерных, космических и медико-биологических исследованиях, в геофизике, радиоастрономии и т. д. Необходимым звеном автоматизации эксперимента является автоматизированная система экспериментальных исследований, математическое (программное) обеспечение которой разрабатывается на основе математических методов анализа данных. При всем многообразии используемых в научных исследованиях автоматизированных систем подсистемы анализа данных решают относительно узкий круг задач традиционного статистического анализа (оценивание функции плотности вероятности, определение согласия между теоретическим и экспериментальным распределением, спектральный или регрессионный анализ в зависимости от типа исходных данных) с графическим представлением результатов для исследователя на экране дисплея. Выбор методов для дальнейшей обработки результатов статистического анализа вплоть до конечных выводов, также как и предварительный анализ данных осуществляются исследователем исходя из конкретного содержания задачи, потому что существует совершенно определенная точка зрения физика - исследователя, что эти процессы не могут быть строго формализованы и алгоритмизированы. И действительно, традиционные методы многомерного статистического анализа с трудом поддаются формализации, особенно на стадии первоначальной обработки исходных данных, и требуют достаточно большого объема априорных сведений.
С нашей точки зрения, именно недостаточная степень автоматизации анализа данных является причиной появления публикаций, в которых указывается на необходимость преодоления пробела, существующего между техникой сбора данных и программным обеспечением, необходимым для обработки данных и извлечения нужной информа-
ции [100]. К тому же расширяется и круг задач, встающих перед автоматизированными системами анализа данных. Развитие электроники привело к созданию большого числа приборов, предоставляющих объективные количественные данные о состоянии объекта исследования, трудно поддающиеся интерпретации. Растет число автоматизированных следящих систем, развиваются системы мониторинга за окружающей средой, за объектами, представляющими опасность для человека, очень популярны системы-помощники врача в палатах интенсивной терапии и т.д. Все острее встает вопрос о создании систем, решающих задачу извлечения полезной информации из больших объемов фактических данных, систем поддержки специалиста при принятии им решения в сложных ситуациях на основе объективных данных о состоянии объекта, особенно необходимых в условиях критических ситуаций [51,90].
Один из путей преодоления возникших проблем мы видим в увеличении степени автоматизации процесса анализа данных на основе разработки общего подхода к решению задач обработки информации, расширения математичеческой базы анализа данных и создания новых или модификации известных методов обработки и интерпретации данных, инвариантных к конкретному содержанию задачи или самонастраивающихся на задачу с учетом особенностей в ее постановке и задании данных.
Новые возможности в теории обработки данных открыли современные методы адаптации и обучения. Они выразились в синтезе процедур обработки наблюдений, способных приспосабливаться к конкретным эмпирическим данным и разнообразным практическим ситуациям, а также требующих существенно меньшего объема априорных сведений. Такие свойства адаптивных методов достигаются за счет настройки параметров рассматриваемых математических моделей как по обучающим реализациям, так и по текущим наблюдениям. Использование современных методов обучения к тому же выводит возможности
обработки данных на новый уровень, когда целью исследования является не просто обнаружение закономерностей, а решение на их основе интеллектуальных задач, которые ранее считались привелегией человека: интерпретация, классификация, диагностика, прогноз, выбор способа действия и т. д. Решение таких задач возможно на основе методов машинного обучения, основанных на анализе фактических данных, и, в частности, одного из самых интересных его разделов - распознавания образов [86,103].
Распознавание образов - это исторически одно из первых, наиболее известных и теоретически развитых направлений искусственного интеллекта. Практическое применение методов распознавания позволило решить многие конкретные задачи медицинской, технической, геологической диагностики и прогнозирования. Полученные правила легли в основу рекомендаций по принятию решений в этих сложных областях знаний , и качество таких решений во многих случаях было выше того, что мог дать квалифицированный специалист или совет экспертов. Это относится в первую очередь к неформализуемым ситуациям, где решение принимается на основе прошлого опыта и значительного числа факторов. Эффективные результаты принесло применение методов распознавания и в физических исследованиях, особенно в геофизике, радиоастрономии и космических исследованиях. В качестве примеров можно привести работы по классификации подстилающих поверхностей Земли (по данным аэрокосмического спектрометрирования при проведении физико - географического районирования различных регионов) [14], исследования по применению методов идентификации и распознавания в задачах ориентации и навигации летательных аппаратов [9,59,65] и т. д.
С одной стороны, опыт использования методов распознавания для решения практических задач продемонстрировал, что они являются эффективным путем "извлечения знаний" из рассмотрения множества случаев и фактов с известными конечными выводами эксперта, предо-
ставляя возможность организации процесса обучения. С другой стороны, распознавание образов все еще остается "элитной" методикой при принятии решений в трудноформализуемых задачах выбора, недоступной широкому кругу исследователей в конкретных областях знаний.
Для эффективности процесса внедрения адаптивных и обучающих методов в широкую научную и практическую деятельность путем создания автоматизированных адаптивных обучающихся систем для решения сложных задач анализа данных и принятия решений целесообразна разработка новых методов, отвечающих таким требованиям, как:
- возможности решения широкого круга задач анализа данных (интерпретация, моделирование, диагностика, прогноз, выбор способа действия и др.);
- формализуемость процесса решения, способность самостоятельно настраиваться на задачу с учетом особенностей в ее постановке и описании данных;
- отсутствие алгоритмических ограничений на объем анализируемой информации и размерность описания исходных данных;
- возможность адаптации решений к изменяющимся внешним условиям.
Предлагаемые в настоящей работе алгоритмы анализа информации, построения математических моделей и принятия решений, основанные на рекуррентной форме метода наименьших квадратов (МНК ), позволяют разрешить хотя бы часть проблем, встающих перед создателями автоматизированных систем анализа данных.
Цель работы - пополнение математической базы анализа данных путем расширения и модификации рекуррентной формы метода наименьших квадратов и разработка на его основе новых адаптивных и обучающих методов анализа данных, построения математических моделей и решающих правил распознавания, отвечающих
требованиям: быстродействие, формализуемость, проблемная независимость, простота в сочетании с четким математическим обоснованием, возможность организации взаимодействия с пользователем.
Методы исследования. Для решения теоретических проблем были использованы классические методы математического и функционального анализа и матричное исчисление. В основу разработки новых алгоритмов положены модифицированные рекуррентные процедуры МНК и двухуровневые системы принятия решений с привлечением методов теории вероятности и математической статистики.
Научная новизна :
1.С целью пополнения математической базы анализа данных проведены расширение и модификация рекуррентной формы метода наименьших квадратов:
1.1. Получены рекуррентные формулы МНК для случая сокращения статистической выборки. Приведены условия их существования.
1.2. Введены новые рекуррентные процедуры МНК по определяемым параметрам, охватывающие как расширениетак и сужение рассматриваемой математической модели. Решена проблема отбора для заданной статистической выборки системы базисных функций с невырожденной информационной матрицей.
1.3. Предложена модификация МНК применительно к решению задач распознавания на основе оптимизации функционала качества распознавания в зависимости от выбора функции учителя и от задания описания распознаваемых объектов.
1.4. Поставлена и решена задача выбора условно-оптимального описания распознаваемых множеств в классе кусочно-постоянных функций. Введено понятие естественной кодировки образов.
2. На основе расширенных рекуррентных процедур МНК и кодирования распознаваемых образов предложены новые адаптивные алгоритмы построения математических моделей и решающих правил рас-
познавания:
2.1. с помощью набора поверхностей, аппроксимирующих анализируемые множества;
2.2. в виде разделяющих распознаваемые классы поверхностей;
2.3. итерационный алгоритм обучения со взвешиванием объектов.
3. Предложен новый подход и разработаны алгоритмы формирования двухуровневых систем принятия решений путем построения синтетических решающих правил - основы для принятия коллективного решения по результатам решения задачи группой алгоритмов-экспертов. Отличительная особенность предлагаемого подхода - независимость от статистических свойств группы экспертов (алгоритмов).
Разработанные алгоритмы положены в основу автоматизированной адаптивной самообучающейся системы извлечения знаний и принятия решений методами распознавания образов, разрабатываемой при финансовой поддержке РФФИ ( проекты 93-01-01064, 96-01-01231 и 99 -01-00394).
Практическая ценность работы.
1. На основе новых методов создан комплекс программ, позволяющий автоматизировать весь процесс решения достаточно большого класса задач анализа данных от оценки надежности исходных данных до построения матемаических моделей и решающих правил распознавания, их апробаци�
-
Похожие работы
- Оптимизация рекуррентных моделей временных рядов на основе B-сплайнов 2-го и 3-го порядков
- Повышение эффективности обработки измерительной информации в системах статистического управления процессами в машиностроении на основе рекуррентного робастноо оценивания
- Синтез, исследование и применение рекуррентных алгоритмов оценивания параметров математических моделей объектов в автоматизированных системах управления
- Вычисление параметров линейных дискретных динамических систем, описываемых уравнениями свертки
- Метод взвешенных полных наименьших квадратов в задачах математического моделирования
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность