автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.14, диссертация на тему:Разведочный анализ экспериментальных данных в системах обработки информации

кандидата технических наук
Червякова, Ольга Владимировна
город
Саратов
год
1999
специальность ВАК РФ
05.13.14
Диссертация по информатике, вычислительной технике и управлению на тему «Разведочный анализ экспериментальных данных в системах обработки информации»

Текст работы Червякова, Ольга Владимировна, диссертация по теме Системы обработки информации и управления

Саратовский государственный технический университет

На правах рукописи

ЧЕРВЯКОВА Ольга Владимировна

РАЗВЕДОЧНЫЙ АНАЛИЗ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ В СИСТЕМАХ ОБРАБОТКИ ИНФОРМАЦИИ (В ТЕХНИКЕ И МЕДИЦИНЕ)

Специальность 05.13.14 - Системы обработки информации и управления

(технические науки)

диссертация на соискание ученой степени кандидата технических наук

Научный руководитель: к.т.н., профессор

Каримов Р.Н.

Саратов - 1999

СОДЕРЖАНИЕ

Список используемых сокращений 4

ВВЕДЕНИЕ 5

1. ОБЗОР И ОСНОВНЫЕ ПОЛОЖЕНИЯ РАЗВЕДОЧНОГО АНАЛИЗА 12

1.1. Схемы представления экспериментальных данных 12

1.2. Задачи исследования 17

2. ОСОБЕННОСТИ РАЗВЕДОЧНОГО АНАЛИЗА МНОГОМЕРНЫХ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ В МЕДИЦИНЕ 19

2.1. Шкалы измерений признаков \ д

2.1.1. Шкалы качественных данных 20

2.1.2. Шкалы количественных данных 23

2.1.3. Преобразования шкал 24

2.2. Преобразования данных, стабилизирующие дисперсию 26

2.3. Анализ аномальных наблюдений в многомерных данных 37

2.3.1. Классификация аномальных наблюдений 3 8

2.3.2. Множественные аномальные наблюдения в многомерных

данных 39

2.3.3. Анализ неоднородных выборок 44

2.4. Анализ данных с пропусками 46

2.4.1. Механизм пропусков 47

2.4.2. Структуры пропусков 49

2.4.3. Обзор методов обработки пропусков 50

2.4.4. Восстановление пропусков методом сингулярного разложения 54

2.5. Исследование состояния функциональной системы противоинфекционной защиты у больных ИЗБА до и после лечения гормональными препаратами 60

2.6. Выводы 62

3. ОЦЕНКА ПАРАМЕТРОВ СКРЫТЫХ ПЕРИОДИЧНОСТЕЙ 63

3.1. Краткий обзор методов и постановка задачи 63

3.2. Обнаружение скрытых периодических компонент 68

3.2.1. Непараметрические методы обнаружения 68

3.2.2. Применение характеристик особых точек для обнаружения периодичностей 73

3.2.3. Обнаружение периодичностей с помощью вейвлет-анализа 77

3.3. Оценка числа скрытых периодических компонент в исследуемом сигнале 84

2

3.3.1 .Определение порядка модели по характеристикам особых точек 85

3.3.2. Использование информационных критериев для определения порядка модели 90

3.3.3. Определение порядка модели с использованием разложения по собственным числам 92

3.4. Классические методы оценивания параметров скрытых периодичностей 95

3.4.1. Методы преобразований 96

3.4.2. Методы периодограмм и спектрального разложения 101

3.5. Корреляционные методы выявления скрытых периодичностей 106

3.5.1. Метод автокорреляционной функции 106

3.5.2. Метод взаимной корреляционной функции 108

3.5.2.1. Понятие оптимального приемника 110

3.5.2.2. Оценивание параметров периодичностей с помощью оптимального приемника 112

3.5.3. Метод инверсной корреляционной функции 117

3.6. Оценивание частот методами сингулярного разложения 120

3.6.1. Метод Писаренко 122

3.6.2. Функции оценок частоты 123

3.7. Комбинированный алгоритм оценки параметров скрытых периодичностей повышенной разрешающей способности 127

3.8. Сравнительный анализ комбинированного алгоритма повышенной разрешающей способности с методами спектрального оценивания Писаренко, EV, MUSIC 13 0

3.9. Обнаружение периодичностей в неоднородных данных 139

3.10 Быстрый алгоритм обнаружения сигналов на основе взаимной корреляции в линиях электропередач 145

3.11 Особенности анализа сигналов с аномальными наблюдениями и пропусками 151

3.12 Выводы 158 ЗАКЛЮЧЕНИЕ 159 Список используемых источников 161 Приложение I 176 Приложение II 177 Приложение III 178 Приложение IV 179

СПИСОК ИСПОЛЬЗУЕМЫХ СОКРАЩЕНИЙ

АКФ - автокорреляционная функция

БПФ - быстрое преобразование Фурье

ВКФ - взаимная корреляционная функция

ИЗБА - инфекционно-зависимая бронхиальная астма

ИКФ - инверсная корреляционная функция

КА - комбинированный алгоритм

КМ - корреляционная матрица

КФ - корреляционная функция

МДА - малоновый деальдегид

МНК - метод наименьших квадратов

ОПС - отсутствуют/присутствуют случайно

ОС - отсутствуют случайно

ПОЛ - перекисное окисление липидов

С/Ш - отношение сигнал/шум

СОД - супероксид дисмутаза

СПМ - спектральная плотность мощности

ФОП - функционал отношения правдоподобия

А1С - информационный критерий Акаике

ЮО - иммуноглобулин

МБ - микроб стрептококка

Т1ТЗ - отношение активных и малоактивных клеток крови

\¥Н - вирус герпеса

ВВЕДЕНИЕ

Большинство объектов человеческой деятельности в различных областях знаний (экономике, медицине, сложных технических системах и т.д.) характеризуются большим количеством различных свойств, выражающихся в терминах признаков или в терминах отношений между объектами (например, близость, сходство, различие). Зафиксированные результаты измерения признаков называют данными.

В данной работе под термином «экспериментальные данные» понимаются только результаты пассивных экспериментов, в которых эти данные фиксируются без жесткого контроля посторонних переменных и рандомизации, проводимой в активных экспериментах. Преимущества активного эксперимента хорошо известны, и он остается лучшим методом в тех случаях, когда его применение возможно. Однако, во многих физических, социологических и медико-биологических системах доступными являются данные только пассивных экспериментов.

Нередко, в системах обработки информации кроме самих данных имеется очень мало, или совсем никакой априорной информации о физическом (причинном) механизме их порождения: Однако, именно на основе анализа информации такого рода составляется модель исследуемого явления, выбирается аппаратура, разрабатывается методика проведения эксперимента, и чем большими сведениями обладает система в начале эксперимента, тем точнее и со значительно меньшими затратами возможно получение необходимых результатов. Этим объясняется столь большое значение формализации методов сбора, обработки и использования априорной информации об исследуемом процессе.

Для получения более полной информации об изучаемом явлении с целью соблюдения требований корректности обработки экспериментальных данных и получения максимально достоверных и точных оценок на выходе

5

системы, проводится первичный анализ данных, получивший название разведочного (Exploratory data analysis) [32, 44].

Целью разведочного анализа является представление наблюдаемых данных в наиболее компактной и простой форме, позволяющей раскрыть имеющиеся в них связи и закономерности.

Кроме того, такая обработка данных позволяет выявить некоторые особенности данных, требующие более пристального внимания и дополнительной обработки. Матрицы данных, анализируемые в автоматизированных системах обработки информации, как правило, имеют сложные модели и характеризуются распределениями различных типов, наличием пропусков и аномальных наблюдений. К тому же, многие данные измерены в смешанных шкалах и часто собраны в различные хронологические моменты. Для соблюдения требований корректности обработки информации такого рода, и получения достоверных и точных оценок на выходе системы, необходим предварительный анализ поступающих в систему экспериментальных данных и их подготовка к последующей более детальной обработке с помощью большинства имеющихся статистических процедур. Таким образом, системе необходим блок предварительной подготовки входной экспериментальной информации в соответствии с требованиями конкретных используемых методов исследования.

Обнаружение возможных несоответствий («особых» данных) в исходном множестве и их «редактирование» с тем, чтобы стало возможным применение к данным значительно более широкого спектра развитых статистических методов исследования с получением достоверных и точных результатов, является основной задачей разведочного анализа. Разведочный анализ включает в себя обнаружение и обработку аномальных наблюдений и пропусков, преобразование данных и способы их наглядного представления, грубую оценку типа распределения, сглаживание и т.д. Он

носит также и исследовательский характер, позволяя выявить скрытые особенности и модели, присущие исследуемым объектам. В более широком смысле разведочный анализ предполагает также и выявление латентных (скрытых) структур, свойств и закономерностей в анализируемых многомерных данных.

Отдельные проблемы разведочного анализа экспериментальных данных неоднократно обсуждались в работах отечественных и зарубежных авторов ([32, 42, 44, 45], пропуски в данных - [1, 26, 35, 148], аномальные наблюдения - [10, 60, 61, 62, 65, 94, 95, 141, 142, 143] и другие), однако, комплексного подхода к применению данного анализа к данным, описывающим реальные сложные объекты, а, следовательно, содержащим целый спектр отклонений, требующих особого внимания, не обсуждался.

В работе предпринята попытка систематизировать проведение разведочного анализа входных данных в информационных системах в технике и медицине с помощью комплексного использования имеющихся на сегодняшний день наиболее эффективных методов анализа, что позволит оптимизировать обработку данных и повысить результативность и достоверность исследований.

Целью исследования является разработка комплексного подхода к проведению разведочного анализа экспериментальных данных различной физической природы в системах обработки информации при минимуме априорной информации об исследуемых объектах на основе существующих в настоящее время и предложенных оригинальных методик, для адекватного описания исследуемого объекта и прогнозирования его поведения.

Научную новизну диссертационной работы составляют теоретические и экспериментальные исследования, в результате которых - подробно исследован и описан разведочный анализ двух основных классов экспериментальных данных: многомерных информационных матриц типа

«объект-признак» в системах обработки информации в медицине и временных рядов;

- разработан и исследован новый алгоритм восстановления пропусков в многомерных данных на основе сингулярного разложения исходного множества без ограничения анализируемых данных только классом многомерно нормальных распределений;

- разработан и исследован комбинированный метод обнаружения и оценки параметров зашумленных исходных сигналов, позволяющий выделить полезные гармоники из рядов с трендами и шумами при минимуме априорной информации об исследуемом процессе. В основе предлагаемого метода - применение инверсной корреляции и разложение пространства исходного сигнала на независимые подпространства полезных составляющих и шума.

Практическая значимость исследования. Предлагаемое комплексное решение задач разведочного анализа экспериментальных данных в системах обработки информации повышает надежность и эффективность работы систем за счет возможности корректного применения широкого спектра статистических процедур с соблюдением налагаемых ограничений для более детального анализа исходного информационного множества с получением достоверных результатов. Данный подход позволяет также получить наиболее полное описание свойств и структур, присущих исследуемым объектам.

Предлагаемые методы обнаружения и оценки параметров гармонических сигналов дают возможность проведения эффективных и не требующих значительных затрат исследований зашумленных сигналов при небольших длинах реализаций и минимальной априорной информации о моделях исходных сигналов.

Внедрение. Результаты работы использованы при создании компьютерной программы «Оценка функциональной системы тиреоидного обеспечения организма», внедренной в практику терапевтического отделения [2] клинической больницы №3 и отделения профпатологии, Центра реабилитации ликвидаторов последствий аварии на Чернобыльской атомной станции [7] клиники профпатологии и гематологии, СГМУ (Саратов). Результаты исследований, проведенных в области обнаружения сигналов использованы ЗАО «Информгазинвест» (Москва) при организации передачи информации по линиям электропередач в качестве нетрадиционных каналов связи [15]. На базе оптимального приемника разработан быстрый рекурсивный алгоритм, который лег в основу приемо-передающих устройств на базе PIC-контроллера, способных передавать информацию по ЛЭП с напряжением до ЮкВ со скоростью 1200-2400 бод в стандарте RS-232.

Результаты теоретических исследований в области обнаружения и оценки периодичностей успешно внедрены в практику АООТ "НИТИ-Тесар" (Саратов) в задачах обработки и анализа случайных радиосигналов.

Апробация работы. Основные теоретические положения и практические результаты диссертационной работы обсуждались и докладывались на международном научном конгрессе студентов, аспирантов и молодых ученых «Молодежь и наука - третье тысячелетие» (YSTM'96), Москва, 1996 [48]; международной научно-технической конференции «Молодая наука - новому тысячелетию», Набережные Челны, 1996 [17]; международной конференции РАН «Проблемы и перспективы прецизионной механики и управления в машиностроении», Саратов, 1997 [16]; 21ой научной студенческой конференции по теории вероятности и статистике (21st Students' Conference in Probability and Statistics), Англия, Lancaster, 1998 [50]; Конференции молодых ученых по статистике YSM'98, Англия, Surrey, 1998 [51]; Конференции по прикладной статистике (Conference on Applied Statistics

in Ireland, Ирландия, Athlone, 1998 [49].

Публикации. По теме диссертации опубликовано 11 печатных работ и отчет по НИР [18].

Структура и объем работы. Диссертация состоит из введения, трех глав и заключения, изложенных на 179 е., списка использованных источников, включающего 166 наименований, 33 рисунков, 18 таблиц.

В первой главе приводится классификация экспериментальных данных по типу их представления, сформулированы основные положения разведочного анализа и задачи настоящего диссертационного исследования.

Вторая глава посвящена особенностям разведочного анализа многомерных данных типа «объект признак» в области медицины. Рассмотрены основные моменты разведочного анализа, включающие уточнение шкал данных, преобразования, стабилизирующие дисперсии, выявление и анализ аномальных наблюдений, обработку данных с пропусками. Предложен метод восстановления множественных пропусков в многомерных данных, основанный на сингулярном разложении исходной матрицы данных.

В третьей главе рассматривается обработка переменных типа временных рядов. В центре внимания данной части работы - выявление и оценка скрытых периодических составляющих временных рядов в реальных условиях зашумленности анализируемых сигналов и коротких длин реализаций. Предложен комбинированный алгоритм обнаружения и оценки параметров скрытых периодичностей повышенной разрешающей способности. Решена задача передачи информации по линии электропередач в качестве канала связи с помощью рекурсивного алгоритма обнаружения сигнала на основе метода взаимной корреляции.

Заключение содержит основные выводы и рекомендации, являющиеся результатом проведенных исследований.

Настоящая диссертационная работа выполнена на кафедре «Системотехника» Саратовского государственного технического университета под руководством к.т.н., профессора Каримова Р.Н.

Автор считает своим долгом выразить глубокую признательность своему научному руководителю - за его постоянную помощь, профессиональную поддержку и душевную теплоту, коллегам к.т.н., доценту Кацу Е.А. и Агандееву Е.А. - за обсуждение отдельных результатов исследования и высказанные критические замечания, к.т.н. Ефимушкину Ю.А. и Козлову Ф.А. («НИТИ-ТЕСАР»), а также коллективам терапевтического отделения клинической больницы №3 и клиники профпатологии и гематологии СГМУ - за проявленный к работе интерес и предоставленный материал.

1.0Б30Р И ОСНОВНЫЕ ПОЛОЖЕНИЯ РАЗВЕДОЧНОГО АНАЛИЗА

1.1. СХЕМЫ ПРЕДСТАВЛЕНИЯ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

Как правило, экспериментальные данные в системах обработки информации являются многомерными и представляются в виде матрицы "объект-признак" [31], строки которой соотнесены с анализируемыми объектами, а столбцы - со значениями изучаемых признаков (параметров, показателей, переменных, критериев, атрибутов, реквизитов и т.д., в зависимости от принятой терминологии). В большинстве случаев, такие матрицы характеризуются большой размерностью, а представленные переменные-признаки - моделями с периодичностями, трендами и шумами в различных шкалах измерений с распределениями различных типов, пропусками и аномальными наблюдениями.

Обозначим матрицу "объект-признак" как

Х = [^], (1.1)

где / = 1, п - объекты, у = 1, т - признаки.

Будем считать, что в системе определены технология формирования матрицы X, область допустимых значений параметров и типы шкал, по которым производятся измерения. Матрица X может быть неполной, если отсутствует значение хотя бы одного признака для какого-либо объекта. Кроме этого матрица X может также содержать и далеко отстояшие от общей массы неправдоподобные данные. Источниками таких данных могут быть ошибки, допущенные экспертами при логико-сем