автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Методы и модели интеллектуального анализа сигналов геофизических полей

кандидата технических наук
Тристанов, Александр Борисович
город
Петропавловск-Камчатский
год
2006
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и модели интеллектуального анализа сигналов геофизических полей»

Автореферат диссертации по теме "Методы и модели интеллектуального анализа сигналов геофизических полей"

На правах рукописи

Тристанов Александр Борисович

МЕТОДЫ И МОДЕЛИ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА СИГНАЛОВ ГЕОФИЗИЧЕСКИХ ПОЛЕЙ

Специальность: 05.13Л8, - Математическое моделирование,

численные методы и комплексы программ

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург - 2006

Работа выполнена в Камчатском государственном университете имени Витуса Беринга ("КамГУ имени Витуса Беринга").

Научный руководитель -

доктор технических наук, профессор Геппенер В.В. Научный консультант -

кандидат физико-математических наук Фирстов ГШ. Официальные оппоненты:

доктор технических наук, профессор Куприянов М.С. кандидат технических наук, с.н.с. Егоров В.В.

Ведущая организация — Институт космофизических исследований и

распространения радиоволн ДВО РАН, п. Паратунка, Камчатская область

Защита состоится МяХр* 2006 г. в часов на заседании

диссертационного совета /Д 212.238.01 Санкт-Петербургского государственного электротехнического университета "ЛЭТИ" имени В.И. Ульянова (Ленина) по адресу: 197376, Санкт-Петербург, ул. Проф. Попова, 5.

С диссертацией можно ознакомиться в библиотеке университета. Автореферат разослан " // " 2006 г.

Ученый секретарь ^^ / дисссртацио кко го совстз^-—

Гт—---------»л г

XVА,ж .

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность, Большое значение в геофизических и геохимических исследованиях имеют методы и средства сбора, обработки и анализа данных наблюдений. К настоящему времени геофизика почти полностью перешла к применению современных цифровых систем сбора, передачи, хранения и обработки данных. Развитие методологической, теоретической и инструментальной базы геофизики позволяет получать принципиально новые знания о геодинамических процессах и строении Земли.

Классическим подходом к анализу сигналов в геофизике является экспертный метод, который обладает рядом недостатков, связанных с субъективностью мнения эксперта. Возрастающий объем данных, получаемых в настоящее время в ходе исследований геодинамических процессов, требует принципиально нового подхода к их обработке. Обнаружение и выделение в геофизических сигналах особенностей, повторяющихся явлений, скрытых аномалий и закономерностей, обусловленных процессами, происходящими в недрах Земли, требуют определенной формализации, которая возможна при использовании современных методов математического моделирования. Огромный поток данных делает необходимым разработку автоматических систем, формирующих описание исследуемых сигналов и выделение в них особенностей, связанных с изменениями в структуре геологической среды или в таких геодинамических процессах как землетрясения и извержения вулканов. Целью таких систем является повышение производительности обработки регистрируемых данных, возможность формализовать и повысить эффективность выделения различного вида особенностей сигнала, а также облегчить интерпретацию получаемых данных. . :

Построение модели геологической среды является сложной и, зачастую, не решаемой задачей, вследствие многофакторности объекта моделирования. Получаемые модели не могут применяться для достоверного прогноза поведения моделируемой системы. В связи с этим, в настоящее время в геофизике делается упор на разработку методов анализа результатов наблюдения за поведением реальной среды на основании записей сигналов геофизических полей с последующим построением расчетных и эмпирических зависимостей, которые отражают состояние геологической среды. Так, известно, изменения в структуре сигналов геофизических полей являются следствием изменения напряженно-деформированного состояния среды. Последнее является основой в задачах поиска предвестниковых аномалий землетрясений и прочих природных катастроф.

Основная задача анализа сигналов заключается в представлении сигнала в такой форме, на основании которой можно получить новую информацию о процессах, протекающих в исследуемой системе. Перспективным представляется подход структурного моделирования, при котором модель сигнала формируется из компонент со свойствами, задаваемыми на основе представлений о физике процесса, причем формулировка данных свойств, требует применения математических методов, позволяющих описать сигнал,

поведение которого меняется с течением времени. Наиболее эффективно данную задачу позволяют решать методы, основанные на теории вейвлет-преобразования, для которой в настоящее время хорошо развита математическая база, и которая нашла широкое применение в обработке сигналов различной природы.

В настоящее время актуальным является применение интеллектуальных методов (технология Data Mining) в обработке данных в таких областях как медицина, социология, экономика и маркетинговые исследования. Данное направление является перспективным и для обработки результатов геофизических наблюдений. Применение методов Data Mining к обработке сигнальной информации в геофизике требует адаптации данной технологии и включения в нее современных методов цифровой обработки сигналов.

Обобщая сказанное выше, можно сделать вывод, что актуальность предлагаемого подхода при анализе геофизических данных определяется возможностью решения таких задач, как поиск предвестников сильных землетрясений, выделение отдельных этапов в динамике вулканических извержений, обнаружение волновых возмущений в атмосфере при вулканических взрывах и т.д. Актуальность предлагаемой работы определяется важностью прогноза природных явлений по наблюдаемым изменениям геофизических полей в рамках программы по обеспечению безопасности населения и народно-хозяйственных объектов при возникновении природных катастроф.

Общее содержание диссертационной работы соответствует научному направлению "Распознавание образов и обработка изображений" Государственной научно-технической программы "Перспективные информационные технологии". Исследование выполнялось в рамках научно-исследовательской работы «Современная геодинамика и новейшая тектоника зоны сочленения Курило-Камчатской и Алеутской островных дуг», проводимой в Институте вулканологии и сейсмологии Дальневосточного отделения РАН. Исследование выполнено при финансовой поддержке гранта РФФИ 02-05-64467-а (2004 г.), и грантов Президиума Дальневосточного отделения РАН 05-Ш-Г-08-140 (2005 г.). 06-Ш-А-08-335 (2006 г.).

Целью диссертационного исследования является разработка методики интеллектуального анализа сигналов геофизических полей с использованием технологии Data Mining с целью выявления их аномального поведения. В ходе достижения цели решались следующие задачи:

1. Качественный анализ сигналов и формулировка требований к разрабатываемой системе автоматической обработки.

2. Разработка методологии анализа сигналов с использованием технологии Data Mining на основе сформулированных требований,

3* Разработка формы представления сигнала - его структурной модели.

4. Разработка алгоритмов сегментации сигналов, классификации их элементов и построения структурной модели.

5.: Разработка программного обеспечения, реализующего предложенные алгоритмы;

6. Проведение экспериментов по оценке эффективности разработанной сис-

темы с использованием модельных и реальных геофизических сигналов.

Методы исследования. В диссертационной работе использовались аппарат теории цифровой обработки сигналов, теории искусственного интеллекта, теории распознавания образов, математического моделирования, методы дискретной и вычислительной математики, основы функционального анализа.

Научную новизну работы составляют следующие положения:

1. Использование технологии Data Mining для анализа геофизической информации и построения моделей сигналов.

2. Структурная модель сигналов геофизических полей, описывающая изменение свойств сигнала как последовательности классов сегментов, позволяющая эффективно интерпретировать результаты экспериментов.

3. Алгоритм сегментации и классификации сигналов на основе вейвлет-пакетного разложения, отличающийся адаптивностью к свойствам сигнала.

Научные положения« выносимые на защиту:

1. Методика анализа сигналов геофизических полей с использованием технологии Data Mining.

2. Способ описания структуры и классификации сигналов на основе лучшего вейвлет-пакетного разложения.

3. Структурная модель сигнала геофизических полей и методы ее исследования. •

4. Алгоритм сегментации сигналов на основе вейвлет-пакетов.

Практическую значимость работы составляют:

1. Разработанные алгоритмы для сегментации сигналов геофизических полей.

2. Разработанный комплекс прикладных программ, автоматизирующий построение и исследование структурной модели сигналов геофизических полей.

3. Предложенные алгоритмы и методы могут служить основой для создания новых систем анализа нестационарных сигналов в различных прикладных областях.

Внедрение результатов работы. Результаты диссертационного исследования внедрены в лаборатории комплексных исследований предвестников землетрясений и извержений вулканов Института вулканологии и сейсмологии ДВО РАН и в учебный процесс кафедры прикладной математики Камчатского государственного университета им. В. Беринга, что подтверждено актами о внедрении.

Апробация работы. Основные положения диссертационного исследования докладывались на следующих научных мероприятиях:

- Всероссийские научные конференции «Проектирование инженерных и научных приложений в среде MATLAB», Москва, 2002,2004 г.г.

- Ежегодные конференции, посвященные Дню вулканолога, Петропавловск-Камчатский, 2004, 2005 г.г.

- Международные конференции по мягким вычислениям и измерениям

(SCM'2004, SCM'2006), Санкт-Петербург, 2004,2006 г.г. ,

7-я международная конференция Распознаванию образов .и-анализ изображений» (РОАИ-7), Санкт-Петербург, 2004 г. ; , Конференции профессорско-преподавательского состава СПбГЭТУ «ЛЭТИ», Санкт-Петербург, 2005,2006 г.г.

- Четвертый всероссийский симпозиум «Сейсмоакустика переходных зон», Владивосток, 2005 г. - ?

- Ежегодная региональная молодёжная конференция «Исследования В области наук о Земле (география, геология, геофизика, геоэкология, вулканология), Петропавловск-Камчатский, 2005 г.

- Конференция «Комплексные сейсмологические и геофизические исследования Камчатки» 17-18 января 2006 г., Петропавловск-Камчатский, 2006г.

Публикации. По теме диссертации опубликовано 11 научных работ, из них 1 статья, 10 докладов в материалах и трудах международных и всероссийских конференций.

Структура и объем диссертации. Диссертация состоит из введения, шести глав, заключения, списка литературы, включающего 78 наименований, и двух приложений. Основная часть работы изложена на 111 страницах машинописного текста. Работа содержит 61 рисунок и 5 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность и научная новизна, изложены цели, задачи и методы исследования, практическая значимость диссертационного исследования.

Первая глава посвящена рассмотрению технологии Data Mining в геофизических исследованиях и носит обзорный характер. Рассмотрены методы геофизических исследований, проведен качественный анализ сигналов геофизических полей. Сформулированы требования к системам обработки геофизических сигналов.

Data Mining является одним из бурно развивающихся направлений обработки данных, которое лежит на пересечении таких областей знаний как теория баз данных^ математическая статистика и теория искусственного интеллекта.

Data Mining (добыча знаний) - это процесс исследования и обнаружения (алгоритмами, средствами искусственного интеллекта), в сырых данных, скрытых, ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации человеком знаний.

Выделяют следующие классы задач Data Mining: регрессия, классификация, поиск ассоциативных правил, кластеризация.

v -Важным источником знаний о внутренней структуре Земли и.протекающих процессах в ее глубинах являются геофизические поля. В связи с этим современная наука уделяет особое внимание развитию новых теорети-

ческих и аппаратурных методов изучения процессов, определяющих динамические явления, связанные с трансформацией энергии в геофизической среде, и формирующих тонкую структуру естественных геофизических полей, которые отражают наблюдаемые внутренние перестройки и изменения в окружающей среде.

Одной из проблем исследования сигналов геофизических полей с целью выявления аномалий, предшествующих повышению сейсмической активности, является формирование компактного признакового описания сигналов. Широкое применение находят методы построения такого описания экспертом по визуальному анализу временной реализации сигнала. Данный метод обладает рядом преимуществ, но и рядом недостатков. Применяемый в процессе анализа опыт эксперта позволяет классифицировать аномалии по видам (интересные/ неинтересные, помехи/особенности и т.д.). Недостатки данного подхода являются следствием именно эмпиричности и субъективности мнения эксперта, а также невозможности отследить скрытые особенности (например, аномалии в частотной области). Большинство систем обработки и анализа данных, применяемых в геофизике, действуют на основании предварительно сформулированной гипотезе о виде аномалии, которую требуется обнаружить. Зачастую, особенно на начальных этапах наблюдений, невозможно сказать, как будет выглядеть аномалия в сигнале, предшествующая сейсмической активности. В связи с этим применение таких систем является малоэффективным.

Анализируя имеющийся опыт обработки сигналов геофизических полей, можно выделить ряд характеристических особенностей сигналов: значительный объем, делающий невозможным ручную обработку данных; вариабельность сигналов, как во временной, так и в частотной области; сильная зашумленность, в том числе и техногенными помехами; влияние на сигналы длиннопериодных воздействий (сезонный ход, приливные воздействия); временная локализованность аномалий.

Применяемые математические. методы должны учитывать свойства сигналов, т.е. методы должны быть пригодны для анализа нестационарных сигналов со значительной частотно-временной вариабельностью. В настоящее время при обработке таких сигнало-i хорошо зарекомендовал себя метод вейвлет-анализа. Следует отметить лучшее из всех существующих методов частотно-временное разрешение вейвлетов с точки зрения адаптивности, как к мелкомасштабным особенностям, так и к длиннопериодным,

В главе показано, что одной из наиболее перспективных основ для построения систем обработки геофизических сигналов является технология Data Mining, включающая в себя разнообразные методы извлечения знаний. Но следует отметить, что изначально эти методы ориентировались на извлечение знаний в бизнес-приложениях и в связи с этим требуют адаптации для применения их к сигнальной информации.

Во второй главе предлагается подход к обработке геофизических сигналов на основе интеллектуальных технологий. Разработана структурная модель сигнала. Показана общая структура систем Data Mining. Представлен

обзор формальных задач Data Mining. Сформулирована задача сегментации сигнала как обобщение задачи обнаруженш особенностей и частный случай задачи регрессии. -

Анализ экспериментальных данных, обладающих внутренней структурой, связан с необходимостью выделения и глассификации их фрагментов, несущих элементарные единицы информация об исследуемом объекте. Методы, предназначенные для выявления и кхассификации сравнительно коротких фрагментов сигнала, несущих информацию об исследуемом объекте, принято называть структурными.

Используя такой подход к- сигналам, предложена модель сигнала вида (S,R), где S — множество элементарных блоков сигнала, R - множество допустимых связей (закономерностей в следовании блоков) между элементарными блоками.

Идентификация данной модели предполагает выполнение двух операций:

1, Составление словаря элементарных блоков. Данная операция выполняется методами сегментации и классификации.

2. Выявление допустимых связей. Эта операция выполняется методами анализа последовательностей, в частности, путем построения ассоциативных правил. Ассоциативные правила позволяют выделять статистически часто повторяющиеся последовательности, с целью выявления фоновых процессов, С другой стороны могут выделяться и связи допустимые в данном сигнале, но являющиеся редкими, которые определяют артефакты сигнала или особенности. К особенностям могут относиться как аномальные (редкие) связи, так и редкие классы блоков.

Предлагаемый подход к анализу геофизических сигналов включает в себя 3 этапа.

Этап 1. Сбор и обработка сырых данных. Задача сбора данных решается на аппаратном уровне и включает в себя регистрацию сигналов и подготовку их цифровых записей. Далее на данном этапе происходит подготовка сырых данных к применению методов Data Mining.

Этап 2. Применение методов Data Mining. На данном этапе рассматриваются задачи, решение которых невозможно или представляет сложность при применении классических методов. К этим задачам относятся: выделение скрытых особенностей сигнала, выделение фоновых процессов, классификация особенностей, выявление скрытых закономерностей в последовательности условно стационарных участках сигнала. Явное решение'данных задач в геофизике затруднительно вследствие неопределенности в структуре наблюдаемых данных.

Решение перечисленных задач предлагается проводить по следующей схеме:

1) использование методов выделения особенностей и формирование признакового описания сегментов.

Этот пункт заключается в применении методов сегментации сигналов и является одним из вариантов задачи регрессии. Сегментацию можно рас-

сматривать как процесс преобразования сигнала к дискретной последовательности сегментов с известными свойствами.

2) классификация сегментов;

После получения подготовленного материала необходимо его систематизировать. В зависимости от выбранного алгоритма сегментации выделенные участки сигнала (сегменты) могут быть разделены по классам автоматически, либо требовать применения методов автоматической кластеризации,

В результате мы имеем последовательность сегментов, каждому из которых поставлена в соответствие строка (код), определяющая класс сегмента. Данный код включает — номер (название или другой идентификатор) класса и длительность сегмента.

3) анализ последовательностей;

На данном этапе происходит поиск закономерностей в полученной последовательности, либо анализ структуры сегментов.

Этап 3. Интерпретация и визуализагрш.

Данный этап связан с визуализацией результатов и предполагает использование методов когнитивной графики и прочих средств визуализации, упрощающих пользователю понимание полученных результатов.

Формально, решая задачу сегментации, требуется построить детектор, выбирающий одну из двух гипотез Ий и Я,:

Нй: исследуемый сигнал {х,} соответствует модели А/,;

Ну: существует момент времени т, такой, что исследуемый сигнал {ж,} соответствует модели А/, при г < г и модели М2 при г £ г.

Здесь г - граница сегмента.

Свойства, изменение которых могут быть обнаружены, определяются гипотезой о виде моделей А/, и Мг. Эти модели, в свою очередь, определяют выбор критерия сегментации. Модели А/, и М2 представляют собой экземпляры параметрической модели Л/, зависящей от набора свойств (параметров) в. Параметры модели Л/, идентифицируются или задаются заранее и служат отправной точкой процедуры сегментации. Параметры модели М2 в задаче обработки геофизических данных считаются априори неизвестными.

В третьей главе предложен метод сегментации основанный на конструкции вейвлет-пакетов. Кратко рассмотрена структура кратномасштабного анализа, как частого случая вейвл ет-пакетного разложения.

Конструкция кратномасштабного анализа позволяет разбить частотную область на диапазоны, но разбиение происходит лишь в строну низкочастотного диапазона. При построении модели элементарного блока больший интерес представляет структура всего частотного диапазона. Вейвлет-пакеты обладают лучшей частотной локализацией по сравнению с другими методами. В связи с этим, для построения модели будут использоваться свойства вейв-лет-пакетного разложения.

Для реализации процесса идентификации структурной модели сигнала, алгоритм должен выделить момент смены модели элементарного блока. В главе предлагается рассматривать модель элементарного блока, основанную

на вейвлет-пакетном представлении последовательности. Алгоритм сегментации заключается в выполнении приведенных ниже шагов.

Будем исследовать сигнал <£. Разобьем Б на окна с перекрытием. Размеры окон будут определять разрешение алгоритма сегментации. Все действия алгоритма будут проводиться последовательно над каждым окном. Сравнение характеристик, полученных в каждом окне будут производится для соседних пар окон.

Первый этап заключается в анализе свойств сигнала в у'-м окне. Пусть 5У участок сигнала» соответствующийу-му окну. Выполним вейвлет-пакетное

разложение , с заранее выбранным базисом у до уровня N. В результате имеем граф — полное бинарное дерево высотой число листьев у которого равно Каждой вершине этого графа соответствуют вей влет-

коэффициенты. Обозначим этот граф разложения Оу

Вершины О} можно частотно-упорядочить, т.е. все левые потомки *-й вершины соответствуют низшей частоте, правые - высшей. Теперь имеем разбиение частотной оси, диапазон каждого из элементов разбиения определяется в соответствии с формулой

/* = [- (к + 1)л-2-у,-Ьг2'у]и [Ьг2"у,(£ +

Далее получим лучшее дерево разложения (основанном на энтропии) -(}}. Дерево ¿7,, в общем случае, является неполным. Графу (листьям дерева) соответствует разбиение частотной области на интервалы, но в отличии от Gj не неравные - {(/|,Л+|]}. Д/ зависит от уровня на котором расположен к-й лист. Аналогичные действия производим над у+1 окном. Имеем наилучшее дерево разложения для окна - .

Деревья <Э{ и ¿?>+), а точнее, порождаемые ими разбиения частотной

оси, отражают структуру спектра сигнала заключенного в соответствующем окне. Т.е. если два разбиения структурно совпадают, то они имеют диапазоны частот, обладающие одинаковым свойством.

Таким образом, два окнау и j+l относятся к одному сегменту сигнала с позиции описанного выше критерия равенства структур спектров, если их лучшие деревья вейвлет-пакетного разложения топологически совпадают.

Разработанный алгоритм, по сути, позволяет описать сигнал в частотно-временной области, используя свойства вейвлет-преобразования. Выбирая лучший базис по заданным критериям, можно получить частотное разбиение сигнала, описывающее его спектральную структуру.

С позиции интеллектуального подхода данный алгоритм решает задачу классификации (регрессии на конечном множестве классов). Классификация сегментов происходит по разбиению частотной области, порожденному лучшим вейвлет-пакетным разложением. Необходимость классификации частей сигнала но иризнаку структуры снеора естественно возникает при анализе геофизических сигналов.

. Четвертая глава посвящена возможным методам анализа полученной структурной модели. Рассмотрено понятие ассоциативного правила (АП).

Рассмотрены формы представления АП. Предложен метод применения теории АП к анализу сигналов. Предложена модификация алгоритмов построения АП для последовательности сегментов. Рассмотрены формы представления структурной модели.

В результате анализа последовательности сегментов получаются логические выводы о закономерностях изменения свойств, определяемых алгоритмом сегментации.

Можно выделить два вида анализа: основанный на частном анализе последовательности и основанный на статистическом анализе. В зависимости от длины сигнала, или настроек алгоритма полученная последовательность может быть короткая, либо длинная. Второй вид, очевидно, ориентирован на анализ достаточно длинных последовательностей, первый может применяться в обоих случаях. Частный анализ основан на исследовании свойств каждого отдельного сегмента. Для предложенного алгоритма сегментации (гл.З) анализируется динамика частотной структуры сигнала. Статистический анализ в первую очередь рассматривает последовательность сегментов как реализацию случайной величины. Только после обработки происходит интерпретация результата с точки зрения модели, заложенной в алгоритме сегментации.

Поиск АП является важной задачей интеллектуального анализа данных. Анализ последовательностей является частным случаем данной задачи.

АП представляет собой логический вывод вида «если А, то В» или «А -> В», где А это набор из наличия которого следует наличие набора В.

К основным характеристикам правил относят: . . ;,.'.

|{г":/" еГ л^с/j ,. .

- поддержку набора suppX = -:-1, N = 7м

N 1 ■ •

- поддержка правил supp(A В)-supp{AKjB)

у, , ^ supp(A В) V. ■

- достоверность правил conf(A В) = --

supp(A)

Ограничивая значение поддержки набора можно составить множество частных наборов, которые в дальнейшем использовать для построения правил. Достоверность показывает вероятность того, что из наличия в транзакции набора А следует наличие в ней набора В, «

Для применения теории АП при обработке сигналов необходимо определить для данной задачи понятие транзакции. На последовательности сегментов введем отношение R следующим образом: два сегмента находятся в отношении R, если они непосредственно следуют друг за другом! Введенное отношение будет отношением доминирования, т.к. Vx,y е d хф если не существует такого zed , что xRzлzRy.

Транзакцией f будем назвать подпоследовательность длинной п сегментов находящихся в отношении R друг с другом. В общем случаэ трапзах ция может быть построена с использованием отношения строго порядка, но нас будут интересовать зависимости между близкими сегментами.

Полученные АП описывают подпоследовательности, часто встречаю-

щиеся в последовательности сегментов. Считая, что сигнал представляет собой совокупность двух форм доведения; фона и артефактов, то АП, поддерживаемые большим числом транзакций, определяют поведение фона, в свою очередь редкие правила позволяют выявить аномальные зависимости в сигнале.

В главе подробно рассмотрен алгоритм apriori построения ассоциативных правил, а также приведено описание модификаций данного алгоритма. Далее приведен обзор подхода к описанию структурной модели сигнала с использованием теории Марковских цепей, на котором основан статистический анализ модели. В заключении рассмотрены формы представления структурной модели сигнала на основе теории отношений и общей алгебры.

Пятая глава посвящена разработке программного комплекса предназначенного для анализа и моделирования сигналов. Описана система генерации сигналов на основе структурной модели с использованием вейвлет-пакетного разложения и системы анализа сигналов. Изложена структура системы анализа (идентификации структурной модели) сигналов.

Комплекс предназначен для исследования сигналов геофизических полей Земли. В основе комплекса лежат алгоритмы, изложенные в настоящей работе. Комплекс разрабатывался с учетом требований, предъявленных в гл.1 к автоматизированным системам обработки и анализа сигналов геофизических полей. Разработанное программное обеспечение реализует все стадии и этапы предлагаемой методики обработки сигналов.

Комплекс включает в себя: 1) подсистему сбора и обработки первичных данных; 2) информационную систему «Регистрация»; 3) подсистему анализа; 4) подсистему моделирования.

Подсистема сбора и обработки первичных данных предназначена для получения данных от внешних источников (систем регистрации и пр.), работы с хранимыми файлами сигналов.

ИС «Регистрация» предназначена для систематизации информации о проектах и экспериментах, проводимых в лаборатории, условиях финансирования, ответственных исполнителях, привлеченном оборудовании, сбора и хранения информации о регистрируемых сигналах и условиях наблюдений, ведения дневника наблюдений, сбор результатов обработки данных наблюдений.

Подсистема анализа предназначена для идентификации и исследования модели сигнала по экспериментальным или модельным данным.

Подсистема моделирования предназначена для генерирования сигналов с заданными свойствами. В основе данной системе лежит обратный алгоритм анализа.

Подсистемы анализа и моделирования реализовывались в среде научных и инженерных расчетов MATLAB 6.5. Информационная система «Регистрация» и подсистема сбора и обработки реализовывались в Delphi 7.0. База данных имеет формат MySQL. Интеграция подсистем в единый программный комплекс достигалась использованием взаимосвязанных информационных структур, с помощью которых происходит передача данных между под-

системами. Также использовались средства автоматизации среды МАТЬАВ, что позволяет рассматривать подсистемы анализа и моделирования как составные элементы информационной системы лаборатории.

Для проверки режимов функционирования и эффективности предложенных алгоритмов была разработана система генерации модельных сигналов, основанная на частном случае структурной модели. Для элементарного блока выбрана вейвлет-пакетная модель. Задача генерации модельного сигнала - есть решение обратной задачи сегментации.

На рис.1 приведена структура построения модели сигнала.

Алгоритм генерации включает в себя следующие этапы:

1. Генерация обобщенной структуры модели, В результате имеем последовательность З'ед', определяющую порядок следования сегментов, их длительность и классы. Генерация данной структуры может происходить как случайным образом, так и задаваться априори. Под длительностью понимается число элементарных блоков входящих в сегмент.

2. Генерация коэффициентов вейвлет-пакетного разложения. Для каждого сегмента из последовательности формируется нижний уровень дерева вей влет-пакетного разложения. Входными параметрами для данного этапа являются: число уровней разложения ЛГ, длительность элементарного блока 2м (но не менее ^ ).

Порядок следования, длительность и

Рис.1 Блок-схема системы моделирования (ШР'1- вейвлет-пакетное восстановления.)

3. Вейвлет-пакетное восстановление. По полученным на втором этапе коэффициентам-восстанавливается отсчеты элементарного блока. Данных этап реализован на основе обобщенного алгоритма Малла. Входными параметрами являются: фильтры восстановления (суть вейвлет),

4. Позиционирование элементарных блоков. Данный этап заключается в выполнении операции конкатенации элементарных блоков в сегменты и далее в модельный сигнал в соответствии с порядком их следования в последовательности Зед.

5. Внедрение аномалий, В полученный на четвертом иг<шс сигнал могут быть внедрены аномалии, длительность которых может быть меньше длительности элементарного блока. Данные аномалии внедряются либо случайным образом, либо управляемо.

По сути, этап генерации элементарного блока заключается в синтезе последовательности, имеющую: заданную длину и частотную структуру, определяемую некоторым критерием. То есть нужно так сгенерировать коэффициенты разложения, чтобы при анализе сигнала имелась фиксированное (заданное) лучшее дерево декомпозиции.

В случае энергетического критерия выбора лучшего дерева задача сводится к распределению коэффициентов по уровням таким образом, чтобы соблюдалось заданное соотношение энергий в каждом из узлов (частотном поддиапазоне). Зная вид лучшего дерева и соотношения энергий, в соответствующие узлы могут быть помещены некоторые коэффициенты, и далее, последовательность отсчетов может быть восстановлена по лучшему дереву.

Технико-экономических эффект внедрения разработанного комплекса заключается в формализации и упрощении обработки и анализа результатов наблюдений за динамикой возмущений геофизических полей. Так, при использовании программного комплекса, упрощается процесс выделения краткосрочных и среднесрочных аномалий в регистрируемых сигналах. Комплекс может применяться для исследования сигналов в различных прикладных областях.

Шестая глава посвящена применению предлагаемой методики к анализу сигналов, полученных с использованием разработанной системы моделирования и реальных геофизических сигналов. Введены критерии качества, описывающие эффективность предложенного алгоритма. Приведено описание статистического материала вычислительного эксперимента. Проведена оценка критериев. На конкретных примерах проиллюстрировано применение предложенной методики при решении реальных геофизических задач, в частности, реконструкции этапов вулканических извержений и анализа структуры сигнала высокочастотного сейсмического шума.

Целью эксперимента по анализу модельных сигналов является проверка корректности и эффективности алгоритмов для построения структурной модели. В качестве экспериментальных данных использовались сигналы сгенерированные разработанной системой моделирования.

Эксперимент состоял из трех частей: 1) проверка корректности работы алгоритма на детерминированных сигналах; 2) исследование «чистых» сигналов; 3) Исследование сигналов с наложенным аддитивным шумом.

Эффективность алгоритмов оценивалась по двум критериям: 1) качество сегментации и 2) качество классификации.

Эффективность сегментации определялась путем оценки вероятности верного распознавания перехода между двумя смежными сегментами. При этом правильность классификации сегментов не рассматривалась. Качество классификации определялась оценкой верной классификации всех сегментов сигнала. При этом из выборки выбрасывались те идентифицированные модели, которые были неправильно сегментированы. В каждом эксперименте генерировалось 1000 сигналов.

В результате вычислительного эксперимента в группе детерминированных сигналов эффективность распознавания, как и ожидалась, была равна

100%, при 0% числе аномалий. Данный факт позволяет сделать вывод о корректности работы алгоритма сегментации.

Результаты оценки эффективности сегментации и классификации представлены на рис.2.

Рис.2 а - зависимость вероятности правильной сегментации от уровня зашумления полезного сигнала, б - зависимость вероятности ошибки классификации от уровня зашумления полезного сигнала (штрихованная линия - доверительный интервал).

Далее проводятся эксперименты по анализу реальных сигналов,

1, Анализ сигналов сейсмоакустической эмиссии. Сигналы сейсмоаку-стической эмиссии регистрировались на скважине НИС-1 в г.Петропавловске- Камчатском. Два сейсмоприемника были расположены в скважине на техногенной пробке и грунте. В результате анализа данных сигналов по предложенной методике были установлены вариации сигнала в зависимости от времени суток и проведен сравнительный анализ сигналов двух датчиков. При исследовании модели применялся метод ассоциативных правил позволивший выделить фоновые процессы (частые зависимости) и артефакты.

2. Анализ волновых возмущений в атмосфере на основании данных катастрофического извержения вулкана Шивелуч 12 ноября 1964 г. На рис.3 приведен результат сегментации сигнала волновых возмущений. Видно, что сигнал был разделен на несколько сегментов, которые согласуются с различными стадиями извержения вулкана-Шивелуч. Стрелками на рисунке обозначены моменты вступления акустического сигнала с периодом меньше 20 с. Каждому из выделенных сегментов сигнала соответствуют определенные частотные структуры.

Каждому из сегментов могут,быть сопоставлены физические процессы. Так последовательность сегментов S4-S6 четко выделяют особенности акустического сигнала от первого источника, связанного с образованием обвальной каменной лавины. Сегмент S9 приходится на начало работы второго акустического источника, которым является начало эксплозивной деятельности в кратере вулкана после обрушения части постройки. Нестационарность в процессе, начавшейся за тем плинианской деятельности вулкана, отражается сегментами S10 -Sil. Эти нестационарности не были обнаружены при обработке сигнала обычными методами. Следует отметить,' что по времени сегменты S10-S11 совпадают с точками экстремумов флуктуаций атмосфер-

кого давления, регистрируемых метеорологическим барографом. Данный факт подтверждает физическую основу выделенных сегментов.

Рис.3 Результат обработки сигнала волновых возмущений, зарегистрированные

на станции Козыревск

3. Анализ волновых возмущений в атмосфере от эксплозий вулкана Ка~ рымский (1997-Î999 гг.). В исследованиях Фирстова П.П., Маневича А.Г. и Озерова А.Ю, проведен предварительный анализ особенностей генерации акустических сигналов в атмосфере, сопровождавших эксплозивную деятельность вулкана Карьшский, исследовались особенности отдельных импульсов, которые представляют собой слабые ударно-воздушные волны (УВВ), связанные с разрушением (фрагментацией) газонасыщенной магмы в кратере вулкана. Поскольку средняя длительность УВВ составляет —2 с (250 точек), то длина элементарного блока была выбрана в 256 точек. Число уровней 5, вейвлет Мейера. На рис.4, где показан результат сегментации акустического сигнала (нижняя кривая), сегменты класса 4 четко выделяют моменты возникновения УВВ, Между цугами УВВ на участках 1,2 (см. рис,4) сигнал меняет структуру и появляются сегменты 6 класса.

Рис.4 Результат обработки флуктуаций атмосферного давления во время эксплозии вулкана Карымский Обычно после серии УВВ происходит стационарное истечение пепло-газовой смеси из кратера вулкана, которое сопровождается аэродинамическим шумом звукового диапазона. Несмотря на то, что аппаратура предназначена для регистрации инфразвуковых колебаний, происходит «просачивание» высоких частот за счет большой интенсивности аэродинамического шума, что отслеживается в процессе сегментации сигнала.

Таким образом, разработанная методика позволяет выделить особенности в акустическом сигнале, связанные с изменением физики эксплозивного процесса при вулканических эксплозиях.

ЗАКЛЮЧЕНИЕ

В диссертационной работе предложен метод интеллектуального анализа (Data mining) в системах обработки сигнальной информации в приложении к геофизическим данным.

Итогом проведенных исследований явились следующие научные и практические результаты: .

1. Предложен новый подход к исследованию сигнальной информации в геофизике на основе решения задач интеллектуального анализа.

2. Разработан подход к описанию сигналов с использованием лучшего вейвлет-пакетного разложения.

3. Предложена структурная модель сигналов геофизических полей. .

4. Разработан алгоритм сегментации сигналов геофизических полей и классификации на основе лучшего вейвлет-пакетного разложения. :

5. Разработан программный комплекс, реализующий предложенные алгоритмы идентификации и исследования структурной модели,

6. Проведены экспериментальные исследования по анализу реальных сигналов геофизических полей с использованием предложенной методики, позволившие выделить ранее неизвестные особенности сигналов.

Дальнейшие исследования могут быть направлены на совершенствование алгоритма сегментации путем создания системы упорядочивания библиотеки элементарных блоков, и, следовательно,. позволятболее гибко их классифицировать. Развитие методов анализа последовательностей, предложенных в работе, позволит разработать систему достоверного прогнозирования поведения временных рядов. •. ,.... ,

Опубликованные работы по теме диссертации

" 1

1. Geppener, V.V. Using Adaptive and Intellectual Methods for Seismic Noise Model Construction (Адаптивные и интеллектуальные методы в построении модели сейсмического шума) [Текст]/ V.V. Geppener, А,В. Tris-tanov, O.P. Rulenko, P.P. Firstov // Pattern Recognition and Image Analysis: Advances in Mathematical Theory and Applications. - 2005.- Vol. 15, № 2, - P. 549552.

2. Геппенер, B.B. Применение вейвлет-преобразования в системах DATA MINING [Текст] / B.B. Геппенер, А.Б. Тристанов, П.П. Фирстов // Междунар. конф. по мягким вычислениям и измерениям (SCM'2006), — Сб. докл., г. Санкт-Петербург, 27-29 июня 2006 г. - СПб: Изд-во С1Ш1Э1У "ЛУ Ш", 2006. —Т.1. —С. 111-114.

3. Геппенер, В.В.Применение методов data mining в обработке сигнальной информации (в геофизических исследованиях) [Текст] / В.В. Геппенер,

A.Б. Тристанов, ГШ. Фирстов // Геофизический мониторинг Камчатки: Материалы науч.-технич. конф., Петропавловск-Камчатский, 17-18 янв. 2006 г. -Петропавловск-Камчатский: КФ ГС РАН, 2006.- С.178-184.

4. Геппенер, В.В. Использование адаптивных и интеллектуальных методов в задаче построении модели сигналов сейсмического шума [Текст]/

B.В. Геппенер, А.Б. Тристанов, О.П. Руленко, П.П. Фирстов // Proceedings of the 7-th International Conference on Pattern Recognition and Image Analysis: New Information Technologies. - 200S.-Vol.2. - P.670-672.

5. Геппенер, В.В. Применение методов сегментации к обработке геофизических данных [Текст]/В .В. Геппенер, А.Б. Тристанов, П.П. Фирстов // Материалы еже год. конф., посвящ. дню вулканолога.-Петропавловск-Камчатский: Наука — для Камчатки, 2005, - С. 183-187

6. Фирстов, П.П. Опыт регистрации сейсмоакустического шума в скважине НИС-1 на Петропавловск-Камчатском геодинамическом полигоне [Текст]/П.П. Фирстов, А.Б. Тристанов, О.П. Руленко// Сейсмоакустика переходных зон: Четвертый всерос. симпозиум: материалы докл.- Владивосток: Изд-во Дальневост. ун-та.- 2005.- С.63-65

7. Геппенер, В.В. Исследование нарушений стационарности сигналов методом вейвлет-анализа [Текст]/В.В, Геппенер, А.Б. Тристанов // Между-нар. конф. по мягким вычислениям и измерениям (SCM'2004): Сб. докл., г. Санкт-Петербург, 17-19 июня 2004 г. - СПб: Изд-во СПбГЭТУ "ЛЭТИ", 2004. —Т.1. - С. 151-155.

8. Руленко, О.П. Особенности поведения микросейсмического шума зарегистрированного в скважине НИС-1 в июле-августе 2003 года [Текст]/О.П. Руленко, А.Б. Тристанов, П.П, Фирстов // Материалы ежегод. конф., посвящ, дню вулканолога. — Петропавловск-Камчатский: Наука — для Камчатки, 2004. - С.82-89

9. Тристанов, А.Б. Обнаружение изменений в сигнале методом вейвлет-анализа [Текст] / А.Б. Тристанов // Проектирование инженерных и научных приложений в среде MATLAB: тр. второй всерос. науч. конф.— М.: Изд-во ИЛУ РАН, 2004.-С. 1798-1821

10. Мандрикова, О. В. Исследование локальных особенностей временного ряда с использованием пакета Wavelet Toolbox. [Текст]/ О.В. Мандрикова, А.Б. Тристанов // Проектирование научных и инженерных приложений в среде MATLAB: тр. всерос. науч. конф,- М.: Изд-во ИПУ РАН, 2002,- С. 242261

11. Мандрикова, О.В. Представление о вейвлет-анализе и возможность его использования для рядов геофизической информации на примере рядов мониторинга подпочвенного радона на Петропавловске-Камчатском геодинамическом полигоне [Текст]/ О.В. Мандрикова, А.Б. Тристанов, П.П. Фирстов //Тр. КамчатГТУ.- 2002,- Вып. 16.- С. 139-153.

Подписано в печать 10.10.2006. Формат 60x84/16

ОТТТ^и^ТОил £ РАТЛоЛГ^ Лр 1.1Г11 Ц>1Т|л ^ Vат^ в Л^^ур4ф1'" А^Л л Ь^Лтттд^^^»рт>Р1Пл

Печать ризографическая. Заказ № 2/1010. П.л. 1.0. Уч.-иэд.л. 1.0. Тираж 100 экз.

ЗАО «КопиСервис» Адрес юр.: 194017, Санкт-Петербург; Скобелевскийпр., д. 16. Адрес факт.: 197376, Санкт-Петербург, ул. Проф. Попова, д. 3. тел.: (812) 327 5098

Оглавление автор диссертации — кандидата технических наук Тристанов, Александр Борисович

ВВЕДЕНИЕ.

ГЛАВА 1. ТЕХНОЛОГИЯ И СИСТЕМЫ DATA MINING В

ГЕОФИЗИКЕ.

1Л. Системы Data Mining.

1Л Л. Понятие системы Data Mining.

1Л .2. Data Mining в обработке сигнальной информации.

1Л .3. Типовая структура системы Data Mining.

1.2. Классы задач Data Mining.

1.2.1. Задачи регрессии и классификации.

1.2.2. Задача поиска ассоциативных правил.

1.2.3. Задача кластеризации.

1.3. Обзор подходов к исследованиям геофизических сигналов

1.4. Качественный анализ сигналов геофизических полей.

1.5. Требования к системе обработки сигналов в геофизике.

1.5.1. Требования к структуре.

1.5.2. Требования к математическому обеспечению.

1.5.3. Требования к информационному обеспечению.

1.5.4. Требования к эргономике и технической эстетике.

Выводы.

ГЛАВА 2. ФОРМАЛИЗАЦИЯ ЗАДАЧ ОБРАБОТКИ СИГНАЛОВ ГЕОФИЗИЧЕСКИХ ПОЛЕЙ И МЕТОДЫ ИХ РЕШЕНИЯ.

2.1. Структурная модель сигнала.

2.2. Методика обработки геофизических сигналов с использованием технологии Data Mining.

2.3. Формулировка задачи сегментации геофизических сигналов

2.4. Задача классификации.

Выводы.

ГЛАВА 3. РАЗРАБОТКА АЛГОРИТМА СЕГМЕНТАЦИИ СИГНАЛОВ НА ОСНОВЕ ВЕЙВЛЕТ-ПАКЕТОВ.

3.1. Вейвлет-пакетная модель элементарного блока.

3.2. Структура кратномасштабного анализа.

3.3. Структура вейвлет-пакетного разложения.

3.4. Алгоритм выбора наилучшего дерева разложения на основе энтропии.

3.5. Алгоритм сегментации на основе вейвлет-пакетного разложения.

3.6. Параметры алгоритма и рекомендации по их выбору.

Выводы.

ГЛАВА 4. АНАЛИЗ ПОСЛЕДОВАТЕЛЬНОСТЕЙ СЕГМЕНТОВ.

4.1. Анализ последовательностей сегментов.

4.2. Ассоциативные правила и анализ последовательностей.

4.2.1. Основные понятия.

4.2.2. Характеристики правил.

4.2.2. Понятие транзакции для последовательности сегментов.

4.3. Алгоритмы построения ассоциативных правил.

4.3.1. Алгоритм Арпоп.

4.3.2. Модифицированные алгоритмы Арпоп.

4.4. Статистический анализ.

4.5. Формы представления структурной модели.

Выводы.

ГЛАВА 5. ПРОГРАММНЫЙ КОМПЛЕКС МОДЕЛИРОВАНИЯ, ОБРАБОТКИ И АНАЛИЗА СИГНАЛОВ ГЕОФИЗИЧЕСКИХ

ПОЛЕЙ.

5.1. Структура программного комплекса.

5.1.1. Описание комплекса.

5.1.2. Структура комплекса.

5.2. Структура подсистемы моделирования.

5.2.1. Этапы генерации сигнала.

5.2.2. Генерация элементарного блока.

5.3. Структура подсистемы анализа.

Выводы.

ГЛАВА 6. ВЫЧИСЛИТЕЛЬНЫЕ ЭКСПЕРИМЕНТЫ ПО АНАЛИЗУ СИГНАЛОВ.

6.1. Анализ модельных сигналов.

6.1.1. Методика проведения эксперимента.

6.1.2. Описание экспериментальных сигналов.

6.1.3. Результаты экспериментов.

6.2. Анализ сигналов сейсмоакустической эмиссии.

6.2.1. Описание экспериментальных данных.

6.2.2. Методика эксперимента.

6.2.3. Результаты эксперимента.

6.2.3.1. Суточные вариации сигнала.

6.2.3.2. Сравнительный анализ датчиков S1 и S2.

6.3. Анализ волновых возмущений в атмосфере на основании данных катастрофического извержения вулкана Шивелуч 12 ноября 1964 г.

6.3.1. Описание экспериментальных данных.

6.3.2. Методика эксперимента.

6.3.3. Результаты эксперимента.

6.4. Анализ волновых возмущений в атмосфере, сопровождавших эксплозию вулкана Карымский

-521 августа 1997 г.

6.4.1. Описание экспериментальных данных.

6.4.2. Результаты эксперимента.

Выводы.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Тристанов, Александр Борисович

Актуальность. Большое значение в геофизических и геохимических исследованиях имеют методы и средства сбора и анализа данных наблюдений. К настоящему времени геофизика почти полностью перешла к применению современных цифровых систем сбора, передачи, хранения и обработки данных. Развитие методологической, теоретической и инструментальной базы геофизики позволяет получать принципиально новые знания о геодинамических процессах и строении Земли.

Классическим подходом к анализу сигналов в геофизике является экспертный метод, который обладает рядом недостатков, связанных с субъективностью мнения эксперта. Всевозрастающий объем данных, получаемых в настоящее время в ходе исследований геодинамических процессов, требует принципиально нового подхода к их обработке. Обнаружение и выделение в геофизических сигналах особенностей, повторяющихся процессов, скрытых аномалий и закономерностей, обусловленных процессами, происходящими в недрах Земли, требуют определенной формализации, которая возможна при использовании современных методов математического моделирования. Огромный поток данных делает необходимым разработку автоматических систем, формирующих описание исследуемых сигналов и выделение в них особенностей, связанных с изменениями в структуре геологической среды или в таких reo динамических процессах как землетрясения и извержения вулканов. Целью таких систем является повышение производительности обработки регистрируемых данных, возможность формализовать и повысить эффективность выделения различного вида особенностей сигнала, а также облегчить интерпретацию получаемых данных.

Построение модели геологической среды является сложной и, зачастую, не решаемой задачей, вследствие многофакторности объекта моделирования. Получаемые модели не могут применяться для достоверного прогноза поведения моделируемой системы. В связи с этим, в настоящее время в reoфизике делается упор на разработку методов анализа результатов наблюдения за поведением реальной среды на основании записей сигналов геофизических полей с последующим построением расчетных и эмпирических зависимостей, которые отражают состояние геологической среды. Так, известно, изменения в структуре сигналов геофизических полей являются следствием изменения напряженно-деформированного состояния среды. Последнее является основой в задачах поиска предвестниковых аномалий землетрясений и прочих природных катастроф.

Основная задача анализа сигналов заключается в представлении сигнала в такой форме, на основании которой можно получить новую информацию о процессах, протекающих в исследуемой системе. В этом плане нашли широкое применение методы параметрического моделирования, которые имеют свои достоинства и недостатки. Так, например, модель авторегрессии - проинтегрированного скользящего среднего и ее частные случаи, сложна для интерпретации, так как лишь косвенно отражает структуру сигнала. В связи с этим перспективным представляется подход структурного моделирования, когда модель сигнала формируется из компонент с заданными свойствами, которые задаются на основе представлений о физике процесса, причем формулировка данных свойств, требует применения математических методов, позволяющих описать сигнал, поведение которого меняется с течением времени (нестационарные сигналы). По мнению автора, наиболее эффективно данную задачу позволяют решать методы, основанные на теории вейвлет-преобразования, для которой в настоящее время хорошо развита математическая база, и которая нашла широкое применение в обработке сигналов различной природы. Для решения поставленной задачи предлагается применить один из видов вейвлет-преобразования, а именно обобщение конструкции кратномасштабного анализа - вейвлет-пакетное разложение. В отличие от кратномасштабного анализа, вейвлет-пакеты описывают локальное поведение сигнала во всей полосе частот и обладают рядом полезных свойств, к которым относятся:

-9- линейность вейвлет-преобразования;

- возможность к частотно-временной локализации;

- широкие возможности настройки алгоритмов, основанных на вейв-лет-пакетах, путем выбора различных базисных функций и критериев выбора лучшего базиса.

К сожалению, вейвлет-преобразование не является инвариантным к сдвигу. В связи с этим в диссертации предлагается использовать блочный алгоритм сегментации.

При решение аналогичных задач (поиска закономерностей и особенностей в данных) в экономических, медицинских и социальных исследованиях хорошо зарекомендовала себя технология Data Mining, которая аккумулирует в себе концепцию, методы и средства анализа данных.

К основным задачам технологии Data Mining относятся: классификация, кластеризация, регрессия, поиск ассоциативных правил. В работе проводится формулировка данных задач, которые в том или ином виде решаются в теории обработки сигналов.

Универсальность Data Mining позволяет ее применить к исследованию сигнальной информации во многих областях науки, но ориентированность ее методов на обнаружение знаний в специализированных базах данных (экономических и пр.) требует адаптации этой технологии к обработке сигналов геофизических и геохимических полей с целью выделения аномалий, обусловленных геодинамическими процессами.

Обобщая сказанное выше, можно сделать вывод, что актуальность предлагаемого подхода при анализе геофизических и геохимических данных определяется возможностью решения таких задач, как поиск предвестников сильных землетрясений, выделение отдельных этапов в динамике вулканических извержений, обнаружение волновых возмущений в атмосфере при вулканических взрывах и т.д.

Актуальность предлагаемой работы определяется важностью прогноза природных явлений по наблюдаемым изменениям геофизических полей в рамках программы по обеспечению безопасности населения и народно-хозяйственных объектов при возникновении природных катастроф.

Целью диссертационного исследования является разработка методики анализа сигналов геофизических полей с использованием технологии Data Mining с целью выявления их аномального поведения.

В ходе достижения цели решались следующие задачи:

1. Качественный анализ сигналов и формулировка требований к разрабатываемой системе автоматической обработки.

2. Разработка методологии анализа сигналов с использованием технологии Data Mining на основе сформулированных требований.

3. Разработка формы представления сигнала - его структурной модели.

4. Разработка алгоритмов сегментации сигналов, классификации их элементов и построения структурной модели.

5. Разработка программного обеспечения, реализующего алгоритмы.

6. Проведение экспериментов по установлению эффективности разработанной системы.

Методы исследования. В диссертационной работе использовался аппарат теории цифровой обработки сигналов, теории распознавания образов, математического моделирования, методы дискретной и вычислительной математики, основы функционального анализа.

Научную новизну работы составляют следующие положения:

1. Использование технологии Data Mining для анализа геофизической информации и построения моделей сигналов.

2. Структурная модель сигналов геофизических полей, описывающая изменение свойств сигнала как последовательности классов сегментов, позволяющая эффективно интерпретировать результаты экспериментов.

3. Алгоритм сегментации и классификации сигналов на основе вейв-лет-пакетного разложения, отличающийся адаптивностью к свойствам сигнала.

Научные положения, выносимые на защиту:

1. Методика анализа сигналов геофизических полей с использованием технологии Data Mining.

2. Способ описания структуры и классификации сигналов на основе лучшего вейвлет-пакетного разложения.

3. Структурная модель сигнала геофизических полей и методы ее исследования.

4. Алгоритм сегментации сигналов на основе вейвлет-пакетов.

Практическую значимость работы составляют:

1. Разработанные алгоритмы для сегментации сигналов геофизических полей.

2. Разработанный комплекс прикладных программ, автоматизирующий построение и исследование структурной модели сигналов геофизических полей.

3. Предложенные алгоритмы и методы могут служить основой для создания новых систем анализа нестационарных сигналов в различных прикладных областях.

Основные положения диссертационного исследования докладывались следующих научных мероприятиях:

Вторая Всероссийская научная конференция «Проектирование инженерных и научных приложений в среде MATLAB», Москва, 2004 г.

- Ежегодная конференция, посвященная Дню вулканолога, Петропавловск-Камчатский, 2004, 2005 г.г.

- Международная конференция по мягким вычислениям и измерениям SCM, Санкт-Петербург, 2004, 2006 г.г.

7-я международная конференция по распознаванию образов и анализу изображения PRIA 7, Санкт-Петербург, 2004 г. Конференция профессорско-преподавательского состава СПбГЭ-ТУ «ЛЭТИ», Санкт-Петербург, 2005, 2006 г.г.

- Четвертый всероссийский симпозиум «Сейсмоакустика переходных зон», Владивосток, 2005 г.

- Ежегодная региональная молодёжная конференция «Исследования в области наук о Земле (география, геология, геофизика, геоэкология, вулканология), Петропавловск-Камчатский, 2005 г.

- Конференция Комплексные сейсмологические и геофизические исследования Камчатки 17-18 января 2006 г., Петропавловск-Камчатский, 2006г.

По теме диссертации опубликовано 11 научных работ, из них 1 статья, 10 докладов в материалах и трудах международных и всероссийских конференций.

Результаты диссертационного исследования внедрены в лаборатории комплексных исследований предвестников землетрясений и извержений вулканов Института вулканологии и сейсмологии ДВО РАН и в учебный процесс кафедры прикладной математики Камчатского государственного университета им. В. Беринга, подтвержденные актами о внедрении.

Общее содержание диссертационной работы соответствует научному направлению "Распознавание образов и обработка изображений" Государственной научно-технической программы "Перспективные информационные технологии". Исследование выполнялось в рамках научно-исследовательской работы «Современная геодинамика и новейшая тектоника зоны сочленения Курило-Камчатской и Алеутской островных дуг», проводимой в Институте вулканологии и сейсмологии Дальневосточного отделения РАН. Исследование выполнено при финансовой поддержке гранта РФФИ 02-05-64467-а (2004 г.) и грантов Президиума Дальневосточного отделения РАН 05-Ш-Г-08-140 (2005 г.), 06-Ш-А-08-335 (2006 г.).

Заключение диссертация на тему "Методы и модели интеллектуального анализа сигналов геофизических полей"

Выводы

В главе проанализированы различные сигналы и показаны возможности предложенной методики. Одним из преимуществ примененного метода является формализация подхода к выделению участков сигнала.

Проведенное исследование алгоритма на модельных сигналах, подтвердили корректность предлагаемой методики. При построении сигналов использовалась методика предложенная в гл.5, позволяющая генерировать сигналы с разнообразной частотно-временной структурой. Оценена эффективность алгоритма при исследовании зашумленных сигналов.

Для исследования получаемых моделей применялись различные методики. Для анализа моделей сигнала сейсмической эмиссии использовался метод ассоциативных правил. Данный метод показал свою эффективность при обработки сигналов регистрируемых длительно с большой частотой дискретизации и позволил выделить фоновые процессы (частые зависимости) и артефакты.

Для анализа сигналов волновых возмущений вулканов Шивелуч и Карымский использовался частный анализ сегментов. Модели данных сигналов хорошо согласованы с физическими процессами, происходившими в период извержений. Данные модели, бесспорно, будут полезны при анализе аналогичных сигналов при других извержениях.

Результаты данной главы изложены в работах [15,17,18, 55, 56, 57].

-120-ЗАКЛЮЧЕНИЕ

В диссертационной работе предложено внедрение новой концепции -интеллектуального анализа (Data mining) в системах обработки сигнальной информации в приложении к геофизическим данным.

Итогом проведенных исследований явились следующие научные и практические результаты:

1 .Предложен новый подход к исследованию сигнальной информации в геофизике на основе решения задач интеллектуального анализа.

2. Разработан подход к описанию сигналов с использованием лучшего вейвлет-пакетного разложения.

3. Предложена структурная модель сигналов геофизических полей.

4. Разработан алгоритм сегментации сигналов геофизических полей и классификации на основе лучшего вейвлет-пакетного разложения.

5. Разработан программный комплекс, реализующий предложенные алгоритмы идентификации и исследования структурной модели.

6. Проведены экспериментальные исследования по анализу реальных сигналов геофизических полей с использованием предложенной методики, позволившие выделить ранее неизвестные особенности сигналов.

Дальнейшие исследования могут быть направлены на совершенствование алгоритма сегментации путем создания системы упорядочивания библиотеки элементарных блоков, а следовательно позволит более гибко их классифицировать. Развитие методов анализа последовательностей, предложенных в работе, позволит разработать систему достоверного прогнозирования поведения временных рядов.

- 121

Библиография Тристанов, Александр Борисович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Абраменова, И.В. Matlab 5.3.1 с пакетами расширений Текст./ И.В. Абраменова, В.П. Дьяконов, В.В. Круглов; Под ред. проф. В.П. Дьяконова. М.: Нолидж, 2001. - 880 с.

2. Айвазян, С.А. Прикладная статистика в задачах и упражнениях: Учебник для вузовТекст./ С.А. Айвазян, B.C. Мхитарян М.:ЮНИТИ-ДАНА, 2001

3. Айфичер, Э.С. Цифровая обработка сигналов: практический подход Текст./ Э.С. Айфичер, Б.У. Джервис; 2-е издание: Пер. с англ. М.: Изд. дом «Вильяме», 2004. - 992 с.

4. Астафьева, Н. Вейвлет-анализ: основы теории и примеры применения Текст. / Н. Астафьева // Успехи физических наук. 1996.- Том 166, №11.-С. 1145-1170

5. Бокс, Дж. Анализ временных рядов прогноз и управление Текст. / Дж. Бокс, Г.Дженкинс: Пер. с англ.- М.: Мир, 1974.

6. Методы и модели анализа данных: OLAP и Data Mining Текст./ A.A. Барсегян [и др.].- СПб.: БХВ-Петербург, 2004. 336 с.

7. Бриллинджер, Д.Р. Временные ряды. Обработка данных и теория Текст. / Д.Р. Бриллинджер: Пер. с англ. М.:Мир, 1980. - 536 с.

8. Вентцель, Е.С. Теория вероятностей Текст. /Е.С.Вентцель.- М.: Изд-во Наука, 1969-576 с.

9. Хаврошкин, О. Б. Проблема предсказания землетрясений: Результаты, обсуждение, предложения Текст. / О.Б. Хаврошкин, В.В. Цыплаков, H.A. Видмонт // Вестник ОГГГГН РАН.- 2000. -Т. 1. № 2.-С.73-76

10. Видмонт, H.A. Особенности и возможности регистрации сейсмических шумов внутренних точек среды Текст. /Н.А.Видмонт, О.Б.Хаврошкин, В.В.Цыплаков // Вулканология и сейсмология. 1991. - №4. - С. 54-60

11. Геофизические методы исследований. Учебное пособие для геологических специальностей вузов Текст. / В.К. Хмелевская, [и др.].

12. A.С.Черепанцев, В.В.Сергеев // Вулканология и сейсмология. 1990.-№2.-С.88-100

13. Солонина А.И. Основы цифровой обработки сигналов: Курс лекций Текст./ А.И.Солонина [и др.].- Изд. 2-е испр. и перераб. СПб.: БХВ-Петербург, 2005. - 768 с.

14. Страхов В.Н. Проблемы математической геофизики XXI века Текст./

15. B.Н.Страхов // Геофизика на рубеже веков: изб. тр. ученых ОИФЗ РАН.-М.:ОИФЗ РАН, 1999.-С.9-59

16. Текст./ П.П.Фирстов, В.П.Рудаков// Вулканология и сейсмология.-2003.-№ 1.- С.26-41.

17. Фирстов, П.П. Система хранения и обработки записей волновых возмущений в атмосфере от вулканического изверженияТекст./ П.П.Фирстов, Ю.А.Филиппов // Вулканология и сейсмология.-1997.-№2.-С.36-49

18. Чуй, Ч. Введение в вэйвлетыТекст./ Ч.Чуи.- Пер. с англ. М.: Мир, 2001.-412 с.

19. Agrawal, R. Fast algorithms for mining association rules Текст./ R. Agrawal, R. Srikant.- Proceedings of the 20th International Conference on Very Large Databases.- San Francisco: Morgan Kaufmann.-P. 487-499

20. Bow S.-T. Parttern Recognition and Image Preprocessing TeKCT./S.T.Bow.-N.-Y. Marcel Dekker Inc, 1992.

21. Coifman R.R.,Entropy-based algorithms for best basis selection Текст./ R.R.Coifman, Wickerhauser.- IEEE Trans. Info. Theory.- 38(2).-P.713-718

22. Inmon W.H. Building the Data Warehouse TeKCT./W.H.Inmon.- Third Edition.- Jhon Wiley & Sons, Inc, 2002