автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Алгоритмы и программный комплекс анализа многомерных данных о природных объектах с применением статистического и нечеткого моделирования

кандидата технических наук
Лучкова, Софья Викторовна
город
Томск
год
2014
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Алгоритмы и программный комплекс анализа многомерных данных о природных объектах с применением статистического и нечеткого моделирования»

Автореферат диссертации по теме "Алгоритмы и программный комплекс анализа многомерных данных о природных объектах с применением статистического и нечеткого моделирования"

На правах рукописи

ЛУЧКОВА СОФЬЯ ВИКТОРОВНА

АЛГОРИТМЫ И ПРОГРАММНЫЙ КОМПЛЕКС АНАЛИЗА МНОГОМЕРНЫХ ДАННЫХ О ПРИРОДНЫХ ОБЪЕКТАХ С ПРИМЕНЕНИЕМ СТАТИСТИЧЕСКОГО И НЕЧЕТКОГО МОДЕЛИРОВАНИЯ

Специальность 05.13.18 — Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Томск 2014

005550629

Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте химии нефти Сибирского отделения Российской академии

наук (ИХН СО РАН) и Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Томский государственный университет систем управления и радиоэлектроники» (ТУСУР)

Научный руководитель — кандидат технических наук доцент

Перемитина Татьяна Олеговна

Официальные оппоненты: Скворцов Алексей Владимирович, доктор

технических наук, профессор, профессор кафедры теоретической информатики Национального исследовательского Томского государственного университета

Аксенов Сергей Владимирович, кандидат технических наук, доцент кафедры оптимизации систем управления Национального исследовательского Томского политехнического университета

Ведущая организация — Институт вычислительной математики

и математической геофизики Сибирского отделения РАН (г. Новосибирск)

Защита состоится 26 июня в 15.15 на заседании диссертационного совета Д 212.268.02 при ТУСУРе по адресу: 634050, г. Томск, пр. Ленина, 40 (ауд. 201).

С диссертацией можно ознакомиться в библиотеке ТУСУРа по адресу: 634034, г. Томск, ул. Вершинина, 74.

Автореферат разослан _2014 г.

Ученый секретарь —-—Мещеряков Роман Валерьевич

диссертационного совета

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Научно-исследовательская деятельность сопряжена с обработкой постоянно увеличивающегося массива разрозненной совокупной информации об объектах исследования. Аналитические процессы предполагают обработку огромного количества материалов и включают такие трудоемкие процессы как систематизация, выявление каких-либо закономерностей, преобразование данных для последующего математического моделирования. Модели данных - это важнейшая составляющая для анализа, так как то, насколько полно и детально модель может представить предметную область и ее явления, в значительной степени определяет функциональные возможности создаваемой системы. Однако построение модели и последующего анализа осложняется проблемой неточного или неполного описания изучаемых объектов. Одним из подходов к решению данной проблемы является применение методов статистического и нечеткого моделирования.

Нечеткое моделирование используется при построении сложных моделей, когда трудно сформировать аналитическую модель объекта, когда модель слишком сложна, или когда имеется неполнота экспертных данных для статистического моделирования. Нечеткие системы (НС) применяются в таких проблемных областях науки и техники как прогнозирование, распознавание образов, автоматическое управление, системы принятия решений, робототехника. Преимуществами НС является невысокая стоимость разработки, гибкость, интуитивно понятная логика функционирования.

Важным моментом, решаемым в процессе построения НС, является идентификация ее параметров. Актуальной является задача повышения точности вывода НС на реальных данных. Для настройки параметров НС используются различные методы оптимизации, наряду с методами, основанными на производных, применяются генетические алгоритмы, эволюционные стратегии и нейронные сети. Эволюционные стратегии совместно с эволюционным программированием и генетический алгоритм представляют три главных направления развития эволюционного моделирования. Несмотря на то, что каждый из методов возник независимо от других, они характеризуются рядом общих свойств. Для любого из них формируется исходная популяция, которая подвергается селекции и воздействию различных генетических операторов, что позволяет находить лучшие решения. Построение алгоритмов на основе метода эволюционной стратегии основываются на трудах Ingo Rechenberg, Hans-Paul Schwefel, H.-G. Beyer, J, Klockgether, S, Kern, A.Auger, Д. Рутковской, S.L. Luke, N. Hansen, A. Ostermeir, а алгоритмы нечеткого моделирования на работах А.Н. Аверкина, И.А. Ходашинского, И.З. Батыршина, JI.C. Берштейна, Л.Г. Комар-цовой, A.B. Язенина, Н.Г., Ярушкиной, Р.Н. Ishibuchi,n, R.R. Yager, T.Yasukawa, L.-X. Wang, L. Zadeh, H. Bahrami, M. Abdechiri, M.R. Meybodi, Y. Zhang, X. Wu, Z. Xing, W. Hu.

Ввиду многомерности изучаемых данных для проведения анализа появляется потребность в их более компактном описании, то есть в сжатии информа-

ции до более важных характеристик. Факторный анализ (ФА) позволяет учитывать эффект существенной многомерности данных и дает возможность более простого, лаконичного объяснения многомерной структуры. Сжатие информации получается за счет того, что число факторов значительно меньше, чем было исходных параметров. Отсюда основными целями ФА является понижение числа используемых переменных и наглядная визуализация полученных данных.

При исследовании природных объектов, таких как нефть, для повышения наглядности результатов и помощи в их интерпретации требуют включения в анализ пространственных свойств объектов исследования - географические координаты, глубина залегания и др. Для учета и анализа пространственных данных применяются геоинформационные системы (ГИС), позволяющие визуализировать большие объемы информации с пространственными свойствами, включая связанную с ними количественную информацию об объектах.

Выявленные особенности широкого класса природных объектов требуют комплексного подхода к анализу. Комплексность понимается как возможность проведения исследований многомерных неполных данных на основе сочетания методов нечеткого моделирования и многомерного статистического анализа с целью восстановления пропущенных значений, проведения анализа структуры данных, выявления скрытых взаимосвязей между свойствами, а также исследования пространственных свойств объектов, отображая результаты анализа средствами ГИС в едином комплексе программ.

В настоящее время методические вопросы комплексного анализа многомерных данных о природных объектах, решающие одновременно вопросы восстановления неполных данных, редукции исходных данных, выявления значимых характеристик объектов исследования, а так же визуализации с географической привязкой, разработаны недостаточно. В связи с этим возникла необходимость разработки новой методики, основанной на сочетании методов нечеткого и статистического моделирования.

Объект исследования - природные пространственно-распределенные объекты, например нефти, для описания свойств которых используются многомерные массивы данных.

Предмет исследования - комплекс алгоритмов и программ определения зависимостей между различными свойствами природных объектов (например, между физическими, химическими и пространственными свойствами).

Цель работы — разработка алгоритмов и комплекса программ анализа многомерных данных о различных свойствах природных объектов, основанных на сочетании методов нечеткого моделирования, многомерного статистического анализа и методов пространственного анализа с применением геоинформационных систем.

Задачи исследования:

1. Анализ предметной области и обзор существующих решений в области комплексного анализа многомерных неполных данных.

2. Разработка методики проведения комплексного анализа многомерных неполных данных с применением нечеткого и статистического моделирования.

3. Разработка алгоритмов комплексного анализа многомерных неполных данных.

4. Проведение исследований разработанных алгоритмов на типовых контрольных примерах и тестовых выборках.

5. Проектирование и разработка программного комплекса.

6. Применение и внедрение программного комплекса анализа многомерных неполных данных.

Методы исследований: методы нечеткого моделирования, нечетких множеств, математической статистики, линейной алгебры, метод факторного анализа, численные методы, метод кластеризации, методы пространственного анализа средствами ГИС, методы объектно-ориентированного программирования.

Достоверность результатов обеспечивается строгостью применения математических методов, результатами проведенных численных экспериментов, которые сопоставлены с данными, полученными другими авторами.

Научная повпзна. В диссертационной работе получены следующие новые научные результаты:

1. Предложена методика проведения комплексного анализа многомерных данных о природных пространственно-распределенных объектах, обеспечивающая выявление новых закономерностей между свойствами исследуемых объектов.

2. Модифицированный алгоритм идентификации нечеткой системы с заданной структурой, включающий генерацию структуры НС с заданными параметрами функции принадлежности и оптимизацию параметров НС, основанную на методе эволюционной стратегии и методе наименьших квадратов.

3. Впервые разработан алгоритм восстановления пропущенных значений, основанный на разработанном модифицированном алгоритме идентификации нечеткой системы, отличающийся от известных алгоритмов и статистических методов снятием требований к знанию закона распределения.

Практическая ценность.

Созданный программный комплекс внедрен в ИХН СО РАН и применялся при выполнении Бюджетного проекта У.39.3.1. Исследование физико-химических свойств гетерогенных нефтесодержащих систем и их структурной организации на микро- и наноуровне с целью развития научных основ экологически безопасных технологий извлечения вязких парафинистых нефтей по теме «Разработка методических вопросов восстановления пропущенных значений в выборочном массиве из базы данных по свойствам вязких парафинистых нефтей с использованием методов вероятностного моделирования и кластерного анализа данных» и проекта РФФИ 11-05-98023 «Исследование влияния химического состава и условий залегания нефтей на численность, распространение и активность пластовой микрофлоры для повышения нефтеотдачи».

Разработанный программный комплекс внедрен в Федеральном государственном бюджетном учреждении науки Институте мониторинга климатических и экологических систем Сибирского отделения Российской академии наук (ИМКЭС СО РАН) и используется в рамках выполнения работ по программе интеграционного проекта № 70 Сибирского отделения РАН «Анализ и прогноз

проявлений вынуждающего воздействия в ритмике метеорологических полей Северного полушария Земли» для анализа разнородной междисциплинарной информации о состоянии и изменениях климатообразующих параметров исследуемых территорий.

Разработанные алгоритмы и программный комплекс используются при выполнении научно-исследовательских работ (задание № 2014/225) в рамках базовой части государственного задания Минобрнауки России для проведения комплексного анализа многомерных характеристик, описывающих процесс принятия решений в производственно-экономических и социальных системах, для решения задач определения граииц объектов территориального устройства на основе многомерных данных об инфраструктурной среде и социально-экономических характеристиках в условиях нормативных ограничений.

Алгоритмы блока «Анализ данных» программного комплекса используются в учебном процессе при проведении лабораторных работ по дисциплине «Качество программных систем» на кафедре АОИ ТУ СУР, являясь инструментом анализа показателей качества программных систем.

Апробация работы. Основные положения работы докладывались на научных конференциях различного уровня. На VII и VIII международных конференциях "Химии нефти и газа" г. Томск, 2009, 2012 г.; на VII всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии», г. Томск, 2009 г.; на IV Всероссийской конференции молодых ученых «Материаловедение, технологии и экология в 3-м тысячелетии», г. Томск, 2009 г.; на IX всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии», г. Томск, 2011 г.; на XVIII Международной научно-практической конференции студентов, аспирантов и молодых ученых "Современные техника и технологии", г. Томск, 2012 г.; на III Всероссийской молодежной научной конференции «Современные проблемы математики и механики», г. Томск, 2012 г.; на Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых «Научная сессия ТУСУР», г. Томск, 2010, 2011, 2012 г, так же опубликованы работы в сборнике «Доклады ТУСУР» (г. Томск, 2013 г.), в журнале «Информационные технологии» (г. Москва, 2013-2014 г.).

Защищаемые положения:

1. Методика проведения комплексного анализа многомерных данных о природных пространственно-распределенных объектах, обеспечивающая выявление новых закономерностей между свойствами исследуемых объектов.

Соответствуют пункту 5 паспорта специальности: Комтексные исследования научных и технических проблем с применением современной технологии математического моделирования и вычислительного эксперимента.

2. Модифицированный алгоритм идентификации нечеткой системы с заданной структурой, включающий генерацию структуры НС с заданными параметрами функции принадлежности и оптимизацию параметров НС, основанную на методе эволюционной стратегии и методе наименьших квадратов. Модель

позволяет детально учитывать структуру входных данных объекта моделирования, снимая требования к знанию закона распределения.

3. Алгоритм восстановления пропущенных значений на основе модифицированного алгоритма идентификации НС с заданной структурой позволяет увеличить точность восстановления пропущенных значений по сравнению с алгоритмами, предлагаемыми другими авторами как минимум в 1,5 раза на тестовых данных.

Соответствуют пункту 1 и 3 паспорта специальности: 1)Разработка новых математических методов моделирования объектов и явлений. 3)Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий.

4. Программный комплекс анализа многомерных неполных данных о природных объектах, позволяющий выявлять существующие закономерности между различными свойствами исследуемых объектов.

Соответствует пункту 4 паспорта специальности: Реализаиия эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента.

Личный вклад соискателя. Постановка задачи, а также подготовка материалов к печати велась совместно с научным руководителем. Все основные результаты диссертации получены лично автором. Автор самостоятельно разработал алгоритмы и программный комплекс для проведения комплексного анализа многомерных неполных данных.

Публикации. Основные положения диссертации отражены в 19 опубликованных работах. В том числе 5 статей напечатаны в ведущих рецензируемых научных журналах и изданиях РФ, в которых ВАК рекомендует публикацию основных результатов диссертационных работ, и получено 1 свидетельство об официальной регистрации программы для ЭВМ (свидетельство № 2013619931 от21.10.2013 г.).

Структура и объем работы. Диссертация состоит из введения, основной части, включающей в себя четыре главы, заключения, списка используемой литературы из 113 источников, 5 приложений. Объем диссертационной работы составляет 122 страницы. Работа иллюстрируется 33 рисунками и 24 таблицами.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность проблемы, сформулирована цель работы, указаны результаты, обладающие научной новизной, практическая ценность работы, дана краткая характеристика полученных в работе результатов.

В первой главе приведен обзор проблемы исследования. Описываются основные понятия и методы анализа неполных многомерных данных, их классификация и модели. Приведены основные понятия и методы нечеткого моделирования многомерных данных с пропусками, методы анализа и классификации многомерных данных. Рассмотрен пространственный анализ данных с приме-

нением ГИС и приведен обзор существующих программных пакетов статистического и нечеткого моделирования. В работе проанализированы основные особенности изучаемых объектов, которые затрудняют проведение анализа данных, такие как многомерность данных, пропущенные значения в данных (неполнота описания объектов), разнородность данных (различные единицы измерения характеристик), наличие пространственных свойств и статистический характер информации об объектах.

Проведенный обзор литературы выявил, что для восстановления пропущенных значений в многомерных данных применяются методы и статистического, и нечеткого моделирования. Однако у статистических методов существуют ограничения к структуре данных: данные должны быть однородны и нормально распределены, такие условия при исследовании природных объектов соблюдаются редко. В связи с чем для выбора метода восстановления был проведен ряд экспериментов на тестовой (полной) выборке, состоящей из 141 записи о физико-химических свойствах нефти. В имеющуюся выборку вводились пропуски, согласно методу скользящего экзамена, затем пропуски восстанавливались, и рассчитывалась точность, с которой пропуски были восстановлены. Результаты эксперимента показали, что на тестовой выборке статистические методы (метод безусловных средних, метод главных компонент, г-метод) обладают низкой точностью восстановления, а модель восстановления на основе нечеткой системы работает с высокой точностью, так как в ней снимается требования нормального распределения и однородности данных. Рассмотрим нечеткие системы.

Нечеткое моделирование включает в себя два основных этапа: идентификацию структуры и настройку параметров нечеткой модели. Идентификация структуры - это определение основных характеристик нечеткой модели (число нечетких правил, количество лингвистических термов для входных и выходных переменных). Настройка же параметров НС - это определение неизвестных параметров антецедентов (условная часть) и консеквентов (заключительной части) нечетких правил путем оптимизации работы нечеткой модели по заданному критерию.

Правила нечеткой модели типа синглтон имеют следующий вид:

правило г. ЕСЛИх\ = Аи Их2 = Аъ И... Ихт = Ащ ТО у = п, где Ар - лингвистический терм, которым оценивается переменная х}, а выход у оценивается действительным числом г/.

Модель осуществляет отображение F: 5ПШ -> , заменяя оператор нечеткой конъюнкции произведением, а оператор агрегации нечетких правил - сложением. Отображение /•'для модели типа синглтон определяется формулой:

т п

£ Г1 П (*<)

£ П Vлч (*/)

/=1

где х = [>,,...,лг„]г е9Г - значение /-го входа; (х])- функция принадлежности лингвистического терма Лу; г,- значение консеквента ву'-м правиле.

Нечеткая система может быть представлена как у =Дх, в), где в = ||6ь-.., - вектор параметров, N = сумма термов по каждому исследуемому параметру, у — скалярный выход системы.

При п входных переменных, определённых на I термах с треугольными функциями принадлежности, описываемыми тройкой параметров в модели типа синглтон, вектор параметров будет выглядеть следующим образом:

& п = \9иЬ\\С\\—а\/)\&\02\Ь2\С2\~-ацЬцСъ-■•ап\Ъп\Сп\ где ау, Су, Ьу - параметры треугольной функции принадлежности формулы, /-й лингвистической переменной, у'-го терма. Параметры, входящие в данный вектор, влияют на адекватность модели.

Задача параметрической идентификации - определить неизвестные параметры антецедентов и консеквентов нечетких правил путем оптимизации работы нечеткой системы по заданному критерию.

Параметрическая идентификация рассматривается как процесс оптимизации нечеткой модели, который сводится к нахождению таких параметров нечеткой системы, чтобы ошибка вывода была минимальной. При этом оценивается качество нечеткого вывода по значениям ошибки вывода, разницы между значениями выходной переменной из таблицы наблюдений Дх) и значениями Дх), полученными нечеткой системой. Исследуются три типа ошибки вывода:

1) среднеквадратичная ошибка (СКО): \

2) средняя абсолютная ошибка (CAO):

S (/(*,) -F (i„0))!

N

N

3) максимальная ошибка (МО): тах(|/(х,)-^(х,,0)|).

Для настройки параметров нечетких моделей используются две группы методов. Первая группа - классические методы оптимизации, основанные на производных (метод наименьших квадратов, градиентный метод, фильтр Калмана). Эти методы обладают высокой скоростью сходимости. Однако трудности применения классических методов оптимизации, связанные с проблемами локального экстремума и «проклятие размерности», заставляют обратиться ко второй группе методов. Метаэвристические алгоритмы (муравьиной колонии, роящихся частиц, имитации отжига, генетические алгоритмы (ГА), эволюционная стратегия (ЭС)) обладают грубой настройкой, которая требует больших временных ресурсов из-за итеративности вычислений. К тому же применение ме-таэвристик не гарантирует нахождения оптимального решения из-за прямой связи с эмпирической настройкой параметров используемых алгоритмов. Поэтому следует обратиться к объединению методов первой и второй группы.

Использование гибридных алгоритмов позволяет объединить преимущества метаэвристических методов с преимуществами методов, основанных на производных. Такое объединение повышает качество решений с умеренными затратами временных ресурсов.

Сравнение работы нечеткой системы на основе эволюционной стратегии с аналогами проводилось на нескольких математических функциях, рассмотрим следующие:

!)/(*>*,) = (1+*Г2 + *2-1'5)2, хпхг е [15];

2)Лх) = ^:'№-(хм-х?)2+(х,-1)2), где дге [-100,100], £> = 10.

Суть эксперимента заключалась в аппроксимации нечеткой системой тестовыми функциями на основе треугольной функции принадлежности, критерием адекватности модели являлась средняя квадратичная ошибка (СКО) вывода.

Настройка нечетких моделей разработанным алгоритмом и аналогами для аппроксимации первой тестовой функции производилась по таблице наблюдений, состоящей из 400 строк. В табл. 1 представлены результаты работы нечеткой системы, основанной на эволюционной стратегии и методе наименьших квадратов (ЭС+МНК), и алгоритмов представленных в литературе.

Таблица 1 - Результат работы алгоритмов на первой тестовой функции

Алгоритм Кол-во правил СКО

Алгоритм раздела входного пространства на несколько характерных областей (Rojas, Pomares, Ortega, Prieto) 9 0,146

16 0,051

25 0,026

36 0,017

Прямой алгоритм муравьиной колонии + МНК 9 0,00391

16 0,00302

25 0,00189

36 0,000219

Гибридный алгоритм - (генетически алгоритм + МНК) и (Фильтр Калмана + Градиентный метод) 9 0,0075

16 0,0027

25 0,0016

Метод ЭС + МНК 9 0,00309

16 0,00233

25 0,00113

36 0,000372

Как видно из табл. 1, представленный в работе алгоритм превосходит аналоги.

Настройка нечетких моделей для аппроксимации второй функции использовала 1000 поколений и 10-мерное пространство, параметром адекватности являлась средняя абсолютная ошибка. В табл. 2 представлены результаты работы разработанного алгоритма и аналогов, как среднее значение 20 запусков: генетический алгоритм, алгоритм роящихся частиц, метод дифференциальной эволюции, империалистический алгоритм, империалистический алгоритм с адаптивным радиусом. Как видно из табл. 2 алгоритм не уступает аналогам.

Исследование методов анализа многомерных данных показало, что широко применяются такие статистические методы как регрессионный, корреляционный, дисперсионный анализы, метод главных компонент и др. Эти

методы позволяют существенно сокращать размерность исходного признакового пространства, однако наглядное представление результатов анализа достигается не всегда и вне поля зрения оказывается отражение взаимосвязи между характеристиками. Определенными преимуществами перед упомянутыми выше методами обладает метод факторного анализа. Наряду с сокращением размерности исходного пространства он позволяет исследовать взаимосвязи между исследуемыми характеристиками, к тому же его можно сочетать с методами классификации и методами, повышающими наглядность отображения численных результатов таких, как гистограммы и дендрограммы, однако и ФА не позволяет учитывать пространственные свойства объектов.

Таблица 2 - Результаты работы алгоритмов на функции Розенброка

Алгоритм САО

Генетический алгоритм 48.9673

Алгоритм роящихся частиц 0.020

Алгоритм дифференциальной эволюции 11.0433

Империалистический алгоритм 0.4466

Империалистический алгоритм с адаптивным радиусом 0.0017

НС с заданной структурой на основе ЭС 0.0018

Одной из существенных особенностей экспериментальных данных, используемых в исследованиях природных объектов, является то, что в анализ необходимо включать их пространственные характеристики. Как показал анализ возможных подходов к анализу пространственных свойств различных природных объектов, в последнее время широко применяются ГИС, обеспечивающие хранение, обработку и визуализацию данных как в виде таблиц, сводок, выборок, так и в виде схем или карт.

Обзор существующих подходов к проведению комплексного анализа данных показал, что обычно применяются существующие методологии статистического и интеллектуального анализа данных (Data Mining), так как сочетают в себе большое количество методов. Сравнение таких программных продуктов, как Matlab, MathCAD, Maple, Mathematica, Origin, Statistica, Statgrapics, Stadia, XpertRule Miner, GeneHunter, PolyAnalyst показало, что в настоящее время методические вопросы комплексного анализа многомерных данных о природных объектах на основе статистического и нечеткого моделирования разработаны недостаточно. Отсутствуют алгоритмы и программные средства анализа таких данных на основе сочетания методов статистического и нечеткого моделирования с учетом пространственных свойств объектов.

Таким образом, многообразие характерных свойств исследуемых данных показывает, что применения одного метода для корректного анализа недостаточно и возникает потребность в новой методике комплексного анализа, которая позволит смоделировать объект исследования, восстановить пропущенные значения в данных, выявить закономерности и адекватно проанализировать полученные результаты, обеспечив получение целостной картины изучаемого объекта с учетом всех его особенностей.

Во второй главе приводятся алгоритмы инициализации антецедентов правил нечеткой системы (равномерная, случайная), алгоритмы инициализации консеквентов правил на основе алгоритмов: метода наименьших квадратов, метода ближайшего соседа из таблицы наблюдений. Представлены алгоритмы параметрической идентификации нечеткой системы на основе алгоритмов эволюционной стратегии. Алгоритмы восстановления данных с использованием нечетких систем: алгоритм восстановления пропущенных значений в многомерных данных и алгоритм "тестового" восстановления с использованием метода скользящего экзамена. А так же приводятся алгоритм факторного анализа с вращением; алгоритм классификации данных и алгоритм передачи данных в ГИС для картографического отображения.

Предлагаемый комплексный подход для анализа многомерных данных с пропущенными значениями на основе нечеткого и статистического моделирования включает в себя следующие основные задачи, представленные в обобщенной схеме на рис. 1:

1) идентификация нечеткой системы методом эволюционной стратегии (моделирование);

2) восстановление пропущенных значений;

3) проведение факторного анализа и классификации;

4) экспортирование результатов анализа в ГИС для их картирования и пространственного анализа.

Согласно схеме комплексного анализа (рис. 1) на первом этапе проводится моделирование объекта исследования с применением алгоритмов нечеткого моделирования:

1) алгоритм формирования антецедентов правил с помощью метода экстремальных значений и метод равномерного покрытия области определения переменных;

2) алгоритм формирования консеквентов правил нечеткой системы с помощью метода поиска ближайшего соседа и метода наименьших квадратов.

Структура базы правил нечеткой системы строится с помощью субъективного разделения данных на основе входного параметра функции принадлежности, а база правил формируется путем перебора всех сочетаний термов входных переменных.

Для идентификации нечетких моделей в работе используются методы эволюционной стратегии. Эволюционная стратегия - это эвристический метод оптимизации, основанный на адаптации и эволюции. Стратегия основана на механизмах естественного отбора и наследования. В ней используется принцип выживания наиболее приспособленных особей. Преимущества алгоритма перед другими методами оптимизации заключаются в параллельной обработке множества альтернативных решений. При поиске решения в эволюционной стратегии вначале происходит мутация и скрещивание особей для получения потомков, затем происходит детерминированный отбор особей для следующего поколения.

Рис. 1. Схема комплексного анализа многомерных данных

В настоящее время имеются различные операторы скрещивания, применяемые в эволюционной стратегии. От операторов скрещивания зависит то, каким образом формируется следующее поколение из предыдущего. Чаще всего используют:

1. (ц + X) - эволюционная стратегия - набор родителей и потомков;

2. (ц,Я.)- эволюционная стратегия - набор только потомков.

В (ц + Я.) - эволюционной стратегии, ц- родителей может участвовать в воспроизводстве Х - потомков. Тогда (ц + X) - поколение будет уменьшено до М- - потомков следующего поколения селекцией. Главные шаги (ц + А.) - эволюционной стратегии представлены на рис. 2а. Основным преимуществом данного подхода является использование адаптивных стратегических параметров. Однако есть и недостатки, а именно, частое «застревание» в локальном оптимуме. Например, в алгоритме это выражается так - поколение-родитель не дает поколение-потомок лучше себя. Для предотвращения этого недостатка был предложен для использования метод (цД) - эволюционной стратегии, где селекция подчинена условию X > ц. Предыдущие ц -родители будут полностью заменены, и не будут использоваться в следующем поколении. Алгоритм приведен на рис. 26. Недостатком данного алгоритма является то, что «лучшие» из ц- родителей могут бьггь заменены более «худшими» сгенерированными X-потомками и будут потеряны, что в итоге может дать не самый корректный результат, поэтому в работе используются оба алгоритма.

{ Инициализация итераций кЮ, 4-s

1ч Инициализация популяции Р(к) из ц-особсй I

Сформировать новое поколение из ц-особен

Выбрать случайным образом 2 особи _ из ц-особей Р(к)_

Скрестить особи, скопировав компоненты с равной вероятностью в одного потомка

—Провести мутацию полученного потомка | Оценить приспособленность особей из Р(к)

Удалить Х-особей наименее приспособленных _из (й курсоре й_

Сформировать новое поколение из ja-особей

Инициализация итерации к-и.

^Инициализация популяции Р(к) из ц-особей у

Сформировать новое поколение из ^-особен

Не выполнено Выполнено

Выбрать случайным образом 2 особи _из ц-особсй Р(к)_

Скрестить особи, скопировав компоненты с равной вероятностью в одного потомка

Провести мутацию полученного потомка

Оценить приспособленность особей из Р(к)

Удалить (*-ц}-особей наименее приспособленных из ц-особей

X

Сформировать новое поколение из ц-особей

Рис. 2. Алгоритмы эволюционной стратегии: а - (ц + А.), б - (цЛ)

Алгоритм настройки параметров нечеткой модели выглядит так:

Шаг 1. Задание начальных параметров нечеткой модели и параметров метода ЭС.

Шаг 2. Генерация решения алгоритмами ЭС и МНК.

Шаг 3. Оценка решения с помощью нечеткой модели.

Шаг 4. Проверка условия останова. Если условие выполняется, то переход на шаг 5, иначе переход на шаг 2.

Шаг 5. Вывод решения (набора параметров нечеткой модели).

Метод наименьших квадратов используется в работе для настройки параметров консеквентов. Здесь минимизируется сумма квадратов отклонений значений, полученных в результате нечеткого вывода, от наблюдаемых данных.

При этом используется следующая схема (рис. 3) объединения методов настройки нечеткой модели:

ЭВОЛЮЦИОННАЯ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ

СТРАТЕГИЯ

Рис. 3. Общая схема гибридизации

На втором этапе (рис. 1) комплексного анализа многомерных данных используются:

Алгоритм восстановления пропущенных значений в данных, представленный на рис. 4.

С

Начало

3

Таблица наблюдений с пропусками

Л

Разделение таблицы наблюдения на _полную и с пропусками_

Задание параметров НС и метода ЭС

Инициализация НС и ее настройка методом ЭС

Введение записи с пропуском и восстановление пропуска

Вывод таблицы с восстановленными значениями

( Выход )

Рис. 4. Алгоритм восстановления пропущенных значений

На третьем этапе (рис. 1) комплексного анализа используются алгоритмы факторного анализа с вращением (рис. 5а) и классификации методом к-средней кластеризации (рис. 56).

£

Таблица наблюдений + -

7

Нормирование данных. Вычисление матрицы корреляции. Вычисление собственных чисел и векторов (разложение Холецкого и Ш-Разложение)

Выявление наиболее значимых факторов и построение пространственных трафиков

Построение дендрограммы, Вычисление факторных нагрузок для

гистрограмм

Вывод табличных результатов и их _графические отображения_

С Выход )

Таблица собственных векторов

7

Приписывание случайным образом номера кластера каждому элементу и определение центра масс каждого кластера

Вычисление расстояния до центра масс кластера от каждого элемента

Приписывание элементов к новому кластеру по принципу минимального расстояния

Определение центра масс каждого кластера |

Рис. 5. Алгоритмы анализа: а - факторный анализ, б - классификация

Как видно на рис. 5а, алгоритм ФА дополняется построением дендрограммы и вычислением нагрузок факторов для отображения их с помощью гистограммы, два этих метода повышают наглядность результатов численных методов, применяющихся в ФА.

Алгоритм построения дендрограммы выглядеть так:

Вход: корреляционная матрица

Шаг 1. Вычисление матрицы весов.

Шаг 2. Поиск элементов для объединения.

Шаг 3. Перерасчет матрицы весов. Если достигнуто условие завершения, то Шаг 4, иначе Шаг 2.

Шаг 4. Выводим результат.

Выход: графическое отображение корреляционной матрицы в виде графа-дерева.

Полученные результаты классификации исследуемых объектов можно экспортировать в специальный файл для проведения пространственного анализа полученных классов объектов средствами Агсв^ 9.3.1 с применением различных легенд, позволяющих отобразить полученные классы объектов исследования различными цветами и установить закономерности в расположении объектов.

В третьей главе рассматриваются вопросы проектирования и реализации программного комплекса анализа многомерных данных на основе статистического и нечеткого моделирования, включающего модули идентификации нечетких систем на основе эволюционных стратегий, восстановления данных, факторного анализа с вращением, классификации данных и передачи данных в ГИС.

После изучения основных задач исследования, особенностей анализируемых данных, выбранных алгоритмов и методов, было спроектировано и реализовано приложение, имеющее простую систему классов. В качестве средства реализации программного комплекса был выбран язык объектно-ориентированного программирования С#, среда разработки -Microsoft Visual Studio 2012.

Согласно схеме проведения комплексного анализа (рис. 1), программный комплекс состоит из 4 основных блоков, каждый из которых включает в себя все необходимые классы, методы и функции для решения своей задачи, а также методы для взаимодействия между блоками. Архитектура программного комплекса представлена на рис. 6.

Блок «Моделирование» выполняет задачу идентификации НС на основе метода ЭС. Входными данными является тестовая выборка из исследуемой таблицы «объект-свойство», которая состоит из полных записей. На основе тестовой выборки подбираются оптимальные параметры НС и метода ЭС. Данный блок включает возможности визуального отображения результатов построения НС: приводит базу правил, функцию принадлежности и значения критерия приспособленности элементов системы. Выходными данными блока являются подобранные параметры системы.

Блок «Восстановление» отвечает за задачу восстановления пропущенных значений, включая в себя тестовое восстановление с помощью методики скользящего экзамена и восстановление на основе полученной модели в блоке «Моделирование». Входными данными для тестового восстановления является та же тестовая выборка, что использовалась в блоке «Моделирование». Выходным значением тестового восстановления является оценка подобранной модели (точность), с которой будут восстанавливаться пропущенные значения. Входными данными для восстановления является исходная таблица «объект-свойство» с пропущенными значениями, а выходными — «полная» таблица, то есть с исходными данными и восстановленными значениями.

Блок «Анализ» отвечает за задачу анализа многомерных данных методами ФА с вращением и классификацией. Входными данными является восстановленная или полная исследуемая таблица. Блок включает возможности отображения результатов вычисления в виде таблиц (ковариационная и корреляционная матрицы, собственные значения, собственные вектора и т.д.), гистограмм нагрузок факторов, дендрограммы и графиков (пространственное отображение в пространстве выбранных факторов и прочее). Отображение выходных данных позволяет интерпретировать полученные результаты.

Блок «Пространственный анализ» используется для учета пространственных характеристик исследуемых объектов с применение средств ArcGis 9.3.1. В блоке «Анализ» реализована функция экспортирования результатов, которая формирует выходную таблицу. Таблица состоит из исходных данных блока «Анализ» и результатов классификации. Входными же данными блока «Пространственный анализ» является исходная таблица с пространственными характеристиками объектов и экспортированная таблица с

результатами классификации. Выходными данными является картографическое отображение результатов анализа различных свойств объектов исследования.

Рис. 6. Архитектура программного комплекса В четвертой главе представлены примеры практического применения разработанного подхода для проведения комплексного анализа многомерных данных с пропущенными значениями. Даются рекомендации по использованию параметров разработанных алгоритмов для моделирования системы.

Программный комплекс был внедрен в лаборатории "Научно-исследовательский информационный центр" ИХН СО РАН, где создана мировая база данных по физико-химическим свойствам нефти, включающая описания более 23000 образцов нефти описанных 200 различными характеристиками и параметрами.

Примером практического применение разработанных алгоритмов и программного комплекса являлась задача исследования влияния химического состава и условий залегания нефти на численность, распространение и активность пластовой микрофлоры. Известно, что в настоящее время сокращаются запасы легкой нефти. Перед исследователями встает вопрос об изучении особенностей свойств трудноизвлекаемой нефти. Для такой нефти характерны совсем другие горно-геологические условия, более высокие температуры и давления, иная флюидная динамика, что требует разработки комплексных подходов к изучению большого числа физико-химических, геолого-физических и геологопромысловых характеристик. В связи с этим в настоящее время заметно возрос интерес к поиску путей и средств повышения нефтедобычи и особое внимание уделяется физико-химическим и микробиологическим методам.

Объектами исследований являются пластовые воды и нефти месторождений Волго-Уральского, Западно-Сибирского, Тимано-Печорского, Восточно-Гобийского, Тамсагбулагского, Вунг-Тау, Сунляо нефтегазоносных бассейнов (НГБ) России, Монголии, Китая, Вьетнама. Для проведения анализа в научно-исследовательском информационном центре ИХН СО РАН был сформирован многомерный массив данных о физико-химических свойствах

нефтей, в лаборатории коллоидной химии ИХН СО РАН - многомерный массив данных о микробиологических свойствах пластовых вод (табл. 3).

Таблица 3 - Перечень исследуемых характеристик_

Характеристики Исследуемые свойства

1. Микробиологические характеристики пластовых вод 1.1 Степень кислотности или щелочности воды рН

1.2 Окислительно-восстановительный потенциал ЕЬ, мВ

1.3 Сухой остаток (минерализация), г/л

1.4 Гетеротрофы, тысяч колон/мл

1.5 Сульфовосстанавливающие бактерии (СВБ), тысяч клеток/мл

1.6 Денитрифицирующие бактерии (ДНБ), тысяч клеток/мл

1.7 Углеводородокисляющие бактерии (УОБ), тысяч клеток/мл

2. Физико-химические характеристики нефти 2.1 Плотность, г/см3

2.2 Вязкость при 20 "С, мм2/с

2.3 Содержание серы, мае. %

2.4 Содержание смол, мае. %

2.5 Содержание твердого парафина, мае. %

2.6 Содержание асфальтенов, мае. %

Первоначальный анализ многомерного массива данных показал, что из 234 значений пропущено 19 значений (8 %). В связи с этим на первом этапе комплексного анализа была построена тестовая выборка для построения модели и восстановлены пропущенные значения, адекватность модели (СКО) составила 0.0017. Далее на втором этапе применен факторный анализ.

Применение ФА и метода к-кластеризации позволило разделить все объекты исследования на 3 класса. «Класс 1» включает в себя 3 месторождения: Северное, Усинское и Урманское, которые очень сильно выделяются по параметру концентрации гетеротрофов. В «Класс 2» вошло 11 месторождений: Вах-ское, Самотлорское, Советское (проба 2004 .г), Вахское (проба 2004 г.), Зуунба-ян, Тамсагбулаг, Русское, Ульяновское, Фуларти, Шингинское и Арчинское, отличающиеся максимальным содержанием смол и асфальтенов. А «Класс 3» содержит 4 месторождения: Советское, Крапнвинское, Белый Тигр и Цаган-Элс, которые обладают максимальными концентрациями УОБ, ДНБ, гетеротрофов, наибольшим содержанием парафинов и наибольшей вязкостью, при этом да1шые характеристики в 2 - 55 раз выше, чем у образцов «Класса 2».

Сопоставление результатов комплексного анализа позволило выделить взаимосвязи свойств микрофлоры и физико-химических характеристик нефти: высоковязким, парафинистым нефтям сопутствуют пластовые воды с наибольшей концентрацией гетеротрофов, ДНБ и УОБ. При этом для менее вязких, смолистых нефтей характерно почти одинаковые окислительно-восстановительный потенциал, минерализация и концентрация ДНБ, СВБ и УОБ. Распределение объектов исследования на карте (рис. 7) показало, что результаты анализа хорошо согласуются с фактическим распределением нефтей, так как к первому классу относятся нефти Тимано-Печорского НГБ и Волго-

Уральского НГБ. Это тяжелые и вязкие нефти с высоким содержанием смол и асфальтенов. Ко второму классу относятся нефти Китая и Монголии - это вязкие и парафинистым нефти. К третьему же классу относятся тяжелые и вязкие нефти Монголии и Вьетнами с меньшим содержанием смол и асфальтенов, по сравнению с нефтями первого класса.

Рис. 7. Графическое отображение результатов комплексного анализа

Таким образом, применение методов нечеткого моделирования в сочетании с факторным анализом многомерных данных о физико-химических свойствах нефтей и микробиологических свойств пластовых вод позволило получить новые знания о закономерностях размещения нефтей, а так же взаимосвязи между физико-химическими свойствами нефтей и микробиологическими свойствами пластовых вод, что имеет важное научное значение и практическую ценность при совершенствовании технологий повышения нефтеотдачи нефтяных запасов.

В заключении формируются основные результаты диссертационного исследования.

В приложении приведены документы, подтверждающие практическое применение диссертационных результатов.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Разработана методика проведения комплексного анализа многомерных данных о природных пространственно-распределенных объектах, обеспечивающая выявление новых закономерностей между свойствами исследуемых.

2. Разработан модифицированный алгоритм идентификации НС с заданной структурой, включающий генерацию структуры НС с заданными параметрами функции принадлежности и оптимизацию параметров НС методом эволюционной стратегии и МНК. Алгоритм обеспечивает детальный учет структуры данных объекта моделирования, снимая требования к знанию закона распределения.

3. Разработан алгоритм восстановления пропущенных значений, основанный на модифицированном алгоритме идентификации НС.

4. Спроектирован и реализован программный комплекс анализа многомерных неполных данных о природных объектах, позволяющий выявлять существующие закономерности между различными свойствами исследуемых объектов.

5. Разработанный программный комплекс внедрен в ИХН СО РАН и используется для восстановления пропущенных значений и обработки многомерных данных о свойствах нефти, повышая оперативность обработки данных и наглядность представления результатов анализа.

6. Программный комплекс был применен для восстановления пропущенных значений в данных о трудноизвлекаемых нефтях в рамках бюджетного проекта ИХН СО РАН У.39.3.1. Исследование физико-химических свойств гетерогенных нефтесодержащих систем и их структурной организации на микро-и наноуровне с целью развития научных основ экологически безопасных технологий извлечения вязких парафинистых нефтей по теме «Разработка методических вопросов восстановления пропущенных значений в выборочном массиве из базы данных по свойствам вязких парафинистых нефтей с использованием методов вероятностного моделирования и кластерного анализа данных».

7. Программный комплекс использовался для анализа данных о микробиологических свойствах пластовых вод и физико-химических свойствах нефти в рамках проекта РФФИ № 11-05-98023 «Исследование влияния химического состава и условий залегания нефтей на численность, распространение и активность пластовой микрофлоры для повышения нефтеотдачи.

8. Разработанные алгоритмы и программный комплекс используются в Федеральном государственном бюджетном учреждении науки Институте мониторинга климатических и экологических систем Сибирского отделения Российской академии наук (ИМКЭС СО РАН) по программе интеграционного проекта № 70 Сибирского отделения РАН «Анализ и прогноз проявлений вынуждающего воздействия в ритмике метеорологических полей Северного полушария Земли» для анализа разнородной междисциплинарной информации о состоянии и изменениях климатообразующих параметров исследуемых территорий.

9. Разработанные алгоритмы и программный комплекс используются при выполнении научно-исследовательских работ (задание № 2014/225) в рамках базовой части государственного задания Минобрнауки России для проведения комплексного анализа многомерных характеристик, описывающих процесс принятия решений в производственно-экономических и социальных системах, для решения задач определения границ объектов территориального устройства на основе многомерных данных об инфраструктурной среде и социально-экономических характеристиках в условиях нормативных ограничений.

10. Алгоритмы блока "Анализ данных" используются в учебном процессе для проведения лабораторных работ на кафедре АОИ ТУСУР по предмету "Качество программных систем".

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Работы, опубликованные автором в ведущих рецензируемых научных журналах, рекомендованных ВАК Министерства Образования и Науки Российской Федерации:

1. Лучкова C.B. Применение программного комплекса "Нечеткая система на основе эволюционной стратегии" для задачи импутирования / Т.О. Перемитина, C.B. Лучкова // Информационные технологии. - 2013. - № 2. - С. 47-50.

2. Лучкова C.B. Применение программного комплекса анализа многомерных данных на основе нечеткого и статистического моделирования / C.B. Лучкова, Т.О. Перемитина, И.Г. Ященко // Информационные технологии. - 2014. - № 1. -С. 24-30.

3. Лучкова C.B. Повышение наглядности отображения результатов факторного анализа / C.B. Лучкова, Т.О. Перемитина // Доклады ТУСУРа - 2013 - № 4. -С. 159-163.

4. Лучкова C.B. Программный комплекс восстановления пропущенных значений в многомерных данных на основе методов нечеткого моделирования / C.B. Лучкова, Т.О. Перемитина, И.Г. Ященко // Программные продукты и системы.-2014.-№ 1.-С. 80-86.

5. Лучкова C.B. Комплексная оценка экологических рисков аварийных разливов нефти / C.B. Лучкова, Т.О. Перемитина, И.Г. Ященко // Защита окружающей среды в нефтегазовом комплексе. — 2014. — № 4. — С. 5-9.

6. Лучкова C.B. Программа «Эволюционная стратегия», зарегистрирована в государственном Реестре программ ЭВМ. Свидетельство о регистрации №2013619931 от21.10.2013 г.

Другие работы, опубликованные автором по теме диссертации:

7. Лучкова С.О. Применение нечеткой системы на основе эволюционной стратегии для восстановления пропусков в данных // Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых «Научная сессия ТУСУР-2011». - Томск: «В-Спектр», 2011. - 4.2. - С. 184186.

8. Лучкова С.О. Идентификация нечеткой системы методом эволюционной стратегии // Материалы сб. трудов Всероссийского конкурса научно-исследовательских работ студентов и аспирантов в области информатики и информационных технологий в рамках Всероссийского фестиваля науки. - Белгород, 2011.-С. 92-101.

9. Лучкова С.О. Система автоматизированного прогнозирования состава и свойств нефти новых месторождений / С.О. Лучкова, Т.О. Перемитина, Д.А. Се-мыкина // Сб. трудов VII всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии». - Томск: Изд-во ТПУ, 2009. - С. 273-274.

10. Лучкова С.О. Вопросы анализа данных о нефтях и органическом веществе пород на основе статистических методов / Т.О. Перемитина, Ю.М. Полищук, О.В. Серебренникова, С.О. Лучкова, Д.А. Семыкина // Материалы VII Международной конференции «Химия нефти и газа», - Томск: Изд-во ИОА СО РАН, 2009. -С. 166-168.

11.Лучкова С.О. Вопросы анализа данных о нефтях на основе статистических методов / С.О. Лучкова, Т.О. Перемитина, Д.А. Семыкина // Материалы IV Всероссийской конференции молодых ученых «Материаловедение, технологии и экология в 3-м тысячелетии». - Томск: Изд-во ИОА СО РАН, 2009. - С. 620-624.

12. Лучкова С.О. Построение модели прогноза свойств нефти новых месторождений / С.О. Лучкова, Д.А. Семыкина, H.A. Доброжинская, A.A. Голубева, Г.Ю. Цуленкова // Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых "Научная сессия ТУСУР-2010". - Томск: «В-Спектр», 2010. - 4.4. - С. 234-237.

13.Лучкова С.О. Идентификация нечеткой системы на основе классической эволюционной стратегии // Сб. трудов IX всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии». - Томск: Изд-во ТПУ, 2011. - 4.1. - С. 272274.

14. Лучкова С.О. Нечеткие системы в задачах импутирования // Сборник трудов XVIII Международной научно-практической конференции студентов, аспирантов и молодых ученых "Современные техника и технологии". - Томск: Изд-во ТПУ, 2012. - Т.2. - С. 347-349.

15. Лучкова С.О. Алгоритмы нечетких систем в задачах импутирования // Материалы III Всероссийской молодежной научной конференции «Современные проблемы математики и механики». - Томск: Изд-во Том. ун-та, 2012. - С. 329334.

16. Лучкова C.B. Методические вопросы применения нечетких системы в задачах анализа многомерных данных // Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых «Научная сессия ТУСУР-2012». - Томск: «В-Спектр», 2012. - Ч. 4. - С. 128-131.

17. Лучкова C.B. Методы статистического анализа и нечетких систем в исследованиях влияния химического состава и условий залегания нефтей на численность и активность пластовой микрофлоры в задачах повышения нефтеотдачи / C.B. Лучкова, И.Г. Ященко, Л.И. Сваровская, Т.О. Перемитина // Материалы VIII Международной конференции «Химия нефти и газа» - Томск: ТГУ, 2012. - С. 299302.

18. Лучкова C.B. Применение нечеткого моделирования в задаче импутирования данных / C.B. Лучкова, Т.О. Перемитина, И.Г. Ященко // Материалы 10 электронной конференции «Информационно-вычислительные технологии в решении фундаментальных проблем и прикладных научных задач», декабрь 2012 г. -http://www.ivtn.ru/2012/pdf/dl 212.pdf.

19. Лучкова C.B. Комплексный анализ многомерных данных на основе нечеткого и статистического моделирования в задачах повышения нефтеотдачи / C.B. Лучкова, Т.О. Перемитина, И.Г. Ященко // Добыча, подготовка, транспорт нефти и газа: Материалы VI Всероссийской научно-практической конференции [Электронный ресурс]. - Электронные данные. - Томск: Изд-во ИОА СО РАН, 2013.-1 CD-ROM.

Тираж 100 экз. Заказ 356. Томский государственный университет систем управления и радиоэлектроники. 634050, г. Томск, пр. Ленина, 40. Тел. (3822) 533018.

Текст работы Лучкова, Софья Викторовна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

»

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ ИНСТИТУТ ХИМИИ НЕФТИ СИБИРСКОГО ОТДЕЛЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК (ИХН СО РАН) ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ "ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ" (ТУСУР)

На правах рукописи 04201455869 ¿В^^

ЛУЧКОВА СОФЬЯ ВИКТОРОВНА

АЛГОРИТМЫ И ПРОГРАММНЫЙ КОМПЛЕКС АНАЛИЗА МНОГОМЕРНЫХ ДАННЫХ О ПРИРОДНЫХ ОБЪЕКТАХ С ПРИМЕНЕНИЕМ СТАТИСТИЧЕСКОГО И НЕЧЕТКОГО МОДЕЛИРОВАНИЯ

05.13.18 — Математическое моделирование, численные методы и комплексы программ

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель: кандидат технических наук Перемитина Т.О.

Томск-2014

СОДЕРЖАНИЕ

Сокращения............................................................................................................................................4

Введение..................................................................................................................................................5

Глава 1. Обзор методов моделирования и исследования многомерных данных...........................12

1.1 Особенности предмета исследования и область применения..........................................12

1.2 Обзор методов восстановления пропущенных значений в многомерных данных........14

1.2.1 Классические методы восстановления пропущенных значений...................................14

1.2.2 Неклассические методы восстановления пропущенных значений...............................21

1.3 Численные и статистические методы анализа многомерных данных.............................27

1.4 Методы классификации многомерных данных.................................................................34

1.5 Пространственный анализ данных с применением геоинформационных систем.........36

1.6 Программно-инструментальные средства анализа многомерных данных.....................38

1.7 Постановка задач диссертационных исследований..........................................................41

Глава 2. Разработка методики комплексного анализа многомерных данных................................42

2.1 Схема проведения комплексного анализа многомерных данных....................................42

2.2 Алгоритмическое обеспечение............................................................................................43

2.2.1 Алгоритмы нечеткого моделирования............................................................................43

2.2.2 Алгоритм восстановления данных...................................................................................63

2.2.3 Алгоритм факторного анализа с вращением.................................................................65

2.2.4 Алгоритм классификации многомерных данных............................................................68

2.3 Методические вопросы пространственного анализа данных с применением ГИС.......69

Выводы по главе 2................................................................................................................................71

Глава 3. Программная реализация разработанной методики..........................................................72

3.1 Выбор средства реализации.................................................................................................72

3.2 Архитектура программного комплекса..............................................................................72

3.3 Визуальная часть программного комплекса......................................................................74

3.3.1 Блок "Моделирование".......................................................................................................75

3.3.2 Блок "Восстановление данных"........................................................................................81

3.3.3 Блок "Анализ данных"........................................................................................................83

Выводы по главе 3................................................................................................................................87

Глава 4. Практическое применение результатов диссертационного исследования......................88

4.1 Исследование адекватности результатов моделирования................................................88

4.2 Анализ точности алгоритмов восстановления пропущенных значений.........................93

4.3 Комплексный анализ многомерных данных о микробиологических и физико-

химических свойствах нефти.........................................................................................................95

ЗАКЛЮЧЕНИЕ..................................................................................................................................106

СПИСОК ЛИТЕРАТУРЫ..................................................................................................................109

Сокращения

АМК - алгоритм муравьиной колонии ГА — генетический алгоритм ГИС - геоинформационная система ЛП - лингвистическая переменная МГК - метод главных компонент МНК - метод наименьших квадратов НГП - нефтегазовая провинция НС - нечеткая система ПК - программный комплекс САО - средняя абсолютная ошибка СКО - среднеквадратичная ошибка ФА - факторный анализ ФП - функция принадлежности ЭС — эволюционная стратегия

"Каждый день мы используем числа, чтобы прогнозировать погоду, определять время, считать деньги... С помощью математики мы можем анализировать преступления, выявлять

закономерности, предсказывать поведение... Используя числа, мы можем решить величайшие загадки." - ЫитЬЗгв

ВВЕДЕНИЕ

Актуальность работы

Научно-исследовательская деятельность сопряжена с обработкой постоянно увеличивающегося массива разрозненной совокупной информации об объектах исследования. Аналитические процессы предполагают обработку огромного количества материалов и включают такие трудоемкие процессы как систематизация, выявление каких-либо закономерностей, преобразование данных для последующего математического моделирования. Модели данных - это важнейшая составляющая для анализа, так как то, насколько полно и детально модель может представить предметную область и ее явления, в значительной степени определяет функциональные возможности создаваемой системы. Однако построение модели и последующего анализа осложняется проблемой неточного или неполного описания изучаемых объектов. Одним из подходов к решению данной проблемы является применение методов статистического и нечеткого моделирования.

Нечеткое моделирование используется при построении сложных моделей, когда трудно сформировать аналитическую модель объекта: когда аналитическая модель слишком сложна, когда имеется неполнота экспертных данных для статистического моделирования и т.д. Нечеткие системы применяются в таких проблемных областях науки и техники как прогнозирование, распознавание образов, автоматическое управление, системы принятия решений, робототехника. Преимуществами НС является невысокая стоимость разработки, гибкость, интуитивно понятная логика функционирования.

Важным моментом, решаемым в процессе построения НС, является идентификация ее параметров. Актуальной задачей является повышение точности вывода НС на реальных данных. Для настройки параметров НС используются различные методы оптимизации, наряду с методами, основанными на производных, применяются генетические алгоритмы, эволюционные стратегии и нейронные сети. Эволюционные стратегии (ЭС) совместно с эволюционным программированием и генетический алгоритм представляют три главных направления развития эволюционного моделирования. Несмотря на то, что каждый из методов

возник независимо от других, они характеризуются рядом общих свойств. Для любого из них формируется исходная популяция, которая подвергается селекции и воздействию различных генетических операторов, что позволяет находить лучшие решения. Построение алгоритмов на основе метода эволюционной стратегии основываются на трудах Ingo Rechenberg, Hans-Paul Schwefel, H.-G. Beyer, J, Klockgether, S. Kern, A. Auger, Д. Рутковской, S.L. Luke, N. Hansen, А. Ostermeir а алгоритмы нечеткого моделирования на работах А.Н. Аверкина, И.А. Ходашинского, И.З. Батыршина, JI.C. Берштейна, Л.Г. Комарцовой, A.B. Язенина, Н.Г., Ярушкиной, Р.Н. Ishibuchi,n, R.R. Yager, T.Yasukawa, L.-X. Wang, L. Zadeh, H. Bahrami, M. Abdechiri, M.R. Meybodi, Y. Zhang, X. Wu, Z. Xing, W. Hu.

Ввиду многомерности изучаемых данных для проведения анализа появляется потребность в их более компактном описании, то есть в сжатии информации до более важных характеристик. Факторный анализ (ФА) позволяет учитывать эффект существенной многомерности данных и дает возможность более простого, лаконичного объяснения многомерной структуры. Сжатие информации получается за счет того, что число факторов значительно меньше, чем было исходных параметров. Отсюда основными целями ФА является понижение числа используемых переменных и наглядная визуализация полученных данных.

При исследовании природных объектов, таких как нефть, для повышения наглядности результатов и помощи в их интерпретации требуют включения в анализ пространственных свойств объектов исследования — географические координаты, глубина залегания и др. Для учета и анализа пространственных данных применяются геоинформационные системы (ГИС), позволяющие визуализировать большие объемы информации с пространственными свойствами, включая связанную с ними количественную информацию об объектах.

Выявленные особенности широкого класса природных объектов требуют комплексного подхода к анализу. Комплексность понимается как возможность проведения исследований многомерных неполных данных на основе сочетания методов нечеткого моделирования и многомерного статистического анализа с целью восстановления пропущенных значений, проведения анализа структуры данных, выявления скрытых взаимосвязей между свойствами, а также исследования пространственных свойств объектов, отображая результаты анализа средствами ГИС в едином комплексе программ.

В настоящее время методические вопросы комплексного анализа многомерных данных, решающие одновременно вопросы восстановления неполных данных, редукции исходных данных, выявление значимых свойств объектов исследования, а так же визуализации с географической привязкой, разработаны недостаточно. В связи с этим возникла потребность разработки новой методики, основанной на сочетании методов нечеткого и статистического моделирования.

Объект исследования - природные пространственно-распределенные объекты, например нефти, для описания свойств которых используются многомерные массивы данных.

Предмет исследования — комплекс алгоритмов и программ определения зависимостей между различными свойствами природных объектов (например, между физическими, химическими и пространственными свойствами).

Цель работы - разработка алгоритмов и комплекса программ анализа многомерных данных о различных свойствах природных объектов, основанных на сочетании методов нечеткого моделирования, многомерного статистического анализа и методов пространственного анализа с применением геоинформационных систем.

Задачи исследования:

1. Анализ предметной области и обзор существующих решений в области комплексного анализа многомерных неполных данных.

2. Разработка методики проведения комплексного анализа многомерных неполных данных с применением нечеткого и статистического моделирования.

3. Разработка алгоритмов комплексного анализа многомерных неполных данных.

4. Проведение исследований разработанных алгоритмов на типовых контрольных примерах и тестовых выборках.

5. Проектирование и разработка программного комплекса.

6. Применение и внедрение программного комплекса анализа многомерных неполных данных.

Методы исследований: методы нечеткого моделирования, нечетких множеств, математической статистики, линейной алгебры, метод факторного анализа, численные методы, метод кластеризации, методы пространственного анализа средствами ГИС, методы объектно-ориентированного программирования.

Достоверность результатов обеспечивается строгостью применения математических методов, результатами проведенных численных экспериментов, которые сопоставлены с данными, полученными другими авторами.

Научная новизна. В диссертационной работе получены следующие новые научные результаты:

1. Предложена методика проведения комплексного анализа многомерных данных о природных пространственно-распределенных объектах, обеспечивающая выявление новых закономерностей между свойствами исследуемых объектов.

2. Модифицированный алгоритм идентификации нечеткой системы с заданной структурой, включающий генерацию структуры НС с заданными параметрами функции

принадлежности и оптимизацию параметров НС, основанную на методе эволюционной стратегии и методе наименьших квадратов.

3. Впервые разработан алгоритм восстановления пропущенных значений, основанный на разработанном модифицированном алгоритме идентификации нечеткой системы, отличающийся от известных алгоритмов и статистических методов снятием требований к знанию закона распределения.

Практическая ценность.

Созданный программный комплекс внедрен в ИХН СО РАН и применялся при выполнении Бюджетного проекта У.39.3Л. Исследование физико-химических свойств гетерогенных нефтесодержащих систем и их структурной организации на микро- и наноуровне с целью развития научных основ экологически безопасных технологий извлечения вязких парафинистых нефтей по теме «Разработка методических вопросов восстановления пропущенных значений в выборочном массиве из базы данных по свойствам вязких парафинистых нефтей с использованием методов вероятностного моделирования и кластерного анализа данных» и проекта РФФИ 11-05-98023 «Исследование влияния химического состава и условий залегания нефтей на численность, распространение и активность пластовой микрофлоры для повышения нефтеотдачи».

Разработанный программный комплекс внедрен в Федеральном государственном бюджетном учреждении науки Институте мониторинга климатических и экологических систем Сибирского отделения Российской академии наук (ИМКЭС СО РАН) и используется в рамках выполнения работ по программе интеграционного проекта № 70 Сибирского отделения РАН «Анализ и прогноз проявлений вынуждающего воздействия в ритмике метеорологических полей Северного полушария Земли» для анализа разнородной междисциплинарной информации о состоянии и изменениях климатообразующих параметров исследуемых территорий.

Разработанные алгоритмы и программный комплекс используются при выполнении научно-исследовательских работ (задание № 2014/225) в рамках базовой части государственного задания Минобрнауки России для проведения комплексного анализа многомерных характеристик, описывающих процесс принятия решений в производственно-экономических и социальных системах, для решения задач определения границ объектов территориального устройства на основе многомерных данных об инфраструктурной среде и социально-экономических характеристиках в условиях нормативных ограничений.

Алгоритмы блока «Анализ данных» программного комплекса используются в учебном процессе при проведении лабораторных работ по дисциплине «Качество программных систем»

на кафедре АОИ ТУСУР, являясь инструментом анализа показателей качества программных систем.

Апробация работы. Основные положения работы докладывались на научных конференциях различного уровня. На VII и VIII международных конференциях "Химии нефти и газа" г. Томск, 2009, 2012 г.; на VII всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии», г. Томск, 2009 г.; на IV Всероссийской конференции молодых ученых «Материаловедение, технологии и экология в 3-м тысячелетии», г. Томск, 2009 г.; на IX всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии», г. Томск, 2011 г.; на XVIII Международной научно-практической конференции студентов, аспирантов и молодых ученых "Современные техника и технологии", г. Томск, 2012 г.; на III Всероссийской молодежной научной конференции «Современные проблемы математики и механики», г. Томск, 2012 г.; на Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых «Научная сессия ТУСУР», г. Томск, 2010,2011,2012 г, так же опубликованы работы в сборнике «Доклады ТУСУР» (г. Томск, 2013 г.), в журнале «Информационные технологии» (г. Москва, 2013-2014 г.).

Защищаемые положения:

1. Методика проведения комплексного анализа многомерных данных о природных пространственно-распределенных объектах, обеспечивающая выявление новых закономерностей между свойствами исследуемых объектов.

Соответствуют пункту 5 паспорта специальности: Комплексные исследования научных и технических проблем с применением современной технологии математического моделирования и вычислительного эксперимента.

2. Модифицированный алгоритм идентификации нечеткой системы с заданной структурой, включающий генерацию структуры НС с заданными параметрами функции принадлежности и оптимизацию параметров НС, основанную на методе эволюционной стратегии и методе наименьших квадратов. Модель позволяет детально учитывать структуру входных данных объекта моделирования, снимая требования к знанию закона распределения.

3. Алгоритм восстановления пропущенных значений на основе модифицированного алгоритма идентификации НС с заданной структурой позволяет увеличить точность восстановления пропущенных значений по сравнению с алгоритмами, предлагаемыми другими авторами как минимум в 1,5 раза на тестовых �