автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Математическое и программное обеспечение процесса построения моделей идентификации

кандидата технических наук
Крыжановский, Дмитрий Иванович
город
Волгоград
год
2008
специальность ВАК РФ
05.13.18
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Математическое и программное обеспечение процесса построения моделей идентификации»

Автореферат диссертации по теме "Математическое и программное обеспечение процесса построения моделей идентификации"

На правах рукописи

КРЫЖАНОВСКИЙ ДМИТРИЙ ИВАНОВИЧ

МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ПРОЦЕССА ПОСТРОЕНИЯ МОДЕЛЕЙ ИДЕНТИФИКАЦИИ

Специальность 05.13.1В - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических нау

Волгоград 2008

003453663

Работа выполнена на кафедре «Системы автоматизированного проектирования и поискового конструирования» Волгоградского государственного технического университета.

Научный руководитель

доктор технических наук, профессор Фоменков Сергей Алексеевич

Официальные оппоненты:

доктор технических наук, профессор Лукьянов Виктор Сергеевич доктор физико-математических наук, профессор Санжапов Булат Хизбуллович

Ведущая организация

Волгоградский государственный университет

Защита состоится 11 декабря 2008 г. в 13 часов на заседании диссертационного совета ДМ 212.009.03 при Астраханском государственном университете по адресу:414056, г. Астрахань, ул. Татищева, 20а, конференц-зал.

С диссертацией можно ознакомиться в библиотеке Астраханского государственного университета

Автореферат разослан 10 ноября 2008 г.

Ученый секретарь диссертационного

Совета, к.т.н.

Щербинина О.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность. В различных областях научно-исследовательской и производственной деятельности человека встречается задача обработки экспериментальных данных с целью извлечения из них закономерностей, описывающих различные процессы и явления. Если изучающиеся закономерности представляются в виде математических моделей, они носят название моделей идентификации, а задача их восстановления - задачи идентификации. Для решения задачи идентификации разработано большое число методов. Однако, несмотря на это, задача по-прежнему далека от своего полного решения: в зависимости от конкретной ситуации применяются различные методы, выбор и правильное использование которых являются далеко не тривиальными. На ход решения задачи идентификации большое влияние оказывает человеческий фактор (знания, предпочтения, убеждения, личный опыт исследователя); многим процедурам, применяемым для восстановления математических зависимостей, свойственна низкая степень алгоритмизации. Среди наиболее актуальных проблем, связанных с задачей идентификации, можно выделить следующие: 1) отсутствие обобщённой алгоритмической схемы построения моделей идентификации, охватывающей все этапы этого процесса и унифицирующей выборы тех или иных алгоритмов и настройку их параметров; 2) недостаточное внимание к использованию на практике процедур предварительного анализа данных (игнорирование которых может не только усложнить решение задачи, но и привести к неадекватным, неустойчивым моделям); 3) отсутствие метода для разрешения дилеммы о дисперсии и смещении; 4) отсутствие критериев комплексной оценки качества построенных моделей; 5) трудности, возникающие при параметрической идентификации сугубо нелинейных моделей; б) отсутствие автоматизируемого алгоритма структурной идентификации. Кроме того, следует также обозначить ещё одну проблему, носящую уже сугубо практический характер - отсутствие интегрированной программной системы построения моделей идентификации с поддержкой всех этапов процесса моделирования. Существующие программные пакеты, как правило, ориентированы или только на какой-то отдельный этап (например, корреляционный анализ данных), или же предназначены для решения узкого кру1а задач на весьма ограниченном множестве моделей (чаще всего линейных, внутрилинейных и полиномиальных). Пакеты, которые на рынке программного обеспечения позиционируются как универсальные, также несвободны от указанных недостатков: их универсальность приводит к тому, что для решения каждой отдельной подзадачи предлагаются только самые простые варианты, что явно недостаточно для практических целей. Наконец, многие из аналитических программных пакетов ориентированы на моделирование в социально-экономических дисциплинах, в которых стандарты моделирования и правила представления моделей сильно отличаются от принятых в физико-математических и технических областях.

Целью работы является повышение эффективности процесса построения математических-моделей по результатам наблюдений за счёт повышения адекватности и устойчивости моделей путём усовершенствования вычислительных процедур и их автоматизации. Для достижения данной цели необходимо решить следующие задачи: 1) проанализировать достоинства и недостатки существующих в настоящий момент алгоритмов, методик и программных средств для построения моделей идентификации; 2) сформулировать обобщённую методику /

построения моделей идентификации; 3) разработать и реализовать эффективный метод, позволяющий разрешать дилемму о дисперсии и смещении; 4) разработать и реализовать метод параметрической идентификации нелинейных моделей, более эффективный, чем принятые на настоящий момент; 5) разработать критерий комплексной оценки качества моделей; 6) разработать и реализовать алгоритмическую процедуру структурной идентификации; 7) разработать интегрированную программную систему построения моделей идентификации и провести её испытания на тестовых и практических задачах.

Объектом исследования настоящей диссертации является процесс построения моделей идентификации. К предмету исследования относятся различные численные алгоритмы математической статистики, технологий Data Mining, нечётких вычислений, способы их применения для построения моделей идентификации, программные системы, выполняющие построение таких моделей. В качестве методов исследования в работе используются методы математического анализа и математической статистики, математического моделирования на ЭВМ, искусственного интеллекта, системного анализа, теории трансляции, теории регуляризации, теории алгоритмизации, методы оптимизации, численные методы, а также методы объектно-ориентированного анализа и проектирования систем.

Научная новизна работы состоит в следующем:

1) Сформулирована обобщённая методика построения моделей идентификации,

унифицирующая порядок восстановления математических зависимостей, содержащая все основные этапы решения задачи (включая предварительную обработку данных, структурную и параметрическую идентификацию, оценку качества моделей), поддерживающая вариативность и итеративность процесса моделирования и позволяющая комплексно использовать известные ранее, а также новые алгоритмы и методы.

2) Модифицирован метод регуляризации данных, позволяющий частично нейтрализовать влияние случайных шумов.

3) Модифицированы и алгоритмизированы методы нелинейной параметрической идентификации и структурной идентификации; предложенная новая реализация методов позволяет повысить степень автоматизации процесса восстановления математических зависимостей по экспериментальным данным и расширить множество моделирования '.

4) Предложен обобщённый критерий оценки качества моделей идентификации, помимо остаточной дисперсии учитывающий также информацию о сложности восстанавливаемой функции, что позволяет повысить адекватность моделей и улучшить их устойчивость за пределами обучающих выборок.

Достоверность и обоснованность научных положений и результатов, приведенных в диссертационной работе, обеспечиваются использованием апробированных на практике методов математического и компьютерного моделирования, искусственного интеллекта и аппарата нечётких вычислений, подтверждаются показателями эффективности работы созданного программного комплекса на тестовых массивах экспериментальных данных, а также результатами его функционирования при решении конкретных задач построения Моделей по результатам наблюдений.

1 Под мощностью моделирования понимается размер множества моделей, поддерживаемых (идентифицируемых) той или иной системой (методом).

Основные положения диссертации, выносимые на защиту:

I ) Обобщённая методика построения моделей идентификации.

2) Метод сглаживания исходных данных с использованием теории регуляризации.

3) Метод параметрической идентификации нелинейных моделей.

4) Метод комплексного оценивания качества моделей идентификации.

5) Метод структурной идентификации на базе генетического программирования и нечётких вычислений.

6) Программный комплекс построения моделей идентификации «Constellation», прошедший практическую апробацию и внедрение.

Практическая значимость:

1) Обобщённая методика моделирования поддерживает вариативность и итеративность процесса моделирования, включает в себя все основные этапы предварительной обработки данных, структурной и параметрической идентификации и оценки качества моделей, что позволяет её использовать при решении задачи идентификации на ЭВМ, обеспечивает свободный доступ ко всем промежуточным результатам вычислений и предоставляет возможность гибкого управления ходом процесса моделирования.

2) Разработан интегрированный программный комплекс, автоматизирующий широкий набор процедур и подзадач, связанных с идентификацией. Разработанные методика и программный комплекс удовлетворяют стандарту CRISP-DM, результаты моделирования сохраняются в XML-подобный формат файлов, совместимый со стандартом PMML.

По итогам данного исследования были разработаны методические указания к выполнению лабораторных работ по курсу «Моделирование систем». Созданный программный комплекс зарегистрирован в Общеотраслевом фонде алгоритмов и программ, внедрён в учебный процесс кафедры САПР и ПК ВолгГТУ, прошёл апробацию и внедрение в Физико-техническом институте им. А.Ф. Иоффе Российской академии наук и ООО «ЛУКОЙЛ-ВолгоградНИПИморнефть». Программный комплекс в целом и его отдельные составляющие могут применяться при решении задач инженерной практики, задач управления, научно-исследовательских и учебных задач, связанных с математическим моделированием физических процессов и технических систем.

Публикации. Основные положения диссертации отражены в 13 опубликованных работах. В том числе 5 статей напечатаны в ведущих рецензируемых научных журналах и изданиях РФ, в которых ВАК рекомендует публикацию основных результатов диссертационных работ, получено 1 свидетельство об официальной регистрации программы для ЭВМ.

Апробация. Основные положения диссертации докладывались и обсуждались на научных семинарах кафедры «САПР и ПК» ВолгГТУ, а также на Международных, Всероссийских и региональных научных и научно-практических конференциях, в том числе «Информационные технологии в образовании, технике и медицине» (Волгоград, 2004); «Региональная конференция молодых исследователей Волгоградской области» (Волгоград, 2004, 2006, 2007); «Новые информационные технологии. Разработка и аспекты применения» (Таганрог, 2004); «Технологии Microsoft в теории и практике программирования» (Москва, 2005, Нижний Новгород, 2006); Intel Summer School Seminar 2008 (Intel, Нижний Новгород, 2008).

Структура и содержание диссертационной работы. Диссертационная работа состоит из введения, четырёх глав, заключения, списка литературы и шести приложений. Общий объем диссертации - 153 страницы, включая 9 рисунков, 7 таблиц и список литературы из 129 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы цели и задачи исследования, определена научная новизна, приводится перечень основных положений, выносимых на защиту, излагается краткое содержание глав диссертации.

В первой главе приводится обзор алгоритмов, методов, стандартов и программных средств, применяемых для построения моделей идентификации. Во избежание неоднозначности зададим ограничения, определяющие подкласс рассматриваемых в настоящем исследовании задач идентификации: 1) число выходных переменных равно 1; 2) модели идентификации строятся в форме элементарных математических функций, представленных в явном виде у - F(ä,x) (где а - вектор параметров функции, х - вектор входных переменных, у -выходная переменная), а также в форме нейронных сетей; 3) областью определения модели является подмножество декартова произведения А™, где к - множество действительных чисел, т - число входных переменных; 4) областью значений модели является подмножество множества ,1 действительных чисел; 5) исходными данными для моделирования являются матрицы наблюдений размером N х (от + 1) (N - число наблюдений). Раздел 1.1 содержит вводные замечания; здесь перечисляются основные этапы построения моделей идентификации в терминах стандарта CRISP-DM, рассматриваются подходы к решению задач структурной и параметрический идентификации, приводятся названия классов методов для решения этих задач и их отношения между собой. Раздел 1.2 посвящен анализу разработанных к настоящему моменту математических методов построения моделей идентификации. Анализируются как традиционные статистические методы, так и современные подходы (Data Mining, нечёткие вычисления, MAC и т.д.). Уделено большое внимание математическому обеспечению этапа предварительной обработки данных, который часто недооценивается экспериментаторами и авторами работ по моделированию. На основе стандарта CRISP-DM и анализа различных источников (Барсегян A.A., Львовский E.H., Мазуркин П.М., Пащенко Ф.Ф., Петрович М.Л., Larose D.T. и др.) были выделены следующие основные задачи этапа предварительной обработки данных: 1) восстановление пропущенных значений и первичный содержательный анализ данных; 2) проверка распределений исходных данных на нормальность; 3) приведение исходных распределений к нормальному виду; 4) стандартизация данных; 5) выявление аномальных значений и отсев погрешностей; 6) оценка наличия функциональной связи между изучаемыми величинами; 7) регуляризация. После обзора методов предварительной обработки данных приводится обзор алгоритмов, разработанных для параметрической и структурной идентификации. Задача параметрической идентификации рассматривается как задача оптимизации. Выделяются четыре наиболее часто используемых критерия оптимизации для этой задачи: 1) минимум суммы квадратов невязок (МНК); 2) ортогональная регрессия; 3) минимум суммы разностей между расчётными и средним значениями (метод

средних); 4) критерий максимального правдоподобия. Далее рассматриваются градициопные методы идентификации - регрессионный анализ, псевдолинейное моделирование с помощью линеаризации, построение полиномов, а также излагаются сравнительно новые методы, основанные на нечётких вычислениях и Data Mining. Так, приводится алгоритм параметрической идентификации с использованием фаззификации (Леоиенков A.B., Штовба С.Д.). Рассматриваются также приложения генетического программирования для структурной идентификации. Кроме того, в литературе встречаются упоминания о возможности применения для идентификации зависимостей машин опорных векторов (SVM), ассоциативных карт, нестрогих классификаторов, муравьиных алгоритмов, мультиагентных систем, однако доступная информация о заметных успехах в этих направлениях пока отсутствует. В разделе 1.3 приводится сравнительный анализ программных средств, осуществляющих построение моделей идентификации. В частности, анализируются IBM DB2, Intsightful Miner, MATLAB, Megaputer, Microsoft SQL Server, Oracle Data Miner, SPSS Clementine, Statistica и др. Были сделаны следующие выводы. Подавляющее большинство универсальных приложений анализа данных предлагает очень ограниченный набор инструментов для построения моделей идентификации (линейные и полиномиальные зависимости, некоторые внутрилинейные) при почти полном отсутствии средств для предварительного анализа данных. Узкоспециализированные же программы часто ограничены какой-то одной подзадачей, при этом множество моделирования в подавляющем большинстве случаев также остаётся довольно ограниченным (линейные, полиномиальные, некоторые внутрилинейные модели). Исходя из проанализированной информации, в разделе 1.4 формулируются проблемы, существующие в настоящее время в области построения математических моделей по экспериментальным данным. В соответствии с этими проблемами сформулированы цель и задачи диссертации.

Вторая глава посвящена разработке отдельных элементов методического и математического обеспечения построения моделей идентификации. В литературе встречаются различные описания процесса построения моделей идентификации, которые имеют общую основу. Однако в широко доступных источниках не приводится алгоритмическая схема процесса моделирования с указанием последовательности всех основных вычислительных процедур, их параметров и возможных вариантов ветвления процесса. В связи с этим на основе анализа литературных данных была сформулирована обобщённая методика построения моделей идентификации, схема которой представлена на рис. 1. При составлении схемы использовалась нотация UML-диаграмм. Жирная горизонтальная черта означает разделение - пользователь, находясь в точке разделения (на рис. 1 это точки А и В), может выбрать любую из исходящих из неё ветвей исполнения процесса. Этот выбор определяется только соображениями самого пользователя, на него не накладывается никаких строгих алгоритмических условий. Другими словами, находясь в точке А (начало этапа предварительной обработки данных), пользователь может выбрать любую из процедур препроцессинга, а может и пропустить их, сразу перейдя в точку В (построение моделей). При этом, выполнив выбранную процедуру, пользователь возвращается в точку А, где он может опять продолжить предварительный анализ данных или перейти к этапу построения моделей. Аналогично процесс моделирования ведёт в себя и в точке В. Любой выбор пользователя, соответствующий схеме

на рис. 1, будет правильным с точки зрения методики моделирования и соответствовать стандарту СШЭ Р-ОМ.

Рис. 1. Обобщенная методика построения моделей идентификации

Важным дополнением по сравнению со схемами моделирования, встречающимися в литературе, является наличие на этапе предварительной обработки стадии регуляризации. Включение этой процедуры позволяет частично нейтрализовать влияние шумов и разрешить дилемму о смещении и дисперсии, которая является одной из наиболее трудных проблем, связанных с восстановлением математических зависимостей по экспериментальным данным.

Повышая сложность модели, вводя в неё всё новые параметры можно добиться сколь угодно малого значения остаточной дисперсии. Однако цена такого уменьшения дисперсии -не только усложнение модели и увеличение числа её параметров: отображение F теряет гладкость, модель становится неустойчивой, возникает проблема переобученное™. Таким образом, уменьшение дисперсии нельзя однозначно воспринимать как улучшение качества модели. Необходимо искать компромисс между дисперсией и гладкостью модели. Для частичного устранения плохой обусловленности задачи идентификации и связанных с ней негативных последствий было решено воспользовагься теорией регуляризации 'Гихонова-Филлипса, приложения которой себя успешно зарекомендовали при удалении шумов из цифровых изображений. В рамках этой теории минимизируется не только сумма квадратов невязок, но также и слагаемое регуляризации (показатель гладкости функции) 1 N 1

E(F) = Es (F) + Ec (F) F(a,x, ))2 +-A|D/|, где N - число наблюдений,^ - экспе-

2 2

риментальные значения выходной переменной, F(a,x) - расчётные значения выходной переменной, X - параметр регуляризации, D - линейный дифференциальный оператор. Ниже (рис.2) предлагается (в виде блок-схемы) метод регуляризации (сглаживания) значений выходной переменной. В качестве алгоритма оптимизации можно воспользоваться интервальными методами - дихотомии или золотого сечения. Факт улучшения моделей при использовании регуляризованных выборок был подтверждён в ходе испытаний программного комплекса, разработанного автором и описанного в главе 3.

Далее рассматривается вопрос о параметрической идентификации сугубо нелинейных моделей. Использование традиционного подхода, основанного на вычислении частных производных и решении системы нормальных уравнений, в случае нелинейного моделирования имеет ряд трудностей: 1) функция может оказаться недифференцируемой в какой-то области; 2) не существует аналитических методов решения нелинейных систем, а использование численных методов сопряжено с трудностями при реализации на ЭВМ; 3) для каждой моделируемой функции необходимо предварительно выводить выражения для производных и составлять систему нормальных уравнений. Поэтому гораздо более эффективным представляется другой подход - раз задача идентификации есть задача оптимизации, для её решения можно воспользоваться методами оптимизации, которые не накладывают на функцию ограничения дифференцируемое™. В литературе встречаются упоминания об использовании локальных детерминистских методов оптимизации для параметрической идентификации нелинейных моделей. Ниже предлагается метод, использующий также глобальные методы поиска (алгоритм имитации отжига и его модификация, известная как квантовое туннелировзние — quantum annealing). Этот метод обладает большей мощностью моделирования, чем методы, основанные на локальном поиске. Перед использованием метода выборки значений экспериментальных данных необходимо привести в диапазон от 0 до 1. Ниже (рис. 3) представлена блок-схема метода. Входные данные: входные вектора х, выходные значения у, функция модели modelFunction, псевдолинейное приближение quasiLinearApproximution, значения параметров модели по умолчанию defaultCoeff, точность вычислений precision, функционал оптимизации U, число точек для оценивания Umax К (рекомендовано К = 20), начальный

радиус окрестности R0 (рекомендовано 103 - 104), коэффициент уменьшения радиуса окрестности rCoefflcient (рекомендовано 0,999), максимальное число итераций IterMax (рекомендовано 231), shakmgCoejficient - если текущее решение во столько раз больше лучшего на протяжении нескольких итераций, нужно выполнить «встряхивание» (рекомендовано shaking-Coefficient = 2), число «плохих» итераций, после которого нужно сделать «встряхивание» -shakingMaxJter (рекомендовано shakingMctxlter = 100), параметры метода Нелдера-Мида, шаг дискретизации, с которого начинается работа hill climbing Estart (рекомендованное значение 1), размерность вектора параметров модели к. Рекомендованные параметры метода и применяющиеся в нём эвристики, улучшающие сходимость как глобального, так и локального поиска были выявлены в ходе проведения компьютерных экспериментов над линейными.

Рис. 3 Блок-схема метода нелинейной параметрической идентификации

11

1оса1Бо1иИоп = метод Нелдера-Мида <е1оЬя1$Ыийоп 1А

1оса1$о!иНоп - $о1ийоп

ВЫХОД 1ос>|5оК1Йоп

Рис. 3. Блок-схема метода нелинейной параметрической идентификации (продолжение)

внутрилинейными и сугубо нелинейными моделями.

В разделе 2.4 рассматривается проблема более эффективного оценивания качества моделирования по сравнению с методом остаточной дисперсии. Как уже было сказано, можно добиться сколь угодно малой дисперсии, вводя в модель всё новые параметры, что, однако, приводит к потере её устойчивости. Если мы будем рассматривать функцию модели как дерево, это означает, что при добавлении новых узлов возможно ухудшение качества модели. Введём в рассмотрение две функции сложности; Ср - сложность по количеству параметров и Си - сложность по количеству узлов. Минимальным числом параметров модели является 2 (согласно критериям математической статистики), поэтому функцию с двумя параметрами будем считать несложной: Ср (2) = 0. Другим крайним случаем может служить полином с N параметрами, построенный на выборке размером N: Ср (А') —► 1. Аналогично С„ (1) = 0, С„ (ЗА) —► 1 (полином Аг- 1-ой степени содержит порядка 3N функциональных узлов). Исходя из предварительных соображений (виды функций активации в нейронных сетях), а также результатов экспериментов, предлагаются следующие выражения для оценки сложности моделей:

С„ =-

1 + ехр - а

N-2

-1, (р - число параметров)

(1)

си =-7-;гт -!.("-' число узлов)

. ( и —2 \ (2)

1 + ехр -ш---

Ч Ш-2)

где параметры роста функций (а и у) по результатам компьютерных экспериментов наиболее рационально брать равными порядка N/10. Общая сложность модели (и по количеству параметров, и по количеству узлов) есть максимум из Ср и С„:

Complexity(p,u) = max{Cr(p),Cu(u)}.

(3)

Теперь предложим обобщённую количественную меру качества модели, которая учитывает как точность моделирования, так и сложность построенной модели. В качесше меры ошибки моделирования используем среднюю относительную ошибку &, чтобы избежать проблем с изменением масштаба, присущих остаточной дисперсии. Функция, описывающая зависимость общего качества моделирования Fitness от ошибки Э и сложности Complexity должна отвечать следующим требованиям: 1) если модель несложная, то есть Complexity < 0,5, основной вклад в оценку Fitness должен осуществляться за счёт ошибки моделирования; 2) если же Complexity > 0,5, то основной вклад в оценку качества моделирования вносит компонента сложности, и ухудшение показателя Fitness за счёт возрастания сложности уже не может быть компенсировано за счёт уменьшения ошибки моделирования. В ходе экспериментов было проверено несколько функций, отвечающих заданным требованиям. Наиболее рациональным вариантом с точки зрения корректности результатов (проводилась структурная идентификация ряда зависимостей) и простоты вычисления оказалось выражение

Отметим следующее: так как может оказаться, что при Complexity = 1 ошибка Э будет равна 0, будем считать бесконечность, обусловленную тангенсом, сильной бесконечностью, которая, будучи умноженной на 0, всё равно даёт бесконечность. Формула (4) была использована в процедуре структурной идентификации, разработанной на базе генетического программирования.

В генетическом программировании решение задачи представляется в виде дерева, которое задаёт некоторое правило. Математическую функцию можно представить деревом, нетерминальными узлами которого являются основные элементарные функции и арифметические операции, а терминальными - переменные и константы, входящие в запись исследуемой функции. На рис. 4 приводится блок-схема разработанного нами алгоритма структурной идентификации. Дадим к нему некоторые пояснения. На первом шаге алгоритма генерируется К случайных начальных решений в виде функциональных деревьев. В литературе встречаются рекомендации брать значение К порядка 30 - 40, но не сказано, какую глубину должны иметь деревья начальных решений. Эксперименты показали, что лучше всего формировать начальные деревья глубиной равной 3. На следующем шаге для всех К решений в популяции вычисляется значение Fitness. После того, как посчитаны все Fitness, формируется рулетка вероятностей. На следующем шаге начинается эволюционный процесс. Он продолжается до тех пор, пока счётчик поколений generation не станет равен критическому значению lastGeneration (рекомендуется брать значения порядка 100). Для каждого поколения организуется цикл на К итераций, во время которого генерируются потомки решений в популяции. Берутся два случайных числа от 0 до 1, в соответствии с ними при помощи рулетки вероятности определяются две родительские особи, производится их скрещивание.

Fitness -

(4)

Рис. 4. Блок-схема метода структурной идентификации

Затем с некоторой вероятностью с новым решением происходит (или не происходит) случайная мутация. Эксперименты показали, что наиболее рациональным значением вероятности мутации является 0,3 - при больших значениях поведение алгоритма становится неустойчивым, выделенные ветви эволюции не получают дальнейшего развития; при меньших значениях эффект от мутации становится незначительным. После того, как потомок определён, для него вычисляется Fitness. В том случае, если все К потомков имеют Fitness хуже, чем самое худшее решение в популяции, эволюция прекращается. Если же нет, то, во-первых, К потомков добавляются в популяцию, во-вторых, те члены популяции, которые на протяжении 4 поколений не дали ни одного потомка, удаляются из неё, и, наконец, в-

третьих, пересчитывается рулетка вероятностей. Алгоритм переходит к следующей итерации эволюции. По завершении эволюционного процесса выбирается то решение в популяции и текущей группе потомков, у которого лучшее значение Fitness. Эксперименты, проведённые в ходе разработки алгоритма, позволяют сделать вывод об эффективности его применения для построения математических моделей в виде функций с относительно небольшим (10 -12) числом параметров.

В третьей главе описан интегрированный программно-методический комплекс для построения моделей идентификации, созданный в рамках данной работы. Сформулированы общие требования к комплексу, в основе своей следующие из сравнительного анализа, приведённого в главе 1. Архитектура комплекса на верхнем уровне представлена на рис. 5. Windows-приложение Constellation, которое непосредственно запускает пользователь, выполняется в срсде .NET Framework. После инициализации всех необходимых параметров приложения и загрузки локальных пользовательских настроек сборка Constellation обрашается к базовому объекту Keel, объявленному в сборке Constellation.Core, тем самым передавая управление ей. Constellation.Core представляет собой управляющий модуль в виде DLL, реализующий целиком интерфейс пользователя, считывание исходных данных из базы, сохранение результатов моделирования на диск и т.п. Большую часть времени работы программы пользователь взаимодействует именно с этой сборкой. Так как управляемый .NET-код выполняется медленнее, чем неуправляемый \Уш32-код, под .NET реализован именно управляющий модуль, а все вычисления вынесены в неуправляемую С++-сборку. Это решение позволяет нам, с одной стороны, использовать все преимущества платформы .NET Framework, а с другой, избежать замедления работы на участках, непосредственно выполняющих сложные математические расчёты. Кроме того, главный модуль программы (.NET-модуль) физически должен быть разделён на две сборки - Windows-приложение и вызываемую ею DLL-библиотеку. Это позволяет повысить модульность и масштабируемость программы.

В рамках разработанной программной системы для лингвистического обеспечения описанной в главе 2 методики моделирования были введены следующие понятия. Явление - некоторый процесс (явление, система, объект) реального мира, изучаемый пользователем. Источник данных - представленные на ЭВМ экспериментальные данные об изучаемом явлении. Между явлением и источником данных установлено отношение «один к одному». Переменная - какая-либо сторона изучаемого явления, его отдельный фактор. Физически переменные - это столбцы в источнике данных, сопоставленном явлению. Корректно заполненную матрицу наблюдений будем называть экспериментом. Водятся также понятия вычислительной операции и вычислительного документа. Вычислительной операцией будем называть какую-либо логически завершённую и самостоятельную стадию моделирования, а вычислительным документом входные и выходные данные вычислительных операций. Каждый документ характеризуется вычислительной операцией, в результате которой он был получен (порождающая операция), и исходным документом (документами), к которому (которым) эта операция была применена (порождающий документ). В соответствии с данными выше определениями эксперимент (точнее говоря, его корректная матрица набгюде-ний) также является документом.

Пользователь Рис 5. Архитектура системы на верхнем уровне

Будем называть эту матрицу исходной матрицей наблюдений. На каждый тип операций и документов наложены ограничения, к каким документам они могут применяться и какими операциями порождаться. Таким образом, процесс моделирования в системе представляется как применение тех или иных операций над допустимыми документами. Так как ко многим типам документов можно применять различные операции, множество документов, выводимых из одного и того же эксперимента, выстраивается в дерево, в корне которого находится начальная матрица наблюдений эксперимента. Различные ветви этого дерева соответствуют различным ветвям процесса моделирования, а так как все документы, сгенерированные системой, сохраняются, в любой момент времени пользователь может вернуться к старым документам и начать новую ветвь построения моделей. При разработке программного комплекса был также разработан формат представления результатов моделирования. В настоящее время по рекомендации консорциума DataMining.org модели, создаваемые программными приложениями, должны отвечать стандарту РММЬ. Однако этот формат в своём базовом варианте обладает рядом недостатков: 1) отсутствуют возможности протоколирования этапа предварительной обработки данных; 2) отсутствуют возможности представления моделей, отличных от линейной и полиномиальных; 3) отсутствуют возможности протоколирования этапа

оценивания моделей со всеми необходимыми показателями. Не нарушая требований формата и грамматики языка, основанного на XML, были предложены следующие расширения

1) Представление моделей с функцией произвольной структуры (при условии, чго она удовлетворяет ограничениям, сформулированным в гл. 1) в виде

<RegressionTree>

<Node type="<node_type>" value="<node_value>"> </RegressionTree>

Элемент Node соответствует узлу древовидного представления функции, type - это тип узла: function - основная элементарная функция (значение value одно из {pow, exp, in, sin, tg, arcsin, arctg}), operator — оператор (value € { + , -, x, композиция функций}), variable - переменная (значение здесь индекс переменной), parameters - параметр, подлежащий определению (значение здесь индекс параметра), constant - уже известная константа функции (значение - значение константы). Если элемент Node описывает узел, а не лист, он может содержать другие элементы Node в себе.

2) Поддержка протоколирования предварительной обработки данных в виде процедура -параметры:

<DataPreprocessingProcedure> <NameXM»w лроцедурых/Ыагае? ... список параметров ...

<Parameter name = "<имя>" value = "<эначение>"> </ OataPreprocessingProcedure >

Аналогичным образом протоколируются и результаты оценки уже построенных моделей.

Особое внимание при разработке системы было уделено практической реализации численных алгоритмов. Некоторые аналитические алгоритмы являются неэффективными с вычислительной точки зрения (неустойчивость, требовательность к временным ресурсам и т.п.), поэтому важно было найти эффективные варианты соответствующих численных алгоритмов. Основные результаты данного направления работ перечислены ниже: 1) Расчет гамма-функции (используется для вычисления квантилей распределений) производится l использованием приближения Виндшитла (с точностью до 8-ого знака)

1п Г(дг)« ~ (ln(2;r) - In дг)+ х

Ч х »/ /

и аппроксимации Ланкцоса

lnr(A: + l) = lnV2^ + lnXP + (x + 0,5)ln(x + g + 0,5)-(x + g + 0,5). (6)

2) Для перемножения матриц большого размера (п > 20) используется алгоритм Штрасссна (сложность = 0(п1к)). В работе Higham N.J. было показано, что для большинства

практических задач этот алгоритм обладает устойчивым поведением. 3) Решение систем линейных уравнений и обращение матриц осуществляется с использованием LUP-разложения, что позволяет повысить численную устойчивость этих операций (Кнут Д., Кормен Т.Х.). 4) Перемножение более чем двух матриц осуществляется с использованием концепции ди-

In

х + -

12*--

-1

1Пг

(5)

намического программирования. S) При перемножении полиномов вместо стандартного алгоритма (время работы 0(п2), где и - степень полиномов) используется алгоритм с временем работы O(nlogn) (с использованием дискретного преобразования Фурье и быстрого преобразования Фурье).

В четвёртой главе описываются результаты работы программы на наборах экспериментальных данных, для которых уже известны эталонные результаты. В разделе 4.1 рассматриваются две группы экспериментов. Первая группа была посвящена проверке метода нели-. нейной параметрической идентификации. На этом этапе выполнялось построение линейной, внутрилинейных (в том числе и полиномиальной) и ряда сугубо нелинейных моделей, которые затем сравнивались с эталонными показателями. Идентификация осуществлялась традиционными способами (для линейной и внутрилинейных зависимостей - регрессионный анализ, для сугубо нелинейных - численное решение нелинейных систем), с использованием только локальных методов оптимизации и с применением авторского метода. Эксперименты показали следующее: уступая регрессионному анализу по точности и скорости работы для линейных и сводимых к ним моделей, авторский метод позволяет значительно расширить множество моделирования для нелинейных зависимостей, обеспечивая требуемую на практике точность. Вторая группа экспериментов проводилась на электронном звёздном каталоге NASA. На этом этапе восстанавливались уже формы зависимостей. Результаты структурной идентификации сравнивались с уже известными формулами из астрофизики. Кроме того, эксперименты этой группы позволили проверить правильность подхода к комплексной оценке качества модели и выработать некоторые рекомендации по использованию генетического программирования для решения задачи идентификации. В разделе 4.2 описаны две практические задачи, решённые с помощью разработанного нами программного комплекса Первой рассмотрена задача анализа фазово-генетических характеристик пластовых флюидов (решалась в рамках работы по договору № 39/532 - 04 между ВолгГТУ и ООО «ЛУКОЙЛ-ВолгоградНИПИморнефть»), С использованием отдельных компонент программного комплекса сотрудники института строили модели, описывающие поведение газовой составляющей в изучаемых ими нефтегазоносных образцах. Наличие процедуры структурной идентификации позволило им построить новые, более адекватные модели для образцов, эволюция которых проходила в условиях, отличных от стандартных (вследствие чего традиционные модели плохо подходили для их описания). Второй практической задачей был анализ вольт-амперных характеристик туннельных МДП-структур, проводившийся сотрудниками ФТИ им. А.И. Иоффе РАН (Санкт-Петербург). Результаты анализа позволили получить дополнительное подтверждение корректности разработанного сотрудниками института метода моделирования процессов в системах Al/SiOî/Si. Использование при этом программного комплекса «Constellation» позволило более надёжно определять характерный пространственный масштаб флуктуации толщины диэлектрика. Раздел 4.3. посвящен использованию программного комплекса в учебном процессе, который в настоящее время применяется при выполнении лабораторной работы по дисциплине «Моделирование систем». Так как возможности комплекса существенно превосходят функциональность программ, использовавшихся в учебном процессе ранее, были разработаны новые методические указания для выполнения лабораторной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1) Модифицирован этап предварительной обработки данных за счёт включения про-целуры регуляризации, что позволяет частично разрешить дилемму о дисперсии и смещении и добиться лучшей устойчивости моделей за пределами обучающих выборок.

2) Разработан и реализован алгоритм параметрической идентификации нелинейных моделей с использованием методов глобальной оптимизации, менее чувствительный к поведению функции и её непрерывности, чем традиционные методы, основанные на численном решении систем нелинейных уравнений.

3) Предложен обобщённый критерий оценю) качества моделей идентификации, помимо информации об остаточной дисперсии учитывающий также сложность восстанавливаемой функции, что позволяет повысить адекватность моделей и улучшить их устойчивость за пределами обучающих выборок.

4) Разработан и реализован алгоритм структурной идентификации, позволяющий автоматизировать процесс восстановления структуры математических зависимостей.

3) Сформулирована обобщённая методика построения моделей идентификации, учитывающая вариативность и итеративность процесса моделирования, включающая в себя все основные этапы предварительной обработки данных, структурной и параметрической идентификации и унифицирующая общий ход процесса моделирования.

6) Создан программный комплекс, автоматизирующий решение широкого спектра подзадач, встающих при построении моделей идентификации: проверку исходных распределений на нормальность, нормализацию и стандартизацию данных, выявление и отсев аномальных значений, корреляционный анализ и сокращение пространства входных переменных, регуляризацию, параметрическую идентификацию линейных, внутрилинейных и сугубо нелинейных моделей, структурную идентификацию нелинейных моделей и т.д. Разработанные методика и программный комплекс удовлетворяют стандарту CRISP-DM.

7) Программный комплекс был проверен на контрольных тестовых примерах и прошёл апробацию путём решения практических задач.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи, опубликованные в периодических изданиях, рекомендованных ВАК:

1. Крыжановский, Д.И. Унифицированное представление регрессионных моделей на базе XML- и PMML-документов/ Д.И. Крыжановский// Изв. ВолгГТУ. Серия «Актуальные проблемы управления, вычислительной техники и информатики в технических системах»: межвуз. сб. науч. ст./ ВолгГТУ. - 2008. - Вып. 4, № 2 (40). - С. 19 - 23.

2. Крыжановский,Д.И.Метод нелинейной параметрической идентификации с использованием стохастических алгоритмов оптимизации/ Д.И. Крыжановский// Изв. ВолгГТУ. Серия «Актуальные проблемы управления, вычислительной техники и информатики в технических системах»: межвуз. сб. науч. ст./ ВолгГТУ. - 2008. - Вып. 5, № 8 (46). - С. 37-39.

3. Остроухов С.Б. Программный комплекс по оценке фазово-генетической характеристики пластового флюида/ Остроухов С.Б., Крыжановский Д.И., Остроухова A.C.// Вестник ВолгГАСУ, серия: Технические науки 2006. Выпуск 6 (20). Информатика, вычислительная техника и управление. - Волгоград, 2006. - С. 198 - 203.

r< Г У-

4. Крыжановский, Д.И. Автоматизированная система построения математических моделей по результатам наблюдений / Д.И. Крыжановский, С.А. Фоменков // Изв. ВолгГТУ. Сер. Концептуальное проектирование в образовании, технике и технологии: Межвуз. сб. науч. статей / ВолгГТУ. - Волгоград, 2004. - Вып.1, №5. - С. 54-56.

5. Крыжановский, Д.И. Структура электронных документов для автоматизированной системы построения математических моделей / Д.И. Крыжановский, С.А. Фоменков // Изв. ВолгГТУ. Сер. Концептуальное проектирование в образовании, технике и технологии: Межвуз. сб. науч. статей / ВолгГТУ. - Волгоград, 2004. - Вып. 1, №5. - С. 57-59.

Другие публикации

6. Крыжановский Д.И.. Фоменков С.А. Программная система построения моделей идентификации «Constellation». - M: ВНТИЦ, 2008. -№¡50200800656.

7. Крыжановский, Д.И. Программная система оценки фазово-генетических характеристик пластовых флюидов / Д.И. Крыжановский, В.Н. Шершнев, П.А. Колчин // Технологии Microsoft в теории и практике программирования: матер, конф-, Нижний Новгород, 21-22 марта 2006 г. / Нижегород. гос. ун-т им. Н.И.Лобачевского. - Н.Новгород, 2006. - С. 162164.

8. Программная система оценки фазово - генетических характеристик пластовых флюидов / Д.И. Крыжановский, В.Н. Шершнев, П.А. Колчин, П.П. Кудряшов, В.А. Камаев // Технологии Microsoft в теории и практике программирования, Москва, 17-18 февр. 2005 г. (к 175-летию МГТУ им.Н.Э.Баумана): Тр. Всерос. конф. студ., аспир. и мол. ученых, Центр, регион / МГТУ им. Н.Э.Баумана и др. - М„ 2005. - С. 48.

9. Крыжановский, Д.И. Применение генетических алгоритмов для идентификации математических зависимостей / Д.И. Крыжановский, С.А. Фоменков // Новые информационные технологии. Разработка и .аспекты применения: тр. VII всерос. науч. конф. с междунар. участ., 25-26.11.04 / Таганрог, гос. радиотехн. ун-т и др. - Таганрог, 2004. - С. 151 -153.

10. Крыжановский, Д.И. Автоматизация идентификации математических зависимостей, скрытых в массивах результатов наблюдений / Д.И. Крыжановский // Информационные технологии в образовании, технике и медицине: Матер, мевдунар. конф., Россия, Волю-град, 18-22 окт. 2004г. / ВолгГТУ и др. - Волгоград, 2004. - Т.2. - С. 157-161.

11. Крыжановский, Д.И. Организация структуры электронных документов дли автоматизированной системы построения математических моделей / Д.И. Крыжановский, С.А. Фоменков // Новые информационные технологии. Разработка и аспекты применения: Тр. VI всерос. науч. конф. с междунар. участ, 27-28.11.2003 / Таганрог, гос. радиотехн. ун-т и др. - Таганрог, 2003. - С. 179-181.

12. Крыжановский, Д.И. Автоматизированная система решения задачи структурной и параметрической идентификации / Д.И. Крыжановский, И.В. Олейников // Математические методы в технике и технологиях. ММТТ-16: Сб. тр. XVI Междунар. науч. конф., г.Ростов н/Д, 27-29 мая 2003 / Рост.-на-Дону гос. акад. с.-х. машиностр. и др. - Ростов н/Д, 2003. -Том 8, секция 12. - С. 27-30.

13. Крыжановский, Д.И. Система построения математических зависимостей на основе результатов наблюдений / Д.И. Крыжановский, И.В. Олейников, С.А. Фоменков // Информационные технологии в образовании, технике и медицине: Сб. науч. тр. Междунар. на-уч.-техн. конф., 24-26 сенг. 2002 / ВолгГТУ и др. - Волгоград, 2002. - Часть I. - С. 163-165.

Подписано в печать 31.10.2008. Формат 60x84 1/16.

Бумага писчая. Усл. печ. л. 1.0

Тираж 100 экз. Заказ Щ .

Волгоградский государственный технический университет.

400131, Волгоград, пр. Ленина, 28.

РПК «Политехник» Волгоградского государственного технического университета.

400131, Волгоград, ул. Советская, 3 5.

Оглавление автор диссертации — кандидата технических наук Крыжановский, Дмитрий Иванович

СПИСОК ИСПОЛЬЗОВАННЫХ СОКРАЩЕНИЙ.

СПИСОК ИСПОЛЬЗОВАННЫХ ОБОЗНАЧЕНИЙ.

ВВЕДЕНИЕ.

ГЛАВА 1. МЕТОДЫ, АЛГОРИТМЫ И ПРОГРАММНЫЕ СРЕДСТВА, ПРИМЕНЯЕМЫЕ ДЛЯ ПОСТРОЕНИЯ МОДЕЛЕЙ ИДЕНТИФИКАЦИИ.

1.1. Задача идентификации. Основные подходы и этапы её решения.

1.2. Математическое обеспечение процесса построения моделей идентификации.

1.2.1. Этап предварительной обработки данных.

1.2.2. Этап построения модели.

1.2.3. Этап оценки качества модели.

1.3. Программные средства, применяемые для построения моделей идентификации.

1.4. Постановка задачи диссертации.

ГЛАВА 2. МЕТОДИЧЕСКОЕ И МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ПРОЦЕССА ПОСТРОЕНИЯ МОДЕЛЕЙ ИДЕНТИФИКАЦИИ.

2.1. Методика построения моделей идентификации.

2.2. Регуляризация исходных данных.

2.3. Математическое обеспечение задачи нелинейной параметрической идентификации.

2.3.1. Проблемы параметрической идентификации сугубо нелинейных зависимостей.

2.3.2. Сравнительная характеристика методов оптимизации.

2.3.3. Метод нелинейной параметрической идентификации.

2.4. Комплексная оценка качества моделей идентификации.

2.5. Структурная идентификация с использованием генетического программирования.

2.6. Выводы по главе 2.

ГЛАВА 3. ПРОГРАММНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС ДЛЯ ПОСТРОЕНИЯ МОДЕЛЕЙ ИДЕНТИФИКАЦИИ.

3.1. Общие требования к системе.

3.2. Архитектура системы и инструменты разработки.

3.3. Реализация методики построения моделей идентификации.

3.4. Описание подсистем. Режимы работы.

3.5. Использование вычислительных алгоритмов и численных методов.

3.6. Выводы по главе 3.

ГЛАВА 4. АПРОБАЦИЯ И ВНЕДРЕНИЕ ПРОГРАММНОГО КОМПЛЕКСА.

4.1. Экспериментальная проверка алгоритмов и методов на тестовых задачах.

4.2. Применение программного комплекса для решения практических задач.

4.3. Использование в учебном процессе.

4.4. Возможные области применения.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Крыжановский, Дмитрий Иванович

В различных областях научно-исследовательской и производственной деятельности человека встречается задача обработки экспериментальных данных с целью извлечения из них закономерностей, описывающих различные процессы и явления. Если изучающиеся закономерности представляются в виде математических моделей, они носят название моделей идентификации, а задача их восстановления - задачи идентификации. Для решения задачи идентификации разработано большое число методов. Однако, несмотря на это, задача по-прежнему далека от своего полного решения: в зависимости от конкретной ситуации применяются различные методы, выбор и правильное использование которых являются далеко не тривиальными. На ход решения задачи идентификации большое влияние оказывает человеческий фактор (знания, предпочтения, убеждения, личный опыт исследователя); многим процедурам, применяемым для восстановления математических зависимостей, свойственна низкая степень алгоритмизации.

Среди наиболее актуальных проблем, связанных с задачей идентификации, можно выделить следующие:

1) отсутствие обобщённой алгоритмической схемы построения моделей идентификации, охватывающей все этапы этого процесса и унифицирующей выборы тех или иных алгоритмов и настройку их параметров;

2) недостаточное внимание к использованию на практике процедур предварительного анализа данных (игнорирование которых может не только усложнить решение задачи, но и привести к неадекватным, неустойчивым моделям);

3) отсутствие метода для разрешения дилеммы о дисперсии и смещении;

4) отсутствие критериев комплексной оценки качества построенных моделей;

5) трудности, возникающие при параметрической идентификации сугубо нелинейных моделей;

6) отсутствие автоматизируемого алгоритма структурной идентификации.

Кроме того, следует также обозначить ещё одну проблему, носящую уже сугубо практический характер - отсутствие интегрированной программной системы построения моделей идентификации с поддержкой всех этапов процесса моделирования. Существующие программные пакеты, как правило, ориентированы или только на какой-то отдельный этап (например, корреляционный анализ данных), или же предназначены для решения узкого круга задач на весьма ограниченном множестве моделей (чаще всего линейных, внутрилинейных и полиномиальных). Пакеты, которые на рынке программного обеспечения позиционируются как универсальные, также несвободны от указанных недостатков: их универсальность приводит к тому, что для решения каждой отдельной подзадачи предлагаются только самые простые варианты, что явно недостаточно для практических целей. Наконец, многие из аналитических программных пакетов ориентированы на моделирование в социально-экономических дисциплинах, в которых стандарты моделирования и правила представления моделей сильно отличаются от принятых в физико-математических и технических областях.

Целью работы является повышение эффективности процесса построения математических моделей по результатам наблюдений за счёт повышения адекватности и устойчивости моделей путём усовершенствования ряда процедур и их автоматизации.

Для достижения данной цели необходимо решить следующие задачи:

1) проанализировать достоинства и недостатки существующих в настоящий момент алгоритмов, методик и программных средств для построения моделей идентификации;

2) сформулировать обобщённую методику построения моделей идентификации;

3) разработать и реализовать эффективный метод, позволяющий разрешать дилемму о дисперсии и смещении;

4) разработать и реализовать метод параметрической идентификации нелинейных моделей, более эффективный, чем принятые на настоящий момент;

5) разработать критерий комплексной оценки качества моделей;

6) разработать и реализовать алгоритмическую процедуру структурной идентификации;

7) разработать интегрированную программную систему построения моделей идентификации и провести её испытания на тестовых и практических задачах.

Объектом исследования настоящей диссертации является процесс построения моделей идентификации.

К предмету исследования относятся различные численные алгоритмы математической статистики, технологий Data Mining, нечётких вычислений, способы их применения для построения моделей идентификации, программные системы, выполняющие построение таких моделей.

В качестве методов исследования в работе используются методы математического анализа и математической статистики, математического моделирования на ЭВМ, искусственного интеллекта, системного анализа, теории трансляции, теории регуляризации, теории алгоритмизации, методы оптимизации, численные методы, а также методы объектно-ориентированного анализа и проектирования систем.

Научная новизна работы состоит в следующем:

1) Сформулирована обобщённая методика построения моделей идентификации, унифицирующая порядок восстановления математических зависимостей, автоматизирующая все основные этапы решения задачи (включая предварительную обработку данных, структурную и параметрическую идентификацию, оценку качества моделей) и поддерживающая вариативность и итеративность процесса моделирования.

2) Модифицирован метод регуляризации данных, позволяющий частично нейтрализовать влияние случайных шумов.

3) Разработаны и алгоритмизированы новые методы нелинейной параметрической идентификации и структурной идентификации, позволяющие автоматизировать ряд важных процедур идентификации и существенно расширить мощность моделирования.

4) Предложен комплексный критерий оценки качества моделей идентификации, помимо остаточной дисперсии учитывающий также информацию о сложности восстанавливаемой функции, что позволяет повысить адекватность моделей и улучшить их устойчивость за пределами обучающих выборок.

Достоверность и обоснованность научных положений и результатов, приведенных в диссертационной работе, обеспечиваются использованием апробированных на практике методов математического и компьютерного моделирования, искусственного интеллекта и аппарата нечётких вычислений, подтверждаются показателями эффективности работы созданного программного комплекса на тестовых массивах экспериментальных данных, а также результатами его функционирования при решении конкретных задач построения моделей по результатам наблюдений.

Основные положения диссертации, выносимые на защиту:

1) Обобщённая методика построения моделей идентификации.

2) Метод сглаживания исходных данных с использованием теории регуляризации.

3) Метод параметрической идентификации нелинейных моделей.

4) Метод комплексного оценивания качества моделей идентификации.

5) Метод структурной идентификации па базе генетического программирования и нечётких вычислений.

6) Программный комплекс построения моделей идентификации «Constellation», прошедший практическую апробацию и внедрение.

Практическая значимость и внедрение:

1) Обобщённая методика моделирования поддерживает вариативность и итеративность процесса моделирования, включает в себя все основные этапы предварительной обработки данных, структурной и параметрической идентификации и оценки качества моделей, что позволяет её использовать при решении задачи идентификации на ЭВМ, обеспечивает свободный доступ ко всем промежуточным результатам вычислений и предоставляет возможность гибкого управления ходом процесса моделирования.

2) Разработан интегрированный программный комплекс, автоматизирующий широкий набор процедур п подзадач, связанных с идентификацией. Разработанные методика и программный комплекс удовлетворяют стандарту CRISP-DM, результаты моделирования сохраняются в XML-подобный формат файлов, совместимый со стандартом PMML.

По итогам данного исследования были разработаны методические указания к выполнению лабораторных работ по курсу «Моделирование систем», разработанный программный комплекс был внедрён в учебный процесс кафедры САПР и ПК ВолгГТУ. Также программный комплекс прошёл апробацию и внедрение в Физико-техническом институте им. А.Ф. Иоффе Российской академии наук и ООО «ЛУКОИЛ-ВолгоградИИПИморнефть».

Программный комплекс прошёл регистрацию в Общеотраслевом фонде алгоритмов и программ (ОФАП), регистрационный номер 50200800656. Программный комплекс в целом и его отдельные составляющие могут применяться при решении задач инженерной практики, задач управления, научно-исследовательских и учебных задач, связанных с математическим моделированием физических процессов и технических систем.

Публикации. Основные положения диссертации отражены в 26 опубликованных работах. В том числе 3 статьи напечатаны в ведущих рецензируемых научных журналах и изданиях РФ, в которых ВАК рекомендует публикацию основных результатов диссертационных работ, получено 1 свидетельство об официальной регистрации программы для ЭВМ.

Апробация. Основные положения диссертации докладывались и обсуждались на научных семинарах кафедры «САПР и ПК» ВолгГТУ, а также на Международных, Всероссийских и региональных научных и научно-практических конференциях, в том числе «Информационные технологии в образовании, технике и медицине» (Волгоград, 2004); «Региональная конференция молодых исследователей Волгоградской области» (Волгоград, 2004, 2006, 2007); «Новые информационные технологии. Разработка и аспекты применения» (Таганрог, 2004); «Технологии Microsoft в теории п практике программирования» (Москва, 2005, Нижний Новгород, 2006); Intel Summer School Seminar 2008 (Intel, Нижний Новгород, 2008), «Прогрессивные технологии в обучении и производстве», (Камышин, 2008).

В первой главе диссертации приводится обзор предметной области, анализируются существующие алгоритмы, методы, стандарты и программные средства построения моделей идентификации, их достоинства, недостатки, ограничения и сферы применимости, ставится задача исследования.

Во второй главе формулируется обобщённая методика построения моделей идентификации; рассматриваются вопросы, касающиеся сглаживания исходных данных с применением аппарата теории регуляризации, параметрической идентификации нелинейных моделей, комплексной оценки качества моделей, структурной идентификации нелинейных зависимостей с использованием генетических алгоритмов и нечётких вычислений.

В третьей главе описываются разработанный программный комплекс, процесс построения моделей с его использованием, поддержка итеративности и вариативности процесса моделирования с использованием дерева {Документ - Операция}. Также освещаются практические аспекты реализации программной системы.

В четвертой главе показаны результаты работы созданного программного комплекса и отдельных его частей на реальных выборках данных, взятых из разных предметных областей.

Заключение диссертация на тему "Математическое и программное обеспечение процесса построения моделей идентификации"

4.4. ВОЗМОЖНЫЕ ОБЛАСТИ ПРИМЕНЕНИЯ. ВЫВОДЫ ПО ГЛАВЕ 4

Разработанный программный комплекс может быть применён для решения широкого спектра задач, связанных с анализом экспериментальных данных в естественнонаучных и технических направлениях:

1) статистический анализ данных, расчёт выборочных характеристик;

2) фильтрация аномальных значений и нейтрализация шумов путём регуляризации;

3) анализ на наличие функциональной связи между выбранными переменными;

4) определение значений параметров модели при уже известной её структуре;

5) определение возможных вариантов структуры математической модели, наиболее близко описывающих экспериментальные данные.

Результаты апробации программной системы при решении тестовых, практических и учебных задач показали, что с её помощью создаются адекватные модели, точность вычислений соответствует требованиям, предъявляемым на практике, за счёт автоматизации большого количества вычислительных процедур и поддержки итеративности и вариативности процесса моделирования повышена эффективность построения моделей идентификации.

ЗАКЛЮЧЕНИЕ

По итогам диссертационной работы получены следующие результаты.

1) Модифицирован этап предварительной обработки данных за счёт включения процедуры регуляризации, что позволяет частично разрешить дилемму о дисперсии и смещении и добиться лучшей устойчивости моделей за пределами обучающих выборок.

2) Разработан и реализован алгоритм параметрической идентификации нелинейных моделей с использованием методов глобальной оптимизации, менее чувствительный к поведению функции и её непрерывности, чем традиционные методы, основанные на численном решении систем нелинейных уравнений.

3) Предложен критерий комплексной оценки качества моделей идентификации, помимо информации об остаточной дисперсии учитывающий также сложность восстанавливаемой функции, что позволяет повысить адекватность моделей и улучшить их устойчивость за пределами обучающих выборок.

4) Разработан и реализован алгоритм структурной идентификации, позволяющий автоматизировать процесс восстановления структуры математических зависимостей.

5) Сформулирована обобщённая методика построения моделей идентификации, учитывающая вариативность и итеративность процесса моделирования, включающая в себя все основные этапы предварительной обработки данных, структурной и параметрической идентификации и унифицирующая общин ход процесса моделирования.

6) Создан программный комплекс, автоматизирующий решение широкого спектра подзадач, встающих при построении моделей идентификации: проверку исходных распределений на нормальность, нормализацию и стандартизацию данных, выявление и отсев аномальных значений, корреляционный анализ и сокращение пространства входных переменных, регуляризацию, параметрическую идентификацию линейных, внутрилинейных и сугубо нелинейных моделей, структурную идентификацию нелинейных моделей и т.д. Разработанные методика и программный комплекс удовлетворяют стандарту CRISP-DM.

7) Программный комплекс был проверен на контрольных тестовых примерах и прошёл апробацию путём решения практических задач.

Отметим также некоторые направления продолжения исследования по данной тематике, которые кажутся особенно важными и перспективными.

1) Повышение скорости сходимости алгоритма нелинейной параметрической идентификации. В реализации метода, представленной в настоящей диссертации, требуется порядка 16 ООО - 17 ООО итераций алгоритма квантового туннелирования при поиске глобального оптимума. Хотя на современных ЭВМ эти вычисления выполняются достаточно быстро, тем не менее, желательно сократить число итераций на один - два порядка. Кроме того, актуальным остаётся вопрос о сокращении числа перезапусков метода квантового туннелирования при построении тригонометрических моделей.

2) Распараллеливание алгоритма нелинейной параметрической идентификации. В связи с развитием высокопроизводительных вычислений, основанных на физически параллельном выполнении процессов, становится возможным, во-первых, распараллелить выполнение перезапусков метода квантового туннелирования (они не влияют друг на друга), во-вторых, запускать одновременно несколько поисковых процессов при построении сложных моделей.

3) Оценка моделей и структурная идентификация. Имеет также смысл продолжить исследования с целью улучшить оценку качества модели (см. раздел 2.4). Представляется также перспективным задействование для структурной идентификации аппарата нечёткой логики и муравьиных алгоритмов. Наконец, особенное внимание стоит обратить на распараллеливание процедуры, основанной на генетическом программировании и изложенной в разделе 2.5. Это позволит, во-первых, ускорить выполнения независимых друг от друга вычислений, а во-вторых, запускать одновременно эволюции сразу нескольких популяций.

Библиография Крыжановский, Дмитрий Иванович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Алгоритм имитации отжига Электронный ресурс. Режим доступа: http://math.nsc.ru/AP/benchmarks/UFLP/uflpsa.html

2. Алгоритмы и методы, Web-site Электронный ресурс. — Режим доступа: http ://al golist.manual ,ru

3. Барсегян А.А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP/ А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И.Холод. 2-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2007. -284 е.: ил.

4. Богачёв К.Ю. Методы решения линейных систем и нахождения собственных значений. М.: МГУ им. М.В. Ломоносова, 1998. - 145 с.

5. Большая советская энциклопедия. В 30 т. Т. 13. — 3-е изд. М.: Советская энциклопедия, 1973. - 608 с.

6. Большая советская энциклопедия. В 30 т. Т. 18. — 3-е изд. М.: Советская энциклопедия, 1974. — 631 с.

7. Большая советская энциклопедия. В 30 т. Т. 27. — 3-е изд. — М.: Советская энциклопедия, 1977. — 622 с.

8. Большая советская энциклопедия. В 30 т. Т. 8. 3-е изд. — М.: Советская энциклопедия, 1972.-591 с.

9. Грэхем Р., Кнут Д., Паташник О. Конкретная математика. Основание информатики: Пер. с англ. 2-е изд., испр. - М.: Мир, БИНОМ. Лаборатория знаний, 2006. - 703 е.: ил.

10. Давыдов Д.А., Фоменков С.А. Построение математических моделей методом идентификации. Методические указания к лабораторным работам. Волгоград: ВолгГТУ, 2002.

11. Доррер М.Г. Аппроксимация многомерных функций полутораслойным предиктором с произвольными преобразователями// Методы нейроин-форматики: Сборник научных трудов/ Под ред. д. ф-м. н. А.Н. Горбаня.- Красноярск: КГТУ, 1998. С. 130 - 152.

12. Дубнер П.Н. Справочник по статистическим распределениям Электронный ресурс. [2000]. — Режим доступа: http://algolist.manual.ru/maths/ matstat/index.php

13. Дюк В. Data Mining состояние проблемы, новые решения Электронный ресурс. - [2002]. - Режим доступа: http://inftech.chat.ru/it/database/ datamining/arl .html

14. Задача о законе влияния фактора: линейный регрессионный анализ Электронный ресурс. — [2007]. Режим доступа: http://www.ievbran.ru/ kiril/Librarv/Book 1 /content3 5 5/content3 5 5. htm

15. Заенцев И.В. Нейронные сети: основные модели: Учеб. пособие к курсу «Нейронные сети» для студентов 5-ого курса магистратуры к. электроники физического ф-та Воронежского государственного университета. -Воронеж, 1998.-76 с.

16. Использование С#. Специальное издание.: Пер. с англ. — М.: Издательский дом «Вильяме», 2002. — 528 с.

17. Камаев В.А., Колесников С.Г., Фоменков С.А. Физические эффекты из материалов заявок на открытия по физике. Часть 1: Учеб. пособие. -ВолгГТУ, Волгоград, 1994.-208 с.

18. Камаев В.А., Колесников С.Г., Фоменков С.А. Физические явления из материалов заявок на открытия по физике. Часть 2: Учеб. пособие. -ВолгГТУ, Волгоград, 1995. 224 с.

19. Камаев В.А., Петрухин А.В., Фоменков С.А. и др. Представление физических знаний для автоматизированных систем обработки информации: Монография. Волгоград: ТОО «Принт», 1998. - 152 с.

20. Кнут Д. Искусство программирования для ЭВМ. Т. 1. Основные алгоритмы: Пер. с англ. М.: Мир, 1976. - 734 с.

21. Кнут Д. Искусство программирования для ЭВМ. Т. 2. Получисленные алгоритмы: Пер. с англ. М.: Мир, 1977. - 723 с.

22. Кормен Т.Х., Лейзерсон Ч.И., Ривест Р.Л., Штайн К. Алгоритмы: построение и анализ, 2-е изд.: Пер. с англ. М.: Издательский дом «Вильяме», 2005. - 1296 е.: ил.

23. Корреляционный анализ: Учеб. пособие Электронный ресурс. [2001]. - Режим доступа: http://www.usvpu.ru/stiident/ziranova/513.htm

24. Краткий технический справочник. М., Л.: Государственное издательство технико-теоретической литературы, 1949. — 532 с.

25. Крыжановский Д.И. Программная система построения моделей идентификации// XII Региональная конференция молодых исследователей Волгоградской области, г. Волгоград, 13-16 ноября 2007 г.: Тезисы докладов/ ВолгГТУ и др. Волгоград, 2008. - С.203 - 204.

26. Крыжановский Д.И., Фоменков С.А. Построение математических моделей идентификации: метод, указания; ВолгГТУ. — Волгоград, 2008. -20 с.

27. Крыжановский Д.И., Фоменков С.А. Программная система построения моделей идентификации «Constellation». — М: ВНТИЦ, 2008. -№50200800656.

28. Курош А.Г. Курс высшей алгебры. 9-е изд. - М.: Наука, 1968. - 461 с.

29. Курс по генетическим алгоритмам Электронный ресурс. Режим доступа: http://www.ai.tsi.lv/ru/ga/

30. Ландау Л.Д. Лифшиц Е.М. Теоретическая физика: Учеб. пособ.: Для вузов. В 10 т. Т. III. Квантовая механика (нерелятивистская теория). 5-е изд., стереот. - М.: ФИЗМАТЛИТ, 2002. - 808 с.

31. Леоненков А.В. Нечёткое моделирование в среде MATLAB и fuzzy TECH. СПб.: БХВ-Петербург, 2003. - 736 е.: ил.

32. Леоненков А.В. Самоучитель UML. СПб.: БХВ-Петербург, 2001. -304 е.: ил.

33. Львовский Е.Н. Статистические методы построения эмпирических формул: Учеб. пособие для втузов. — 2-е изд., перераб. и доп. М.: Высш. шк., 1988.-239 е.: ил.

34. Мазуркин П.М. Статистическое моделирование. Эвристико-математи-ческий подход: Научное издание. Йошкар-Ола: МарГТУ, 2001. - 100 с.

35. Монтенбрук О., Пфлегер Т. Астрономия на персональном компьютере. -СПб.: Питер, 2002. 320 е.: ил.

36. Нелинейное оценивание/ Электронный учебник StatSoft Электронный ресурс. [2001]. - Режим доступа: http://www.statsoft.ru/homc/textbook/ modules/stnonlin.html

37. Пащенко Ф.Ф. Введение в состоятельные методы моделирования систем: Учеб. пособие: в 2-х ч. Ч. 1. Математические основы моделирования систем. М.: Финансы и статистика, 2006. - 328 е.: ил.

38. Петрович М.Л. Регрессионный анализ и его математическое обеспечение на ЕС ЭВМ: Практическое руководство. М.: Финансы и статистика, 1982.-199 е.: ил.

39. Препарата Ф., Шепмос М. Вычислительная геометрия: Введение: Перс, с англ. М.: Мир, 1989. - 478 с.

40. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим: Методические рекомендации Электронный ресурс. [2002]. — Режим доступа: http.7/ami.nstu.ru/~headrd/applied/

41. Рассел С., Норвиг П. Искусственный интеллект: современный подход, 2-е, изд.: Пер. с англ. М.: Издательский дом «Вильяме», 2006. - 1408 е.: ил.

42. Россиев А.А. Моделирование данных при помощи кривых для восстановления пробелов в таблицах// Методы нейроинформатики: Сборник научных трудов/ Под ред. д. ф-м. н. А.Н. Горбаня. — Красноярск: КГТУ, 1998.-С. 6-23.

43. Сборник задач по математике для втузов. Ч. 3. Теория вероятности и математическая статистика: Учеб. пособие для втузов/ Под ред. А.В.Ефимова. 2-е изд., перераб. и доп. - М.: Наука. Гл. ред. физ.-мат. лит., 1990.-428 с.

44. Системы счисления: код Грея Электронный ресурс. Режим доступа: http://alglib.sourccs.ru/articles/gravcode.php

45. След матрицы Электронный ресурс. [2008]. — Режим доступа: http://ru.wikipedia.org/wiki/След матрицы

46. Статистика: Множественная регрессия Электронный ресурс. — [2007]. -Режим доступа: http://www.vartel.ru/stat/wmnreg.html

47. Троелсен Э. С# и платформа .NET. Библиотека программиста. СПб.: Питер, 2007.-796 е.: ил.

48. Трофимова Т.И. Курс физики: Учеб. пособие для вузов. 5-е изд., стер. -М.: Высш. шк, 1998. - 542 е.: ил.

49. Турчак Л.И., Плотников П.В. Основы численных методов: Учебное пособие. 2-е изд., перераб. и доп. - М.: ФИЗМАТЛИТ, 2003. - 304 с.

50. Уоссермен Ф. Нейрокомпьютерная техника: теория и практика Электронный ресурс. — [1992]. Режим доступа: http://www.zipsites.ru/books/ neirokomp teklmika/

51. Фаулер М., Скотт1 К. UML. Основы. Пер. с англ. - Спб.: Символ-Плюс, 2002.- 192 е., ил.

52. Хайкин С. Нейронные сети: полный курс, 2-е изд., испр.: пер. с англ. -М.: ООО «И.Д. Вильяме», 2006. 1104 е.: ил.

53. Шипачёв B.C. Высшая математика. Учеб. для вузов. — 3-е изд., стер. — М.: Высш. школа, 1996. -479 е.: ил.

54. Штовба С.Д. Идентификация нелинейных зависимостей с помощью нечёткого логического вывода в системе MATLAB// Exponenta Pro, №2 (2)/2003.-С. 9- 15.

55. Элементы глобальной оптимизации. Алгоритм имитации отжига Электронный ресурс. Режим доступа: http://www.intxiit.m/department/expert/ neuro/8/l.html

56. Элементы глобальной оптимизации. Метод виртуальных частиц Электронный ресурс. Режим доступа: http://www.intuit.ru/department/expert/ neuro/8/3.html

57. Яхъяева Г.Э. Нечёткие множества и нейронные сети: Учебное пособие. -М.: Интернет-университет информационных технологий; БИНОМ. Лаборатория знаний, 2006. — 316 е.: ил., табл.

58. XML-схемы и данные// MSDN Library 2003 Электронный ресурс. -[2003]. Режим доступа: MSDN Library//ms-heb://MS.MSDNQTR. 2003FEB. 1049/vbcon/html/vburfW orkingWithXMLDataSchemas.htm

59. Ant Colony Optimization Электронный ресурс. [2008]. - Режим доступа: http://en.wikipedia.org/wiki/Ant colony optimization

60. Arsenin V.Y., Tiklionov A.N. Solutions for Ill-Posed Problems. Washigton, DC, W.H., Winston, 1977.

61. Branch and Bound Электронный ресурс. [2008]. - Режим доступа: http://en.wikipedia.org/wiki/Branchand bound

62. Chester D.L. Why two hidden layers are better than one, International Joint Conference on Neural Networks, 1990, vol. I, p. 265 268, Washington D.C.

63. CRISP-DM 1.0: Step-by-Step Data Mining Guide Электронный ресурс. -[2000]. Режим доступа: http://www.crisp-dm.org/CRISPWP-080Q.pdf

64. CRISP-DM Web-site Электронный ресурс. — Режим доступа: http:// www .crisp dm. org

65. Cross-Entropy Method Электронный ресурс. — [2007]. Режим доступа: http ://en. wikipedi a. org/ wild/Cro s s -entropy metho d

66. Friedman M., Lanholz G., Ramont D. et al. Complex Fuzzy Logic// IEEE Transactions on Fuzzy Systems. -2003, vol. 11, №4. P. 450 - 461.

67. Funahashi K. On the approximate realization of continuous mappings by neural networks, Neural Networks, 1989, vol. 2, p. 183 192.

68. Gamma-function Электронный ресурс. Режим доступа: http://algolist.manual.ru/maths/countfast/gamma function.php

69. Genetic Programming Inc. Web-site Электронный ресурс. Режим доступа: http://www.genetic-programming.com

70. Gibbs phenomenon Электронный ресурс. [2008]. - Режим доступа: http://cn.wikipedia.org/wiki/Gibbs phenomenon

71. Global Optimization Электронный ресурс. [2008]. - Режим доступа: http://en.wikipedia.org/wiki/Global optimization

72. Goldberg D.E. Genetic Algorithms in Search, Optimization and Machine Learning Электронный ресурс. Режим доступа: http://algolist.manual.m

73. Higham N.J. Exploiting Fast Matrix Multiplication within the Level 3 BLAS/ ACM Transactions on Mathematical Software, 16 (4): 352 368, 1990.

74. Hill Climbing Электронный ресурс. [2008]. - Режим доступа: http://en.wikipedia.org/wiki/Hill climbing

75. KDnuggets: Data Mining, Web Mining and Knowledge Discovery (Web-site) Электронный ресурс. Режим доступа: http://www.kdnuggcts.com100.kd-tree Электронный ресурс. [2008]. - Режим доступа: http://en.wikipedia.org/wiki/Kd tree

76. Kirsch A. An Introduction to the Mathematical Theory of Inverse Problems. -New-York, Springer-Verlag, 1996.

77. Lanczos Approximation Электронный ресурс. — [2007]. — Режим доступа: http://en.wikipedia.org/wiki/Lanczos approximation

78. Larose D.T. Data Mining Methods and Models. A John Wiley & Sons, Inc., Hoboken, New Jersey, 2005. - 322 p.

79. Larose D.T. Discovering Knowledge in Data: An Introduction to Data Mining. A John Wiley & Sons, Inc., Hoboken, New Jersey, 2005. - 222 p.

80. Little R.J.A., Rubin D.B. Statistical Analysis with Missing Data. Wiley, Hoboken, NJ, 1987.

81. Memetic Algorithm Электронный ресурс. — [2008]. — Режим доступа: http://en.wikipedia.org/wiki/Memetic algorithm

82. Monmarche N. Algorithmes de fourmis artificielles: applications a la classification et a l'optimisation. These pour obtenir le grade de doctuer de l'Universite de Tours. - Universite Franijois Rabelais, Tours, 2000. - 231 p.

83. Morozov V.A. Regularization Methods for Ill-Posed Problems. Boca Ration, FL, CRC Press, 1993.

84. National Space Science Data Center (Web-site) Электронный ресурс. -Режим доступа: http://nssdc.gsfc.nasa.gov/

85. Nearest neighbor search Электронный ресурс. — [2008]. — Режим доступа: http://en.wikipedia.org/wiki/Nearestneighborsearch

86. Nelder-Mead method Электронный ресурс. [2008]. - Режим доступа: http://en.wikipedia.org/wiki/Nelder-Mead method

87. Neumaier A. Complete Search in Continuous Global Optimization and Constraint Satisfaction, 94 p. Электронный ресурс. [2003]. - Режим доступа: http://www.mat.univie.ac.at/~neum

88. Newton's method and high order iterations Электронный ресурс. Режим доступа: http://algolist.manual.nj/maths/findroot/iterative.php

89. Numerical Recipes in С. The Art of Scientific Computing. — Second Edition, Cambridge University Press Электронный ресурс. — [2003]. Режим доступа: http://library. cornell.edu

90. Parallel Tempering Электронный ресурс. [2008]. — Режим доступа: http://en.wikipedia.org/wiki/Paralleltempering

91. Particle Swarm Optimization Электронный ресурс. [2008]. - Режим доступа: http://en.wikipedia.org/wilci/Particle swarm optimization

92. Piatt J.C., Scholkopf В., Shawe-Taylor J. et al. (2001) Estimating the support of a high-dimensional distribution. Neural Computation 13, 443 1471.

93. PMML Version 3.2 Электронный ресурс. [2007]. - Режим доступа: http ://www. dmg.org/v3 -2/

94. Quantum Annealing Электронный ресурс. [2008]. - Режим доступа: http://en.wilcipedia.org/wiki/Quantumannealing

95. Simulated Annealing Электронный ресурс. [2008]. -http://en.wikipedia.org/wiki/Simulated annealing

96. Stirling's Approximation Электронный ресурс. [2008]. - Режим доступа: http://en.wikipedia.org/wild/Stirling%27s approximation

97. Stochastic Hill Climbing Электронный ресурс. [2008]. - Режим доступа: http://en.wikipedia.org/wiki/Stochastic hillclimbing

98. Stochastic Tunneling Электронный ресурс. [2008]. - Режим доступа: http://en.wikipedia.org/wiki/Stochastictunneling

99. The Gartner Group Web-site Электронный ресурс. — Режим доступа: http://www.gartner.com

100. The Technology Review Ten, MIT Technology Review, January / February, 2001.

101. Voronoi diagram Электронный ресурс. [2008]. - Режим доступа: http.V/en. wikipedia.org/wiki/Voronoidiagram

102. Wang J., Wu X., Zhang C. et al. SVM-OD: SVM Method to Detect Outliers// Studies in Computer Intelligence, vol. 9, Foundations and Novel Approaches in Data Mining. Springer-Verlag Berlin Heidelberg, 2006. - P. 129 -141.

103. Weise Т. Global Optimization Algorithms Theory and Application, 2nd Ed, 728 p. Электронный ресурс. — [2008]. — Режим доступа: http://www.it-weise.de