автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Модели, алгоритмы и комплекс программ исследования многопараметрических систем

кандидата технических наук
Мокшин, Владимир Васильевич
город
Казань
год
2010
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Модели, алгоритмы и комплекс программ исследования многопараметрических систем»

Автореферат диссертации по теме "Модели, алгоритмы и комплекс программ исследования многопараметрических систем"

На правах рукописи

МОКШИН Владимир Васильевич

МОДЕЛИ, АЛГОРИТМЫ И КОМПЛЕКС ПРОГРАММ ИССЛЕДОВАНИЯ МНОГОПАРАМЕТРИЧЕСКИХ СИСТЕМ

Специальность: 05.13.18-математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

1 Б ЛЕН 20'0

Казань-2010

004617440

Работа выполнена в Казанском государственном техническом университете

им. А. Н. Туполева

Научный руководитель: кандидат технических наук,

доцент Якимов Игорь Максимович

Официальные оппоненты: доктор технических наук,

профессор Захаров Вячеслав Михайлович

доктор технических наук, профессор Латыпов Рустам Хафизович

Ведущая организация: Самарский государственный аэрокосмический

университет им. С.П. Королева, г. Самара

Защита диссертации состоится «У?» ЛУ 2010 года в часов на заседании диссертационного совета Д 212.079.01 в Казанском государственном техническом университете им. А.Н. Туполева по адресу: 420111, г. Казань, ул. К. Маркса, д. 10, зал заседаний Учёного совета.

С диссертацией можно ознакомиться в библиотеке Казанского государственного технического университета им. А.Н. Туполева по адресу: 420111, г. Казань, ул. К. Маркса, д. 10. Автореферат диссертации размещен на сайте Казанского государственного технического университета им. А.Н.Туполева www.kai.ru.

Автореферат разослан « /Яу> X.У _ 2010 года.

Учёный секретарь

диссертационного совета,

доктор физико-математических наук,

профессор

П.Г. Данилаев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В зависимости от характера многопараметрических систем используются различные виды моделирования, такие как детерминированные и стохастические, статические и динамические, дискретные, непрерывные и дискретно-непрерывные и т.д. В качестве многопараметрических систем могут рассматриваться как технические, биологические и экономические системы, так и производственные предприятия, и социологические объекты (город, район, регион и т.д.). Моделирование многопараметрических систем предполагает исследование объектов на их моделях.

Существуют различные подходы, направленные на формирование моделей, описывающих функционирование дискретных многопараметрических систем, поведение которых обуславливается большим числом внешних признаков. При всем существующем разнообразии методов Data Mining, ориентированных на исследование многопараметрических систем, практически все они сталкиваются с общей трудностью - вопросом отбора значимых для модели входных признаков. Особенно актуальна эта проблема при построении регрессионных моделей. Это связано с тем, что сформированные модели адекватны при интерполяции, в то время как на этапе экстраполяции эти модели уже не пригодны ввиду значительных ошибок прогноза.

Исследованию проблем создания методики определения оптимальных значений показателей системы и вопросам моделирования многопараметрических систем посвящены работы следующих ученых: Айвазян С.А., Бусленко Н.П., Глова В.И., Заде JLA., Захаров В.М., Ивахненко А.Г., Сиразетдинов TiC, Царев Р.Ю., Якимов ИМ, Бастергян A A., Larose D. Т., Chipman Н. A., Cantu-Paz Е., Mu Zhu., Dash М., Miller А., Yang J., Ханк Д. Э., и т.д.

Однако, в этом направлении существуют недостаточно исследованные вопросы и нерешенные задачи, имеющие теоретическое и практическое значение. Например, использование параллельных генетических алгоритмов отбора значимых признаков и определения оптимальных значений показателей системы. Актуальной задачей является разработка адекватных многопараметрических моделей, эффективных алгоритмов и реализующих их программных комплексов. Решению этой задачи посвящена настоящая диссертация.

Объект исследования. Модели и методы моделирования многопараметрических систем.

Предмет исследования. Методы, модели, алгоритмы формирования нелинейной регрессионной модели многопараметрической системы.

Научная задача: разработка новых методов и алгоритмов построения нелинейных регрессионных уравнений для моделирования многопараметрической системы, многокритериального поиска решения и программного комплекса формирования нелинейной регрессионной модели для анализа многопараметрической системы и определения оптимальных показателей системы.

Цель работы: создание методов, моделей, алгоритмов и программных средств формирования нелинейной регрессионной модели при решении задачи отбора значимых признаков для повышения эффективности построения моделей многопараметрических систем и оценка их качества (эффективности).

В соответствии с поставленной целью в работе решались следующие задачи:

1. Анализ проблем, возникающих при применении методов формирования модели для многопараметрической системы.

2. Разработка методики формирования нелинейной регрессионной модели многопараметрической системы.

3. Разработка метода и алгоритма формирования модели многопараметрической системы на базе параллельного генетического алгоритма.

4. Разработка алгоритма определения оптимальных значений показателей системы при изменении входных признаков на основе нелинейной регрессионной модели.

5. Разработка комплекса методик и программ, реализующих предлагаемые методы и алгоритмы.

Методы исследований.

В работе использовались положения: теории систем, теории вероятности, теории математической статистики, нечеткой логики, теории эволюционного моделирования и теории оптимизации. Теоретические исследования сопровождались разработкой математических моделей, реализованных на ЭВМ и в виде программных средств.

Научная новизна работы:

1. Разработан метод формирования нелинейной регрессионной модели для исследования многопараметрической системы на основе сочетания многофакторной нелинейной регрессионной модели, метода группового учета аргументов, численного метода отбора значимых признаков и нечеткой логики.

2. Разработан численный метод отбора значимых признаков и формирования структуры регрессионных зависимостей на основе параллельного генетического алгоритма.

3. Разработан численный метод определения требуемого количества параллельных эволюционных путей для отбора значимых признаков.

4. Разработан модифицированный алгоритм определения оптимальных значений результативных показателей на основе полученной нелинейной регрессионной модели с использованием нечеткой логики н параллельных вычислений.

Достоверность полученных результатов. Предложенные в диссертационной работе модели и алгоритмы обоснованы теоретическими решениями и не противоречат известным положениям других авторов. Практическая апробация и внедрение на промышленном предприятии и предприятии почтовой связи результатов работы подтвердили эффективность формирования полиномиальной модели многопараметрической системы и определение наилучших значений показателей системы.

Практическая ценность результатов работы полученных научных результатов в диссертации состоит в том, что в ней дана методика моделирования многопараметрической системы. Разработанные алгоритмы позволяют тестировать разработанный метод на требуемое количество параллельных эволюционных путей, определять оптимальные параметры генетических алгоритмов отбора значимых признаков. Расширяется возможность определения оптималь-

ных значений результативных показателей нелинейной регрессионной модели многопараметрической системы. Модели, алгоритмы и комплекс программ является инструментальным средством для моделирования многопараметрических систем и исследования свойств нелинейных регрессионных моделей с использованием генетического моделирования, нечеткой логики и параллельных вычислений.

Реализация результатов работы. Теоретические и практические результаты диссертационной работы, в том числе, их программная реализация, были внедрены на машиностроительном предприятии «СИЗ» (г. Елабуга) и Елабужском межрайонном почтамте (г. Елабуга). Отдельные результаты работы были также использованы в учебном процессе кафедры Автоматизированных систем обработки информации и управления КГТУ им. А.Н.Туполева. Разработанные в диссертационной работе модели и методы также могут быть использованы для повышения эффективности моделирования и в других организациях.

Апробация работы.

Основные положения диссертационной работы докладывались, обсуждались и получили положительную оценку на конференциях: Международная конференция «Туполевские чтения» (г. Казань, 2004, 2005, 2006, 2008, 2009); Всероссийская научная конференция «Робототехника, мехатроника и интеллектуальные системы» (г. Таганрог, 2005); Всероссийский конкурс-конференция «Технологии Microsoft в теории и практике программирования» (г. Санкт-Петербург, 2007, 2008); Всероссийский конкурс-конференция «Технологии Microsoft в теории и практике программирования» (г. Нижний Новгород, 2007); Всероссийская конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (г. Новосибирск, 2008); Международная молодежная научная конференция «XXXIV Гагарин-ские чтения» (г. Москва, 2008); Всероссийская научно-практическая конференция «Наука и профессиональная деятельность» (г. Нижнекамск, 2008, 2009 ,2010); Международная конференция-семинар «Высокопроизводительные параллельные вычисления на кластерных системах» (г.Казань, 2008); Научно-практическая конференция студентов и аспирантов «Наука и инновации в решении актуальных проблем города» (г. Казань, 2008); Международная научно-практическая конференция «Инфокоммуникационные технологии глобального информационного общества» (г. Казань, 2008, 2009).

Публикации.

Основные результаты диссертационной работы опубликованы в 26 печатных работах, в том числе 5 статей, две из которых в печатных изданиях, рекомендованных ВАК и 21 тезиса докладов.

На защиту выносятся следующие результаты:

1. Метод формирования нелинейной регрессионной модели многопараметрической системы.

2. Численный метод отбора признаков и формирования структуры регрессионных зависимостей на основе параллельного генетического алгоритма.

3. Алгоритм поиска наилучшего количества параллельных эволюционных путей для отбора значимых признаков.

4. Модифицированный алгоритм поиска оптимальных значений результативных показателей методом упорядоченного предпочтения через сходство с идеальным решением.

5. Комплекс программ, реализующих предлагаемые методы и алгоритмы. Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения и списка использованной литературы, включающего 84 наименование, изложена на 189 страницах машинописного текста, содержит 64 рисунка и 41 таблиц, приложение на 25 страницах.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность, научная новизна и практическая значимость работы, изложены цели, задачи и методы диссертационного исследования.

В первой главе рассматриваются вопросы и проблемы моделирования многопараметрических систем. Анализируются методы формирования регрессионных моделей многопараметрических систем. Обосновывается необходимость моделирования дискретных многопараметрических систем с использованием эволюционного моделирования. Ставятся задачи по разработке методики формирования нелинейной регрессионной модели многопараметрической системы и разработке алгоритма поиска оптимальных значений результативных показателей на основе полученных регрессионных зависимостей с использованием параллельных вычислений, генетического моделирования и нечеткой логики. Эти задачи вытекают из необходимости отбора наиболее существенных признаков для моделирования дискретных многопараметрических систем и определения оптимальных значений показателей системы.

Моделирование многопараметрических систем основано на данных о системе за некоторый промежуток времени. Существование «скрытых» знаний обусловлено большими объёмами накопленных данных. Для их анализа используются специальные методы Data Mining: статистические пакеты, нейронные сети, эволюционные методы, алгоритмы поиска логических связей и закономерностей, а также гибридные модели, сочетающие в себе достоинства различных технологий.

Основные этапы данного процесса:

1) предварительный анализ исходного набора данных - анализ и формулировка задачи исследования, создание наборов данных, выделение обучающей выборки;

2) подготовка (предобработка) данных заключается в получении качественных, корректных данных с точки зрения методов их анализа;

3) преобразование (трансформация) данных осуществляется путём их сглаживания, агрегирования, обобщения, нормализации;

4) data mining - использование инструментальных средств для поиска закономерностей в данных;

5) оценка (постобработка) данных - анализ построенных математических моделей и интерпретация полученных результатов.

При всем существующем разнообразии методов Data Mining, практически все они сталкиваются с общей трудностью - вопросом отбора значимых для модели входных признаков (в зарубежной литературе такая проблема известна как feature selection). Сокращение числа независимых переменных призвано уменьшить размерность модели не только с тем, чтобы удалить из нее все незначащие признаки, ненесущие в себе какой-то полезной для анализа информации, и тем самым упростить модель, но и чтобы устранить избыточные признаки. Дублирование информации в составе избыточного признака не просто не улучшает качество модели, но и порой, наоборот, ухудшает его (как, например, в случае с мультиколлинеарностью).

В общем виде математическое описание исследуемой системы может быть выражено зависимостью {у}=Ф[{х},{г}], где {у} = {угу2,:.,ук) - множество векторов выходных переменных (результативных показателей) системы. В качестве выходных переменных, как правило, используются показатели, отражающие цели исследования. Показатели выражаются математическими зависимостями в виде регрессионных выражений. В общем случае множество входных переменных (признаков) подразделяют на классы: {х} = (хрх2,...,хА/) - множество векторов входных контролируемых управляемых независимых признаков (факторов), действующих на процессы; {z} = (z1,i2,...,zi) - множество векторов входных контролируемых, но неуправляемых независимых признаков; Ф - оператор системы, определяющий связь между указанными величинами.

После определения совокупности функциональных зависимостей результативных показателей от входных признаков возникает необходимость поиска оптимальных значений показателей системы. Необходимо учитывать ограничения на сами функции и входные признаки, а также поиск оптимального решения среди множества альтернатив с учетом многокритериальности.

Одной из важнейших задач при разработке нелинейной регрессионной модели многопараметрической системы является отбор значимых признаков и определение оптимальных значений показателей на основе разработанной модели. Традиционные методы эффективны для отбора признаков при поиске регрессионной зависимости при интерполяции. А когда речь идет об использовании полученной модели для прогнозирования (экстраполяции), то ошибка прогноза в разы увеличивается. Эти причины актуализируют необходимость разработки методов, алгоритмов и реализующих их программных комплексов формирования нелинейной регрессионной модели многопараметрической системы и определения оптимальных значений показателей с использованием полученной модели.

Глава 2 посвящена разработке метода формирования нелинейной регрессионной модели исследования многопараметрической системы. Разработан численный метод, в котором запускается несколько относительно коротких параллельных эволюционных путей отбора признаков. Определяется частота появления каждого признака относительно всех параллельных эволюционных путей. В работе алгоритма используется «ранняя остановка», как в нейронных сетях. Это позволяет не допустить «переобучения» модели, исключить незначимые признаки и уменьшить ошибку прогноза. Наиболее вероятно, что если при-

знак действительно важен, тогда частота его появления на всех или большинстве эволюционных путях будет высокой. Если признак неважен, то частота его появления будет высока только для некоторых эволюционных путей. В результате средняя частота появления признаков на всех параллельных эволюционных путях будет высока только для признаков, которые действительно важны. В ходе выделения значимых признаков определяется также необходимое количество эволюционных путей.

После выделения совокупности наиболее существенных признаков при формировании модели исследования многопараметрической системы используется рекурсивно-регрессионная самоорганизация на основе метода группового учета аргументов (рис. 1); на этапе оптимизации и поиска решения - метод упорядоченного предпочтения по сходству с идеальным решением. Под иде-

Рис. 1. Блок-схема алгоритма формирования регрессионной модели с учетом изменения системы во времени (ГА - генетический алгоритм со стандартными генетическими операторами, ГП - генерация популяции, ВВП - вычисление весов признаков, В - количество параллельных эволюционных путей), альным решением понимается результат оптимизационной задачи для каждого из показателей системы. Реализация отбора значимых признаков и формирование регрессионной модели в виде обобщенного полинома Колмогорова-Габора с учетом изменения системы во времени схематически представлена на рис. 1.

Полином Колмогорова-Габора имеет вид: м мм МММ

У] = % + + Е +1X Иалвх>Чхе (1)

/=1 /=1А=; 1=1

где вектор весовых коэффициентов ¡лм У"й функ-

ции (1) признаков находится по формуле:

Aj=(Xr-X)-\xr-Yj),je\,K.

Здесь X - матрица значений членов полинома (1), V ■ - матрица значений у-го результативного показателя у у Например, , ajhjxixh, ajhsjxixhxk и т.д. являются членами полинома (1).

На первом этапе в блоке 1 (рис.1) происходит сбор информации по признакам Xj, ie\,M и по откликам v,, je^K- Для рассматриваемого машиностроительного предприятия M = 23, а для предприятия почтовой связи количество входных признаков получилось M = 8+72. Причем 8 признаков мы можем менять, а остальные 72 устанавливаются фиксировано, т.е. значения 72 признаков менять предприятие почтовой связи не может. С учетом особенностей рассматриваемого объекта исследования количество входных признаков может быть увеличено. Отбор значимых признаков осуществляется в блоках 1 и 2, состоящего из этапа настройки и этапа отбора значимых признаков. На этапе настройки происходит поиск наилучшего количества параллельных эволюционных путей В и требуемое количество поколений t. Наилучшим количеством поколений будет считаться такое, при котором энтропия популяции будет < 0.05. Далее происходит отбор значимых признаков с помощью параллельного генетического алгоритма при заданном количестве эволюционных путей В и количеством поколений t по критерию обобщенной перекрестной проверки F(co).

После отбора значимых признаков запускается алгоритм формирования структуры регрессионного полинома (1) с учетом изменения системы во времени. Его составляют следующие блоки: генерации нелинейных регрессионных моделей, оценки качества моделей, выбора моделей, анализа и контроля. В блоке анализа и контроля осуществляется сбор данных о признаках и выдачу информации о структуре регрессионных моделей либо запуск анализа и отбора значимых признаков. Генерация модели продолжается до тех пор, пока не достигнуто минимальное значение критерия регулярности, либо его оценка <0,05 :

1 ""Р"" Г Г)

(2)

пров '

где «пров+иобуч=" ~ количество временных наблюдений признаков, yt-значение результативного показателя в /-ой точке проверочной выборки л,1р0Е, V, - вычисленное значение по сгенерированному полиному в / -ой точке проверочной выборки «пров в соответствии с полиномом вида(1).

Алгоритм отбора значимых признаков и алгоритм формирования многомерного нелинейного регрессионной модели (1) представлены в разделах 2.4.2.5.

Параллельный генетический алгоритм отбора значимых признаков и определение наилучшего количества эволюционных путей.

Идея отбора значимых признаков заключается в том, что вместо одного длинного эволюционного пути запускаются несколько относительно коротких

параллельных эволюционных путей Б. Для каждого belJB запускается свой эволюционный путь отбора признаков с количеством поколений N и размером популяции m. Пусть P(b,t) - есть f-oe поколение популяции на b - ом эволюционном пути, где /е 1,N, bel,В. Требуется определить частоту появления i-го входного признака по всем параллельным эволюционным путям Ье\В.

Алгоритм отбора значимых признаков с количеством параллельных эволюционных путей В :

Входные данные:

Yj - матрица nxl (временные наблюдения у-го результативного показателя функционирования системы);

X - матрица пхМ (временные наблюдения признаков xjt iel,M);

m - размер популяции;

iV — количество поколений;

В - количество параллельных эволюционных путей;

у, - вероятность мутации особи поколения t(по умолчанию v, = 1 IM).

Шаг 1: Назначение количества параллельных эволюционных путей в.

Шаг-2: Для каждого параллельного эволюционного пути bei,В выполняются шаги 3,4.

Шаг 3: Пусть P(b,N) - результат генетического алгоритма с параметрами

(Y, X, m, N, v().

В качестве функции приспособленности в генетическом алгоритме используется критерий обобщенной перекрестной проверки:

где Н = Ха)(ХщХ[а) tr(H) - элемент главной диагонали матрицы Н, соответствующий fei,«, п - количество временных наблюдений признаков, q -количество входных признаков, используемых для описания результативного показателя уjelji, со - особь, формируемое сочетание входных признаков,

представленное в виде двоичной записи. Здесь 1 соответствует отобранному фактору, а 0 - фактору, которьм мы пренебрегаем.

Шаг 4: Вычисляется r{i,b) - вес каждого признака хп /<= \,М на b - м генетическом пути, который характеризует частоту его появления, 1 т

«Я v J

где а)р еP(jb,N), рейт, 0<r(i,b)<l.

Шаг 5: Определение частоты появления ri входного признака i относительно всех параллельных эволюционных путей bel, В,

Шаг 6: Сортировка частоты появления признаков вектора п в порядке убывания и определение максимального расстояния ¡1 между частотами п и /■¡•+1, ¡е\,М-\,

Шаг 7: Вычисление ¿тах, которое характеризует максимально допустимое расстояние для отбора признаков между упорядоченными в порядке убывания частотами появления признаков п и гм, ; = 1,Л/-1,

¿тах (5)

\14 В

где а = 1,645.

Шаг 8: Если выполняется условие (6), то переходим к шагу 9, иначе все признаки будут считаться значимыми.

¿^тах- (6)

Шаг 9: Среди отсортированных частот появления признаков вектора п, для дальнейшего исследования выбираются те признаки, веса которых находятся выше максимального расстояния с/. Отобранные признаки включаются в массив Д(0, где /е1Д/ (см. рис.1). Если признак включается в модель, то в соответствующей позиции массива будет стоять 1, иначе-0.

Выходные данные:

Л(0 - массив отобранных признаков.

Основная идея поиска оптимального количества параллельных эволюционных путей В заключается в следующем. Алгоритм отбора значимых признаков запускается и раз для каждого количества параллельных эволюционных путей Ье1,В. В результате определяется некоторый трехмерный массив частоты появления признаков г(М,В,и) для каждого входного признаках„ ¡е1 ,М при каждом количестве параллельных эволюционных путей Ье\,В с учетом повторных запусков алгоритма отбора признаков (рис. 2).

г(1,1,и)

г(М,В.и)

г(М,1,1)

г(М,1,1))

Рис. 2. Схематическое представление трехмерного массива частоты появления входных признаков дг;, для результативного показателя у

Например, при В=1 и ¡7=1 получается массив частот г(М,1,1). Если этот алгоритм отбора признаков повторять и раз, то сформируется массив частот г(МХи). Для каждого входного признака /е 1 ,М из каждой выборки г(/,!,£/)

определяется Дг = гтах - гтЬ и формируется массив Дг. После чего из получившегося массива Дг также определяются 4гт1п и Лгтах. Аналогичные рассуждения применяются для каждого количества параллельных эволюционных путей 2>еи?.

Наилучшим количеством параллельных эволюционных путей будет считаться такое число В, при котором разброс частот появления признаков будет наименьшим.

ЛГтах-Лгт1.п-»тт. (7)

В случае, когда совокупность отобранных признаков становится стабильной, увеличение количества параллельных эволюционных путей прекращается.

Отобранные признаки и количество параллельных эволюционных путей передаются в блок анализа и контроля. Далее, запускается алгоритм формирования структуры многомерной регрессионной модели с учетом её изменения.

Формирование структуры регрессионной модели

Формирование регрессионной модели (1) методом группового учета аргументов можно описать в виде генетического алгоритма, используя стандартные генетические операторы. Описание популяции Р2(г2) с номером поколения (2 можно представить в виде в - матрицы возможных степеней входных признаков, А - матрицы коэффициентов регрессионных моделей претендентов и \У -матрицы координат мономов полинома регрессионной модели. Элементы матрицы XV указывают на номера строк матрицы С. В этом случае каждая особь £ е Р2(12) при ¡' € 1,т2 и у е 1,/ популяции размером т2 содержит информацию о структуре регрессионной модели (1) для Уj,jel,K, (см. рис. 3) состоит из количества возможных членов регрессионной модели - 1.

<*ю "а а,г ... а„ Д2

Щ, Щ

Рис. 3. Схематическое представление особи , ¿е 1 ,т2 содержащей информацию о структуре регрессионной модели для результативного показателя у На рис. 3 о(у - коэффициенты регрессионной модели, которые образуют матрицу А. Значения м^- являются элементами матрицы \У, а Д2 - критерий регулярности (2). Таким образом, модель-претендент или регрессионная модель (1) с учетом матриц в, А, можно представить в виде формулы: /-1 т-\

УJ=УLa}^I{xq+\

8щН# . —

(8)

/=0 9=0

где / = - количество членов регрессионного полинома, вычисляемого по формуле:

где М-число входных признаков, р - степень полинома (1). В работе используются полиномы со степенью р = 2.

Разработан алгоритм формирования структуры регрессионной модели, заданной степенью р:

Входные данные:

У - - матрица размерности п х 1 (наблюдения одного из } е 1, к результативных показателей функционирования системы);

X - матрица размерности п х М (наблюдения входных признаков х,-, ¿еШ);

Щ,В) - матрица отобранных признаков с количеством параллельных эволюционных путей В и количеством входных признаков /е1 ,М\

т-, - размер популяции;

1',2 - вероятность мутации особи поколения г.

Шаг 1: Деление выборки временных наблюдений признаков на две части:

обучающую по6уч и проверочную ипров, т.е. " = «обуч +«пр0в- Генерация полиномов осуществляется на основе обучающей выборки и^ ;

Шаг 2: Формирование начальной популяции размером т2.

Шаг 3: До тех пор, пока значение критерия регулярности А2 уменьшается, генерация и изменение структуры моделей (8) продолжается (выполняются шаги 3-5).

Шаг 4: На проверочной выборке лпров для каждой модели (8) вычисляется

критерий регулярности Д2, полиномы сортируются в порядке убывания Д2 и отбирается половина полиномов с наименьшими значениями Д-.

Шаг 5. Выполнение генетических операторов.

Выходные данные:

Матрицы С, А, и номер отобранной модели с наименьшим критерием регулярности Д2.

На получаемые регрессионные модели накладываются следующие ограничения:

1. Количество степеней свободы:

где - количество переменных ву'-ой регрессионной модели.

2. Отношение стандартной ошибки к среднему значению должно быть не более 0,05:

3. Уровень значимости множественного коэффициента детерминации, показывающего в долях от единицы насколько изменение переменных, вошедших в уравнение регрессии, определяет изменение результативного показателя, не должен превышать 0,05:

п-д]>1; у = 1,ЛГ,

(9)

(10)

Pr 2< 0,05; j = \,K.

(И)

4. Уровень значимости регрессионной модели по критерию Фишера должен быть не более 0,05:

5. Все коэффициенты регрессионной модели должны иметь уровень значимости по критерию Стьюдента не более 0,05.

После того как будет получена математическая модель для результативных показателей = fj(xvx2,...,xM), j e ï,K, состоящая из системы нелинейных регрессионных моделей, выполняется поиск оптимальных значений показателей системы с помощью модифицированного метода упорядоченного предпочтения через сравнения с идеальным решением, уменьшая к- мерное пространство целей до двумерного (Заде JI.A., Царев Р.Ю.). Наилучшее решение имеет наикратчайшее расстояние до наилучшего идеального решения (PIS) и наибольшее расстояние до наихудшего идеального решения (NJS). Задача становится нечеткой двуцелевой в виду возникающих конфликтов между целями и ввода формулировок «как можно ближе к PIS» и «как можно дальше от NIS». Для достижения компромисса при решении полученной задачи используется оператор Беллмана-Заде. Под «идеальным» решением понимается результат решения задачи оптимизации для каждого j регрессионного полинома >>; = fj, jel,K с

ограничениями на входные признаки и результативные показатели.

Задача многоцелевого поиска оптимальных значений признаков и показателей системы рассматривается в разделе 2.6 и представляется в виде: тт[/[(х),/2(*),...,/;,(>)], где xeRM, К- количество целей, функции Дх)у,

j=UC. Принцип компромисса имеет вид: /* = {/1*,/2*,...,//i*}, f={fl~J2~>-■«,//>• гДе //* = mij)//(*), Vie/,и = V/eJ;

fi = max/j-M, Vi e 7, и fj =mip//W, V/ e J ;

f(x), ¿€/ - цель для минимизации типа «стоимость», fj(x), jeJ - цель для максимизации типа «выгода»; /оУ = 0; кеК, К = lu J. В результате /* является вектором наилучших индивидуальных решений для всех К целей и называется PIS. f - вектор наихудших возможных решений для всех К целей и называется NIS.

В третьей главе проводится исследование метода формирования полиномиальной модели, влияния количества параллельных эволюционных путей на качество отбираемых признаков. В разделе 3.1. приводится описание разработанного программного комплекса. Анализируются параметры, характеризующие алгоритм формирования нелинейной регрессионной модели многопараметрической системы. На рис. 4 приведены результаты вычислений энтропии популяции с учетом ситуации, когда копии особей допускаются в популяции и в случае, если копии особей не допускаются.

(12)

Рщ <0,05; i = 0,qj ; j = 1,ЛГ.

(13)

12 3 4 5 6 7 В S 10 11 12 13 Н 15 16 17 18 19 20

Номер поколения, N

-е-1 эксперимент -а- 2 эксперимент -А- 3 эксперимент -*— 4 эксперимент -ж- 5 эксперимент 6 эксперимент

Рис. 4. Изменение энтропии с учетом изменения энтропии популяции. В экспериментах 1, 2, 3 копии особей в популяции не допускаются. В экспериментах 4, 5, 6 копии особей в популяции допускаются Из рисунка 4 видно, что после 10-го поколения энтропия для первых трех экспериментов приблизительно равна 0,13, т.е. численно стабильна. В то время, как для 4-6 экспериментов энтропия поколений численно стабильна уже после 7-го поколения и равна 0, т.е. появление того или иного признака определено. Результаты определения частот появления признаков для различного количества параллельных эволюционных путей приведены на рис. 5.

1,2 1

0,8 0,6 0,4 0,2 О

Оф

................

........................я............5С.........

........х4

Во*

5 10 15 20 Номера факторов

о Ь=1 о Ь=3 д b=5 х Ь=7

А

ЛЬ,

* о

8*

а)

5 10 15 20 Номера факторов

фЬ=25 оЬ=40 дЬ=50 xb=70

Рис. 5. Степени важности п входных факторов дг,-, i = 1,21 для описания некоторого результативного показателя у3 а) для количества эволюционных путей В = 1, 3,5, 7 б) для количества эволюционных путей В = 25,40,50, 70 Из рис. 5. видно, что при небольших значениях В разброс весов входных признаков существенный. В то время как при дальнейшем увеличении В соответствующие веса г/, / = 1,21 меняются-незначительно, что позволяет выделять значимые признаки.-

Проводится исследование модифицированного метода упорядоченного предпочтения сравнением с идеальным решением. Сравнение разработанного метода формирования модели многопараметрической системы с другими методами для одного из результативных показателей проводится по коэффициентам множественной детерминации (А2):

Рис. 6. Сравнение разработанного метода с другими методами отбора признаков по критерию множественной детерминации

На рис. 6 для каждого рассматриваемого метода приведены значения й2 на этапе формирования и тестирования (прогнозирования) регрессионного полинома, используя ло6уч + Лпр0В и "05уЧ + "пров+ "тест временных интервалов соответственно.

В результате моделирования многопараметрической системы показана эффективность разработанного метода по критерию множественной детерминации формирования нелинейной регрессионной модели и возможность его использования для прогнозирования, так как с учетом временной выборки "обуч+ "пров + "тест коэффициент множественной детерминации изменился незначительно и р , < о,05 ■ я/ -

В четвёртой главе рассматривается применение разработанных в диссертации математических методов для машиностроительного предприятия и межрайонного почтамта.

Для формирования модели функционирования производственного предприятия выбраны в качестве входных внешних признаков / е 1,23 и результативных показателей у^ у е 1,10 параметров. При исследовании использовались

квартальные значения отобранных признаков, а конечной задачей являлось увеличение выручки от продажи товаров, продукции, работ и услуг. Была получена нелинейная регрессионная модель многопараметрической системы, включающая систему из десяти регрессионных уравнений. Такое количество полиномов соответствует числу отобранных результативных показателей У}, /еЦО.

В результате отбора значимых признаков для каждого из результативных факторов Уj, у е 1,10 получены значения частот ;е1,23 появления каждого

входного признака г е 1,23 в каждом из эволюционных путей. Отбор входных признаков проводился с размером популяции т = 20, количеством поколений N = 8, при уровне мутации особи V = 0.05 и количестве параллельных эволюционных путей В - 25 . Количество параллельных эволюционных путей В = 25 и количество поколений N = 8 были получены в результате использования алго-

ритма поиска требуемого количества параллельных эволюционных путей и алгоритма определения требуемого количества поколений.

Рассматриваются этапы отбора значимых признаков, описывающих функционирование машиностроительного предприятия, формирование структуры регрессионных зависимостей с учетом отобранных значимых признаков. Приводятся результаты, полученные в ходе формирования нелинейной регрессионной модели предприятия, а также результаты, полученные в ходе определения оптимальных значений показателей системы методом упорядоченного предпочтения через сходство с идеальным решением.

После формирования математической модели машиностроительного предприятия в виде совокупности регрессионных зависимостей, приведенных в разделе 4.2., решается задача поиска оптимальных значений входных признаков и результативных показателей путем решения многокритериальной задачи с помощью модифицированного метода упорядоченного предпочтения через сходство с идеальным решением с использованием параллельных вычислений: m^Щx),-f2{x)Jъ{x)J¿x)J5{x)-f6{x)J1{x)Ji{x)J^x)Jw(x)}

Определили контрольные точки P1S и NIS, т.е. наикратчайшее расстояние до позитивного идеального решения и наибольшее расстояние до негативного идеального решения соответственно. Таким образом, пространство из 10 целей, соответствующее количеству результативных признаков у = 1,10, привели к двумерному.

где f* = mij/Дд.'), f = 2,6 и // = «//!), j = 1,3,4,5,7-10; f'^mjafiiх), i = 2,6 и fj' = mm/j(x), у = 1,3,4,5,7^10;

fix), i = 2,6 - цель для минимизации типа «расходы на конечный товар», /у(л),

j = 1,3,4,5,7 -10 - цель для максимизации типа «прибыль».

В результате, /* - вектор решений, состоящий из наилучших индивидуальных решений (PIS), а / - вектор решений, состоящий из наихудших индивидуальных решений (NIS). Значения /* и / имеют значения в пределах области допустимых значений результативных признаков.

По результатам определения оптимальных параметров по заданным критериям приводятся оптимальные значения показателей и признаков системы, используя которые можно увеличить чистую прибыль у;оптим в 1,4 раза.

Также, используя разработанный метод построена нелинейная регрессионная модель для почтового предприятия. Отобраны 16 результативных показателей эффективности функционирования предприятия почтовой связи - ур j-1,16 . В качестве влияющих на них признаков выбраны производственно-экономические признаки - Xj, is 1,8; социально-экономические признаки города Елабуга - г, , /е1,10, тарифные признаки, устанавливаемые РТ- zf, г'е 11,45, тарифные признаки, устанавливаемые РФ - .¡, /е 46,72. В результате получено 16

нелинейных регрессионных моделей. По результатам оптимизации констатируем, что выручку от продажи товаров, продукции, работ, услуг можно увеличить на 31%. Прибыль от продаж можно увеличить на 40%.

В заключении диссертационной работы сформулированы научные результаты, полученные в ходе её выполнения и намечены направления перспективных исследований.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Проведен анализ проблем, возникающих при формировании нелинейных регрессионных моделей многопараметрических систем. Обосновано использование генетического моделирования и параллельных вычислений для отбора значимых признаков и формирования полиномиальной модели, которая используется для моделирования функционирования многопараметрической системы.

2. Разработан параллельный генетический алгоритм отбора признаков и формирования структуры регрессионной модели. Он состоит из совокупности простых генетических алгоритмов, где используется подход запуска относительно коротких эволюционных путей. В результате определяется частота появления каждого признака относительно всех эволюционных путей, что и является критерием отбора признаков. На его основе разработана методика моделирования многопараметрической системы.

3. Разработан численный метод поиска требуемого количества параллельных эволюционных путей для отбора значимых признаков и количества поколений; метод учитывает энтропию последних популяций каждого из эволюционных путей. Это повышает качество выборки значимых признаков при формировании нелинейной регрессионной модели для моделирования функционирования машиностроительного предприятия и предприятия почтовой связи. Дня рассматриваемых примеров количество параллельных эволюционных путей £ = 25, количество поколений /68Д2.

4. Разработан модифицированный алгоритм поиска оптимального решения многокритериальной задачи на основе полученной полиномиальной модели функционирования многапараметрической системы с использованием нечеткой логики и параллельных вычислений. Решением являются значения входных признаков, при которых результативные показатели являются наилучшими.

5. Разработан комплекс методик и программ, реализующий предложенные методы и алгоршмы дня моделирования многопараметрической системы. На основе многопараметрического примера проведены экспериментальные исследования работы предложенной модели, методики и алгоритмов. Их применение позволило повысить качество регрессионной модели по критерию множественной детерминации на 20%. Уровень значимости множественного коэффициента детерминации на этапе тестирования модели Р г< 0,05.

6. Получены результаты, позволяющие повысить эффективность определения значений входных признаков и результативных показателей д ля машиностроительного предприятия с возможностью увеличения прибыли от продаж в 1,4 раза и для предприятия почтовой связи в 1,3 раза с рекомендуемыми значениями входных признаков.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в изданиях, рекомендованных ВАК России:

1. Мокшин Б.В., Якимов И.М., Юлъметьев P.M., Мокшим А.В. Рекурсивно-регрессионная самоорганизация моделей анализа и контроля сложных систем // Нелинейный мир. - Москва, 2009. - т.7. - № 1. - С. 66-76.

2. Мокшин В.В. Параллельный генетический алгоритм отбора значимых факторов, влияющих на эволюцию сложной системы // Вестник Казанского государственного технического университета им. А.Н. Туполева.- Казань, 2009. -№3. - С.53-65.

В других журналах и материалах научных конференций:

3. Мокшин В.В. Автоматизированная система анализа процессов обработки деталей // Информация, инновации, инвестиции: Материалы Всероссийской конференции с международным участием. - г. Пермь, 2004 г. - С.173-175.

4. Мокшин В.В. Создание интеллектуальной системы, объединяющей разнородные автоматизированные системы для географически распределенного производства, предприятия // Робототехника, мехатроника и интеллектуальные системы: Материалы Всероссийской научной конференции студентов и аспирантов с международным участием. - г. Таганрог, 2005 г. - С.197-199.

5. Мокшин В.В. Информационные системы больничного комплекса // XII Туполевские чтения: Материалы международной молодежной научной конференции. - г. Казань, 2004. Т. Ill, - С.127.

6. Мокшин В.В. Модель информационно-управляющей системы объектов географически распределенного предприятия // Технологии Microsoft в теории и практике программирования: Всероссийский конкурс работ и конференция студентов, аспирантов и молодых ученых. - Новосибирск, 2006 -http://www.iis.nsk.su/news/events/mskonkurs/2006/accepted.shtml

7. Мокшин В.В. Использование имитационной модели для оценки эффективности производства // Туполевские чтения XIII: Материалы международной молодежной научной конференции, посвященной 1000-летию города Казани. -г. Казань, 2005.-С. 141.

8. Мокшин В.В. Повышение надежности и отказоустойчивости информационно-управляющих систем // Решетневские чтения: Материалы IX международной научной конференции, посвященной 45-летию Сибирского государственного аэрокосмического университета имени академика М.Ф. Решетнева. - г. Красноярск, 2005 -С.287.

9. Мокшин В.В. Оптимизация деятельности предприятия на основе регрессионной модели // XTV Туполевские чтения: Материалы международной молодежной научной конференции. - г. Казань, 2006. - С. 132.

10. Мокшин В.В. Использование регрессионной модели для исследования и оптимизации функционирования предприятия.// Технологии Microsoft в теории и практике программирования: Материалы Всероссийского конкурса работ и конференции студентов, аспирантов и молодых ученых. - г. Санкт-Петербург, 2007.-С.198.

11 .Мокшин В.В. Якимов И.М. Поиск оптимальных решений для исследования и управления предприятием // Технологии Microsoft в теории и практике программирования: Материалы Всероссийского конкурса работ и конференции студентов, аспирантов и молодых ученых. - г. Нижний Новгород, 2007. - С. 187-189.

12. Мокшин В.В. Информационная система статистических исследований и оптимизации функционирования предприятия // Исследования по информатике. Выпуск 12, г. Казань, 2007. - С. 79 - 93.

13. Мокшин В.В. Информационная система исследования и оптимизация функционирования предприятия // Технологии Microsoft в теории и практике программирования: Материалы Всероссийской конференции студентов, аспирантов и молодых ученых. - г. Новосибирск, 2008. - С.198-200.

14. Мокшин В.В. Использование рекурсивного подхода для формирования нелинейных регрессионных моделей в управлении производственными процессами // XXXIV Гагаринские чтения: Материалы Международной молодежной научной конференции. - г. Москва, 2008. Т.6. - 238 С.

15.Мокшин В.В. Использование оптимизационных подходов для создания модели оценки и управления предприятием // Материалы конкурса работ и конференции студентов, аспирантов и молодых ученых Технологии Microsoft в теории и практике программирования: Материалы межвузовского конкурса-конференции студентов, аспирантов и молодых ученых Северо-Запада. - СПб., 2008.-С. 252-254.

16. Мокшин В.В., Якимов И.М. Формирование нелинейной регрессионной модели для управления производственными процессами. Проблемы и пути решения // Наука и профессиональная деятельность: Материалы Всероссийской научно-практической конференции. - г. Нижнекамск, 2008. - С.291-295.

17. Мокшин В.В. Использование нейросетевых технологий для эффективного управления производственным предприятием // XVI Туполевские чтения: Материалы международной молодежной научной конференции. -

г. Казань, 2008. - С. 169-170.

18. Мокшин В.В. Рекурсивный подход формирования нелинейных регрессионных моделей для управления производственными процессами // XVI Туполевские чтения: Материалы международной молодежной научной конференции. - г. Казань, 2008. - С. 174-175.

19.Мокшин В.В. Рекурсивный алгоритм построения регрессионных моделей сложных вероятностных объектов // Инфокоммуникационные технологии глобального информационного общества: Материалы 6-й ежегодной международной научно-практической конференции. - г. Казань, 2008. -

С.317-320.

20. Мокшин В.В. Параллельный алгоритм решения многокритериальной задачи повышения эффективности управления сложной системы // Высокопроизводительные параллельные вычисления на кластерных системах: Материалы 7-й международной конференции-семинара. - г. Казань: Изд. КГТУ, 2008. - С. 239-241.

21. Мокшин В.В. Анализ и контроль сложных систем на основе рекурсивно-регрессионной самоорганизации // Наука и инновации в решении актуальных проблем города: Материалы научно-практической конференции студентов и аспирантов. - г. Казань: Изд-во «Отечество», 11-12 декабря 2008 г.-

С. 23- 24.

22. Мокшин В.В., Якимов И.М. Методы формирования моделей анализа и контроля сложных систем // Наука: современное состояние и перспективы развития: Материалы Всероссийской научно-практической конференции. - Нижнекамск: Изд-во Казан, гос. техн. ун-та, 14 мая 2009 г. - С. 134-137.

23. Мокшин В.В., Якимов И.М. Рекурсивный алгоритм построения регрессионных моделей сложных вероятностных объектов // Инфокоммуникационные технологии глобального информационного общества: Сборник трудов 6-й ежегодной международной научно-практической конференции. - г. Казань, 4-6 сентября, изд-во ООО «Центр оперативной печати», 2008 г. - С.367-373.

24. Мокшин В.В., Якимов И.М. Методика отбора значимых факторов, влияющих на эволюцию сложной системы // Инфокоммуникационные технологии глобального информационного общества: Сборник трудов 7-й ежегодной международной научно-практической конференции. - г. Казань: Изд-во ООО «Центр оперативной печати», 2009 г. - С.254-359.

25. Мокшин В.В. Автоматизированная система отбора значимых факторов, влияющих на эволюцию сложной системы // XVI Туйолевские чтения: Сборник научных трудов международной молодежной научной конференции. -г.Казань: Изд-во Казан, гос. техн. ун-та, 2009. - С. 174 -175.

26. Мокшин В.В. Использование параллельных генетических алгоритмов для формирования модели анализа сложных систем // Проблемы перехода к устойчивому развитию монопрофильных городов: Материалы всероссийской научно-практической конференции. - г. Нижнекамск, 2010 г. - С. 121 - 125.

Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Печ. л. 1,25. Усл. печ. л. 1,16. Уч. изд. л. 1,0. Тираж 110. Заказ Н 202.

Типография Издательства Казанского государственного технического университета 420111, Казань, К.Маркса, 10

Оглавление автор диссертации — кандидата технических наук Мокшин, Владимир Васильевич

СПИСОК ИСПОЛЬЗУЕМЫХ СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

1. МОДЕЛИРОВАНИЕ МНОГОПАРАМЕТРИЧЕСКИХ СИСТЕМ.

1.1. Проблемы разработки модели многопараметрических систем.

1.1.1. Определение многопараметрической системы.

1.1.2. Виды моделирования многопараметрических систем.

1.1.3. Задачи систем поддержки принятия решения.

1.1.4. Методы и системы анализа данных.

1.1.5. Методы и задачи Data Mining.

1.1.6. Модель «черного ящика».

1.3. Методы отбора признаков для моделирования многопараметрической системы.

1.3.1. Частный F-тест.

1.3.2. Метод прямого отбора (Forward Selection).

1.3.3. Метод обратного исключения (Backward Elimination).

1.3.4. Метод последовательного отбора (Stepwise).

1.3.5. Отбор на основе "лучших подмножеств" (Best Subsets).

1.3.6. Отбор признаков на основе генетического алгоритма.

1.3.7. Проблемы формирования нелинейной регрессионной модели многопараметрической системы.

1.4. Определение оптимальных значений показателей многопараметрической системы.

1.5. Предпосылки использования параллельных вычислений и методов нечеткой логики в решении задач моделирования многопараметрической системы.

1.6. Постановка задачи по формированию нелинейной регрессионной модели многопараметрической системы.

1.7. Выводы.

2. ФОРМИРОВАНИЕ НЕЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ МНОГОПАРАМЕТРИЧЕСКОЙ СИСТЕМЫ.

2.1. Обобщенная модель многопараметрической системы.

2.1.1. Метод группового учета аргументов.

2.1.2. Регрессионный анализ.

2.2. Методика формирования нелинейной регрессионной модели для многопараметрической системы.

2.3. Генетический алгоритм отбора признаков.

2.4. Разработка параллельного генетического алгоритма отбора значимых признаков и определение наилучшего количества эволюционных путей.

2.4.1. Параметры эволюционного пути.

2.4.2. Критерий останова для каждого эволюционного пути.

2.5. Разработка алгоритма формирования структуры нелинейных регрессионных моделей.

2.6. Определение оптимальных значений признаков на основе метода упорядоченного предпочтения через сходство с идеальным решением.

2.6.1. Обобщенная задача поиска оптимальных значений признаков.

2.6.2. Описание метода упорядоченного предпочтения через сходство с идеальным решением.

2.6.3. Свойства метода упорядоченного предпочтения через сходство с идеальным решением.

2.6.4. Алгоритм работы модифицированного метода упорядоченного предпочтения через сходство с идеальным решением.

2.7. Выводы.

3. ИССЛЕДОВАНИЕ МЕТОДА ФОРМИРОВАНИЯ НЕЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ.

3.1. Описание разработанного программного обеспечения.

ЗЛ.1. Назначение программного комплекса.

3.1.2. Определение количества поколений для параллельного генетического алгоритма отбора признаков.

3.1.3. Определение количества параллельных эволюционных путей.

3.1.4.Влияние количества параллельных эволюционных путей на определение значимых признаков.

3.1.5. Формирование структуры регрессионных моделей.

3.1.6. Определение оптимальных значений показателей системы.

3.2. Сравнение разработанного метода формирования полиномиальной модели для анализа сложной системы с другими методами.

3.3. Устойчивость алгоритма отбора значимых признаков к помехам.

3.4. Хранение многомерного массива данных отбора признаков.

3.5. Определение количества процессоров для решения задачи.

3.6. Выводы.

4. РЕШЕНИЕ ЗАДАЧИ ФОРМИРОВАНИЯ НЕЛИНЕЙНЙ РЕГРЕССИОННОЙ МОДЕЛИ НА ОСНОВЕ РАЗРАБОТАННОГО МЕТОДА.

4.1. Применение метода формирования нелинейной регрессионной модели исследования для машиностроительного предприятия.

4.1.1. Отбор для исследования производственно-экономических показателей состояния машиностроительного предприятия.

4.1.2. Пример отбора значимых признаков, характеризующих функционирование производственного предприятия.

4.1.3. Формирование структуры регрессионных зависимостей с учетом отобранных значимых входных признаков.

4.1.4. Оценка степени влияния производственно - экономических факторов на результативные показатели эффективности.

4.1.5. Поиск оптимальных значений показателей системы на основе метода упорядоченного предпочтения через сходство с идеальным решением.

4.2. Моделирование предприятия почтовой связи.

4.2.1. Отбор для исследования производственно-экономических показателей состояния предприятия почтовой связи.

4.2.2. Факторный анализ социально-экономических факторов. г. Елабуга.

4.2.3. Факторный анализ тарифов, устанавливаемых РТ.

4.2.4. Факторный анализ тарифов, устанавливаемых РФ.

4.2.5. Построение модели функционирования предприятия на основе разработанного метода формирования нелинейной регрессионной модели.

4.2.6. Разработка эффективных решений поиска оптимальных значений показателей многопараметрической системы.

4.3. Выводы.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Мокшин, Владимир Васильевич

Актуальность темы. В зависимости от характера многопараметрических систем используются различные виды моделирования, такие как детерминированные и стохастические, статические и динамические, дискретные, непрерывные и дискретно-непрерывные и т.д. В качестве многопараметрических систем могут рассматриваться как технические, биологические и экономические системы, так и производственные предприятия, и социологические объекты (город, район, регион и т.д.). Моделирование многопараметрических систем предполагает исследование объектов на их моделях.

Существуют различные подходы, направленные на формирование моделей, описывающих функционирование дискретных многопараметрических систем, поведение которых обуславливается большим числом внешних признаков. При всем существующем разнообразии методов Data Mining, ориентированных на исследование многопараметрических систем, практически все они сталкиваются с общей трудностью — вопросом отбора значимых для модели входных признаков. Особенно актуальна эта проблема при построении регрессионных моделей. Это связано с тем, что сформированные модели адекватны при интерполяции, в то время как на этапе экстраполяции эти модели уже не пригодны ввиду значительных ошибок прогноза.

Исследованию проблем создания методики определения оптимальных значений показателей системы и вопросам моделирования многопараметрических систем посвящены работы следующих ученых: Айвазян С.А., Буслен-ко Н.П., Глова В.И., Заде Л.А., Захаров В.М., Ивахненко А.Г., Сиразетдинов Т.К., Царев Р.Ю., Якимов И.М., Бастергян A.A., Larose D. Т., Chipman Н. А., Cantu-Paz Е., Mu Zhu., Dash М., Miller А., Yang J., Ханк Д. Э., и т.д.

Однако, в этом направлении существуют недостаточно исследованные вопросы и нерешенные задачи, имеющие теоретическое и практическое значение. Например, использование параллельных генетических алгоритмов отбора значимых признаков и определения оптимальных значений показателей системы. Актуальной задачей является разработка адекватных многопараметрических моделей, эффективных алгоритмов и реализующих их программных комплексов. Решению этой задачи посвящена настоящая диссертация.

Объект исследования. Модели и методы моделирования многопараметрических систем.

Предмет исследования. Методы, модели, алгоритмы формирования нелинейной регрессионной модели многопараметрической системы.

Научная задача: разработка новых методов и алгоритмов построения нелинейных регрессионных уравнений для моделирования многопараметрической системы, многокритериального поиска решения и программного комплекса формирования нелинейной регрессионной модели для анализа многопараметрической системы и определения оптимальных показателей системы.

Цель работы: создание методов, моделей, алгоритмов и программных средств формирования нелинейной регрессионной модели при решении задачи отбора значимых признаков для повышения эффективности построения моделей многопараметрических систем и оценка их качества (эффективности).

В соответствии с поставленной целью в работе решались следующие задачи:

1. Анализ проблем, возникающих при применении методов формирования модели для многопараметрической системы.

2. Разработка методики формирования нелинейной регрессионной модели многопараметрической системы.

3. Разработка метода и алгоритма формирования модели многопараметрической системы на базе параллельного генетического алгоритма.

4. Разработка алгоритма определения оптимальных значений показателей системы по изменению входных признаков на основе нелинейной регрессионной модели.

5. Разработка комплекса методик и программ, реализующих предлагаемые методы и алгоритмы.

Методы исследований.

В работе использовались положения: теории систем, теории вероятности, теории математической статистики, нечеткой логики, теории эволюционного моделирования и теории оптимизации. Теоретические исследования сопровождались разработкой различных математических моделей, реализованных на ЭВМ и в виде программных средств.

Научная новизна работы:

1. Разработан метод формирования нелинейной регрессионной модели для исследования многопараметрической системы на основе сочетания многофакторной нелинейной регрессионной модели, метода группового учета аргументов, численного метода отбора значимых признаков и нечеткой логики.

2. Разработан численный метод отбора значимых признаков и формирования структуры регрессионных зависимостей на основе параллельного генетического алгоритма.

3. Разработан численный метод определения требуемого количества параллельных эволюционных путей для отбора значимых признаков.

4. Разработан модифицированный алгоритм определения оптимальных значений результативных показателей на основе полученной нелинейной регрессионной модели с использованием нечеткой логики и параллельных вычислений.

Достоверность полученных результатов. Предложенные в диссертационной работе модели и алгоритмы обоснованы теоретическими решениями и не противоречат известным положениям других авторов. Практическая апробация и внедрение на промышленном предприятии и предприятии почтовой связи результатов работы подтвердили эффективность формирования полиномиальной- модели многопараметрической систехмы и определение наилучших значений показателей системы.

Практическая ценность результатов работы полученных научных результатов в диссертации состоит в том, что в ней дана методика моделирования многопараметрической системы. Разработанные алгоритмы позволяют тестировать разработанный метод на требуемое количество параллельных эволюционных путей, определять оптимальные параметры генетических алгоритмов отбора значимых признаков. Расширяется возможность определения оптимальных значений результативных показателей нелинейной регрессионной модели многопараметрической системы. Комплекс программ, алгоритмов и методик является инструментальным средством для моделирования многопараметрических систем и исследования свойств нелинейных регрессионных моделей с использованием генетического моделирования и параллельных вычислений.

Реализация результатов работы. Теоретические и практические результаты диссертационной работы, в том числе, их программная реализация, были внедрены на машиностроительном предприятии «СИЗ» (г. Елабуга) и Ела-бужском межрайонном почтамте (г. Елабуга). Отдельные результаты работы были также использованы в учебном процессе кафедры Автоматизированных систем обработки информации и управления КГТУ им. А.Н.Туполева. Разработанные в диссертационной работе модели и методы могут быть также использованы для повышения эффективности моделирования и в других организациях.

Апробация работы.

Основные положения диссертационной работы докладывались и обсуждались и получили положительную оценку на конференциях: Международная конференция «Туполевские чтения» (г. Казань, 2004, 2005, 2006, 2008, 2009); Всероссийская научная конференция «Робототехника, мехатроника и интеллектуальные системы» (г. Таганрог, 2005); Всероссийский конкурс-конференция «Технологии Microsoft в теории и практике программирования» (г. Санкт-Петербург, 2007, 2008); Всероссийский конкурс-конференция «Технологии Microsoft в теории и практике программирования» (г. Нижний

Новгород, 2007); Всероссийская конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (г. Новосибирск, 2008); Международная молодежная научная конференция «XXXIV Гагаринские чтения» (г. Москва, 2008); Всероссийская научно-практическая конференция «Наука и профессиональная деятельность» (г.Нижнекамск, 2008, 2009 ,2010); Международная конференция-семинар «Высокопроизводительные параллельные вычисления на кластерных системах» (г. Казань, 2008); Научно-практическая конференция студентов и аспирантов «Наука и инновации в решении актуальных проблем города» (г. Казань, 2008); Международная научно-практическая конференция «Инфо-коммуникационные технологии глобального информационного общества» (г. Казань, 2008, 2009). Публикации.

Основные результаты диссертационной работы опубликованы в 26 печатных работах, в том числе 5 статей, две из которых в печатных изданиях, рекомендованных ВАК и 21 тезис.

Пути дальнейшей реализации. Перспективным видится решение следующих задач:

1. реализации формирования модели анализа сложной системы с использованием нечеткой логики;

2. использование комбинированных топологий параллельных вычислений при многокритериальном поиске оптимальных значений показателей системы.

На защиту выносятся следующие результаты:

1. Метод формирования нелинейной регрессионной модели многопараметрической системы.

2. Численный метод отбора признаков и формирования структуры регрессионных зависимостей на основе параллельного генетического алгоритма.

3. Алгоритм поиска наилучшего количества параллельных эволюционных путей для отбора значимых признаков.

4. Модифицированный алгоритм поиска оптимальных значений результативных показателей методом упорядоченного предпочтения через сходство с идеальным решением.

5. Комплекс программ, реализующих предлагаемые методы и алгоритмы.

Структура и объем диссертации. Диссертационная работа состоит из введения, четырех глав, заключения и списка использованной литературы, включающего 84 наименование, изложена на 189 страницах машинописного текста, содержит 64 рисунка и 41 таблиц, приложение на 25 страницах.

Заключение диссертация на тему "Модели, алгоритмы и комплекс программ исследования многопараметрических систем"

4.3. Выводы

1. Разработанный метод построения модели сложной системы основан на многофакторной нелинейной регрессионной модели с использованием методов группового учета аргументов, параллельного генетического алгоритма отбора значимых признаков и искусственного интеллекта.

2. Разработанный метод позволяет получить более качественные совокупности входных признаков.

3. Применение параллельного генетического алгоритма и методов нечеткой логики позволяет генерировать регрессионные уравнения, позволяющие делать более качественный прогноз развития многопараметрической системы.

4. Появляется возможность отбора в модель, как самих признаков, так и их модификаций (элементарных функций от входных признаков).

5. Предложенный подход приводит к нахождению оптимального количества параллельных эволюционных путей, что повышает качество выборки информационно значимых признаков для формирования полиномиальной модели для моделирования многопараметрических систем и определения оптимальных значений показателей системы.

Заключение

В ходе диссертационного исследования решены следующие задачи.

1. Проведен анализ проблем, возникающих при применении методов формирования нелинейной регрессионной модели многопараметрических систем. Обосновано использование генетического моделирования и параллельных вычислений для отбора значимых признаков и формирования полиномиальной модели, которая используется для моделирования функционирования многопараметрической системы.

2. Разработан параллельный генетический алгоритм отбора признаков и формирования структуры регрессионной модели. Он состоит из совокупности простых генетических алгоритмов, где используется подход запускаот-носительно коротких эволюционных путей. В результате определяется частота появления каждого признака относительно всех эволюционных путей, что и является критерием отбора признаков. На его основе разработана методика моделирования многопараметрической системы.

3. Разработан численный метод поиска требуемого количества параллельных эволюционных путей для отбора значимых признаков и количества поколений; метод учитывает энтропию последних популяций каждого из эволюционных путей. Это повышает качество выборки значимых признаков при формировании нелинейной регрессионной модели для моделирования функционирования машиностроительного предприятия и предприятия почтовой связи. Для рассматриваемых примеров количество параллельных эволюционных путей В = 25, количество поколений ^ е 8,12.

4. Разработан модифицированный алгоритм поиска оптимального решения многокритериальной задачи на основе полученной полиномиальной модели функционирования многопараметрической системы с использованием нечеткой логики и параллельных вычислений. Решением являются значения входных признаков, при которых результативные показатели являются наилучшими.

5. Разработан комплекс методик и программ, реализующий предложенные методы и алгоритмы для моделирования многопараметрической системы. На основе многопараметрического примера проведены экспериментальные исследования работы предложенной модели, методики и алгоритмов. Их применение позволило повысить качество регрессионной модели по критерию множественной детерминации на 20%. Уровень значимости множественного коэффициента детерминации на этапе тестирования модели Рк2< 0,05

6. Получены результаты повышения эффективности определения значений входных признаков и результативных показателей для машиностроительного предприятия с возможностью увеличения прибыли от продаж в 1,4 раза и для предприятия почтовой связи в 1,3 раза с рекомендуемыми значениями входных признаков.

Перспективным видится решение следующих задач:

1) реализации формирования нелинейной регрессионной модели многопараметрической системы с использованием нечеткой логики;

2) использование комбинированных топологий параллельных вычислений при определении оптимальных значений показателей системы.

Библиография Мокшин, Владимир Васильевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Антонов A.C. Параллельное программирование с использованием технологии MPI: Учебное пособие. М.: Изд-во МГУ, 2004. -71 с.

2. Арсенъев Ю. Н., Шелобаев С. И., Давыдова Т. Ю. Принятие решений. Интегрированные интеллектуальные системы: Учеб. пособие для вузов. — М.: ЮНИТИ-ДАНА, 2003.

3. Баргесян A.A., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. СПб.: БХВ-Петербург, 2004.-336 с.

4. Баргесян A.A., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual mining, Text mining, OLAP. -СПб.: БХВ-Петербург, 2007. 384 с.

5. Барский А. Б. Нейронные сети: распознавание, управление, принятие решений. — М.: Финансы и статистика, 2004. — 176 с: ил. — (Прикладные информационные технологии).

6. Березовский Б. А., Барышников Ю. М., Борзенко В. И., Кемпнер Л. М. Многокритериальная оптимизация: Математические аспекты. — М.: Наука, 1989.

7. Бокс Дж., Дженкинс Г. Анализ временных рядов. — М.: 1974, т. 1,2, 406 с.

8. Бирюков С.И. Оптимизация. Элементы теории. Численные методы. Учебное пособие. М.: МЗПресс, 2003. - 248 с.

9. Бусленко Н. 77. Моделирование сложных систем. — М.: Наука, 1988.

10. Букатов А.А, Дацюк В.Н., Жегуло А.И. Программирование многопроцессорных вычислительных систем. Ростов-на-Дону. Издательство ООО «ЦВВР», 2003, 208 с.

11. Х.Васин Е.А., Костенко В.А., КоваленкоД.С. Автоматическое построение алгоритмов, основанных на алгебраическом подходе, для распознавания предаварийных ситуаций динамических систем. — Искусственный интеллект, 2006, №2, с. 130-134.

12. Вапник В.Н. Алгоритмы и программы восстановления зависимостей.1. М.: Наука, 1984, 816 с.

13. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. — СПб.: Питер, 2000.

14. Глова В.И., Аникин И.В., Аджели М.А. Мягкие вычисления (soft computing) и их приложения: Учебное пособие / Под ред. Глова В.И. Казань: Изд-во Казан, гос. техн. ун-та. — 2000. — 98 с.

15. Глова В.И., Аникин КВ., Шагиахметов М.Р. Методы многокритериального принятия решений в условиях неопределённости в задачах нефтедобычи. Препринт 04П2. — Казань: / Изд-во Казан, гос. техн. унта, 2004.-31 с.

16. Глинский В.В., Ионин В.Г. Статистический анализ. М. Информационно-издательский дом "Филинъ", 1998. 264 с.

17. Головешкин В. А., Ульянов М. В. Теория рекурсии для программистов.1. М.:, 2006, 296 с.

18. Гришагин В.А., Свистунов А.Н. Параллельное программирование на основе MPI. Учебное пособие Нижний Новгород: Изд-во ННГУ им.Н.И. Лобачевского, 2005. - 93 с.

19. Гудилов В.В., Зинченко Л.А. Аппаратная реализация вероятностных генетических алгоритмов с параллельным формированием хромосомы // Перспективные информационные технологии и интеллектуальные системы. С. 34-38.

20. Джексон П. Введение в экспертные системы: Пер. с англ.: Учеб. пособие. — М.: Вильяме, 2001.

21. Елисеева И.И., Юзбашев М.М. Общая теория статистики. — М.: Финансы и статистика. 1995. — 368 с.

22. Заде Л.А. Основы нового подхода к анализу сложных систем и процессов принятия решений // Математика сегодня. М.: Знание, 1974. — 55 с.

23. Ивахненко А.Г., Кротов Г.И. Мультипликативно-аддитивный нелинейный алгоритм МГУА с оптимизацией степени факторов. — К.: Автоматика, 1984. №3.-С. 13-18.

24. Ивахненко А.Г. Степашко B.C. Помехоустойчивость моделирования.— К.: Наукова думка, 1985, 216 с.

25. Клейнрок Л. Теория массового обслуживания. М.: Машиностроение, 1979.-432 с.

26. Корнеев В.В., Гареев А.Ф., Васютин C.B., Райх C.B. Базы данных. Интеллектуальная обработка информации. — М.: Издатель Молгачева C.B., Издательство Нолидж, 2001. — 496 е., ил.

27. Курейчик В.М., Курейчик В.В., Гладков JI.A. Генетические алгоритмы.— Ростов-на-Дону, 2004.- 400 с.

28. Курейчик В.М., Курейчик В.В., Гладков Л.А. Теория и практика эволюционного моделирования. М: ФИЗМАТЛИТ. 2003.- 432 с.

29. ЪХ.Крисилов В.А., Побережник С.М. Ускорение параметрического синтеза линейной регрессии на основе редукционного оценивания коэффициентов. — Регистрация, хранение и обработка данных, 2002, т.4, №3, с.62-68.

30. Ларичев О. И. Теория и методы принятия решений, а Т£1кже Хроника событий в Волшебных Странах: Учебник. М.: Логос, 2000. - 296 с : ил.

31. ЪЪ.Маренко В.А. Способы представления данных в экспертных системах // Математические структуры и моделирование. — 2001. № 8. — С. 34-39.

32. Матвеев Ю.Н. Основы теории систем и системного анализа. Тверь: Твер.гос.техн. ун-т, 2007. 100 с.

33. Матросов В.М., Васильев С.Н., Москаленко А.И. II Нелинейная теория управления и ее приложения. — М.: ФИЗМАТЛИТ, 2001. — 320 с. — ISBN 5-9221-0094-7.

34. Мокшин В.В., Якимов И.М., Юлъметъев P.M., Мокшин A.B. Рекурсивно-регрессионная самоорганизация моделей анализа и контроля сложных систем // Нелинейный мир. 2009. - №1. — С. 48-63.

35. Ногин В. Д. Принятие решений в многокритериальной среде. — М.: Физматлит, 2002.

36. Питер Джексон. Введение в экспертные системы: Пер. с англ.: Уч. пос. М.: Издательский дом «Вильяме», 2001. - 624 е.: ил.

37. А2.Подиновский В. В. Многокритериальные задачи с упорядоченными по важности однородными критериями//Автоматика и Телемеханика, 1976.—№11. —С. 118—127.

38. Себестиан Г.С. Процессы принятия решений при распознавании образов: Пер. с англ. Киев: Техника, 1965. 152 с.

39. Рутковская Д Пилинъский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы // Пер. с польского —М.: Горячая линия Телеком, 2006. — 452 е.: ил.

40. А5.Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере / Под ред. В.Э. Фигурнова. 3-е изд., перераб. и доп. - М.: ИНФРА - М, 2003. -544 е., ил.

41. Ав.Царев Р.Ю. Модификация метода упорядоченного предпочтения через сходство с идеальным решением для задач многоцелевого принятия решения // Информационные технологии. 2007. № 7. С. 19-23.

42. Пападимитриу X., Стайглиц К. Комбинаторная оптимизация.- М. 1985.

43. Панченко, Т. В. Генетические алгоритмы : учебно-методическое пособие / под ред. Ю. Ю. Тарасевича. — Астрахань : Издательский дом «Астраханский университет», 2007. — 87 3. с.

44. Подиновский В. В., Ногин В. Д. Парето-оптимальные решения многокритериальных задач.— М.: Наука. Главная редакция физико-математической литературы, 1982.— 256 с.

45. Рудаков КВ., Чехович Ю.В. Алгебраический подход к проблеме синтеза обучаемых алгоритмов выделения трендов. — Доклады РАН, 2003, т.388, №1, с.33-36.51 .Советов Б.Я., Яковлев С.А. Моделирование систем. — М.: Высшая школа, 1998.-320 с.

46. Тихонов Э.Е. Методы прогнозирования в условиях рынка. — Невинно-мысск: 2006, 221 с.

47. ЬЪ.Харламов А.И., Башина О.Э., Бабурин В.Т. и др Общая теория статистики: Статистическая методология в изучении коммерческой деятельности: — М.: Финансы и статистика, 1997. 296 с.

48. Черноруцкий И. Г. Методы принятия решений. — СПб.: БХВ-Петербург, 2005. — 416 с : ил.

49. Черноруцкий И. Г. Методы оптимизации в теории управления. — СПб.: < Питер, 2004.

50. Якимов И.М. Анализ вероятностных объектов на регрессионных моделях. — Вестник Казан, гос. техн. ун-та 2001, №3, с.40.

51. Якимов И.М. Моделирование систем, Казань: КАИ, 1980 104 с.

52. Шеннон Р. Имитационное моделирование систем. Искусство и наука.-М.: Мир, 1978.

53. Шпаковский Г.И., Серикова Н.В. Программирование для многопроцессорных систем в стандарте MPI. Мн.: БГУ, 2002. - 323 с. ISBN 985-445-727-3.

54. BLUM, Avrim L., and Pat LANGLEY, 1997. Selection of relevant features and examples in machine learning. Artificial Intelligence, 97(1-2), 245-271.

55. Chipman, H. A., Hamada, II., and Wu, C. F. J., A Bayesian Variable Selection Approach for Analyzing Designed Experiments With Complex Aliasing. — Technometrics 39, 1997. p. 372-381.

56. Cantu-Paz E. Efficient and Accurate Parallel Genetic Algorithms. Massachusetts: Kluwer Academic Publishers. 2000. 162 p.

57. DASH, M., andH. LIU, 1997. Feature selection for classification. Intelligent Data Analysis, 1(1-4), 131-156.

58. Gabor D., Wilby W.R., Woodcock R.A. A universal nonlinear filter, predictor and simulator which optimizes itself by a learning process, 1961, vol. 108., part B, №40,. pp .85-98.

59. Goldberg, D. E. Genetic Algorithms in Search, Optimization and Machine Learning. Addison-Wesley, Reading, Massachusetts. 1989

60. Ivakhnenko, A.G. and Ivakhnenko, G.A. Simplified Linear Programming Algorithm as Basic Tool for Open-Loop Control. System Analysis Modeling Simulation (SAMS), 1996, vol.22, pp. 177-184.

61. FORMAN, George, 2003. An extensive empirical study of feature selection metrics for text classification. Journal of Machine Learning Research, 3, 1289-1305.

62. A.KOHAVI, Ron, and George H. JOHN, 1997. Wrappers for feature subset selection. Artificial Intelligence, 97(1-2), 273-324.

63. KOLLER, Daphne, and Mehran SAHAMI, 1996. Toward optimal feature selection. In: Proceedings of the Thirteenth International Conference on Machine Learning. Morgan Kaufmann, pp. 284-292.

64. Larose, Daniel T. Data mining methods and models. United States of America, 2006. 322 p.

65. MILLER, Alan, 2002. Subset Selection in Regression. Second ed. Chapman & Hall/CRC.

66. YANG, Jihoon, and Vas ant HON AVAR, 1998. Feature subset selection using a genetic algorithm. IEEE Intelligent Systems, 13(2), 44-49.

67. WESTON, Jason, et al., 2001. Feature selection for SVMs. In: Todd K. LEEN, Thomas G. DIETTERICH, and Volker TRESP, eds. Advances in Neural Information Processing Systems 13. Cambride, MA: The MIT Press, pp. 668 674.