автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Программно-математическое обеспечение автоматизации многокритериального выбора регрессионных моделей

кандидата технических наук
Базилевский, Михаил Павлович
город
Иркутск
год
2012
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Программно-математическое обеспечение автоматизации многокритериального выбора регрессионных моделей»

Автореферат диссертации по теме "Программно-математическое обеспечение автоматизации многокритериального выбора регрессионных моделей"

На правах рукописи

ч

Базилевский Михаил Павлович

ПРОГРАММНО-МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ АВТОМАТИЗАЦИИ МНОГОКРИТЕРИАЛЬНОГО ВЫБОРА РЕГРЕССИОННЫХ МОДЕЛЕЙ

Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание учёной степени кандидата технических наук

■ 1 1 ОПТ 2012

Иркутск - 2012

005053050

Работа выполнена в ФГБОУ ВПО «Иркутский государственный университет путей сообщения»

Научный руководитель: доктор технических наук, профессор

Носков Сергей Иванович

Официальные оппоненты: Дунаев Михаил Павлович -

доктор технических наук, профессор, ФГБОУ ВПО «Иркутский государственный технический университет», профессор кафедры «Электропривода и электрического транспорта»

Кузьмин Олег Викторович -

доктор физико-математических наук, профессор, ФГБОУ ВПО «Иркутский государственный университет», заведующий кафедрой теории вероятностей и дискретной математики

Ведущая организация: ФГБОУ ВПО «Бурятский государственный

университет

Защита диссертации состоится 18 октября 2012 г. в 13-00 часов на заседании совета по защите докторских и кандидатских диссертаций Д 218.004.01 при ФГБОУ ВПО «Иркутский государственный университет путей сообщения» (ИрГУПС) по адресу: 664074, г.Иркутск, ул. Чернышевского, 15, ауд. А-803.

тел: (8-3952) 63-83-11, (8-3952) 38-76-07 факс: (8-3952) 38-76-72 e-mail: mail@irgups.ru WWW: http://www.ireups.ru

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Иркутский государственный университет путей сообщения».

Автореферат разослан 17 сентября 2012 г.

Отзывы на автореферат в двух экземплярах, заверенные гербовой печатью учреждения, просим направлять по указанному адресу.

Ученый секретарь диссертационного совета, д.т.н., профессор

Тихий И.И.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Проблема качественного анализа разнородных статистических данных с целью извлечения из них скрытых и неизвестных ранее знаний всегда была и продолжает оставаться актуальной. Одним из основных инструментов анализа данных является регрессионный анализ. Большой вклад в его создание и развитие внесли ведущие отечественные и зарубежные ученые С.А. Айвазян, А. Афифи, В.Б. Головченко, Е.З. Демиденко, К. Доугерти, Н. Дрейпер, С.А. Дубровский, И.С. Енюков, А.Г. Ивахненко, Дж. Кади, Л.Д. Мешалкин, Ф. Мостеллер, А.И. Орлов, Дж. Себер, Г. Смит, П. Хьюбер, С. Эйзен и др.

В регрессионном анализе одной из центральных является проблема выбора структурной спецификации модели, т.е. состава независимых факторов и формы связи между ними, для решения которой в рамках анализа данных разработано целое множество критериев адекватности. При этом нерешенным остается вопрос, по какому именно критерию необходимо оценивать качество и осуществлять выбор уравнения регрессии. Для решения этой проблемы С.И. Носковым и его учениками предложена технология организации «конкурса» регрессионных моделей, в основе которой лежит многокритериальный подход для построения регрессии. В становление и развитие теории принятия решений, занимающейся вопросами решения многокритериальных задач, внесли существенный вклад отечественные и зарубежные ученые С.Н. Васильев, Э.И. Вилкас, Л. Гурвич, М. Зелены, Е.З. Майминас, И.М. Макаров, В.Д. Ногин, В.В. Подиновский, Л.А. Растригин, К. Эрроу, Л. Ю и др.

Существующее специализированное программное обеспечение для построения регрессионных моделей имеет такие недостатки, как низкое качество или полное отсутствие процедур автоматизированного выбора уравнения регрессии, оценка адекватности моделей только по одному критерию, а также несоответствие полученных уравнений содержательному смыслу факторов. Учитывая быстродействие современных компьютеров, разработка программного комплекса (ПК), реализующего технологию организации «конкурса» регрессионных моделей, является актуальной и практически значимой.

Важной научной задачей, в соответствии со «Стратегией развития железнодорожного транспорта в Российской Федерации до 2030 года», является снижение совокупных транспортных издержек, к числу которых относится время простоя грузовых поездов в парке технических станций. Решение этой задачи путем построения адекватных регрессионных моделей позволит выявить новые функциональные зависимости и выработать рекомендации, призванные повысить эффективность функционирования железнодорожных станций.

Целью работы является разработка программно-математического инструментария автоматизации многокритериального выбора линейных по параметрам регрессионных моделей и применение его для повышения эффективности функционирования технических железнодорожных станций.

Успешное достижение указанной цели предполагает решение следующих задач:

1. Провести анализ эффективности современных программных средств и технологий автоматизированного построения статистических моделей регрессионного типа.

2. Расширить традиционный арсенал форм взаимосвязи между переменными в уравнении регрессии посредством зависимости линейно-мультипликативного вида.

3. Оценить вычислительную сложность стратегий полного перебора альтернативных вариантов линейно-мультипликативных и аддитивных регрессий.

4. Свести задачу поиска оптимальной формы линейно-мультипликативной регрессии к задаче частично-булевого линейного программирования.

5. Протестировать различные численные методы и алгоритмы и выбрать наиболее эффективный из них для решения вычислительной задачи проведения «конкурса» регрессионных моделей.

6. Разработать программный комплекс автоматизации процесса построения регрессионных моделей (АППРМ): выработать требования к комплексу, спроектировать его архитектуру, выбрать среду программирования, наполнить его программными модулями, реализующими эффективные численные методы и алгоритмы, разработать пользовательский интерфейс.

7. Построить регрессионную модель простоя грузовых поездов и на её основе выработать рекомендации по повышению эффективности работы технических железнодорожных станций.

Объектом исследования является процесс функционирования железнодорожных станций.

Предметом исследования является зависимость простоя грузовых поездов от параметров работы технических железнодорожных станций.

В связи с многоплановостью решаемых в работе задач использованы следующие методы исследования: регрессионный анализ, линейная алгебра, методы комбинаторного анализа, теория принятия решений, математическое программирование, в частности, методы решения задачи частично-булевого линейного программирования.

Научную новизну работы составляют и на защиту выносятся следующие результаты:

1. Впервые разработанный программный комплекс автоматизации процесса построения регрессионных моделей, позволяющий автоматически осуществ-

лять многокритериальный выбор адекватных регрессий, удовлетворяющих содержательному смыслу входящих в них факторов.

2. Регрессионная модель простоя грузовых поездов, отличающаяся учетом совместного влияния параметров технических железнодорожных станций на показатель времени простоя.

3. Впервые полученные результаты тестирования численных методов для решения задачи организации «конкурса» регрессионных моделей, позволившие доказать эффективность метода Жордана-Гаусса, реализация которого существенно повысила скорость функционирования ПК АППРМ.

4. Ранее отсутствующая методика выбора стратегий построения аддитивных и линейно-мультипликативных регрессионных моделей, позволяющая при моделировании определять наиболее эффективную из них в зависимости от поставленной задачи.

Практическая значимость. Разработка программного комплекса АППРМ позволила создать инструментальное средство автоматизации основных этапов построения линейно-параметрических статистических моделей регрессионного типа. Построенная с его помощью регрессионная модель простоя грузовых поездов позволила выработать рекомендации по повышению эффективности обработки поездов в парках железнодорожных станций. Универсальность программного комплекса АППРМ заключается в его применимости для анализа объектов различной природы, что демонстрируется в работе на примере решения таких задач, как моделирование обстановки с пожарами, работы выпарного аппарата, а также заболеваемости населения Иркутской области. Программный комплекс АППРМ внедрен в ООО «СибВест» и ООО «Технический центр СИМПЛЕКС», а также в учебный процесс в «Иркутском государственном университете путей сообщения» по дисциплине «Моделирование систем».

Достоверность полученных результатов достигнута корректностью применения апробированных научных методов и использованием реальных данных для проведения исследований.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на: Международной научной конференции «Актуальные проблемы науки и образования» (Куба, Варадеро, 2010 г.), Международной научной конференции «Современные наукоемкие технологии» (Испания, Тенерифе, 2010 г.), 2-й межвузовской научно-практической конференции «Транспортная инфраструктура Сибирского региона» (Иркутск, 2011 г.), региональной научно-методической конференции «Проблемы и перспективы развития регионального отраслевого университетского комплекса ИрГУПС» (Иркутск, 2011 г.), на многочисленных семинарах в Иркутском государственном университете путей сообщения.

Личный вклад. Основные результаты, составляющие научную новизну и выносимые на защиту, получены лично автором.

Публикации. Основные результаты исследований опубликованы в 10 работах, в том числе 2 в изданиях, рекомендованных ВАК. Для разработанного программного комплекса АППРМ получено свидетельство о регистрации программы на ЭВМ.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованной литературы, включающего 106 наименований, и 2 приложений. Общий объем диссертации составляет 153 страницы машинописного текста, содержит 16 рисунков и 15 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы исследования, сформулированы его цель и основные задачи, подлежащие решению для её достижения, определена научная новизна и практическая значимость полученных результатов.

В первой главе рассмотрены основные понятия регрессионного анализа, а также его центральная проблема - выбор структурной спецификации модели. Приведен обзор существующего математического и программного обеспечения для решения этой проблемы. Обоснован выбор в работе класса линейно-параметрических регрессий, как наиболее простых, удобных и эффективных, а также. логико-алгебраического подхода к статистической обработке данных, при котором всякие априорные сведения о вероятностной природе исходных данных отсутствуют.

Проведен анализ основных методов для решения задачи включения в линейную по параметрам регрессию наиболее «информативных» регрессоров («subset selection in regression»), к которым относятся алгоритм полного перебора, метод «ветвей и границ», методы включения и исключения, пошаговая процедура, метод группового учета аргументов (МГУА), алгоритмы последовательной замены, метод наименьших углов, метод лассо. В результате анализа установлено,-'что наиболее точными для выбора структурной спецификации модели, но в то же время и самыми времяемкими из всех являются процедуры полного перебора. Все остальные методы по своему характеру базируются на различных эвристических приемах.

Проанализировано современное программное обеспечение для автоматизированного выбора структурной спецификации регрессии. Среди пакетов общего назначения рассмотрены SPSS, STATISTICA, SAS, STATGRAPHICS и STADIA, основным недостатком которых является реализация в них стандартных, устаревающих в настоящее время инструментов регрессионного анализа.

Среди специализированных пакетов рассмотрены SYSTAT TableCurve 2D v5.01, SYSTAT TableCurve 3D v4.0, DataFit 9.0, LabFit v.7.2.43, MVR Composer.

Проведенный в первой главе обзор позволил выявить основные недостатки математического и программного обеспечения автоматизации выбора структурной спецификации регрессионной модели. На основе анализа литературных источников сформулирована цель и поставлены задачи исследования.

Во второй главе для решения задачи выбора структурной спецификации регрессии предложено использовать технологию организации «конкурса» регрессионных моделей. Суть этой технологии заключается в построении множества альтернативных вариантов регрессий и последующем многокритериальном выборе наиболее приемлемого уравнения.

Пусть посредством варьирования вида аппроксимирующей функции и набора независимых переменных с учетом их преобразований и комбинаций построено множество из г вариантов регрессий M = {М1,М2,...,МГ}, среди которых нужно выбрать наиболее приемлемый, руководствуясь значениями критериев адекватности КУ,К2,...,К, для каждого из вариантов, т.е. рассматривается критериальная матрица:

к =|/с,(м_,-)| i=U, j=u. (1)

В работе использованы пять основных критериев адекватности: критерии множественной детерминации R и Фишера F, величина остаточной дисперсии S, средняя относительная ошибка аппроксимации Е, критерий Дарбина-Уотсона DW.

Первоначально все элементы матрицы К приводятся к однородному виду. Задача проведения «конкурса» моделей заключается в выборе лучшего варианта из конечного множества альтернатив M , руководствуясь векторным критерием К = (КиК2,...,К,):

та хК{м). (2)

Ms M

Для решения многокритериальных задач разработан широкий арсенал методов, подробное описание которых приведено в работах С.Н. Васильева, JI.A. Растригина, И.М. Макарова, С.И. Носкова и других. Большинство таких методов предполагают, что лицо, принимающее решение (ЛПР), является экспертом в соответствующей предметной области. В работе для решения задачи (2) предложено использовать метод «идеальной» точки1, так как предполагается, что ЛПР может не владеть информацией об относительной значимости критериев адекватности. Для этого элементы матрицы К нормируются, причем, для любых элементов нормированной матрицы выполняется условие:

1 Растригин Л.А. Системы экстремального управления. - М.: Наука, 1974.-632 с.

7

«Идеальная» точка К" = {к*,К*2К*,) представляет собой вектор, каждая компонента которого равна максимальному значению соответствующего критерия:

К* = max К; (М: )= 1, i = U-

j=l,r

При решении реальных задач многокритериального выбора лучшего варианта обычно отсутствует альтернатива, доставляющая максимум всем критериям одновременно. Поэтому метод «идеальной» точки предполагает поиск альтернативы, образ которой в критериальном пространстве наиболее близок к точке К':

M*=argmin2(l-£,.(M))2.

Me М "

В работе для организации «конкурса» моделей использованы аддитивные зависимости, для построения которых предложены две стратегии:

1. Каждая независимая переменная входит в модель произвольное число

раз.

Такие зависимости имеют вид:

т _

у к + + к = \,п, (3)

i=i

где fjj - вещественная функция с номером j, выбранная из набора F(x) = {fi(x),f2(x),...,fl{x)}; ve {1,2,3 ,...,т] -индексное множество. В качестве /•(х) в работе использованы элементарные математические функции и ла-говые преобразования переменных. Общее количество г, регрессий (3) равно:

г - г'"

2. Каждая преобразованная переменная входит в модель ровно один раз.

m _

Ук=<*О + Z a<fji (*и ) + £к ' к = l'П ■ (4)

/=1

Общее количество регрессий (4) равно:

г2=Г.

Для каждой из этих двух стратегий проведено оценивание вычислительной сложности, согласно которому, если исследователю нужно быстро получить приемлемый результат, следует воспользоваться второй стратегией, а если приоритетом является качество регрессии - первой.

Предложена следующая форма связи между переменными:

т _

У к = fj («0 + +£к), к = 1,п. (5)

<=1

Зависимость (5) является нелинейной по оцениваемым параметрам, но может быть сведена к линейному виду:

т _

/¡1(Ук) = «о + +ек' к = (6)

1=1

где fj1 - обратная функция по отношению к .

Впервые предложена форма линейно-мультипликативных регрессий (JIMP), содержащих в качестве регрессоров комбинации произведений независимых переменных. Такие зависимости можно представить в виде:

р т _ _

Ук ="0+1>,П*? +ек' s = 1'r> к=1,п, (7)

М j=1

где р - заданное число регрессоров, г - общее число JIMP (вариантов комбинаций булевых переменных), сг 7 - булева переменная, заданная по правилу:

1, если в s -ой регрессии j -ая переменная Xj <7,н - < входит в i — oe слагаемое

■У

О, в противном случае

Для построения JIMP (7) необходимо перебрать все элементы трехмерной матрицы Q:

Q = ||<7у71,5 = 1, г, j = 1, т, i = 1, р.

Предложены три стратегии задания характера вхождения независимых переменных в зависимость (7):

1. Не требуется обязательного вхождения каждой независимой переменной в JIMP. Общее количество таких регрессий находится по формуле:

г -Ср

Установлено, что реализация предложенной стратегии представляет собой сложную вычислительную задачу, что подтверждают данные табл. 1, в которой рассчитаны количества альтернативных вариантов регрессий в зависимости от заданного числа регрессоров р и независимых переменных т.

2. Каждая независимая переменная входит в ЛМР ровно один раз. Данная стратегия формализуется посредством ограничения:

t

0sji=\, s = \,r, j = 1, m.

1=1

Общее количество таких регрессий определено по формуле для вычисления чисел Стирлинга второго рода:

^-¿¡гУС^р-гТ ■

Для предложенной стратегии данные табл. 1 будут иметь вид треугольника Стерлинга, значения элементов которого подтверждают, что для её построения требуется перебор гораздо меньшего числа альтернативных вариантов регрессий для заданных параметров.

Таблица 1

Количества альтернативных моделей для первой стратегии построения JIMP

\ш р \ 1 2 3 4 5 6

1 1 3 7 15 31 63

2 0 3 21 105 465 1953

3 0 1 35 455 4495 39711

4 0 0 35 1365 31465 595665

5 0 0 21 3003 169911 7028847

6 0 0 7 5005 736281 67945521

7 0 0 1 6435 2629575 553270671

8 0 0 0 6435 7888725 3872894697

9 0 0 0 5005 20160075 23667689815

10 0 0 0 3003 44352165 127805525001

3. Каждая независимая переменная входит в ЛМР хотя бы один раз. На формальном языке:

р _ _

£<тч7>1, 5 = 1, г, 7=1,от.

;=i

Общее количество таких регрессий найдено с использованием комбинаторной формулы включения-исключения:

»1-1

i=О

Расчеты альтернативных вариантов регрессионных моделей для третьей стратегии показали, что их общее количество в незначительной степени ниже, чем для первой стратегии.

В работе задача построения JIMP (7) сведена к задаче частично-булевого линейного программирования (ЧБЛП), при этом оценивание неизвестных параметров осуществляется по методу наименьших модулей (МНМ). Для предложенных стратегий эти задачи имеют вид:

1. Не требуется обязательного вхождения в модель каждой независимой переменной.

Число предполагаемых регрессоров должно удовлетворять условию:

1<р<2т-1. (8)

Ограничения задачи имеют вид:

2-1

Ук =Д) + zДСИ + ~ • * = 1. ■П, (9)

i=i

-SjA< Д < Si А, г = 1,2"' -1, (10)

2"'-1

(ID

/=1

и>0, У>0, (12)

т

где сы ~ xjrj , Zy - известный коэффициент, заданный по правилу:

М

fl, если в i -ый регрессор входит j -я переменная [О, в противном случае Sj - булева переменная, заданная по правилу:

^ Jl, если в уравнение (9) входит i-й регрессор ' [0, в противном случае т - число независимых переменных, р - число регрессоров, uk, vk, к-1,п -неотрицательные вещественные переменные, А - заранее выбранное большое положительное число, Д, i = 1,2"' -1 - вектор неизвестных параметров. Целевая функция имеет вид:

п

* + У* ) min . (13)

2. Каждая независимая переменная входит в JIMP ровно один раз. Число регрессоров должно удовлетворять условию:

1 <р<т, (14)

причем, если р = т, то эта задача имеет единственное решение, приводящее к линейной регрессии. Ограничения (9), (10), (11), (12) и целевая функция (13) остаются прежними, но добавляется дополнительное ограничение:

У = йЯ. (15)

¡=1

3. Каждая независимая переменная входит в JIMP хотя бы один раз.

В этом случае к ограничениям (9), (10), (11), (12) добавляется дополнительное ограничение:

2"'-1 _

£<5^ >1, j = l,m. (16)

/=1

Решить эти задачи можно, реализовав известные численные методы (ветвей и границ, Гомори) или воспользовавшись уже готовым программным обеспечением для решения задач частично-целочисленного линейного программирования, например, пакетом Gurobi Optimization.

В третьей главе разработаны две версии программного комплекса автоматизации процесса построения регрессионных моделей (АППРМ).

Первая версия программного комплекса АППРМ vl.O разработана в среде программирования Delphi и послужила опытным образцом для проведения экспериментов по выявлению особенностей технологии организации «конкурса» аддитивных моделей, а также для сравнения между собой эффективных вычислительных алгоритмов и методов. Для работы с комплексом пользователю необходимо ввести исходные данные и задать начальные параметры поиска: зависимую и независимые переменные, элементарные функции, критерии адекватности, В результате проведенного системой процесса моделирования исследователь получит уравнение регрессии, графики фактических и расчетных значений зависимой переменной, значения критериев адекватности. При этом имеется возможность сформировать отчет или осуществить прогнозирование.

В программном комплексе АППРМ vl.O реализованы три различных численных метода для проведения «конкурса» моделей. Для тестирования эффективности этих методов решена задача обработки 59049 пятифакторных аддитивных регрессий и выбора лучшей из них по критерию R на компьютере с процессором Intel Pentium Dual CPU 1.86ГГц. Результаты тестирования представлены в табл. 2.

Таблица 2

Эффективность численных Методов в ПК АППРМ vl.O

Численный метод Время

Рекурсия 30 мин

Метод Гаусса 1 мин

Метод Жордана-Гаусса 29 сек

Из табл. 2 видно, что реализация численного метода Жордана-Гаусса позволила существенно повысить эффективность функционирования разработанного программного комплекса. ПК АППРМ vl.O зарегистрирован в Реестре программ для ЭВМ.

Вторая версия программного комплекса АППРМ v2.0 разработана в среде программирования Borland С++ Builder и имеет больше возможностей, чем первая версия, основными из которых являются:

1. Автоматизация процесса построения аддитивных и линейно-мультипликативных регрессионных моделей, для чего пользователю необходимо задать начальные параметры поиска: стратегию, зависимую и независимые переменные, метод оценивания, число регрессоров, критерии адекватности, математические преобразования. Все дальнейшие действия, включая принятие решения о выборе модели, полностью осуществляются системой.

2. Высокая эффективность функционирования программного комплекса, чего удалось добиться за счет реализации численного метода Жордана-Гаусса, а также алгоритма формирования множества альтернативных вариантов моделей итерационно в лексикографическом порядке, что исключает переполнение внутренней памяти компьютера.

3. Отсев регрессионных моделей, не соответствующих содержательному смыслу факторов, что существенно повышает значимость результатов моделирования.

4. Построение регрессионных моделей, содержащих не более шести рег-рессоров, и, в зависимости от заданных параметров, обработка до десятков миллионов альтернативных вариантов регрессий.

5. Многокритериальный подход при выборе лучшей регрессионной модели. Исследователь может задать до пяти критериев адекватности: R, F, S, Е, DW.

6. Интерпретация результатов моделирования, которая включает в себя советы и рекомендации по применению полученной регрессионной модели на практике.

7. Ручной режим работы, позволяющий пользователю вручную задавать структурную спецификацию линейно-параМетрической регрессионной модели. Для этого структура регрессии представлена в комплексе в виде иерархического дерева, управляя узлами которого можно задать практически любую функциональную зависимость.

8. Удобство манипулирования исходными данными, которые можно ввести в систему вручную, либо импортировать их из текстового файла или базы данных.

9. Организация хранения результатов моделирования, для чего использован язык разметки XML.

Ю.Прогнозирование по полученной модели. Предусмотрены два типа прогнозов - точечные и интервальные. Прогнозные значения отображаются на графике значений зависимой переменной.

Интерфейс ПК АППРМ v2.0 представлен на рис. 1. Его пользователям могут быть как специалисты в области анализа данных, так и исследователи, ориентированные на решение прикладных задач.

В четвертой главе с использованием разработанного программного комплекса АППРМ v2.0 построена регрессионная модель простоя грузовых поездов в парке железнодорожных станций. Исходными статистическими данными послужили данные по работе технических станций Красноярской и ВосточноСибирской железных дорог.

Рис. 1. Интерфейс ПК АППРМ \'2.0

К основным параметрам, характеризующим работу технических станций, отнесены: х, - число прибывающих грузовых поездов в сутки; х2 - число пригородных поездов; х3 - число пассажирских поездов; х4, х5, х6 - время обработки поездов, поступающих в расформирование, со сменой локомотива и со сменой локомотивной бригады соответственно; х1 - время ожидания поездного локомотива; х8 - время на расформирование; х, - число приемо-отправочных путей; х10 - число бригад ПТО; хи, ха, х13 - число поездов, поступающих в расформирование, со сменой локомотива и со сменой локомотивной бригады. Решалась задача выявления функциональной зависимости влияния этих параметров на время простоя грузовых поездов у.

С помощью программного комплекса АППРМ у2.0 построены аддитивная и линейно-мультипликативная модели: 1. Аддитивная модель

у = ехр(2,648 + 2,11 • 10"5 Ху5 +0,0052х1;и + 1Д38]пх„). (17) Значения критериев адекватности: = 0.933, 90.67, 5=8571.3, £ = 17.71%, = 2.31. Всего моделей: 17 577 300. Адекватных моделей: 1 758 420.

Время моделирования: 27 мин 50 сек. 2. Линейно-мультипликативная модель

у = 167,6 + 1,58Х7Х12 + 0,745JCu*I2 - 44,58jc10 . (18)

Значения критериев адекватности: R = 0.964, F = 172, 5 = 4668.4, £• = 14.48%, DW =1.76. Всего моделей: 26 732 394. Адекватных моделей: 5 808 194. Время моделирования: 43 мин 39 сек.

щш ні Ш§ I ¡ ¡

......■ Жй..............

График значений зависимой переменной

- Фактические -

■ Расчётные

1

1

Рис. 2. Графики фактических и расчетных значений времени простоя поездов

Линейно-мультипликативная модель (18) оказалась адекватной, что отражают значения критериев, а также графики фактических и расчетных значений времени простоя поездов на рис.2, при этом лучше аддитивной регрессии (17) абсолютно по всем критериям, поэтому на практике предложено использовать именно её. Модель (18) также соответствует содержательному смыслу входящих в неё факторов.

Анализ построенной модели позволил установить, что на время простоя оказывают наиболее существенное влияние число грузовых поездов, поступающих в расформирование и со сменой локомотива, поэтому для повышения

эффективности функционирования железнодорожных станций рекомендуется увеличение скорости обработки выделенного типа поездов.

Помимо моделирования простоя грузовых поездов решены три задачи, демонстрирующие универсальность и эффективность программного комплекса АППРМ у2.0:

1. Построены модели обстановки с пожарами в сельских населенных пунктах Тюменской области в условиях их газификации.

Для решения данной задачи в качестве информационной базы использовались значения показателей за 2001-2010 годы по Тюменской области. Обстановку с пожарами характеризуют и зависимыми переменными являются у, -общее число пожаров, у7 - число погибших на пожарах людей, у} - среднее время ликвидации пожара. Среди независимых переменных выделены 20 основных показателей.

Полученные с помощью разработанного ПК АППРМ у2.0 регрессионные модели обстановки с пожарами имеют вид:

у, = -11904 - 0,010948л]4д:15 +1,8625 • 10~",х16д;17л:1!.+1,1674 • 10""* *19л:20, (19) где хн - число работников различных категорий, занятых монтажом и обслуживанием газовых установок; х,5 - число пожарных автомобилей; х16 - общее число газифицированных объектов; я-,, - общее число газифицированных газобаллонными установками жилых домов; дг]8 - объем отапливаемых помещений; лг19 - средний часовой расход газа; х20 - жилищный фонд. Значения критериев адекватности модели (19): Я = 0.995, ^ = 321, 5 = 22562, Е = 2.767%,

у2 =-153,52+1,289Ы0"М л:,Л,л22 + 5,9416-КГ8ЗД7> (20)

где х21 - общее число газифицированных объектов V степени огнестойкости; х22 - годовой объем потребления газа. Значения критериев адекватности модели (20): Я =0.86, £ = 14.39, 5 =337.3, £ = 8.27%, ШУ =3.31.

уэ = 101п(117,17 + 4,9781л,-, -0,00020687^), (21)

где х,3 - общая протяженность газопроводов низкого давления. Значения критериев адекватности модели (21): Л = 0.969, £ = 72.19, 5 = 1.15, Е = 1.95%, /Ж = 2.56.

В результате моделирования обработано 94 330 275 уравнений, из которых 4 974 254 (5,27% от общего числа) моделей удовлетворяют содержательному смыслу факторов. Общее время моделирования - 1 час 20 мин.

2. Построена модель работы выпарного аппарата на большом промышленном предприятии.

Для решения данной задачи взяты статистические данные из монографии Н. Дрейпера и Г. Смита2 за работой выпарного аппарата на большом промыш-

7 Draper N.R., Smith Н. Applied regression analysis, 1998.

ленном предприятии. Зависимая переменная у4 - количество используемого пара за месяц в фунтах. Число независимых переменных -9.

По этим данным Н. Дрейпером и Г. Смитом была получена линейная регрессионная модель вида:

у4 = 9,127 - 0,972х,4 + 0,203хц, (22)

где хы - средняя температура воздуха по шкале Фаренгейта, х25 - число рабочих дней в месяце. Значения критериев адекватности модели (22): /? = 0.85, £ =41.3, 5 =0.44, £ = 5.7%, = 2.2.

По этим же данным с помощью разработанного ПК АППРМ у2.0 построена следующая регрессионная модель:

у4 = 23,1 + 0,00435 • 20Л,;' - 3,8761пх2,. (23)

Значения критериев адекватности модели (23): Я = 0.91, £ =72.24, 5=0.27, £ = 4%, 0№ = 2.

Модель (23), полученная с помощью ПК АППРМ у2.0, оказалась адекватнее линейной модели (22) абсолютно по всем критериям.

3. Построена модель заболеваемости населения Иркутской области.

Для решения данной задачи в качестве зависимой переменной у5 взята заболеваемость на 1000 человек населения, расчет которой осуществлен по данным Министерства здравоохранения и социального развития Российской Федерации. В соответствии с рекомендациями Всемирной организации здравоохранения (ВОЗ) 11 независимых переменных разбиты на три группы: окружающая среда, состояние здравоохранения и образ жизни. В качестве информационной базы использовались статистические данные Федеральной службы государственной статистики РФ по всем указанным выше показателям за период с 1992 по 2009 г.

Полученная регрессионная модель имеет вид:

у, = 1001п(-28986 + 2121,61п(.х2Л) + 4578,61п(л:2,)), (24) где х2Ь - объем сброса сточных вод, х27 - продажа спиртных напитков в расчете на душу населения. Значения критериев адекватности модели (24): 7? = 0.95, £=102.4, 5=453, £ = 2.16%, /Ж = 1.59.

Построенная модель выбрана из 73 534 820 альтернативных вариантов, среди которых 924 825 уравнений оказались допустимыми. На решение этой задачи в ПК АППРМ у2.0 потребовалось 4 ч 33 мин.

Все полученные модели имеют высокую степень адекватности, что подтверждают значения соответствующих критериев, удовлетворяют содержательному смыслу факторов и могут быть использованы на практике.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИОННОЙ РАБОТЫ

В диссертационной работе решена актуальная задача разработки программно-математического обеспечения автоматизации многокритериального выбора регрессионных моделей. При этом получены следующие результаты:

1. Проведен анализ специализированных программных средств и технологий автоматизации выбора структурной спецификации регрессионной модели, позволивший установить такие их недостатки, как низкое качество или полное отсутствие процедур автоматизированного выбора уравнения регрессии, использование при оценке адекватности модели только одного критерия, а также несоответствие построенных регрессий содержательному смыслу факторов.

2. Предложено линейно-мультипликативное представление регрессионных моделей, учитывающее совместное влияние входных переменных на выходной показатель. Проведена оценка вычислительной сложности стратегий полного перебора аддитивных и линейно-мультипликативных регрессий, позволяющая при моделировании осуществлять выбор наиболее эффективной из них для решения конкретной задачи. Задача построения линейно-мультипликативной регрессии сведена к задаче частично-булевого линейного программирования.

3. Разработан программный комплекс АППРМ VI.О, с помощью которого проведено тестирование численных методов для решения задачи организации «конкурса» регрессионных моделей, позволившее доказать эффективность метода Жордана-Гаусса, реализация которого существенно увеличила скорость функционирования комплекса. Программный комплекс АППРМ VI.О зарегистрирован в реестре программ для ЭВМ. Разработан программный комплекс АППРМ \2.0, имеющий больше возможностей и позволяющий на основе многокритериального выбора строить адекватные модели, удовлетворяющие содержательному смыслу входящих в них факторов.

4. С помощью программного комплекса АППРМ \2.0 построена регрессионная модель простоя грузовых поездов в парке технических станций, позволившая выделить факторы, оказывающие наиболее существенное влияние на показатель простоя. Анализ полученной модели способствовал выработке рекомендаций по повышению эффективности функционирования железнодорожных станций. Также решены три реальные задачи моделирования, анализ результатов которых подтверждает универсальность и эффективность применения программного комплекса АППРМ у2.0 на практике.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

В изданиях, рекомендованных ВАК:

1. Базилевский М.П., Носков С.И. Алгоритм построения линейно-мультипликативной регрессии // Современные технологии. Системный анализ. Моделирование. - Иркутск, 2011. - №1(29). - С. 88-92.

2. Базилевский М.П., Носков С.И. Методические и инструментальные средства построения некоторых типов регрессионных моделей // Системы. Методы. Технологии. - Братск, 2012. - №1(13). - С. 80-87.

Свидетельства о государственной регистрации:

3. Базилевский М.П., Носков С.И. Программный комплекс автоматизации процесса построения регрессионных моделей (Program complex for automation construction process of regression models) // Свидетельство о государственной регистрации программы для ЭВМ №2010617199.

В других изданиях:

4. Базилевский М.П., Носков С.И. Технология организации конкурса регрессионных моделей // Информационные технологии и проблемы математического моделирования сложных систем. - Иркутск, 2009. - Вып. 7. - С. 77-84.

5. Базилевский М.П., Носков С.И. Анализ специализированного программного обеспечения для автоматизации «конкурса» регрессионных моделей II Информационные технологии и проблемы математического моделирования сложных систем. - Иркутск, 2010. - Вып. 8. - С. 49-55.

6. Носков С.И., Базилевский М.П. Программный комплекс автоматизации процесса построения регрессионных моделей // Международный журнал прикладных и фундаментальных исследований. - Москва, 2010. - №1. - С. 93-94.

7. Базилевский М.П., Носков С.И. Алгоритм формирования множества регрессионных моделей с помощью преобразования зависимой переменной // Международный журнал прикладных и фундаментальных исследований. - Москва, 2011. - №3. - С. 159-160.

8. Базилевский М.П. Автоматизация процесса построения линейно-мультипликативных регрессионных моделей // Материалы второй межвузовской научно-практической конференции «Транспортная инфраструктура Сибирского региона». - Иркутск, 2011. - С. 325-328.

9. Базилевский М.П., Носков С.И. Анализ систем программирования для решения вычислительной задачи проведения «конкурса» регрессионных моделей // Информационные технологии и проблемы математического моделирования сложных систем. - Иркутск, 2011. - Вып. 9. - С. 47-52.

10. Базилевский М.П. Программный комплекс автоматизации процесса построения регрессионных моделей как пример современного инструментального средства моделирования при изучении ряда дисциплин информационного профиля // Сборник статей научно-метод. конференции «Проблемы и перспективы развития регионального отраслевого университетского комплекса ИрГУПС». -Иркутск, 2011. - С. 46-49.

Подписано в печать 14.09.12 г. Формат 60 х 90 1/16. Бумага офсетная. Печать трафаретная. Усл. печ. л. 1,16 Тираж 100 экз. Заказ № 1005

Отпечатано: Федеральное государственное унитарное геологическое предприятие «Урангеологоразведка». Юридический адрес: 115148, г. Москва, ул. Б. Ордынка, дом 49, стр.3. ИНН 7706042118 Справки и информация: БФ «Сосновгеология» «Глазковская типография». Адрес: 664039, г. Иркутск, ул. Гоголя, 53; тел.: 38-78-40, тел./факс: 598-498

Оглавление автор диссертации — кандидата технических наук Базилевский, Михаил Павлович

Введение.

Глава 1: Анализ математического и программного обеспечения выбора структурной спецификации регрессионной модели.

1.1. Регрессионный анализ как инструмент построения математических моделей.

1.2. Проблема выбора структурной спецификации регрессионной модели.

1.3. Методы отбора факторов в линейной регрессионной модели.

1.4. Программное обеспечение выбора структурной спецификации регрессионной модели.

1.5. Выводы.

Глава 2: Математическое обеспечение процесса построения регрессионных моделей.

2.1. Технология организации «конкурса» регрессионных моделей.

2.2. Аддитивная регрессия.

2.3. Линейно - мультипликативная регрессия.

2.4. Выводы.

Глава 3: Программное обеспечение реализации «конкурса» регрессионных моделей.

3.1. Первая версия ПК АППРМ.

3.2. Реализация численных методов для повышения эффективности ПК АППРМ VI.0.

3.3. Выбор системы программирования для решения вычислительной задачи проведения «конкурса» регрессионных моделей.

3.4. Вторая версия ПК АППРМ.

3.5. Особенности работы в ПК АППРМ у2.0.

3.6. Выводы.

Глава 4: Построение регрессионных моделей с помощью программного комплекса АППРМ у2.0.

4.1. Моделирование времени простоя грузовых поездов в парке участковых и сортировочных станций.

4.2. Моделирование обстановки с пожарами в сельских населенных пунктах Тюменской области в условиях их газификации.

4.3. Моделирование работы выпарного аппарата на большом промышленном предприятии.

4.4. Моделирование состояния здоровья населения Иркутской области.

4.5. Выводы.

Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Базилевский, Михаил Павлович

Актуальность работы. Проблема качественного анализа разнородных статистических данных с целыо извлечения из них скрытых и неизвестных ранее знаний всегда была и продолжает оставаться актуальной. Одним из основных инструментов анализа данных является регрессионный анализ. Большой вклад в его создание и развитие внесли ведущие отечественные и зарубежные ученые С.А. Айвазян, А. Афифи, В.Б. Головченко, Е.З. Демиденко, К. Доугерти, Н. Дрейпер, С.А. Дубровский, И.С. Енюков, А.Г. Ивахненко, Дж. Кади, Л.Д. Мешалкин, Ф. Мостеллер, А.И. Орлов, Дж. Себер, Г. Смит, П. Хыобер, С. Эйзен и др.

В регрессионном анализе одной из центральных является проблема выбора структурной спецификации модели, т.е. состава независимых факторов и формы связи между ними, для решения которой в рамках анализа данных разработано целое множество критериев адекватности. При этом нерешенным остается вопрос, по какому именно критерию необходимо оценивать качество и осуществлять выбор уравнения регрессии. Для решения этой проблемы С.И. Носковым и его учениками предложена технология организации «конкурса» регрессионных моделей, в основе которой лежит многокритериальный подход для построения регрессии. В становление и развитие теории принятия решений, занимающейся вопросами решения многокритериальных задач, внесли существенный вклад отечественные и зарубежные ученые С.Н. Васильев, Э.И. Вилкас, Л. Гурвич, М. Зелены, Е.З. Маймипас, И.М. Макаров, В.Д. Ногин, В.В. Подиновский, Л.А. Растригин, К. Эрроу, Л. Ю и др.

Существующее специализированное программное обеспечение для построения регрессионных моделей имеет такие недостатки, как низкое качество или полное отсутствие процедур автоматизированного выбора уравнения регрессии, оценка адекватности моделей только по одному критерию, а также несоответствие полученных уравнений содержательному смыслу факторов. Учитывая быстродействие современных компьютеров, разработка программного комплекса (ПК), реализующего технологию организации «конкурса» регрессионных моделей, является актуальной и практически значимой.

Важной научной задачей, в соответствии со «Стратегией развития железнодорожного транспорта в Российской Федерации до 2030 года», является снижение совокупных транспортных издержек, к числу которых относится время простоя грузовых поездов в парке технических станций. Решение этой задачи путем построения адекватных регрессионных моделей позволит выявить новые функциональные зависимости и выработать рекомендации, призванные повысить эффективность функционирования железнодорожных станций.

Целью работы является разработка программно-математического инструментария автоматизации многокритериального выбора линейных по параметрам регрессионных моделей и применение его для повышения эффективности функционирования технических железнодорожных станций.

Успешное достижение указанной цели предполагает решение следующих задач:

1. Провести анализ эффективности современных программных средств и технологий автоматизированного построения статистических моделей регрессионного типа.

2. Расширить традиционный арсенал форм взаимосвязи между переменными в уравнении регрессии посредством зависимости линейно-мультипликативного вида.

3. Оценить вычислительную сложность стратегий полного перебора альтернативных вариантов линейно-мультипликативных и аддитивных регрессий.

4. Свести задачу поиска оптимальной формы линейно-мультипликативной регрессии к задаче частично-булевого линейного программирования.

5. Протестировать различные численные методы и алгоритмы и выбрать наиболее эффективный из них для решения вычислительной задачи проведения «конкурса» регрессионных моделей.

6. Разработать программный комплекс автоматизации процесса построения регрессионных моделей (АППРМ): выработать требования к комплексу, спроектировать его архитектуру, выбрать среду программирования, наполнить его программными модулями, реализующими эффективные численные методы и алгоритмы, разработать пользовательский интерфейс.

7. Построить регрессионную модель простоя грузовых поездов и на её основе выработать рекомендации по повышению эффективности работы технических железнодорожных станций.

Объектом исследования является процесс функционирования железнодорожных станций.

Предметом исследования является зависимость простоя грузовых поездов от параметров работы технических железнодорожных станций.

В связи с многоплановостью решаемых в работе задач использованы следующие методы исследования: регрессионный анализ, линейная алгебра, методы комбинаторного анализа, теория принятия решений, математическое программирование, в частности, методы решения задачи частично-булевого линейного программирования.

Научную новизну работы составляют и на защиту выносятся следующие результаты:

1. Впервые разработанный программный комплекс автоматизации процесса построения регрессионных моделей, позволяющий автоматически осуществлять многокритериальный выбор адекватных регрессий, удовлетворяющих содержательному смыслу входящих в них факторов.

2. Регрессионная модель простоя грузовых поездов, отличающаяся учетом совместного влияния параметров технических железнодорожных станций на показатель времени простоя.

3. Впервые полученные результаты тестирования численных методов для решения задачи организации «конкурса» регрессионных моделей, позволившие доказать эффективность метода Жордана-Гаусса, реализация которого существенно повысила скорость функционирования ПК АПГТРМ.

4. Ранее отсутствующая методика выбора стратегий построения аддитивных и линейно-мультипликативных регрессионных моделей, позволяющая при моделировании определять наиболее эффективную из них в зависимости от поставленной задачи.

Практическая значимость. Разработка программного комплекса АППРМ позволила создать инструментальное средство автоматизации основных этапов построения линейно-параметрических статистических моделей регрессионного типа. Построенная с его помощью регрессионная модель простоя грузовых поездов позволила выработать рекомендации по повышению эффективности обработки поездов в парках железнодорожных станций. Универсальность программного комплекса АППРМ заключается в его применимости для анализа объектов различной природы, что демонстрируется в работе на примере решения таких задач, как моделирование обстановки с пожарами, работы выпарного аппарата, а также заболеваемости населения Иркутской области. Программный комплекс АППРМ внедрен в ООО «СибВест» и ООО «Технический центр СИМПЛЕКС», а также в учебный процесс в «Иркутском государственном университете путей сообщения» по дисциплине «Моделирование систем».

Достоверность полученных результатов достигнута корректностью применения апробированных научных методов и использованием реальных данных для проведения исследований.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на: Международной научной конференции «Актуальные проблемы науки и образования» (Куба, Варадеро, 2010 г.), Международной научной конференции «Современные наукоемкие технологии» (Испания, Тенерифе, 2010 г.), 2-й межвузовской научно-практической конференции «Транспортная инфраструктура Сибирского региона» (Иркутск, 2011 г.), региональной научно-методической конференции «Проблемы и перспективы развития регионального отраслевого университетского комплекса ИрГУПС» (Иркутск, 2011 г.), на многочисленных семинарах в Иркутском государственном университете путей сообщения.

Личный вклад. Основные результаты, составляющие научную новизну и выносимые на защиту, получены лично автором.

Публикации. Основные результаты исследований опубликованы в 10 работах, в том числе 2 в изданиях, рекомендованных ВАК. Для разработанного программного комплекса АППРМ получено свидетельство о регистрации программы на ЭВМ.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка использованной литературы, включающего 106 наименований, и 2 приложений. Общий объем диссертации составляет 153 страницы машинописного текста, содержит 16 рисунков и 15 таблиц.

Заключение диссертация на тему "Программно-математическое обеспечение автоматизации многокритериального выбора регрессионных моделей"

4.5. Выводы

В данной главе с использованием разработанного программного комплекса АППРМ у2.0 решена важная научно-техническая задача повышения эффективности работы участковых и сортировочных станций.

Помимо моделирования простоя грузовых поездов решены три задачи иллюстративного характера, демонстрирующие универсальность и эффективность ПК АППРМ у2.0:

1. Построены модели обстановки с пожарами в сельских населенных пунктах Тюменской области в условиях их газификации.

2. Построена модель работы выпарного аппарата на большом промышленном предприятии.

3. Построена модель заболеваемости населения Иркутской области.

Заключение

В диссертационной работе решена актуальная задача разработки программно-математического обеспечения автоматизации многокритериального выбора регрессионных моделей. При этом получены следующие результаты:

1. Проведен анализ специализированных программных средств и технологий автоматизации выбора структурной спецификации регрессионной модели, позволивший установить такие их недостатки, как низкое качество или полное отсутствие процедур автоматизированного выбора уравнения регрессии, использование при оценке адекватности модели только одного критерия, а также несоответствие построенных регрессий содержательному смыслу факторов.

2. Предложено линейно-мультипликативное представление регрессионных моделей, учитывающее совместное влияние входных переменных на выходной показатель. Проведена оценка вычислительной сложности стратегий полного перебора аддитивных и линейно-мультипликативных регрессий, позволяющая при моделировании осуществлять выбор наиболее эффективной из них для решения конкретной задачи. Задача построения линейно-мультипликативной регрессии сведена к задаче частично-булевого линейного программирования.

3. Разработан программный комплекс АППРМ у1.0, с помощью которого проведено тестирование численных методов для решения задачи организации «конкурса» регрессионных моделей, позволившее доказать эффективность метода Жордана-Гаусса, реализация которого существенно увеличила скорость функционирования комплекса. Программный комплекс АППРМ у1.0 зарегистрирован в реестре программ для ЭВМ. Разработан программный комплекс АППРМ у2.0, имеющий больше возможностей и позволяющий на основе многокритериального выбора строить адекватные модели, удовлетворяющие содержательному смыслу входящих в них факторов.

4. С помощью программного комплекса АППРМ у2.0 построена регрессионная модель простоя грузовых поездов в парке технических станций, позволившая выделить факторы, оказывающие наиболее существенное влияние на показатель простоя. Анализ полученной модели способствовал выработке рекомендаций по повышению эффективности функционирования железнодорожных станций. Также решены три реальные задачи моделирования, анализ результатов которых подтверждает универсальность и эффективность применения программного комплекса АППРМ у2.0 на практике.

Библиография Базилевский, Михаил Павлович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Айвазян С.А., Енюков И.С., Мешалкнн Л.Д. Прикладная статистика: исследование зависимостей. -М.: Финансы и статистика, 1985. 487 с.

2. Айвазян С.А., Мхитарян B.C. Прикладная статистика и основы эконометрики. -М.: Юнити, 1998. 1022 с.

3. Антипанова H.A. Возрастные особенности онкологической заболеваемости экспонируемого населения центра черной металлургии // Фундаментальные исследования, №7, 2007. с.52 - 54.

4. Архангельский Е.В., Лукьянов Ю.Е. Железнодорожные станции: Устройство и организация работы. М.: Интекс, 1996. - 351 с.

5. Афифи А., Эйзен С. Статистический анализ: подход с использованием ЭВМ. -М.: Мир, 1982.-486 с.

6. Баркалов Н.Б. Производственные функции в моделях экономического роста. -М.: Изд-во МГУ, 1981. 128 с.

7. Барсегян A.A., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. СПб.: БХВ-Петербург, 2004. -336 с.

8. Берндт Э. Практика эконометрики: классика и современность. Пер. с англ. под ред. проф. С.А. Айвазяна. М.: ЮНИТИ-ДАНА, 2005. - 863 с.

9. Боровиков В. STATISTICA. Искусство анализа данных на компьютере: Для профессионалов. 2-изд. СПб.: Питер, 2003. - 688 с.

10. Ю.Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирических данных. М.: Наука, 1983. - 461 с.

11. П.Бюль А., Цёфель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. Пер. с нем. СПб.: ООО «ДиаСофтЮП», 2005. - 608 с.

12. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979. 448 с.

13. Вараксин А.Н. Статистические модели регрессионного типа в экологии и медицине. Екатеринбург, 2006. - 256 с.

14. Н.Васильев С.Н., Селедкин А.П. К построению пакета программ по принятию решений // Пакеты прикладных программ. Методы, разработки. -Новосибирск: Наука, 1981. с.132-140.

15. Васильев С.Н., Селедкин А.П. Синтез функции эффективности в многокритериальных задачах принятия решений // Известия АН СССР. Тех. Кибернетика. 1980.-№3. - с. 186-190.

16. Вилкас Э.И., Майминас Е.З. Решения: теория, информация, моделирование. -М.: Радио и связь, 1981.-328 с.

17. Вучков И., Бояджиева JL, Солаков Е. Прикладной линейный регрессионный анализ. М.: Финансы и статистика, 1987. 239 с.

18. Гаврилов JI.A., Гаврилова Н.С. Биология продолжительности жизни. М.: Наука, 1991.-280 с.

19. Гайдышев И. Анализ и обработка данных: специальный справочник. СПб: Питер, 2001.-752 с.

20. Гантмахер Ф.Р. Теория матриц. М.: Гостехиздат, 1953. - 491 с.

21. Гичев Ю.П. Загрязнение окружающей среды и здоровье человека. М.: Новосибирск: СО РАМН, 2002. - 230 с.

22. Гичев Ю.П. Экологическая обусловленность основных заболеваний и сокращение продолжительности жизни. Новосибирск, 2000. - 90 с.

23. Горбатовский В.В., Рыбальский Н.Г. Здоровье человека и окружающая среда // Информационно-справочный бюллетень «Экологический вестник России», 1995. 59 с.

24. Государственный доклад о состоянии и об охране окружающей среды Иркутской области за 2010 год. Иркутск: ООО Форвард, 2011. - 400 с.

25. Гусев A.A., Бизяркина E.H. Совершенствование методов оценки экономического ущерба здоровью населения от загрязнения атмосферного воздуха // Экономика природопользования. №2. Москва, 2009. с.104 - 110.

26. Демиденко Е.З. Линейная и нелинейная регрессии. М.: Финансы и статистика, 1981. - 304 с.

27. Демиденко Е.З. Оптимизация и регрессия. М.: Наука, 1989. - 296 с.

28. Доугерти К. Введение в эконометрику. М.: ИНФРА-М, 2009. - 465 с.

29. Дьяконов В.П. MATLAB. Основы применения. Изд-е 2-е, переработанное и дополненное. Библиотека профессионала. М.: «СОЛОН-Пресс», 2008. -800 с.

30. Емельянов A.C. Эконометрия и прогнозирование. М.: Экономика, 1985. -208с.

31. Ефименко Ю.И., Логинов С.И., Суходоев B.C. и др. Железнодорожные станции и узлы. М.: Издательский центр «Академия», 2006. - 336 с.

32. Ивахненко А.Г. Индуктивный метод самоорганизации моделей сложных систем. Киев: Наукова думка, 1981. - 296 с.

33. Кади Дж. Количественные методы в экономике.- М.: Прогресс, 1977.-247с.

34. Калиткин H.H. Численные методы. -М.: «Наука», 1978. 512 с.

35. Клейнер Г.Б. Производственные функции. М.: Финансы и статистика, 1986.-239 с.

36. Клейнер Г.Б., Смоляк С.А. Эконометрические зависимости: принципы и методы построения. М.: Наука, 2000. - 104 с.

37. Крамер Д. Математическая обработка данных в социальных науках: современные методы: Пер. с англ. И.В. Тимофеева, Я.И. Киселева; науч. ред. О.В. Митина. -М.: Издательский центр «Академия», 2007. 288 с.

38. Крил М. Некоторые ловушки параметрической инференции // Квантиль. 2008.-№4. с. 1-6.

39. Кузнецов A.B., Сакович В.А., Холод Н.И. Высшая математика: математическое программирование. Мн.: «Вышэйшая школа», 1994. - 286 с.

40. Кузьмин О.В. Обобщенные пирамиды Паскаля и их приложения. -Новосибирск: Наука. Сиб. издат. фирма РАН, 2000. 294 с.

41. Куров Б. А. Как уменьшить загрязнение окружающей среды автотранспортом // Россия в окружающем мире, 2000.

42. Ладнова Г.Г., Гладских М.Н., Тюрикова Ю.Б. Антропогенные факторы окружающей среды и состояние здоровья населения // Ученые записки ОГУ, 2008. №2. С.137-141.

43. Липский В. Комбинаторика для программистов. Под ред. А.П. Ершова. -М.: Издательство «Мир», 1988. -200 с.

44. Магнус Я.Р., Катышев П.К., Пересецкий A.A. Эконометрика. Начальный курс. 6-е изд., перераб., и доп. - М.: Дело, 2004. - 576 с.

45. Макаров Н.М. и др. Теория выбора и принятия решений,- М.: Наука, 1982.-392с.

46. Матросов В.М., Головченко В.Б., Носков С.И. Моделирование и прогнозирование показателей социально-экономического развития области. -Новосибирск: Наука, 1991. 144 с.

47. Мостеллер Ф., Тыоки Дж. Анализ данных и регрессия: В 2-х вып. Вып. 1 / Пер. с англ. Ю.Н. Благовещенского; Под. ред. и с предисл. Ю.П. Адлера. -М.: Финансы и статистика, 1982. 317 с.

48. Мостеллер Ф., Тыоки Дж. Анализ данных и регрессия: В 2-х вып. Вып. 2 / Пер. с англ. Б.Л. Розовского; Под. ред. и с предисл. Ю.П. Адлера. М.: Финансы и статистика, 1982. - 239 с.

49. Мудров В.И., Кушко В.А. Методы обработки измерений. Квазиправдоподобные оценки. -М.: Радио и связь, 1983. 304 с.

50. Носач В.В. Решение задач аппроксимации с помощью персональных компьютеров. М.: МИКАП, 1994. - 382 с.

51. Носков С.И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных. Иркутск: Облинформпечать, 1996. - 320 с.

52. Носков С.И., Подушко В.Г., Удилов В.П. Газификация сельской местности: целевое программирование пожарной безопасности. Иркутск, 2001. - 150 с.

53. Орлов А.И. Прикладная статистика. М.: Издательство «Экзамен», 2007. -672 с.

54. Орлов А.И. Статистические пакеты инструменты исследователя. // Заводская лаборатория. Диагностика материалов. 2008, №5, том 74, с.76-78.

55. Орлов А.И. Теория принятия решений. М.: Экзамен, 2006. - 576 с.бО.Орлов А.И. Эконометрика. М.: Экзамен, 2004. - 576 с.

56. Подиновский В.В., Ногин В. Д. Парето-оптимальные решения многокритериальных задач. — М.: Наука, 1982.

57. Привалова Л.И, Кацнельсон Б.А., Кузьмин C.B. и др. Экологическая эпидемиология: принципы, методы, применение. Екатеринбург, 2003. 277 с.

58. Программа модернизации здравоохранения Иркутской области на 2011-2012 годы.

59. Расин Дж. Непараметрическая эконометрика: вводный курс // Квантиль. 2008.-№4. с.7-56.

60. Распоряжение Правительства РФ от 17.06.2008 № 877-р «О Стратегии развития железнодорожного транспорта в Российской Федерации до 2030 года».

61. Растригин J1.A. Системы экстремального управления,- М.: Наука, 1974.-632с.

62. Ревич Б.А. «Горячие точки» химического загрязнения окружающей среды и здоровье населения России / под ред. В.М. Захарова. М.: Акрополь, Общественная палата РФ, 2007. - 192 с.

63. Ревич Б.А. «Горячие точки» химического загрязнения окружающей среды и здоровье населения в городах России // Россия в окружающем мире, 2006. -с.108- 148.

64. Ревич Б.А., Авалиани C.JL, Тихонова Г.И. Окружающая среда и здоровье населения: Региональная экологическая политика. Проект пособия. — М.: ЦЭПР, 2003.-149 с.

65. Савченков М.Ф. Здоровье населения и окружающая среда // Сибирский медицинский журнал, 2010. №3. С. 124-127.

66. Самарский A.A., Михайлов А.П. Математическое моделирование: Идеи. Методы. Примеры. 2-е изд., испр. - М.: Физматлит, 2001. - 320 с.

67. Себер Дж. Линейный регрессионный анализ. Под ред. М.Б. Малютова. М.: Издательство «Мир», 1980. - 456 с.

68. Сигора Г.А., Кучеренко О.Н. Применение метода регрессионного анализа к количественному описанию степени влияния загрязнения на здоровье населения // Вестник СевНТУ. Севастополь, 2008. - с. 188-191.

69. Симчера В.М. Методы многомерного анализа статистических данных: учеб. пособие. М.: Финансы и статистика, 2008. - 400 с.

70. Скоков В.А. Система построения и исследования производственных функций. // Системное моделирование,- Новосибирск: ВЦ СО АН СССР, 1989. с.146-162.

71. Смирнова О.С. Программное обеспечение для статистического анализа. // Заводская лаборатория. Диагностика материалов. 2008, №5, том 74, с.68-74.

72. Смоленцев H.K. Создание Windows-приложений с использованием математических процедур MATLAB. М.: ДМК-Пресс, 2008. - 456 с.

73. Стрижов В.В. Методы индуктивного порождения регрессионных моделей. М.: ВЦ РАН, 2008.-54 с.

74. Стрижов В.В. Поиск параметрической регрессионной модели в индуктивно заданном множестве // Вычислительные технологии. Том 12, №1, 2007. — с.93-102.

75. Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. Вычислительный центр РАН. Москва, 2010.

76. Суперкомпьютерные технологии в науке, образовании и промышленности / Под редакцией: академика В.А. Садовничего, академика Г.И. Савина, чл,-корр. РАН Вл.В. Воеводина.-М.: Издательство Московского университета, 2009.-232 с.

77. Суслов В.И., Ибрагимов Н.М., Талышева Л.П., Цыплаков A.A. Эконометрия. Новосибирск: СО РАН, 2005. - 744 с.

78. Тюрин Ю.Н., Макаров A.A. Анализ данных на компьютере / Под ред. В.Э. Фигурнова. 3-е изд., перераб. и доп. - М.: ИНФРА-М, 2003. - 544 с.

79. Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. -М.: Финансы и статистика, 1983. 304 с.

80. Ханк Д.Э., Уичерн Д.У., Райте А.Дж. Бизнес-прогнозирование. М.: Издательский дом «Вильяме», 2003. - 656 с.

81. Хантер Д., Рафтер Дж. и др. XML. Базовый курс М.: Вильяме, 2009. - 1344 с.

82. Хардле В. Прикладная непараметрическая регрессия: Пер. с англ. М.: Мир, 1993.-349 с.

83. Хахаев И.А. Экономим на расчетах // Мир ПК, №7, 2007. С. 52-55.

84. Хьюбер П. Робастность в статистике М.: Мир, 1984. - 304 с.

85. Хьюз Дж., Мичтом Дж. Структурный подход к программированию. Под ред. В.Ш. Кауфмана. М.: Издательство «Мир», 1980. - 280 с.

86. Эфрон Б. Нетрадиционные методы многомерного статистического анализа: Сб. статей: Пер. с англ ./Предисловие Ю.П. Адлера, Ю.А. Кошевника. М.: Финансы и статистика, 1988. - 263 с.

87. Chen S., Cowan С. F. N., Grant P. М. Orthogonal least squares learning algorithm for radial basis function network // Transaction on neural network. 1991. Vol. 2, no. 2. Pp. 302-309.

88. Chen Y. W., Billings C. A., Luo W. Orthogonal least squares methods and their application to non-linear system identification // International Journal of Control. 1989. Vol. 2, no. 50. Pp. 873-896.

89. Draper, N.R. and Smith, H. (1998). Applied Regression Analysis. Wiley Series in Probability and Statistics.

90. Edirisooriya G. Stepwise regression is a problem, not a solution // The Annual Meeting of the Mid-South Educational Research Association. Biloxi, 1995.

91. Efron В., Hastie Т., Johnstone I., Tibshirani R. Least angle regression // The Annals of Statistics. 2004. Vol. 32, no. 3. Pp. 407-499.

92. Efroymson M. A. Multiple regression analysis. New York: Ralston, Wiley, 1960.

93. Freedman D.A. Statistical Models: Theory and Practice. Cambridge University Press, 2005.-p. 414.

94. Giudici P. Applied data mining: statistical methods for business and industry. Wiley, 2003.-p. 379.

95. Greene W.H. Econometric analysis. New York University, 2002. p. 994.

96. Hastie Т., Tibshirani R., Friedman J. The Elements of Statistical Learning. -Springer, 2001.

97. Miller A.J. Subset selection in regression / Alan Miller. 2nd ed. Chapman & Hall/CRC, 2002. - p. 247.

98. Rawlings J.O., Pantula S.G., Dickey D.A. Applied regression analysis: a research tool. Springer, 2001. p. 671.

99. Renfro C.G. A compendium of existing econometric software packages // Journal of Economic and Social Measurement. 2004, №29. p. 359-409.

100. Tibshirani R. J. Regression shrinkage and selection via the lasso // Journal of the Royal Statistical Society. Series В (Methodological). \996. Vol. 58, no. 1. Pp. 267-288.

101. Weisberg S. Applied linear regression. 3rd ed. Wiley-Interscience, 2005. - p. 310.

102. Список публикаций соискателя

103. Базилевский М.П., Носков С.И. Алгоритм построения линейно-мультипликативной регрессии // Современные технологии. Системный анализ. Моделирование. Иркутск, 2011. - №1(29). - С. 88-92.

104. Базилевский М.П., Носков С.И. Методические и инструментальные средства построения некоторых типов регрессионных моделей // Системы. Методы. Технологии. Братск, 2012. - №1(13). - С. 80-87.

105. Базилевский М.П., Носков С.И. Технология организации конкурса регрессионных моделей // Информационные технологии и проблемы математического моделирования сложных систем. Иркутск, 2009. - Вып. 7. - С. 77-84.

106. Носков С.И., Базилевский М.П. Программный комплекс автоматизации процесса построения регрессионных моделей // Международный журнал прикладных и фундаментальных исследований. Москва, 2010. - №1. - С. 93-94.

107. Базилевский М.П., Носков С.И. Алгоритм формирования множества регрессионных моделей с помощью преобразования зависимой переменной

108. Международный журнал прикладных и фундаментальных исследований. -Москва, 2011. №3. с. 159-160.

109. Базилевский М.П. Автоматизация процесса построения линейно-мультипликативных регрессионных моделей // Материалы второй межвузовской научно-практической конференции «Транспортная инфраструктура Сибирского региона». Иркутск, 2011. - С. 325-328.