Разработка специального математического обеспечения процедур предварительной обработки информации в системах статистического анализа

Чупеев, Андрей Николаевич

Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка специального математического обеспечения процедур предварительной обработки информации в системах статистического анализа

кандидата технических наук: Чупеев, Андрей Николаевич
город: Воронеж
год: 2008
специальность ВАК РФ: 05.13.11

Диссертация по информатике, вычислительной технике и управлению на тему «Разработка специального математического обеспечения процедур предварительной обработки информации в системах статистического анализа»

Автореферат диссертации по теме "Разработка специального математического обеспечения процедур предварительной обработки информации в системах статистического анализа"

На правах рукописи 003457264

ЧУПЕЕВ Андрей Николаевич

РАЗРАБОТКА СПЕЦИАЛЬНОГО МАТЕМАТИЧЕСКОГО ОБЕСПЕЧЕНИЯ ПРОЦЕДУР ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ИНФОРМАЦИИ В СИСТЕМАХ СТАТИСТИЧЕСКОГО АНАЛИЗА

Специальности: 05.13.11 - Математическое и программное

обеспечение вычислительных машин, комплексов и компьютерных сетей;

05.13.01 - Системный анализ, управление и обработка информации (технические и медицинские системы)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Воронеж - 2008

003457264

Работа выполнена в ГОУ ческий университет»

ВПО «Воронежский государственный техни-

Научный руководитель: доктор технических наук,

профессор

Чопоров Олег Николаевич

Официальные оппоненты: доктор технических наук,

профессор

Кравец Олег Яковлевич;

кандидат технических наук, доцент

Преображенский Юрий Петрович

Ведущая организация: ГОУ ВПО «Воронежский государственный

университет»

Защита состоится «25» декабря 2008 г. в 1300 часов в конференц-зале на заседании диссертационного совета Д 212.037.01 ГОУ ВПО «Воронежский государственный технический университет» по адресу: 394026, г. Воронеж, Московский просп., 14.

С диссертацией можно ознакомиться в научной библиотеке ГОУ ВПО «Воронежский государственный технический университет».

Автореферат разослан «25» ноября 2008 г.

Ученый секретарь диссертационного совета

ОБЩАЯ ХАРАКТЕРИСТКА РАБОТЫ

Актуальность темы. В настоящее время практически во всех предметных областях широко используются специализированные инструментальные системы статистической обработки информации, такие как SPSS, STATISTICA, Systat, SAS, Statgraphics и др. Однако реальные информационные потоки, характерные в том числе для медицинских систем различного уровня и являющиеся основой проведения комплексного статистического анализа и моделирования, обладают специфическими свойствами, характеризующимися: произвольной функцией распределения; наличием как количественных, так и качественных показателей; отсутствием части содержательных фрагментов данных; недостоверностью данных, связанной с ошибками при регистрации и их вводе; параметрической избыточностью.

Следует отметить, что существующие средства, включенные в состав большинства инструментальных систем, дают возможность решать ряд перечисленных задач. Однако данные средства не позволяют осуществлять качественную обработку произвольного набора данных, некоторые из алгоритмов (исключение многомерной недостоверной информации, формирование интегральных оценок) не имеют эффективной реализации. При этом достаточно сложно осуществить их модификацию применительно к специфическим особенностям объектной области. Все это обусловливает необходимость разработки дополнительных средств математического и программного обеспечения процедур предварительной обработки информации для систем статистического анализа и моделирования, реализующих алгоритмы численного преобразования качественных показателей, исключения недостоверных данных, заполнения пробелов, исключения параметрической избыточности, формирования интегральных оценок, расширяющих функциональные возможности существующих инструментальных систем статистической обработки информации.

Таким образом, актуальность темы диссертационного исследования определяется необходимостью разработки дополнительных средств математического обеспечения процедур предварительной обработки информации, реализуемых в рамках инструментальных систем статистического анализа и моделирования.

Тематика диссертации соответствует одному из научных направлений ГОУ ВПО «Воронежский государственный технический университет» «Вычислительные системы и программно-аппаратные комплексы».

Цель и задачи исследования. Целью диссертационной работы является разработка комплекса средств математического обеспечения процедур предварительной обработки данных для систем статистического анализа и моделирования, включающего модифицированные методы исключения не-

достоверных данных, заполнения пробелов, анализа значимости показателей, оптимизации признакового пространства, формирования интегральных оценок и их реализации в рамках программного комплекса.

Для достижения поставленной цели необходимо решить следующие * задачи:

провести анализ проблематики процессов предварительной обработки статистических данных в условиях специфических особенностей медицинской информации, а также методов и средств их реализации;

сформировать структуру комплекса процедур предварительной обработки информации для статистического анализа и моделирования;

осуществить модификацию методов предварительной обработки информации как основы разработки: алгоритмов исключения недостоверных данных и заполнения пробелов, существенно повышающих достоверность исходных данных; алгоритмов оценки информационной значимости параметров для моделей классификации и прогнозирования; сокращения размерности признакового пространства в задачах моделирования; формирования интегральных оценок, позволяющих провести анализ состояния моделируемой системы с учетом значимости и характера изменения контролируемых параметров;

осуществить практическую реализацию предложенных средств предварительной обработки статистических данных.

Методы исследования. Для решения поставленных задач использовались основные положения теории вероятностей и математической статистики, методы математического моделирования, кластерного, регрессионного, корреляционного анализа, объектно-ориентированного программирования.

Научная новизна работы. В диссертации получены следующие основные результаты, характеризующиеся научной новизной:

модификация метода «ГЛЕТ» заполнения пробелов, отличающаяся использованием уравнений регрессии высших порядков, формированием однородных групп объектов и выполнением нескольких итераций, что позволяет значительно повысить точность заполнения;

алгоритмы анализа значимости признаков, отличающиеся процедурой вычисления комплексной оценки по нескольким критериям в зависимости от характера решаемой задачи;

алгоритмы вычисления интегральных показателей, комплексно оценивающих состояние моделируемого объекта, отличающиеся учетом значимости отдельных составляющих и характера их изменения, исходя из предположения, что важность нормализации контролируемых показателей изменяется по заданному закону;

структура специального математического обеспечения процедур предварительной обработки данных для систем статистического анализа и моде-

лирования, отличающиеся возможностью обеспечения повышенного уровня достоверности информации за счет комплексного использования алгоритмов исключения недостоверных данных, заполнения пробелов, оптимизации признакового пространства и формирования интегральных оценок.

Практическая значимость работы. В результате проведенного исследования разработаны средства математического обеспечения процедур предварительной обработки информации для статистического анализа и моделирования, адаптированные для медицинских данных, которые характеризуются рядом особенностей, связанных с технологией формирования информационной базы. Предложенные алгоритмы позволяют добиться комплектности данных, исключить недостоверные показатели, осуществить выбор оптимального набора показателей, наиболее полно характеризующих исследуемый объект при сокращении параметрической избыточности.

Разработан ряд программных модулей, позволяющих использовать созданные вычислительные процедуры в качестве дополнения к существующим инструментальным системам статистического анализа и моделирования.

Реализация и внедрение результатов работы. На основе предложенного подхода выполнена обработка информационной базы данных о больных с атеросклерозом, и построены модели, имеющие более высокую оценку адекватности по сравнению с ранее разработанными. Результаты внедрены в деятельность кардиологического отделения Воронежской областной клинической больницы № 1.

Теоретические и практические результаты работы, реализованные автором в программном комплексе предварительной обработки информации для статистического анализа и моделирования внедрены в учебный процесс на кафедре технологических и автоматизированных систем электронного машиностроения ГОУ ВПО «Воронежский государственный технический университет».

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах: Международной научно-технической конференции «Системные проблемы надежности, качества, математического моделирования, информационных и электронных технологий в инновационных проектах» (Москва-Сочи, 2006); научно-технической конференции «Интеллектуализация управления в социальных и экономических системах» (Воронеж, 2007); V Всероссийской конференции «Теория конфликта и ее приложения» (Воронеж, 2008); научно-методических семинарах кафедры технологических и автоматизированных систем электронного машиностроения ГОУ ВПО «Воронежский государственный технический университет» (2006-2008).

Публикации. По теме диссертации опубликовано 5 научных работ, в том числе 2 - в изданиях, рекомендованных ВАК РФ.

В работах, опубликованных в соавторстве и приведенных в конце автореферата, лично соискателю принадлежат: подсистемы заполнения пробелов и анализа значимости показателей [1,4, 5]; процедура анализа значимости показателей при построении моделей [2]; алгоритм фильтрации на основе * вычисления суммарного расстояния между объектами [3].

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 140 наименований и приложения. Основная часть изложена на 118 страницах, содержит 11 рисунков и 14 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, определены цель и задачи исследования, их научная новизна, практическая значимость полученных результатов, приведены сведения об апробации и внедрении работы.

Первая глава посвящена анализу проблематики и средств повышения качества информационной базы для моделирования на основе использования алгоритмов предварительной обработки данных.

В качестве предметной области выбраны медицинские статистические данные, которые имеют ряд особенностей: наличие как численных, так и качественных показателей, что усложняет их совместную обработку; большой процент пропущенных значений, не позволяющих использовать весь объем имеющихся данных при статистическом анализе и моделировании; наличие недостоверных данных, связанных с ошибками при регистрации и вводе показателей или являющихся артефактами; параметрическая избыточность и ряд других.

Показано, что в настоящее время существует ряд стандартных методов, включенных в состав математических и статистических пакетов и позволяющих решать некоторые из перечисленных задач. Однако не все статистические методы и алгоритмы можно применять для произвольного набора данных, некоторые процедуры (фильтрация многомерной информации, формирование интегральных оценок) не имеют эффективной реализации; в стандартных пакетах достаточно сложно реализовать оригинальный алгоритм или модифицировать имеющийся. Все это обусловливает необходимость разработки процедур предварительной обработки данных для статистического анализа и моделирования, включающих алгоритмы преобразования качественных показателей в численные оценки, фильтрации информации, заполнения пробелов, исключения параметрической избыточности, формирования интегральных оценок и реализации их в рамках интегрированного комплекса

программных модулей. На рис. 1 представлены предложенный состав и структура информационного взаимодействия процедур предварительной обработки статистических данных.

На основании проведенного анализа определяются цель и задачи исследования.

Рис. 1. Структура информационного взаимодействия процедур предварительной обработки статистических данных

Во второй главе предложены методы повышения достоверности исходных данных на основе алгоритмов исключения аномальных данных и заполнения пробелов.

Вследствие того, что точность статистических оценок и адекватность математических моделей во многом определяется качеством исходных данных, предлагается следующая предварительная обработка статистической информации: исключение недостоверных данных, обеспечивающее возможность отбора достоверных и исключения резко выделяющихся наблюдений; заполнение пробелов в матрице данных, что требуется для использования большинства методов математического моделирования.

Для комплексной статистической обработки данных и моделирования возникает необходимость в преобразовании информации, содержащей фиксированные смысловые (лингвистические) значения к численному виду.

Для измерений, имеющих более двух различных лингвистических значений /., и = 1> 3), используется метод экспертных оценок. Перед N экспертами (N>2) ставится вопрос: «Насколько значение более значимо, чем £,./ (( = 2,0 ?» Ответы для каждой пары формируются в форме лингвистической переменной

у, < наблюдение важнее наблюдение I,., > (¡ = 2,1).

В качестве термов этой переменной определены следующие:

сицьно существенно несколько немного мало

Для перевода к численному виду каждому значению терма ставится в соответствие число от I до 5.

В результате по каждой паре ¿„ (; = 2,/) формируется N значений переменной у [у = 2,/, у' = 1,Л'|. Вычисляется обобщенное значение у,. Численная оценка каждого исходного значения определяется следующим образом:

Мг^У., ('' = !>/). (1)

В результате формируется информационный массив, включающий множество показателей Р„', /=!,/, » = 1, /V, где / - количество показателей, включенных в исследование, N - объем выборки.

Решение задачи исключения недостоверных данных заключается в отборе из исходного множества информационных наблюдений с оценкой достоверности и'„ выше некоторой значимой величины нЛ Метод определения оценки достоверности зависит от дополнительных априорных данных о степени «засоренности» исходной выборки.

Тг

n = lN

Если априорно известно, что выборка G «засорена» мало, то правомерно предположить, что объекты g„ сгруппированы некоторым образом симметрично относительно мнимого центра тяжести и с большей вероятностью наиболее достоверные наблюдения располагаются на наименьшем расстоянии от некоторого гипотетического «обобщенного» объекта ga с набором параметров Р0 = {/>\/>2,..,,/>',...,/>,'}.

Решением является вычисление значений вектора расстояний

S = {S1,S2.....S„.....SN) от объектов g„eG до «обобщенного» объекта g0. При

этом степень достоверности

w„ = Smm / S„, (2)

где S = minS,.

V'i

Если выборка «засорена» значительно, более правильно предположить асимметрию распределения объектов, и тогда понятие «обобщенного» объекта не может адекватным образом представить выборку. В этом случае предлагается вычисление значения вектора суммарных расстояний S = {St,S2,...,S„,...,S„} от каждого объекта до прочих

Г N 1 2

J.= SS(p^-n)

_m=l i~ 1

и аналогично (2) определяется степень достоверности наблюдений.

Если выборка сильно «засорена», но есть значимая вероятность того, что группа достоверных объектов достаточно выражена в смысле гипотезы компактности по отношению к прочим возможным группировкам, то правомерен подход, основанный на кластерном анализе. Организуется М = N-1 итерационных цикла с индексами С = 2,(Л/ — t). В каждом итерационном цикле осуществляется классификация выборки G на С классов и для всех итераций подсчитывается /»„ - суммарное число включений каждого наблюдения в классы Кс объемом Vc>2

A. = S> |g.-»Är,-&r, • » = W (3)

При этом степень достоверности определяется следующим образом:

w„ = hJ{Nr р-2). (4)

Для заполнения пробелов предлагается использовать модификацию алгоритма «ZET» (рис. 2), позволяющую повысить качество заполнения за счет использования уравнений регрессии высших порядков, формирования однородных групп объектов на основе кластерного анализа, а также нескольких итераций и использования результатов предыдущего прохода в качестве исходных данных. Для расширения диапазона применения метода на данные с неизвестной функцией распределения оценка коэффициента корреляции при формировании матрицы подсказок заменяется на величину, обратную евклидову расстоянию между объектами.

Определение количества итераций М в зависимости от количества пропущенных _данных _____

Формирование однородных групп с помощью методов кластерного анализа

Формирование строк-подсказок по наименьшим значениям вектора расстояний между объектами ¿>п} преимущественно из объектов той группы, в

которую входит строка с пробелом

Распределение, отличное от нормального

Нормальное распределение

Формирование столбцов-подсказок по наименьшим значениям вектора рас-стояний между исследуемым столбцом и прочими ¿?={5| ,...,£>*}

Формирование столбцов-подсказок по наибольшим значениям коэффициента линейной

корреляции л между иссле-дуемым столбцом и прочими

Придание строкам и столбцам подсказок весов в зависимости от их удаленности __от искомого пробела_

Расчет пропущенного значения по формулам для столбцов и строк соответственно, а затем усреднение результата

ь{п = I [&(/)■ ¿(//^/х; £(//);

ь(J) = ))/;£ м/*>•

где q - количество компетентных столбцов, й - количество компетентных строк, I - компетентность подсказки, а - коэффициент, регулирующий влияние компетентности на результат предсказания, 6(/), Щ - рассчитываемые значения матрицы, Ц/), -значения, на основании которых проводится расчет.

Нет

Вывод заполненной информационной базы

Рис.2. Алгоритм заполнения пробелов

В третьей главе представлены методы оценки значимости признаков, алгоритм исключения параметрической избыточности, процедуры построения интегральных оценок и формирования однородных групп.

Выбор метода анализа значимости признаков зависит от характера решаемой задачи: при подготовке данных для прогноза значимость признаков оценивает степень их влияния на моделируемую величину; при решении задач классификации - степень различия между сравниваемыми группами. Кроме того, при выборе используемых критериев следует учитывать характер распределения исходных данных (рис. 3).

Для анализа значимости признаков в рамках задачи прогноза используется комбинированный метод, учитывающий коэффициент корреляции (г), коэффициент уравнения линейной регрессии (а), описывающие взаимосвязь признака с моделируемой величиной, а также коэффициент сходства

= (5)

где Яу - интегральная разница в нормированных значениях между ;-м иу'-м признаками

VII

При классификации данных значимость должна учитывать возможность отнесения произвольного наблюдения к одной из выделенных групп. Для решения данной задачи необходимо попарное сравнение выделенных групп наблюдения по всем анализируемым признакам.

В медицииских исследованиях для оценки различия показателей в группах наиболее часто используются критерии Стьюдента и Уилкоксона с доверительным порогом 0,05. Вследствие этого для данных с нормальным распределением в качестве оценки различия показателей в группах использовалось значение /-статистики Стьюдента. Если рассчитанное значение X оказывается больше табличного при р<0,05, фактор информативен, в противном случае - нет:

Iй-V

м' = \п ■ О)

Если присутствуют признаки с распределением, отличным от нормального, используется непараметрический ранговый ¿/-критерий Уилкоксона, и аналогично предыдущему случаю определяется информативность признаков.

Затем выполняется ранжирование по убыванию модуля Г-критерия (¡7-критерия) и по убыванию суммарной информативности и внутри труппы с одинаковой информативностью проводится ранжирование по убыванию суммарного ранга признака В результате получается ряд признаков, в начале которого находятся признаки с максимальной информативностью и высокой значимостью.

Адекватность математических моделей в значительной мере зависит от количества учитываемых параметров, однако с их увеличением значительно

---""Анализ нормальности "•---распределения данны:

Распределение,

отличное от нормального

Распределение. Нормальное распределение отличное от нормального

Нормальное распределение

Вычисление знамения степени сходства q между исследуемым признаком и результирующим

Вычисление коэффициента корреляции г между исследуемым признаком и результирующим

Вычисление непараметрического коэффициента регрессии а между исследуемым признаком и резул ьти ру ющм м

Вычисление коэффициента регрессии а между исследуемым признаком и резу л ьти ру ющн м

Попарное сравнение в ыделе н н ы х гру п п наблюдения по всем анализируемым признакам с помощью II-крнтерия Уилкоксона

Ранжирование признаков по убыванию модуля коэффициента корреляции (коэффициента сходства) и по убыванию модуля коэффициента регрессни.

Попарное сравнение выделенных групп наблюдения по всем анализируемым признакам с помощью критерия Стьюдента

Вычисленное значение и сравнивается с табличным значением. Если и> Ц,01» то фактор информативен. В противном случае фактор неинформативен

X иъи,»

о, и<и„„

Вычисленное значение I сравнивается с табличным значением. Если > 5 /о.о-и то фактор информативен. В противном случае фактор не информативен

1. 'о,05

0, / < 10 0

Нахождение суммы рангов признака и итоговое ранхшрование по убыванию полученной суммы

Ранжирование признаков по убыванию модуля /критерия (¿/-критерия) для каждого сравнения групп и определение суммы рангов ХЯ для каждого признака

Ранг признака в итоговой таблице рангов определяет значимость каждого из признаков по отношению к результирующему Определение суммарной информативности Ей-для каждого при знака

______ .....

Ранжирование признаков по убыванию суммарной информативности Хи\ Затем, внутри группы с одинаковой информативностью, ранжирование по убыванию суммарного ранга признака I/?. В результате получаем ряд признаков, в начале которого находятся признаки с максимальной информативностью и высокой значимостью

Вывод сформированной таблицы рангов

Рис, 3. Алгоритм анализа значимости признаков

возрастает сложность построения и использования модели, поэтому уже на этапе исследования целесообразно осуществить выбор оптимального признакового пространства. Для решения данной задачи предлагается к использованию метод «дискретных корреляционных плеяд», позволяющий минимизировать число измеряемых параметров при условии обеспечения достаточной информативности выбранной параметрической системы. Суть метода заключается в формировании плеяд параметров со значимым признаком сходства и последующей заменой этих плеяд на единственный (головной) параметр, обладающий наибольшим весом по отношению к прочим.

Оценка различных состояний объекта моделирования возможна на основе сравнения по отдельным показателям, обобщенная оценка при этом весьма затруднена. Для получения такой оценки предлагается алгоритм вычисления интегрального показателя (ИП) в виде взвешенной аддитивной свертки, позволяющего комплексно оценить уровень объекта управления с учетом отдельных составляющих и их значимости (рис. 4).

Для оценки характера изменения контролируемых показателей предложен второй интегральный показатель (£*), учитывающей помимо значимости отдельных показателей характер их изменения, исходя из предположения, что важность нормализации контролируемых показателей к — \,К изменяется со временем по экспоненциальному закону, начиная с момента начала наблюдения

п = \,И - порядковый номер объекта;

К - количество контролируемых показателей;

1, (/ = 1, /) - день (месяц, год) измерения показателя;

/>"'' - значение показателя в конкретный день (месяц, год);

х, (/ = ],/-!) - коэффициенты, характеризующие важность изменения показателей в желаемом направлении между /'-м и (¡+/)-м измерением;

Д - важность нормализации показателя на конец наблюдения, по сравнению с началом (в %).

Выражение (8) используется, если важно снижение к-го показателя, в противном случае используется выражение (9).

где

(8)

(9)

Рис. 4. Алгоритм построения интегрального показателя ИП

Адекватность математических моделей значительно повышается при переходе от моделей, характеризующих общую совокупность объектов к моделям однородных элементов. В целях структуризации информационной базы предлагается выделение однородных групп объектов на основе энтропийных оценок и методов кластерного анализа.

В четвертой главе приведено описание структуры и основных функций программного комплекса предварительной обработки информации, а также представлены результаты апробации предложенных процедур.

Программный комплекс предварительной обработки информации для статистического анализа и моделирования включает в себя подсистемы экспорта/импорта данных, повышения достоверности данных, выбора оптимальных показателей для математического моделирования, интегрального оценивания (рис. 5). Программные модули разработаны с использованием СУБД InterBase 6.0, инструментальной системы Delphi 6.0, математического пакета Maple, что позволяет хранить и обрабатывать большие объемы данных, эффективно реализовать вычислительные процедуры.

Подсистема сопряжения обеспечивает связь системы с внешними приложениями. Модуль экспорта/импорта данных позволяет обмениваться данными с большинством современных СУБД, для Oracle, MSSQL и InterBase реализована прямая связь между комплексом и СУБД с помощью компонентов прямого доступа. Также возможен обмен данными с помощью OLE технологии с такими приложениями, как MS Excel или STATISTICA. Модуль интерфейсов реализует связь методов вычислительного модуля и методов математических и статистических пакетов.

Оценка уровня адекватности математических моделей

Модель Средняя ошибка R2 // Л F Р

Модели исходные

Линейная модель 20,7674 0,6245 3 41 гг;п >99,99

Неполная квадратичная модель 18,8035 0,7218 4 40 25,96 >99,99

Модели, построенные на обработанных данных с исходными показателями

Линейная модель 24,0153 0,9354 3 98 477,36 >99,99

Неполная квадратичная модель 21,5698 0,9492 3 98 617,26 >99,99

Модели, построенные на обработанных данных с наиболее значимыми показателями

Линейная модель 20,6638 [0,9546 4 97 514,81 >99,99

Неполная квадратичная модель 19,2514 0,9585 4 97 566,40 >99,99

Полная квадратичная модель 15,0584 0,9731 20 81 148,38 >99,99

Модели с полным набором показателей

Линейная модель, построенная на обработанных данных 18,4494 0,9615 4 97 612,92 >99,99

Линейная модель, построенная на обработанных данных, включая недостоверные данные 20,0364 0,9525 5 97 327,50 >99,99

Молу/и, ф,>р\|:!рокл;*иа

отчетов

Внутрсши» база дашшя ЬигЬам 6.0

Модуль экснор га' импорта ддтшх

Ииформааиоотю-спгравочжм система

Модуль визуалташт

—Модуль иычнсдсчшй

Модуле шггерфейсов используемы* внешних функций

Базы дашгых: Огас1с, «ШегЬигмг,

ООВС <<1Вй5е, Лмж*ох, КохРго, Ассс«к и тл)

Обшета ОЬВ (ВхссЦ

Ма генетические и статпстнпсскыо пакеты

Вхсе!)

Подсистема повышения достоверности исходных данных

Ояисатегтьпая ствтпстнкз

Аштроксямплии пропущенных дакньга

Исключение исдостовс'риих лани их

Подсистема выбора показателей для къаскификациоп-тмрогиоаптеского л/оде-

Оленка знатггьгрсти показателей

Опшмичаин* ириига-ко коп» ггросграистна

Ф0рХШр01ШШС одиоро а хм^ груш

Подсистема интегрального оц&штиш

Формирование шяегралшых характсрясгнк и балльных опенок

Оценка эффективности обработки

. 5. Структура программного комплекса предварительной обработки информации для статистического анализа и моделирования

Разработанный комплекс апробирован на базах данных «Инсулиннеза-висимый сахарный диабет» и «Атеросклероз периферических сосудов» с целью оценки эффективности практического использования предложенных модифицированных методов и алгоритмов. Для этого в рамках вычислительного эксперимента осуществлялась проверка результатов моделирования на экспериментальной выборке и выборке, подвергшейся предварительной обработке. Результаты вычислительных экспериментов приведены в таблице. Резкое повышение /•'-отношения и увеличение коэффициента детерминации при сравнимых средних ошибках, свидетельствуют о значительном повышении уровня адекватности математических моделей, построенных на выборке, подвергшейся предварительной обработке.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Проведен анализ проблематики процессов предварительной обработки статистических данных, а также методов и средств их реализации; предложена структура средств предварительной обработки статистических данных, включающая процедуры преобразования качественных показателей в численные оценки, исключения недостоверных данных, заполнения пробелов, анализа значимости признаков, оптимизации признакового пространства, формирования интегральных показателей и однородных групп объектов.

2. Предложен алгоритм, позволяющий исключить из информационной базы объекты, обладающие недостаточной информационной достоверностью, которая определяется на основе геометрического подхода, используя в качестве оценки сходства данных величину расстояний между объектами.

3. Разработана модификация метода «2ЕТ» заполнения пробелов и алгоритма оптимизации признакового пространства, основанного на методе «дискретных корреляционных плеяд», что позволяет увеличить точность заполнения пропущенных данных и использовать минимальный набор наиболее значимых параметров, характеризующих объект исследования, для дальнейшего статистического анализа и моделирования.

4. Разработаны алгоритмы анализа значимости признаков, позволяющие получить комплексную оценку на основе нескольких критериев с учетом распределения исходных данных и характера решаемой задачи: классификация или прогноз.

5. Предложены процедуры формирования интегральных показателей, позволяющих получать комплексную оценку на основе нескольких составляющих с учетом значимости показателей и характера изменения во времени.

6. Разработана структура программного комплекса предварительной обработки статистических данных, являющегося дополнением к существующим инструментальным системам статистического анализа и моделирования; созданы программные модули, реализующие предложенные алгоритмы.

Основные результаты диссертации опубликованы в следующих работах:

Публикации в изданиях, рекомендованных ВАК РФ

1. Чупеев А.Н. Разработка инструментальной системы классификационно-прогностического моделирования и интегральных оценок эффективности / В.А. Куташов, О.Н. Черных, А.Н. Чупеев // Вестник Воронежского государственного технического университета. - 2007. -Т.З. №1. - С. 149-151.

2. Чупеев А.Н. Методы анализа значимости показателей при классификационном и прогностическом моделировании / А.Н. Чупеев, О.Н. Чопоров, С.Ю. Брегеда // Вестник Воронежского государственного технического университета. - 2008. -Т.4. №9. - С. 92-94.

Статьи и материалы конференций

3. Чопоров О.Н. Разработка алгоритмов фильтрации информации для оптимизационно-прогностического моделирования / О.Н. Чопоров, А.Н. Чупеев // Системные проблемы надежности, качества, информационных и электронных технологий в инновационных проектах: материалы Междунар. на-уч.-практ. конф. Москва-Сочи, 2006. С. 67-70.

4. Куташов В.А. Разработка подсистемы построения прогностических моделей / В.А. Куташов, О.Н. Черных, А.Н. Чупеев // Интеллектуализация управления в социальных и экономических системах: труды Всерос. конф. Воронеж, 2007. С. 270.

5. Чупеев А.Н. Инструментальная система предварительной обработки информации для прогностического моделирования конфликтных ситуаций / А.Н. Чупеев, С.Ю. Брегеда, О.Н. Черных // Теория конфликта и ее приложения: материалы V Всерос. конф. Воронеж, 2008. - С. 77-78.

Подписано в печать 24.11.2008. Формат 60x84/16. Бумага для множительных аппаратов. Усл. печ. л. 1,0. Тираж 90 экз. Заказ № В!2

ГОУВПО «Воронежский государственный технический университет» 394026 Воронеж, Московский просп., 14

Оглавление автор диссертации — кандидата технических наук Чупеев, Андрей Николаевич

ВВЕДЕНИЕ.

ГЛАВА 1. АНАЛИЗ ПРОБЛЕМАТИКИ И СРЕДСТВ ПОВЫШЕНИЯ КАЧЕСТВА ИНФОРМАЦИОННОЙ БАЗЫ В СИСТЕМАХ СТАТИСТИЧЕСКОГО АНАЛИЗА.

1.1. Проблематика качества информационной базы в системах статистического анализа.

1.2. Анализ методов предварительной обработки данных для повышения качества информационной базы.

1.3. Анализ эффективности реализации методов предварительной обработки данных в рамках существующих инструментальных систем.

1.4. Цель и задачи исследования.-.

ГЛАВА 2. ПОВЫШЕНИЕ ДОСТОВЕРНОСТИ ИСХОДНЫХ ДАННЫХ

НА ОСНОВЕ МЕТОДОВ ИСКЛЮЧЕНИЯ НЕДОСТОВЕРНЫХ ДАННЫХ И ЗАПОЛНЕНИЯ ПРОБЕЛОВ.

2.1. Метод преобразования качественных показателей в численные оценки.

2.2. Алгоритмизация процедур исключения недостоверных данных.

2.3. Модификация метода ZET для заполнения пробелов.

Выводы.

ГЛАВА 3. ОПТИМИЗАЦИЯ ПРИЗНАКОВОГО ПРОСТРАНСТВА В СИСТЕМАХ СТАТИСТИЧЕСКОГО АНАЛИЗА

И МОДЕЛИРОВАНИЯ.

3.1. Алгоритм выбора метода анализа значимости признаков в зависимости от характера решаемой задачи.

3.2. Алгоритм исключения параметрической избыточности 63 признакового пространства.

3.3. Интегральные характеристики на основе нормированных показателей и балльных оценок.

3.4. Алгоритм формирования однородных групп объектов для моделирования.

Выводы.

ГЛАВА 4. ПРОГРАММНЫЙ КОМПЛЕКС ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ИНФОРМАЦИИ ДЛЯ СТАТИСТИЧЕСКОГО АНАЛИЗА И МОДЕЛИРОВАНИЯ.

4.1. Структура и основные функции системы предварительной обработки информации.

4.2. Реализация программного комплекса в условиях решения задач диагностики и прогноза.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Чупеев, Андрей Николаевич

Актуальность темы. В настоящее время практически во всех предметных областях широко используются специализированные инструментальные системы статистической обработки информации, такие как SPSS, STATISTICA, Systat, SAS, Statgraphics и др. Однако, реальные информационные потоки, характерные в том числе для медицинских систем различного уровня и являющиеся основой проведения комплексного статистического анализа и моделирования, обладают специфическими свойствами, характеризующимися: произвольной функцией распределения; наличием как количественных, так и качественных показателей; отсутствием части содержательных фрагментов данных; недостоверностью данных, связанной с ошибками при регистрации и их вводе; параметрической избыточностью.

Следует отметить, что существующие средства, включенные в состав большинства инструментальных систем, дают возможность решать ряд перечисленных задач. Однако, данные средства не позволяют осуществлять качественную обработку произвольного набора данных, некоторые из алгоритмов (исключение многомерной недостоверной информации, формирование интегральных оценок) не имеют эффективной реализации; при этом достаточно сложно осуществить их модификацию, применительно к специфическим особенностям объектной области. Все это обуславливает необходимость разработки дополнительных средств математического и программного обеспечения процедур предварительной обработки информации для систем статистического анализа и моделирования, реализующих алгоритмы численного преобразования качественных показателей, исключения недостоверных данных, заполнения пробелов, исключения параметрической избыточности, формирования интегральных оценок, расширяющих функциональные возможности существующих инструментальных систем статистической обработки информации.

Тематика диссертации соответствует одному из научных направлений Воронежского государственного технического университета «Вычислительные системы и программно-аппаратные комплексы».

Целью работы является разработка комплекса средств математического обеспечения процедур предварительной обработки данных для систем статистического анализа и моделирования, включающего модифицированные методы исключения недостоверных данных, заполнения пробелов, анализа значимости показателей, оптимизации признакового пространства, формирования интегральных оценок и их реализация в рамках программного комплекса.

Для достижения поставленной цели необходимо решить следующие задачи: провести анализ проблематики процессов предварительной обработки статистических данных в условиях специфических особенностей медицинской информации, а также методов и средств их реализации; сформировать структуру комплекса процедур предварительной обработки информации для статистического анализа и моделирования; осуществить модификацию методов предварительной обработки информации, как основы разработки: алгоритмов исключения недостоверных данных и заполнения пробелов существенно повышающих достоверность исходных данных; алгоритмов оценки информационной значимости параметров для моделей классификации и прогнозирования; сокращения размерности признакового пространства в задачах моделирования; формирования интегральных оценок, позволяющих провести анализ состояния моделируемой системы с учетом значимости и характера изменения контролируемых параметров; осуществить практическую реализацию предложенных средств предварительной обработки статистических данных.

Новизна исследований. В диссертации получены следующие основные результаты, характеризующиеся научной новизной: модификация метода «ZET» заполнения пробелов, отличающаяся использованием уравнений регрессии высших порядков, формированием однородных групп объектов и выполнением нескольких итераций, что позволяет значительно повысить точность заполнения; алгоритмы анализа значимости признаков, отличающиеся процедурой вычисления комплексной оценки по нескольким критериям в зависимости от характера решаемой задачи; алгоритмы вычисления интегральных показателей, комплексно оценивающих состояние моделируемого объекта, отличающиеся учетом значимости отдельных составляющих и характера их изменения, исходя из предположения, что важность нормализации контролируемых показателей изменяется по заданному закону; структура специального математического обеспечения процедур предварительной обработки данных для систем статистического анализа и моделирования, отличающиеся возможностью обеспечения повышенного уровня достоверности информации за счет комплексного использования алгоритмов исключения недостоверных данных, заполнения пробелов, оптимизации признакового пространства и формирования интегральных оценок.

Практическая значимость работы. В результате проведенного исследования разработаны средства математического обеспечения процедур предварительной обработки информации для статистического анализа и моделирования, адаптированные для медицинских данных, которые характеризуются рядом особенностей, связанных с технологией формирования информационной базы. Предложенные алгоритмы позволяют добиться комплектности данных, исключить недостоверные показатели, осуществить выбор оптимального набора показателей наиболее полно характеризующих исследуемый объект при сокращении параметрической избыточности.

Теоретические и практические результаты работы, реализованные автором в программном комплексе предварительной обработки информации для статистического анализа и моделирования внедрены в учебный процесс на кафедре «Технологических и автоматизированных систем электронного машиностроения» Воронежского государственного технического университета.

Результаты внедрения подтверждаются соответствующими актами.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах: международной научно-технической конференции «Системные проблемы надежности, качества, математического моделирования, информационных и электронных технологий в инновационных проектах» (Москва-Сочи, 2006); научно-технической конференции «Интеллектуализация управления в социальных и экономических системах» (Воронеж, 2007); научно-методических семинарах кафедры «Технологических и автоматизированных систем электронного машиностроения» Воронежского государственного технического университета (2006-2008 гг.).

Структура и объем работы. Диссертация состоит из введения, 4 глав, заключения и приложения. Работа содержит 118 страниц, включая 11 рисунков, 14 таблиц, приложение и список литературы из 140 наименований.

Заключение диссертация на тему "Разработка специального математического обеспечения процедур предварительной обработки информации в системах статистического анализа"

Выводы

1. Оценка значимости показателей является основой при принятии решения об их включении в модели. Выбор алгоритма оценки значимости зависит от характера решаемой задачи. При решении задач прогноза предлагается использовать комбинированный метод, учитывающий коэффициент корреляции, коэффициент уравнения линейной регрессии, описывающие взаимосвязь признака с моделируемой величиной, а также коэффициент сходства. Для задач классификации значимость должна учитывать возможность отнесения произвольного наблюдения к одной из выделенных групп. Для решения данной задачи используется попарное сравнение выделенных групп на основе /-критерия Стыодента и ^/-критерия Уилкоксона по всем анализируемым признакам.

2. Точность моделей в значительной мере зависит от количества учитываемых параметров, однако с их увеличением значительно возрастает сложность построения и использования модели, поэтому уже на этапе исследования целесообразно осуществить выбор оптимального признакового пространства. Для решения данной задачи предлагается к использованию метод «дискретных корреляционных плеяд», позволяющий минимизировать число измеряемых параметров при условии обеспечения достаточной информативности выбранной параметрической системы.

3. Оценка различных состояний объекта моделирования возможна на основе сравнения по отдельным показателям, обобщенная оценка при этом весьма затруднена. Для получения такой оценки предлагается алгоритм вычисления интегрального показателя в виде взвешенной аддитивной свертки, позволяющего комплексно оценить уровень объекта управления с учетом отдельных составляющих и их значимости.

4. Для оценки эффективности функционирования системы во времени целесообразно использование интегральной оценки, учитывающей помимо значимости отдельных составляющих характер их изменения, исходя из предположения, что важность нормализации контролируемых показателей изменяется со временем по экспоненциальному закону.

5. Точность моделей значительно повышается при переходе от моделей, характеризующих общую совокупность объектов к моделям однородных элементов. В целях структуризации информационной базы целесообразно выделение однородных групп объектов на основе энтропийных оценок и методов кластерного анализа.

ГЛАВА 4. ПРОГРАММНЫЙ КОМПЛЕКС ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ИНФОРМАЦИИ ДЛЯ СТАТИСТИЧЕСКОГО АНАЛИЗА И МОДЕЛИРОВАНИЯ

4.1. Структура и основные функции системы предварительной обработки информации

Для практической реализации предложенных алгоритмов в среде программирования Borland Delphi 6.0 была произведена разработка программного комплекса предварительной обработки информации для статистического анализа и моделирования, включающей в себя подсистемы экспорта/импорта данных, повышения достоверности данных, выбора оптимальных показателей для моделирования, интегрального оценивания. Программные модули разработаны с использованием СУБД InterBase 6.0, инструментальной системы Delphi 6.0, математического пакета Maple, что позволяет хранить и обрабатывать большие объемы данных, эффективно реализовать вычислительные процедуры

Выбор InterBase 6.0 обусловлен относительной простотой интеграции СУБД в операционную систему, небольшим размером базы данных (по сравнению с СУБД Oracle или MSSQL), удовлетворительной надежностью и особыми условиями лицензирования, позволяющими конечному пользователю устанавливать и использовать СУБД без совершения лицензионных отчислений.

Разработанная компьютерная система представляет собой комплекс взаимосвязанных программных модулей, структура которого приведена на рис. 4.1.

Г Интерфейс пользователя ' Г

Ядро системы

Подсистема сопряжения i

Модуль формирования отчетов

Внутренняя oaia данных Intcrbasc 6.0

Модуль 'экспорта/ импорта данных.

Сисшмньш аналитик

Информационно-справочная сисгсма

Модуль визуализации

Модуль вычислении

Модуль итерфеисов используемых внешних функций

Внешние приложения

Базы данных: Oracle, lnterba.se, MSSQL, ODBC (dBase, Paradox, Fox fro, Access и т.д.) k

Ooьскты OLE (Excel. Statistica)

Магматические и статистические пакеты (Maple 10. Statistica. Excel)

I Подсистема повышения достоверности исходных данных

Описательная статистика

Аппроксимация пропущенных данных

Исключение недостоверных данных

Подсистема выбора показателей для классификационно-прогностического моделирования

Подсистема интегрального оценивания

Опенка значимости показателей

Оптимизация признакового пространства

Формирование однородных групп

Формирование интегральных характеристик и балльных оценок

Оценка эффектна-кости обработки

Рис. 4.1. Структура системы предварительной обработки информации для статистического анализа и моделирования

Подсистема сопряжения обеспечивает связь системы с внешними приложениями.

Модуль экспорта/импорта данных позволяет обмениваться данными с большинством современных СУБД, для Oracle, MSSQL и InterBase реализована прямая связь между системой и СУБД с помощью компонентов прямого доступа. Также возможен обмен данными с помощью OLE технологии с такими приложениями как MS Excel или Statistica.

Модуль интерфейсов реализует связь методов вычислительного модуля и методов математических и статистических пакетов. В системе используются методы пакетов Maple 10, MS Excel и Statistica.

Основная база данных системы реализована на СУБД InterBase 6.0 и обеспечивает доступ как к исходным данным, так и к результатам произвольного этапа обработки данных.

В модуле вычисления описаны все вычислительные методы всех подсистем и внешних приложений, он обеспечивает связь вычислительных подсистем между собой.

В подсистеме повышения достоверности исходных данных реализованы алгоритмы расчета основных статистик, исключение недостоверных данных и аппроксимации пропущенных данных.

В подсистеме выбора оптимальных показателей для моделирования реализованы алгоритмы оценки значимости признаков, исключения параметрической избыточности и разбиения выборки на однородные группы методами кластерного анализа.

Подсистема интегрального оценивания отвечает за формирование интегральных характеристик и оценку эффективности обработки исходных данных.

Пользовательский интерфейс состоит из трех модулей. Модуль формирования отчетов позволяет на основе пользовательских шаблонов подготовить и сформировать отчеты произвольной формы для наглядного просмотра результатов работы системы. Сформированный отчет можно сохранить в любом распространенном формате хранения данных (RTF, XLS, XML, PDF и т.д.). Существует набор стандартных шаблонов, изменяя которые пользователь может создавать свои произвольные версии шаблонов. Программная реализация модуля была выполнена с помощью дизайнера отчетов FastScript для Delphi 6.0.

Информационно-справочная система содержит информацию о работе с отдельными подсистемами комплекса. Справка реализована в виде файла помощи формата «.chm» — скомпилированный гипертекстовый файл справки Windows, что облегчает работу и поиск необходимой информации.

Модуль визуализации позволяет пользователю управлять работой системы и оценивать ход и результаты обработки информации. Для удобства использования в системе предусмотрены шаблоны обработки данных. Каждый пользователь имеет свой набор шаблонов — по одному шаблону для каждого вида обработки. Функции системы описываются в шаблоне обработки данных определенной структуры, описанной в табл. 4.1.

ЗАКЛЮЧЕНИЕ

Проблема разработки алгоритмов и моделей, призванных оказать содействие специалистам при решении задач прогнозирования, диагностики и принятия решений не теряет своей актуальности. Большинство таких моделей строится на основе статистических данных с использованием регрессионного анализа, анализа временных рядов, нейросетевого моделирования, кластерного, дискриминаптпого анализа и других методов. Точность таких моделей в значительной мере зависит от качества исходных данных, которая зависит от наличия резко выделяющихся наблюдений, пропусков данных, состава отобранных для моделирования показателей.

Существует ряд алгоритмов, используемых для решения перечисленных проблем, однако, не все они достаточно эффективны для данных, представленных как в численном, так и качественном виде. Существующие математические и статистические программные пакеты достаточно дорого и содержат только стандартные методы, которые достаточно сложно модернизировать.

Разработка алгоритмического и программного обеспечения, объединяющего рад процедур предварительной обработки данных для статистического анализа и моделирования позволяет решить перечисленные задачи.

В ходе работы получены следующие результаты:

3. Разработана модификация метода «ZET» заполнения пробелов и алгоритма оптимизации признакового пространства, основанного на методе «дискретных корреляционных плеяд», что позволяет увеличить точность заполнения пропущенных данных, и использовать минимальный набор наиболее значимых параметров, характеризующих объект исследования, для дальнейшего статистического анализа и моделирования.

Библиография Чупеев, Андрей Николаевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений. — М.: Статистика, 1974. 147 с.

2. Айвазян С.А., Ешоков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей: Справ, изд./ Под ред. С.А. Айвазяна. — М.: Финансы и статистика, 1985. — 487с.

3. Айвазян С.А., Ешоков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных: Справ, изд./ Под ред. С.А. Айвазяна. — М.: Финансы и статистика, 1983. — 487 с.

4. Айвазян С.А., Мхитаряи B.C. Прикладная статистика и основы эконометрики. — М.: ЮНИТИ, 1998. — 1022 с.

5. Алгоритмическое обеспечение задач исследования и оптимизации сложных процессов / А.И. Каплинский, Я.Е. Львович, А.А. Ступаченко и др. — Воронеж: ВГТУД997.

6. Александров В.В., Горский Н.Д. Алгоритмы и программы структурного метода обработки данных. Л.: Наука, 1983. - 209 с.

7. Алексеев О.Г. Комплексное применение методов дискретной оптимизации. М.: Наука. Гл. ред. физ,- мат. лит., 1987. - 248 с.

8. Альянах И.Н. Моделирование вычислительных систем. Л.: Машиностроение. Ленинградское отделение, 1988.

9. Анфилатов B.C. и др. Системный анализ в управлении: Учебное пособие / B.C. Анфилатов, А.А. Емельянов, А.А. Кукушкин; Под. Ред. А.А. Емельянова. — М.: Финансы и статистика, 2002. — 368 с.

10. Ахутин В.М., Немирко А.П., Манило Л.А. Оптимизация принятия решений в АСУ здравоохранения.

11. Бабкин А.П., Старов В.Н. Исследование развития атеросклероти-ческих процессов с использованием принципов системного подхода // Новые информационные технологии. Материалы 4-го научно-практического семинара. — М., 2001. —С.29-39

12. Бабкин А.П., Исаков П.Н., Чопоров О.Н. Моделирование развития атеросклероза на основе нейросетей // Окружающая среда и здоровье человека: Сб. научн. и практ. работ. — Воронеж Старый Оскол, 2000. — С.226-231.

13. Бабкин А.П., Исаков П.Н., Чопоров О.Н. Моделирование развития атеросклероза на основе нейротехнологий // Межвуз. сб. науч. тр. «Высокие технологии в технике, медицине, экономике и образовании», Ч.З. — Воронеж, 2000. — С. 65-70.

14. Бабкин А.П., Львович Я.Е., Минаков Э.В., Чопоров О.Н. Алгоритмизация выбора оптимальной тактики лечения сосудистых поражений. Монография — Воронеж: Новый взгляд, 2002. — 224 с.

15. Бабкин А.П., Мокротоварова О.Ю., Чопоров О.Н. Разработка алгоритмов и моделей управления процессом лечения больных атеросклерозом // Сб. тез. докл. Всерос. конф. «Интеллектуальные информационные системы». — Воронеж, 1999, —С. 175.

16. Бабкин А.П., Чопоров О.Н. Моделирование развития атеросклероза у больных сахарным диабетом // Сб. тез. докл. VI всероссийского съезда кардиологов. — Москва, 1999. — С. 172.

17. Бокс Дж. Дженкинс Г. Анализ временных рядов. Прогноз и управление. — М.: Мир, 1974. — Вып. 1. — 288 е.; Вып. 2. — 197 с.

18. Болдин М.В., Симонова Г.И., Тюрин Ю.Н. Знаковый статистический анализ линейных моделей. — М.: Наука: Физматлит, 1997. — 288 с.

19. Боровиков В.П, Боровиков И.П. STATISTICA. — Статистический анализ и обработка данных в среде Windows. — СПб.: Питер, 2001. — 656 с.

20. Боровиков В.П, Ивченко Г.И. Прогнозирование в системе STATISTICA в среде Windows. Основы теории и интенсивная практика на компьютере: учеб. пособие. — М.: Финансы и статистика, 1999. — 384 с.

21. Бородин В.И., Дмитриенко Л.Б., Федорков Е.Д. Оптимизация управления медицинским обслуживанием населения. -— Воронеж: Изд-во ВГТУ, 1999. — 140 с.

22. Браверман Э.М., Мучпик И.Б. Структурные методы обработки эмпирических данных. — М.: Наука, 1983.

23. Бухштабер В.М., Зелешок Е.А.,, Зубенко А.А. Конструирование интерактивных систем анализа данных. —М.: Финансы и статистика, 1989.

24. Васильков Ю.В., Василькова Н.Н. Компьютерные технологий вычислений в математическом моделировании: Учеб. пособие. — М.: Финансы и статистика, 1999. — 256 с.

25. Векслер JI.C. Статистический анализ на персональном компьютере // МИР ПК. — 1992. — №2. — С. 89-97.

26. Винер Н. Кибернетика, или управление и связь в животном и машине. пер. с англ., 2-е изд., —-М, 1968.

27. Гаек Я., Шидак 3. Теория ранговых критериев. — М.: Наука, 1971. —376 с.

28. Георгий И. Францкевич, Алексей А. Букарев, Валерий П. Костюк Нейросетевые и генетические модели и методы анализа данных, — Саратов: СГТУ, 2006.

29. Глинский В.В., Ионин В.Г. Статистический анализ. Учебное пособие. Издание 2-е, переработанное и дополненное. — М.: Информационно-издательский дом «Филинъ», 1998. — 264 с.

30. Гнеденко Б.В. Курс теории вероятности: учебник. 8-е изд., испр. и доп. — М.: Едиториал УРСС, 2005. — 448 с.

31. Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере. — Н.: Наука, 1996.

32. Гусев А.Н. Дисперсионный анализ в экспериментальной психологии: Учеб. Пособие. — М.: Учебно-методический центр коллектор «Психология», 2000. -— 136 с.

33. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. 3-е изд.: пер. с англ. — М.: Вильяме, 2007. — 912 с.

34. Дубров A.M. Обработка статистических данных методом главных компонент. М.: Статистика, 1978. 305 с.

35. Дюк В., Эммануэль В. Информационные технологии в медико-биологических исследованиях. — СПб.: Питер, 2003. — 528 с.

36. Дюк В.А., Мирошников А.И. Эволюция STATGRAPHICS // МИР ПК, — 1995,—№12.

37. Ешоков И.С. Методы, алгоритмы, программы многомерного статистического анализа. — М.: Финансы и статистика, 1986.

38. Есауленко И.Э., Смелянец А.П. Разработка интегрального показателя состояния здоровья военнослужащих, обслуживаемых военным госпиталем. // Системный анализ и управление в биомедицинских системах. —М., 2006. — №2. — Т.5. — С. 243-246.

39. Жамбю М. Иерархический кластер-анализ и соответствия/Пер. с фр. —М.: Финансы и статистика. 1988.

40. Задачи классификации и их программное обеспечение / B.C. Казанцев. — М.: Наука, 1990.

41. Зацепииа С.А., Львович Я.Е., Фролов В.Н. Теория управления: Учеб. пособие. —Воронеж: изд-во ВГУ, 1989.

42. Калаев В.Н., Калаева Е.А., Артюхов В.Г., Преображенский А.П. Применения кластерного анализа в биологических исследованиях. // Системный анализ и управление в биомедицинских системах. — М., 2007. — №3. — Т.6. — С. 1008-1015.

43. Калаев В.Н., Калаева Е.А., Преображенский А.П., Хореева О.В. Регрессионный анализ в биологических исследованиях // Системный анализ и управление в биомедицинских системах. — М., 2007. — №3. — Т.6. — С. 755-760.

44. Клименко Г.Я., Косолапов В.П., Чопоров О.Н. Методика и результаты преобразования лингвистических характеристик в численные оценки факторов риска // Журн. «Консилиум». — Воронеж, 2001. — №4. — С. 25-28.

45. Клир Дж. Системология. Автоматизация решения системных задач / Пер. с англ; Под ред. А.Н. Горлина. — М.: Радио и связь, 1990.

46. Козлов С.Ю. Процедура минимизации количества признаков для построения модели состояния больных с объемными поражениями головного мозга. // Системный анализ и управление в биомедицинских системах. — М., 2006. — №2. — Т.5. — С. 260-262.

47. Кореиевский Н.А. Построение автоматизированных компьютерных медицинских систем. — Курск: Изд-во КГТУ, 1996 г.

48. Кузнецов С.И. Инвариантное моделирование в медицине на базе кластерного анализа. — Воронеж: Изд-во ВГУ, 1997.

49. Кулаичев А.П. Пакеты для анализа данных // МИР ПК. — 1995. —1.

50. Куташов В.А, Черных О.Н, Чупеев А.Н. Разработка инструментальной системы классификационно-прогностического моделирования и интегральных оценок эффективности // Сборник научных трудов «Вестник». Воронеж: ВГТУ, 2007. —ТЗ. — №1. — С. 149-15Г.

51. Куташов В.А, Черных О.Н, Чупеев А.Н. Разработка подсистемы построения прогностических моделей // Материалы научно-технической конференции «Интеллектуализация управления в социальных и экономических системах». — Воронеж: ВГТУ, 2007. — С. 270.

52. Лазеева М.П., Лопатин А.П. Использование статистических критериев проверки гипотез для оценки информативности факторов. — Кузбасс: Кузбасс, гос. техн. ун-т, 2005.

53. Ларичев О.И., Мечитов А.И., Мошкович Е.М., Фуремс Е.М. Выявление экспертных знаний. — М.: Наука, 1989.

54. Лебедев Н.В. Формирование интегральных оценок эффективности функционирования медицинских систем различного уровня. // Системный анализ и управление в биомедицинских системах. — М., 2007. — №2. — Т.6. — С. 432-434.

55. Литвиенко Ю.В., Пасмурнов С.М., Савченко А.П. Алгоритмы прогнозирования состояния пациента: Монография. — Воронеж: Воронеж, гос. техн. ун-т, 2004. — 126 с.

56. Литтл Р.Дж.А., Рубин Д.Б. Статистический анализ данных с пропусками. — М.: Финансы и статистика, 1991. — 336 с.

57. Львович И.Я., Куташов В.А. Корреляция факторов риска в возникновении биполярных аффективных расстройств при соматической патологии. // Системный анализ и управление в биомедицинских системах. — М., 2007. — №2. — Т.6. — С. 299-301.

58. Львович Я.Е., Фролов В.Н. Системное проектирование технологических процессов. — Воронеж: Изд-во ВГУ, 1980.

59. Львович Я.Е., Юрочкии А.Г., Чурюмов В.А. Микропроцессорные системы автоматизированного контроля производства СВТ. — СПб.: Политехника, 1992. — 203 с.

60. Макаров А.А. Роль и место статистических пакетов программ в курсах математической и прикладной статистики // Тезисы докладов на международной конференции «Информационные технологии в непрерывном образовании». — Петрозаводск, 1995. — С. 127-128.

61. Манд ель И. Д. Кластерный анализ. — М.: Финансы и статистика,1988.

62. Мейер Б., Бодуэн К. Методы программирования: В 2-х томах. Т.1. / Пер. с франц. Ю.А.Первина. Под ред. и с предисловием А.П.Ершова.— М.:Мир, 1992.—456 с.

63. Методы оптимизации в теории управления: Учебное пособие / И.Г. Черноруцкий. — СПб.: Питер, 2004. — 256 с.

64. Мышкис А.Д. Элементы теории математических моделей. — М.: Физматлит, 1994. — 192 с.

65. Наследов А.Д. SPSS: Компьютерный анализ данных в психологии и социальных науках. — СПб.: Питер, 2005. -— 416 с.

66. Никитин Я.Ю. Асимптотическая эффективность непараметрических критериев. — М.: Физматлит, 1995. — 240 с.

67. Основы статистического анализа в медицине: Учебное пособие / В.И. Чернов, И.Э. Есаулепко, С.Н. Сеемнов, Н.П. Сереженко. — Воронеж, 2003. — 113 с.

68. Петропавловский М.В. Классификация учреждений высшего профессионального образования методами дискриминантного анализа. http://edu.nica.ru/library/books/16dlis7wt83q21m2/

69. Плис А.И., Сливина Н.А. Mathcad: математический практикум для экономистов и инженеров: учеб. Пособие. — М.: Финансы и статистика, 1999. —656 с.

70. Попов Э.В. Экспертные системы: Решение неформализованных задач в диалоге с ЭВМ. — М.: Наука. Гл.ред.физ.-мат.лит., 1987. — 187 с.

71. Прикладная статистика: классификация и снижение размерности. Справ, изд. / Айвазян С.А. Бухштабер В.М., Енюков И.С., Мешалкин Л.Д.; Под. ред. Айвазяна С.А. — М.: Финансы и статистика, 1989. — 607 с.

72. Прикладной статистический анализ данных // Алексахин С.В., Балдин А.В., Криницин В.В. и др. / Под ред. Криницина В.В. — М.: Изд-во ПРИОР, 1998.

73. Рог А.И. Классификация медико-биологических объектов и их состояний на основе пепараметрических методов математической статистики. — Воронеж: Изд-во Водолей, 2005. — 35 с.

74. Рыков А.С. Модели и методы системного анализа: принятие решений и оптимизация. — М.: МИСИС, 2005. — 352 с.

75. Сигорский В.П. Математический аппарат инженера. — М.: Техника, 1977. —768 с.

76. Сирота А.А. Компьютерное моделирование и оценка эффективности сложных систем. — М.: Техносфера, 2006. — 280 с.

77. Смелянец А.П. Формирование прогностических моделей для управления медицинской помощью военнослужащим на базе военного госпиталя. // Системный анализ и управление в биомедицинских системах. — М., 2006. — №2. — Т.5. — С. 238-241.

78. Современные методы математического моделирования экономических и социальных процессов: монография / Н.В. Концевая, Ю.Г. Просвирин, О.А. Скрипников, B.JI. Хацкевич. — Воронеж: Всерос. заочный финансово-экономический ип-т, 2006. — 268.

79. Сойер Б., Фостер Д.Л. Программирование экспертных систем на Паскале: Пер с англ. —М.: Финансы и статистика, 1990. — 191 с.

80. Справочник по прикладной статистики: в 2 т. / под. ред. Э. Ллойда, У. Ледермана, Ю.Н. Тюрина. —М.: Финансы и статистика, 1989, 1990.

81. Статистические методы для ЭВМ / Под ред. К.Энслейна, Э.Релстона, Г.С.Уилфа: Пер. с англ. / Под ред М.Б.Малютова. — М.: Наука. Гл. ред. физ.-мат. лит., 1986. —464 с.

82. Судаков О.В. Построение прогностической математической модели, базирующейся на параметрах сердечного ритма для оценки тяжести сердечных заболеваний. // Системный анализ и управление в биомедицинских системах. — М., 2007. — №1. — Т.6. — С. 201-209.

83. Тарасик В.П. Математическое моделирование технических систем: Учебник для вузов. — М.: ДизайнПРО, 1997. — 640 с.

84. Таунсенд К., Фохг Д. Проектирование и программная реализация экспертных систем на персональных ЭВМ: Пер. с англ. / Предисл. Г.С. Оси-пова. — М.: Финансы и статистика, 1990. — 320 с.

85. Темников Ф.Е. Теоретические основы информационной техники. — М.: Энергия, 1979, —511с.

86. Терехина А.Ю. Анализ данных методами многомерного шкалирования. — М.: Наука, 1978.

87. Терехов С.А., Квичапский А.В., Федорова Н.Н., Диянкова Е.В., Диянкова С.А., Чупрунов A.M. Нейронные сети в моделировании сложныхинженерных систем. // Научно-практическая конференция «Дни науки-2001»,1. Озерск, 2001

88. Томас Р. Количественные методы анализа хозяйственной деятельности. / Пер. с англ. — М.: Изд-во Дело и Сервис, 1999. — 432 с.

89. Тутубалип В.Н. Теория вероятности и случайных процессов. — М.: Изд-во МГУ, 1992. — 400 с.

90. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: Учебное пособие. — 4-е изд., перераб. — М.: ИД «ФОРУМ», 2008. — 368 с.

91. Уотермаи Р.Д., Лепат Д., Хейсе-Рот Ф. Построение экспертных систем: Пер. с англ. — М.: Мир, 1987. — 491 с.

92. Факторный, дискриминантный и кластерный анализ. — М.: Финансы и статистика, 1989. — 215 с.

93. Федорков Е.Д. Моделирование и оптимизация дуальных динамических объектов в медицине. — Воронеж: Изд-во ВГТУ, 1997.

94. Фролов В.Н. Моделирование и оптимизация сложных систем (избранные главы). — Воронеж: Изд-во ВГТУ, 1997. — 151 с.

95. Фролов В.Н., Львович Я.Е., Подвальный С.Л. Проблемы оптимизации выбора в прикладных задачах. — Воронеж: Изд-во ВГУ, 198 с.

96. Халафян А.А. STATISTICA 6. Статистический анализ данных. 3-е изд. Учебник. —М.: Бином-Пресс, 2008. — 512 с.

97. Чесиокова И.В. Программа для ЭВМ, обеспечивающая автоматизированную диагностику и подбор индивидуальной терапии артериальной гипертензии. // Системный анализ и управление в биомедицинских системах.

98. М.,2007. —№1. —Т.6. —С. 236-239.

99. Чопоров О.А. Оптимизация функционирования медицинских систем на основе интегральных оценок и классификационно-прогностического моделирования: Дис. . доктора тех. наук: 05.13.01, Науч. консульт. Я.Е. Львович — Воронеж: ВГТУ, 1999.

100. Ширяев А.Н. Основы стохастической финансовой математики. Т1. Факты. Модели. — М.: ФАЗИС, 1998. — 512 с.

101. Ширяев А.Н. Основы стохастической финансовой математики. Т2. Теория. — М.: ФАЗИС, 1998. — 554 с.

102. Шураков В.В., Дайтбегов и др. Автоматизированное рабочее место для статистической обработки данных. — 1990. — 189 с.

103. Эддоус М., Стеисфилд Р. Методы принятия решения / пер. с англ.; Под ред. член-корр. РАН И.И. Елисеевой. — М.: Аудит, ЮНИТИ, 1997. — 590 с.

104. Элти Дж., Кумбс М. Экспертные системы: концепции и примеры / Пер. с англ. и предисл. Б.И. Шатикова. М.: Финансы и статистика, 1987.

105. Яковлев А.Г1. Автоматизированные информационные системы в условиях многопрофильного стационара / А.П. Яковлев, А.П. Столбов, М.И. Бурмистрова и др. — М., 2000. — 176 с.

106. Ярошепко А.Н. Оценка качества и эффективности работы многопрофильной больницы // Здравоохранение Российской Федерации, 1996. — №6. — С. 36-37.

107. Aczel A.D. Complete business statistics. 3rd ed. — Richard D. Irwing, 1996. —869 p.

108. Azen S., Van Guilder M. Conclusions regarding algorithms for handling incomplete data. // Proceedings of the Statistical Computing Section, American Statistical Association, 1981. — p. 53-56.

109. Breiman L., Friedman J.H., Olshen R.A., Stone C.T. Classification and Regression Trees. — Belmont, California: Wadsworth, 1984.

110. Cox D.R. Regression models and life-tables // J.Royal Stat.Soc. — 1972. —V. 34. — P. 187-202.

111. David M.H., Little R.J.A., Samuhel M.E., Triest R.K. Imputation methods based on propensity to respond. // American Statistical Association, 1983.

112. Dempster A.P., Laird N.M., Rubin D.B. Maximum likelihood estimation from incomplete data via the EM Algorithm // Statist. — Soci, 1977. — p. 1-38.

113. Everit B. A Hadboolc of Statistical Analysis using S-PLUS. — Chapman & Hall, 1994. — 143 p.

114. Haitovsky Y Missing data in regression analysis. // Statist. — Soci, 1968. —p. 67-81.

115. Hanlce J.E., Reitsch A.G. Business forecasting. 6th ed. — Prentice-Hall, Inc., 1998. —581 p.

116. Hunt E.B., Marin J., and Stone P.T. Experiments in Induction. — New York: Academic Press, 1966.

117. Ivandic M., Hermann W., Guder W.G . Development and evalution of urine protein expert system // Clin.I Chem. — 1996. — V. 42. —P. 1214-1222.

118. Kim J.O. Curry J. The treatment of missing data in multivariate analysis. 11 Social Meth. — 1977. — Res. 6. — p. 215-240

119. Knowledge Acquisition tools for expert systems / ed.J.H.Boose and B.R.Gaines. London San Diego N.Y. Berkley Boston Tokyo Toronto Academic Press. — 1988.—V.1;V.2.

120. Machine Learning, Neural and Statistical Classification. Editors: D. Michie, D.J. Spiegelhalter, C.C. Taylor, 02/17/1994.

121. Quinlan J.R. C4.5 Programs for Machine Learning. Morgan Kaufmann, San Mateo —California, 1993.

122. Safran C. Using routinely collected data for clinical resarch // Stat.Med —1991. —V. 10.—P. 559-564.

123. Schiebcr S.J. A comparison of three alternative techniques for allocating unreported social security income on the Survey of the Low-Income Aged and Disabled. // American Statistical Association, 1978. —p. 212-218.

124. Spector P. An introduce to S and S-PLUS. — Duxbury Press, 1994. —286 p.

125. Van Bemmel J.H.Formalization of medical knowledge the diagnostic strategies and expert systems // Van Bemmel JH, Gremy F, Zvarova J, eds. Medical Decision Making: Diagnostic Strategies And Expert System. — Elsevier Science Publishers BV, 1985.

126. Venables M.N., Ripley B.D. Modern Applied Statistics with S-PLUS. Springer-Verlag, 1994. — 462 p.

127. Wasserman P. Neurocomputing. Theory and practice, Nostram Rein-hold, 1990. (Рус. перевод. Ф. Уоссермэн. Нейрокомпьютерная техника. —М.: Мир, 1992).о внедрении результатов научной работы Чупеева А.Н. в учебный процесс

128. Настоящий акт составлен в том, что на основании исследований, проведенных автором, получены следующие результаты:

129. Разработаны алгоритмы анализа значимости признаков в зависимости от характера решаемой задачи: классификация или прогноз.

130. Предложены процедуры формирования интегральных показателей, позволяющих получать комплексную оценку на основе нескольких составляющих, как с учетом значимости показателей, так и с учетом характера их изменения.

131. Разработан программный комплекс предварительной обработки статистических данных, реализующий предложенные модифицированные алгоритмы.

132. Зав. кафедрой ТАСЭМ « I о » tjMtTj 2008 г.1. О.Н. Чопоров

133. Начальник отдела методического обеспечения учебного процесса « . о » с-I л-гл Г/-* 2008 г.1. А.И. Гончеренко1. Главнглавный врач Воронежской областной1. УТВЕРЖДАЮ»о внедрении результатов на>

134. Чупеева Андрея Николаевича1. АКТ

135. Настоящий акт составлен в том, что на основании исследований, проведенных автором, получены следующие результаты:

136. Результаты научной работы используются в практике кардиологического отделения Воронежской областной клинической больницы, что позволило значительно повысить качество оказания медицинской помощи.

137. Зав. кардиологическим отдел* д.м.н., профессор

Похожие работы

Информатика, вычислительная техника и управление
05.13.00