автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Повышение эффективности принятия решений в распределенной системе на основе гибридного подхода в анализе данных

кандидата технических наук
Мутина, Елена Игоревна
город
Москва
год
2008
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Повышение эффективности принятия решений в распределенной системе на основе гибридного подхода в анализе данных»

Автореферат диссертации по теме "Повышение эффективности принятия решений в распределенной системе на основе гибридного подхода в анализе данных"

На правах рукописи

МУТИНА ЕЛЕНА ИГОРЕВНА

ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ ПРИНЯТИЯ РЕШЕНИЙ В РАСПРЕДЕЛЕННОЙ СИСТЕМЕ НА ОСНОВЕ ГИБРИДНОГО ПОДХОДА В АНАЛИЗЕ ДАННЫХ

Специальность 05 13 01 - Системный анализ, управление и обработка

информации (приборостроение)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

00317'02Э7'

Москва -2008

003170297

Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Московский государственный технологический университет «СТАНКИН»

Научный руководитель доктор технических наук, профессор Ковшов Евгений Евгеньевич

Официальные оппоненты доктор технических наук, профессор Фролов Евгений Борисович

кандидат физико-математических наук, доцент Конев Федор Борисович

Ведущая организация Институт конструкторско-технологической информатики Российской академии наук (ИКТИ РАН)

Защита состоится « // » 2008 г в часов на заседании

диссертационного совета Д 217 047 01 при ФГУП "Научно-исследовательский и экспериментальный институт автомобильной электроники и электрооборудования" (ФГУП НИИ АЭ) по адресу 105187, г Москва, ул Кирпичная, 39-41

Отзыв по работе, заверенный печатью, в 2-х экземплярах просьба направлять по указанному адресу в диссертационный совет

С диссертацией можно ознакомиться в библиотеке ФГУП НИИАЭ

Автореферат разослан « /Г » 2008 г

Ученый секретарь , диссертационного совета ----,д ~--

кандидат технических наук 2—-ч^ Л И Мартинова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. В настоящее время автоматизированные информационные системы широко используются во многих учреждениях и на предприятиях России Информационная система (ИС) - это распределенный программно-аппаратный комплекс, обеспечивающий целостное электронное информационное пространство для субъектов документооборота Основной задачей оптимизации бизнес-процессов любого предприятия является поддержка механизмов принятия решений, ориентированных в первую очередь на решение задач, носящих неявный характер Например, в банковской сфере это - оценка кредитоспособности клиентов банка при выдаче кредитов, в розничной торговле - выявление товаров для их группового продвижения и анализ потребительской корзины, прогнозирование спроса, в промышленности - контроль за качеством продукции, в медицинской области это - задачи, связанные с лечебно-диагностическим процессом и, в первую очередь, - прогнозом состояния здоровья пациента С целью проведения научных исследований по диссертационной работе в качестве базовой выбрана медико-техническая система, поскольку наиболее актуальной на сегодняшний день и иллюстративной является задача выбора эффективных методов лечения больных как в условиях амбулатории, так и в условиях стационара

Задачи, имеющие неявный характер, решаются явными методами с точностью и удобством, совершенно недостаточными для широкого практического использования в конкретных задачах прогнозирования и принятия решений Неявные задачи явились идеальным полем для применения интеллектуального анализа данных (ИАД) В этой связи предлагается создание системы поддержки принятия решений (СППР) на основе метода деревьев решений, который имеет некоторые преимущества наряду с другими методами ИАД для решения рассматриваемых задач

Тем не менее, важным является тот факт, что применение ИАД над данными, представленными с помощью систем OLAP (On-line Analytical Processing) в виде реального или виртуального информационного гиперкуба, во многих случаях может оказаться эффективнее, а главное - гораздо более тесно интегрированным в единую информационно-аналитическую систему Таким образом, необходимо использовать гибридный метод анализа данных, построенный на совместном применении метода деревьев решений и OLAP-анализа

Цель работы. Повышение эффективности принятия решений в распределенной системе за счет включения в ее состав системы поддержки принятия решений, реализованной на основе гибридного подхода в анализе данных, включающего в себя современные математические средства и информационные технологии

Методы исследований При решении задач, поставленных в работе, были использованы основные положения организации управленческого бизнес-процесса предприятия, методы интеллектуального анализа данных, для разработки моделей и алгоритмов проектирования - теории баз данных и хранилищ данных (ХД), а для программной реализации - структурного и объектно-ориентированного программирования

Научная новизна. Научная новизна диссертационной работы заключается в следующих положениях

1 Определен новый подход к повышению эффективности принятия решений в распределенной системе, заключающийся в использовании гибридного метода анализа данных, построенного на совместном применении интеллектуального и ОЬАР-анализа данных

2 Разработан метод анализа данных для повышения качества и быстрого выявления скрытых взаимосвязей, учитываемых при принятии решений в задачах, связанных с лечебным процессом, на основе многомерного представления данных и применения аппарата деревьев решений

3 Определена структура СППР, обеспечивающая эффективную интеграцию методов, моделей и алгоритмов рационального принятия решения с применением мобильных информационных средств и технологий Практическая ценность работы заключается в повышении эффективности принятия решений в распределенной системе за счет их улучшения, а также - сокращения времени, затрачиваемого на их принятие

Реализация результатов работы Методики повышения эффективности принятия решений в распределенной системе путем применения гибридного метода интеллектуального анализа данных применяются в информационной системе медицинского консультативно-диагностического центра (г Москва) Кроме того, определена целесообразность использования разработанных методик в управлении бизнес-процессами малого предприятия ООО «Компьютерные системы и технологии» (г Москва) Упомянутые выше методики внедрены в учебный процесс ГОУ ВПО МГТУ «Станкин», используются при подготовке

магистрантов по направлению 220200 «Автоматизация и управление» магистерской программы 220200 68-20 «Человеко-машинные системы управления» и применяются в качестве научной основы при разработке курса лекций и практических занятий по специальной дисциплине «Интеллектуальные системы обработки информации»

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на расширенных заседаниях кафедры «Биотехническая кибернетика» и научных семинарах в ГОУ ВПО МГТУ «Станкин», а также - международных и всероссийских научно-технических конференциях VIII научной конференции МГТУ «Станкин» и «Учебно-научного центра математического моделирования МГТУ «Станкин» - ИММ РАН» (Москва, ГОУ ВПО МГТУ «Станкин», 2006 г), VIII Международной конференции «Производство Технология Экология ПРОТЭК'05» (Москва, ГОУ ВПО МГТУ «Станкин»,

2005 г), V Международной научно-технической конференция «Информационно-вычислительные технологии и их приложения» (Пенза, МНИЦ ПГСХА,

2006 г), V Международной научно-технической конференции «Управление в социальных и экономических системах» (Пенза, МНИЦ ПГСХА, 2006 г)

Публикации. По теме диссертационной работы опубликованы 6 научных работ, включая тезисы докладов, подготовленных для международных и региональных научно-технических конференций

Структура и объем. Диссертация состоит из списка сокращений, введения, четырех глав, основных результатов и выводов, списка используемой литературы из 73-х наименований и 2-х приложений, изложена на 136 страницах машинописного текста, включая 33 рисунка и 8 таблиц

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, сформулированы цели и задачи работы, определена практическая значимость, приведены сведения об апробации и внедрении работы

В первой главе диссертации проанализировано современное состояние развития медицинских информационных систем (МИС) Рассмотрены основные виды МИС, входящие в состав распределенной системы лечебно-профилактического учреждения (ЛПУ), номенклатура информации, содержащейся в них, а также - применение СППР и их недостатки

Информационная система ЛПУ является распределенной, поскольку в ее составе функционирует более одного сервера баз данных и приложений, с целью уменьшения нагрузки на основной сервер и обеспечения работы территориально удаленных подразделений Структура распределенной системы ЛПУ представлена на рис 1

Лечебное отделение

Приемный покой

Отделение Реанимации

Кабинет врача

<3?-

Регистратура

Отделение Анестезиологии

Старшая сестра | окно выдачи больничных листов

Стационар

Отделение Кардиореанимации

'4

ы

Ч

Ч'

ИСЛПУ

Бухгалтерия Отдел кадров ,, , у н ,-)тдег1 медициискои

статистики

Консультативно Диагностический центр

Смотровой кабинет

Привиаочныи кабинет

4

Кл и н и ко д иа гн ости ч ее пая лаборатория

Микробиологическая лаборатория

Экспресс Лаборатория

Склад Диспетчерская Охрана Аптека ОФД Компьютерная Отделение Отделение УЭИ томография Эндоскопии

Лаборатория

Рис 1 Структура распределенной системы ЛПУ Системы поддержки принятия решений представляют собой сложные программно-аппаратные комплексы, предназначенные для помощи лицам, принимающим решения (ЛПР), при управлении сложными объектами и процессами различной природы СППР относятся к классу интеллектуальных систем, сочетающих точные математические методы и модели поиска решения с неточными, эвристическими методами и моделями, базирующимися на экспертных знаниях, моделях человеческих рассуждений, неклассических логиках и накопленном опыте

Очевидно, что чем больше информации используется в процессе принятия решений, тем более обоснованное решение может быть принято Информация, на основе которой принимается решение, должна быть достоверной, полной, непротиворечивой и адекватной Как правило, при организации СППР используются ХД, которые выполняют функции предварительной подготовки и хранения данных для СППР на основе информации из автоматизированной системы управления организацией, а также информации из сторонних источников

Практика принятия решений показала, что существует зависимость между частотой запросов и степенью агрегированности данных, с которыми запросы оперируют чем более агрегированными являются данные, тем чаще запрос выполняется Это наблюдение легло в основу подхода к поиску и выборке данных, называемого «оперативная аналитическая обработка» (OLAP) В основе OLAP лежит понятие гиперкуба, или многомерного куба данных, в ячейках которого хранятся анализируемые (числовые) данные

В диссертационной работе рассматривается математическая модель системы поддержки принятия решений, основанная на использовании ХД

Информация в ХД хранится в гиперкубах, каждый из которых состоит из следующих частей

• D = = 1д|-множество измерений, каждое из которых имеет

свое имя D] и определено на домене dont,,

• элементы, определенные как отображение Е(С) из множества domv ,domk в п - элементный кортеж, 0 или 1,

• метаданные, описывающие название и назначение каждой составляющей в n-элементных кортежах, которые могут являться элементами гиперкуба Элементами гиперкуба могут быть п - элементный кортеж (Xv , Х„ ), О

или 1 Если элемент E(C)(di, , dj) равен 0, это означает, что указанная комбинация значений по соответствующим измерениям отсутствует в БД Значение 1, напротив, показывает наличие такой комбинации значений измерений Наконец, если элемент гиперкуба представляет собой n-элементный кортеж, то в БД имеется дополнительная информация, соответствующая указанной комбинации

Пример гиперкуба представлен на рис 2

Описание операторов, применяемых к гиперкубам, приводится с применением математического аппарата реляционной алгебры, учитывая, что модель самого гиперкуба также является реляционной

Пацие:

\лучшение \\\дшсние

Результат наблюдения

Рис 2 Гиперкуб результатов наблюдений В работе проведен анализ существующих систем управления базами данных для реализации хранилища данных и выбрана Microsoft SQL Server 2005, которая содержит OLAP-средства (Analysis Services)

Проведенный анализ показал, что оперативная аналитическая обработка (OLAP), как составная часть процесса принятия решений, заостряет внимание только на обеспечении доступа к многомерным данным и не способна производить поиск скрытых закономерностей в данных

Таким образом, существует необходимость не в новой технологии БД, а в средствах анализа информации для того, чтобы предусмотреть и автоматизировать разные виды интеллектуального анализа, присущие OLAP

Отсюда, целью диссертационной работы является повышение эффективности принятия решений в распределенной системе путем применения современных математических, информационных средств и технологий

Для достижения поставленной цели в работе были решены следующие научные задачи

1 Выявлены факторы, влияющие на качество принятия решений в распределенной системе, с целью определения совокупности методологических, математических и информационных средств

2 Обработан и проанализирован массив информации в виде совокупности слабоструктурированных данных и реляционных таблиц, выявлены факторы, оказывающие непосредственное влияние на формирование управленческих решений

3 Проанализированы существующие методы ИАД и определен наиболее эффективный для решения задач, имеющих неявный характер

4 Разработана методика построения логической и физической моделей структур ХД

5 Разработана математическая модель дерева решений

6 Реализованы программные средства СППР с применением гибридного подхода в анализе данных и ее структуры для различных классов мобильных вычислительных устройств

Во второй главе проводится анализ методов интеллектуального анализа данных, выполняется экспертная оценка методов, формируется математическая модель прогнозирования на основе деревьев решений В работе отмечается, что первые идеи создания деревьев решений восходят к работам Ховленда (Hoveland) и Ханта (Hunt) конца 50-х годов XX века Однако, основополагающей работой, давшей импульс развитию этого направления, стала научная работа Ханта (Hunt, ЕВ), Мэрина (Marin J ) и Стоуна (Stone Р J) "Experiments in Induction", вышедшая в свет в 1966 году

ИАД - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации) Оперативная аналитическая обработка и интеллектуальный анализ данных - две составные части процесса поддержки принятия решений Но сегодня большинство систем OLAP акцентирует внимание только на обеспечении доступа к многомерным данным, а большинство средств ИАД, работающих в сфере закономерностей, имеют дело с одномерными перспективами данных Эти два вида анализа (рис 3) должны быть тесно объединены, то есть системы OLAP должны фокусироваться не только на доступе, но и на поиске закономерностей

Средство многомерного интеллектуального анализа данных должно на-

Рис 3 Архитектура системы многомерного ИАД

ходить закономерности как в детализированных, так и в агрегированных с различной степенью обобщения данных

Исследование методов ИАД в ИС показало, что деревья решений являются наиболее эффективными для решения задач, имеющих неявный характер, в частности, медицинских задач Деревья решений — это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение

С точки зрения рассматриваемой области среди алгоритмов, реализующих деревья решений, CART (Classification And Regression Trees) является наиболее предпочтительным, так как он позволяет решать не только задачи классификации, но и регрессии

В алгоритме CART каждый узел дерева решений имеет двух потомков На каждом шаге построения дерева правило, формируемое в узле, делит заданное множество примеров (обучающую выборку) на две части - часть, в которой выполняется правило и часть, в которой правило не выполняется Для выбора оптимального правила используется функция оценки качества разбиения, которая базируется на интуитивной идее уменьшения нечистоты (неопределенности) в узле В алгоритме CART идея 'нечистоты' формализована в индексе Gini Если набор данных Т содержит данные п классов, тогда индекс Gim определяется как

где р1 — вероятность (относительная частота) класса / в Т Если набор Т разбивается на две части Т{ и Т2 с числом примеров в каждом Л^ и Лг2 соответственно, показатель качества разбиения равен

Наилучшим считается то разбиение, для которого Огт ш (Г) минимально

Обозначим N - число примеров в узле - предке, I, К — число примеров соответственно в левом и правом потомке, /( и г( - число экземпляров /-го класса в левом и правом потомке Тогда качество разбиения оценивается

Gini (Г) = 1 - р,2,

(1)

Gmlsph, (7> ^Gm(r^+lLGlm(г2}

(2)

split

(3)

где

2 Д

R + —

N

Так как умножение на константу не играет роли при минимизации, возможны следующие преобразования критерия выбора

L1

Rtt

Gini

'sph!

• Ш1П,

(4)

(5)

(6) (7)

Gsp„, max,

Таким образом, лучшим будет то разбиение, для которого величина Gspi„ максимальна

В третьей главе рассмотрена архитектура построения СППР на основе дерева решений для ЛПУ, произведено моделирование структур данных для прогнозирования, разработана логическая модель (ER-диаграмма) дерева решений

Для решения поставленной задачи разрабатывается СППР для ЛПУ на основе ИАД, в частности, - деревьев решений Программный комплекс направлен, в первую очередь, на помощь участковому терапевту ЛПУ в оценке своевременности, эффективности и качества проведения диспансерного наблюдения за пациентами

Бизнес-процесс принятия решения врачом о методе лечения больного представлен в виде ВР-диаграммы на рис 4

В результате реинжиниринга бизнес-процесса (рис 5) минимизируются время поиска и анализа информации, необходимой для принятия решений за счет автоматизации основных аналитических операций, показанных на рис 4

Рис 4 Бизнес-процесс принятия решения AS-IS

а-

3

Рис 5 Бизнес-процесс принятия решения ТО-ВЕ Результат выполнения гибридного анализа данных позволяет ощутимо

улучшить принимаемые решения Информация необходимая для анализа извлекается из баз данных распределенной ИС ЛПУ Интегрируемые данные из разных источников трансформируются в соответствии с целевой моделью данных и помещаются в ХД, логическая модель которого представлена на рис б

Ли ]|1L I Ii I

Ф|М11П|1Я

Ими

Kiij Jи и no 11 Пии

Д|и рол "К Ш'Й

П|111(|>1 [НЛНОСТЬ

klU l!JVJIIII\ npillll I lu I —

I <M II

Лит

ß|X шы npilUI 1 Ihll

Лимонь

llipKDIIIK

Рис 6 Логическая модель хранилища данных Рассмотрим процесс определения состояния пациента в зависимости от различных параметров Для решения этой задачи необходимо обнаружить закономерности в данных Построенное на основе указанного гиперкуба дерево решений, поможет управляющему персоналу ЛПУ выявить скрытые взаимосвязи между возрастом пациента, его полом, диагнозом, анамнезом, вредными привычками, принимаемыми лекарствами и другим параметрами и состоянием пациента, его шансами на улучшение самочувствия

Данная задача будет состоять из двух процессов обучение модели (которое выполняется однократно и требует относительно много времени) и принятие решения о том, относится ли пациент к категории с большей вероятностью улучшения состояния, ухудшения или состояния без изменений

Итак, в качестве исходных данных для обучения модели использовался набор данных о 140600 пациентах, состоящих на диспансерном учете по одному из 12-ти заболеваний, и их обследованиях, занесенных в хранилище данных Для создания дерева решений использовался инструмент администрирования аналитических служб Microsoft SQL Server 2005 Analysis Services и применяется алгоритм Microsoft Décision Trees

Первоначальное разбиение дерева решений представлено на рис 7

АН

Pol = M

Pol = Ж

Diagnoz гипертоническая болезнь = нет

Diagnas гипертоническая /

болезнь = да

Diagnoz гипертоническая / болезнь = нет_^

U \

Diagnos гипертоническая болезнь =дэ_

Attributes

Value Cases Probability

(Node Total) 140 600 loo 00°Л

улучшение SS 973 39 81%

ухудшение 36 8S1 26 21%

без изменений 47 748 33 96%

mrssinq 28 0 02%

Рис 7 Дерево решений Если выбрать Pol = м и Diagnoz гипертоническая болезнь = нет, то далее проверяется следующее заболевание и т д (рис 8) Если конкретный диагноз оказывается положительным, то проверяется следующий параметр (рис 8)

Diagnoz цирроз печени = нет

Diagnoz гипертоническая /

болезнь = нет

Diagnoz ревматизм - нет

Diagnoz цирроз печени = да

\

Diagnoz ревматизм = дз ProfWednost = да

\ Profwednost = нет

Attributes

Value Cases Probability

(Node Total) 116 800 100 00%

улучшение 47 234 40 44%

ухудшение 28 628 24 Sl%

без изменений 40 927 35 04%

missinq 11 0 01%

Рис 8 Дерево решений (продолжение)

После проверки профессиональной вредности берется критерий «вредные привычки пациента», и далее строится дерево по исследуемым критериям В нашем случае это* возраст пациента, дата постановки диагноза, анамнез, доза прописываемого лекарственного препарата, результаты обследований

Таким образом, пример правил классификации данных выглядит следующим образом

• если пациент женщина 30 лет без вредных привычек, с хорошими результатами обследования, принимающая назначенное врачом лекарство в определенной дозе, болеет гипертонической болезнью, то ее состояние с течением времени улучшится,

• если пациент женщина 64 лет, злоупотребляющая алкоголем, с выявленной множественной патологией, принимающая назначенное врачом лекарство в определенной дозе, болеет гипертонической болезнью, то ее состояние с течением времени ухудшится

Рассмотрена схема репликации данных Репликация данных из системы в другие подсистемы позволяет пользователям подсистем обращаться к локальной копии данных вместо доступа к центральному серверу в режиме «оп-1ше» Механизм репликации данных позволяет передавать определенные наборы

данных на отдельный сервер для подготовки отчетов Кроме того, репликация данных может дополнять стратегию восстановления в случае сбоя, дублируя данные локального сервера базы данных на удаленный сервер

Для того чтобы обеспечить работу всех пользователей в едином информационном пространстве, необходимо решить задачу согласования данных на различных серверах Анализ моделей репликации данных позволил в качестве наиболее рационального выбрать репликацию транзакций, схема которой пред-

Рис 9 Схема репликации данных Репликация транзакций может быть использована для копирования объектов двух различных типов таблиц или хранимых процедур Выбранные транзакции копируются в базу данных дистрибьютора с сохранением информации о последовательности их выполнения Затем эти транзакции рассылаются подписчикам и выполняются на них в том же порядке, в котором они выполнялись на издателе Изменения, сделанные на издателе, передаются подписчикам постоянно или с определенными интервалами При выполнении репликации транзакций исключаются конфликты обновления, так как все изменения выполняются на издателе

При репликации транзакций подписчик может периодически (например, два раза в сутки) связываться с дистрибьютором и загружать выполненные на издателе транзакции При таком подходе резко снижается объем передаваемых данных и, как следствие, повышается производительность репликации

В четвертой главе построена компонентная структура приложения для СППР, рассмотрены реализация и назначение структуры прикладного интерфейса, дана оценка эффективности от применения разработанной СППР

Программный комплекс СПГТР структурно состоит из двух частей - клиентской и серверной (рис 10)

Клиент

Инструкции^

Клиентское приложение

^jj1 Данные

OLE DB, ADO

Инструкции!

^Данные

PivotTable Service

Инструкции!

Сервер

OLAP-куб

т

Данные

Analysis Server

Рис 10 Структурная схема СППР Клиентские OLAP-средства представляют собой приложения, осуществляющие вычисление агрегатных данных (сумм, средних величин, максимальных или минимальных значений)

Клиентское приложение может быть запущено не только на стационарных компьютерах, но и на карманном персональном компьютере (КПК) или коммуникаторе врача Используется технология корпорации Microsoft для разработки приложений на платформе NET Framework посредством языка программирования С#

На основе КПК формируются мобильные рабочие места врача, позволяющие получать информацию из баз данных и аналитических гиперкубов и давать рекомендации врачу с любого места, где проходит обследование, а также получать результаты интеллектуального анализа данных и принимать на их основе решения

На главной форме программы предоставляется возможность выбрать способ анализа по параметрам для всех пациентов с одним диагнозом или по конкретному пациенту При выборе первого появляется форма, представленная на рис 11 слева, а при выборе второго - справа

Форма, представленная на рис 11 справа, отображает такие данные о пациенте как дата рождения, диагноз, дата постановки диагноза, наличие проф-вредности и вредных привычек, анамнез Результатом выбора конкретного пациента будет построение диаграммы, представленной справа на рис 12, которая отражает количество улучшений состояния больного, ухудшений или состояний без изменений, в процентах от общего количества наблюдений для каждого медикамента

Выберите параметры: |По_л: 0 профвредность курение алкоголь наркотики Диагноз]_

| Лекарства: ¡Овсе

36) определенное

Бурцев Максим Русланов! м

Васильев Юрий Григорьее м

-IK Олег Викторов м

3*тюгов Артём Юрьевич и

Власов Д.нис Викторов н

Волгин Арссний Ан»топьо м Горбатов Александ Русланов! м

Гудилина Алиса .Михайлов ж

Гура Роман Петрович м

Гуское Михаил Валерьев! м

Рис. 11. Экранные формы анализа по параметрам (слева) и/или по пациентам (справа) Результатом выполнения запроса левой формы (рис. 11) будет построение диаграммы зависимости состояния пациентов от выбранного метода лечения (рис. 12, слева).

Рис. 12. Экранные формы «Результаты выполнения запросов» Работа клиентской части поддерживается на мобильных платформах Pocket PC 2002 и Windows СЕ или совместимых с ними.

Обращение к данным в хранилище осуществляется с помощью запросов. Одни запросы нужны для того, чтобы отобразить необходимые данные на фор-

ме для выбора врачом параметров Данные собираются из нескольких таблиц, находящихся на сервере

Второй вид запроса строит модель дерева, производит обучение и извлекает результат из аналитической службы сервера для построения диаграмм Для поддержки аналитических служб в приложениях используются объектные модели клиентской части Analysis Services — Decision Support Objects (DSO) и PivotTable Service

Эффективность применения СППР и прогнозирования метода лечения можно оценить по следующим направлениям

1) Сокращение времени принятия решений о методах лечения пациента, находящегося на диспансерном учете за счет сокращения времени доступа к ХД и автоматизации основных аналитических операций

Время подключения к БД напрямую зависит от объема ХД

В связи с этим существует формула для определения объема ХД

(8)

ЛеЯ js/i,

где Я - множество пациентов, информация о которых находится в ХД, heH, Nh - множество документов, имеющихся в ХД по каждому пациенту h, j е Nh, V - объем j -ой информации по пациенту h, j е Nh, Vsp - объем документов справочника, Vgr - объем документов с графической и видеоинформацией

Время принятия решения до внедрения СППР складывалось из времени подключения к распределенной системе ЛПУ, времени просмотра и анализа данных о пациентах врачом, и которое в среднем было равно 15 минут Время принятия решения после внедрения - из времени подключения к системе, анализа информации с помощью ЭВМ и времени просмотра результатов анализа врачом За счет сокращения времени доступа к ХД с начального значения 3 мин до 1 мин и времени анализа информации, принятие решения, например, участковым врачом о лечении пациента сократилось до 4 минут Таким образом, время принятия решения сократилось в 3,75 раза

2) Улучшение качества жизни пациента за счет применения интеллектуального метода анализа данных

Если рассмотреть динамику состояний пациентов до внедрения системы

и после, то прослеживается увеличение улучшений состояний на 10%, без изменений на 25% и уменьшение ухудшений на 17%

Одним из самых главных качественных результатов является то, что у врача, несущего наибольшую ответственность за состояние здоровья пациента, имеется полное представление о больном, поскольку он сам оперативно организует и контролирует его диагностику и лечение

В работе проведен анализ экономической эффективности разработанного ПП, который показал, что использование данного ПП позволяет не только повысить эффективность работы подразделения, но и получить при этом дополнительную чистую прибыль

ОБЩИЕ ВЫВОДЫ

На основании проведенных в работе исследований получены следующие результаты

1 Решена актуальная научная задача, имеющая существенное значение для повышения эффективности принятия решений в распределенной системе на основе гибридного подхода в анализе данных

2 Выявлены факторы, влияющие на качество принятия решений в распределенной системе и оказывающие непосредственное влияние на формирование управленческих решений

3 Как результат анализа существующих методов ИАД, в качестве наиболее эффективного для решения задач, имеющих неявный характер, определен метод построения деревьев решений

4 С целью реализации гибридного подхода к анализу данных разработаны модели ХД и дерева решений

5 На основе анализа деревьев решений реализована СППР, которая апробирована и внедрена в информационную систему для различных классов мобильных вычислительных устройств с применением беспроводных технологий

6 Получены практические результаты, иллюстрирующие актуальность и ценность исследований, в виде методик, направленных на повышение эффективности принятия решений в распределенной системе учреждения или предприятия путем применения интеллектуального анализа данных

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

По теме диссертации опубликованы следующие работы

1 Волкова Е И (Мутина Е И ) Повышение эффективности систем поддержки принятия решений в медицинских информационных системах за счет применения «деревьев решений» Сборник докладов и тезисов VIH-я научной конференции МГТУ «Станкин» и «Учебно-научного центра математического моделирования МГТУ «Станкин» - ИММ РАН» М «ЯНУС-К» 2005 С 70-73

2 Фролов А В., Волкова Е И (Мутина Е И) Экологический мониторинг и здоровье нации Сборник научных трудов международной конференции «ПРОТЭК'05» - Том 1 -М «ЯНУС-К» 2005 С 368-372

3 Мутин Д И, Мутина Е И Вопросы управления и анализа гетерогенных данных в медико-технических системах Сборник докладов и тезисов V Международной научно-технической конференции «Информационно-вычислительные технологии и их приложения» Пенза РИО ПГСХА 2006 С 226-228

4 Мутина Е И Средства интеллектуального анализа данных в проблемно-ориентированных системах поддержки принятия решений Сборник докладов и тезисов V Международной научно-технической конференции «Информационно-вычислительные технологии и их приложения» Пенза РИО ПГСХА 2006 С 229-231

5 Мутин Д И, Мутина Е И Управление гетерогенными данными в медицинских информационных системах (МИС) Сборник докладов и тезисов V Международной научно-технической конференции «Управление в социальных и экономических системах» Пенза РИО ПГСХА 2006 С 160162

6 Ковшов Е Е, Мутина Е И Повышение эффективности функционирования распределенной медицинской информационной системы на основе интеллектуального анализа информации // Мехатроника, автоматизация, управление 2008 №3 С 15-19

Издательство ФГУП «Научно-исследовательский и экспериментальный институт автомобильной электроники и электрооборудования» Тираж 100 экз

Подписано в печать 15 04 2008

Оглавление автор диссертации — кандидата технических наук Мутина, Елена Игоревна

СПИСОК СОКРАЩЕНИЙ.

ВВЕДЕНИЕ.

ГЛАВА 1. АНАЛИЗ МЕДИЦИНСКИХ ИНФОРМАЦИОННЫХ

СИСТЕМ.

1.1. Распределенная система лечебно-профилактического учреждения.

1.1.1. Основные виды медицинских информационных систем.

1.1.2. Обзор номенклатуры информации, содержащейся в медицинских информационных системах.

1.2. Применение медицинских систем поддержки принятия решений.

1.2.1. Система поддержки принятия решений как экспертная система продукционного типа.

1.2.1.1. Описание экспертной системы.

1.2.1.2. Модели представления знаний в экспертных системах.

1.2.1.3. Режимы функционирования экспертных систем.

1.2.2. Использование хранилища данных для поддержки принятия решений.

1.2.2.1. Разновидности архитектуры гиперкубов.

1.2.2.2. Конструкция хранилища данных.

1.2.3. Математическая модель системы поддержки принятия решений основанная на использовании хранилища данных.

1.2.4. Выбор системы управления базами данных для реализации хранилища данных.

1.2.4.1. Сравнение Oracle и Microsoft SQL Server.

1.2.4.1.1. Основа для сравнения.

1.2.4.1.2. Интеграция с Visual Studio и .NET CLR.

1.2.4.1.3. Разработка SOA приложений.

1.2.4.1.4. Гибкость развертывания.

1.2.4.2. Обзор достоинств^Microsoft SQL Seryer.

1.2.5. Недостатки современных систем поддержки принятия решений.

1.3. Основные направления улучшения медицинских информационных систем.

1.4. Выводы по главе 1.

ГЛАВА 2. ИНТЕЛЛЕКТУАЛЬНЫЕ ТЕХНОЛОГИИ И ИХ ПРИМЕНЕНИЕ В ИНФОРМАЦИОННЫХ СИСТЕМАХ

МЕДИЦИНСКИХ УЧРЕЖДЕНИЯХ.

2.1. Сравнение методов интеллектуального анализа данных.

2.1.1. Классификация задач интеллектуального анализа данных по типам извлекаемой информации.

2.1.2. Классификация стадий интеллектуального анализа данных.

2.1.2.1. Свободный поиск.

2.1.2.2. Прогностическое моделирование.

2.1.2.3. Анализ исключений.

2.1.3. Классификация технологических методов интеллектуального анализа данных.

2.1.3.1. Непосредственное использование обучающих данных.

2.1.3.2. Выявление и использование формализованных закономерностей.

2.1.3.2.1. Методы кросс-табуляции.

2.1.3.2.2. Методы логической индукции.

2.1.3.2.3. Методы вывода уравнений.

2.2. Критерии и обоснование выбора технологии обеспечения системы поддержки принятия решений.

2.2.1. Взаимодополняемость оперативной аналитической обработки и интеллектуального анализа данных.

2.2.2. Выбор технологии интеллектуального анализа данных.

2.2.3. Достоинства деревьев решений.

2.3. Построение математической модели деревьев решений для задач поддержки принятия решений.

2.3.1. Общие понятия деревьев решений.

2.3.2. Характеристики деревьев решений.

2.3.3. Вычислительные методы.

2.3.3.1. Выбор критерия точности прогноза.

2.3.3.1.1. Априорные вероятности.

2.3.3.1.2. Цена ошибки классификации.

2.3.3.1.3. Веса наблюдений.

2.3.3.2. Выбор типа ветвления.

2.3.3.2.1. Дискриминантное одномерное ветвление.

2.3.3.2.2. Дискриминантное многомерное ветвление по линейным комбинациям.

2.3.3.2.3. Полный перебор деревьев с одномерным ветвлением по методу CART(Classification and RegressionTrees).

2.3.3.3. Определение момента прекращения ветвлений.

2.3.4. CART математический аппарат.

2.3.4.1. Бинарное представление дерева решений.

2.3.4.2. Функция оценки качества разбиения.

2.3.4.3. Правила разбиения.

2.3.4.4. Механизм отсечения дерева.

2.3.4.5. Выбор финального дерева.

2.3.4.6. Регрессия.

2.4. Методика построения деревьев решений на основе хранилища данных.

2.5. Выводы по главе 2.

ГЛАВА 3. ИСПОЛЬЗОВАНИЕ ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ПОСТРОЕНИЯ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ В ЛЕЧЕБНО-ПРОФИЛАКТИЧЕСКОМ

УЧРЕЖДЕНИИ.

3.1. Формализация задачи управления лечебным процессом с применением системы поддержки принятия решений медицинским персоналом.

3.1.1. Основные задачи врача-терапевта лечебно-профилактического учреждения.

3.1.2. Организация диспансерной работы в лечебно-профилактическомз^чреждении^.

3.1.2.1. Общие принципы организации диспансеризации.

3.1.2.2. Работа врача-терапевта по диспансеризации.

3.1.2.3. Документация по диспансеризации.

3.1.2.4. Контроль эффективности диспансеризации больных острыми и хроническими заболеваниями.

3.1.3. Задачи OLAP-анализа применительно к работе врача-терапевта.

3.2. Выявление и определение информации, применяемой для построения деревьев решений.

3.2.1. Экспорт и импорт данных.

3.2.1.1. Методы переноса данных.

3.2.1.2. Репликация данных.

3.2.1.3. Службы Data Transformation Service.

3.2.2. Определение информации необходимой для разработанной системы поддержки принятия решений.

3.2.3. Структура системы поддержки принятия решений в медицинской информационной системе.

3.2.4. Логическая модель хранилища данных.

3.3. Логическая модель дерева решений и ее физическая реализация.

3.4. Выводы по главе 3.

ГЛАВА 4. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ В ИНФОРМАЦИОННОЙ СИСТЕМЕ ЛЕЧЕБНО-ПРОФИЛАКТИЧЕСКОГО УЧРЕЖДЕНИЯ

4.1. Построение и реализация клиентской и серверной частей системы поддержки принятия решений.

4.1.1. Применения клиентской части системы поддержки принятия решений в работе врача-терапевта.

4.1.2. Применения серверной части системы поддержки принятия решений в работе врача-терапевта.

4.2. Обоснование экономической эффективности разработанных методик и применения системы поддержки принятия решений в информационной системе медицинского учреждения.

4.2.1. Основной критерий экономической эффективности созданной системы поддержки принятия решений.

4.2.2. Определение суммарных затрат на разработку программного продукта.

4.2.2.1. Расчет затрат на заработную плату.

4.2.2.2. Единый социальный налог.

4.2.2.3. Расходы на приобретение, содержание и эксплуатацию комплекса технических средств.

4.2.2.4. Затраты на универсальное программное обеспечение.

4.2.2.5. Затраты на мероприятия, связанные с правовой охраной разработанного программного продукта.

4.2.3. Расчет ориентировочной цены программного продукта.

4.2.4. Определение показателей экономической эффективности использования разработанного программного продукта.

4.3. Выводы по главе 4.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Мутина, Елена Игоревна

Актуальность работы. В настоящее время автоматизированные информационные системы широко используются во многих учреждениях и на предприятиях России. Информационная система (ИС) - это распределенный программно-аппаратный комплекс, обеспечивающий целостное электронное информационное пространство для субъектов документооборота. Основной задачей оптимизации бизнес-процессов любого предприятия является поддержка механизмов принятия решений, ориентированных в первую очередь на решение задач, носящих неявный характер. Например, в банковской сфере это - оценка кредитоспособности клиентов банка при выдаче кредитов; в розничной торговле - выявление товаров для их группового продвижения и анализ потребительской корзины, прогнозирование спроса; в промышленности - контроль за качеством продукции; в медицинской области это - задачи, связанные с лечебно-диагностическим процессом и, в первую очередь, - прогнозом состояния здоровья пациента. С целью проведения научных исследований по диссертационной работе в качестве базовой выбрана медико-техническая система, поскольку наиболее актуальной на сегодняшний день и иллюстративной является задача выбора эффективных методов лечения больных как в условиях амбулатории, так и в условиях стационара.

Задачи, имеющие неявный характер, решаются явными методами с точностью и удобством, совершенно недостаточными для широкого практического использования в конкретных задачах прогнозирования и принятия решений. Неявные задачи явились идеальным полем для применения интеллектуального анализа данных (ИАД). В этой связи предлагается создание системы поддержки принятия решений (СППР) на основе метода деревьев решений, который имеет некоторые преимущества наряду с другими методами ИАД для решения рассматриваемых задач.

Тем не менее, важным является тот факт, что применение ИАД над данными, представленными с помощью систем OLAP (On-line Analytical Processing) в виде реального и^ виртуального информационного гиперкуба, во многих случаях может оказаться эффективнее, а главное - гораздо более тесно интегрированным в единую информационно-аналитическую систему.

Таким образом, необходимо использовать гибридный метод анализа данных, построенный на совместном применении метода деревьев решений и ОЬАР-анализа.

Цель работы. Повышение эффективности принятия решений в распределенной системе за счет включения в ее состав системы поддержки принятия решений, реализованной на основе гибридного подхода в анализе данных, включающего в себя современные математические средства и информационные технологии.

Методы исследований. При решении задач, поставленных в работе, были использованы основные положения организации управленческого бизнес-процесса предприятия, методы интеллектуального анализа данных; для разработки моделей и алгоритмов проектирования - теории баз данных и хранилищ данных (ХД), а для программной реализации - структурного и объектно-ориентированного программирования.

Научная новизна. Научная новизна диссертационной работы заключается в следующих положениях:

1. Определен новый подход к повышению эффективности принятия решений в распределенной системе, заключающийся в использовании гибридного метода анализа данных, построенного на совместном применении интеллектуального и ОЬАР-анализа данных.

2. Разработан метод анализа данных для повышения качества и быстрого выявления скрытых взаимосвязей, учитываемых при принятии решений в задачах, связанных с лечебным процессом, на основе многомерного представления данных и применения аппарата деревьев решений.

3. Определена структура СППР, обеспечивающая эффективную интеграцию методов, моделей и алгоритмов рационального принятия решения с применением мобильных информационных средств и технологий.

Практическая ценность работы заключается в повышении эффективности принятия решений в распределенной системе за счет их улучшения, а также - сокращения времени, затрачиваемого на их принятие.

Реализация результатов работы. Методики повышения эффективности принятия решений в распределенной системе путем применения гибридного метода интеллектуального анализа данных применяются в информационной системе медицинского консультативно-диагностического центра (г.Москва). Кроме того, определена целесообразность использования разработанных методик в управлении бизнес-процессами малого предприятия ООО «Компьютерные системы и технологии» (г.Москва). Упомянутые выше методики внедрены в учебный процесс ГОУ ВПО МГТУ «Станкин», используются при подготовке магистрантов по направлению 220200 «Автоматизация и управление» магистерской программы 220200.68-20 «Человеко-машинные системы управления» и применяются в качестве научной основы при разработке курса лекций и практических занятий по специальной дисциплине «Интеллектуальные системы обработки информации».

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на расширенных заседаниях кафедры «Биотехническая кибернетика» и научных семинарах в ГОУ ВПО МГТУ «Станкин», а также - международных и всероссийских научно-технических конференциях: VIII научной конференции МГТУ «Станкин» и «Учебно-научного центра математического моделирования МГТУ «Станкин» - ИММ РАН» (Москва, ГОУ ВПО МГТУ «Станкин», 2006 г.), VIII Международной конференции «Производство. Технология. Экология. ПРОТЭК'05» (Москва, ГОУ ВПО МГТУ «Станкин», 2005 г.), V Международной научно-технической конференция «Информационно-вычислительные технологии и их приложения» (Пенза, МНИЦ ПГСХА, 2006 г.), V Международной научно-технической конференции «Управление в социальных и экономических системах» (Пенза, МНИЦ ПГСХА, 2006 г.).

Публикации. По теме диссертационной работы опубликованы 6 научных работ, включая тезисы докладов, подготовленных для международных и региональных научно-технических конференций.

Структура и объем. Диссертация состоит из списка сокращений, введения, четырех глав, основных результатов и выводов, списка используемой литературы из 73-х наименований и 2-х приложений, изложена на 136 страницах машинописного текста, включая 33 рисунка и 8 таблиц.

Заключение диссертация на тему "Повышение эффективности принятия решений в распределенной системе на основе гибридного подхода в анализе данных"

Общие выводы

На основании проведенных в работе исследований получены следующие результаты:

1. Решена актуальная научная задача, имеющая существенное значение для повышения эффективности принятия решений в распределенной системе на основе гибридного подхода в анализе данных.

2. Выявлены факторы, влияющие на качество принятия решений в распределенной системе и оказывающие непосредственное влияние на формирование управленческих решений.

3. Как результат анализа существующих методов ИАД, в качестве наиболее эффективного для решения задач, имеющих неявный характер, определен метод построения деревьев решений.

4. С целью реализации гибридного подхода к анализу данных разработаны модели ХД и дерева решений.

5. На основе анализа деревьев решений реализована СППР, которая апробирована и внедрена в информационную систему для различных классов мобильных вычислительных устройств с применением беспроводных технологий.

6. Получены практические результаты, иллюстрирующие актуальность и ценность исследований, в виде методик, направленных на повышение эффективности принятия решений в распределенной системе учреждения или предприятия путем применения интеллектуального анализа данных.

Библиография Мутина, Елена Игоревна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Э. Таненбаум, М. ван Стеен. Распределенные системы. Принципы и парадигмы. СПб.: Питер, 2003. - 877 с.

2. Гусев С.Д., Гусев Н.С., Петров А.В., Поддубный А.Н. Документооборот в условиях внедрения медицинских информационных систем // Издание краевой клинической больницы №1. 2002. - №15.

3. DocFlow 2001 // Enterprise partner. 2001. - № 12 (29).

4. Г.И. Назаренко, Я.И. Гулиев, Д.Е. Ермаков. Медицинские информационные системы: теория и практика. — М.: ФИЗМАТ ЛИТ, 2005.-320 с.

5. Справочник терапевта / Под ред. Ф.И.Комарова. М.: Медицина, 1980. -656с.

6. Джексон П. Введение в экспертные системы. — М.: Издательский дом «Вильяме», 2001. 624 с.

7. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001.-384 с.

8. Рыбина Г.В. Проектирование систем, основанных на знаниях: Учебное пособие. М.: МИФИ, 1997.-104 с.

9. Кофман А. Введение в теорию нечетких множеств: Перевод с англ. М.: Радио и связь, 1982. - 432 с.

10. Попов Э.В., Фоминых И.Б., Кисель Е.Б., Шапот М.Д. Статические и динамические экспертные системы: Учебное пособие. — М.: Финансы и статистика, 1996. 320 с.

11. Львов В. Создание систем поддержки принятия решений на основе хранилищ данных // Системы Управления Базами Данных. 1997. - №3. С. 30-40.

12. Сахаров А. А. Принципы проектирования и использования многомерных баз данных (на примере Oracle Express Server) // Системы Управления Базами Данных. 1996. - № 3. - С. 44-59.

13. Сахаров А. А. Концепция построения и реализации информационных--систем,-ориентированных -на -анализ,данных.// Системы Управления

14. Базами Данных. 1996. - № 4. - С. 55-70.

15. Корнеев В.В., Гарев А.Ф., Васютин С.В., Райх В.В. Базы данных. Интеллектуальная обработка информации. М.: Нолидж, 2000. - 352 с.

16. Архипенков С., Голубев Д., Максименко О. Хранилища данных. От концепции до внедрения. М.: ДИАЛОГ-МИФИ, 2002. - 544 с.

17. Codd Е. F., Codd S. В., Salley С. Т. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. E. F. Codd & Associates, 1993.

18. Федоров А., Елманова H. Введение в OLAP // КомпьютерПресс. 2001. -№2-11.

19. Mumick I. S., Quass D., Mumiclc B. S. Maintenance of Data Cubes and Summary Tables in a Warehouse. Stanford University, Database Group, 1996. - http://www.db.stanford.edu/pub/papers/cube-maint.ps

20. Raden N. Star Schema. Santa Barbara, CA: Archer Decision Sciences, Inc., 1995-1996. - http://members.aol.com/nraden/strl01 .htm

21. Inmon W. H. Building The Data Warehouse (Second Edition). NY, NY: John Wiley, 1993.

22. Harinarayan V., Rajaraman A., Ullman J. D. Implementing Data Cubes Efficiently // SIGMOD Conference. Montreal, С A. - 1996.

23. Аносов А. Критерии выбора СУБД при создании информационных систем, 2006. http://www.interface,ru/

24. Гусев A.B. Моделирование и оценка эффективности функционирования медицинской информационной системы // Автореф., дис. к-та тех. наук: 05.13.18 / Петрозавод. гос. ун-т Петрозаводск.: Изд-во ПетрГУ

25. Гусев А. В., Романов Ф. А., Дуданов И. П. Обзор медицинских информационных систем на отечественном рынке в 2005 году / Симпозиум «Медицинские информационные системы». Кондопога.: Карелия, 2005.

26. Feiman J., Berg Т. The Cost and Risk of Application Development Decisions, 2002.http://www.gartner.com/DisplayDocument7doc cd=l07053

27. SQL Server для профессионалов. http://newsletter.narod.m/sqlmain.htm

28. Parsaye К. A Characterization of Data Mining Technologies and Processes // The Journal of Data Warehousing. 1998. - № 1.

29. Parsaye K. Surveying Decision Support: New Realms of Analysis // Database Programming and Design. 1996. - № 4.

30. Эделстейн Г. Интеллектуальные средства анализа, интерпретации и представления данных в информационных хранилищах // ComputerWeek-Москва. 1996. - № 16. - С. 32-33.

31. Newquist Н. P. Data Mining: The AI Metamorphosis // Database Programming and Design. 1996. - № 9.

32. Арагон Л. Долой грязь! // PC Week/RE. 1998. - № 6. - С. 53-54.

33. Wettschereck D., Aha D. W., Mohri T. A Review and Empirical Evaluation of Feature Weighting Methods for a Class of Lazy Learning Algorithms // Artificial Intelligence Review. 11. - p. 273-314.

34. Аджиев В. MineSet визуальный инструмент аналитика // Открытые системы. - 1997. - № 3. - С. 72-77.

35. Heckerman D. Bayesian Networks for Data Mining // Data Mining and Knowledge Discovery. 1997. -№ 1. - p. 79-119.

36. Brand E., Gerritsen R. Naive-Bayes and Nearest Neighbor // DBMS. 1998. -№ 7.

37. Цветков A. M. Разработка алгоритмов индуктивного вывода с использованием деревьев решений // Кибернетика и системный анализ. — 1993.-№ 1.-С. 174-178.

38. Quinlan, J.R., & Cameron-Jones, R.M. Oversearching and layered search in empirical learning. Proceedings of the 14th International Joint Conference on Artificial Intelligence, Montreal (Vol. 2). Morgan Kaufman, 1995, 10191244.

39. Fuernkranz J. Separate-and-Conquer Rule Learning. Vienna: Austrian Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-96-25, 1996.

40. Quinlan J. R. Generating production rules from decision trees // In Proceedings of the 10th International Joint Conference on Artificial Intelligence (IJCAI-87). Morgan Kaufmann, 1987. - p. 304-307.

41. Киселев M., Соломатин E. Средства добычи знаний в бизнесе и финансах // Открытые системы. 1997. - № 4. - С. 41-44.

42. Parsaye К. Rules are Much More than Decision Trees // The Journal of Data Warehousing. 1997. - № 1.

43. Pagallo G., Haussler D. Boolean feature discovery in empirical learning // Machine Learning. 1990. - №5. - p. 71-99.

44. Heckerman D., Geiger D., Chickering D. Learning Bayesian networks: The combination of knowledge and statistical data // Machine Learning. — 1995. -20.-p. 197-243.

45. Cendrowska J. PRISM: An algorithm for inducing modular rules // International Journal of Man-Machine Studies. 1987. -27. - p. 349-370.

46. Елисеева И. И., Юзбашев М. М. Общая теория статистики / Под ред. чл.-корр. РАН И. И. Елисеевой. М.: Финансы и статистика, 1996. - 368 с.

47. Fausett L. V. Fundamentals of Neural Networks: Architectures, Algorithms, and Applications. Englewood Cliffs, New Jersey: Prentice Hall, 1994. - 461 c.

48. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика. — М.: Мир, 1992.-240 с.

49. Альперович М. Технологии хранения и обработки корпоративных данных (Data Warehousing, OLAP, Data Mining). -http://www.sft.ru/reviews/DevCon97/DC2/DC2T12.htm

50. Frawley W. L., Piatetsky-Shapiro G., Matheus C. J. Knowledge discovery in databases: An overview // AI Magazine. 1992. - № 13(3). - p. 57-70.

51. Parsaye K. OLAP and Data Mining: Bridging the Gap // Database Programming and Design. 1997. - № 2.

52. Шапот M. Интеллектуальный анализ данных в системах поддержки принятия решений // Открытые системы. 1998. - №1.

53. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах // Открытые системы. 1997. - № 4. - С. 41-44.

54. L. Breiman, J.H. Friedman, R.A. Olshen, and C.T. Stone. Classification and Regression Trees. Wadsworth, Belmont, California, 1984.

55. Quinlan J. R. Induction of decision trees // Machine Learning. 1986. - №1. -p. 81-106.

56. Кречетов H., Иванов П. Продукты для интеллектуального анализа данных// ComputerWeek-Москва. 1997. 14-15. -С. 32-39.

57. Breiman, L., Friedman, J. Н., Olshen, R. A., & Stone, C. J. Classification and regression trees. Monterey, CA: Wadsworth & Brooks / Cole Advanced Books & Software, 1984.

58. Loh, W.-Y, & Shih, Y.-S. Split selection methods for classification trees. Statistica Sinica. 1997. - №7. - p. 815-840.

59. Шитиков B.K., Розенберг Г.С., Зинченко Т.Д. Количественная гидроэкология: методы системной идентификации. — Тольятти: ИЭВБ РАН, 2003.-463 с.

60. Деревья классификации. Электронный учебник. -http://www. statsofun/home/textbook/

61. Андреев И. Деревья решений- CART математический аппарат. // Exponenta Pro (математика в приложениях). 2004. — №3-4 (7-8). -www.exponenta.ru/journal/

62. Gini, С. Considerazioni sulle probabilita a posteriori е applicazioni al rapporto dei sessi nelle nascite umane. Studi Economico-Giuridici della Universitade Cagliari, Anno III, 1911.-p. 133-171.

63. Machine Learning, Neural and Statistical Classification. Editors: D. Michie, D.J. Spiegelhalter, C.C. Taylor, 1994.

64. Спирли, Эрик. Корпоративные хранилища данных. Планирование, разработка, реализация. Т. 1. -М.: Издательский дом «Вильяме», 2001

65. Brand Е., Gerritsen R. Decision Trees // DBMS. 1998. - № 7.

66. JIA Научная книга. Справочник участкового врача. — М.: Изд-во Равновесие, 2005.

67. Gray J. et al., Data Cube: A Relational Aggregation Operator Generalizing

68. Group-By, Cross-Tab, and Sub Totals. // Data Mining and Knowledge1. Discovery J., 1997.

69. Мамаев E. MS SQL Server 2000. СПб.: Изд-во BHV, 2000. - 1286 с.

70. Распределенные системы. http://www.economicsoft.ru/products/raspred/

71. Елманова Н. Microsoft SQL Server 2000 Analysis Services // КомпьютерПресс. 2000. - №9.

72. Федоров A., Елманова H. Создание OLAP-клиентов с помощью Excel и Microsoft PivotTable Services // КомпьютерПресс. 2000. - №12.

73. Вольдер Б.С. Планирование на предприятии. Учебное пособие. М.: МГТУ "Станкин", 1999. - 172 с.

74. Горфинкель В.Я., Купряков Е.М. Экономика предприятия. Учебник для ВУЗов. М.: ЮНИТИ, 1996. - 367 с.