автореферат диссертации по документальной информации, 05.25.05, диссертация на тему:Методы и средства анализа данных в системах поддержки принятия решений
Автореферат диссертации по теме "Методы и средства анализа данных в системах поддержки принятия решений"
На правах рукописи
Ананьев Николай Сергеевич
МЕТОДЫ И СРЕДСТВА АНАЛИЗА ДАННЫХ В СИСТЕМАХ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ
05.25.05 - Информационные системы и процессы, правовые аспекты информатики
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Москва 2005
Работа выполнена в Институте государственного управления, права и инновационных технологий (ИГУПИТ)
Научный руководитель - доктор технических наук, профессор
Феоктистов Николай Алексеевич
Официальные оппоненты:
- доктор технических наук, профессор Попов Игорь Иванович;
- кандидат технических наук, Серова Галина старший научный сотрудник Александровна.
Ведущая организация - Всероссийский институт научной и технической информации Российской Академии наук (ВИНИТИ РАН).
Защита диссертации состоится «15 » июня__2005 года
в « 14 » часов на заседании диссертационного Совета №Д 212.198.02 при Российском государственном гуманитарном университете по адресу: 125267, Москва, Миусская пл., д.6
Автореферат разослан « 14 »
мая
2005 г.
Ученый секретарь диссертационного совета
Меркулов В.Н.
I Общая характеристика работы ' '
Актуальность проблемы
Назначением информационных систем (ИС), независимо от области их применения, является обеспечение должностных лиц (или лиц принимающих решение - ЛПР) информацией, необходимой для принятия решений в области их деятельности. Стратегическим направлением развития ИС является их интеллектуализация, заключающаяся в построении формализованных процедур обработки, интерпретации и представления информации в виде некоторых показателей, позволяющих их использование непосредственно для принятия управленческого решения в целевой области, т.е. выбора одного из альтернативных вариантов действий ЛПР. В этом случае о подобных ИС говорят как об интеллектуальных информационных системах.
Независимо от областей применения ИС они выполняют следующие типовые функции: сбора данных; их обработки, в том числе, направленной на получение сводных показателей; представления результатов обработки и их интерпретации для использования ЛПР при принятии решения.
Среди перечисленных функций наиболее сложной для автоматизации с точки зрения построения формальных процедур преобразования данных в информацию, позволяющую ее использование для принятия решения, является построение сводных показателей, характеризующих состояние, эффективность или качество функционирования объекта управления, и их интерпретация.
В общем случае информация, необходимая для поддержки принятия решений, может иметь следующий вид:
а) первичных данных, количественно характеризующих состояние объекта (процесса) управления;
б) результатов обработки первичных данных, выполняемой по алгоритмам, принятым в конкретной системе исходя из ее функционального назначения, и представляющих собой агрегированные (усредненные) данные;
в) обобщенных показателей функционирования объекта за определенный период времени, характеризующих чффек-гиинпт, г гг. ч^^пт функциониро-
РОС. НАЦИОНАЛЬНА* |
БИБЛИОТЕКА I
¿та?
вания, включая данные о факторах долгосрочного действия в области существования объекта управления.
В общем виде информационную задачу, которую необходимо решать в системе поддержки принятия решений в указанных условиях, можно сформулировать как преобразование данных типа а), б) и в) в сводные показатели свойств объекта управления, которые не поддаются непосредственному измерению. Эти показатели могут интерпретироваться как некоторое качество объекта управления в целом или определенных его свойств (сторон).
Для решения задач поддержки принятия решений в условиях неопределенности чрезвычайно актуальными являются выработка подходов, которые принципиально ориентированы на работу в так называемой неопределенной или «нечеткой» среде, а также разработка методов и средств их реализации в информационных системах.
На основании вышеизложенного можно заключить, что выбор и разработка методов обработки информации и архитектуры информационных систем, предназначенных для поддержки принятия решений в условиях неопределенности, является актуальной и практически значимой задачей.
Степень разработанности задач
Исследования по разработке методов и средств информационного обеспечения в интересах поддержки принятия решений в условиях неопределенности требуют системного подхода, использования последних достижений в области математических методов обработки и анализа многомерных данных, теории систем и системного анализа, новых информационных технологий.
Вопросам разработки методов классификации и анализа многомерных данных, алгоритмов обработки информации в информационных системах, архитектуры информационных систем и систем управления базами данных посвящено большое количество работ. Тем не менее, практически нет работ, в которых освещаются вопросы и проблемы формализации задач преобразования данных, описывающих сложные системы или процессы их функционирования, в сводные показатели их целевого назначения Важность решения тгих
задач заключается в том, что они и составляют существо большинства процедур интеллектуальной обработки.
Исходя из степени разработанности перечисленных задач для данного диссертационного исследования, выдвинуты следующие цель и задачи.
Целью исследования является разработка методов, обоснование состава средств обработки данных и архитектуры информационных систем, обеспечивающих поддержку принятия решений в условиях неопределенности в различных предметных областях.
Задачи исследования
В соответствии с выбранной целью были поставлены и решены следующие задачи:
1. Анализ состояния в области архитектуры информационных систем поддержки принятия решений (СППР) и используемых в них методов обработки и анализа данных.
2. Обоснование основных требований к методам и способам учета неопределенности при решении задач обработки и анализа многомерных данных
' в интересах поддержки принятия решений.
3. Разработка модели типовой информационной системы для комплексной автоматизации административной, учебной и научно-методической деятельности учебного заведения.
4. Определение места и роли систем (приложений) автоматизации обучения и разработка модели подсистемы автоматизации обучения языкам программирования.
5. Разработка метода, алгоритма и программного обеспечения приложения интеллектуального анализа данных для информационной системы страховой компании, предназначенного для прогнозирования страховых рисков.
6. Оценка эффективности разработанного метода прогнозирования страховых рисков.
Научная новизна
1. Впервые предложено и обосновано использование нового энтропийного метода обработки многомерной информации для создания приложений
интеллектуального анализа данных в условиях неопределенности для информационных систем поддержки принятия решений.
2. Впервые разработана модель типовой информационной системы учебного заведения на основе концепции распределенных баз данных и приложений информационного обеспечения административной, учебной и научно-методической деятельности.
3. Разработан новый метод оценивания и прогнозирования рисков перехода объектов в возможные состояния для приложений интеллектуального анализа данных, заключающийся в преобразовании характеристик объекта в факторы риска и построении на них обобщенных показателей риска с помощью энтропийного метода.
Объектом исследования явились информационные системы поддержки принятия решений в области информационного обеспечения основных видов деятельности учебного заведения, а также страхования имущества граждан (автотранспорта).
Предметом исследования явились методы, алгоритмическое обеспечение приложений обработки и анализа многомерных данных и архитектура баз данных, обеспечивающие сбор, обработку и преобразование информации в вид, необходимый для принятия решений.
Практическая значимость исследования заключается в следующем:
1. Разработана модель типовой информационной системы комплексной автоматизации административной, учебной и научно-методической деятельности в учебном заведении, схема хранилища данных для этой системы, разработана и программно реализована учетная система.
2. Разработан алгоритм генерации заданий подсистемы обучения языкам программирования, а также метод, алгоритм и программное обеспечение приложения оценивания уровня знаний и навыков по результатам обучения на основе энтропийного метода построения обобщенных характеристик.
3. Разработаны алгоритмы и программное обеспечение приложения оценивания и прогнозирования рисков для информационной системы под-
держки принятия решений в области страхования.
Материалы исследования содержат теоретические и практические сведения, которые могут использоваться при чтении курсов по информационным технологиям и системам.
На защиту выносятся:
1. Принцип построения приложений интеллектуального анализа данных для систем поддержки принятия решений;
2. Метод построения гарантированных оценок риска в информационных системах на основе преобразования характеристик объекта управления в факторы риска и использования энтропийного метода построения обобщенных характеристик систем;
3. Модель типовой информационной системы динамического сопровождения процесса обучения.
Апробация работы. Результаты диссертационной работы докладывались автором: на VI Международной научно-технической конференции «Наука-сервису» (Москва, 2001 г.); на II межвузовской научно-практической конференции «Информационные технологии XXI века» (Москва, 2001 г.); на III международной научно-практической конференции «Информационные технологии XXI века» (Москва, 2002 г.); на IV межвузовской ежегодной научно-практической конференции «Информационные технологии XXI века» (Москва, 2003 г.), на VII межвузовской ежегодной научно-практической конференции «Информационные технологии XXI века» (Москва, 2005 г.).
Реализация результатов работы. Результаты диссертации внедрены в деятельность Института информационных технологий Московского государственного университета сервиса, а также в деятельность ООО «Страховая компания «Оранта», что подтверждается актами о внедрении и реализации.
Структура работы. Работа состоит из введения, основной части, включающей 4 главы, заключения, списка литературы из 98-ми наименований и 4-х приложений. Содержание основной части изложено на 123-х страницах и содержит 22 таблицы и 6 рисунков.
II. Основное содержание
В первой главе «Методы и средства обработки информации и данных, используемые для создания систем поддержки принятия решений» дается классификация информационных систем, определение систем поддержки принятия решений (СППР), их состав, решаемые задачи и место в технологическом процессе информационных систем.
Автоматизированные информационные системы (АИС) представляют собой комплекс информационных технологий и предназначены для информационного обслуживания - организованного непрерывного технологического процесса получения, подготовки и выдачи потребителям справочной, научной, управленческой и другой информации, используемой для принятия решений, в соответствии с их нуждами для поддержания эффективной деятельности. Технологический процесс АИС как совокупность типовых функций включает сбор, ввод, обработку, хранение, поиск, распространение информации.
В общем случае применяемые в АИС модели объектов не являются обязательными и при их отсутствии такие системы ориентированы только на операционную обработку данных (системы обработки данных - СОД).
АИС, включающие модели объектов управления, предназначены для поддержки принятия решений. При этом сами модели - могут иметь вид математических (имитационных) моделей или представлять собой экспертные системы, базирующиеся на логической модели предметной области, реализованной в форме базы знаний и механизма логического вывода.
Системы поддержки принятия решения (СППР) по отношению к СОД являются в своего рода надстройкой. Они использует предоставляемые СОД данные, а также дополнительную информацию и данные для анализа, проводимого с использованием собственных приложений, результаты которого фактически уже могут являться знанием, т.е. структурированной информацией, содержащей оценки взаимосвязи между параметрами описания объекта управления (между совокупностью объектов) и подразумевающей, как ее использо-
8
вать.
Современные СППР крупных учреждений и компаний представляют собой комплекс методов и средств, составляющих новую информационную технологию в составе:
- СУБД, реализующие концепцию хранилищ данных;
- средств оперативной аналитической обработки (OLAP - On-Line Analytical Processing);
- средств интеллектуального анализа данных (ИАД).
Несмотря на определенную функциональную независимость средств обработки данных - OLAP и ИАД, они являются обязательными составными частями корпоративных СППР.
Типовыми задачами средств OLAP являются:
- обеспечение полноты и достоверности хранимых данных - «очистка» введенных данных, включая проверку на непротиворечивость;
- обеспечения доступа к сложным многомерным данным в любом заданном разрезе (формирование сложных запросов);
- обеспечение отображения сложных многомерных данных в удобном для восприятия виде.
К основным задачам интеллектуального анализа данных относятся:
- классификация (распознавание) данных и ситуаций;
- кластеризация данных - разбиение массивов данных на группы (кластеры) по близости структур значений признаков;
- построение обобщенных показателей эффективности и качества;
- прогнозирование.
Основными методами анализа многомерных данных, используемыми для ИАД, являются: метод главных компонент и факторный анализ, кластерный анализ; дискриминантный анализ и классификация, а также ряд других статистических методов. Проводится обзор этих методов, сформулированы их достоинства и недостатки.
Задачи обработки и анализа многомерных данных при решении задач
управления сложными объектами (процессами) принципиально решаются в условиях неопределенности значительного объема исходных данных. Задачи, решаемые при интеллектуальном анализе данных, и методы, применяемые для решения этих задач, приведены в таблице 1.
Таблица 1.
Задачи/Методы Методы обработки многомерных данных, используемые при интеллектуальном анализе
Метод главных омпонент и факторный анализ Классификация и дискриминантный анализ Кластерный анализ Регрессионный анализ
Типовые залами интеллектуального анализа данных Выявление связей (нахождение ассоциаций) между разрозненными фактами + +
Нахождение последовательностей + +
Нахождение скрытых закономерностей по наборам д анных +
Оценка важности (влияния или связи) параметров и событий и ситуаций, которые сопровождаются или которым предшествуют выявленные факты + + +
Классификация (распознавание) данных и ситуаций + +
Кластеризация + (РАД) +
Составление прогнозов событий и ситуаций +
Во второй главе «Совершенствование методического обеспечения обработки информации с целью учета неопределенности в исходных данных» рассматривается вопрос совершенствования методов анализа многомерных данных применительно к решению задач поддержки принятия решения, обосновывается применение энтропийного подхода к проведению такого анализа. Рассматривается и конкретизируется содержание этого методического обеспечения, а также детально рассматриваются существующие методы снятия неопределенности в исходных данных при решении задач поддержки принятия решений, их достоинства и недостатки.
В качестве методов обработки многомерных данных в настоящий момент применяются: корреляционный анализ; регрессионный анализ; кластерный анализ; факторный анализ; метод главных компонент; многомерное шкалирование; статистические методы снятия неопределенности.
Опыт применения существующих методов обработки выявил ряд принципиальных' недостатков при их практическом использовании. Важнейшим из них является практическая невозможность учета неопределенности в исходных данных при их обработке, оценке эффективности системы, прогнозировании развития объектов без принятия допущений, проверка которых просто невозможна или связана с огромными затратами.
В рамках существующих подходов снятие неопределенности достигается путем распространения аксиоматики теории вероятностей на формализацию процессов жизнедеятельности объектов. Такое расширительное применение теории вероятностей зачастую осуществляется без доказательств корректности ее использования. Субъективизм в использовании вероятностной меры, в конечном итоге, приводит к расхождению, порой довольно существенному, получаемых на моделях результатов и экспериментальных данных.
С точки зрения практического применения, учитывая проведенный анализ вероятностно-статистических методов, можно сформулировать очевидные требования к методу построения обобщенных характеристик (показателей) объектов:
- гарантированность оценок с точки зрения учета в них всех характеристик анализируемых объектов и процессов и обеспечение их устойчивости к действию «возмущающих» факторов;
- возможность использования исходных данных без их нормировки;
- возможность использования любых исходных данных, независимо от наличия в них корреляционных связей;
- аддитивность вкладов каждой характеристики в значение обобщенного показателя;
- его реализуемость в виде простых, не требующих специальной на-
стройки и сопровождения в ходе проведения расчетов, алгоритмов
Анализ методов учета неопределенности при построении обобщенных характеристик объектов управления показал, что использование для этой цели фундаментального принципа максимума энтропии позволяет получить ряд важных преимуществ, таких как:
- сокращение объема исходных данных вследствие отказа от излишне детализированного представления условий жизнедеятельности объектов;
- уменьшение субъективизма при выборе критериев оценки качества;
- относительная простота и наглядность интерпретации получаемых результатов вследствие отказа от вероятностного представления процессов, которые не имеют стохастической природы;
- повышение содержательности и достоверности получаемых результатов в силу отказа от значительного количества необоснованных допущений.
При этом не возникает формальных и вычислительных сложностей в решении задач идентификации их состояний, описываемых многомерными данными (кластеризации) по двум причинам: во-первых, энтропия, являясь мерой неопределенности, обладает тем свойством, что ее максимальное значение одновременно представляет собой меру близости, обладающую основными свойствами метрики, во-вторых, полученные формальные представления энтропии позволяют разработать простые и эффективные вычислительные алгоритмы оценки обобщенных характеристик объектов.
В теоретико-вероятностном анализе принцип максимума энтропии широко используется на практике для решения типовой информационной задачи -выбора из множества характеризующихся определенными свойствами распределений (удовлетворяющих заданной системе ограничений, накладываемых на случайную величину), такого, которое максимизирует выбранную меру неопределенности - энтропию. Согласно этому наиболее характерными распределениями вероятностей состояний неопределённой среды являются такие, которые максимизируют энтропию при заданной информации о «поведении» среды. Такие распределения называют экстремальными. Известно, что энтропия
12
Шеннона
)=!>>/>, (о
1=1
т _
где вектор р = (/>,,Р2, -,Р„ ), ^ Р, = 1' А = 1,и характе-
¡=1
ризует вероятность распределения случайной величины х, принимающей дискретные значения х{, х2,...,хп, является единственной однозначной мерой
неопределенности вероятностного распределения Р(х,). В тоже время из (1) видно, что если информация о различных состояниях системы (различных систем) содержится не только в значениях плотности распределения ее (их) параметров, а в их порядке следования в распределении, то мера (1) не может быть использована для количественной оценки степени различий состояний такой системы. Потребность в таком показателе различий имеется при решении большого числа практических задач, где информация о структуре анализируемых данных является ключевой с точки зрения информационной поддержки принятия решений, например, в задачах распознавания состояний системы.
Известно, что для данных, представляемых в виде двумерного массива -матрицы, может быть построен обобщенный показатель, который удерживает информацию о структуре значений этих данных. Возможность построения такого показателя обусловлена энтропийными свойствами матрицы связи в вида
в = ХХ"Г (2)
где X - матрица исходных данных; а (Х)~Г = {л:"1}.
Методы построения обобщенных характеристик, базирующиеся на использовании принципа максимума энтропии, используют для этой цели его идею, согласно которой наиболее характерными распределениями вероятностей состояний среды являются такие, которые максимизируют выбранную меру неопределенности. При использовании (1) для определения обобщенного показателя системы возможные состояния среды рассматриваются как множество значений характеристик ее элементов, а р] - вес (вклад) / -го элемента, с
13
которым он входит в значение обобщенного показателя системы. Однако в силу неконструктивности использования (1) для оценки различий состояния сложных систем применяется другой подход, основанный на использовании свойств матриц (2).
Оказывается, что для положительно определенных матриц выражение
#(р) = 1/т( рт вр )- ргр (3)
отвечает формальным свойствам энтропии, при этом максимум (3), в отличие от (1), достигается на распределении, в общем случае, отличающимся от
р0 = (1 /п, \М,..., 1 /п).
Для положительных матриц вида (2) справедливо утверждение: положительная матрица 8 = ХХ Г сильно транзитивна тогда и только тогда, когда ее максимальное собственное значение Л^дХ = ?П-П. Показано, что
собственный вектор, отвечающий максимальному собственному значению сильно транзитивной матрицы (главный собственный вектор), с точностью до
нормировки совпадает с вектором-столбцом рГ, определяющим матрицу X.
Если известен вектор-столбец w, компоненты которого представляют собой обобщенные показатели элементов системы, то энтропия такой системы :
ЯЧР^Р7^!^7!)-^^. (За)
Обозначим через XV матрицу, состоящую из одинаковых столбцов W. Исходя из определения вектора №, энтропии (3) и (За) должны быть близки с точки зрения спектральных свойств. В частности, максимальное
собственное значение /1тах / ГП матрицы -—• Я должно быть близко к
т
максимальному собственному значению п сильно транзитивной матрицы , а их соответствующие главные собственные векторы должны сов-
падать. Учитывая, что в правой части (4) матрица S = XX7 при X = W сильно транзит ивна, приходим к простому правилу вычисления вектора W : вектор W находится как главный собственный вектор матрицы S. Гарантия существования такого неотрицательного собственного вектора доказывается известной теоремой Перрона - Фробениуса.
В соответствии с принципом максимума энтропии обобщенный показатель определяется как решение минимаксной оптимизационной задачи, формальная запись которой имеет вид:
w*=arg шах min(p./wf ХХГт(р./^ (4)
PgAwW>0
где р и w - вектор-столбцы (p./w - обозначение поэлементного деления).
На практике обобщенный показатель качества w* системы рассчитывается в соответствии со следующим выражением:
w
±i_. (5)
i ■
£
где: \ - главный (правый) собственный вектор-столбец матрицы в; ч -главный (левый) собственный вектор-столбец транспонированной матрицы 8Т;
Г, I - соответственно главные правый и левый собственные вектора (столбцы) матрицы ХТХ'.
Рассмотрение состояния в области методов обработки и анализа многомерных данных, позволяющих учитывать их неопределенность, показывает, что получение гарантированных оценок качества объектов и прогнозирование их развития в настоящее время является одной из актуальных проблемных задач. Решение этой задачи во многом связано с применением нового методического аппарата, позволяющего в условиях неопределенности исходных данных получать в задачах классификации, кластеризации, прогнозирования гарантирован-
ные оценки, которые являются информационной базой при принятии решений.
Опыт использования нового методического аппарата в задачах анализа многомерных данных в условиях неопределенности показал, что он позволяет использовать для построения обобщенных показателей объектов управления любые их характеристики независимо от их физической природы, характера взаимосвязи и масштаба измерения. В нем в отличие от теоретико-вероятностного подхода, обеспечение независимости признаков не является обязательным.
В третьей главе «Разработка модели типовой информационной системы и приложений интеллектуального анализа данных для поддержки принятия решений» приводится описание модели типовой информационной системы учебного заведения: состав системы, выполняемые ею функции, разработанные автором учетная подсистема, подсистема автоматизации процесса обучения языкам программирования и приложение интеллектуального анализа данных.
Назначением типовой информационной системы учебного заведения является информационное обеспечение учебной, научно-методической и административной деятельности. В соответствии со своим назначением информационная система должна обеспечивать выполнение функций учетной системы и системы поддержки принятия решений.
Функции учетной системы сводятся к обеспечению ввода, редактирования, хранения и представления следующей информации:
- первичных данных об участниках учебного процесса - студентах и преподавателях;
- первичных данных о специальностях, специализациях, читаемых предметах и курсах;
- текущих данных о предметах обучения;
- текущих данных о посещаемости и с результатами обучения;
- результатов обработки первичных данных (оценок) за время изучения темы, курса.
При этом система должна обеспечивать поиск информации по основным атрибутам записей и предоставление данных в виде формализованных отчетов в соответствии с нормативными документами.
Для выполнения функций поддержки принятия решений информационная система должна обеспечивать:
- предварительную аналитическую обработку, направленную на получение сводных показателей учебного процесса в любом временном разрезе;
- представление данных и результатов в любом заданном разрезе в виде таблиц, графиков, в том числе трехмерных;
- интеллектуальную аналитическую обработку, заключающуюся в построении интегральных показателей качества учебного процесса группы, курса, кафедры, факультета, института за любой временной период.
Структура информационной системы включает хранилища данных и приложения.
• Хранилища данных состоят из:
хранилища оперативных данных; аналитического хранилища;
хранилища результатов обработки аналитических данных.
• Приложения системы включают приложения для ведения учетной системы в интересах организационно-методического обеспечения учебного процесса, а также для решения задач информационной поддержки обучения студентов:
приложения - учетной системы; приложения OLAP;
приложения интеллектуального анализа многомерных данных; приложения информационной поддержки процесса обучения конкретным предметам;
система дистанционного обучения; система разграничения доступа.
Структурно-функциональная схема информационной системы учебного
17
заведения приведена на рис. 1.
Рис 3.1. Структурно-функциональная схема информационной системы учебного заведения
Подсистемы ИС, выполняемые ими функции, потребители информации подсистем представлены в таблице 2
Таблица 2
Подсистема Функции Пользователи
Учетная система Оперативные ввод, добавление и модификация данных об учащихся, их успеваемости, читаемых курсах, преподавателях и т.д. Методисты, преподаватели, администрация
Информационная поддержка учебного процесса Электронные учебники, генерация вопросов и задач Преподаватели
Приложения OLAP Сводные таблицы, графики, сложные отчеты Методисты, преподаватели, администрация
Приложения интеллектуального анализа данных Геоинформационная система, статистический анализ, построение сводных показателей, прогнозирование Методисты, преподаватели, администрация
Разработаны ЕЯ-модели оперативного и аналитического хранилищ данных ИС учебного заведения.
I
Рассмотрена подсистема, обеспечивающая информационную поддержку процесса обучения, а именно, модель предмета обучения на примере языка программирования Паскаль.
Средства автоматизации обучения языкам программирования для реализации цели обучения должны включать:
■ Хранилище данных, содержащее:
- описание языка программирования, структурированное по темам учебного материала, вопросы и задачи по изучаемым темам;
- сведения о студентах и изучаемых ими темах, результаты оценки уровня усвоения знаний
■ Приложение формирования и представления учебного материала (электронный учебник), в составе:
- средства представления учебного материала;
- блок генерации вопросов и задач для формирования навыков применения усвоенного материала темы.
■ Приложение оценивания уровня знаний и навыков студента в составе: блок оценивания навыков студента по применению знаний, полученных при изучении темы, для решения практических задач.
Для решения задачи автоматизации обучения языкам программирования высокого уровня разработана модель предмета обучения, которая позволила по результатам анализа взаимосвязей между объектами предметной области (языка программирования) построить граф обучения. Описаны разработанные модели автоматизации генерации вопросов и условий задач с использованием аппарата нечеткой логики, а также текущего оценивания знаний и навыков студентов по результатам их ответов и решения задач.
В четвертой главе «Применение энтропийного подхода для решения задач интеллектуального анализа» приводятся результаты разработки методов и приложений построения сводных показателей уровня знаний студентов и уровня риска в страховом деле.
В основу метода оценивания уровня знаний в ходе процесса обучения была положена математическая модель определения обобщенных показателей качества систем. Исходными данными для построения оценки уровня знаний студентов являлся массив их текущих оценок (6), которые выставлялись подсистемой обучения:
/(ЬП - 1г<» г"» г"' г(,) г"> г<'> т-(|> г"' то> г(*) г<1> т<*> )
- лШ' — > Л1Ы1'ЛШ> 122 '***' 12«, '*•*> > Л1л,2 »"•» л 1)1,1», > л 1 > л\пк1 »—> л1кктк /
(ф91 _/_<!> г0) ГП> „(I) г(1) т(1) г(1) г(1) „<1> _(*> г<*> „(*) ) , (6) V /2 —х*211' Л212»"» ■*21Ж1>ЛИ1> Л222 >•"> Л22от, '>Л2п,1 ' Л2п,2 '"> 2л,»!, ' 2пк I' 2пк2 »"' 2»^ /
~(гт г"> гт г") г'1' г<» г"» г"> г<» V1*' г<*> г<*> I
—\*П1» 512 Ля»1, > л«21> л522'—> л\2т, >">л4»,1> л9п,2 '-'-»йу», >л»|,1' л!Ьк2 »••» /
где ДС(' - оценка за выполнение7-го ) контрольного задания в г'-м раз-
деле Ц=\,пк ) /-йтемы (1=\,к).
В среде математического пакета МАТЛАБ была написана программа, реализующая итерационный алгоритм вычисления выражения (5). Результаты расчетов представлены ниже:
69 09" 73.80" 6.8086 "
81 18 83 49 2.8485
41 17 47 79 16.0784
68 01 69.08 1 5783
25.76 28 62 11.0878
84 12 * и 90 20 7 2196
92.26 92 39 01459
73.60 74.11 0.6871
39.29 42.63 8.4909
41.21 46.85 13 6829
100 100 0
где № * - вектор обобщенных оценок, полученных с помощью энтропийного подхода, * - вектор обобщенных оценок, полученных в результате усреднения (средние арифметические), О^ - вектор разностей полученных оценок в процентном отношении. Как видно из приведенных результатов, средние арифметические являются завышенными оценками и завышение, в зависимости от вариаций текущих оценок, составляет от 2 до 13%.
Во второй части главы приведены результаты разработки приложения интеллектуального анализа данных для информационной системы страховой компании, реализующего разработанный метод прогнозирования страховых рисков владельцев автотранспорта, в котором энтропийный подход используется для получения оценок уровня страхового риска в зависимости от характеристик страхователя и его имущества.
Как показали результаты исследования, страховой риск определяется характеристиками страхователя (возрастом, сроком владения и т.д.) принадлежащего ему имущества. Формально этот риск может быть описан набором их характеристик. Реализация страхового риска в явном виде имеет место, когда происходят страховые случаи. Существующий подход к оцениванию страхового риска базируется на методах теории вероятностей и статистического оценивания. Страховой риск характеризуется как некоторая потенциальная возможность реализации страхового случая, в первом приближении ассоциирующаяся
с вероятностью его наступления. Эта вероятность имеет многомерную (по числу характеристик) функцию распределения.
Однако корректное использование в страховом деле аппарата статистического оценивания затруднено из-за многомерности, разнородности и взаимозависимости характеристик страхователей (имущества) при неизвестном виде их функциональной связи. Поэтому для оценивания страхового риска страхователя была принята следующая модель. Страховой риск рассматривался как некоторое латентное свойство страхователя и его имущества. Уровень этого свойства связан с их характеристиками. Для построения обобщенного показателя эти характеристики преобразовывались в факторы страхового риска, которые затем агрегировались путем свертки с использованием энтропийного подхода (см. (5)), обеспечившим гарантированность оценки.
Работоспособность разработанного метода оценивания страховых рисков была проверена в ходе специального эксперимента. Целью эксперимента было определение соответствия прогнозных оценок страхового риска попадания страхователя в дорожно-транспортное происшествие (ДТП) реальным статистическим данным страховых случаев ДТП.
Эксперимент проводился в соответствии со следующей методикой.
1. Формирование массива исходных данных страхователей из набора записей базы данных страховой компании.
2. Анализ содержания характеристик страхователей и формирование наборов характеристик страхователей.
3. Разбиение массива исходных данных страхователей на выборки в соответствии со следующими соображениями:
- по признаку пола страхователей;
- с целью получения определенного числа выборок для оценивания устойчивости оценок риска;
- с целью получения контрольных выборок, содержащих данные о ДТП.
4. Построение оценок страховых рисков, сравнение с контрольными выборками ДТП и определение:
- набора характеристик страхователей, наиболее полно учитывающих содержание понятия риска;
- критерия разбиения оценок риска на два класса - высокого и низкого;
- устойчивости оценок, полученных на различных выборках. 5. Анализ полученных результатов.
Исходными данными при страховании риска автомобильной аварии являются характеристики страхователя и автомобиля. Формализованным описанием страхователя является массив данных в виде вектора-строки \,.={х },
элементами которого ху являются преобразованные в факторы риска характеристики страхователя и автомобиля. Пример факторизованных характеристик страхователя и его имущества приведен в таблице 3.
Таблица 3
Страхователь Данные страхователя Характеристики предмета страхования (автомобиля)
' ФИО Возраст Стаж вождения Наличие нарушений Наличие аварий Место жительства Возраст (дата выпуска) Цве т Мощность Место хранения
Страхователь 1 1/25 1/2 1 0 5 1 4 200 3
Страхователь 2 1/40 1/20 1 1 3 5 2 70 1
В исследовании для проверки работоспособности метода оценивания страхового риска ДТП были использованы реальные данные, которые представляли собой набор записей базы данных страховой компании.
Параметры массивов, полученных после разбиения набора записей базы данных по признаку пола представлены в табл. 4.
Таблица 4
Параметры массивов исходных данных (ИД) страхователей
X» п п Пол Число страхователей Число страхователей, попадавших в ДТП Число страхователей, не имеющих ДТП
ИД1 Женщины 217 72 145
ИД2 Мужчины 611 219 392
Всего «28 291 537
В среде математического пакета МАТЛАБ была написана программа, реализующая итерационный алгоритм вычисления выражения (5), последующую обработку оценок страховых рисков и визуализацию результатов. Вычисления проводились в последовательности, соответствующей методике эксперимента.
Проведенный анализ показал, что прогнозные оценки отсутствия страховых случаев (ДТП) являются гарантированными и статистически устойчивыми (максимальный разброс значений составил 4.4%). Значения оценок доли страхователей, попавших в класс низкого риска, что они не попадут в ДТП, составляют порядка 80% и выше, что говорит о большой прогностической силе разработанного метода.
Использование этой информации для поддержки принятия решения при страховании позволяет обеспечить большую адресность страхового обеспечения за счет назначения величины страховых взносов, адекватных риску, и, следовательно, отвечающих интересам страхователей.
III. Заключение
В результате решения задач настоящего исследования, направленного на разработку методов, обоснование состава средств обработки данных и архитектуры информационных систем поддержки принятия решений в условиях неопределенности в различных предметных областях были получены следующие выводы и результаты.
Определено место систем поддержки принятия решений в технологическом процессе автоматизированных информационных систем, определен состав их средств, включающий хранилища оперативных данных, приложения оперативной обработки и подготовки данных, приложения интеллектуального анализа данных. Показано, что одним из основных элементов СППР являются средства (приложения) интеллектуального анализа, обеспечивающие преобразование оперативных данных в вид, необходимый для поддержки принятия решений.
По результатам анализа информационных задач поддержки принятия решения, показано, что их приходится решать в условиях неопределенности,
24
обусловленной: существенной многомерностью данных, разнородностью, противоречивостью и неполнотой данных, отсутствием информации об адекватности применяемых математических моделей преобразования и обработки данных их физической природе. Показано также, что основным недостатком вероятностного подхода к решению информационных задач поддержки принятия решения является необоснованное распространение аксиоматики теории вероятностей на изучаемые процессы. Сформулированы требования к методу построения обобщенных показателей объектов управления, выражающих прагматические аспекты их функционирования, которые во многих случаях являются информационной основой принятия решения.
Рассмотрен энтропийный метод построения обобщенных характеристик систем, имеющих формальное описание в виде двумерного массива, основанный на использовании принципа максимума энтропии, и обоснована целесообразность его применения для снятия неопределенности при обработке многомерных разнородных, противоречивых и неполных данных. Показано, что данный метод в указанных условиях обеспечивает: получение гарантированных оценок обобщенного показателя системы; устойчивость к «возмущающим» факторам; возможность использования исходных данных, которые не являются независимыми и не требуют нормировки; аддитивность вкладов каждой характеристики объекта в значение его обобщенного показателя; реализуемость в виде простых алгоритмов, не требующих специальной настройки и сопровождения в ходе проведения расчетов.
На основании результатов анализа и обоснования методов и средств обработки информации разработана модель типовой информационной системы, предназначенной для комплексной автоматизации основных видов деятельности учебного заведения, включающая- СУБД, построенную в соответствии с концепцией хранилищ данных; приложения предварительной аналитической обработки и интеллектуального анализа данных; приложения разграничения доступа и обучения, включая дистанционное. Разработана модель подсистемы обучения на примере языка программирования высокого уровня, которая по-
25
зволяет автоматизировать подготовку вариантов контрольных вопросов и заданий, а также текущее оценивания результатов их выполнения в едином цикле.
Разработанное приложение (программное обеспечение) оценивания знаний реализует энтропийный метод построения обобщенных характеристик по многомерному массиву текущих оценок обучаемых. Результаты оценки обобщенного показателя уровня знаний разработанным методом и их сравнение с обобщенными оценками как средними арифметическими, показали, что последние завышают уровень знаний студентов от 0.15% до 16% в зависимости от вариативности текущих оценок в массиве.
Для прогнозирования рисков, сопутствующих деятельности в различных областях (в инвестировании, страховании и т.п.), предложено использовать энтропийный подход. Разработан новый метод оценивания и прогнозирования рисков в страховом деле, который заключается в преобразовании характеристик страхователя и его имущества в факторы риска, построении на них обобщенных показателей с использованием энтропийного подхода, разбиении выборки оценок на два класса по критерию среднего уровня риска, которые определяют группы высокого и низкого риска. Получаемые оценки рисков являются гарантированными с точки зрения равной значимости учета в них всех факторов риска. Проверка работоспособности разработанного метода показала, что он обеспечивает достоверность прогноза ненаступления страхового случая не хуже 80% при максимальном разбросе значений оценок риска не более 4.4%.
Основные публикации автора по теме диссертации
1. Н.С. Ананьев. «Разработка реляционной модели базы данных и архитектуры информационной системы «Социальная защита»». Информационные технологии XXI века. Сборник научных трудов, Москва, 2001 г.
2. Н.С. Ананьев. «Data Mining: состояние проблемы и новые методы». Информационные технологии XXI века. Москва, ИИТ МГУС, 2002 г.
3. Н.С. Ананьев «Применение энтропийного подхода в задачах оценки
знаний студентов при использовании 100-бальной системы». Информационные технологии XXI века. Москва, ИИТ МГУС, 2003 г.
4. Н.С. Ананьев. «Общие принципы построения хранилищ данных для аналитических систем». Наука - сервису, Москва, МГУС, 2003 г.
5. Н.С. Ананьев. «Информационный подход к прогнозированию страховых рисков». Информационные технологии в XXI веке. Москва, ИИТ МГУС, 2003 г.
6. Н.С. Ананьев. «Разработка модели процесса поддержки принятия решений о назначении размера страхового взноса в информационных системах страховых компаний». Научные исследования в области информационных технологий. Москва, МГУС, 2003 г.
7. H.A. Феоктистов, Н.С. Ананьев. «Методы снятия неопределенности при обработке многомерных данных в задачах поддержки принятия решений». Информационные технологии в XXI веке. Москва, ИИТ МГУС, 2005 г.
I
Формат 60x84 1/16 Бумага офсетная. Печать офсетная. П. л 1,75. Тираж 70 зкз. Заказ №328 Отпечатано в ООО «ИПК МГОУ» Москва, ул Павла Корчагина, д 22 к 2
РНБ Русский фонд
2006-4 6366
Оглавление автор диссертации — кандидата технических наук Ананьев, Николай Сергеевич
Введение.
Глава 1. Методы и средства обработки информации и данных, используемые для создания систем поддержки принятия решений.
1.1. Классификация информационных систем, СППР, их состав и решаемые задачи.
1.2. Типовые задачи интеллектуального анализа данных.
1.3. Методы обработки многомерных данных, используемые при «интеллектуальном» анализе в интересах поддержки принятия решения.
1.4. Проблемные вопросы обработки и анализа многомерных данных в задачах ИАД.
1.4.1. Прогнозирование характеристик объектов.
1.4.2. Распознавание объектов и ситуаций и обработка информации.
1.5. Анализ существующих подходов к обработке информации и обоснованию выбора альтернатив.
1.5.1. Определение приоритетных рядов.
1.5.2. Обработка и анализ многомерных данных.
1.6 Выводы.
Глава 2. Совершенствование методического обеспечения обработки информации с целью учета неопределенности в исходных данных.
2.1. Основное содержание методического обеспечения.
2.2. Методы снятия неопределенности при обработке многомерных данных в задачах поддержки принятия решений.
2.3. Анализ существующих методов получения обобщенных показателей.
2.4. Метод построения обобщенных показателей сложных систем, базирующийся на использовании принципа максимума энтропии.
2.5 Выводы.
Глава 3. Разработка модели типовой информационной системы и приложений интеллектуального анализа данных для поддержки принятия решений.
3.1. Состав и структура информационной системы.
3.2. Режимы работы информационной системы и используемые средства обработки информации.
3.3. Модель предмета обучения на примере языка программирования Паскаль.
3.3.1 Состав и структура средств автоматизации обучения языкам программирования.
3.3.2. Модель задачи оценивания знаний.
3.3.3 Оценивание знаний в рамках подсистемы автоматизации процесса обучения.
3.4. Выводы.
Глава 4. Применение энтропийного подхода для решения задач интеллектуального анализа.
4.1. Разработка метода автоматизированного оценивания знаний студентов в процессе обучения.
4.1.1. Метод оценивания знаний студентов в процессе обучения.
4.2. Разработка метода обработки информации в задаче оценивания риска для систем поддержки принятия решения в страховом деле.
4.2.1. Постановка задачи.
4.2.2. Условия решения задачи.
4.2.3 Метод решения задачи.
4.2.4. Методика проведения эксперимента и подготовка исходных данных.
4.2.5. Программная реализация метода и порядок расчетов обобщенного показателя (оценки) страхового риска.
4.2.6. Результаты расчетов и их анализ.
4.3. Выводы.
Введение 2005 год, диссертация по документальной информации, Ананьев, Николай Сергеевич
Назначением информационных систем (ИС), независимо от области их применения (в производстве, бизнесе, медицине, образовании, страховании, других областях народного хозяйства) является обеспечение должностных лиц (или лиц принимающих решение - JII IP)1 информацией, необходимой для принятия решений в области его деятельности. Стратегическим направлением развития ИС является их интеллектуализация, заключающаяся в построении формализованных процедур обработки, интерпретации и представления информации в виде некоторых показателей (знания), позволяющих их использование непосредственно для принятия управленческого решения в целевой области, т.е. выбора одного из альтернативных вариантов действий J11 IP. В этом случае о подобных ИС говорят как об интеллектуальных информационных системах [2].
Независимо областей применения ИС они выполняют следующие типовые функции: сбора данных; их обработки, в том числе, направленной на получение сводных показателей; представления данных, результатов обработки и их интерпретации для непосредственного использования ЛПР при принятии решения.
Среди перечисленных функций наиболее сложной для автоматизации с точки зрения построения формальных процедур преобразования данных в информацию, позволяющую ее использование для принятия решения, является построение сводных показателей, характеризующих состояние, эффективность или качество функционирования объекта управления, и их интерпретация.
В общем случае информация, необходимая для поддержки принятия решения может иметь следующий вид: а) первичных данных, количественно характеризующих состояние объекта (процесса) управления;
1 Лицом, принимающим решение, будем называть субъекта, который должен на основании полученной информации осуществить выбор одного из альтернативных вариантов действий (собственных или находящегося под его началом коллектива). б) результатов обработки первичных данных, выполняемой по алгоритмам, принятым в конкретной системе исходя из ее функционального назначения, в) обобщенных показателей функционирования объекта за определенный период времени (прогнозов развития отраслей, демографической ситуации, прогнозов объемов финансирования различных отраслей народного хозяйства, образования, таможенных ставках и т.п.), т.е. данных о факторах долгосрочного действия в области существования объекта управления.
Если объект управления представляет собой сложную систему, описываемую большим числом характеристик, имеющих различную природу и широкий диапазон значений, когда не очевиден характер связей характеристик объекта между собой и внешними факторами, преобразование данных в сводные показатели качества его функционирования и их интерпретация усложняется и приобретает характер проблемной задачи. Т.е., она не может быть выражена в терминах конкретного класса прикладных задач, для которого имеется соответствующий математический аппарат. В этом случае возникает необходимость выявить и описать факторы, влияющие на состояние объекта, выбрать или разработать методы обработки информации, ориентированные на учет неопределенности, методы представления и интерпретации информации в таком виде, чтобы решение было принято.
В общем виде информационную задачу, которую необходимо выполнять при поддержке принятия решений в указанных условиях, можно сформулировать, как преобразование данных типа а), б) и в) в некоторые сводные показатели свойств объекта управления, которые не поддаются непосредственному измерению. Эти показатели могут интерпретироваться как некоторое качество объекта управления в целом или определенных его свойств (сторон): его эффективность, потенциал (потенциалы) достижения целей, вклад в эффективность или выигрыш от определенной деятельности, в которой участвует система и т.п. и характеризуют качественные и прагматические аспекты ее функционирования.
Условия, в которых приходится решать указанную информационную задачу, характеризуются неопределенностью, которая обусловлена одновременным действием целого ряда факторов:
- неполнотой описания объекта или процесса;
- существенной многомерностью;
- недостаточностью информации или ее отсутствием о характере связей между характеристиками объекта (процесса), а также между его характеристиками и внешними факторами;
- использованием моделей и методов обработки данных, применимость которых для решения конкретных целевых задач управления не обоснованы;
- задержками в получении необходимых данных, связанными с нерациональной организацией их управления (процессами сбора, подготовки и обработки), приводящими в конечном итоге к несвоевременным управленческим решениям.
Для решения задач поддержки принятия решений в этих условиях чрезвычайно актуальными являются выработка подходов, которые принципиально ориентированы на работу в так называемой неопределенной или «нечеткой» среде, а также разработка методов и средств их реализации в информационных системах.
На основании вышеизложенного можно заключить, что разработка (выбор) методов обработки информации и архитектуры информационных систем, предназначенных для поддержки принятия решений в условиях неопределенности, является актуальной и практически значимой задачей.
Степень разработанности задач.
Исследования по разработке методов и средств информационного обеспечения в интересах поддержки принятия решений в условиях неопределенности требуют системного подхода, использования последних достижений в области математических методов обработки и анализа многомерных данных, теории систем и системного анализа, новых информационных технологий.
Вопросам разработки методов классификации и анализа многомерных данных, алгоритмов обработки информации в информационных системах, архитектуры информационных систем и систем управления базами данных посвящено большое количество работ.
Методы анализа многомерных данных, применяемые для исследования структуры и характера взаимосвязей между анализируемыми количественными данными о характеристиках и параметрах функционирования объектов и систем, их классификации, снижения размерности исходного описания с целью лаконичного объяснения природы анализируемых многомерных данных и наглядного представления, в задачах анализа сложных систем (технических, социально-экономических, общественных и др.) и управления ими рассматриваются в трудах Миркина Б. Г., Айвазяна С. А., Малиновского JI. Г., Ивченко Б.П., Мартыщенко J1.A., Монастырского M.JL, Саати Т. Системный аспект при обработке информации, циркулирующей в сложных системах, рассматривается в трудах Денисова А.А., Волковой В.Н., Прангишвили И.В., Пащенко Ф.Ф., Бусыгина Б.П.
В работах Вильсона А.Дж., Трухаева Р. И., Куренкова Н.И., Лебедева Б.Д. рассматриваются методы учета неопределенности при решении информационных задач: построении обобщенных характеристик систем, обработки массивов с пропущенными данными, прогнозировании их развития и т.д.
Вопросам построения автоматизированных информационных систем в производстве, маркетинге, финансах посвящены работы Абдикеева Н.М., Салимова В.Г., Яковенко И.И., Денисова А.А., Одинцова Б.Е., Романова А.Н., Попова И.И., Кульбы В.В.
Проблемам создания информационных систем, ориентированных на поддержку принятия решений в области стратегического управления, таких как интеллектуальные и экспертные системы, методологическим основам их построения посвящены работы Гаврилова А.В., Ларичева О.И., Фатхутдинова Р.А., Трахтенгерца Э.А., Т.Саати, Буркова В.Н., Райфы Х.и др.
Несмотря на большое количество работ, посвященных как общим, так и частным проблемам информационного обеспечения систем поддержки принятия решений, практически нет работ, в которых освещаются вопросы и проблемы формализации задач преобразования данных, описывающих сложные системы или процессы их функционирования, в сводные показатели их целевого назначения. Важность решения этих задач заключается в том, что они и составляют существо большинства процедур интеллектуальной обработки.
Исходя из степени разработанности перечисленных задач для данного диссертационного исследования, выдвинуты следующие цель и задачи.
Целью исследования является разработка методов, обоснование состава средств обработки данных и архитектуры информационных систем, обеспечивающих поддержку принятия решений в условиях неопределенности в различных предметных областях.
Задачи исследования
1. Анализ состояния в области архитектуры информационных систем поддержки принятия решений (СППР) и используемых в них методов обработки и анализа данных.
2. Обоснование основных требований к методам и способам учета неопределенности при решении задач обработки и анализа многомерных данных в интересах поддержки принятия решений.
3. Разработка модели типовой информационной системы для комплексной автоматизации административной, учебной и научно-методической деятельности учебного заведения.
4. Определение места и роли систем (приложений) автоматизации обучения и разработка модели подсистемы автоматизации обучения языкам программирования.
5. Разработка метода, алгоритма и программного обеспечения приложения интеллектуального анализа данных для информационной системы страховой компании, предназначенного для прогнозирования страховых рисков.
6. Оценка эффективности разработанного метода прогнозирования страховых рисков.
Объектом исследования являются информационные системы поддержки принятия решений в области информационного обеспечения основных видов деятельности учебного заведения, а также страхования имущества граждан (автотранспорта).
Предметом исследования являются методы, алгоритмическое обеспечение приложений обработки и анализа многомерных данных и архитектура распределенных баз данных, обеспечивающие сбор, обработку и преобразование информации в вид, необходимый для принятия решений.
Теоретические основания исследования
Для построения сводных показателей качества объектов управления в информационных системах поддержки принятия решений использовались энтропийные методы анализа многомерных разнородных данных.
При обосновании построения информационных систем использовались разделы теории систем и системного анализа, при выборе вариантов и разработке структуры базы данных системы использовались разделы теории реляционных баз данных.
Эмпирическую базу диссертации составили результаты исследований по разработке модели процесса обучения языкам программирования, выполненных автором в 2000-2003 гг. на кафедре информационных технологий в сфере сервиса Московского государственного университета сервиса, и фактические данные о страхователях и их имуществе, представляющие собой содержание базы данных, а также ее приложение интеллектуального анализа данных, которые разрабатывались с участием автора для страховой компании.
Результаты диссертации внедрены в деятельность Института информационных технологий Московского государственного университета сервиса, а также в деятельность ООО «Страховая компания «Оранта», что подтверждается актами о внедрении и реализации (приложение 4).
Научная новизна исследования.
1. Впервые предложено и обосновано использование нового энтропийного метода обработки многомерной информации для создания приложений интеллектуального анализа данных в условиях неопределенности для информационных систем поддержки принятия решений.
2. Впервые разработана модель типовой информационной системы учебного заведения на основе концепции распределенных баз данных и приложений информационного обеспечения административной, учебной и научно-методической деятельности.
3. Разработан новый метод оценивания и прогнозирования рисков перехода объектов в возможные состояния для приложений интеллектуального анализа данных, заключающийся в преобразовании характеристик объекта в факторы риска и построении на них обобщенных показателей риска с помощью энтропийного метода.
Практическая значимость исследования.
1. Разработана модель типовой информационной системы комплексной автоматизации административной, учебной и научно-методической деятельности в учебном заведении, схема хранилища данных для этой системы, разработана и программно реализована учетная система.
2. Разработан алгоритм генерации заданий подсистемы обучения языкам программирования, а также метод, алгоритм и программное обеспечение приложения оценивания уровня знаний и навыков по результатам обучения на основе энтропийного метода построения обобщенных характеристик.
3. Разработаны алгоритмы и программное обеспечение приложения оценивания и прогнозирования рисков для информационной системы поддержки принятия решений в области страхования.
На защиту выносятся следующие положения:
1. Принцип построения приложений интеллектуального анализа данных для систем под держки принятия решений.
2. Метод построения гарантированных оценок риска в информационных системах на основе преобразования характеристик объекта управления в факторы риска и использования энтропийного метода построения обобщенных характеристик систем.
3. Модель типовой информационной системы динамического сопровождения процесса обучения.
Заключение диссертация на тему "Методы и средства анализа данных в системах поддержки принятия решений"
4.3. Выводы
1. Типовой информационной задачей, решаемой в интересах принятия решений, является построение обобщенных показателей уровня знаний по текущим оценкам за выполнение заданий. Результаты расчетов по получению обобщенного показателя уровня знаний разработанным методом и их сравнение с обобщенными оценками как средними арифметическими, показали, что последние завышают уровень знаний студентов от 0.15% до 16%, в зависимости от вариаций текущих оценок в массиве.
2. Первоочередной типовой информационной задачей, которую приходится решать в системах поддержки принятия решений при выборе альтернативных вариантов действий типа инвестирования различных проектов, возмещения возможного ущерба, убытков и других возможных потерь, является оценивание по априорным данным рисков, сопутствующих деятельности в той или иной области. В страховании, такой задачей является оценивание страховых рисков.
3. Информационная задача прогнозирования страховых рисков сводится к построению обобщенных характеристик факторов риска, которыми характеризуются страхователи. Построение оценок риска энтропийным методом обеспечивает их гарантированность точки зрения равной значимости вкладов всех факторов риска в его обобщенный показатель. Метод оценивания рисков заключается в факторизации исходных данных (преобразовании характеристик страхователей в факторы риска), построении на них обобщенных показателей с использованием энтропийного подхода к анализу многомерных данных и разбиения выборки оценок на два класса по критерию среднего уровня риска, обусловленного симметрией кривой упорядоченных значений оценок, - низкого уровня риска и высокого.
Заключение
В результате решения задач настоящего исследования, направленного на разработку методов, обоснование состава средств обработки данных и архитектуры информационных систем поддержки принятия решений в условиях неопределенности в различных предметных областях были получены следующие выводы и результаты.
Определено место систем поддержки принятия решений в технологическом процессе автоматизированных информационных систем, определен состав их средств, включающий хранилища оперативных данных, приложения оперативной обработки и подготовки данных, приложения интеллектуального анализа данных. Показано, что одним из основных элементов СППР являются средства (приложения) интеллектуального анализа, обеспечивающие преобразование оперативных данных в вид, необходимый для поддержки принятия решений.
По результатам анализа информационных задач поддержки принятия решения, показано, что их приходится решать в условиях неопределенности, обусловленной: существенной многомерностью данных, разнородностью, противоречивостью и неполнотой данных, отсутствием информации об адекватности применяемых математических моделей преобразования и обработки данных их физической природе. Показано также, что основным недостатком вероятностного подхода к решению информационных задач поддержки принятия решения является необоснованное распространение аксиоматики теории вероятностей на изучаемые процессы. Сформулированы требования к методу построения обобщенных показателей объектов управления, выражающих прагматические аспекты их функционирования, которые во многих случаях являются информационной основой принятия решения.
Рассмотрен энтропийный метод построения обобщенных характеристик систем, имеющих формальное описание в виде двумерного массива, основанный на использовании принципа максимума энтропии, и обоснована целесообразность его применения для снятия неопределенности при обработке многомерных разнородных, противоречивых и неполных данных. Показано, что данный метод в указанных условиях обеспечивает: получение гарантированных оценок обобщенного показателя системы; устойчивость к «возмущающим» факторам; возможность использования исходных данных, которые не являются независимыми и не требуют нормировки; аддитивность вкладов каждой характеристики объекта в значение его обобщенного показателя; реализуемость в виде простых алгоритмов, не требующих специальной настройки и сопровождения в ходе проведения расчетов.
На основании результатов анализа и обоснования методов и средств обработки информации разработана модель типовой информационной системы, предназначенной для комплексной автоматизации основных видов деятельности учебного заведения, включающая: СУБД, построенную в соответствии с концепцией хранилищ данных; приложения предварительной ' аналитической обработки и интеллектуального анализа данных; приложения разграничения доступа и обучения, включая дистанционное. Разработана модель подсистемы обучения на примере языка программирования высокого уровня, которая позволяет автоматизировать подготовку вариантов контрольных вопросов и заданий, а также текущее оценивания результатов их выполнения в рамках единого цикла.
Разработанное приложение (программное обеспечение) оценивания знаний реализует энтропийный метод построения обобщенных характеристик по многомерному массиву текущих оценок обучаемых. Результаты оценки обобщенного показателя уровня знаний разработанным методом и их сравнение с обобщенными оценками как средними арифметическими, показали, что последние завышают уровень знаний студентов от 0.15% до 16% в зависимости от вариативности текущих оценок в массиве.
Для прогнозирования рисков, сопутствующих деятельности в различных областях (в инвестировании, страховании и т.п.), предложено использовать энтропийный подход. Разработан новый метод оценивания и прогнозирования
136 рисков в страховом деле, который заключается в преобразовании характеристик страхователя и его имущества в факторы риска, построении на них обобщенных показателей с использованием энтропийного подхода, разбиении выборки оценок на два класса по критерию среднего уровня риска, которые определяют группы высокого и низкого риска. Получаемые таким образом оценки рисков являются гарантированными с точки зрения равной значимости учета в них всех факторов риска. Проверка работоспособности разработанного метода показала, что он обеспечивает достоверность прогноза ненаступления страхового случая не хуже 80% при максимальном разбросе значений оценок риска не более 4.4%.
Библиография Ананьев, Николай Сергеевич, диссертация по теме Информационные системы и процессы, правовые аспекты информатики
1. Абдикеев Н.М. Автоматизированные информационные системы в производстве, маркетинге и финансах. Том 2. Учебное пособие. РЭА им. Плеханова. М.: 2003.
2. Абдикеев Н.М. — Интеллектуальные информационные системы. Учебное пособие. — М:. РЭА им. Плеханова, 2003.
3. Аверкин А.Н., Батыршин И.З., Блишун А.Ф. и др. Нечеткие множества в моделях управления и искусственного интеллекта. М.: Наука, Гл. ред. физ. мат. лит. 1986.
4. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей М.: Финансы и статистика, 1985.
5. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983.
6. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989.
7. Айвазян С.А., Мхитарян B.C. Прикладная статистика и основы эконометрики. Учебник для вузов. М.: ЮНИТИ, 1998.
8. Ананьев Н.С. Разработка модели автоматизированной обучающей системы по языкам программирования. Магистерская дисс. М.: РУДН. 2001.
9. Ананьев С.Н., Вараксин А.Н., Куренков Н.И. О построении показателей эффективности функционирования алгоритмов автоматического распознавания. Информационные технологии, № 1, 2001.
10. Белкин А.Р., Левин М.Ш. Принятие решений: комбинаторные модели аппроксимации информации. -М.: Наука, 1990.
11. Вентцель Е.С. Исследование операций. М.: Сов. радио, 1972.
12. Вильсон А.Дж. Энтропийные методы моделирования сложных систем. М.: Наука, 1978.
13. Волкова В.Н., Воронков В.А. и др. Теория систем и методы системного анализа в управлении и связи. М.: Радио и связь, 1983.
14. Гаврилов А.В. Системы искусственного интеллекта: Учеб. пособие: в 2-х ч. Новосибирск: Изд-во НГТУ, 2001. - Ч. 1.
15. Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс : Учебное пособие М: Гелиос, 2002.
16. Геловани В. А. и др. Интеллектуальные системы поддержки принятия решений. -М.: Эдиториал УРСС, 2001 г.
17. Гришенков Е. Планирование и консолидация данных многомерной базы. Открытые Системы, №04, 2001.
18. Дейт Ч. Ведение в системы баз данных. — М.: Диалектика, 1998.
19. Денисов А.А. Современные проблемы системного анализа: информационные основы. Учеб. пособие. СПб.: СПбГПУ , 2003.
20. Джексон П. Введение в экспертные системы. Пер. с англ.- Вильяме,2001.
21. Дюк В.А. Компьютерная психодиагностика. СПб.: Братство, 1994. Ерков А.А. Оптимальное решающее правило с оценкой достоверности. Препринт ИПМ АН СССР № 0134, Москва, 1984.
22. Заботнев М.С. Система анализа образовательной статистики на основе интеграции OLAP и GIS технологий, www.olap.ru
23. Искусственный интеллект: Модели и методы: Справочник/Под ред. Д. А. Поспелова. В 3-х кн. — М.: Радио и связь. 1990. Кн. 2.
24. Кадощук И.Т., Липчинский Е.А. Обзор технологий хранилищ данных, www.olap.ru
25. Карлин С. Математические методы в теории игр, программировании и экономике. М.: Мир, 1964.
26. Катулев А.Н., Северцев Н.А., Исследование операций: принципы принятия решений и обеспечение безопасности. — М.: Физико-математическая литература, 2000.
27. Кендалл М. Методы ранговой корреляции. М.: Статистика, 1974.
28. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах. Открытые системы, №4,1997.
29. Клейнер Г.Б., Смоляк С.А. Эконометрические зависимости: принципы и методы построения. — М.: Наука, 2000.
30. Коровкин С. Д. и др. Решение проблемы комплексного оперативного анализа информации хранилищ данных. СУБД, № 5-6, 1997.
31. Крупский А.Ю., Феоктистов Н.А. Исследование систем управления предприятий сервиса. Материалы межвуз. НТК "Современные средства управления бытовой техникой". М., 2004.
32. Кульба В.В. и др. Методы формирования сценариев развития социально-экономических систем. -М.: СИНТЕГ, 2004.
33. Куренков Н.И., Лебедев Б.Д. Применение энтропийного дискриминантного анализа в задачах кластеризации многомерных данных. Механика композиционных материалов и конструкций. — М.: РАН, 1999.
34. Куренков Н.И., Лебедев Б.Д. Применение энтропийных свойств матриц для кластеризации композитов по их свойствам. Механика композиционных материалов и конструкций. ТЗ, № 4, 1997.
35. Куренков Н.И., Лебедев Б.Д. Энтропийные методы определения обобщенных характеристик систем. Доклады академии наук. М.: РАН. Том 365, №3. 1999.
36. Куренков Н.И., Лебедев Б.Д., Использование обобщенных показателей систем для восстановления данных. Механика композиционных материалов и конструкций. — М.: РАН, Т 4, № 2, 1998.
37. Куренков Н.И., Лебедев Б.Д., Использование энтропийных методов и обобщенных средних при обосновании характеристик материалов. Механика композиционных материалов и конструкций. — М.: РАН, Т 4, № 3, 1998.
38. Ларичев О.И. Теория и методы принятия решений: Учебник. — М.: Логос, 2000.
39. Лисянский К. Архитектурные решения и моделирование данных для хранилищ и витрин данных, www.olap.ru
40. Лорьер Ж.-Л. Системы искусственного интеллекта. Пер. с франц. -М.: Мир, 1991.
41. Львов В. Создание систем поддержки принятия решений на основе хранилищ данных. СУБД, № 3, 1997.
42. Магнус Я.Р., Нейдекер X. Матричное дифференциальное исчисление с приложениями к статистике и эконометрике. Пер. с англ./Под ред. С.А. Айвазяна. М.: ФИЗМАТЛИТ, 2002.
43. Маклаков С.В. BPwin и ERwin. CASE-средства разработки информационных систем. -М.: Диалог Мифи, 1999.
44. Малиновский Л.Г. Анализ статистических связей: Модельно-конструктивный подход. Ин-т проблем передачи информ. М.: Наука, 2002.
45. Марпл С.Л. Цифровой и спектральный анализ и его приложения. -М.: Мир, 1990.
46. Мартыщенко Л.А., Панов В.В., Филюстин А.Е. Методы военно-научных исследований в задачах разработки и испытания вооружений. 4.2, л., МО СССР, 1985.
47. Марченко А.И. Object Pascal 2.0. К.: ЮНИОР, 1998.
48. Мелик-Гайказян И.В. Информационные процессы и реальность. -М.: Наука, 1998.
49. Методики (I) расчета тарифных ставок по массовым рисковым видам страхования, утвержденной Распоряжением Федеральной службы РФ оп надзору за страховой деятельностью, № 02-03-36 от 28.07.93
50. Методы анализа данных. Пер. с фр. Под редакцией Айвазяна С.А. и Бухштабера В.М. -М.: Финансы и статистика, 1985.
51. Методы добычи данных. Электронный учебник StatSoft. StatSoft Inc.
52. Миркин Б.Г. Анализ качественных признаков и структур. М.: Статистика, 1980.
53. Моисеев Н. Н. Математические задачи системного анализа. М.: Наука, 1981.
54. Моренин А.В. Концепция проведения разработок системы интеллектуальной поддержки принятия решения "Эврика+", www.olap.ru
55. Мушик Э., Мюллер П. Методы принятия технических решений. Пер. с нем. М.: Мир, 1990.
56. Обработка экспериментальных данных с использованием компьютера. Под редакцией С. Минами. Пер. с япон. Под ред. E.JI. Косарева, — М.: Радио и связь, 1999.
57. Осипов Г.С. Приобретение знаний интеллектуальными системами — М.: РУДН, 1994.
58. Панченков А.Н. Энтропия. Н.Новгород: Издательство общества "Интелсервис", 1999.
59. Питц-Моултис Н., Кирк Ч. XML: Пер. с англ. СПб.: БХВ-Петербург, 2001.
60. Попов И.И. Автоматизированные информационные системы (по областям применения). : Учебное пособие/Под общей редакцией К.И. Курбакова М.: Изд-во Рос. экон акад., 1998.
61. Попов Э. В. Экспертные системы. М.: Наука, 1987.
62. Прангишвили И.В., Пащенко Ф.Ф., Бусыгин Б.П. Системные законы и закономерности в электродинамике, природе и обществе. М.: Наука, 2001.
63. Пржиялковский В.В. Сложный анализ данных большого объема: новые перспективы компьютеризации. СУБД, № 04, 1996 г.
64. Пройдаков Э. Что такое Data Mining? PCWeek, № 26, 1999.
65. Пытьев Ю.П. Возможность. Элементы теории и применения. — М.: Эдиториал УРСС, 2000.
66. Ревунков Г.И., Самохвалов Э.Н., ЧистовВ.В. Базы и банки данных и знаний. М.: Высшая школа, 1992.
67. Романенко А.Г., Максимович Г.Ю., Самойлюк О.Р. и др. Информационные системы: Учебное пособие/Под общей редакцией К.И. Курбакова. М.: Изд-во Рос. экон. акад., 1999.
68. Саати Т. Принятие решений. Метод анализа иерархий. М.: Радио и связь, 1985.
69. Сахаров А.А. Концепция построения и реализации информационных систем, ориентированных на анализ данных. СУБД № 4, 1996.
70. Слотер Э.Х. Архитектуры OLAP. www.iso.ru
71. Стратонович Р.Л. Теория информации. М.: Сов. радио, 1975.
72. Сурков Е.А. Методологические аспекты процессов автоматизации управленческой деятельности (Управление в трех измерениях). Enterprise partner, №24(41), 2001.
73. Трухаев Р.И. Модели принятия решений в условиях неопределенности. -М.: Наука, 1981.
74. Тулупьев А. Л. Алгебраические байесовские сети. Логико-вероятностный подход к моделированию баз знаний с неопределенностью. -СПб.: СПИИРАН, 2000.
75. Туо Дж. Каждому пользователю свое представление данных. -ComputerWeek, № 38, 1996.
76. Ульман Д. Основы систем баз данных. М,: Финансы и статистика,1983.
77. Федечкин С. Хранилище данных: вопросы и ответы. PCWeek, № 31,2003.
78. Федоров А., Елманова Н. Введение в OLAP: часть 1. Основы OLAP, КомпьютерПресс № 4, 2001.
79. Феоктистов Н.А. и др. Оптоэлектронные элементы информационныхсистем. М.: МГУС, 2002.
80. Хендерсон К. Delphi 3: Руководство разработчика. Пер. с англ.- К:. Диалектика, 1997.
81. Цыпкин Я.З. Информационная теория идентификации. М:, Наука Физматлит, 1995.
82. Черноморов Г.А. Теория принятия решений: Учебное пособие / Юж.-Рос. гос. техн. ун-т. Новочеркасск: Ред. Журн. «Изв. Вузов. Электромеханика», 2002.
83. Шапот М. Интеллектуальный анализ данных в системах поддержки принятия решений. Открытые системы № 01, 1998.
84. Шилейко А.В., Кочнев В.Ф., Химушкин Ф.Ф. Введение в информационную теорию систем. М.: Радио и связь, 1985.
85. Щавелев JI.B. Оперативная аналитическая обработка данных:концепции и технологии, www.olap.ru
86. Щавелев JI.B. Способы аналитической обработки данных для поддержки принятия решений. СУБД, № 4-5, 1998.
87. Codd E.F., Codd S.B., Salley С.Т., Providing OLAP (on-line analytical processing) to user-analysts: An IT mandate. Technical report, 1993.
88. Alalouf C. Hybrid OLAP. St. Laurent, Canada: Speedware Corporation Inc., 1997.
89. Bradley P., Fayyad U., Reina C. Scaling Clustering Algorithms to Large Databases, Proc. 4th Int'l Conf. Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, Calif. 1998.
90. Erhard Ram, Hong Hai Do. Очистка данных: проблемы и актуальные подходы, www.iso.ru.
91. Ganti V., Gehrke J., Ramakrisnan R. Mining Very Large Databases. IEEE Computer, 1999.
92. OLAP for the Masses. Business Objects S.A., www.businessobjects.com.1996.
93. Oracle Express Release 6.2 Database Administration Guide.
94. Oracle Express Release 6.2 Express Language Programming Guide.
95. Parsaye K. Surveying Decision Support: New Realms of Analysis. Database Programming and Design. № 4, 1996.
96. Модель данных типовой ИС учебного заведения
97. С целью более точной и детальной оценки знаний студентов введена еще одна сущность — ТЕМА (TOPIC), являющая составной частью курса.
98. Схема аналитического хранилища приведена на рис. ГТ1.1.1. Professor1. Student1. Topic1. Course1. Course Topic
99. Рис. 2.1. Схема аналитического хранилища
100. Концептуальная схема оперативного хранилища типовой ИС учебного заведения
-
Похожие работы
- Совершенствование процедур поддержки принятия решений в логистических системах на основе геоинформационных технологий
- Система поддержки принятия коллективных решений при управлении взаимодействующими деловыми процессами в промышленности
- Способы и программные средства интеллектуальной поддержки принятия решений на основе риск-ситуаций
- Синтез информационных технологий обработки когнитивной информации в системах поддержки принятия решений
- Разработка математического и алгоритмического обеспечения адаптивных систем поддержки принятия решений в ситуационных центрах