автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.10, диссертация на тему:Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных

кандидата технических наук
Гудков, Алексей Анатольевич
город
Пенза
год
2008
специальность ВАК РФ
05.13.10
Диссертация по информатике, вычислительной технике и управлению на тему «Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных»

Автореферат диссертации по теме "Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных"

На правах рукописи □□345367Э

ГУДКОВ Алексей Анатольевич

АВТОМАТИЗИРОВАННАЯ СИСТЕМА МОНИТОРИНГА СОЦИАЛЬНО-ЭКОНОМИЧЕСКОЙ СФЕРЫ РЕГИОНА НА ОСНОВЕ ТЕХНОЛОГИЙ ОБНАРУЖЕНИЯ ЗНАНИЙ В БАЗАХ ДАННЫХ

Специальность 05.13.10 - Управление в социальных и экономических системах (технические науки)

Автореферат диссертации на соискание ученой степени кандидата технических наук

21 ноят

ПЕНЗА 2008

003453679

Работа выполнена в государственном образовательном учреждении высшего профессионального образования «Пензенский государственный университет».

Научный руководитель - доктор технических наук, профессор

Бершадский Александр Моисеевич.

Официальные оппоненты: доктор технических наук, профессор

Камаев Валерий Анатольевич (Волгоградский государственный технический университет, г. Волгоград);

доктор технических наук, профессор Макаров Алексей Алексеевич (Международный институт рынка, г. Самара).

Ведущая организация - Исследовательский центр проблем качества подготовки специалистов (г. Москва).

Защита диссертации состоится 11 декабря 2008 г., в 14 часов, на заседании диссертационного совета Д 212.186.04 в государственном образовательном учреждении высшего профессионального образования «Пензенский государственный университет» по адресу: 440026, г. Пенза, ул. Красная, 40.

С диссертацией можно ознакомиться в библиотеке государственного образовательного учреждения высшего профессионального образования «Пензенский государственный университет», автореферат размещен на сайте www.pnzgu.ru

Автореферат разослан 10 ноября 2008 г.

Ученый секретарь диссертационного совета доктор технических наук,

профессор Смогунов В. В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Управление социально-экономическими (СЭ) объектами подразумевает выполнение определенной последовательности действий: сбор информации об объекте управления; анализ полученной информации; принятие решения; управляющее воздействие; контроль. Первые два этапа, относящиеся к сбору и анализу информации, составляют основу понятия «мониторинг». Таким образом, мониторинг можно определить как составную часть процесса управления, заключающуюся в систематическом наблюдении и анализе деятельности объекта управления. Следовательно, для принятия обоснованных управленческих решений региональным органам власти необходимы современные средства и методы сбора и анализа СЭ-информации. Особую актуальность проблема мониторинга приобретает тогда, когда информация об исследуемой системе сложно структурирована и отражает различные стороны ее функционирования, что характерно для СЭ-сферы региона.

Проблемой регионального мониторинга занимаются такие ведущие организации, как Центральный экономико-математический институт РАН, Институт экономики Карельского научного центра РАН, Ивановский государственный энергетический университет, компании «Прогноз», «ИНЭК», «ПАРУС» и др.

Данная работа направлена на разработку новых подходов к мониторингу СЭ-сферы региона, позволяющих повысить его качество. Для этих целей предлагается использовать технологии обнаружения знаний в базах данных (Knowledge Discovery in Databases, KDD), к которым можно отнести технологии хранилищ данных, многомерных баз данных, технологии оперативной и интеллектуальной обработки данных, геоинформационные технологии.

Цель и задачи исследования. Целью диссертационной работы являются исследование проблемы регионального мониторинга и анализа СЭ-информации, поиск путей повышения качества мониторинга, а также разработка автоматизированной системы мониторинга на основе технологий KDD и методики ее применения на примере региональных СЭ-данных. Для достижения поставленной цели необходимо решить следующие задачи:

1. Аналйз существующих методов мониторинга, выявление их достоинств и Недостатков; анализ применимости процесса KDD к задаче мониторинга СЭ-сферы региона.

2. Анализ существующих алгоритмов интеллектуального анализа данных (Data Mining) и возможности их применения к региональным СЭ-данным; разработка алгоритмов Data Mining, специфичных для СЭ-сферы.

3. Проектирование автоматизированной системы мониторинга на основе технологий KDD, определение ее структуры и функций входящих в нее модулей; разработка программного и информационного обеспечения системы.

4. Апробация разработанной системы; экспериментальное исследование всех этапов мониторинга в рамках процесса KDD; составление рекомендаций по проведению мониторинга СЭ-сферы региона с использованием разработанной системы.

Методы исследования. При решении поставленных задач использовались принципы и методы системного анализа, модульного и объектно-ориентированного проектирования и программирования, теории баз данных, математической статистики, факторного анализа, геоинформационного пространственного анализа.

Научная новизна исследования состоит в следующем:

1. Впервые предлагается использовать технологии KDD (в том числе методы Data Mining) для мониторинга СЭ-сферы региона, что позволит устранить недостатки, присущие традиционным методам мониторинга, и повысить качество мониторинга.

2. Предложен новый алгоритм Data Mining, специфичный для СЭ-исследований, - алгоритм конструирования интегральных показателей, позволяющий выявлять латентные признаки в исследуемых системах, ранжировать объекты, выявлять признаки, обусловливающие социальное или экономическое развитие отдельных регионов (или, наоборот, их депрессию) и др.

3. Предложена структура автоматизированной системы мониторинга, поддерживающей все этапы процесса KDD: сбор данных, их очистку, консолидацию, интеллектуальный анализ данных, вывод и интерпретацию результатов, - с учетом специфики предметной области.

4. Разработана методика проведения анализа СЭ-информации с использованием алгоритмов Data Mining. Отличительной особенностью предлагаемого подхода является разработанный механизм генерирования рекомендаций для лица, принимающего решения, на основе результатов интеллектуального анализа данных.

Практическая ценность. Предлагаемый новый подход к мониторингу СЭ-систем на основе технологий KDD позволяет эффективно аккумулировать СЭ-информацию из различных источников; выполнять анализ больших групп СЭ-показателей в их системном единстве; повысить оперативность анализа; обнаруживать скрытые закономерности в данных; более выразительно представлять результаты анализа. Все это способствует принятию более обоснованных управленческих решений.

Разработано программное и информационное обеспечение автоматизированной системы мониторинга, имеющей в своем составе подсистемы очистки данных, формирования структуры многомерной базы данных, ввода и редактирования данных, интеллектуального анализа информации и др., функционирующие на платформах Win32 и .NET (Windows 2000/ХР/2003). В рамках подсистемы интеллектуального анализа информации разработано программное обеспечение, реализующее алгоритм конструирования интегральных показателей.

Даны практические рекомендации по использованию разработанной автоматизированной системы мониторинга, предложены и описаны последовательность и содержание этапов мониторинга СЭ-информации.

Основные положения, выносимые на защиту:

1. Применение технологий KDD (в том числе методов Data Mining) для мониторинга СЭ-сферы региона.

2. Новый алгоритм Data Mining - алгоритм конструирования интегральных показателей, позволяющий ранжировать объекты, а также выявлять признаки, обусловливающие СЭ-развитие отдельных территорий.

3. Структура автоматизированной системы мониторинга СЭ-сферы региона на основе технологий KDD.

4. Методика анализа региональных СЭ-данных с использованием алгоритмов Data Mining, включающая генерирование рекомендаций для лица, принимающего решения.

Внедрение результатов работы. Основные теоретические и практические результаты диссертационной работы использовались при выполнении темы «Разработка и апробация методики оценки состояния и оптимизации региональной сети профессионального образования с учетом решения задач формирования общенациональных университетов и системообразующих вузов. Создание регионального модуля системы информационно-аналитического обеспечения» (договор от 18 сентября 2007 г. № 3/П637 в рамках ГК № 63/М-Н-3874 р от 17.09.07).

Кроме того, результаты работы использовались при выполнении НИР «Разработка методики информационной поддержки подготовки и переподготовки государственных и муниципальных служащих в области информационных технологий» по заказу Тамбовского государственного технического университета (договор № 05/07 от 1 февраля ,2007 г.), о чем имеется акт внедрения.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах: X, XI, XII Международных научно-методических конференциях «Университетское образование» (Пенза, 20062008), конференции «Технологии Microsoft в теории и практике программирования» (Нижний Новгород, 2006), Всероссийской научно-практической конференции «Развитие университетского комплекса как фактор повышения инновационного и образовательного потенциала региона» (Оренбург, 2007), XXXIV Международной конференции «Информационные технологии в науке, социологии, экономике и бизнесе IT+SE'07» (Ялта-Гурзуф, 2007), XIV, XV Всероссийских научно-методических конференциях «Телематика'2007, '2008» (Санкт-Петербург, 2007-2008), I Всероссийской научно-практической конференции «Информационные технологии в образовании, науке и производстве» (Серпухов, 2007), II Международной конференции «Аналитические и численные методы моделирования естественнонаучных и социальных проблем» (Пенза, 2007), XIII Всероссийской научно-технической конференции «Новые информационные технологии в научных исследованиях и образовании» (Рязань, 2008), научно-практической конференции «Перспективные технологии искусственного интеллекта» (Пенза, 2008), научно-технических конфе-

ренциях профессорско-преподавательского состава Пензенского государственного университета (2006-2008).

Публикации. По материалам диссертации опубликовано 16 печатных работ.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 141 наименование, приложения, содержащего акт внедрения. Основная часть работы изложена на 174 машинописных страницах, содержит 45 рисунков и 16 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертации, сформулированы цели и задачи исследования, отражена научная новизна и приведены основные практические результаты работы.

В первой главе рассматриваются существующие методы и системы мониторинга СЭ-сферы региона, а также технологии процесса KDD.

Анализ существующих методов мониторинга СЭ-сферы региона позволил выявить присущие им недостатки: ограниченная возможность совместного анализа больших групп СЭ-показателей в их системном единстве; неиспользование преимуществ, вытекающих из иерархической структуры региональных СЭ-данных; использование традиционных статистических методов анализа, не позволяющих выявлять глубинные закономерности, скрытые в больших массивах СЭ-данных, и др.

Для устранения выявленных недостатков предлагается использовать в процессе регионального мониторинга информационно-аналитический комплекс, построенный на базе технологий обнаружения знаний в базах данных (KDD), включающих в себя технологии хранилищ данных, многомерных баз данных, оперативного и интеллектуального анализа, геоинформационные технологии. Использование многомерных баз данных позволяет эффективно аккумулировать СЭ-информацию из различных источников; технология оперативного анализа (OLAP) позволяет в реальном времени получать различные «срезы» многомерного куба данных и выполнять операции детализации/обобщения данных; технология интеллектуального анализа позволяет выявлять в СЭ-данных скрытые закономерности и совместно

с геоинформационными технологиями более выразительно представлять результаты анализа.

KDD - это процесс преобразования данных к знаниям. Под данными понимается информация, представленная в формализованном виде, пригодном для обработки в некотором информационном процессе. Под знаниями понимается информация о закономерностях процессов и явлений, их причинно-следственных связях. Главное отличие знаний от данных состоит в их активности, т. е. в возможности их использования для принятия решений. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining, постобработки данных, интерпретации полученных результатов.

Проведенный анализ современного состояния систем и инструментальных средств, используемых для анализа региональной СЭ-информации, позволил выявить их недостатки: для специализированных систем - это полное или частичное отсутствие поддержки процесса KDD и методов интеллектуального анализа данных, что делает невозможным выявление глубинных закономерностей, присущих исследуемым СЭ-системам; для универсальных систем - это чрезмерная сложность, малая пригодность для целей мониторинга (больше предназначены для анализа информации), а также отсутствие аналитических методов, специфичных для СЭ-систем. В связи с этим был сделан вывод о необходимости разработки системы мониторинга СЭ-сферы региона с использованием технологий KDD.

Во второй главе рассматриваются модели и методы интеллектуального анализа данных, являющегося основой процесса KDD. В частности, исследуется возможность применения широко известных алгоритмов Data Mining к региональным СЭ-данным. Предлагается алгоритм конструирования интегральных показателей как алгоритм Data Mining, специфичный для исследования СЭ-явлений.

Ключевым в процессе KDD является этап интеллектуального анализа данных. Набор методов интеллектуального анализа не является строго фиксированным, а базируется на разнообразных алгоритмических и статистических методах, методах нечеткой логики, генетических алгоритмах, нейронных сетях и т. д. Характерной особенностью интеллектуального анализа данных является то, что получаемые в итоге знания должны обладать следующими свойствами: быть ранее

не известными, нетривиальными и практически полезными. В отличие от оперативной аналитической обработки данных (OLAP), в Data Mining задача формулировки гипотез и выявления необычных шаблонов в данных переложена с человека на компьютер.

При анализе СЭ-явлений особую актуальность представляет исследование ситуаций, характеризующихся большим количеством различных свойств, каждое из которых является существенным для характеристики данного явления. В такого рода ситуациях часто требуется сконцентрировать информацию, выражая большое число исходных косвенных признаков через меньшее число более емких внутренних характеристик явления. Более того, часто аналитик сталкивается с ситуациями, когда ему приходится сравнивать между собой или упорядочивать ряд сложных систем по некоторому не поддающемуся непосредственному измерению одному признаку. Речь может идти, в частности, о сравнении регионов по уровню или качеству жизни, предприятий отрасли - по эффективности их деятельности и т. д. При этом общее представление о степени проявления анализируемого латентного, не поддающегося непосредственному измерению свойства складывается как результат определенного суммирования целого ряда частных поддающихся измерению характеристик, от которых зависит в конечном счете это свойство. Таким образом, встает задача конструирования интегрального показателя (ИП). Принимая во внимание определение понятия Data Mining, задачу построения интегральных показателей можно отнести к задачам интеллектуального анализа данных.

Проведенный обзор систем, ориентированных на интеллектуальный анализ данных, показал, что в них отсутствуют алгоритмы конструирования ИП. Это связано, в первую очередь, с тем, что изначально системы Data Mining разрабатывались для решения бизнес-задач, поэтому в них отсутствуют некоторые инструменты анализа, специфичные для СЭ-исследований.

Существует несколько подходов к построению ИП. Один из них заключается в замене исходного набора показателей рангами (местами), которые занимают объекты, с последующим усреднением этих рангов. Недостатками рангового подхода являются лишь упорядочивание объектов и, как следствие, невозможность определения степени неравенства между объектами. Другой подход заключается в

предварительном сведении показателей к одной размерности с последующим взвешенным суммированием. К недостаткам данного подхода можно отнести трудности с подбором весовых коэффициентов, а также то, что среди множества показателей, скорее всего, имеются коррелирующие между собой, которые будут вносить «лишний» вклад в ИП. Другие подходы основаны на сокращении пространства признаков путем экспертного отбора наиболее существенных признаков либо на основе анализа матрицы парных корреляций - в этом случае устраняются максимально коррелирующие между собой признаки. Главным недостатком таких подходов является возможность существенного искажения содержательного смысла СЭ-модели из-за исключения из нее потенциально важных показателей.

Справиться с отмеченными недостатками позволяет следующий двухэтапный метод построения ИП. На первом этапе происходит сокращение размерности исходного пространства признаков. Для этих целей используется метод главных компонент (один из методов факторного анализа). Получаемый в результате применения этого метода сокращенный набор признаков (факторов) обладает тем важным свойством, что признаки внутри него независимы. На втором этапе сокращенный набор независимых признаков предлагается объединять в ИП, используя экспертно-статистический подход. Математический аппарат предлагаемого метода построения ИП следующий.

Пусть имеется п исходных признаков, описывающих некоторую СЭ-систему. Будем рассматривать эти признаки как случайные величины и запишем их в виде вектора Ъ = 2%, ..., Д,)1, где 21 - центрированная случайная величина, соответствующая г'-му признаку. Вычислим для вектора Ъ ковариационную матрицу 2 = М^ Т}\ Будучи симметричной и неотрицательно определенной, она имеет п вещественных неотрицательных собственных чисел Х2, ■■■, К-Предположим, что X] > Х2 > ... > Хп.

Обозначим

% 0 ••• О"

о х2 ■■■ о

А _ ^

Пусть \j = (vi;, v2j, ..., v,y)T - нормированные собственные векторы матрицы Е, соответствующие собственным числам

Введем матрицу V = (vb v2,..., v„). Так как Е v, = Xj \р то

vTIv = 3L.VTV = Pv> P = j> J р J J р [0, p + j

и VT S V = Л.

Введем вектор F = VT Z. Его ковариационная матрица равна

M[F FT] = M[VT Z ZT V] = VT M[Z ZT] V = VT E V = Л.

Следовательно, компоненты вектора F - (FX,F2, ..., Fn)T не корре-лированы, и их можно рассматривать в качестве искомых независимых факторов. Для их вычисления используется формула

Fj = Y" VjjZj, при этом дисперсия факторов равна D[F/] = Xj.

Для построения единого ИП берутся первые п'<п главных компонент с максимальными значениями X, которыми исчерпывается не менее 55-70 % дисперсии исходных случайных величин. Поскольку главные компоненты независимы, для их объединения в ИП

предлагается использовать линейную свертку: /у = ' где

с,- = (е,- + d,)/2 - весовые коэффициенты факторов; et - экспертные оценки значимости факторов; dt - оценки, вычисленные автоматически на основе анализа значений факторов. В качестве di предлагается использовать среднеквадратические отклонения факторов: dj = ^D[i5}] = -JXf . В случае если имеются достаточно надежные экспертные оценки важности факторов, то вместо обобщенных весов с; можно использовать только веса, полученные на основе экспертных оценок е,. Наоборот, если получение экспертных оценок затруднено, то для оценки важности факторов можно использовать только веса, отражающие разброс значений факторов dt.

Таким образом, впервые предлагается новый алгоритм Data Mining - алгоритм конструирования ИП, схема которого приведена на рис. 1. Построение ИП как метод Data Mining имеет следующие преимущества: единый подход к проведению интеллектуального анализа данных наравне с другими методами Data Mining; интеграция в общий процесс KDD; оперативность построения ИП и др.

Рис. 1. Схема алгоритма построения интегрального показателя

В третьей главе рассматривается автоматизированная система мониторинга СЭ-сферы региона (АСМ), а также предлагается методика проведения мониторинга с использованием данной системы. Структура АСМ, представленная на рис. 2, проектировалась, исходя из задач, встающих перед пользователем, исследующим данные с использованием технологий KDD.

ных данные Рис. 2. Структура автоматизированной системы мониторинга

Система реализована в виде клиент-серверного приложения, позволяющего клиентам подключаться к серверу по протоколу TCP/IP. В качестве сервера используется компонент Microsoft SQL Server 2005 Analysis Services. Основным преимуществом компонента Analysis Services является то, что он включает в себя две основные и дополняющие друг друга функциональные части - OLAP и Data Mining, которые являются основой для создания аналитических приложений, следующих технологиям KDD.

В соответствии с этапами процесса KDD была разработана методика проведения мониторинга СЭ-сферы региона. На первом этапе осуществляется анализ доступных источников информации и определяется совокупность данных (возможно, разрозненных или слабо

структурированных), на основании которых будет проводиться мониторинг.

Затем осуществляется проектирование структуры многомерной базы данных (МБД) в соответствии с имеющимися источниками данных и целями мониторинга. Для этого предназначена подсистема формирования структуры МБД, позволяющая визуально создавать требуемую структуру многомерного куба. Результатом работы данной подсистемы является XML-файл, в котором хранится описание структуры МБД.

Учитывая специфику предметной области, целесообразно использовать МБД с тремя измерениями: «объекты», «признаки», «время». При этом все измерения должны иметь иерархическую структуру, обусловленную иерархическим представлением СЭ-информации в тематическом плане, а также в пространственной и временной организации. Представление информации в виде такого куба позволяет аналитику исследовать различные аспекты СЭ-сферы региона: изменение значений признаков, описывающих один объект, во времени; пространственные различия (различия множества объектов по набору признаков); изменение одного признака во времени и в пространстве (на множестве объектов и на множестве интервалов времени).

Следующим идет этап очистки данных. Необходимость этого этапа определяется тем, что лишь немногие источники данных обеспечивают удовлетворительный контроль информации. Данный этап особо актуален при использовании средств сканирования и распознавания изображений, которые применяются при вводе информации, имеющейся в печатном виде. В связи с этим была разработана подсистема очистки и форматирования данных, реализованная в виде приложения, взаимодействующего с Microsoft Excel, и предназначенная для устранения различных опечаток и неточностей в табличных данных.

Следующим этапом является занесение информации в хранилище данных. Для этого были разработаны подсистема ввода и редактирования данных, а также подсистема формирования МБД. Первая предназначена для занесения данных из различных источников в единую реляционную базу данных. Эта подсистема позволяет также редактировать данные, в частности, устранять дублирование объектов, имеющих разные названия. Данные можно как импортировать из

уже существующих баз данных, так и заносить из таблиц Excel. Во втором случае в рассматриваемой подсистеме нужно выбрать два измерения, соответствующих строкам и столбцам заносимой таблицы (среза данных), а остальные измерения зафиксировать, придав им конкретные значения. Подсистема формирования МБД взаимодействует с Analysis Services и создает на сервере в соответствии с разработанной структурой МБД и на основе данных из реляционной базы данных многомерный куб.

Далее следует этап интеллектуального анализа данных. Данный этап можно разбить на три подэтапа:

• применение методов Data Mining;

• визуализация результатов Data Mining, в том числе отображение пространственных данных на электронных географических картах;

• интерпретация полученных результатов и генерирование рекомендаций для лица, принимающего решения.

Для выполнения этих действий предназначена подсистема интеллектуального анализа информации (клиентская часть), реализованная в виде приложения, работающего на платформе .NET и взаимодействующего с сервером Analysis Services посредством объектов ADOMD.NET и языка SQL с расширениями DMX (Data Mining extensions). Выборка нужного для анализа среза многомерного куба данных осуществляется с использованием компонента Microsoft Excel «сводная таблица». Сервер Analysis Services предоставляет клиентской части следующие алгоритмы Data Mining: деревья решений (decision trees), кластеризацию, простой байесовский алгоритм (naive bayes), ассоциативные правила, кластеризацию последовательностей (sequence clustering), алгоритм временных рядов, нейронные сети, линейную регрессию, логистическую регрессию, а также алгоритмы сторонних разработчиков (third-party plug-in algorithms).

Анализ региональных СЭ-данных рекомендуется начинать с алгоритма кластеризации, алгоритма ассоциативных правил или байесовского алгоритма. Если аналитик не уверен, какие показатели выбрать в качестве входных, рекомендуется выбрать все - большинство алгоритмов Data Mining автоматически отберет наиболее информативные переменные в плане их влияния на целевую переменную.

На основе результатов интеллектуального анализа данных клиентская подсистема генерирует рекомендации для лица, принимающего решения. Рекомендации строятся следующим образом: пользователь выбирает целевую переменную, задает ее целевое значение (минимум, максимум, среднее значение, конкретное значение или диапазон), и, основываясь на результатах алгоритмов Data Mining (кластеризации, байесовского алгоритма, ассоциативных правил), подсистема определяет значения, которые должны принимать остальные переменные, чтобы удовлетворить заданным условиям для целевой переменной. Например, при построении рекомендаций на основе кластерного анализа осуществляется поиск кластера, в котором значение целевого показателя наиболее близко к заданному значению. Затем анализируются значения других показателей, вошедших в данный кластер, и они выводятся в рекомендации в порядке убывания важности, которая определяется разбросом значений показателей среди кластеров.

Помимо генерирования рекомендаций, подсистема интеллектуального анализа информации позволяет строить интегральные показатели, а также отображать входные и выходные данные на электронных географических картах.

В четвертой главе рассматриваются вопросы, посвященные практическим аспектам применения разработанной системы. Приводятся результаты анализа показателей СЭ-развития регионов РФ, а также данных образовательной статистики по Пензенской и Тамбовской областям с использованием методов Data Mining. В частности, исследуются на практике такие методы интеллектуального анализа, как кластеризация, деревья решений, ассоциативные правила, байесовский алгоритм, нейронные сети и др.

С помощью алгоритма кластеризации проведено автоматическое разбиение вузов РФ по показателям формы 3-НК «Сведения о государственном и муниципальном высшем учебном заведении». Алгоритм выделил три кластера и определил, какие значения показателей характерны для каждого кластера. Значения некоторых показателей представлены в табл. 1, где жирным шрифтом отмечены максимальные значения, курсивом - минимальные.

Таблица 1

Результаты кластеризации вузов

Показатель Все записи Кластер 1 Кластер 2 Кластер 3

% препод, в возрасте до 30 лет 17,0115,93 13,88±4,59 17,8915,9 21,5714,78

% препод, в возрасте 30-39 лет 20,77±4,89 i 8,5313,95 23,0715,25 22,2214,41

% препод в возрасте 40-49 лет 20,7115,61 19,76+4,1 24,617,31 18,2±3,33

% препод, в возрасте 50-59 лет 22,6214,56 25,2714,31 20,714,23 20,0512,36

% препод в возрасте 60-65 лет 8,7313,6 10,1713,73 7,4813,62 7,5712,27

% препод в возрасте более 65 лет 10,1515,13 12,415,36 6,2613,25 10,3913,85

% препод, на 0,5 и 0,25 ставки 13,8816,39 it, 8714,39 14,3616,16 16,8918,25

% препод, на полной ставке 86,1216,39 88,1314,39 85,6416,16 83,11+8,25

% препод, с ученым званием доцента 34,6518,48 39,9616,5 29,1±9,69 31,2813,08

% препод с ученым званием профессора 8,8213,59 9,8812,5 6,5614,84 9,3812,48

% препод, с ученой степенью кандидата наук 50.919,15 53,5415,69 44,82±12,44 52,816,89

% препод, с ученой степенью доктора наук 10,1313,84 10,9712,58 7,1514,83 11,8712,6

% препод, на должности препод, или ассистента 17,3917,95 13,65±6,2 19,1117,6 22.0818.13

% препод, на должности ст. препод. 22,7217,62 21,3916,05 28,8617,96 18,4615,56

% препод, на должности доцента 40,7218,25 44,9616,27 33,48±7,24 41,0417,1

% препод на должности профессора 7,5313,32 8,2913,19 5,7613,99 8,111,79

С помощью алгоритма деревьев решений выполнена классификация субъектов РФ в зависимости от уровня преступности. Признаками, на основе которых производилась классификация, выступали показатели, характеризующие уровень образования безработного населения. Построенное дерево решений позволяет определить иерархию зависимостей уровня преступности в регионах от уровня образования населения. Пример автоматически построенного дерева показан на рис. 3, где жирным шрифтом отмечено среднее число преступлений на 100 ООО чел. населения, характерное для данного класса регионов.

Применение алгоритма конструирования ИП для составления рейтинга регионов по множеству показателей, характеризующих качество жизни населения, позволило выявить, какие факторы положительно и отрицательно влияют на итоговое значение ИП. Таким образом, с помощью данного алгоритма можно определить проблемные области в СЭ-развитии территории.

В табл. 2 приведены результаты сравнения разработанной АСМ с некоторыми известными аналитическими системами, которые можно использовать в процессе KDD (знаком «+» отмечены функциональные возможности, имеющиеся в соответствующей системе, знаком «-» - отсутствующие, знаком «+/-» - присутствующие частично). Сравнение показало, что разработанная система превосходит анало-

гичные системы по параметрам, являющимся существенными при мониторинге СЭ-сферы региона.

Процент безработных с основным общим образованием < 12,64 1 597

Процент безработных с начальным профессиональным образованием < 17,76 1287

Рис. 3. Дерево решений, классифицирующее регионы по уровню преступности

Таблица 2

Сравнение разработанной АСМ с другими системами KDD

Аналитическая система Очистка данных Трансформация данных Возможность подключения к БД Поддержка OLAP и МВД Поддержка архитектуры «клиент-сервер» Статистические методы Стандартные алгоритмы ИАД Построение ИП Наглядность результатов ИАД Отображение данных на карте

SPSS 13.0 +/- + + - + + КП.ДР.Р, ФА BP - +/- -

Microsoft Business Intelligence Development Studio 2005 +/- +/- + + + - ДР.АП, НС, КЛ, Б, Р,ВР,КП - + -

Deductor 5.1 + +/- + + + +/- ФА.ВР.Р, НС.ДР, АП,КЛ - + -

Разработанная ACM + +/- + + + - ДР.АП, НС, КЛ, Б, Р,ВР,КП + + (генерирование рекомендаций) +

Примечание. КЛ - кластеризация, ДР - деревья решений, Р - регрессия, ФА - факторный анализ, ВР - временные ряды, АП - ассоциативные правила, НС - нейронные сети, Б - байесовский алгоритм, КП - кластеризация последовательностей.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Анализ существующих методов мониторинга СЭ-сферы региона позволил выявить присущие им недостатки, для устранения которых предлагается использовать информационно-аналитический комплекс, построенный на базе технологий многомерных баз данных, оперативного и интеллектуального анализа данных, геоинформационных технологий.

2. Впервые предлагается использовать технологию обнаружения знаний в базах данных (KDD) применительно к мониторингу СЭ-сферы региона, что позволит перевести мониторинг на качественно более высокий уровень, а также получить максимальный эффект от применения указанных выше информационных технологий.

3. Проведен анализ существующих систем, используемых при мониторинге и анализе СЭ-информации. Выявлены их недостатки, основным из которых является полное или частичное отсутствие поддержки процесса KDD и методов интеллектуального анализа данных, что делает невозможным выявление глубинных закономерностей, присущих исследуемым СЭ-системам. В связи с этим сделан вывод о необходимости разработки системы мониторинга СЭ-сферы региона на основе технологий KDD.

4. Предложен новый алгоритм Data Mining, позволяющий конструировать интегральные показатели, которые можно использовать для выявления латентных признаков, присущих СЭ-системам, ранжирования объектов, их сравнения, выявления признаков, обусловливающих социальное или экономическое развитие отдельных регионов, и др.

5. Предложена структура автоматизированной системы мониторинга, разработано ее программное и информационное обеспечение, реализующее все функции процесса KDD: ввод данных, их очистку, консолидацию в многомерную базу данных, интеллектуальный анализ данных, вывод и интерпретацию результатов.

6. Разработана методика проведения мониторинга СЭ-сферы региона на базе технологий KDD, в том числе методика анализа СЭ-информации с использованием алгоритмов интеллектуального анализа данных. Проведено практическое исследование распространенных методов Data Mining (кластеризация, деревья решений, ассоциа-

тивные правила, байесовский алгоритм, нейронные сети и др.) применительно к СЭ-данным, подтвердившее возможность их использования для выявления неочевидных закономерностей, присущих СЭ-сфере региона.

7. Экспериментальные исследования показали, что применение разработанной системы дает возможность учесть при анализе большие группы СЭ-показателей в их системном единстве, повысить оперативность анализа, выявить неочевидные закономерности в данных.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикация в издании, рекомендованном ВАК

1. Разработка методов информационно-аналитического обеспечения процесса подготовки и переподготовки государственных и муниципальных служащих в области информационных технологий с учетом социально-экономической специфики региона / А. А. Гудков, А. М. Бершадский, А. С. Бождай, Н. В. Осипова // Открытое образование. - 2008. - № 1. - С. 23-33.

Прочие публикации

2. Гудков, А. А. Автоматизированный анализ данных с использованием технологий OLAP и Data Mining / А. А.Гудков, П. А. Гудков // Технологии Microsoft в теории и практике программирования : материалы конф. / под ред. проф. Р. Г. Стронгина. - Н. Новгород : Изд-во Нижегород. гос. ун-та, 2006. - С. 85-87.

3. Гудков, А. А. Исследование возможностей SQL Server 2005 для анализа образовательных данных / А. А. Гудков // Университетское образование: сб. ст. X Междунар. науч.-метод. конф. - Пенза: ПГУ ПДЗ, 2006.-С. 363-365.

4. Гудков, А. А. Применение методов Data Mining для анализа социально-экономических статистических данных / А. А. Гудков, А. М. Бершадский, А. Г. Финогеев // Развитие университетского комплекса как фактор повышения инновационного и образовательного потенциала региона : материалы Всерос. науч.-практ. конф. Секция 11. Методологические проблемы развития статистической науки. -Оренбург : ИПК ГОУ ОГУ, 2007. - С. 16-22.

5. Гудков, А. А. Применение новых информационных технологий анализа информации в сфере образования / А. А. Гудков // Известия

Пензенского государственного педагогического университета. Сектор молодых ученых. - Пенза : ПГПУ, 2007. - № 3 (7). - С. 201-203.

6. Гудков, А. А. Построение интегральных индикаторов как инструмент мониторинга университетского образования / А. А. Гудков// Университетское образование : сб. ст. XI Междунар. науч.-метод. конф. - Пенза, 2007. - С. 175-177.

7. Гудков, А. А. Анализ социально-экономической сферы региона с использованием технологий Knowledge Discovery in Databases / А. А. Гудков, A. M. Бершадский // Информационные технологии в науке, социологии, экономике и бизнесе IT+SE'07 : материалы XXXIV Междунар. конф. Майская сессия. - Украина, Крым, Ялта-Гурзуф, 2007.-С. 94-95.

8. Гудков, А. А. Применение методов Data Mining для анализа данных образовательной статистики / А. А. Гудков, А. М. Бершадский // Телематика'2007 : тр. XTV Всерос. науч.-метод. конф. - СПб., 2007. -С. 382-384.

9. Гудков, А. А. Мониторинг региональной системы образования с использованием информационных технологий / А. А. Гудков, А. М. Бершадский, П. А. Гудков // Информационные технологии в образовании, науке и производстве : сб. тр. I Всерос. науч.-практ. конф. - Серпухов, 2007. - С. 104-107.

10. Гудков, А. А. Построение социально-экономических моделей с использованием методов Data Mining / А. А. Гудков // Аналитические и численные методы моделирования естественнонаучных и социальных проблем : сб. тр. II Междунар. конф. - Пенза, 2007. -С. 156-158.

11. Гудков, А. А. Выявление закономерностей между уровнем образования населения и социально-экономическими показателями региона с использованием технологий KDD / А. А. Гудков, А. М. Бершадский // Дистанционное и виртуальное обучение. - 2008. - № 5. -С.29-40.

12. Гудков, А. А. Структура автоматизированной системы мониторинга на основе технологий KDD / А. А. Гудков // Новые информационные технологии в научных исследованиях и образовании : материалы XIII Всерос. науч.-техн. конф. студентов. Часть 1. - Рязань, 2008.-С. 10-12.

13. Гудков, А. А. Система поддержки принятия решений на основе технологий KDD в управлении образованием / А. А. Гудков II Университетское образование : сб. ст. XII Междунар. науч.-метод. конф. - Пенза, 2008. - С. 297-299.

14. Гудков, А. А. Технология анализа индикаторов деятельности высших учебных заведений / А. А. Гудков, А. М. Бершадский // Те-лематика'2008 : тр. XV Всерос. науч.-метод. конф. - СПб., 2008. -С. 442-443.

15. Гудков, А. А. Использование нейронных сетей для анализа социально-экономических данных / А. А. Гудков // Перспективные технологии искусственного интеллекта : сб. тр. науч.-практ. конф. -Пенза: Инф.-издат. центр Пенз. гос. ун-та, 2008. - С. 120-123.

16. Гудков, А. А. Изучение методологии интеллектуального анализа данных - необходимое условие подготовки квалифицированных управленцев / А. А. Гудков, А. М. Бершадский, И. П. Бурукина // Перспективные технологии искусственного интеллекта : сб. тр. науч.-практ. конф. - Пенза: Инф.-издат. центр Пенз. гос. ун-та, 2008. -С. 52-55.

Гудков Алексей Анатольевич

Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных

Специальность 05.13.10 - Управление в социальных и экономических системах (технические науки)

Редактор Т. Н. Судовчихина Технический редактор Н. Л. Вьялкова

Корректор Н. А. Сиделъникова Компьютерная верстка М. Б. Жучковой

ИД№06494 от 26.12.01 Сдано в производство 06.11.2008. Формат 60x84'/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 1,16. Заказ № 624. Тираж 100.

Издательство Пензенского государственного университета. 440026, Пенза, Красная, 40.

Оглавление автор диссертации — кандидата технических наук Гудков, Алексей Анатольевич

Введение.

1. Методы и системы мониторинга социально-экономической сферы региона.

1.1. Традиционные методы мониторинга социально-экономических систем.

1.2. Системы поддержки принятия решений и технологии KDD.

1.3. Обзор существующих систем анализа социально-экономической информации.

Выводы.

2. Модели и методы интеллектуального анализа социально-экономических данных.

2.1. Интеллектуальный анализ данных (ИАД) как основа процесса KDD.

2.2. Методы ИАД в социально-экономической сфере.

2.3. Конструирование интегральных показателей как метод ИАД, специфичный для социально-экономических данных.

Выводы.

3. Информационное и программное обеспечение автоматизированной системы мониторинга (АСМ).

3.1. Структура АСМ.

3.2. Формирование многомерного хранилища данных в Microsoft Analysis Services.

3.3. Особенности использования компонента Microsoft SQL Server Data Mining.

Выводы.

4. Методические и практические аспекты применения АСМ.

4.1. Организация процесса мониторинга социально-экономической сферы региона.

4.2. Анализ социально-экономических данных с использованием методов Data Mining.

4.3. Построение интегрального показателя на основе социально-экономических данных.

Выводы.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Гудков, Алексей Анатольевич

Управление социально-экономическими (СЭ) объектами подразумевает выполнение определенной последовательности действий: сбор информации об объекте управления; анализ полученной информации; принятие решения; управляющее воздействие; контроль. Первые два этапа, относящиеся к сбору и анализу информации, составляют основу понятия «мониторинг». Таким образом, мониторинг можно определить как составную часть процесса управления, заключающуюся в систематическом наблюдении и анализе деятельности объекта управления. Следовательно, для принятия обоснованных управленческих решений региональным органам власти необходимы современные средства и методы сбора и анализа СЭ-информации. Особую актуальность проблема мониторинга приобретает тогда, когда информация об исследуемой системе сложно структурирована и отражает различные стороны ее функционирования, что характерно для СЭ-сферы региона.

Проблемой регионального мониторинга занимаются такие ведущие организации, как Центральный экономико-математический институт РАН, Институт экономики Карельского научного центра РАН, Ивановский государственный энергетический университет, компании «Прогноз», «ИНЭК», «ПАРУС» и др.

Данная работа направлена на разработку новых подходов к мониторингу СЭ-сферы региона, позволяющих повысить его качество. Для этих целей предлагается использовать технологии обнаружения знаний в базах данных (Knowledge Discovery in Databases, KDD), к которым можно отнести технологии хранилищ данных (ХД), многомерных баз данных (МБД), технологии оперативной и интеллектуальной обработки данных (OLAP и Data Mining), геоинформационные технологии.

Цель и задачи исследования. Целью диссертационной работы является исследование проблемы регионального мониторинга и анализа СЭинформации с использованием технологий KDD, а также разработка автоматизированной системы мониторинга (АСМ) на основе указанных технологий и методики ее применения на примере региональных СЭ-данных. Для достижения поставленной цели необходимо решить следующие задачи:

1. Анализ существующих методов мониторинга и поиск путей повышения качества мониторинга; анализ применимости процесса KDD к задаче мониторинга СЭ-сферы региона.

2. Анализ существующих алгоритмов интеллектуального анализа данных (ИАД) и возможности их применения к СЭ-данным. Разработка методов ИАД, специфичных для СЭ-сферы, в частности, метода конструирования интегральных показателей (ИП) на множестве СЭ-показателей.

3. Проектирование АСМ на базе технологий KDD, определение ее структуры и функций . входящих в нее модулей;' разработка программного и информационного обеспечения АСМ.

4. Апробация разработанной системы. Экспериментальное исследование всех этапов мониторинга в рамках процесса KDD. Составление рекомендаций по проведению мониторинга СЭ-сферы региона с использованием разработанной АСМ.

Методы исследования. При решении поставленных задач использовались принципы и методы системного анализа, теории принятия решений, модульного и объектно-ориентированного проектирования и программирования, теории баз данных, математической статистики, факторного анализа, геоинформационного пространственного анализа.

Научная новизна. Основные результаты диссертационной работы, выносимые на защиту, состоят в следующем:

1. Впервые предлагается использовать технологии KDD (в том числе, методы Data Mining) для мониторинга СЭ-сферы региона, что позволит устранить недостатки, присущие традиционным методам мониторинга, и повысить качество мониторинга.

2. Предложена структура ACM, поддерживающей все этапы процесса KDD: сбор данных, их очистку, консолидацию в МБД, интеллектуальный анализ данных, вывод и интерпретацию результатов, — с учетом специфики предметной области.

3. Предложен новый алгоритм Data Mining, специфичный для СЭ-исследований, - алгоритм конструирования ИП, позволяющий выявлять латентные признаки в исследуемых системах, ранжировать объекты, выявлять признаки, обуславливающие социальное или экономическое развитие отдельных регионов (или, наоборот, их депрессию) и др.

4. Разработана методика проведения анализа СЭ-информации с использованием алгоритмов ИАД. Отличительной особенностью предлагаемого подхода является разработанный механизм генерирования рекомендаций для лица, принимающего решения (ЛПР), на основе результатов ИАД.

Практическая ценность. Предлагаемый новый подход к мониторингу СЭ-систем на основе технологий KDD позволяет: эффективно аккумулировать СЭ-информацию из различных источников; выполнять анализ больших групп СЭ-показателей в их системном единстве; повысить оперативность анализа; обнаруживать скрытые закономерности в данных; более выразительно представлять результаты анализа; снизить трудоемкость процесса мониторинга. Все это способствует принятию более обоснованных управленческих решений.

Разработано программное и информационное обеспечение АСМ, имеющей в своем составе подсистемы очистки данных, формирования структуры МБД, ввода и редактирования данных, интеллектуального анализа информации и др. Разработанное программное обеспечение (ПО) функционирует на платформе Win32 (Windows 2000/ХР/2003). В рамках подсистемы интеллектуального анализа информации разработано ПО, реализующее алгоритм конструирования ИП и позволяющее оперативно вычислять ИП на заданном множестве показателей.

Результаты анализа, описывающие выявленные закономерности в данных, представляются в виде наглядных графиков, диаграмм, сетей и т. п., а также в виде конкретных рекомендаций относительно значений входных переменных, удовлетворяющих заданному значению целевой переменной. Кроме того, имеется возможность отображения данных на электронных географических картах. Все это значительно упрощает работу ЛПР при управлении СЭ-системой.

Даны практические рекомендации по использованию разработанной АСМ, предложена последовательность и описано содержание этапов мониторинга СЭ-информации.

Внедрение результатов работы. Основные теоретические и практические результаты диссертационной работы использовались при выполнении темы «Разработка и апробация методики оценки состояния и оптимизации региональной сети профессионального образования с учетом решения задач формирования общенациональных университетов и системообразующих вузов. Создание регионального модуля системы информационно-аналитического обеспечения» (договор от 18 сентября 2007 г. №3/П637 в рамках ГК № 63/М-Н-3874 р от 17.09.07).

Кроме того, результаты работы использовались при выполнении НИР «Разработка методики информационной поддержки подготовки и переподготовки государственных и муниципальных служащих в области информационных технологий» по заказу Тамбовского государственного технического университета (договор № 05/07 от 1 февраля 2007 г.), о чем имеется акт внедрения.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах: X, XI, XII Международные научно-методические конференции «Университетское образование» (Пенза, 2006-2008 гг.), конференция «Технологии Microsoft в теории и практике программирования»

Нижний Новгород, 2006 г.), Всероссийская научно-практическая конференция «Развитие университетского комплекса как фактор повышения инновационного и образовательного потенциала региона» (Оренбург, 2007 г.), XXXIV Международная конференция «Информационные технологии в науке, социологии, экономике и бизнесе IT+SE'07» (Ялта-Гурзуф, 2007 г.), XIV, XV Всероссийские научно-методические конференции «Телематика'2007, '2008» (Санкт-Петербург, 2007-2008 гг.), I Всероссийская научно-практическая конференция «Информационные технологии в образовании, науке и производстве» (Серпухов, 2007 г.), II Международная конференция «Аналитические и численные методы моделирования естественнонаучных и социальных проблем» (Пенза, 2007 г.), XIII Всероссийская научно-техническая конференция «Новые информационные технологии в научных исследованиях и образовании» (Рязань, 2008 г.), научно-практическая конференция «Перспективные технологии искусственного интеллекта» (Пенза, 2008 г.), научно-технические конференции профессорско-преподавательского состава Пензенского государственного университета (2006-2008 гг.).

Публикации. По материалам диссертации опубликовано 16 печатных работ, в том числе 1 в журнале, рекомендованном ВАК РФ. В работах, выполненных в соавторстве, лично соискателю принадлежит: в [11,12,15,16,17] - применение технологий KDD и методов ИАД для анализа СЭ-данных; в [14] - описание методологии ИАД и аспектов его использования при принятии управленческих решений; в [19] - разработка информационно-аналитического обеспечения процесса подготовки и переподготовки государственных и муниципальных служащих на основе методов ИАД; в [20] - методика построения ИП для анализа индикаторов деятельности высших учебных заведений; в [29] — описание аспектов автоматизированного анализа данных с использованием методов Data Mining.

Структура и объем работы. Диссертация состоит из введения,

Заключение диссертация на тему "Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных"

Основные результаты теоретических и экспериментальных исследований, приведенных в диссертационной работе в соответствии с поставленной целью, могут быть сформулированы следующим образом:

1. Анализ существующих методов мониторинга СЭ-сферы региона выявил присущие им недостатки: ограниченные возможности совместного анализа больших групп СЭ-показателей в их системном единстве; неиспользование преимуществ иерархической структуры СЭ-данных; использование только традиционных статистических методов анализа, не позволяющих обнаруживать скрытые закономерности в данных, и др. В целях устранения выявленных недостатков предлагается комплексное использование технологий МБД, OLAP, ИАД, ГИС. Использование МБД позволит эффективно аккумулировать СЭ-информацию из различных источников; технология OLAP позволит проводить оперативный анализ различных срезов многомерного куба данных и выполнять операции детализации/обобщения данных; технология ИАД позволит выявлять в СЭ-данных скрытые закономерности и совместно с ГИС-технологиями позволит более выразительно представлять результаты анализа.

2. Впервые предлагается использовать технологию обнаружения знаний в данных (KDD) применительно к мониторингу СЭ-сферы региона, что позволит перевести мониторинг на качественно более высокий уровень, а также получить максимальный эффект от применения указанных выше информационных технологий. Проанализированы этапы процесса KDD, на каждом из которых сформулированы соответствующие требования к автоматизированной системе мониторинга (АСМ).

3. Проведен анализ современного состояния систем и инструментальных средств, используемых при анализе СЭ-информации. Отмечены недостатки, присущие им: для специализированных систем — это полное или частичное отсутствие поддержки процесса KDD и методов ИАД, что делает невозможным выявление глубинных закономерностей, присущих исследуемым СЭ-системам; для универсальных систем - это их чрезмерная сложность, малая пригодность для целей мониторинга (больше предназначены для анализа информации), а также отсутствие аналитических методов, специфичных для СЭ-систем. В связи с этим, сделан вывод о необходимости разработки системы мониторинга СЭ-сферы региона с использованием технологий KDD.

4. Анализ современных методов и моделей ИАД показал, что такие методы Data Mining, как кластеризация, ассоциативные правила, деревья решающих правил и др. могут использоваться при анализе региональных СЭ-данных для выявления в них неочевидных закономерностей. Однако, в связи с тем, что изначально алгоритмы Data Mining разрабатывались для решения бизнес-задач, в них отсутствуют аналитические инструменты, I специфичные для СЭ-сферы. В частности, обзор существующих систем ИАД показал, что в них отсутствует возможность построения ИП, широко используемых при исследовании СЭ-систем.

5. Предложен новый алгоритм ИАД, позволяющий конструировать ИГ1, которые можно использовать для выявления латентных признаков, присущих СЭ-системам, ранжирования объектов, их сравнения, выявления признаков, обуславливающих социальное или экономическое развитие отдельных регионов и др. В результате анализа методов уменьшения размерности пространства признаков и нахождения комплексных оценок разработан двухэтапный алгоритм конструирования ИП: для получения сокращенного набора независимых признаков используется факторный анализ (метод главных компонент); для построения единого ИП используется экспертно-статистический подход. Разработана программная реализация алгоритма конструирования ИП в рамках АСМ.

6. Предложена структура АСМ на базе технологий KDD, разработано программное и информационное обеспечение АСМ, реализующее все функции процесса KDD: сбор данных, их очистку, консолидацию в МБД, интеллектуальный анализ данных, вывод и интерпретацию результатов. Ключевой в разработанной АСМ является подсистема интеллектуального анализа информации, которая выполняет следующие основные функции: обращается к МБД; взаимодействует с сервером OLAP и Data Mining; отображает результаты ИАД; генерирует на их основе рекомендации; строит ИП; отображает данные на электронной географической карге.

7. Разработана методика проведения мониторинга СЭ-систем на базе технологий KDD, в том числе методика анализа СЭ-информации с использованием алгоритмов ИАД. Проведено практическое исследование распространенных методов ИАД (кластеризация, деревья решений, ассоциативные правила, байесовский алгоритм, нейронные сети и др.) применительно к СЭ-данным, подтвердившее возможность использования методов Data Mining для выявления неочевидных закономерностей, присущих СЭ-сфере региона.

8. Реализовано несколько проектов с помощью созданной АСМ. Экспериментальные исследования показали, что применение разработанной системы дает возможность учесть при анализе большие группы СЭ-показателей в их системном единстве, снизить трудоемкость процесса мониторинга, выявить неочевидные закономерности в данных. Даны практические рекомендации по проведению мониторинга с использованием разработанной АСМ.

Заключение

Библиография Гудков, Алексей Анатольевич, диссертация по теме Управление в социальных и экономических системах

1. Айвазян, С.А. Прикладная статистика и основы эконометрики / С.А.Айвазян, В.С.Мхитарян. М.: ЮНИТИ, 1998.

2. Айвазян, С.А. Разработка и анализ интегральных индикаторов качества жизни населения Самарской области / С.А.Айвазян. М.: ЦЭМИ РАН, 2005.- 124 с.

3. Айвазян, С.А. Россия в межстрановом анализе синтетических категорий качества жизни населения / С.А.Айвазян. — http://www.hse.ru/journals/wrldross/volO 1 4/Ivazian 1 .htm

4. Ариячандра, Т. Показатели успешного внедрения средств Business Intelligence и хранилищ данных / Т.Ариячандра, Х.Уотсон. -http://citcity.ru/11751/

5. Арсеньев, С. Извлечение знаний из медицинских баз данных / С.Арсеньев. Мегапьютер. - http://neural.narod.ru/arsen.zip

6. Артемьев, В. Что такое Business Intelligence? / В.Артемьев // Открытые системы. 2003. - № 4.

7. Баранов, C.B. Новые методики и результаты исследования межрегиональной дифференциации на основе метода главных компонент / С.В.Баранов, Т.П.Скуфьина // Вестник МГТУ, том 11.2008. -№2.-С. 201-210.

8. Барсегян, A.A. Методы и модели анализа данных: OLAP и Data Mining / А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И.Холод. СПб.: БХВ-Петербург, 2004. - 336 с.

9. Бергер, Ч. Data Mining от Oracle: настоящее и будущее / Ч.Бергер. -http://www.citforum.ru/database/oracle/data mining solutions/

10. Бершадский, A.M. Выявление закономерностей между уровнем образования населения и социально-экономическими показателями региона с использованием технологий KDD / А.М.Бершадский, А.А.Гудков // Дистанционное и виртуальное обучение. — 2008. № 5. -С. 29-40.

11. Бершадский, A.M. Геоинформационный подход к мониторингу региональных образовательных систем / А.М.Бершадский, А.С.Бождай // Информационные технологии. — 1998. — № 12. — С. 39-43, 50.

12. Бершадский, A.M. Применение методов Data Mining для анализа данных образовательной статистики / А.М.Бершадский, А.А.Гудков // Труды XIV Всероссийской научно-методической конференции «Телематика'2007». Санкт-Петербург, 2007. - С. 382-384.

13. Бершадский, A.M. Применение методов Data Mining для анализа социально-экономических статистических данных / А.М.Бершадский,

14. Бершадский, A.M. Технология анализа индикаторов деятельности высших учебных заведений / А.М.Бершадский, А.А.Гудков // Труды XV Всероссийской научно-методической конференции «Телематика'2008». Санкт-Петербург, 2008. - С. 442-^143.

15. Бождай, A.C. Разработка системы мониторинга образования в регионе на основе геоинформационной технологии: диссертация на соискание ученой степени кандидата технических наук / А.С.Бождай. Пенза, 2000.

16. Большаков, П.С. Уникальные возможности STATISTICA Data Miner / П.С.Большаков. http://www.statsoft.ru/home/applications/dataminer.htm

17. Буч, Г. Объектно-ориентированный анализ и проектирование с примерами приложений: пер. с англ. / Г.Буч. — М.: Бином, 1998.

18. Вагин, В.II. Достоверный и правдоподобный вывод в интеллектуальных системах / В.Н.Вагин и др.; под ред. В.Н.Вагина, Д.А.Поспелова. М.: ФИЗМАТЛИТ, 2004. - 704 с.

19. Васильев, В. «Тяжелая» информация «легкая» ГИС / В.Васильев, Д.Журко // ArcReview. - 2003. - № 4. - С. 21.

20. Волгоинформсеть: Автоматизированные системы для подготовки и принятия управленческих решений. — http://www.ais.vis.ru/site/tais 1 .nsf/wpages 1 /01

21. Волков, И. Архитектура современной информационно-аналитической системы / И.Волков, И.Галахов // Директор ИС. 2002. - № 3. -http://www.osp.ru/cio/2002/03/172079/

22. Годин, A.M. Статистика: учебник / А.М.Годин. 3-е изд., перераб. - М.: Издательско-торговая корпорация «Дашков и К°», 2004.

23. Гудков, A.A. Исследование возможностей SQL Server 2005 для анализа образовательных данных / А.А.Гудков // Университетское образование: Сборник статей X Международной научно-методической конференции. Пенза: ПГУ, 2006. - С. 363-365.

24. Гудков, A.A. Построение интегральных индикаторов как инструмент мониторинга университетского образования / А.А.Гудков // Университетское образование: Сборник статей XI Международной научно-методической конференции. Пенза, 2007. - С. 175-177.

25. Гудков, A.A. Применение новых информационных технологий анализа информации в сфере образования / А.А.Гудков // Известия Пензенского государственного педагогического университета. Сектор молодых ученых. № 3 (7). Пенза: ПГПУ, 2007. - С. 201-203.

26. Гудков, A.A. Система поддержки принятия решений на основе технологий KDD в управлении образованием / А.А.Гудков // Университетское образование: Сборник статей XII Международной научно-методической конференции. Пенза, 2008. — С. 297-299.

27. Гудков, П.А. Разработка системы автоматизированного мониторинга на основе технологии OLAP: автореферат диссертации на соискание ученой степени кандидата технических наук. Пенза, 2005.

28. Дамлер, М. Microsoft SQL Server 2005: обзор продукта / М.Дамлер. -2005. http://www.citfomm.ru/database/mssql/overview/

29. Дейт, К.Дж. Введение в системы баз данных: пер. с англ. / К.Дж.Дейт. -7-е изд. М.: Издательский дом «Вильяме», 2001.

30. Дунаев, С.Б. Доступ к базам данных и техника работы в сети. Практические приёмы современного программирования / С.Б.Дунаев. — М.: ДИАЛОГ-МИФИ, 2000.

31. Дюк, В. Data Mining состояние, проблемы, новые решения / В.Дюк. -http://www.inftech.webservis.ru/it/database/datamining/arl.html

32. Елманова, Н. Введение в Data Mining / Н.Елманова // КомпьютерПресс. 2003. - №№ 8,10,12.

33. Жуковская, В.М. Факторный анализ в социально-экономических исследованиях / В.М.Жуковская, И.Б.Мучник. — М.: Статистика, 1976.

34. ИАССЭП: Информационно-аналитическая система социально-экономических показателей. http://serverl .data.cemi.rssi.ru/isepweb/

35. Инмон, Б. Технология хранилищ данных для государственных учреждений / Б.Инмон. 2005. - http.7/citcity.ru/l 1142/

36. Инструменты Data Mining: что лучше выбрать? (по материалам зарубежных сайтов). Intersoft Lab, 2006. - http://citcity.ru/12997/

37. ИнфоВизор: Комплекс средств автоматизации поддержки принятия решений. http ://infovisor.ivanovo.ru/

38. Информационные системы в экономике: учебник / Под ред. Г.А.Титоренко. 2-е изд., перераб. и доп. - М.: ЮНИТИ-ДАНА, 2006. -463 с.

39. ИНЭК: Интегрированные информационно-аналитические системы автоматизации управленческой деятельности. http://www.inec.ru/cgi-bin/inec/main.pl?,g;id^:5

40. Иродов, М.И. Мониторинг как инструментальное средство повышения эффективности управления системой профессионального образования / М.И.Иродов, Т.А.Степанова // Педагогический Вестник ЯГПУ. 1998. -№ 1.

41. Калинина, В.Н. Введение в многомерный статистический анализ: учебное пособие / В.Н.Калинина, В.И.Соловьев. М.: ГУУ, 2003. - 66 с.

42. Камаев, В.А. Технологии программирования: учебник / В.А.Ка^аев, В.В.Костерин. М.: Высш. шк., 2005. - 360 с.

43. Кинг, Э.А. Приобретение средств Data Mining: как избежать ошибок при создании системы прогнозной аналитики / Э.А.Кинг. -http://citcity.ru/12995/

44. Концепция системы поддержки принятия и исполнения решений для управления социально-экономическим развитием территорий. — М.: ЗАО «Прогноз», 2004.

45. Коровкин, С.Д. Решение проблемы комплексного оперативного анализа информации хранилищ данных / С.Д.Коровкин и др.. — http://www.citforum.ru/database/articles/artl 1 .shtml

46. Кузнецов, С.Д. Ландшафт области управления данными: аналитический обзор / С.Д.Кузнецов, М.Н.Гринев. 2008.http://www.citforum.ru/database/data managementoverview/2.shtml

47. Кузнецов, С. Обзор возможностей применения ведущих СУБД для построения хранилищ данных (DataWarehouse) / С.Кузнецов, В.Артемьев. http://www.olap.ru/

48. Кулагин, В.П. Особенности использования технологий OLAP для задач образовательной статистики / В.П.Кулагин, В.Я.Цветков, Т.В.Булгакова // Вопросы Интернет-образования. 2002. - № 9.

49. Либерти, Дж. С++. Энциклопедия пользователя / Дж.Либерти. -ДиаСофт, 2001.-590 с.

50. Литвак, Б.Г. Разработка управленческого решения: учебник / Б.Г.Литвак. 3-е изд., испр. - М.: Дело, 2002. - 392 с.64.