Интегрированная информационно-аналитическая система для социологических исследований

Васильев, Иван Владимирович

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Интегрированная информационно-аналитическая система для социологических исследований

кандидата технических наук: Васильев, Иван Владимирович
город: Иркутск
год: 2004
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Интегрированная информационно-аналитическая система для социологических исследований»

Автореферат диссертации по теме "Интегрированная информационно-аналитическая система для социологических исследований"

На правах рукописи

ВАСИЛЬЕВ Иван Владимирович

ИНТЕГРИРОВАННАЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА ДЛЯ СОЦИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ

Специальность 05.13.18 - «Математическое моделирование, численные методы и комплексы программ»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Иркутск - 2004

Работа выполнена в Иркутском государственном университете путей сообщения (ИрГУПС) Министерства путей сообщения Российской Федерации

Научный руководитель доктор технических наук,

профессор Людмила Васильевна Массель

Официальные оппоненты доктор технических наук,

профессор Юрий Мечеславович Краковский

кандидат физико-математических наук

доцент Леонид Вадимович Аршинский

Ведущая организация:

Иркутский государственный технический университет

Защита диссертации состоится « 16 » декабря 2004 г. в 14 часов на заседании диссертационного совета Д 218.004.01 при Иркутском государственном университете путей сообщения (664074, г. Иркутск, ул. Чернышевского, 15).

С диссертацией можно ознакомиться в библиотеке Иркутского государственного университета путей сообщения

Автореферат разослан « » ноября 2004 г.

Ученый секретарь диссертационного совета

Н.П. Деканова

Актуальность работы. Актуальность выполненной работы определяется двумя основными факторами. Первый - возросшая значимость социального мониторинга для определения отношения населения к региональной и федеральной политике и изучения проблематики, присущей тем или иным районам для обеспечения повышения эффективности принятия управленческих решений. Второй фактор связан с темпами развития информационных технологий и необходимостью создания эффективно масштабируемого программного обеспечения (ПО), способного обеспечить специалиста предметной области возможностями для решения широкого спектра исследовательских задач, реализовать эффективное хранение и представление результатов исследований.

Все это требует рассмотрения концептуальных решений, связанных с организацией распределенных вычислений и сетевым доступом к данным и приложениям. Учитывая, что программные инструментальные средства социологических исследований рассматриваются как один из прототипов системы поддержки принятия решений по обеспечению управленческих решений, это предъявляет к ним повышенные требования и обуславливает актуальность их разработки на современном уровне информационных технологий.

При разработке ПО использованы современные методы моделирования, предложенные в работах Г.Буча, И, Якобсона, Дж. Румбау, Э. Гаммы, являющиеся основой применения объектно-ориентированного подхода. Применен метод моделирования объектного представления знаний, предложенный Л.В. Массель. При создании хранилища данных (ХД) были изучены реляционные и объектные концепции СУБД, разработанные К.Дейтом, Е. Код-дом, Л. Калиниченко, А.А. Сахаровым. В части, описывающей применение интеллектуального анализа данных (ИАД), автор опирался на работы Л.В. Щавелева, Л.Н. Столярова.

Специфика социологических исследований определяет сложность создания специализированного программного

это появляющиеся со временем новые математические методы, модели, подходы, применение которых может перевести исследования на качественно иной уровень, дать новые результаты по сравнению со старыми методами исследований. С другой стороны, это лавинообразное появление новых информационных технологий (ИТ), оказывающих серьезное влияние на методы проведения научных исследований. Это влияние выражается в том, что применение новых ИТ предоставляет новые возможности в проведении исследований, а именно, формулирование и решение новых задач, которые невозможно было бы решить без использования этих технологий. Методические основы применения методов анализа в социологии были заложены в работах В.А. Ядова, Д.Г. Ротмана, Г.Г. Татаровой, СВ. Чеснокова и др.

Изменения в процессе исследований требуют адекватной инструментальной поддержки и, соответственно, изменений в инструментальных средствах, т.е. гибкость информационной системы является залогом успешного проведения исследований. Необходимость разработки ПО, которое отвечало бы этому требованию, и одновременно сложность его реализации, с учетом уровня современных информационных технологий и большого разнообразия базовых инструментальных средств, требует выполнения специального исследования, что подчеркивает актуальность данной работы.

Целью данной работы является повышение эффективности проведения социологических исследований, обеспечиваемое разработкой:

• методического подхода и программных инструментальных средств (интегрированной информационно-аналитической системы) для социологических исследований, отвечающих современным требованиям к программным комплексам нового поколения;

• технологии проведения социологических исследований с использованием новых инструментальных средств.

Для достижения этой цели необходимо решить следующие задачи: 1. Выполнить анализ тенденций развития архитектуры современных прикладных программных систем и выбрать, по результатам анализа, базовые

технологии для интеграции разнородных компонентов в рамках интегрированной информационно-аналитической системы (ИНИАС), включающей региональное хранилище результатов социологических исследований.

2. Сформулировать требования к функциональности ИНИАС и системно-концептуальные соглашения, принимаемые при ее разработке.

3. Разработать архитектуру ИНИАС и методику ее программной реализации, отвечающей требованиям к программным комплексам нового поколения.

4. Разработать методику интеллектуального анализа результатов социологических исследований и методику создания хранилищ данных и знаний в рамках ИНИАС.

5. Разработать технологию проведения социологических исследований с применением ИНИАС.

Методами и средствами исследования являются: методические основы проведения социологических исследований, методы системного и прикладного программирования, методы объектного подхода (анализ, проектирование, программирование), методы теории искусственного интеллекта (продукционные модели представления знаний, интеллектуальный анализ данных).

Новизну работы составляют следующие положения:

1. Впервые обоснована необходимость использования для социологических исследований методов интеллектуального анализа данных (Data Mining) и хранилищ данных (DataWare House), для хранения как данных, так и знаний, в рамках интегрированной информационно-аналитической системы, разработанной в соответствии с требованиями к программным комплексам нового поколения, основными из которых являются:

• многослойная архитектура, предусматривающая использование серверов приложений и серверов баз данных;

• ориентация на работу в вычислительных сетях (как локальных, так и глобальных);

• свойство расширяемости программного обеспечения в его современной трактовке.

2. Предложен методический подход к построению программных комплексов нового поколения для исследований в социологии, включающий:

• методику интеллектуального анализа результатов социологических исследований, интегрирующую совокупность методов (анализ неальтернативных переменных, статистические методы, снижение комбинаторной сложности алгоритмов ИАД, детерминационный анализ, Аристотелевы силлогизмы) в рамках ИНИАС;

• методику создания хранилища данных, как основного компонента ИНИАС, для хранения в объектном представлении как данных, так и знаний;

• методические рекомендации по объектному моделированию данных и знаний с использованием унифицированного языка моделирования UML;

• клиент-серверную архитектуру интегрированной информационно-аналитической системы и ее компонентов и объектные модели программ, в соответствии с которыми выполнена реализация ИНИАС;

• выбор и рекомендации по применению базовых технологий, создающих предпосылки для перехода к работе с информационной системой через Internet;

На защиту выносятся:

• методика создания хранилища данных в рамках ИНИАС;

• методика интеллектуального анализа результатов социологических исследований с использованием ИНИАС;

• архитектура интегрированной информационно-аналитической системы и ее компонентов;

• интегрированная информационно-аналитическая система, обеспечивающая использование хранилища данных для хранения как данных,

так и знаний и применение, в рамках ИНИАС, методов интеллектуального анализа данных; • технология проведения социологических исследований с применением ИНИАС.

Практическая значимость работы заключается в использовании предложенного подхода и методик для разработки интегрированной информационно-аналитической системы ИНИАС и технологии проведения социологических исследований, а также в применении разработанных системы и технологии для обработки результатов социологических опросов, проводимых Региональным информационным аналитическим центром в Иркутском области и Усть-Ордынском бурятском автономном округе.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на конференции Главного Управления Информационных Систем ФАПСИ, посвященной 30-летию начала работ по созданию информационно-вычислительной системы по управлению страной в кризисных ситуациях (Москва, 2002 г.), на Всероссийских с международным участием конференциях: «Информационные и телекоммуникационные технологии в науке и образовании Восточной Сибири» (Иркутск, 2001 г.), «Информационные технологии в энергетике, экономике, экологии» (Иркутск, 2002 г.), «Математические и информационные технологии в энергетике, экономике, экологии» (Иркутск, 2003 г.), «Информационные и математические технологии» (Иркутск, 2004 г.).

Публикации. По теме диссертации опубликовано шесть работ в т.ч. две - в издании, рекомендованном ВАК.

Объем и структура работы. Диссертация состоит из введения, четырех глав, списка литературы из 80 наименований и приложений на 140 стр. (основной текст 115 стр.), включает 14 таблиц и 22 рисунка.

Основное содержание работы

Во введении обосновывается актуальность темы диссертации, формулируется цель исследования, указывается научная новизна и практическая значимость полученных результатов, также приводится структура и краткое содержание работы.

В первой главе рассмотрена проблема создания специализированного программного обеспечения, проанализированы методические подходы, применяемые в социологии, выполнена постановка задачи. Рассмотрено принятое в социологии разделение методов, применяемых в исследованиях, на качественные и количественные. Если количественная социология преимущественно направлена на изучение проблем социального взаимодействия между структурами (например, медицина и система образования как социальные институты: каковы их функции и отношения между ними в данном обществе), то качественная социология занимается субъективными аспектами реальной практики этих отношений: что значит «быть врачом», «быть учителем» и какова практика отношений «врача» и «учителя» в реальности. Описанные в работе приемы анализа относятся к количественным методам.

Различают первичный и вторичный анализ данных. Анализ материалов, собранных кем-нибудь другим, называется вторичным исследованием. Известно, что большая часть политологов и социологов никогда сами не проводят опросы. Обусловлено это высокой стоимостью сбора первичной информации, а также возможностью использования чужих опросных данных для ответов на исследовательские вопросы. Результаты почти любого анкетирования содержат информацию, которую первоначальный исследователь никогда не использовал из-за того, что она имеет лишь косвенное отношение к изучаемому им вопросу. Реализованный совместными усилиями Norwegian Social Science Data Services, UK Data Archive и Danish Data Archive проект NESSTAR (Networked Social Science Tools and Resources) позволил объединить разрозненные данные в виртуальные библиотеки данных (Virtual Data Libraries), создающие предпосылки для использования вторичного анализа.

В результате реализации программы NESSTAR была выработана единая спецификация метаданных Data Documentation Initiative (DDI), описывающих научные социологические информационные ресурсы. Поддержка интерфейса DDI вновь разрабатываемыми информационными системами создает предпосылки для их участия в проекте.

Существует традиционное разделение информационных систем по способу актуализации, видам запросов и общим целям их создания на системы оперативной обработки данных и системы поддержки принятия решений (СППР).

Табл. 1. Сравнение программных продуктов, применяемых социологами.

Операция Способ реализации Программные продукты Уровень сложности СППР

Простая группировка Построение одномерного распределения "Да-Система" Oracle OLAP "Дедуктор 2.0" "Опрос Зд" MS Excel SPSS Statistica Агрегированные Показатели

Перекрестная группировка Построение многомерного распределения "Да-Система" Oracle OLAP "Дедуктор 2.0" "Опрос Зд" MS Excel SPSS Statistica Агрегированные показатели

Построение Индексов Создание вычисляемых полей "Да-Система" Детализованные Данные

Поиск устойчивых сочетаний ответов на несколько вопросов Применение методов интеллектуального анализа данных Oracle 9i Discoverer, "Опрос Зд" SPSS Statistica Интеллектуальный анализ данных

Моделирование и прогноз Исследование закономерностей, формирование базы знаний, построение логических моделей, решение задач прогнозирования и управления (нет информации) Интеллектуальный анализ данных

Особенностью программных продуктов, применяемых социологами

(табл. 1), является то, что они должны обладать качествами обоих видов сие-

тем. Оператор, занимающийся вводом информации с опросных листов, т.е. работающий с ИС в оперативном режиме, должен следить за качеством выборки. Построение двумерных распределений, которые при этом необходимы, не укладывается в рамки оперативных систем и относится к области применения аналитических систем. Также недостатком рассмотренных специализированных программных продуктов является отсутствие возможности работы в архитектуре клиент-сервер, что допустимо для систем, ориентированных на анализ данных, но неудобно при одновременной работе нескольких операторов, занимающихся вводом опросных листов.

На основании анализа специфики социологических исследований, сопоставления способностей существующих специализированных программных продуктов с возможностями современных информационных технологий автором делаются выводы:

• рассматриваемый класс задач, а именно — исследования в традиционно гуманитарных дисциплинах, таких как психология, социология, политология связаны с множеством как формальных, так и неформальных подходов, часто противоречивых;

• современные исследования в социологии немыслимы без применения информационных технологий, связанных как со статистическим анализом больших объемов данных (числовых рядов), так и с контент-анализом интервью. Совместное применение различных методов связано с решением системных задач, появление которых обусловлено необходимостью оперирования терминами различных предметных областей. В настоящее время проблема стала еще более актуальной вследствие растущей сложности информационных технологий, тенденций перехода к распределенным вычислениям, международным стандартам открытых систем, применению геоинформационных систем;

• анализ результатов исследований в социологии показал перспективность использования моделей, построенных на основе базы знаний, описывающей закономерности, найденные в результате применения методов добы-

чи знаний к хранилищам данных. Использование подобных моделей увеличивает эффективность интерпретации результатов статистических исследований.

Вторая глава посвящена анализу, обоснованию применения и адаптации методов и технологий, выбранных автором в качестве основы при разработке интегрированной информационно-аналитической системы ИНИАС.

Интеллектуальный анализ данных (НАД) или Data Mining - это процесс, занимающий центральное место в автоматизации анализа больших объемов данных. В общем случае процесс НАД состоит из трех стадий:

• выявление закономерностей (свободный поиск);

• использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование);

• анализ исключений, предназначенный для выявления и толкования аномалий в найденных закономерностях.

По принципам работы с исходными данными методы ИАД делятся на две группы. В первом случае исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и анализа исключений. Проблемой этой группы методов является затрудненность их использования на больших объемах данных, т.е. именно тогда, когда методы ИАД наиболее эффективны. Во втором случае информация сначала извлекается из первичных данных и преобразуется в некоторые формальные конструкции. Этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных.

Предлагаемая автором методика ИАД основывается на применении базы знаний, хранящей информационные объекты, соответствующие закономерностям вида: «значения атрибутов А, В имеют тенденцию часто по-

вторяться в сочетаниях {а^ где А, В - вопросы социологического исследования, а^ Ь, —сочетания часто встречающихся ответов.

На первой стадии ИАД применен метод поиска связанных вопросов, использующий в качестве критерия величину распределения у?'.

/ = ЕЕ(щ -я'/- 125.6 > 10,85,

где Щ—фактическая, аи'у— «идеальная» величина распределения ответов, приведенных в качестве примера в табл. 2, соответственно в нижнем правом и верхнем левом углах ячеек.

Таблица 2. Таблица сопряженности. Реальные и «идеальные» частоты.

Степени удовлетворенности учебой

Будущая профессия студента 1 2 3 4 Маргинальные ^ac^trты

Политолог 14,0 20,0 20,0 30,0 31,0 20,С 30,0 25,0 5,0 5,С 100,С

Социолог 30,0 40,0 40,0 60,С 60,0 40,0 50,0 50,0 100 10,С 200 .С

Культуролог 90,0 60.С 90,0 90.С 50,0 60.0 «5,0 75,0 15,0 15,С 300,0

Филолог 31,0 20,С 30,0 30,01 19,0 20,0 5,0 5,С 100,с

Психолог 3,0 10,С 10,0 15,0 15,0 10,0 125 2,0 2,Е 50 .С

Историк к 50.С 110,0 75.0 15,0 50,0 35,0 62,5 150 12,£ 75 .С

Маргинальные настоты 200.0С 300,00 200,00 250,00 50,ОС 100С

Для поиска часто встречаемых сочетаний ответов на статистически связанные вопросы применяется коэффициент Юла:

0= аЬ- се/

вЬ + СОТ , значения а, Ь, с, й введены в табл. 3, где проверяется гипотеза о том, что свойства «быть студентом политологом» и «быть удовлетворенным учебой на «четыре»» статистически связаны.

Таблица 3. Сопряженность специальности студента и его отношения к учебе.

Специальность Удовлетворенность учебой на "четыре" Остальные Итого

Будущие политологи 30(а) 70(d) 100

неполитологи 220(с) 680(Ь) 900

Итого 250 750 1000

Методы исследования, основанные на применении коэффициента Юнга и распределения ^хорошо изучены и широко применяются в социологии. Для поиска «паттернов», закономерностей вида «значения атрибутов А, В, С имеют тенденцию часто повторяться в сочетаниях {a,, bj, С^ }», использован метод, основанный на изучении знаний о парных распределений атрибутов.

Переменными в рамках применяемых методов ИАД для анализа результатов социологических исследований являются вопросы, задаваемые респондентам. При анкетировании применяются альтернативные, неальтернативные и свободные вопросы.

Альтернативные вопросы предоставляют респонденту возможность выбора только одного из множества предлагаемых ответов.

Неальтернативные вопросы позволяют выбрать несколько вариантов.

Свободные вопросы позволяют респонденту сформулировать ответ самостоятельно.

Применение стандартных инструментов (алгоритм кластерного анализа ШСАР, статистические пакеты Statistica, SPSS) для поиска знаний в распределениях ответов на неальтернативные вопросы часто оказывается неэффективным. Для расширения возможности обычных методов анализа социологической статистики автором предложены несколько вариантов предобработки данных.

• Анализ отдельных ответов. Данный вид анализа подразумевает разбиение одного неальтернативного опроса на несколько альтернативных. Каждый из полученных вопросов имеет два варианта ответов: «Да» или «Нет».

• Анализ сочетаний ответов. Результаты анализа отдельных ответов являются частными случаями знаний, полученных методом изучения статистических связей сочетаний ответов. В этом методе изучаются распределения ответов на одиночные вопросы, полученные путем перебора сочетаний ответов неальтернативного вопроса. Количество вариантов возможных сочетаний ответов можно рассчитать по формуле:

количество возможных сочетаний ответов, количество ответов участвующих в сочетаниях.

Для уменьшения комбинаторной сложности ИАД автором предлагается применение следующих эвристических методов:

Экспертная декомпозиция вопросов. Метод предполагает предварительный выбор экспертом подмножества перспективных вопросов, комбинация которых может представлять исследовательский интерес.

Интерактивный отсев гарантированно независимых сочетаний. На статистическую зависимость проверяются сочетания только попарно связанных переменных.

Рекомбинационный метод. В основе этого метода лежит принцип формирования сочетаний, подобный применяемому в генетических алгоритмах (ГА). Преимуществами рекомбинационного метода являются:

- поиск из популяции, а не из единственной точки;

- применение при поиске стохастических операторов;

Рассматриваются также возможности применения универсальных методов «свободного поиска» на примере алгоритма кластерного анализа HI-CAP (Hierarchical Clustering with Pattern Preservation).

Анализируются возможности применения детерминационного анализа, реализующего методы проверки истинности продукций вида «при условии С, если В то А» (табл. 4.). Подобное представление знаний о статистических связях позволяет исследователю-социологу работать с качественными оценками фактов. Возможность представления содержащихся в ХД знаний в виде продукций создает предпосылки для построения сложных логических моделей.

Табл. 4. Соответствия результатов детерминационого анализа формам силлогизмов

Квантифицирующее суждение по Аристотелю. Эквивалентное суждение о точности правила b —► а

А. Все Ь суть а (b —> а) = 1

Е. Все Ь не суть а (Ь -> а) = 0

I. Некоторые Ь суть а (Ь—*а) е (0,1]

О, Некоторые Ь не суть а (Ь-а)еГ0,1)

Рассмотрение возможности применения логических моделей, построенных на основе данных, полученных методами детерминационного анализа, позволяет автору сделать вывод о том, что в настоящее время семантический спектр содержащихся в ХД вопросов недостаточно широк для построения моделей, способных решать прогностические задачи. Задача выработки рекомендаций по разработке анкет, способных не только отражать динамику изменения социологических параметров, но и строить прогностические модели, еще не решена.

Проанализирована международная практика объединения хранилищ социологических данных в сети. Рассмотрен опыт создания информационной сети NESSTAR, объединяющего университетские базы социологических данных в распределенное хранилище данных. Изучен применяемый в этой сети стандарт DDI, определяющий интерфейс доступа к сети NESSTAR, и спецификация метаданных, описывающих структуру блоков данных. Поддержка ИНИАС интерфейса DDI создает предпосылки для включения разработанной системы в виртуальную библиотеку данных (Virtual Data Libraries) и использования ее в Интернет.

В заключение главы рассмотрены возможности применения фрактальной стратифицированной (ФС) модели для проектирования информационных объектов, разрабатываемых для хранения данных и знаний, содержащихся в ХД. Предложенный Л.В. Массель фрактальный подход к моделированию сложных информационных объектов позволяет рассматривать объект как совокупность характеристик, которая может быть «расслоена», т.е. классифицирована по какому-то критерию, определяющему принадлежность объекта, в зависимости от целей исследования, к соответствующему слою (информационному миру). Подобное представление позволяет интегрировать однотипные объекты и осуществлять переход от одного информационного мира к другому при условии сохранения инварианта объектов.

В третьей главе описан предлагаемый автором методический подход, к построению информационной системы ИНИАС, включающий ряд методик. Центральной является методика проведения ИАД, интегрирующая совокупность методов, рассмотренных во второй главе (в том числе предложенных автором). Ниже приведены пять основных этапов этой методики, реализованной в ИНИАС:

• анализ взаимосвязи вопросов - происходит проверка гипотезы о статистической связанности переменных и размещение информации о найденных закономерностях в базе знаний;

• анализ распределений ответов на связанные вопросы — выявление знания о часто встречающихся сочетаниях значений переменных;

• поиск паттернов - выявление закономерностей во множественных сочетаниях переменных;

• детерминационный анализ - происходит поиск продукций;

• логическое моделирование - сопоставление новых продукций с уже существующими в базе знаний.

Методика снижения комбинаторной сложности ИАД использует предложенные автором эвристические методы, подробно описанные во второй главе:

• экспертная декомпозиция;

• отсева гарантированно независимых сочетаний;

• рекомбинационный метод.

Методика подготовки данных для формирования ХД системы ИНИАС включает пять основных этапов:

• Подготовительный этап. На данном этапе происходит создание информационной инфраструктуры, необходимой для функционирования компонентов информационной системы, отвечающих за сбор, хранение и описание данных. С использованием ФС-моделей проектируются объектные представления данных, знаний, метаописаний (метаданных).

• I этап. Осуществляется подготовка блоков данных к загрузке в информационную систему. Анализируется структура анкет, использованных социологами, решается задача идентификации, целью которой является поиск соответствий вопросов и ответов, примененных в анкете с существующей в репозитарии информацией.

• II этап. Данные, прошедшие предварительную проверку, загружаются в ХД. Создается объект - идентификатор блока данных. Определяются свойства идентификатора, характеризующие структуру анкеты, территориальные, выборочные, временные показатели.

• III этап. На третьем этапе к загружаемым данным применяются методы ИАД для поиска закономерностей в данных. Создаются информационные объекты, представляющие найденные закономерности в ХД. Определяются свойства идентификаторов закономерностей, характеризующие структуру анкеты, территориальные, выборочные, временные показатели.

Далее в главе рассмотрены возможности применения ФС-моделей при проектировании информационных объектов. При разработке информационной системы ИНИАС этот подход был использован для проектирования объектов, представляющих в ХД вопросы, знания о связанности переменных, и метаописания имеющихся данных. Методика моделирования информационных объектов включает четыре этапа:

• Подготовительный этап. Выявляется инвариант, определяются свойства информационных миров, в которые будет отражаться информационный объект. Обосновывается необходимость построения ФС-модели.

• Первый этап. Построение ФС-модели, отражающей все аспекты проектируемого информационного объекта.

• Второй этап. Анализ общих свойств информационных миров, в которые отображается информационный объект, формализация правил преобразования свойств информационного объекта.

• Третий этап. Создание модели транзитной области, осуществляющей поддержку отображений объекта, при помощи UML.

Фрактальный подход был применен для моделирования объектов ре-позитария ИНИАС, содержащего информацию о семантике вопросов и структуре данных, содержащихся в хранилище.

Например, информационный объект «Вопрос» может обладать свойствами вопроса социологического исследования, математической переменной и объекта в понимании объектно-ориентированного программирования. Рис. 2 иллюстрирует переход от информационного слоя «Социология» (вверху) к информационному слою «Математическая статистика» (внизу) с использованием транзитной области (в центре).

Транзитам область (методы информационных объектов)

Рис. 2. Переход от понятий социологических исследований к терминологии математической статистики.

ФС-модель была успешно использована при разработке информационных структур, предназначенных для хранения закономерностей и объектов, описывающих группы анкет, отобранных по каким либо признакам.

Далее в главе обосновываются системно-концептуальные соглашения, принятые при разработке ИНИАС, приведенные ниже:

1) в качестве хранилища данных выбрана СУБД Oracle 9i;

2) в качестве языков программирования выбраны Delphi и Java;

3) выбрана компонентная структура организации информационной системы, выделяющая отдельные блоки ввода, анализа и администрирования;

4) компоненты работают в архитектуре клиент-сервер. Блоки, написанные на Java, работают с сервером приложений, реализующим функциональные возможности системы;

5) клиентские компоненты, написанные на Java, реализованы в виде ап-плетов, позволяющих использовать минимальные функции программных модулей без СУБД и WWW сервисов.

На рис.3 приведено описание клиент-серверной архитектуры ИНИАС.

Стругув мвтаопишмп

Рис.3. Архитектура ИНИАС Разработанная информационная система реализована в трехуровневой архитектуре «клиент-сервер». Первый уровень представляет собой интерфейс пользователя, отвечающий за предоставление информации пользователю. Второй уровень — уровень логики приложения, реализующий функциональные возможности системы ИНИАС, а также функции хранилища знаний. Третий уровень - уровень ресурсов, на котором функционирует сервер

СУБД. Связь между первым и вторым уровнем организована с применением технологии RMI, а между вторым и третьим - средствами языка SQL.

Четвертая глава. В первой части главы рассмотрены этапы проектирования ИНИАС в рамках выбранной архитектуры и принятых системно-концептуальных соглашений. На основе диаграмм UML осуществлено разделение ИНИАС на основные компоненты: компонент ввода данных; компонент анализа; компонент поиска знаний.

С учетом результатов анализа ФС-моделей построены диаграммы классов, одна из которых, отображающая особенности объектного представления данных в системе ИНИАС, приведена на рис. 4.

Рис.4. Информационные объекты, характеризующие структуру социологического опроса.

Объект Question, отображенный на диаграмме, реализует метод get-Variable, возвращающий либо одну переменную, либо несколько, полученных в результате рассмотренных в работе преобразований. Объект Knowledge реализует методы, возвращающие либо ссылки на статистически связанные вопросы (getStatistics), либо продукции (getProduction).

Во второй части главы рассматриваются функциональные возможности системы. Пример интерфейсов ИНИАС приведен на рис. 5.

Описывается технология проведения исследований с использованием ИНИАС. Вводятся два режим: режим ввода и режим анализа.

Врежиме ввода данных выполняются: навигация по хранилищу блоков данных социологических исследований; ввод информации с опросных листов в рабочий блок данных; контроль критических параметров выборки, построение распределений.

В режиме анализа данных выполняются: поиск в репозитарии интересующих исследователя постановок вопросов; анализ существующих закономерностей; анализ распределений значений переменных.

Рис. 5. Пример интерфейсов системы ИНИАС

Заключение. В диссертационной работе автором получены следующие основные результаты:

1. Выполнен анализ предметной области и специфики ПО для социологических исследований и определены факторы, обуславливающие необходимость создания ИНИАС.

2. Сформулированы требования к информационной системе ИНИАС, основными из которых являются:

• реализация методов «добычи» знаний (Data Mining), позволяющих получать знания из имеющихся данных;

• применение хранилищ данных, поддерживающих объектные представления информации;

• разделение информационной системы на компоненты по функциональным возможностям;

• поддержка интерфейсов, обеспечивающих работу системы в рамках существующих международных проектов.

3. Разработана методика интеллектуального анализа данных с использованием И Н И АС.

4. Разработана методика построения хранилища данных, содержащего первичные данные, полученные путем ввода информации с опросных листов и знания о закономерностях в распределениях вопросов.

5. Предложена клиент-серверная архитектура информационной системы.

6. Разработана система ИНИАС, клиентская часть которой реализует следующие основные функции: ввод первичных данных с опросных листов, анализ распределений вопросов, навигацию по ресурсам ХД ИНИАС.

7. Разработана и апробирована технология проведения исследований с применением разработанного инструментария.

Список опубликованных работ по теме диссертации:

1. Васильев И.В. Возможности применения конечно-автоматных моделей для интеллектуального анализа данных в системах поддержки принятия решений // Системные исследования в энергетике /Труды молодых ученых. - Иркутск: ИСЭМ СО РАН, 2000. - Вып 30.- С. 246-254.

2. Васильев И.В.Применение методов Data Mining для вторичного анализа социологических исследований // Труды всероссийской конференции "Математические и информационные технологии в энергетике, экономике, экологии". -Иркутск: ИСЭМ СО РАН, 2003. - Т. 1. - С. 171-179

3. Васильев И.В. Информационные системы сбора, хранения и анализа результатов социологических исследований // Информационные и математические технологии / Труды Байкальской всероссийской конференции.-Иркутск: ИСЭМ СО РАН, 2004.- С. 112-118.

4. Васильев И.В. Возможность применения генетических алгоритмов для анализа неальтернативных переменных в социологических опросах // Информационные и математические технологии / Труды Байкальской всероссийской конференции.- Иркутск: ИСЭМ СО РАН, 2004.- С. 212 -217.

5. Васильев И.В. Применение методов Data Mining для поиска знаний в структурированных текстах // Вестник ИрГТУ.- 2004,- №1 (17) - С. 174 -175.

6. Массель Л.В., Васильев И.В. Разработка информационной системы для социологических исследований с использованием стратифицированной фрактальной модели // Вестник ИрГТУ.- 2004.- №2 (18) - С. 98-103.

Заказ № 480. Тираж 100 экз. Лицензия ПЛД № 40-61 от 31 05.98 Ризограф ИСЭМ (СЭИ) СО РАН 664033, Иркутск, Лермонтова, 130

023132

Оглавление автор диссертации — кандидата технических наук Васильев, Иван Владимирович

Введение.

1. Проблема создания программного обеспечения нового поколения для анализа результатов социологических исследований.

1.1. Качественные и количественные подходы в социологии.

1.2. Вторичные социологические исследования.

1.3. Анализ тенденций к применению программного обеспечения для анализа результатов социологических опросов.

1.3.1. Существующие тенденции к построению программного обеспечения для социологов.

1.3.2. Классификация систем поддержки принятия решений.

1.3.3. Сравнительный анализ существующих программных продуктов точки зрения классификации СППР.

1.3.4. Перспективы создания специализированного программного обеспечения для анализа результатов социологических исследований.

1.4. Выводы по главе и постановка задачи диссертационной работы.

2. Технология проведения социологических исследований, выбор и обоснование методов и инструментальных средств исследований.

2.1. Возможность применения методов Data Mining к результатам социологических исследований.

2.1.1. Интеллектуальный анализ данных.

2.1.2. Применение алгоритмов Data Mining для поиска закономерностей в результатах социологических исследований.

2.2. Применение эвристических методов для уменьшения комбинаторной сложности задачи поиска статистически связанных значений неальтернативных переменных.

2.2.1. Классификация переменных

2.2.2. Методы анализа неальтернативных переменных.

2.2.3. Применение эвристических методов при поиске статистически связанных переменных.

2.3. Применение алгоритма HICAP для поиска закономерностей в статистических данных.

2.4. Детерминационный анализ.

2.5. Конечно-автоматные модели в системах интеллектуального анализа данных.

2.6. Создание межуниверситетских хранилищ данных с использованием стандарта описания метаданных DDI.

2.7. Применение стратифицированных фрактальных моделей для моделирования информационных объектов.

3. Предлагаемый методический подход к построению интегрированной информационно-аналитической системы ИНИАС.

3.1. Методика проведения ИАД.

3.2. Методика снижения комбинаторной сложности ИАД.

3.3. Методика создания хранилища данных.

3.4. Методика объектного моделирования данных и знаний.

3.4.1. Методика моделирования информационных объектов.

3.4.2. Использование ФС моделей для разработки информационных объектов, описывающих структуру социологических опросов.

3.4.3. Использование ФС-моделей для проектирования объектных представлений статистически связанных вопросов в ХД.

3.4.4. Применение фрактального подхода к проектированию объектов — «Идентификаторов» блоков данных.

3.5. Методика проектирования ИНИАС.

3.5.1. Объектное проектирование программного комплекса.

3.5.2. Системно-концептуальные соглашения.

3.5.3. Обоснование применения объектной СУБД для реализации хранилища данных.

3.5.4. Разработка архитектуры ИНИАС.

4. Разработка и применение ИНИАС.

4.1. Проектирование ИНИАС.

4.1.1. Анализ основных прецедентов использования информационной системы.

4.1.2. Проектирование хранилища данных.

4.1.3. Проектирование клиентской и серверной частей ИНИАС.

4.2. Реализация ИНИАС.

4.3. Технология проведения социологического исследования с применением ИНИАС.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Васильев, Иван Владимирович

Актуальность работы. Актуальность выполненной работы определяется двумя основными факторами. Первый - возросшая значимость социального мониторинга для определения отношения населения к региональной и федеральной политике и изучения проблематики, присущей тем или иным районам для обеспечения повышения эффективности принятия управленческих решений. Второй фактор связан с темпами развития информационных технологий и необходимостью создания эффективно масштабируемого программного обеспечения (ПО), способного обеспечить специалиста предметной области возможностями для решения широкого спектра исследовательских задач, реализовать эффективное хранение и представление результатов исследований.

Все это требует рассмотрения концептуальных решений, связанных с организацией распределенных вычислений и сетевым доступом к данным и приложениям. Учитывая, что программные инструментальные средства социологических исследований рассматриваются как один из прототипов системы поддержки принятия решений по обеспечению управленческих решений, это предъявляет к ним повышенные требования и обуславливает актуальность их разработки на современном уровне информационных технологий.

При разработке ПО использованы современные методы моделирования, предложенные в работах Г.Буча, И, Якобсона, Дж. Румбау, Э. Гаммы, являющиеся основой применения объектно-ориентированного подхода. Применен метод моделирования объектного представления знаний, предложенный JI.B. Массель. При создании хранилища данных (ХД) были изучены реляционные и объектные концепции СУБД, разработанные К.Дейтом, Е. Коддом, Л. Калини-ченко, А.А. Сахаровым. В части, описывающей применение интеллектуального анализа данных (ИАД), автор опирался на работы JI.B. Щавелева, JI.H. Столярова.

Специфика социологических исследований определяет сложность создания специализированного программного обеспечения. С одной стороны, это появляющиеся со временем новые математические методы, модели, подходы, применение которых может перевести исследования на качественно иной уровень, дать новые результаты по сравнению со старыми методами исследований. С другой стороны, это лавинообразное появление новых информационных технологий (ИТ), оказывающих серьезное влияние на методы проведения научных исследований. Это влияние выражается в том, что применение новых ИТ предоставляет новые возможности в проведении исследований, а именно, формулирование и решение новых задач, которые невозможно было бы решить без использования этих технологий. Методические основы применения методов анализа в социологии были заложены в работах В.А. Ядова, Д.Г. Ротмана, Г.Г. Татаровой, С.В. Чеснокова и др.

Изменения в процессе исследований требуют адекватной инструментальной поддержки и, соответственно, изменений в инструментальных средствах, т.е. гибкость информационной системы является залогом успешного проведения исследований. Необходимость разработки ПО, которое отвечало бы этому требованию, и одновременно сложность его реализации, с учетом уровня современных информационных технологий и большого разнообразия базовых инструментальных средств, требует выполнения специального исследования, что подчеркивает актуальность данной работы.

Целью данной работы является повышение эффективности проведения социологических исследований, обеспечиваемое разработкой:

• методического подхода и программных инструментальных средств (интегрированной информационно-аналитической системы) для социологических исследований, отвечающих современным требованиям к программным комплексам нового поколения;

• технологии проведения социологических исследований с использованием новых инструментальных средств.

Для достижения этой цели необходимо решить следующие задачи: 1. Выполнить анализ тенденций развития архитектуры современных прикладных программных систем и выбрать, по результатам анализа, базовые технологии для интеграции разнородных компонентов в рамках интегрированной информационно-аналитической системы (ИНИАС), включающей региональное хранилище результатов социологических исследований.

2. Сформулировать требования к функциональности ИНИАС и системно-концептуальные соглашения, принимаемые при ее разработке.

3. Разработать архитектуру ИНИАС и методику ее программной реализации, отвечающей требованиям к программным комплексам нового поколения.

4. Разработать методику интеллектуального анализа результатов социологических исследований и методику создания хранилищ данных и знаний в рамках ИНИАС.

5. Разработать технологию проведения социологических исследований с применением ИНИАС.

Методами и средствами исследования являются: методические основы проведения социологических исследований, методы системного и прикладного программирования, методы объектного подхода (анализ, проектирование, программирование), методы теории искусственного интеллекта (продукционные модели представления знаний, интеллектуальный анализ данных).

Новизну работы составляют следующие положения: 1. Впервые обоснована необходимость использования для социологических исследований методов интеллектуального анализа данных (Data Mining) и хранилищ данных (DataWare House), для хранения как данных, так и знаний, в рамках интегрированной информационно-аналитической системы, разработанной в соответствии с требованиями к программным комплексам нового поколения, основными из которых являются:

• многослойная архитектура, предусматривающая использование серверов приложений и серверов баз данных;

• ориентация на работу в вычислительных сетях (как локальных, так и глобальных);

• свойство расширяемости программного обеспечения в его современной трактовке.

Предложен методический подход к построению программных комплексов нового поколения для исследований в социологии, включающий:

• методику интеллектуального анализа результатов социологических исследований, интегрирующую совокупность методов (анализ неальтернативных переменных, статистические методы, снижение комбинаторной сложности алгоритмов ИАД, детерминационный анализ, Аристотелевы силлогизмы) в рамках ИНИАС;

• методику создания хранилища данных, как основного компонента ИНИАС, для хранения в объектном представлении как данных, так и знаний;

• методические рекомендации по объектному моделированию данных и знаний с использованием унифицированного языка моделирования UML;

• клиент-серверную архитектуру интегрированной информационно-аналитической системы и ее компонентов и объектные модели программ, в соответствии с которыми выполнена реализация ИНИАС;

• выбор и рекомендации по применению базовых технологий, создающих предпосылки для перехода к работе с информационной системой через Internet;

На защиту выносятся:

• методика создания хранилища данных в рамках ИНИАС;

• методика интеллектуального анализа результатов социологических исследований с использованием ИНИАС;

• архитектура интегрированной информационно-аналитической системы и ее компонентов;

• интегрированная информационно-аналитическая система, обеспечивающая использование хранилища данных для хранения как данных, так и знаний и применение, в рамках ИНИАС, методов интеллектуального анализа данных;

• технология проведения социологических исследований с применением ИНИАС.

Практическая значимость работы заключается в использовании предложенного подхода и методик для разработки интегрированной информационно-аналитической системы ИНИАС и технологии проведения социологических исследований, а также в применении разработанных системы и технологии для \у обработки результатов социологических опросов, проводимых Региональным информационным аналитическим центром в Иркутском области и Усть-Ордынском бурятском автономном округе.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на конференции Главного Управления Информационных Систем ФАПСИ, посвященной 30-летию начала работ по созданию информационно-вычислительной системы по управлению страной в кризисных ситуациях (Москва, 2002 г.), на Всероссийских с международным участием конференциях: «Информационные и телекоммуникационные технологии в науке и образовании Восточной Сибири» (Иркутск, 2001 г.), «Информационные технологии в энергетике, экономике, экологии» (Иркутск, 2002 г.), «Математические и информационные технологии в энергетике, экономике, экологии» (Иркутск, 2003 г.), «Информационные и математические технологии» (Иркутск, 2004 г.).

Публикации. По теме диссертации опубликовано шесть работ в т.ч. две — в издании, рекомендованном ВАК.

В первой главе раскрывается суть исследуемой проблемы. Рассматриваются подходы и методы, используемые в социологии, анализируется специфика создания программного обеспечения для социологических исследований. Определяются факторы, определяющие сложность создания ПО в данной предметной области, и факторы, требующие, чтобы ПО обладало возможностью интеллектуального анализа данных. В выводах к главе обосновывается необходимость разработки методического подхода к созданию интегрированной информационно-аналитической системы, ориентированной на интеллектуальный анализ данных. На основании выводов данной главы формулируются задачи диссертационной работы.

Вторая глава посвящена анализу методов, выбранных или разработанных автором для реализации в ИНИАС, и базовых технологий, на основе которых предполагается ее разработка. Рассматривается предлагаемая автором технология социологических исследований, включающая совокупность методов, способов и приемов проведения исследований. Внимание уделено описанию статистических методов, традиционно применяемых при работе с результатами социологических исследований. Перечислены методы Data Mining, способствующие автоматизации статистических методов, описаны некоторые приемы, уменьшающие комбинаторную сложность статистических методов, применяемых при анализе результатов социологических исследований. Кроме того, вторая глава содержит обоснование идеи создания хранилища данных, предназначенного для хранения как данных, так и знаний (результатов анализа данных).

Третья глава содержит описание предлагаемого автором методического подхода, в соответствии с которым выполнены проектирование и реализация ИНИАС. Подход включает совокупность методик, использованных при разработке ИНИАС. Центральной является методика интеллектуального анализа результатов социологических исследований, интегрирующая в рамках ИНИАС совокупность методов, подробно описанных во второй главе (анализ неальтернативных переменных, статистические методы, снижение комбинаторной сложности алгоритмов ИАД, детерминационный анализ, Аристотелевы силлогизмы).

Важным компонентом ИНИАС является хранилище данных и знаний. Предложена методика его разработки, включающая подготовку и преобразование данных для формирования хранилища данных, а также методические рекомендации по объектному моделированию информационных объектов (данных и знаний) с использованием ФС-моделей.

В последней части главы описываются этапы проектирования ИНИАС, системно-концептуальные соглашения, обоснование использования объектной СУБД для реализации хранилища данных и предлагаемая автором клиент-серверная архитектура ИНИАС.

Четвертая глава посвящена описанию процесса разработки информационной системы в соответствии с методикой, изложенной в третьей главе. Приводятся выполненные с помощью унифицированного языка моделирования UML основные модели (диаграммы), в соответствии с которыми была выполнена реализация ИНИАС. Описана реализация ИНИАС, приведены примеры интерфейсов. Приведена технология проведения социологического исследования с использованием системы ИНИАС.

В заключении приведены основные результаты, полученные при выполнении данной работы.

Автор благодарит своего научного руководителя, д.т.н. Массель JI.B., а также сотрудников возглавляемой ею лаборатории "Информационные технологии в энергетике" ИСЭМ СО РАН, обсуждения с которыми концептуальных решений и результатов работы были очень полезны для автора. Кроме того, автор благодарен своим коллегам по работе за понимание и терпение, проявленные по отношению к нему в процессе выполнения диссертационной работы. Автор выражает также благодарность д.т.н. Новорусскому В.В., под руководством которого автор начинал свою научную деятельность, за ценные критические замечания в ходе обсуждения работы.

Заключение диссертация на тему "Интегрированная информационно-аналитическая система для социологических исследований"

ЗАКЛЮЧЕНИЕ.

В диссертационной работе автором получены следующие основные результаты:

1. Выполнен анализ предметной области и специфики ПО для социологических исследований и определены факторы, обуславливающие необходимость создания ИНИАС.

2. Сформулированы требования к информационной системе ИНИАС, основными из которых являются:

• реализация методов «добычи» знаний (Data Mining), позволяющих получать знания из имеющихся данных;

• применение хранилищ данных, поддерживающих объектные представления информации;

• разделение информационной системы на компоненты по функциональным возможностям;

• поддержка интерфейсов, обеспечивающих работу системы в рамках существующих международных проектов.

3. Разработана методика интеллектуального анализа данных с использованием ИНИАС.

4. Разработана методика построения хранилища данных, содержащего первичные данные, полученные путем ввода информации с опросных листов и знания о закономерностях в распределениях вопросов.

5. Предложена трехуровневая клиент-серверная архитектура информационной системы.

6. Разработана система ИНИАС, клиентская часть которой реализует следующие основные функции: ввод первичных данных с опросных листов, анализ распределений вопросов, навигацию по ресурсам ХД ИНИАС.

7. Разработана и апробирована технология проведения исследований с применением разработанного инструментария.

Библиография Васильев, Иван Владимирович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Электронный учебник StatSoft. -http://www.statsoft.ru/home/textbook/default.htm (20 янв. 2004)

2. Дедуктор. Все о пакете. http://www.basegroup.ru/deductor/ (1 июн. 2004)

3. Ядов В.А. Стратегия социологического исследования. Описание объяснение, понимание социальной реальности. М.: «Добросвет», 2001.

4. Джарол Б. Мангейм, Ричард К. Рич. Политология. Методы исследования: Пер. с англ./Общ.ред. и вступ.ст. А.К. Соколова. М.: Издательство "Весь Мир", 1999.

5. Прангишвили И.В. Системный подход и общесистемные закономерности. Серия «Системы и проблемы управления». М.: СИНТЕГ, 2000, 528 с.

6. The Gallup organization. http://www.gallup.com/poll/ (10 янв. 2003).

7. Столяров JI.H. Введение в Data Mining. Использование в финансовой аналитике // Информационные технологии в электроэнергетике: современные подходы к анализу и обработке информации. — Иркутск: ИСЭМ СО РАН, 2000.-19 с.

8. Ю.Щавелев JI.B. Способы аналитической обработки данных для поддержки принятия решений // СУБД. 1998. - №6

9. П.Львов В. Создание систем поддержки принятия решений на основе хранилищ данных // СУБД.- 1997.- № 3.- С.30-40.

10. Массель Л.В. Состояние и общеметодологические проблемы построения систем поддержки принятия решений (С111 IP) в энергетике.- С. 7-10. (в 13.).

11. Системы поддержки принятия решений для исследования и управления энергетикой / Н.Н. Антонова, И.Н. Бобырева, Н.В. Бычкова и др. / Под ред.

12. А.П. Меренкова. Новосибирск: Наука. Сиб. Предприятие РАН, 1997. - 162 с.

13. И.Татарова Г.Г. Методология анализа данных в социологии. -М.: Издательский Дом «Стратегия», 1998.

14. Возможности Да-системы. http://www.context.ru/can.htm (1 июн. 2004)

15. Ryssevik J. Musgrave S. The Social Science Dream Machine: Resource discovery, analysis and delivery on the Web.http://www.nesstar.org/papers/iassist0599.html (20 янв.2004)

16. Тику нов С.В. Географические информационные системы: сущность, структура, перспективы // Итоги науки и техники. Сер. Картография. М.: ВИНИТИ, - 1991.- С. 6-80.

17. SPSS, Data Mining, Statistical Analysis Software, Predictive Analysis, Predictive Analytics, Decision Support Systems. http://www.spss.com/ (10 фев. 2004)

18. PolyAnalyst & Data mining. -http://www.megaputer.ru/doc.php7production/pa/polyanalystinfo.html (1 окт. 2004)

19. Кузнецов С.Д. Введение в СУБД. Ч. 6 // СУБД. 1996 - №2.

20. Кузнецов С.Д. Стандарты языка реляционных баз данных SQL: краткий обзор // СУБД. -1996.- №2.

21. Васильев И.В. Информационные системы сбора, хранения и анализа результатов социологических исследований // Информационные и математические технологии / Труды Байкальской всероссийской конференции.- Иркутск: ИСЭМ СО РАН, 2004.- С. 112-118.

22. Васильев И.В. Применение методов Data Mining для вторичного анализа социологических исследований // Труды всероссийской конференции "Математические и информационные технологии в энергетике, экономике, экологии". Иркутск, 2003. - Т. 1. - С. 171 -179

23. Гаврилова Т.А., Червинская К.Р. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992. - 200 с.25.0racle9/ Data Mining Documentation. http://www.oracle.com/technology/documentation/datamining.html

24. The Java Language Specification. http://java.sun.com/docs/books/jls/index.html (10 okt. 2004)

25. Кофман А. Введение в теорию нечетких множеств.- М.: Радио и связь, 1982.432 с.

26. Методы нейроинформатики: Сб. науч. трудов/ Под ред. А.Н. Горба-ня.-Красноярск: КГТУ, 1998 204 с.

27. Миркес Е.М. Логически прозрачные нейронные сети и производство явных знаний из данных // Нейроинформатика.- Новосибирск: Наука, 1998.-С.283-292.

28. ЗО.Чесноков С.В. Детерминационный анализ социально-экономических данных. М.: Наука. Главная редакция физико-математической литературы, 1982.- 168 с.

29. Xiong Н., Steinbach М., Pang-Ning Tan, Vipin Kumar №CAP: Hierarchical Clustering with Pattern Preservationhttp://www.users.cs.umn.edu/~kumar/papers/hicap.pdf (10 янв. 2004).

30. Сахаров A.A. Концепция построения и реализации информационных систем, ориентированных на анализ данных // СУБД. 1996. - № 4. - С. 55-70.

31. Сахаров А.А. Принципы проектирования и использования многомерных баз данных (на примере Oracle Express Server) // СУБД 1996. - №3. - С. 44-59.

32. RMI over HOP. http://java.sun.com/products/rmi-iiop/ (10 июн. 2004)

33. Васильев И.В. Возможности применения конечно-автоматных моделей для интеллектуального анализа данных в системах поддержки принятия решений // Системные исследования в энергетике / Труды молодых ученых. -Иркутск: ИСЭМ СО РАН, 2000. Вып 30. - С. 246-254.

34. W.H. Inmon. Definition of a Data Warehouse . -http://www.billinmon.com/library/articles/dwdef.asp (5 янв. 2004)

35. Васильев И.В. Применение методов Data Mining для поиска знаний в структурированных текстах // Вестник ИрГТУ,- 2004.- №1 (17) С. 174 -175.

36. Дюк В., Самойленко A. Data mining: Учебный курс СПб.: Питер, 2001 -386 с.

37. Чесноков С.В. Детерминационный анализ социально-экономических данных. М.: Наука. Главная редакция физико-математической литературы, 1982.- 168 с.

38. Крамер Г., Математические методы статистики, пер. с англ., М., 1948; Хальд А., Математическая статистика с техническими приложениями, пер. с англ., М., 1956;

39. Ван дер Варден Б. JL, Математическая статистика, пер. с нем., М., 1960.

40. Митропольский А. К., Техника статистических вычислений, 2 изд., М., 1971.

41. Оперативные социологические исследования: методика и опыт организации/

42. Под ред. Д.Г. Ротмана, А.Н. Данилова, Л.Г. Новиковой.- Мн.: БГУ, 2001,354

43. Курейчик В.М. Методы генетического поиска. Учебное пособие, часть 1. Таганрог, ТРТУ, 1998, 118с.

44. Р.А. Заика, "Применение генетических алгоритмов для обнаружения плохих данных в телеизмерениях на основе контрольных уравнений", Системные исследования в энергетике, Труды молодых ученых ИСЭМ СО РАН, Иркутск, 2000г, с.62-66.

45. Массель JI.B., Васильев И.В. Разработка информационной системы для социологических исследований с использованием стратифицированной фрактальной модели // Вестник ИрГТУ.- 2004.- №2 (18) С. 98-103.

46. Массель JI.B. Фрактальный подход к построению информационных технологий // Информационная технология исследования развития в энергетике / Л.Д. Криворуцкий, JI.B. Массель. Новосибирск: "Наука". Сиб. Издательская фирма РАН, 1995. - С. 40-67.

47. Массель JI.B. Фрактальный подход и возможности его применения в гомео-статике.- Труды XXV Международной конференции «Новые информационные технологии в науке, образовании, телекоммуникации и бизнесе, ч.2,-Москва: МГАПИ, 1998.- С. 486 489.

48. Дунин-Барковский И. В., Смирнов Н. В., Теория вероятностей и математическая статистика в технике (Общая часть), М., 1955;

49. Колмогоров А.Н. Основные понятия теории вероятностей. М.: Наука, 1974.

50. Чесноков С.В. Метаматрицы в логике натуральных текстов.http://www.context.ru/articles/art-6.zip (20 фев. 2004)

51. Аристотель. Первая и Вторая аналитики / Пер. с древнегреч. Б.А. Фохта // Аристотель: Соч. в 4-х т. Т. 2. М.: Мысль, 1978.

52. Лукасевич Я. Аристотелева силлогистика с точки зрения современной формальной логики. Биробиджан: ИП «Тривиум», 2000.

53. Новорусский В.В. Основы теории систем и системы логического управления. (Формально-логические аспекты). Новосибирск: Сиб.предприятие РАН, 1997.-335 с.

54. Fractals: Non-integral Dimension and Application / under the direction of G.Cherbit. New York, John Wiley@Sons, 1991.-249 p.

55. Цикритзис Д., Лаховски Ф. Модели данных: Пер. с англ.- М.: Финансы и статистика, 1985 334 с.59. HummingBird SearchServer. http://www.hummingbird.com/products/searchserver/index.html (16 апр. 2004)

56. Буч Г., Рамбо Д., Джекобсон А. Язык UML. Руководство пользователя: Пер. с англ. М.: ДМК, 2000. - 432 с.

57. Вендров A.M. CASE-технологни. Современные методы и средства проектирования информационных систем. М.: Финансы и статистика, 1998.- 176 с.

58. Боггс М., Боггс У. UML и Rational Rose: Секреты эффективного проектирования сопровождаемых объектно-ориентированных приложений. М.: Лори,2000. 582 с.

59. Лорьер Ж.-Л. Системы искусственного интеллекта: Пер. с франц. -М.: Мир, 1991.-568 с.

60. Васильев С.Н. К интеллектному управлению // Оптимизация, управление, интеллект. -№3. 1999. - С. 3-67.

61. Ленуар Р., Мерлье Д., Пэнто Л., Шампань П. Начала практической социологии / Пер. с фр. А.Т. Бикбова, Д.В. Баженова, Е.Д. Вознесенской, Г.А. Чередниченко. М.: Алетейя, 2001 г. - 410 с.

62. Болдырев Е.А. Современные архитектуры и технологии построения программных комплексов / Под ред. Л.В. Массель. Иркутск: ИСЭМ СО РАН,2001.-54 с.

63. Массель Л.В., Болдырев Е.А. Моделирование и разработка современных программных комплексов для исследований энергетики // Вычислительные технологии.- 2002.-Т.7, №4.- С. 59-70.

64. Gamma Е. Object-oriented software development based on ET++: Design patterns, class library, tools: PhD Thesis.- University of Zurich: Institut fur Infor-matik, 1991. (In German).

65. Горбунов-Посадов M.M. Расширяемые программы. M.: Полиптих, 1999.336 с.

66. Йордан Д., Аргила К. Структурные модели в объектно-ориентированном анализе и проектировании.- М.: ЛОРИ, 1999.- 264 с.

67. Калянов Г.Н. CASE структурный системный анализ (автоматизация и применение). М.: ЛОРИ, 1996. - 242 с.

68. Enterprise Java Beans Specification.http://java.sun.com/products/ejb/download.html (15 июн. 2004)73.0берг Р.Д. Технология СОМ+. Основы и программирование. Практическое руководство.-М.: Вильяме, 2000 480 с.

69. Schussel, G. Client/Server: Past, Present and Future.-http://news.dci.com/geos/dbsejava.html (15 июн. 2004)

70. The Java Virtual Machine Specification.-http://java.sun.com/docs/books/vmspec/index.html

71. Dublin Core Metadata Initiative. http://dublincore.org/about/ (20 сен. 2004)

72. Ким Вон. Технология объектно-ориентированных баз данных.-http://ooad.asf.ru/oobd/TOOBD/Index.asp (10 окт. 2004)

73. Дейт К. Введение в системы базы данных. М.: Наука, 1980. - 463 с.

74. Codd Е. F. A Relation Model of Data for Large Shared Data Banks // Comm.

75. ACM 13, 6, ACM, New York, London, Amsterdam, June 1970. P. 377-387.

76. Чен П. Модель "сущность-связь" шаг к единому представлению о данных // СУБД -1995.- №3. - С.137-158.