автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы оценки силы связей с участием нечисловых факторов, характеризующих состояние объекта принятия решений

кандидата технических наук
Лобанов, Валерий Юрьевич
город
Москва
год
2011
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Методы оценки силы связей с участием нечисловых факторов, характеризующих состояние объекта принятия решений»

Автореферат диссертации по теме "Методы оценки силы связей с участием нечисловых факторов, характеризующих состояние объекта принятия решений"

На правах рукописи

Московский энергетический институт (технический университет)

Лобанов Валерий Юрьевич

Методы оценки силы связей с участием нечисловых факторов, характеризующих состояние объекта принятия решений

Специальность 05.13.01. - "Системный анализ, управление и обработка информации (информатика)"

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва, 2011

4851961

Работа выполнена на кафедре Управления и информатики Московского энергетического института (технического университета)

Научный руководитель: кандидат технических наук

доцент

Фомин Геннадий Александрович

Официальные оппоненты: доктор технических наук

профессор

Лецкий Эдуард Константинович

кандидат технических наук Некрасов Иван Валериевич

Ведущая организация: Федеральное государственное бюджетное научное учреждение «Государственный научно-методический центр»

Защита состоится "13" октября 2011 г. в 16 часов 00 мин. на заседании диссертационного совета Д 212.157.08 при Московском энергетическом институте (техническом университете) по адресу: 111250, Москва, ул. Красноказарменная, д. 14, Малый актовый зал.

С диссертацией можно ознакомиться в библиотеке Московского энергетического института (технического университета).

Отзывы в двух экземплярах, заверенные печатью, просьба направлять по адресу: 111250, Москва, ул. Красноказарменная, д. 14, Ученый совет МЭИ (ТУ).

Автореферат разослан " "_2011 года

Ученый секретарь

диссертационного совета Д 212.157.08 кандидат технических наук доцент

Д.Н.Анисимов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.

Диссертационная работа посвящена разработке и исследованию статистических методов оценки силы связей, содержащих нечисловые факторы.

Актуальность работы. Одной из наиболее актуальных областей применения современных информационных технологий при решении задач управления сложными объектами как технической, так и нетехнической природы стало в последнее время создание систем поддержки принятия решений (СППР). Основу СППР составляют средства сбора, обработки и анализа данных об объектах управления. Развитость средств анализа данных характеризует общий уровень реализации СППР, поэтому в последние годы в мире активно ведется разработка новых методов, средств и технологий анализа данных, которые в литературе часто объединяются под общим названием «добыча данных» (Data Mining).

Во многих системах управления накопились значительные объемы данных, отражающие их деятельность за предыдущие периоды времени функционирования. Есть основания полагать, что в этих массивах присутствует очень важная информация, использование которой может позволить существенно повысить эффективность деятельности, обеспечить её более высокое качество. Вопрос состоит в том, как выделить эту полезную информацию.

СППР, как правило, применяется при решении задач управления сложными объектами. Под сложностью понимаются:

• многоаспектность происходящих в объекте процессов и их взаимосвязанность; в силу этого невозможно вычленение и детальное исследование отдельных явлений - все происходящие в них явления должны рассматриваться в совокупности;

• отсутствие достаточной количественной информации об объекте, что вынуждает переходить к его качественному анализу.

В качественных моделях объект описывается в терминах некоторого набора его характеристик - факторов, между которыми устанавливаются связи.

При анализе связей в сложных объектах можно выделить три последовательных этапа. Сначала выясняется сам факт наличия связи между факторами, в терминах которых описывается объект. Если установлено наличие связи, выясняют, какова сила этой связи. Если необходима дальнейшая детализация описания связи, переходят к разработке ее математической модели.

Построение полноценной математической модели связи зачастую является крайне трудоемким процессом, поэтому второй шаг, на котором происходит анализ связей на качественном уровне и которому посвящено данное исследование, является крайне важным с точки зрения эффективного

распределения ресурсов исследователя - математическая модель будет строиться только в тех случаях, когда это действительно целесообразно.

Выделение факторов и выдвижение гипотез о наличии связей между ними осуществляется экспертом, строящим модель. Одной из основных характеристик связи между факторами является её сила. Она может быть оценена двумя методами - экспертным (на основании знаний эксперта) и формальным (на основании анализа данных наблюдений факторов). До сих пор при качественном моделировании в основном применялись экспертные методы, что во многом обусловлено широтой области их применения и относительной простотой. Однако в настоящее время в данной задаче становится весьма перспективным и формальный метод - ввиду объективности результатов, которые могут быть получены на основе анализа накопленных данных наблюдений.

Оценка силы связи между количественными факторами формальным методом может быть осуществлена с использованием получившего особенно широкое распространение в технических дисциплинах анализа корреляций. В литературе, посвященной анализу данных, рассматриваются меры, позволяющие оценивать силу связи между факторами, измеренными в нечисловых шкалах: порядковой и номинальной.

Связи, в которых типы шкал факторов совпадают, будут называться однородными. В практической работе часто требуется анализировать неоднородные связи, то есть связи, в которых типы шкал факторов не совпадают. Эти связи, естественным образом, содержат нечисловые факторы. Анализ литературы не позволяет выявить каких-либо мер или четких рекомендаций по оценке силы неоднородных связей, поэтому становится актуальной задача их разработки и исследования.

Среди всех возможных типов связей с участием нечисловых факторов особый интерес представляют связи между количественным и номинальным факторами, что обусловлено их широкой распространенностью.

Цель диссертационной работы

Разработка и исследование методов оценивания силы связей между количественным и номинальным факторами и создание средств автоматизации процесса вычисления оценок силы этих связей с использованием данных наблюдений, полученных на объекте управления.

Задачи исследования

1. Нахождение методов преобразования типов шкал факторов для приведения задачи оценивания силы неоднородных связей к задаче оценивания силы однородных связей.

2. Разработка мер силы связи между количественным и номинальным факторами для расчета оценок этой силы без использования преобразования типов шкал.

3. Систематизация методов оценки силы однородных и неоднородных связей и разработка методических рекомендаций по выбору мер для оценивания силы связей, содержащих нечисловые факторы.

4. Разработка программного средства поддержки анализа межфакторных связей и исследования их статистических свойств.

Научная новизна

1. Предложены не рассматривавшиеся ранее в литературе методы приведения задачи оценивания силы связи между факторами, измеренными в количественной и номинальной шкалах, к задачам оценивания однородных связей за счет преобразования шкал факторов. Эти методы позволяют использовать для неоднородных связей известные из литературы меры силы однородных связей.

2. Разработана новая мера силы направленной связи между влияющим количественным и зависимым номинальным факторами на основе расстояния Бхаттачария, дающая возможность вычислять оценки без использования преобразования шкал факторов.

3. РиЗрабстшш нсБил мера силы направленной связи мся^у' БЛИлЮ1Д11м номинальным и зависимым количественным факторами на основе соотношения компонентов дисперсии количественного фактора, также дающая возможность вычислять оценки силы связи без использования преобразования шкал.

4. С использованием имитационного моделирования обоснованы условия применения различных мер силы связи.

Достоверность и обоснованность научных результатов и положений диссертации подтверждается использованием методов статистического анализа данных, планирования имитационных экспериментов, а также совпадением результатов, полученных с помощью предлагаемых мер и с помощью известных мер силы связи на задачах, в которых такие меры могли одновременно применяться.

Практическая ценность результатов

1. Разработаны методические рекомендации по выбору метода оценивания силы связи в зависимости от типов входящих в нее факторов, а также от имеющихся предположений о ее свойствах.

2. Для автоматизации процесса расчета оценок сил межфакторных связей разработана библиотека программ для среды МАТЬАВ, позволяющая оценивать силы однородных и неоднородных связей.

3. Получены оценки сил ряда связей между факторами, описывающими задачу организации научно-исследовательских работ в России.

4. Создано программное средство учебного назначения, реализующее функции расчета оценок силы однородных и неоднородных межфакторных связей, предназначенное для использования при проведении лабораторных работ по дисциплине «Системы поддержки принятия решений».

Апробация работы.

Результаты работы обсуждались на XVIII научно-техническом семинаре «Современные технологии в задачах управления, автоматики и обработки информации» в г. Алушта в 2009г., на ХУШ международной научно-технической конференции «Информационные средства и технологии» в г. Москва в 20 Юг, а также на XVI международной научно-технической конференции студентов и аспирантов «Радиоэлектроника, электротехника и энергетика» в г. Москва в 2010г.

Получено свидетельство о регистрации разработанного программного средства учебного назначения в Объединенном Фонде Электронных Ресурсов «Наука и Образование» (ОФЭРНиО) Института Научной Информации и Мониторинга (ИНИМ)

Публикации.

По материалам диссертации было опубликовано 7 работ, в том числе - 2 работы в журналах из перечня ВАК.

Структура и объем работы.

Диссертационная работа состоит из введения, 5 глав, заключения, списка библиографических источников из 168 наименований. Общий объем работы составляет 123 страницы.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ:

Во введении дается обоснование актуальности темы, рассматриваются предпосылки для проведения исследований, приводится научная новизна и практическая значимость работы.

В первой главе приведен аналитический обзор литературы по методам оценки силы однородных межфакторных связей, рассмотрены основные подходы к анализу неоднородных связей, а также дано описание современного программного обеспечения, которое может быть использовано для оценки силы связей.

Основной характеристикой связи является ее сила, описывающая степень влияния одного фактора на другой. Сила связи задается с помощью числа на интервале [0,1]. «0» соответствует отсутствию связи. Для направленной связи «1» соответствует ситуации, когда значения зависимого фактора полностью определяются значениями влияющего, а для ненаправленной, когда значения каждого из двух факторов полностью определяют значения другого.

Состояние объекта управления описывается К факторами, которые могут быть измерены в трех типах шкал: количественной, порядковой и номинальной. Факторы рассматриваются как случайные. Между ними существуют парные связи, среди которых могут быть как однородные, то есть связи между факторами, измеренными в однотипных шкалах, так и неоднородные, то есть связи между факторами, измеренными в разнотипных шкалах. При рассмотрении отдельной связи будем обозначать влияющий

фактор через X, а зависимый - через У. Значения факторов X и У подчиняются совместному распределению /(Х,У), которое является неизменным в процессе функционирования объекта.

Эмпирическая информация о совместном распределении факторов доступна в виде данных наблюдений, каждое из которых представляет пару значений факторов, измеренных в соответствующих им шкалах в некоторый фиксированный момент времени: {(*„>,-)},/= 1,^, где N - количество

наблюдений, а х, и у, - значения факторов в г-ом наблюдении. В данных наблюдений отсутствуют измерительные ошибки. Они обладают свойством представительности, то есть достаточно полно отражают характеристики связи.

На рис. 1 приведена классификация методов анализа однородных и неоднородных связей. Анализ литературы показал, что для однородных связей все достаточно хорошо изучено. Для неоднородных связей это не так.

В работе рассматриваются два подхода к решению задачи оценки силы неоднородных связей: путем преобразования типов шкал факторов для сведения к задаче оценивания однородных связей, меры силы связи для которых известны, и без него. Первый подход упоминается в литературе, но при этом не приводится конкретных процедур, поэтому требуется их создание и детальное описание. Второй подход требует разработки специализированных мер.

Рис. 1. Методы анализа парных межфакторных связей

В настоящее время на рынке программного обеспечения (ПО) существует большое количество разнообразных средств, позволяющих проводить статистический анализ данных. Хотя, в основном, данное ПО направлено на анализ зависимостей, оно содержит также и некоторые функции, применимые для оценки силы связей.

Было произведено сравнение ПО общего назначения Microsoft Excel, среды для технических вычислений MathWorks MATLAB и двух статистических пакетов StatSoft Statistica и ШМ SPSS. Во всех четырех продуктах наблюдается недостаток следующих функций:

• меры для неоднородных связей

• возможности преобразования типов шкал

В связи с указанным недостатком функциональности существующих программных средств практический интерес представляет задача разработки отдельного программного средства или же расширения функциональности существующих.

Во второй главе разрабатываются две группы методов оценивания связи между количественным и номинальным факторами: с преобразованием типов шкал факторов и, тем самым, со сведением задачи к оцениванию однородной связи и с использованием специализированных мер силы неоднородной связи.

С использованием процедур преобразования типов шкал факторов задача оценки неоднородных связей может быть сведена к задаче оценки однородных связей. Были разработаны два типа преобразований: однофакторные и двухфакторные. Однофакторные используется при преобразовании количественной шкалы к порядковой, количественной к номинальной и порядковой к номинальной, а двухфакторные - при преобразовании номинальной шкалы к порядковой, номинальной к количественной и порядковой к количественной. Если однофакторные преобразования оказываются относительно простыми, то для двухфакторных необходимо решать оптимизационную задачу численными методами, что приводит к значительньм затратам вычислительных ресурсов и, в общем случае, не гарантирует поиска глобального экстремума.

В качестве примера однофакторного преобразования рассмотрим преобразование количественной шкалы фактора X к номинальной.

1. Зададимся количеством номиналов т, кодами номиналов £„i = l,m и вероятностями появления номиналов p,,i = \,m

2. Значения количественного фактора X расположим в вариационный ряд:

<...<*, <...<*„ (1)

3. Разобьем вариационный ряд на т интервалов таким образом, чтобы каждому из первых (т-1) интервалов принадлежало по и,=|_Р,А' +0.5J ,; = 1,(т-1) значений из ряда, где [_ J обозначает

округление к ближайшему целому вниз, а последнему интервалу -

4. Значениям фактора X, принадлежащим ¡-ому интервалу, будем ставить в соответствие номинал § и вместо количественных значений лгу использовать соответствующие им номиналы £ С помощью разработанной процедуры задача оценки силы неоднородной связи между количественным и номинальным факторами сводится к задаче оценки силы однородной связи между двумя номинальными факторами, меры силы связи для которой известны.

В качестве примера двухфакторного преобразования рассмотрим преобразование номинальной шкалы фактора У к порядковой. При этом предполагается, что второй фактор X, участвующий в связи, также измерен в порядковой шкале

Для преобразования номинальной шкалы к порядковой предложено установить на номиналах У такое отношение порядка От1и, которое будет отвечать максимуму оценки коэффициента Спирмена т,{Х,У). Для этого разработана следующая процедура: '

1. Установим на множестве номиналов Ог фактора У

некоторое отношение порядка 01

2. С учетом О; рассчитаем оценку коэффициента Спирмена

ь =т,(У(01),Х) = т1(01)^ где у(0]) - значения У в порядковой шкале, полученные с использованием установленного отношения порядка О]

3. Последовательно перебирая все т! возможных отношений порядка 0„ будем вычислять значения коэффициента Спирмена

4. Среди всех возможных отношений порядка О, выберем такое, отношение Отах, которое максимизирует значение коэффициента Спирмена

5. В качестве искомой оценки силы связи будем использовать

Рассмотрим подход к оценке силы связи между количественным и номинальным факторами без использования преобразования типов шкал. В рамках этого подхода рассматривается две задачи. В первой задаче влияющий фактор X измерен в количественной шкале, а зависимый фактор У - в номинальной шкале. При этом множество возможных значений

(номиналов) У известно: Д. ={у,.....ц/т]

Распределение фактора X представляет собой взвешенную с вероятностями появления номиналов р, сумму т условных распределений /(Х|у/,), соответствующих отдельным номиналам фактора У:

г,1 = т,(ДГ(0().У) = тДОД/ = 1.1И

г ти = г (О )

а V тах /

/(Х|У) = ]>>Л(Х|ул), (2)

ы

Подобная связь традиционно рассматривается в задачах классификации. При этом данные наблюдений {(.xJ,yJ)},j = l,N называются обучающей выборкой, и ставится задача на основании данных обучающей выборки построить правило, способное по значению количественного фактора X указать наиболее вероятное значение номинального фактора У.

В рассматриваемой задаче представляется логичным разработать меру силы связи на основе ошибки классификации. Однако это не представляется возможным, так как эта ошибка не может быть надежно оценена. Поэтому в работе предлагается метод оценки на основе меры разделимости условных распределений, соответствующих различным номиналам. Для этой цели было использовано расстояние Бхаттачария:

См-л,У

Дь^^» (3)

2 2,

4

где МрСгД/=\,т- математические ожидание и дисперсии распределений fi Из литературы известно, что это расстояние связано с оценкой ошибки классификации р^ неравенством:

Дш^Тал ехр(-Ь12), (4)

где р!ир2- вероятности появления номиналов.

В качестве меры силы связи между двумя факторами на основе расстояния Бхаттачария была предложена величина:

В12=1-ехр(-а-612), (5)

где а - настроечный параметр.

Полученный результат обобщен для случая т номиналов. Сумма ру -вероятностей совместного появления номиналов (//, и ^ > п0 всем возможным парным сочетаниям номиналов с учетом равенства единице вероятности появления хотя бы одного из номиналов равна (т-1):

£ Р» = (А + А)+(й +Й)+-(Л-1 + А) = (и -1)1 Д =т-1 (6)

Тогда обобщенная мера расстояния В может быть задана как взвешенная сумма значений В у для всех возможных сочетаний номиналов:

5 = -Ч2>А (7)

Величину В, которую далее будем называть мерой на основе расстояния Бхаттачария (МРБ), предлагается использовать в качестве меры силы направленной связи между влияющим количественным и зависимым номинальным факторами. Она отвечает требованиям, предъявляемым к мере силы связи. Ее значения находятся в диапазоне от 0 до 1. При этом значение 1 соответствует ситуации, в которой все В у = 1 и по значению

количественного фактора можно точно определить значение номинального, а значение 0 получается при полном совпадении условных распределений /¡.

Во второй задаче влияющий фактор X измерен в номинальной шкале, а зависимый фактор Y - в количественной. При этом множество возможных значений (номиналов) X известно: Dx = {4„...,Çm}

Такие связи изучаются в однофакторном дисперсионном анализе. В соответствии с моделью дисперсионного анализа, в общей вариации

m m

количественного фактора -у„)г выделяется объясненная

m

составляющая SS„ = ]TiV,(»-у..)2, где у у - j- ое наблюдение фактора Y,

которому соответствует номинал фактора X, a Nj - количество наблюдений Y, которым соответствует номинал фактора X. Знак «*» обозначает усреднение по индексу.

В данном случае в качестве меры силы связи предлагается использовать величину 4 квадрат которой можно вычислить по формуле

Так как значение 55# принадлежит интервалу [0,55], величина с1 будет лежать в интервале [0;1]. В случае если по значению номинального фактора X можно достоверно предсказать значение количественного фактора У, 55# = 55 и 4 = 1. В случае если значения X и У статистически независимы и по значению X нельзя указать значение У, 55я =0 и й = 0. В остальных случаях с увеличением объясненной вариации 55#, значение с1 также увеличивается. Величину й? в дальнейшем будем называть Мерой на основе Соотношения Дисперсий (МСД).

Третья глава посвящена исследованию предложенных в работе методов оценки силы связи между количественным и номинальным факторами, проводимому на основе разработанных имитационных моделей.

В исследовании изучались свойства следующих методов оценки силы связи между количественным и номинальным факторами, предложенных в предыдущей главе:

1. сведение задачи к анализу однородной связи с преобразованием типов шкал факторов к порядковой шкале;

2. сведение задачи к анализу однородной связи с преобразованием типов шкал факторов к номинальной шкале;

3. использование меры на основе соотношения дисперсий (МСД);

4. использование меры на основе расстояния Бхаттачария (МРБ).

Целью этого исследования была выработка рекомендаций о том, в каких

случаях применение какого из методов будет наиболее предпочтительны.

При проведении имитационных экспериментов генерировались серии выборок большого объема, соответствующие различным наперед заданным значениям силы связи. По этим сериям рассчитывались усредненные оценки

силы связи с помощью различных мер. После чего полученные значения сравнивались между собой и с силой, заданной при генерации данных.

В исследовании использовались два различных типа имитационных моделей. Первый модель, модель латентного количественного фактора, соответствовала предположению о том, что значения номинальных факторов определяются латентными количественными. Сначала генерировались данные коррелированных с заданным коэффициентом количественных факторов, после чего шкала одного из факторов преобразовывалась к номинальной с использованием рассмотренного в главе 2 преобразования.

Второй тип имитационных моделей, модель МРБ, основывался на предположении о несводимости номинальных факторов к количественным. Предполагалось, что распределение количественного фактора представляет собой взвешенную с вероятностями появления номиналов р„г = \,т сумму т

пгмзиглу гкэпгтг\^тт**тп»ит.гт* /" / ! щ \ ^ЛГУПаА'ГРТтПЛТТТТТУ ЛТТТАТТХ.Ш.Т** ТТ/ЛАТТПТП паи*

---~ . Г--■---^ ---------------/ ; у | у- I I , - — ----- . .. . . -----...........

фактора У (см. формулу (2)).

На рис. 2 приведены результаты эксперимента на данных, полученных с помощью имитационной модели латентного количественного фактора. В • этом эксперименте сравнивались оценки коэффициента корреляции г, МРБ при а =13 -В13, МСД -с1 и оценка коэффициента Спирмена Те, полученная после преобразования типов шкал факторов к порядковым. По оси абсцисс расположено задаваемое значение коэффициента корреляции г, а по оси ординат - получаемые оценки.

На рис. 3 приведены результаты эксперимента на данных, полученных с помощью имитационной модели МРБ. В этом эксперименте сравнивались оценки МРБ - В, МРБ при а =2 - В2 и оценки, полученные после преобразования типов шкал факторов к номинальным - коэффициента сопряженности Пирсона - С, меры Чупрова - Т, направленной информационной меры -Ис1п ненаправленной информационной меры Я.

Рисунок 2. Сравнение оценок МРБ, МСД и коэффициента Спирмена для имитационной модели латентного количественного

фактора

Рисунок 3. Сравнение оценок МРБ и мер номинальных факторов для имитационной модели МРБ

Результаты исследования, проведенного на данных, полученных с помощью различных имитационных моделей, позволяют рекомендовать меру на основе расстояния Бхаттачария для оценивания силы связи между влияющим количественным и зависимым номинальным факторами ввиду следующих ее преимуществ по сравнению с другими рассмотренными мерами:

1. возможность за счет настроечного параметра получить результаты, соответствующие подходу с преобразование типов шкал факторов, не прибегая непосредственно к данному преобразованию;

2. отсутствие преобразования типов шкал, неизбежно искажающего информацию, содержащуюся в данных наблюдений;

3. сравнительно малый объем вычислений;

4. возможность физической интерпретации, основанной на понятии расстояния между номиналами.

Стоит также отметить, что для меры на основе соотношения дисперсий также характерны отсутствие преобразования типов шкал, сравнительно малый объем вычислений и возможность физической интерпретации. Кроме того, получаемые с ее помощью результаты соответствуют оценкам коэффициента Спирмена с преобразованием типов шкал факторов к порядковой шкале. В связи с этим ее можно рекомендовать для оценивания силы связи между влияющим номинальным и зависимым количественным факторами.

Для различных значений объема выборки N построены зависимости среднего значения получаемой оценки МРБ от заданного значения силы связи В* и 95% доверительные интервалы для этих оценок (рис. 4). С увеличением N среднее значение оценки практически точно совпадает с В*, а ширина выборочного интервала сужается.

N=120

Рисунок 4. Статистические свойства МРБ

За счет задания настроечного параметра а получаемые с помощью МРБ результаты могут быть приближены к другой наперед заданной мере.

Подобные эксперименты были проведены для нахождения а(т), позволяющие минимизировать отклонение меры МРБ от коэффициента корреляции г и коэффициента сопряженности Пирсона С (рис. 5).

ГП

Рисунок 5. Определение оптимальных значений настроечного параметра для меры МРБ

Для сравнения вычислительных свойств оценок силы связи с использованием меры МРБ и с использованием метода с преобразованием типов шкал факторов к порядковым с последующим вычислением коэффициента Спирмена был поставлен имитационный эксперимент, в котором рассчитывалось среднее время, необходимое для вычисления этих оценок в зависимости от количества номиналов т. Время, необходимое для преобразования типов шкал факторов к порядковьм и вычисления коэффициента Спирмена растет экспоненциально и уже при 6 номиналах оказывается на четыре порядка больше, чем время вычисления оценки МРБ, которое растет линейно.

Основываясь на результатах проведенных исследований, была составлена таблица (таблица 1), отражающая рекомендации по выбору метода оценивания силы парной межфакторной связи в зависимости от используемых типов шкал факторов.

-Завис. Влиякшцш"— Количественный Порядковый Номинальный

Количественный Корреляционные меры Преобразование количественной шкалы к порядковой и использование ранговых корреляций Мера на основе расстояния Бхатгачария (МРБ)

Порядковый Преобразование количественной шкалы к порядковой и использование ранговых корреляций Ранговые корреляции - Преобразованием порядковой шкалы к номинальной и использование Х2или информационных мер - Преобразованием номинальной шкалы к порядковой и использование ранговых корреляций

Номинальный Мера на основе соотношения дисперсий (МСД) - Преобразованием порядковой шкалы к номинальной и использование Х2или информационных мер - Преобразованием номинальной шкалы к порядковой и использование ранговых корреляций Х^ меры, информационные меры

Таблица 1. Рекомендации по выбору метода оценки силы парной межфакторной связи для различных типов используемых шкал

В четвертой главе приводится описание разработанного программного средства «Анализ связей» (ПС).

ПС, разработанное в среде МАТЬАВ 7.0, предназначено для поддержки процесса вычисления оценок силы связей по данным наблюдений, а также генерации имитационных данных, соответствующих заданным параметрам связи. Поддерживаемые в ПС типы связей и вычисляемые для них меры приведены в таблице 2. В таблице использованы следующие сокращения: К -количественный, П - порядковый, Н - номинальный.

Мера \ Тип связи К-К К-Н Н-Н П-П

Коэффициент корреляции Пирсона + +

Коэффициент ранговой корреляции Спирмена + +

МРБ + + + +

мед + + + +

Коэффициент сопряженности Пирсона + + + +

Коэффициент Чупрова + + + +

Коэффициент Крамера + + + +

Ненаправленная информационная мера + + + +

Направленная информационная мера + + + +

Таблица 2. Вычисляемые меры для различных типов связей

Разработанное ПС состоит из двух частей - библиотеки программных функций и приложения с графическим интерфейсом. Использование библиотеки функций позволяет автоматизировать проведение исследований, что дало возможность провести с ее помощью описываемые в четвертой главе диссертации имитационные эксперименты. Приложение с графическим интерфейсом не требует от пользователя технических знаний по работе со средой MATLAB. Оно было использовано при проведении лабораторных работ как программное средство учебного назначения.

ПС "Анализ связей" поддерживает импорт данных наблюдений из электронных таблиц в формате Microsoft Excel 2003 (*.xls). Данные для импорта должны быть представлены в виде одной таблицы, находящейся на первом листе книги (файла) Excel.

При импорте происходит автоматическое распознавание типов шкал факторов. При необходимости пользователь может изменить эти типы в соответствии со своими представлениями.

Наряду с импортом данных наблюдений из файла предусмотрена возможность их генерации с заданием типа связи, силы связи и объема данных наблюдений. При этом могут быть использованы как имитационная модель МРБ, так и имитационная модель латентного количественного фактора. Для порядковых и номинальных факторов также задается количество возможных значений (номиналов или порядков).

Так как сгенерированные имитационные данные могут предоставлять интерес для последующего использования, реализована возможность их сохранения в файл электронной таблицы Microsoft Excel 2003.

Для расчета оценок силы связи с использованием преобразования типов шкал поддерживаются следующие варианты преобразования:

• Из количественной в порядковую

• Из количественной в номинальную

• Из номинальной в порядковую

В пятой главе приводятся результаты применения разработанных методов и программных средств для обработки данных об организации научно-исследовательских работ (НИР) в России, а также приведен пример

использования разработанного программного ПС для проведения лабораторных работ.

Значительная часть факторов, характеризующих выполняемые НИР, представлена в порядковой или номинальной шкалах. До последнего времени при анализе таких данных ограничивались формированием аналитических отчетов, представляющих результаты НИР в виде сводных таблиц, обобщающих данные в заданных информационных разрезах. Анализ сил связи между факторами может предоставить экспертам, работающим с этими данными, новую информацию, полезную для выработки рекомендаций по принимаемым решениям. Такой анализ позволит определить влияние одних факторов на другие и, в конечном счете, выявить возможности воздействия на те или другие факторы для получения требуемых результатов научной и учебной деятельности.

Результативность научно-исследовательской деятельности я ВУЗах, являющаяся объектом принятия решений в рамках данной задачи, характеризуется рядом факторов, отражающих полезные результаты в научной и учебной деятельности, достигнутые в итоге выполнения НИР. При этом используются как количественные, как, например, "количество статей", "количество диссертаций", "количество патентов", так и нечисловые факторы, например, "готовность результатов к практическому использованию", "создание учебного оборудования" и т.д.

Для целей анализа используется информация из базы данных о НИР. Каждая запись содержит описание одной научно-исследовательской работы, выполненной в одном из ВУЗов.

Решение задачи состоит из следующих операций:

1. На начальном этапе высказывается экспертное предположение о наличии связи между некоторыми двумя факторами. Это предположение формулируется в содержательных терминах предметной области.

2. Из имеющихся данных отбираются наблюдения, относящиеся к рассматриваемой паре факторов.

3. Определяются шкалы представления факторов и с их учетом выбирается метод оценки силы связи.

4. С использованием имеющихся данных рассчитываются оценки силы межфаьсгорных связей. Если имеется возможность, рассчитывается несколько оценок силы связи, как с использованием преобразования типов шкал, так и без него.

5. Делается вывод о приемлемости выдвинутого предположения.

Было проверено предположение о том, что НИР с большей степенью готовности к практическому использованию чаще представлены на выставках. Для этого рассмотрена связь между количественным фактором «Количество выставочных экспонатов по НИР» и номинальным фактором «Готовность результатов к практическому использованию». Значения фактора «Готовность» могут быть следующими: «нет информации»,

«выполнен прототип прибора, установки,...», «выполненэкспериментальный образец», «выполнен тиражируемый продукт», «не готовы».

Оценка МРБ составила 0.16, МСД - 0.12, остальные оценки неприменимы, либо близки к нулю.

Полученные результаты указывают на слабую взаимосвязь между факторами «Количество выставочных экспонатов по НИР» и «Готовность результатов к практическому использованию». Таким образом, исходное предположение о том, что НИР с большей степенью готовности чаще представлены на выставках, не подтверждается представленными данными.

Также в работе рассмотрен пример применения разработанного ПС в ходе лабораторных работ.

В приложении представлены результаты дополнительных имитационных экспериментов, не вошедшие в основную часть диссертации.

В диссертационной работе были получены следующие существенные

результаты:

1. Предложена мера силы парной направленной связи между влияющим количественным и зависимым номинальным факторами, основанная на расстоянии Бхаттачария (МРБ). Данная мера позволяет оценивать силу связи указанного вида без преобразования типов шкал факторов.

2. Предложена мера силы парной направленной связи между влияющим номинальным и зависимым количественным факторами, базирующаяся на соотношении компонентов дисперсии количественного фактора, используемых в модели дисперсионного анализа (МСД). Данная мера также позволяет оценивать силу связи без преобразования типов шкал.

3. Разработаны детальные процедуры преобразования типов шкал факторов для сведения задачи оценивания силы парной межфакторной связи между количественным и номинальным факторами к задачам оценивания силы однородных связей, для которых меры силы связей известны.

4. Проведен сравнительный анализ методов оценивания силы парной межфакторной связи между количественным и номинальным факторами как путем преобразования типов шкал факторов для сведения задачи к оцениванию однородных связей, так и с помощью предложенных мер МРБ и МСД, на основе которого были определены условия целесообразного использования мер МРБ и МСД.

5. Выработаны рекомендации по выбору метода получения оценок силы связи в зависимости от типов шкал входящих в нее факторов.

6. Для целей автоматизации процесса вычисления мер силы парных межфакторных связей была разработаны библиотека программ для среды МАТЬАВ, на основе которой было создано программное средство учебного назначения, предназначенное для использования при проведении лабораторных работ по дисциплине «Системы поддержки принятия решений».

20 \ /

\

7. Разработанные методы и программные средства были использованы для обработки данных об организации научно-исследовательских работ в вузах России.

8. Программное средство учебного назначения было использовано при проведении лабораторных работ в МЭИ.

Основные положения диссертации достаточно полно представлены в следующих публикациях:

1. Лобанов В.Ю., Фомин Г.А.; Метод оценки связи между количественным и номинальным факторами в когнитивной модели объекта управления; М.; МЭИ; «Вестник МЭИ»; 2011; №1; 69-73с

2. Лобанов В.Ю., Фомин Г.А., Фомина Е.С.; Методы анализа связей между разнородными факторами в объекте управления; Труды XVII международной научно-технической конференции «Информационные средства и технологии»; М.; МЭИ, 2009; т. 3; 205-21 i с.

3. Лобанов В.Ю., Фомин Г.А., Фомина Е.С.; Сравнительное исследование мер силы парной межфакторной связи; М.; «Вестник МЭИ»; 2010; №3; 117-121с

4. Лобанов В.Ю., Фомин Г.А.; Метод оценки связи между количественным и номинальным факторами; Труды XVIII международной научно-технической конференции «Информационные средства и технологии»; М.; МЭИ; 2010; ТЗ.; с.297-305

5. Лобанов В.Ю.; Мера связи между числовыми и номинальными факторами на основе расстояния Бхаттачария; Радиоэлектроника, электротехника и энергетика"; Шестнадцатая международная научно-техническая конференция студентов и аспирантов. Тезисы докладов; М.; МЭИ; Том 1.; 2010; 431-432с.

6. Лобанов В.Ю.; Методы анализа связей, содержащих нечисловые факторы, при построении когнитивных моделей; Современные технологии в задачах управления, автоматики и обработки информации; Труды XVII научно-технического семинара; Алушта; 2008; 18с.

7. Лобанов В.Ю.; Оценка связей между числовыми и номинальными признаками при когнитивном моделировании объекта управления; Современные технологии в задачах управления, автоматики и обработки информации; Труды XVIII научно-технического семинара, Алушта; 2009; 187с.

Подписано в печать ¿¿Ы/ГЗак. Щ Тир ¡СО Пл i íh Полиграфический центр МЭИ(ТУ) ■ J

Красноказарменная ул.,д.13

Оглавление автор диссертации — кандидата технических наук Лобанов, Валерий Юрьевич

Введение.

1. Анализ межфакторных связей.

1.1. Основные термины и определения.

1.2. Задача исследования связей с нечисловыми факторами.

1.3. Методы анализа межфакторных связей.

1.4. Современные средства анализа зависимостей между факторами.

1.5. Выводы.

2. Методы оценивания связей между количественным и номинальным факторами.

2.1. Связь между влияющим количественным и зависимым номинальным факторами.

2.2. Связь между влияющим номинальным и зависимым количественным фактором.

2.3. Методы оценивания связей с преобразованием типов шкал.

2.4. Мера на основе расстояния Бхаттачария.

2.5. Мера на основе соотношения дисперсий.

2.6. Выводы.

3. Исследование методов оценивания связей между количественным и номинальным факторами на имитационных данных.

3.1. Задачи исследования.

3.2.Имитационная модель.

3.3. Сравнение различных методов оценки связи между количественным и номинальным факторами.

3.4. Статистические свойства.

3.5. Определение значения настроечного параметра а для оценки силы связи с использованием МРБ.

3.6. Сравнение объема вычислений при оценивании силы связи с использованием МРБ и коэффициента Спирмена.

3.7. Рекомендации по выбору метода оценки силы парной межфакторной связи для различных типов используемых шкал.

3.8. Выводы.

4. Описание программного обеспечения для решения задач анализа межфакторных связей.

4.1. Вводная часть.

4.2. Функциональное назначение.

4.3. Описание логической структуры.

4.4. Состав и функции.

4.5. Условия применения.

4.6. Выводы.

Анализ данных с использованием разработанных методов и программного обеспечения.

5.1. Обработка данных об организации научно-исследовательских работ в вузах России.

5.2. Применение разработанного ПО в лабораторном практикуме по дисциплине «Системы поддержки принятия решений».

5.3. Выводы.

Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Лобанов, Валерий Юрьевич

Актуальность темы

Одной из наиболее актуальных областей применения современных информационных технологий при решении задач управления сложными объектами как технической, так и нетехнической природы стало в последнее время создание систем поддержки принятия решений (СППР). Основу СППР составляют средства сбора, обработки и анализа данных об объектах управления. Развитость средств анализа данных характеризует общий уровень реализации СППР, поэтому в последние годы в мире значительные усилия прилагаются, для создания новых методов, средств и технологий анализа данных. Это направление работ получило название «добыча данных» (Data Mining). В результате больших усилий, потраченных на создание информационных систем, во многих системах управления накопились огромные массивы данных, отражающие их деятельность за предыдущие периоды времени функционирования. Есть основания полагать, что в этих массивах присутствует очень важная информация, использование которой может позволить существенно повысить эффективность деятельности, обеспечить её более высокое качество. Вопрос состоит в том, как выделить эту полезную информацию. СППР, как правило, применяется при решении задач управления сложными объектами. Под сложностью понимаются:

• многоаспектность происходящих в объекте процессов и их взаимосвязанность; в силу этого невозможно вычленение и детальное исследование отдельных явлений - все происходящие в них явления должны рассматриваться в совокупности;

• отсутствие достаточной количественной информации об объекте, что вынуждает переходить к его качественному анализу.

В качественных моделях объект описывается в терминах некоторого набора его характеристик — факторов, между которыми устанавливаются связи. При анализе связей в сложных объектах можно выделить три последовательных этапа. Сначала выясняется сам факт наличия связи между факторами, в 5 терминах которых описывается объект. Если установлено наличие связи, выясняют, какова сила этой связи. Если необходима дальнейшая детализация описания связи, переходят к разработке ее математической модели. Построение полноценной математической модели связи зачастую является крайне трудоемким процессом, поэтому второй шаг, на котором происходит анализ связей на качественном, уровне и которому посвящено данное исследование, является крайне важным с точки зрения эффективного распределения ресурсов исследователя — математическая модель будет строиться только в тех случаях, когда это действительно целесообразно. Выделение факторов и выдвижение гипотез-о наличии связей между ними осуществляется экспертом, строящим модель. Одной из основных характеристик связи между факторами является её сила. Она может быть оценена двумя методами - экспертным (на основании знаний эксперта) и формальным (на основании анализа данных наблюдений факторов). До сих пор при качественном моделировании в основном применялись экспертные методы, что во многом обусловлено широтой области их применения и относительной простотой. Однако в настоящее время в данной задаче становится крайне интересен и формальный метод — ввиду объективности результатов, которые могут быть получены на основе анализа накопленных данных наблюдений. Оценка силы связи между количественными факторами формальным методом может быть осуществлена с использованием получившего особенно широкое распространение в технических дисциплинах анализа корреляций. В литературе, посвященной анализу данных, рассматриваются меры, позволяющие оценивать силу связи между факторами, измеренными в нечисловых шкалах: порядковой и номинальной.

Связи, в которых типы шкал факторов совпадают, будут называться однородными. В практической работе часто требуется анализировать неоднородные связи, то есть связи, в которых типы шкал факторов не совпадают. Эти связи, естественным образом, содержат нечисловые факторы. Анализ литературы не позволяет выявить каких-либо мер или четких рекомендаций по 6 оценке силы неоднородных связей, поэтому становится актуальной задача их разработки и исследования.

Среди всех возможных типов связей с участием нечисловых факторов особый интерес представляют связи между количественным и номинальным факторами, что обусловлено их широкой распространенностью. Цель исследования

Разработка и исследование методов оценивания силы связей между количественным и номинальным факторами и создание средств автоматизации процесса вычисления оценок силы этих связей с использованием данных наблюдений, полученных на объекте управления. Задачи исследования

Для достижения указанной цели исследования были поставлены и решены следующие задачи:

• Нахождение методов преобразования типов шкал факторов для приведения задачи оценивания силы неоднородных связей к задаче оценивания силы однородных связей.

• Разработка мер силы связи между количественным и номинальным факторами для расчета оценок этой силы без использования преобразования типов шкал.

• Систематизация методов оценки силы однородных и неоднородных связей и разработка методических рекомендаций по выбору мер для оценивания силы связей, содержащих нечисловые факторы.

• Разработка программного средства поддержки анализа межфакторных связей и исследования их статистических свойств.

Методы исследования

В работе применяются статистические методы. Оценивание силы связи проводится на основе анализа данных наблюдений факторов, сделанных на объекте. Свойства мер исследуются на основе данных имитационной модели.

Научная новизна

• Предложены не рассматривавшиеся ранее в литературе методы приведения задачи оценивания силы связи между факторами, измеренными в количественной и номинальной шкалах, к задачам оценивания однородных • связей за счет преобразования типов шкал факторов. Эти методы позволяют использовать для неоднородных связей известные из литературы меры силы однородных связей.

• Разработана новая мера силы направленной связи между влияющим количественным и зависимым номинальным факторами на основе расстояния Бхаттачария, дающая возможность вычислять оценки без использования преобразования типов шкал факторов .

• Разработана новая мера силы направленной связи между влияющим номинальным и зависимым количественным факторами на основе соотношения компонентов дисперсии количественного фактора, также дающая возможность вычислять оценки силы связи без использования преобразования типов шкал.

• С использованием имитационного моделирования обоснованы условия применения различных мер силы связи.

Практическая ценность работы

• Разработаны методические рекомендации по выбору метода оценивания силы связи в зависимости от типов входящих в нее факторов, а также от имеющихся предположений о ее свойствах.

• Для автоматизации процесса расчета оценок сил межфакторных связей разработана библиотека программ для среды МАТЪАВ, позволяющая оценивать силы однородных и неоднородных связей.

• Получены оценки сил ряда связей между факторами, описывающими задачу организации научно-исследовательских работ в России.

• Создано программное средство учебного назначения, реализующее функции расчета оценок силы однородных и неоднородных межфакторных связей, предназначенное для использования при проведении лабораторных работ по дисциплине «Системы поддержки принятия решений». Апробация работы

• Результаты работы обсуждались на XVIII научно-техническом семинаре «Современные технологии в задачах управления, автоматики и обработки информации» в г. Алушта в 2009г., на XVIII международной научно-технической конференции «Информационные средства и технологии» в г. Москва в 20 Юг, а также на XVI международной научно-технической конференции студентов и аспирантов «Радиоэлектроника, электротехника и энергетика», в г. Москва в 2010г.

• Получено свидетельство о регистрации разработанного программного средства учебного назначения в Объединенном Фонде Электронных Ресурсов «Наука и Образование» (ОФЭРНиО) Института Научной Информации и Мониторинга (ИНИМ)

Публикации

По материалам диссертации было опубликовано 7 работ, в том числе - 2 работы в журналах из перечня ВАК. Структура и объем работы

Диссертационная работа состоит из введения, 5 глав, заключения, списка библиографических источников из 168 наименований. Общий объем работы составляет 120 страниц.

Заключение диссертация на тему "Методы оценки силы связей с участием нечисловых факторов, характеризующих состояние объекта принятия решений"

5.3. Выводы

В данной главе было рассмотрено применение разработанных методов и программного обеспечения в процессе анализа связей по реальным данным об организации научно-исследовательских работ в РФ. При этом были сделаны выводы о взаимосвязях факторов.

Также рассмотрен пример из лабораторной работы по курсу «Системы поддержки принятия решений», в котором студентам предлагалось на основе данных наблюдений проверить предположение о наличии взаимосвязи между факторами с применением разработанного программного обеспечения. Таким образом, было показано, что разработанные методы и программное обеспечение могут использоваться как в практических, так и в учебных целях.

Заключение

В диссертационной работе были получены следующие существенные результаты:

1. Предложена мера силы парной направленной связи между влияющим количественным и зависимым номинальным факторами, основанная на расстоянии Бхаттачария (МРБ). Данная мера позволяет оценивать силу связи указанного типа без преобразования типов шкал факторов.

2. Предложена мера силы парной направленной связи между влияющим номинальным и зависимым количественным факторами, базирующаяся на соотношении компонентов дисперсии количественного фактора, используемых в модели дисперсионного анализа (МСД). Данная мера также позволяет оценивать силу связи без преобразования типа шкал.

3. Разработаны детальные процедуры сведения задачи оценивания силы парной межфакторной связи между количественным и номинальным факторами к задачам оценивания силы однородных связей, для которых меры силы связей известны.

4. Проведен сравнительный анализ методов оценивания силы парной межфакторной связи между количественным и номинальным факторами путем сведения задачи к оцениванию однородных связей и с помощью предложенных мер МРБ и МСД, на основе которого были определены условия целесообразного использования мер МРБ и МСД.

5. Выработаны рекомендации по выбору метода оценивания силы связи в зависимости от типа входящих в нее факторов.

6. Для целей автоматизации процесса вычисления мер силы парных межфакторных связей была разработаны библиотека программ для среды МАТЪАВ, на основе которой было создано программное средство учебного назначения (ПСУН), предназначенное для использования при проведении лабораторных работ по дисциплине «Системы поддержки принятия решений».

7. Разработанные методы и программные средства были использованы для обработки данных об организации научно-исследовательских работ в вузах России

8. Программное средство учебного назначения было использовано при проведении лабораторной работы в МЭИ

Библиография Лобанов, Валерий Юрьевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Agresti A; Categorical data analysis; New York; John Wiley and sons; 2002

2. Agresti A; Analysis of Ordinal Categorical Data; New York; John Wiley and sons; 2010

3. Agresti A; A Survey of Exact Inference for Contingency Tables; Statistical Science; Vol. 7; No. 1; 1992; p. 131-153

4. Bhattacharyya, A.; On a measure of divergence between two statistical populations defined by their probability distributions; Bulletin of the Calcutta Mathematical Society; 1943; Vol. 35; p. 99-109

5. Blalock H.M.; Conceptualization and measurement in the social sciences; Beverly hills; Sage Publications; 1982.

6. BMDP Biomedical Computer Programs; Ed. W. J. Dixon.; Univ. of California Press; 1979.

7. Clausen S.E.; Applied correspondence analysis. An introduction. Sage university paper series on Quantitative applications in the social sciences; Newbury park; Sage Publications; 1998; No. 07, p. 07-121

8. Computer-aided qualitative data analysis: theory, methods and practice; Ed. Kelle U., Prein G., Bird K.; London; Sage Publications; 1995.

9. Cramer, H.; Mathematical Methods of Statistics; Princeton; Princeton University Press; 1999

10. Creswell J.W.; Research design: qualitative and quantitative approaches; Thousand Oaks, Calif.; Sage Publications; 1994.

11. Fisher R.A.; On the interpretation of chi-square from contingency tables and the calculation; Journal of the Royal Statistical Society; 1922; No. 85; p. 87-94

12. Fisher R.A.; The conditions under which chi square measures the discrepancy between observation and hypothesis; Journal of the Royal Statistical Society; 1924; No. 87; p. 442-450

13. Fisher R.A.; Statistical Methods for Research Workers; 1970; Edinburgh; Oliver&Boyd; 1970; 14th ed.

14. Gokhale, D. V., and S. Kullback. 1978. The Information in Contingency Tables. New York: Marcel Dekker.

15. Goodman, L. A.; The analysis of cross-classified data: Independence, qua-si-independence and interactions in contingency tables with or without missing entries. J. Amer. Statist. Assoc; 1968; Vol. 63; p.1091-1131.

16. Goodman, L. A.; How to ransack social mobility tables and other kinds of cross-classification tables. Amer. J. Sociol; 1969; Vol 75; p. 1-40.

17. Goodman, L. A.; Simple models for the analysis of association in cross-classifications having ordered categories. J. Amer. Statist. Assoc; 1979; Vol. 74; p. 537-552.

18. Goodman, L. A., and W. H. Kruskal. 1979. Measures of Association for Cross Classifications. New York: Springer-Verlag ¿contains articles appearing in J. Amer. Statist. Assoc. in 1954,1959, 1963, 1972.

19. Guttman L.; The quantification of a class of attributes: a theory and method of scale construction. In: The Prediction of Personal Adjustment. -Bulletin N 48 N.Y.: Social Science Research Council, 1941, p. 319-348

20. Hirshfeld H.O.; A connection between correlation and contingency; Proceedings of Cambridge Philosophical Society; 1935; 31, p. 520-524

21. IBM; Иллюстрированный самоучитель no SPSS; http://www.spssbase.com/

22. Kendall, M.; A New Measure of Rank Correlation; 1938; Biometrika; Vol. 30; p.81-89

23. Kendall, M.; Rank Correlation Methods; London; Charles Griffin & Company Limited ; 1948

24. Koch, G. G., and V. P. Bhapkar. Chi-square tests, in Encyclopedia of Statistical Sciences; New York: Wiley ; 1982; Vol. 1; p. 442-457

25. Koch, G. G., I. A. Amara, G. W. Davis, and D. B. Gillings. A review of some statistical methods for covariance analysis of categorical data. Biometrics; 1982; Vol. 38; p. 563-595.

26. Koch, G. G., P. B. Imrey, J. M. Singer, S. S. Atkinson, and M. E. Stokes. 1985. Lecture Notes for Analysis of Categorical Data. Montreal: Les Presses de L'Universit'e Montr'eal.

27. Kruskal, W. H. 1958. Ordinal measures of association. J. Amer. Statist. Assoc. 53:814-861.

28. Kuha, J., C. Skinner, and J. Palmgren. 1998. Misclassification error. Pp. 2615-2621 in Encyclopedia of Biostatistics. Chichester, UK: Wiley.

29. Kupper, L. L., and J. K. Haseman. 1978. The use of a correlated binomial model for the analysis of certain toxicological experiments. Biometrics 34: 69-76.

30. Lauritzen, S. L., and N. Wermuth. 1989. Graphical models for associations between variables, some of which are qualitative and some quantitative. Ann. Statist. 17: 31-57.

31. Leeuw J.; Canonical analysis of Categorical Data; The Netherlands Psychological Institute, Univ. of Leiden; 1973; 120 p.

32. Lehmann, E. L.; Some concepts of dependence. Ann. Math. Statist; 1966; Vol. 37; p. 1137-1153.

33. Lehmann, E. L.; Testing Statistical Hypotheses, 2nd ed.; New York: Wiley; 1986

34. Lewis, T., I. W. Saunders, and M. Westcott;. The moments of the Pearson chi-squared statistic and the minimum expected value in two-way tables. Biometrika; 1984;Vol. 71; p. 515-522.

35. Liebetrau A.M. Measures of association. Sage university paper series on Quantitative applications in the social sciences, 07-032. Newbury park, CA: Sage, 1989

36. Little, R. J. A., and M.-M. Wu. 1991. Models for contingency tables with known margins when target and sampled populations differ. J. Amer. Statist. Assoc. 86: 87-95. .

37. Lloyd, C. J. 1999. Statistical Analysis of Categorical Data. New York: Wiley.

38. Mahalanobis, P C ; On the generalised distance in statistics; Proceedings of the National Institute of Sciences of India; 1936; Vol. 2; p. 49-55

39. Magidson J. Qualitative Variance, Entropy and Correlation Ratios for Nominal Dependent Variables; Social Sci. Research; 1982№ Vol. 77; p. 177-194.

40. Maung K.; Measurement of association in continency table with special reference to the pigmentation of hair and eye colours of Scottish school children. Ann. Of Eugenics; 1941; vol 11, p. 189-223

41. Mehta, C. R.; The exact analysis of contingency tables in medical research. Statist. Methods Medic. Res.; 1986; Vol. 3; p. 135-156.

42. Microsoft Corporation; About statistical analysis tools; 2011; http://office.microsoft.com/en-us/excel-help/about-statistical-analysis-tools-HP005203873.aspx?CTT=l

43. Miles M.D., Huberman A.M. Qualitative data analysis. An expanded Sourcebook. Thousand oaks, London, New Delhi: SAGE Publications, 1994

44. Mirkin, B.; Eleven ways to look at the chi-squared coefficient for contingency tables. Amer.Statist.; 2001; Vol. 55; p. 111-120.

45. Morgan, B. J.; . Analysis of Quantal Response Data;. London; Chapman & Hall.; 1992

46. Mosteller, F.; Some statistical problems in measuring the subjective response to drugs. Biometrics; 1952; Vol. 8; p. 220-226.

47. Mosteller, F.; Association and estimation in contingency tables; J. Amer. Statist. Assoc; 1968; Vol. 63; p. 1-28.

48. Myers, Jerome L.; Arnold D. Well. Research Design and Statistical Analysis (second edition ed.); Mahwah, NewJersey; Lawrence Erlbaum; 2003110

49. Nair, V. N. 1987. Chi-squared-type tests for ordered alternatives in contingency tables. J. Amer. Statist. Assoc. 82: 283-291.

50. Nishisato Sh. Analysis of categorical data: dual scaling and its applications; Toronto-Bufalo-London; Univ. of Toronto press; 1980; 285 p.

51. Parr, W. C., and H. D. Tolley. 1982. Jackknifing in categorical data analysis. Austral. J. Statist.24: 67-79.

52. Pearson, K., and D. Heron. 1913. On theories of association. Biometrika 9: 159-315.

53. Pfaffenberger B. Microcomputer applications in qualitative research. -Qualitative research methods. V. 14, 1988.

54. Plackett, R. L. 1983. Karl Pearson and the chi-squared test. Internat. Statist. Rev. 51: 59-72.

55. Power D. J. Decision Support Systems: Concepts and Resources for Managers: Quorum Books (Greenwood Publishing), 2002.- 272 p.

56. Press, S. J., and S. Wilson. 1978. Choosing between logistic regression and discriminant analysis. J. Amer. Statist. Assoc. 73: 699-705.

57. Rao, J. N. K., and D. R. Thomas. 1988. The analysis of cross-classified categorical data from complex sample surveys. Sociol. Methodol. 18: 213270.

58. Rayner, J. C. W., and D. J. Best. 2001. A Contingency Table Approach to Nonparametric Testing.London: Chapman & Hall.

59. Richards L., Richards T. The transformation of qualitative method: computational paradigms and research processes. Using computers in qualitative research. L.: Sage, 1991.

60. Richardson M., Kuder G.F.; Making a rating scale that measures. — Personnel Journal; 1933; vol. 12, p. 36-40

61. Rudas T. Odds ratios in the analysis of contingency tables. Sage university paper series on Quantitative applications in the social sciences, 07-139. Newbury park, CA: Sage, 1998

62. Sirkin R.M. Statistics for the social science. SAGE publ.,1995111

63. Sorokin P. ; Quantophrenia. Fads and Foibles in Modern Sociology and Related Sciences. Westport, Connecticut: Greenwood Press, Publishers. 1956. pp. 102-130

64. Spearman C.; The Proof and Measurement of Association between Two Things ; The American Journal of Psychology, Vol. 15, No. 1 (Jan., 1904), pp. 72-101

65. StatSoft Inc.,; Электронный учебник Stat Soft; 2001; http://www.statsoft.ru/home/textbook/

66. Stokes, M. E., C. S. Davis, and G. G. Koch. 2000. Categorical Data Analysis Using the SAS System, 2nd ed. Cary, NC: SAS Institute.

67. Strauss A.L. Qualitative analysis for social scientists. Cambridge, 1987

68. Survey Measurement and Process Quality, ed. L. Lyberg et al. New York: Wiley.

69. Tesch R. Qualitative research. Analysis types &software tools.N.-Y.: The Falmer Press, 1995 (1990)

70. Train, K. 1986. Qualitative Choice Analysis: Theory, Econometrics, and an Application. Cambridge, MA: MIT Press.

71. Tutz, G. 1989. Compound regression models for ordered categorical data. Biometrical J. 31:259-272.

72. Tutz, G. 1991. Sequential models in categorical regression. Comput. Statist. Data Anal. 11:275-295.

73. Using computers in Qualitative research / Ed. by Fielding N.G., Lee R.M. -Sage, 1991

74. Walsh A. Statistical for the social sciences: with computer based applications. - N.Y.: Harper & Row, Publishers, 1990;

75. Weitzman E.A., Miles M.B. Computer programs for qualitative data analysis. Sage, 1995.

76. Yates, F. 1984. Tests of significance for 2x2 contingency tables. J. Roy. Statist. Soc. Ser. A 147: 426-463.

77. Yule, G. U. 1900. On the association of attributes in statistics. Philos. Trans. Roy. Soc. London Ser. A 194: 257-319.

78. Yule, G. U. 1903. Notes on the theory of association of attributes in statistics. Biometrika 2:121-134.

79. Yule, G. U. 1912. On the methods of measuring association between two attributes. J. Roy. Statist. Soc. 75: 579-642.

80. Айвазян C.A., Енюков И.С., Мешалкин Л.Д.; Прикладная статистика. Основы моделирования и первичная обработка данных. Справочное издание.; М.; Финансы и статистика; 1983.

81. Аптон Г.; Анализ таблиц сопряженности; М.: Финансы и статистика; 1982; (Upton G.J.G.; The analysis of cross-tabulated data; N.-Y; Wiley; 1978).

82. Борисовский П.Л., Миркин Б.Г., Черный Л.Б.; К анализу экспертных оценок в терминах пространства разбиений. В кн.: Распознавание образов и регрессионный анализ в экономических исследованиях; Новосибирск; изд. ИЭиОПП СО АН СССР; 1972; 86-94с.

83. Боровиков В.П; Statistica. Искусство анализа данных на компьютере. 2 издание; М.; Питер; 2004 http ://www.twirpx. com/about/faq/ downl oading/

84. Бородкин Ф.М., Миркин Б.Г.; Эмпирическое описание в социологии. В кн.: Математика и социология; Новосибирск; изд. ИЭиОПП СО АН СССР; 1972; 3-41с.

85. Бородкин Ф.М.; Статистическая оценка связей экономических показателей; М., Статистика, 1968.

86. Браверман Э.М. и др; Лингвистический подход к задаче обработки больших массивов информации; М.; Автоматика и телемеханика; 1974; №11; 73-88с.

87. Бююль А., Цефель П.; SPSS: искусство обработки информации: Анализ статистических данных и восстановление скрытых закономерностей / Пер. с нем.; Под ред. к.ф.-м.н. В.Е. Момота. 8-е изд.; СПб.; ООО «ДиаСофт ЮП», 2005

88. Вапник В.Н.; Восстановление зависимостей по эмпирическим данным; М.; Наука; 1979.

89. Гаек Я., Шидак 3.; Теория ранговых критериев (пер. с англ.); М.; Наука; 1971.

90. Дидэ Э. и др.; Методы анализа данных.; М.; Финансы и статистика; 1985.

91. Дмитриев А.Н., Журавлев Ю.И., Кренделев Ф.П.; О математических принципах классификации предметов и явлений. Дискретный анализ; Новосибирск; изд. ИМ СО АН СССР; 1966; вып. 7; 3-12с.

92. Дюк В., Самойленко A.; Data Mining: учебный курс; СПб; Питер; 2001.

93. Дюк В.А.; Обработка данных на ПК в примерах; СПб; Питер; 1997.

94. Елисеева И.И.; Статистические методы измерения связей; Д.; ЛГУ; 1982.

95. Еремеев А.П.; Экспертные модели и методы принятия решений. Учебное пособие по курсу "Теория и методы принятия решений"; М.; МЭИ; 1995.

96. Заде Л.; Понятие лингвистической переменной и его применение к принятию приближенных решений; М.; Мир; 1976.

97. Андреенков В.Г., Толстова Ю.Н.; Интерпретация и анализ данных в социологических исследованиях; М.; Наука; 1987.

98. Киселев М., Соломатин Е.; Средства добычи знаний в бизнесе и финансах; Открытые системы; №04; 1997.

99. Клигер С.А., Косолапов М.С., Толстова Ю.Н.; Шкалирование при сборе и анализе социологической информации; М.; Наука; 1978.

100. Клишина Ю.Н.; Применение анализа соответствий в обработке нечисловой информации; М.; Социология; 1991, №2; 105-13 8с.

101. Корноушенко Е.К., Максимов В.И.; Управление процессами в слабо-формализованных средах при стабилизации графовых моделей среды; М.; Труды ИПУ; вып.2; 1998.

102. Кречетов Н.; Продукты для интеллектуального анализа данных; М.; Computer Week-Москва; 1997.

103. Лазарсфельд П.Ф.; Измерение в социологии; Американская социология; М.; Прогресс; 1972.

104. Лакутин О.В., Толстова Ю.Н.; Коэффициенты связи номинальных признаков, основанные на моделях прогноза и понятии энтропии; М.; ИСРосАН; 1992.

105. Лакутин О.В., Толстова Ю.Н.; Принципы построения: оценки качества и сравнения коэффициентов связи номинальных признаков; М.; ИСАН СССР; 1990.

106. Ларичев О.И., Мошкович Е.М.; Качественные методы принятия решений; М.; Наука, Физматлит; 1996.

107. Лбов Г.С.; Методы обработки разнотипных экспериментальных данных; Новосибирск; Наука; 1981.

108. Лецкий Э., Хартман К., Шефер В.; Планирование эксперимента в исследовании технологических процессов;М.; Мир; 1977

109. Максименко B.C., Паниотто В.И.; Зачем социологу математика; Киев; Радяньска школа; 1988.

110. Максимов В.И., Корноушенко Е.К. Аналитические основы применения когнитивного подхода при решении слабоструктурированных задач; Труды ИПУ; вып.2; 1998.

111. Максимов В.И., Корноушенко Е.К.; Знание основа анализа; Банковские технологии; М.; Финанс Медиа; № 4, 1997.

112. Максимов В.И., Корноушенко Е.К., Качаев C.B. Анализ ситуации и-компенсация теневых аспектов в свободной торговле В сб. "Современные технологии управления для администраций городов и регионов"; М.; Фонд "Проблемы управления"; 1998.

113. Максимов В.И., Корноушенко Е.К., Качаев C.B., Григорян А.К.; Когнитивный подход к анализу проблемы демонополизации в транспортном комплексе; Труды ИПУ; вып.2; 1998.

114. Миркин Б.Г.; Анализ качественных признаков и структур; М.; Статистика; 1980.

115. Миркин Б.Г.; Группировки в социально-экономических исследованиях: Методы построения и анализа; М.; Финансы и статистика; 1985.

116. Миркин Б.Г.; Проблема группового выбора; М.; Наука; 1974.

117. Миркин Б.Г., Черный Л.Б.; Некоторые свойства пространства разбиений В кн «Математический анализ экономических моделей»; Новосибирск; Изд. ИЭиОПП СО АН СССР; 1972; 126-147с.

118. Миркин Б.Г., Черный Л.Б.; Об измерении близости между различными разбиениями конечного множества объектов; Автоматика и телемеханика; 1970; №5; 120-127с.

119. Миркин Б.Г.; Задачи аппроксимации в пространстве отношений и анализ нечисловых признаков; Автоматика и телемеханика; 1974; №9; 51-61с.

120. Миркин Б.Г.; Новый подход к обработке социологической информации — В кн.: Измерение и моделирование в социологии; Новосибирск; Наука; 1969; 51-61с.

121. Миркин Б.Г.; О принципах согласования отношений.; Кибернетика; 1973; №2; 74-79с.

122. Орлов А.И; Эконометрика. Учебник для вузов; М.; Экзамен; 2002 (1-е изд.), 2003 (2-е изд.), 2004 (3-е изд.).

123. Орлов А.И: совместно с Тюриным Ю.Н., Литваком Б.Г., Сатаровым Г.А., Шмерлингом Д.С.; Анализ нечисловой информации; М.; Научный Совет АН СССР по комплексной проблеме «Кибернетика»; 1981.

124. Орлов А.И.; Прикладная статистика. Учебник для вузов; М.; Экзамен»; 2006.

125. Орлов А.И.; Анализ нечисловой информации в социологических исследованиях; М.; Наука; 1985; 58-92с.

126. Орлов А.И.; Многомерный статистический анализ в социально-экономических исследованиях; М.; Наука; 1974; 388-393с.

127. Орлов А.И.; Анализ нечисловых данных в системных исследованиях. Сборник трудов; М.; ВНИИСИ; 1982; вып. 10; 4-12с.

128. Орлов А.И.; Нечисловая статистика; М.; МЗ-Пресс; 2004.

129. Орлов А.И.; Репрезентативная теория измерений и ее применения; М.; Журнал "Заводская лаборатория"; 1999; т.65; №3; 57-62с.

130. Орлов А.И.; Статистика объектов нечисловой природы (Обзор); М.; Журнал "Заводская лаборатория"; 1990; Т.56; No.3; 76-83с.

131. Потемкин В.Г.; Система MATLAB. Справочное пособие; М.; Диалог-МИФИ, 1997.

132. Потемкин В.Г.; Введение в MATLAB; М.; Диалог-МИФИ; 2000.

133. Пфанцагль И.; Теория изменений; М.; Мир; 1976; 165с.

134. Pao С.Р.; Линейные статистические методы и их применение (Пер. с англ.); М., Наука; 1968.

135. Раушенбах Г.В.; Анализ нечисловой информации в социологических исследованиях; М.; Наука; 1985; 169-203с.

136. Самарский A.A., Михайлов А.П.; Математическое моделирование. Идеи. Методы. Примеры.; М.; Физматлит; 2001; 2-е изд., испр.

137. Г.А. Фомин; Сбор, обработка и анализ данных в системах поддержки принятия решений. Учебное пособие; М.; Издательство МЭИ; 2009.

138. Стивене С.С.; Экспериментальная психология. Т.1.; М.; ИЛ; 1960; 5-78с.

139. Суппес П., Зинес Дж.; Психологические измерения; М.; Мир; 1967; 9-130с.

140. Суппес П., Зинес Дж.; Общая теория измерений В кн. Психологические измерения (Пер. с англ.); М.; Мир; 1967; 9-110с.

141. Суслов И.П.; Общая теория статистики; М.; Статистика; 1970.

142. Тихонов А.Н., Цветков В.Я.; Методы и системы поддержки принятия решений; М.; МАКС Пресс; 2001.

143. Толстова Ю.Н.; Анализ социологических данных; М.; Научный мир; 2000.

144. ТолстоваЮ.Н.; Измерение в социологии; М.; Инфра-М; 1998.

145. Толстова Ю.Н.; Математика в социологии: элементарное введение в круг основных понятий (измерение, статистические закономерности, принципы анализа данных); М.; ИСАН СССР; 1990.

146. Толстова Ю.Н.; Методология математического анализа данных; М.; Социологические исследования; 1990; №6; 11-Юс.

147. Толстова Ю.Н.; Модели и методы анализа данных социологического исследования. Учебное пособие; М.; ГАУ им. С.Орджоникидзе; 1996.

148. Толстова Ю.Н.; Принципы анализа данных; М.; Социология: 4M (методология, методы, математические модели); 1991; №1; 51-61с.

149. Толчеев В.О.; Современные методы обработки и анализа данных. Учебное пособие; М.; Изд-во МЭИ; 2006

150. Трофимов В.А.; Модели и методы качественного факторного анализа матриц связи; Автореферат канд. техн. наук; Новосибирск; Ин-т математики СО АН СССР; 1982

151. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И. и др.; Анализ нечисловой информации. Препринт; М.; Научный Совет АН СССР по комплексной проблеме "Кибернетика"; 1981

152. Черный Л.Б.; Метод пространства разбиений в анализе качественных признаков; Автореф. дис. на соиск. учен, степени канд. техн. наук; М.; ИПУ АН СССР; 1973

153. Чупров А.А.;Основные проблемы теории корреляции, М., 1960; Вопр. статистики. Избр. ст., М., 1960.

154. Ядов В.А.; Стратегия и методы качественного анализа данных; М.; Социология: 4M (методология, методы, математические модели); 1991; №1; 14-31с.

155. Сизова Т.М.; Статистика: Учебное пособие.; СПб.; СПб ГУИТМО; 2005

156. Лобанов В.Ю., Фомин Г.А.; Метод оценки связи между количественным и номинальным факторами в когнитивной модели объекта управления; М.; МЭИ; «Вестник МЭИ»; 2011; №1; 69-73с

157. Лобанов В.Ю., Фомин Г.А., Фомина Е.С.; Методы анализа связей между разнородными факторами в объекте управления; Труды XVIIмеждународной научно-технической конференции «Информационные средства и технологии»; М.; МЭИ, 2009; т. 3; 205-211с.

158. Лобанов В.Ю., Фомин Г.А., Фомина Е.С.; Сравнительное исследование мер силы парной межфакторной связи; М.; «Вестник МЭИ»; 2010; №3; 117-121 с

159. Лобанов В.Ю., Фомин Г.А.; Метод оценки связи между количественным и номинальным факторами; Труды XVIII международной научно-технической конференции «Информационные средства и технологии»; М.; МЭИ; 2010; ТЗ.; с.297-305

160. Лобанов В.Ю.; Методы анализа связей, содержащих нечисловые факторы, при построении когнитивных моделей; Современные технологии в задачах управления, автоматики и обработки информации; Труды XVII научно-технического семинара; Алушта; 2008; 18с.