автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Аппарат таблиц сопряженности для выявления связи между качественными переменными

кандидата физико-математических наук
Бакаева, Ольга Александровна
город
Красноярск
год
2012
специальность ВАК РФ
05.13.01
Автореферат по информатике, вычислительной технике и управлению на тему «Аппарат таблиц сопряженности для выявления связи между качественными переменными»

Автореферат диссертации по теме "Аппарат таблиц сопряженности для выявления связи между качественными переменными"

На правах рукописи

Бакаева Ольга Александровна

АППАРАТ ТАБЛИЦ СОПРЯЖЕННОСТИ ДЛЯ ВЫЯВЛЕНИЯ СВЯЗИ МЕЖДУ КАЧЕСТВЕННЫМИ НЕРЕМЕННЫМИ

Специальность 05.13.01 - Системный анализ, управление обработка информации (космические и информационные технологии)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

? 7 ¡ндй 2012

Красноярск - 2012

005043150

005043150

Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Мордовский государственный университет имени Н.П. Огарёва».

Научный руководитель: доктор физико-математических наук,

профессор

Щенников Владимир Николаевич

Официальные оппоненты: Попов Алексей Михайлович,

доктор физико-математических наук, профессор, Сибирский государственный аэрокосмический университет, директор института информатики и телекоммуникаций

Дружинина Ольга Валентиновна, доктор физико-математических наук, профессор, Вычислительный центр им. A.A. Дородницына РАН, ведущий научный сотрудник

Ведущая организация: Федеральное государственное бюджетное

учреждение науки «Институт вычислительного моделирования СО РАН» г. Красноярск

Защита состоится «30» мая 2012 года в 14 часов на заседании диссертационного совета Д 212.249.02 при ФГБОУ ВПО «Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнева» по адресу: 660014, г. Красноярск, проспект имени газеты «Красноярский рабочий», 31, зал заседаний совета.

С диссертацией можно ознакомиться в библиотеке Сибирского государственного аэрокосмического университета имени академика М.Ф. Решетнева.

Автореферат разослан «24» апреля 2012 года.

Ученый секретарь диссертационного совета доктор физико-математических наук

A.A. Кузнецов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Способы обработки числовой информации изучены достаточно хорошо и известны практически всем исследователям, в то время, как проблеме обработки данных, имеющих нечисловую, а качественную природу, уделяется достаточно мало внимания. Это является первым моментом актуальности данной работы.

Следующий фактор, отражающий актуальность, состоит в том, что основная задача исследователя, занимающегося обработкой данных, сводится к выявлению закономерностей из случайностей. Проблема выявления закономерности, то есть связи между переменными и последующей оценки ее силы, является актуальной задачей прикладной статистики.

При обработке качественной информации особую роль играют катего-ризованные переменные, то есть те, которые могут принимать только два значения. Для таких переменных существует достаточно много способов выявления связи с помощью аппарата таблиц сопряженности, но, к сожалению, среди них нет универсального. В связи с этим в зависимости от значений частот приходится использовать тот или иной критерий проверки связи. Следовательно, также существует и проблема анализа всех способов выявления связи между категориальными переменными и модификации некоторых из них.

Целью диссертационной работы является расширение возможностей аппарата таблиц сопряженности для выявления связи между качественными переменными.

Поставленная цель определила необходимость решения следующего комплекса взаимосвязанных задач.

1) Провести анализ известных способов выявления связи между качественными переменными.

2) Разработать предназначенные для выявления и оценки силы связи между категориальными переменными новые способы обработки качественной информации, эффективность которых не должна зависеть от значений частот в ячейках таблицы сопряженности.

3) Исследовать условия зависимости и независимости категориальных переменных в таблице сопряженности. Ввести величину, позволяющую оценивать независимость между переменными.

4) Модифицировать существующие критерии выявления связи, устранив их недостатки.

5) Проверить согласованность классических и предложенных способов выявления и оценки силы связи между категориальными переменными.

Методы исследовании. Для решения поставленных задач в работе использовались аналитические методы исследований из таких разделов математики, как математический анализ, теория вероятностей, математическая статистика, прикладная статистика, статистика объектов нечисловой природы.

Научная новизна диссертационной работы состоит в следующем.

1. Выявлены теоретические и практические особенности использования известных способов установления связи между качественными переменными.

2. Определены ограничения на значения частот таблиц сопряженности для эффективного применения различных критериев выявления и оценки силы связи между качественными переменными.

3. Предложены новые способы проверки наличия/отсутствия связи между качественными переменными и последующей оценки се силы, в основе которых лежат аналитическое и графическое представления данных. Предложен эффективный способ проверки независимости дихотомических переменных, исходя из взаимного расположения прямых категорий.

4. Исходя из пропорциональности распределения частот, сформулированы и доказаны теоремы о независимости категориальных переменных. Введен коэффициент независимости, позволяющий делать выводы об отсутствии связи между переменными.

5. Предложен особый вид таблиц сопряженности - идеальные таблицы. С помощью них и модифицированного критерия Хи-квадрат проверяется отсутствие связи между переменными. Критерий Хи-квадрат (идеал незав.) позволяет выявлять независимость между переменными и, в отличие от классического критерия Хи-квадрат, применим ко всем таблицам сопряженности. Кроме того он сохраняет достоверность выводов даже при небольших значениях частот в таблице сопряженности.

Практическая ценность работы определяется тем, что все способы выявления связи между дихотомическими переменными представлены на единой методологической основе. Ценность работы состоит и в том, что полученные результаты могут иметь аналитическую и компьютерную реализацию, которая в дальнейшем позволит быстро выявлять и надежно оценивать наличие связи между качественными переменными. При этом, особое внимание уделяется процессу обработки информации через практическое внедрение кросстабуляции и аппарата таблиц сопряженности.

По результатам исследований проведен анализ заболеваемости и результатов лечения вируса гриппа А (НШ1)09 населения Республики Мордовия в 2009-2010 и 2010-2011гг.

Основные положения, выносимые на защиту.

1. Необходимые условия независимости категориальных переменных, полученные аналитическим и графическим способами. Коэффициент независимости как средство проверки отсутствия связи между переменными.

2. Модифицированные способы выявления и оценки силы связи между категориальными переменными.

3. Новые способы выявления и оценки силы связи между качественными переменными, использование которых нс зависит от значений частот в таблице сопряженности.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на международных и всероссийских конференциях: Международной научно-практической конференции «Перспективные инновации в науке, образовании, производстве и транспорте ' 2010» (Одесса: Чсрноморье, 2010г); XIV научной конференции молодых ученых, аспирантов и студентов Мордовского государственного университета имени Н.П. Огарева (г. Саранск, 2010г.); научной конференции XXXVIII Огарев-ские чтения МГУ им. Н.П. Огарева (г. Саранск, 2010г.); Международной научной конференции «Научное лето - 2011» (г. Киев, 2011г.); Международной заочной научно-практической конференции «Современные тенденции в науке: новый взгляд» (г. Тамбов, 2011).

Публикации. По материалам диссертации опубликовано 12 научных работ, в том числе 3 статьи в изданиях, входящих в перечень ВАК РФ, и 2 доклада, которые представлены на международных семинарах и конференциях.

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения и списка использованных источников.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность работы, сформулирована цель и поставлены задачи исследования, приводятся методы исследований и рассмотрены результаты работы.

Глава 1 носит теоретико-аналитический характер. В ней приведен обзор существующих классических способов выявления и оценки силы связи между категоризованными переменными в таблицах сопряженности.

В первом разделе данной главы дается общее понятие кросстабуляции и особенностей ее применения в различных областях человеческих знаний. При этом особое внимание обращается на применение аппарата таблиц сопряженности как достаточно наглядного и универсального инструмента выявления зависимости между качественными переменными.

В последующих разделах первой главы рассматриваются особенности использования различных критериев проверки связи между категоризованными переменными. Сначала приводится детальный обзор использования первых критериев оценки связи. К таковым относятся: быстрый критерий оценки связи, коэффициенты ассоциации, коллигации Юла, контингенции. Далее рассматриваются особенности использования коэффициента отношения избытка, в-критерия Вульфа, точного критерия Фишера, коэффициентов взаимной сопряженности К.Пирсона, А.Чупрова и других мер связи.

Для всех вышеперечисленных критериев сформулированы условия их эффективного применения и приведены формулы расчета соответствующих статистик.

Глава 2 посвящена современным методам анализа тесноты взаимосвязи между качественными переменными. В этой главе диссертации представлены как уже известные критерии выявления и оценки силы связи, так и мо-

дификации некоторых из них. Кроме того разработаны новые способы проверки независимости качественных переменных, основанные на аналитическом и графическом представлении данных.

Первый раздел второй главы «Анализ Хи-квадрат: поиск закономерностей для качественных данных» посвящен применению различных критериев проверки и оценки силы связи, в основе которых лежит метод Хи-квадрат.

Сначала приводятся особенности использования классического критерия Хи-квадрат независимости. Расчетное значение этого критерия определяется по формуле

по веем ячейкам У у

где /э и /¡. - эмпирические (фактические) и теоретические частоты.

Теоретические частоты вычисляются по формуле

(2)

/оо

При этом должны выполняться соотношения, справедливые для эмпирических частот: /„ +/2=/ю, /21 +/22 =/20, /и +/21 =\Ль /12+/22 =/02 и /и +/12 +/г\ +У22 =/оо-

Далее сравнивается расчетное значение х2Расч с табличным, используя необходимый уровень значимости. Наличие значимой связи проявляется тогда, когда расчетное значение Хи-квадрат больше критического (х2Расч > ЗС'крит), в противном случае значимой связи нет.

В следующем пункте первого раздела второй главы рассмотрены особенности использования Хи-квадрат критерия качества модели и соответствия. Основная задача состоит в проверке гипотезы Н0': при повторном эксперименте результаты самого эксперимента и повторного могут отличаться лишь различием, обусловленным случайной изменчивостью.

Кроме того, во второй главе приводятся условия применимости критерия Хи-квадрат, показывается необходимость использования поправки Йетса и всевозможных ее модификаций.

Для большого класса таблиц 2x2, содержащих ячейки с малыми частотами, аппроксимация распределения статистики Хи-квадрат может быть улучшена понижением абсолютного значения разностей между эмпирическими и теоретическими частотами на величину 0,5 перед возведением в квадрат - это и есть поправка Йетса. Тогда формула классического критерия Хи-квадрат с учетом поправки Йетса будет иметь вид:

у (1/э-Л|-0,5)2

л Г (3)

по веем ячейкам J^\

Данное вспомогательное вычисление делает оценку более умеренной, математически же уменьшает погрешность, вызванную аппроксимацией непрерывного распределения Хи-квадрат дискретным распределением выборочной частоты. В следующем пункте первого раздела второй главы рас-

сматривастся критерий Хи-квадрат без предварительного расчета теоретической частоты с поправкой Йетса и без нее.

Во втором разделе второй главы приведен новый способ выявления независимости между качественными переменными. Здесь вводится понятие «идеальных» таблиц сопряженности, и затем с помощью них и критерия Хи-квадрат, показывается, как проверить отсутствие связи между переменными.

Определение 1. Таблица называется идеально независимой, если значения в каждой ячейке равны между собой и равны/00/4, а остальные частоты равны 0, тогда маргинальные частоты раины/оо/2.

Определение 2. Таблица называется идеально зависимой, если значения на одной из диагоналей равны между собой и равны половине общих частот, остальные частоты равны 0, а маргинальные частоты равны /оо/2.

Определение 3. Таблица называется идеально зависимой 1 рода, если значения на главной диагонали равны между собой и равны половине общих частот, т.с./и =/12 =/оо/2, а остальные частоты равны нулю, т.е. /и =/и = 0.

Определение 4. Таблица называется идеально зависимой 2 рода, если значения на побочной диагонали равны между собой и равны половине общих частот, т.е. /12 =/21 =/оо/2, а остальные частоты равны нулю: /п = /22 = 0.

Для проверки нулевой гипотезы о независимости признаков А и В, учитывая данные определения, следует объединить информацию о различиях между «идеальными» (И) и реальными наблюдаемыми (О) значениями. Получится новая статистика Хи-квадрат (идеал):

X2 (идеал) = Е (4)

по веем ячейкам * +

В данном случае распределение X2 (идеал) будет стремиться к распределению х2 • Число степеней свободы для X2 (идеал незав.) будет вычисляться аналогично критерию Хи-квадрат для таблиц 2x2.

Здесь, как и в случае с классическим критерием Хи-квадрат, при необходимости используют поправку Йетса. Тогда формула (4) принимает вид:

v (|0-И| - 0,5)2 Х- (идеал) = 2. -П-(5)

по всем ячейкам **

Далее рассматривается гипотеза Н0: переменные независимы, т.е. реальные результаты должны быть близки к данным в «идеально» независимой таблице сопряженности. Для найденного значения статистики X2 (идеал незав.) находят критическую точку распределения /С с одной степенью свободы. Если полученное по таблице значение %2 (X2 (идеал незав.); 1) < 0,05, то нулевая гипотеза о независимости исследуемых переменных отвергается. В противном случае нулевая гипотеза о независимости принимается.

Если проверяется нулевая гипотеза о том, что переменные не независимы, то следует рассматривать две гипотезы:

Нереальные данные аналогичны «идеально зависимым» данным 1 рода;

Нереальные данные аналогичны «идеально зависимым» данным 2 рода.

Если сумма частот на главной диагонали больше суммы частот на побочной диагонали, т.е./п+/22 >/12+ /21, то лучше начать проверку с гипотезы Ню- Если же сумма частот на побочной диагонали больше суммы частот на главной диагонали, т.е./п+/г\ >/11+У22, то целесообразнее сначала проверить гипотезу Н2о- В качестве проверки используется следующий принцип: наименьшая из статистик Хи-квадрат (идеал) должна соответствовать той идеальной таблице, с которой работают. Процедура проверки гипотезы о зависимости переменных аналогична проверке гипотезы о независимости.

Основная проблема, с которой может столкнуться исследователь при проверке наличия/отсутствия связи между качественными переменными, состоит в том, что большое значение статистики не позволяет сделать достоверный вывод о наличии связи. Поэтому для большей надежности следует работать с критерием X" (идеал незав.) и проверять гипотезу Н0: переменные независимы. Если данная гипотеза отвергается, то переменные зависимы.

На основе статистики X2 (идеал незав.) вводится новый критерий согласия, предназначенный для проверки простой гипотезы Н0: Р(Х) = Р; (X) при сложной альтернативе Н^ Н0 не верна. В случае проверки гипотезы Но о независимости качественных переменных с помощью идеально независимых таблиц сопряженности в роли исследуемой функции, будет выступать функция X" (идеал незав.).

Утверждение 1.

1) если гипотеза Но верна, то X" (идеал незав.) =>С, где й - непрерывное распределение;

2) если гипотеза Но неверна, то X2 (идеал незав.) ——>оо при п —> оо.

В диссертации отмечается, что в 1) в роли функции О выступает непрерывное распределение так как статистика X" (идеал незав.) вводится аналогично классической статистике X". Данное утверждение сформулировано и доказано в виде следующей теоремы.

Теорема о сходимости X2 (идеал незав.) к распределению х2.

Теорема 1. Если верна гипотеза Но, то при фиксированных к\ и к2 и при п —>оо величина

, ^ (О-И)

X (идеал незав.) = 2-, —й—

или в развернутом виде

f ■ '

X2 (идеал незав.) = £ У"21 => уЛа,-.)«^) -

¿=11 У О

к2

кхк2

где х2 (¿1_1)(*2_1) имеет распределение х2 с № - 1)(^2 — 1) степенями свободы.

Доказательство данной теоремы основывается на особенностях идеально независимой таблицы сопряженности и центральной предельной теореме.

Далее рассматривается второе свойство критерия согласия X2 (идеал незав.). Формулируется и доказывается теорема о том, что X (идеал не-

зав.) р >оо при п —* оо.

Теорема 2. Если гипотеза Н0 не верна, то найдутся такие і є {1, 2, ..., к\} иу є {1, 2,..., кг), что выполняется условие:

г

і] к к К\К2 У

оо.

А. кхк2

Таким образом, критерий X2 (идеал незав.) аппроксимируется непрерывным распределением Х2(*1-П(*2-1) »является критерием согласия, что позволяет с его помощью проверить нулевую гипотезу о независимости.

Известно, что в основе критерия X2 (идеал незав.) лежит отклонение наблюдаемых частот от идеальных. Далее изучаются особенности проверки независимости переменных с помощью критерия Хи-квадрат без расчета теоретической частоты и идеально независимых таблиц сопряженности. Эти особенности отражены в следующей теореме.

Теорема 3. Для того чтобы категориальные переменные А (А\; А2) и В (/],; В,) в идеально независимой таблице сопряженности были независимы, должно выполняться условие:

X2, = /оо (/11/22 "/12/21) _ о /10/20/01/02

Если сравнить расчетное значение Х2| = 0 с критической точкой распределения х2 при одной степени свободы, то получим: %' (0; 1) = 1 > 0,05. Следовательно, нет оснований отвергнуть нулевую гипотезу о независимости переменных.

Далее рассматривается неравенство Маркова (лемма Чебышева) для уточнения еще одного свойства критерия X" (идеал незав.). Сначала приводится классическая формулировка данного неравенства, а затем сформулировано и доказано утверждение для величины X (идеал незав.).

Утверждение 2. Если случайная величина Х= X2 (идеал незав.) принимает только неотрицательные значения и имеет математическое ожидание, то для любого положительного числа/! = 1 верно неравенство:

т.е. Р(Х>1)<М(Х).

Доказывается это утверждение аналогично доказательству самого неравенства Маркова при условии, что А = 1.

Следствие 1. Так как события Х> 1 и А'<1 противоположные, то Р (Х> \) = I - Р (X <\) н получается другая форма неравенства Маркова.

Р(Х<\)>\-М(Х).

Неравенство Маркова можно применить к статистике X2 (идеал незав.), так как выполняется условие неотрицательности значений случайных величин.

Интерпретация неравенства Маркова для величины X2 (идеал незав.) заключается в том, что если X2 (идеал незав.) > х2 (0; 1) = 1, то нулевая гипотеза о независимости переменных отклоняется (переменные связаны). Если X2 (идеал незав.) < (0; 1) = 1, то нулевая гипотеза о независимости переменных принимается. Тогда условие Р{Х > 1) < 1 говорит, о том, что вероятность, того что переменные связаны, меньше либо равна 1. А условие Р(Х < 1) > 0 утверждает, что переменные независимы с вероятностью, большей или равной 0. Данные утверждения дают верхнюю и нижнюю оценки вероятности зависимости и независимости дихотомических переменных.

В третьем разделе второй главы приводится один из современных способов выявления связи между переменными. Он основан на понятии шанса и шансового отношения.

В четвертом разделе второй главы приводится способ выявления и оценки связи между двумя катсгоризованными переменными с помощью прикладного пакета «STATISTICA». В данной программе существует инструмент, позволяющий легко и точно рассчитывать значения различных критериев, что облегчает вычислительную работу исследователя.

В пятом разделе второй главы формулируются и доказываются теоремы о независимости качественных переменных, в основе которых лежат различные соотношения частот. Также вводится коэффициент, характеризующий степень независимости.

Определение 5. Переменные А (Л,; А2) и В (Вх; В2) называются независимыми, если одновременно выполняется хотя бы одна из пар следующих равенств:

1 j fu _ fn fu _ /21 . /01 /02 fio fio

2) ¿à.f{1 _ fn /01 /02 У10 /20

Определение 6. Переменные A и В называются нестрого независимыми, если одновременно выполняется хотя бы одна из пар следующих приближенных равенств:

^ f\1 ~fn fu ~ fi\ .

fü\ fo2 fio fio

2) Í2L~flL [xL—ílL

/01 füi У10 ./20

Утверждение 3 (необходимое условие независимости). Если переменные А (А,; А2) и В (В\; Вт) независимы, то должно выполняться хотя бы одно из следующих равенств:

/о| /• _ /о г ((Л

7 /12—7-/21> (о) /02 /20

^ГгГ^/п- (7)

/01 /ю

Определение 7. Величина с >0, характеризующая степень независимости переменных Л и называется коэффициентом независимости (се Л +). Утверждение 4 (необходимое условие нестрогой независимости). Если переменные Л (/1,; А2) и Д (/?,; нестрого независимы, то должно выполняться хотя бы одно из следующих равенств:

^/п=сЛ/21, (8)

/02 /20

^/21= <2 ^/.2, (9)

/01 /ю

где С] и с2 - коэффициенты независимости.

Утвернедсние 5. Если переменные/! и В независимы, то С\ = I. Чтобы оценить на практике, степень независимости переменных, выведем формулу для расчета коэффициента независимости. Выразив с\ из равенства (8), получим:

с< _ /о! /12 /20 _ /¡о /21/02

В Утверждении 5 говорится только о равенстве единице коэффициента С]. Далее доказывается, что если переменные независимы, то и

с2 = 21 02 = 1. Поэтому в формулировках третьего и четвертого утвер-/01 /12/20

ждений достаточно рассмотреть только первую пару равенств и найти значение С\.

Замечание 1. Нетрудно заметить, что коэффициенты независимости с\ и с2 связаны следующим соотношением^-с? = 1- Данное замечание подтверждает тот факт, что если переменные А и В независимы, то и С\ = 1, и с2 = 1.

Замечание 2. Как видно, коэффициент независимости между переменными представляет собой отношение, из чего следует, что может возникнуть ряд трудностей для его нахождения. Поэтому в диссертации описано его вычисление и последующее использование для некоторых особых случаев, к которым можно отнести нулевое значение частоты в одной из ячеек.

Далее рассматриваются условия, при которых коэффициент независимости равен 1, то есть переменные независимы.

Утверждение 6. Если =/2\, то коэффициент независимости С\ = 1. Доказательство данного утверждения следует непосредственно из формулы (10) и условия равенства частот на главной диагонали.

Теорема 4. Коэффициент независимости с\ = 1 тогда и только тогда, когда справедливо условие /1/22-/2/21-

В диссертации доказывается необходимость и достаточность данного условия для независимости переменных. Из Теоремы 4 следует, что произведение частот на главной диагонали должно быть равно произведению частот на побочной диагонали. В этом случае определитель данной таблицы будет равен нулю:/ц /22-/12/21 = 0.

Данная теорема является одной из основных в диссертации, так как объясняет поведение многих коэффициентов при использовании их для проверки независимости категоризованных переменных. Выражение /и /22-/12/21 отражает взаимосвязь между переменными и встречается в формулах для расчета коэффициентов ассоциации С>, контингенции (сходства) V и его модификации с учетом поправки на непрерывность, коэффициента X "1 (без расчета теоретической частоты), когда используется и не используется поправка Йетса. При выполнении условия Теоремы 4, записанного в виде /п /22-/12/21 = 0, значения коэффициентов ассоциации и контингенции обращаются в 0, что говорит о независимости категориальных переменных. Для критерия Хи-квадрат рассчитанное значение данной статистики, равное 0, меньше теоретического х2 (0; 1) = 1, поэтому нулевая гипотеза о независимости переменных тоже принимается. Таким образом, соотношение частот, сформулированное в Теореме 4, является математическим доказательством, на основании которого можно использовать различные коэффициенты при исследовании независимости категориальных переменных.

Так как в действительности независимые переменные практически не встречаются, то вычисляют величину абсолютной ошибки коэффициента независимости ДС|= |1 - С\|. Очевидно, чем она меньше, тем с большей «уверенностью» можно утверждать, что переменные независимы. Для получения более точных выводов об отсутствии связи разработан способ нахождения предельно возможной абсолютной ошибки независимости: Дс, = 0,3, основанный на приложении среднеквадратического отклонения к оценке величин.

Для оценки отклонения коэффициента независимости от 1 рассматривается не только абсолютная ошибка, но и относительная е = , так как она

<=1

позволяет нагляднее судить о точности вычисления и показывает качество оценки. Величина относительной ошибки 1-^5%, считается приемлемой.

В шестом разделе второй главы приводится новый способ исследования наличия связи. Исходя из геометрического смысла строк и столбцов таблицы сопряженности, сформулированы и доказаны теоремы о зависимости/независимости переменных.

Чтобы выявить зависимость между переменными, необходимо построить прямые, соответствующие категории Л\, проходящие через точки (Х[ = В,; у, =/п) и (х2 = В2;у2 =/12) и категории Аг (*| = Яь У\ =/ц) и (х2 = ВъУ2=/22).

Возможны следующие случаи взаимного расположения этих прямых:

• Если прямые пересекаются, то переменные коррелированны.

• Если прямые параллельны, то корреляция отсутствует.

Віаимодсііствие частот Пример коррелпрованностн переменных

Віаммодействіїе частот Пример отсутствия СВЯ111

Рисунок 1. Графики коррелированное™ категориальных переменных и отсутствия связи между ними

Утверждение 7 (необходимое условие независимости (графический способ)). Если переменные независимы, то выполняется равенство

/12-/11 = с-(/22-/21). (11)

где с - коэффициент, характеризующий степень независимости (се R).

При доказательстве последнего утверждения используется свойство равенства угловых коэффициентов параллельных прямых. В итоге получается условие/п -/и = [п -/21, из которого следует, что с = 1.

Из утверждения 7 следует, что с - это коэффициент, характеризующий степень независимости переменных. Для проверки гипотезы о независимости переменных, следует найти значение этого коэффициента

c=brj_И (12)

/22 ~ h\

или хотя бы его оценку.

Аналогично необходимому условию независимости признаков, выраженному через равенство угловых коэффициентов, формулируется и необходимое условие зависимости между переменными.

Утверждение 8 (необходимое условие зависимости (графический способ)). Если переменные зависимы, то выполняется условие

fll-fl\-fn+f\\ 5*0-

(13)

Графический способ выявления связи между качественными переменными помогает избежать ряда трудностей, которые возникают при использовании аналитических способов. Он является весьма простым в интерпретации результатов и достаточно точен для получения выводов, и требует лишь минимальных навыков работы в Excel.

Глава 3 представляет собой расчетно-практическую часть. В ней приведены расчеты различных способов выявления связи между качественными переменными, и показывается согласованность теоретических утверждений и их практических реализаций. Решены задачи по выявлению связи и оценки ее силы между различными категориями пациентов.

Задача 3.1. В Республике Мордовия в 2009-2010гг. было зарегистрировано 75 случаев заболевания вирусом A (II1N1) («свиной грипп») среди взрослых людей и 45 случаев среди детей. Среди взрослых было 9 летальных исходов, среди детей летальных исходов не было. Задача состоит в нахождении связи между качественными переменными «возраст» и «результат лечения». То есть стоит вопрос, влияет ли возраст на результат лечения, и если ответ положительный, то в какой степени.

В первом разделе третьей главы приводятся детальные вычисления всех критериев, упомянутых в теоретической части диссертации. Таблица 1 - Таблица частот результатов лечения вируса Л (H1N1) среди взрослых и детей в Республике Мордовия в 2009-2010гг._

Результат лечения

Возраст Летальный Выздоровление Всего

Дети 0-17 лет 0 45 45

Взрослые 18-58 лет 9 66 75

Всего 9 111 120

Таблица 2 - Значения коэффициентов, позволяющих оценить наличие связи между переменными «возраст» и «результат лечения» в 2009-2010гг._

Коэффициент Значение Вывод о наличие связи

Быстрый способ оценивания связи |z | = 12,41 Связь значимая на уровне значимости а = 0,95

Коэффициент ассоциации Критерий использовать нельзя (<3 = -1 - ложная обратно пропорциональная связь)

Коэффициент коллигации Критерий использовать нельзя (К = -1 - ложная обратно пропорциональная связь)

Коэффициент контингенции \V | = 0,22 Отсутствие связи (коэффициент не значим)

Коэффициент отношения избытка Я2 = 0,0461 Слабая зависимость. Зависимы в 14% от 100%

Коэффициент Пирсона С = 0,304 Связь заметная, переменные зависимы

Коэффициент Чупрова АГ= 0,109 Связь не существенная, но относительно заметная

О - критерий Вульфа G = 5,424 С достоверностью 0,95 зависимость переменных значима

Критерий Фишера /> = 0,012 Гипотеза о независимости отвергается с достоверностью 0,95 (па уровне знач. а = 0,05)

Шанс о' = 0,077 Наличие связи можно констатировать с вероятностью 0,95

Классический критерии Хи-квадрат независимости Х2= 5,838 Гипотеза об отсутствии связи отклоняется с вероятностью 0,95 (переменные зависимы)

Хи-квадрат в «идеальных» таблицах X2 (идеал незав) = 43,20 Переменные зависимы с вероятностью 0,95

Коэффициент независимости с, = 0,676 Переменные зависимы (Дс,> 0,3)

Графический способ выявления связи с = 0,789 Слабая зависимость

Во втором разделе третьей главы представлены диаграммы, характеризующие динамику заболеваемости и результата лечения различных групп пациентов в 2010-2011гг. Кроме того сформулирована и решена следующая задача.

Задача 3.2. В Республике Мордовия в 2010-2011гг. было зарегистрировано 170 случаев заболевания вирусом Л (H1N1) («свиной грипп») среди взрослых людей (18-58 лет) и 84 случаев среди детей (0-18 лет). Среди взрослых было 6 летальных исходов, среди детей летальных исходов не было. Частоты результатов лечения выглядят следующим образом.

Таблица 3 - Таблица частот результатов лечения вируса Л (HIN 1)09 среди взрослых и детей в Республике Мордовия в 2010-2011гг._

Результат лечения

Возраст Летальный Выздоровление Всего

Дети 0-17 лет 0 84 84

Взрослые 18-58 лет 6 164 170

Всего 6 248 254

Задача состоит в нахождении связи между качественными переменными «возраст» и «результат лечения». Сводная таблица всех рассчитанных критериев имеет вид.

Таблица 4 - Значения коэффициентов, позволяющих оценить наличие связи между менными «возраст» и «результат лечения» в 2010-2011гг.

Коэффициент Значение Вывод о наличие связи

Быстрый способ оценивания связи \z | = 17,897 Связь значимая на уровне а = 0,95

Коэффициент ассоциации Критерий использовать нельзя (С> = -1 - ложная обратно пропорциональная связь)

Коэффициент коллигацпи Критерий использовать нельзя (У = -1 - ложная обратно пропорциональная связь)

Коэффициент контингенции \V\ = 0,109 Отсутствие связи (коэффициент не значим)

Коэффициент отношения избытка Л2 = 0,0461 Практически независимы Зависимы в 4,61% от 100%

Коэффициент Пирсона С = 0,152 Связь не существенная, но относительно заметная

Коэффициент Чупрова /<■=0,109 Связь не существенная, но относительно заметная

С - критерий Вульфа О = 2,121 С достоверностью 0,95 зависимость признаков незначима

Критерий Фишера Р = 0,087 Гипотеза о независимости с достоверностью 0,95 принимается (на уров.знач. а = 0,05) Гипотеза о независимости с достоверностью 0,9 отвергается (на уровне знач. а = 0,10)

Шанс и шансовое отношение о'= 0,15 Наличие связи можно констатировать с вероятностью 0,95

Классический критерий Хи-квадрат независимости Х2= 3,036 С достоверностью 0,95 можно утверждать отсутствие связи С достоверностью 0,9 можно утверждать наличие связи

Хи-квадрат в «идеальных» таблицах X2 (идеал незав) = 281,244 Большое значение статистики X1 не позволяет сделать достоверный вывод о наличии связи

Коэффициент абсолютной зависимости с, = 0,675 Переменные зависимы (Дс,> 0,3)

Графический способ выявления связи с = 0,532 Зависимость больше, чем слабая

Проанализировав сводные таблицы расчетных значений Задачи 3.1 и Задачи 3.2, можно сделать вывод о том, что в целом все критерии утверждают наличие связи между переменными «возраст пациента» и «результат лечения». Следовательно, в зависимости от возраста можно выделить две категории пациентов: дети, для которых выживаемость - 100%, и взрослые с более низким данным показателем. Поэтому врачам, по возможности, следует обратить особое внимание на эту группу пациентов и повысить эффективность лечения. Также во втором разделе третьей главы решается следующая задача.

Задача 3.3 Проверить гипотезу о связи переменных «место проживания» и «результат лечения», т.е. дать ответ: зависит ли результат лечения от места проживания пациента, и если зависит, то в какой степени. Таблица 5 - Таблица частот результатов лечения вируса А(Н1Ш)09 в зависимости от места проживания зимнего сезона 2010-2011 гг.

Результат лечения

Место проживания Летальный Выздоровление Всего

Проживающие в г.о. Саранск 4 191 195

Проживающие в др. городах и районах 2 57 59

Всего 6 248 254

Итоговые значения коэффициентов представлены в следующей таблице. Таблица 6 - Значення коэффициентов, позволяющих оценить наличие связи между признаками «место проживания» и «результат лечения» в 2010-2011гг.

Коэффициент Значение Вывод о наличие связи

Быстрый способ оценивания связи \z | = 26,695 Связь значимая на уровне а = 0,95

Коэффициент ассоциации Q = -0,252 Связь по вероятности существует, менее чем существенная

Коэффициент коллигацни У = -0,128 Связи нет

Коэффициент контингенции іп = 0,037 Отсутствие связи

Коэффициент отношения избытка R2 = 0,0063 Связи нет

Коэффициент Пирсона = 0,052 Связь не наблюдается

Коэффициент Чупрова Кч = 0,037 Связь не наблюдается

в - критерий Вульфа G = 1,027 С достоверностью 0,95 зависимость признаков незначима

Критерий Фишера Р = 0,424 Переменные независимы с вероятностью 0,95 (на уровне знач. а = 0,05)

Отношение шансов о = 0,597 Связь имеет место быть

Классический критерий Хп-квадрат независимости Х2 = 0,352 С достоверностью 0,95 можно утверждать отсутствие связи

Хи-квадрат в «идеальных» таблицах X2(идеал незав) = 371,984 Большое значение статистики X 2 не позволяет сделать достоверный вывод о наличии связи

Коэффициент абсолютной зависимости d = 0,700 Переменные независимы (Дс,= 0,3)

Графический способ выявления связи с = 3,4 Переменные на границе зависимости

В результате решения данной задачи получено, что все критерии утверждают, что переменные «место проживания (лечения)» и «результат лечения» не связаны между собой. Следовательно, эффективность лечения одинакова как для пациентов, проживающих в г.о. Саранск, так и для людей, проживающих не в столице.

Полученные расчеты демонстрируют универсальность использования предложенных критериев проверки связи, особенно в тех случаях, когда применение известных критериев не всегда возможно или приводит к ложным выводам. Также проведенный анализ вычисленных коэффициентов показывает преимущества предложенных методов с точки зрения точности выводов для всех таблиц сопряженности без исключений.

В заключении кратко сформулированы основные результаты и выводы, полученные в ходе работы над диссертацией.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ II ВЫВОДЫ

1. Выявлены особенности использования различных критериев и определены ограничения значений частот таблиц сопряженности для проверки и оценки силы связи между качественными переменными.

2. Выделены идеальные таблицы сопряженности и получен способ проверки независимости категоризованных переменных с использованием критерия согласия X2 (идеал незав.) (Утверждение 1).

3. Доказывается работоспособность критерия X" (идеал незав.), вследствие того, что в случае истинности гипотезы Н0, он стремится к непрерывному распределению Х2(л,-1)(*2-1) (Теорема 1), а в случае ложности нулевой гипотезы стремится к оо (Теорема 2).

4. Показывается согласованность предложенных методов проверки гипотезы о независимости категориальных переменных с помощью критериев X2 (идеал незав.) (сравнение эмпирических и идеальных частот) и Х2| (без расчета теоретической частоты), в основе которых лежат вычисления, связанные с идеально независимыми таблицами сопряженности (Теорема 3).

5. Исходя из определения независимости для категоризованных переменных и пропорциональности распределения частот, сформулированы и доказаны теоремы о необходимых и достаточных условиях независимости качественных переменных (Теорема 4).

6. Введен коэффициент независимости. Рассмотрены его свойства, позволяющие получить оценку независимости между качественными переменными (Утверждения 5, 6).

7. Предложен графический способ исследования независимости, имеющий ряд преимуществ по сравнению с аналитическими (Утверждения 7, 8).

8. С помощью классических и предложенных критериев решены практические задачи по выявлению связи между категориальными переменными на примере заболевания и результата лечения вируса гриппа А (НШ1)09 различных групп населения Мордовии в 2009-2011гг. Предложенные способы позволяют делать выводы о наличии/отсутствии связи, где использование классических методов невозможно или неэффективно.

ВЫВОД: Проведен анализ известных критериев выявления связи между качественными переменными и предложены эффективные способы проверки независимости категоризованных переменных, что имеет существенное значение при обработке качественной информации в различных областях знаний.

Основные положения и результаты диссертационной работы представлены в следующих работах автора:

Публикации в изданиях, рекомендованных ВАК РФ:

1. Бакаева O.A. Выявление независимости между качественными переменными / Бакаева O.A., Щснников В.Н. // Вестник Воронежского государственного университета. Серия: Физика. Математика, 2011. - № 2. - С. 58-63.

2. Бакаева O.A. Сравнительный анализ «первых» критериев выявления связи между качественными переменными / Антамошкии А.Н., Бакаева O.A. // Вестник Сибирского государственного аэрокосмического университета имени академика М.Ф. Решетнева, 2011. - № 4. - С. 4-7.

3. Бакаева O.A. Условия независимости качественных переменных: вероятностный подход / Антамошкии А.Н., Бакаева O.A. // Системы управления и информационные технологии, 2011. - № 4. - С. 7-9.

Другие публикации:

4. Бакаева O.A. Приложения статистического анализа к обработке результатов медицинских экспериментов / Бикмурзина P.P., Бакаева O.A.// Технические и естественные науки: проблемы, теория, практика: межвуз. сб. науч. тр. - Вып. 8. - Саранск: Изд-во Мордов. ун-та, 2008. - С. 187-190.

5. Бакаева O.A. Оценка связи между качественными признаками с помощью таблиц сопряженности / Бикмурзина P.P., Бакаева O.A., Панина A.A. // Технические и естественные науки: проблемы, теория, практика: межвуз. сб. науч. тр. - Вып. X. - Саранск: РНИИЦ, 2009. - С. 33-38.

6. Бакаева O.A. Применение нормального распределения при проверке статистических гипотез в медицинских экспериментах / Бикмурзина P.P., Бакаева O.A. // XXXVII Огаревскис чтения: Материалы науч. конф.: В 3 ч. -4.2. - Саранск: Изд-во Мордов. ун-та, 2009. - С. 193-197.

7. Бакаева O.A. Формирование учебно-профессиональной мотивации студентов / Богатырева Е.В., Бакаева O.A. // Сборник научных трудов по материалам международной научно-практической конференции «Перспективные инновации в науке, образовании, производстве и транспорте 2010». В 8т. - Т 8. Педагогика, психология и социология. - Одесса: Черноморье 2010 - С. 42-45.

8. Бакаева O.A. Определение минимального объема выборки // Вестник Мордовского университета. Серия ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ 2010. - № 4. - С. 111-114.

9. Бакаева O.A. Предварительная обработка статистических данных // XXXVIII Огаревскис чтения: Материалы науч. конф.: В 3 ч. - 4.2. - Саранск: Изд-во Мордов. ун-та, 2010. - С. 303-306.

10. Бакаева O.A. Шкалы измерения информации в области медицины // Экономическое развитие современной России: проблемы и перспективы: межвуз. сб. науч. тр. - Вып. VII. - Саранск: Ковылк. тип., 2010. - С. 174-177.

11. Бакаева O.A. Статистические методы в педагогическом эксперименте / Богатырева Е.В., Бакаева O.A. // Материалы XIV научной конференции молодых ученых, аспирантов и студентов Мордовского государственного университета имени Н.П. Огарева: В 2 ч. - Ч. 1.: Технические и естественные науки. - Саранск: Изд-во Мордов. ун-та, 2010. - С.148-151.

12. Бакаева O.A. Использование некоторых видов статистического анализа при обработке медицинских данных // Сборник научных трудов «НАУЧНОЕ ЛЕТО - 2011» по материалам Международной научной конференции «Научное лето - 2011». Часть 2. - Киев: «НАИРИ», 2011. - С. 34-37.

Подписано в печать 23.04.12. Объем 1,25 п. л. Тираж 100 экз. Заказ № 528. Типография Издательства Мордовского университета 430005, г. Саранск, ул. Советская, 24