автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка и реализация численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности

кандидата технических наук
Бакаева, Ольга Александровна
город
Воронеж
год
2013
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и реализация численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности»

Автореферат диссертации по теме "Разработка и реализация численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности"

На правах рукописи

г/

р ^лМ*-

БАКАЕВА Ольга Александровна

РАЗРАБОТКА И РЕАЛИЗАЦИЯ ЧИСЛЕННЫХ МЕТОДОВ ИССЛЕДОВАНИЯ ЗАВИСИМОСТИ КАТЕГОРИАЛЬНЫХ ПЕРЕМЕННЫХ НА ОСНОВЕ ТАБЛИЦ СОПРЯЖЕННОСТИ

Специальность 05.13.18 - Математическое моделирование,

численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

г о г:::-; ш

005062230

Воронеж-2013

005062230

Работа выполнена в ФГБОУ верситет имени Н.П. Огарёва».

Научный руководитель:

«Мордовский государственный уни-

Щсннмков Владимир Николаевич

доктор физико-математических наук, профессор, Мордовский государственный университет им. Н.П. Огарева, заведующий кафедрой дифференциальных уравнений

Официальные оппоненты: Батаронов Игорь Леонидович,

доктор физико-математических наук, профессор, Воронежский государственный технический университет, заведующий кафедрой высшей математики и физико-математического моделирования

Дружинина Ольга Валентиновна,

доктор физико-математических наук, Вычислительный центр им. А. А. Дородницына РАН, ведущий научный сотрудник

Ведущая организация: ФГБОУ ВПО «Сибирский государ-

ственный аэрокосмический университет им. академика М. Ф. Решетне-ва», г. Красноярск

Защита состоится 27 июня 2013 года в 1500 часов в конференц-зале на заседании диссертационного совета Д212.037.01 ФГБОУ ВПО «Воронежский государственный технический университет» по адресу: 394026, г. Воронеж, Московский проспект, 14.

С диссертацией можно ознакомиться в научно-технической библиотеке ФГБОУ ВПО «Воронежский государственный технический университет».

Автореферат разослан 24 мая 2013 года.

Ученый секретарь

диссертационного совета > у Барабанов В. Ф.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Особенности традиционного подхода к исследованию проблемы зависимости переменных требует четко определенного вероятностного пространства и случайного эксперимента. В действительности же имеется эксперимент, характеризующийся конечным числом условно упорядоченных значений переменной. Поэтому для любого исследователя важны не числовое выражение степени зависимости и его обоснование, а более грубые понятия - «практически независимы», «практически зависимы», а также вид зависимости - «возрастающая», «убывающая». В связи с этим существует необходимость разработки численных методов исследования зависимости, способных практически оценивать наличие связи.

В результате использования численных методов исследования зависимости происходит анализ и выбор факторов, т.е. отличительных особенностей объектов. При обработке такого рода информации особую роль играют категориальные переменные, то есть те, которые принимают качественные значения, и бинарные переменные с двумя альтернативными значениями. Такие переменные встречаются достаточно часто в технических, социальных и биомедицинских системах, что обуславливает необходимость их исследования. Эффективным, наглядным и универсальным инструментом обработки таких данных являются таблицы сопряженности.

Для категориальных переменных существует достаточно много способов выявления связи с помощью аппарата таблиц сопряженности, но среди них нет универсального. В связи с этим в зависимости от расположения и значений частот приходится использовать тот или иной критерий проверки связи. Следовательно, актуальность проявляется и в назревшей проблеме анализа и классификации всех способов выявления связи между категориальными переменными, модификации некоторых из них и выборе рационального способа проверки наличия зависимости.

Отдельно различным методам исследования связи между категориальными переменными уделяли внимание ряд авторов (П. Н. Бабич, А. В. Чу-бенко, С. Н. Лапач, Ю. Н. Толстова), но, к сожалению, в данной области нет комплексного подхода, который бы четко скоординировал работу всех критериев проверки связи и тем самым повысил уровень оперативности, достоверности и обоснованности выводов о ее наличии.

Таким образом, существует необходимость разработки эффективных численных методов определения вида и степени зависимости. Поэтому разработка и реализация численных методов исследования зависимости категориальных переменных с помощью таблиц сопряженности являются актуальными.

Работа выполнена в соответствии с научным направлением «Разработка методов систематизации результатов измерений» ФГБОУ ВПО «Мордовский государственный университет им. Н. П. Огарева».

Целью диссертационной работы является разработка новых численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности и их практическая реализация.

Поставленная цель определила необходимость решения следующего комплекса взаимосвязанных задач:

1) классификация и анализ известных способов исследования зависимости категориальных переменных;

2) разработка новых аналитических и численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности;

3) алгоритмизация выбора рациональных методов выявления закономерностей для категориальных переменных на основе предложенных численных методов исследования зависимости;

4) алгоритмизация выявления групп населения, потенциально подверженных повышенному риску нового заболевания на основе численного анализа зависимости категориальных переменных;

5) программная реализация средств для выявления связи между категориальными переменными при возникновении нового заболевания в целях предотвращения его распространения на основе предложенных алгоритмов и модели объекта, описываемого категориальными переменными.

Методы исследования. В работе использовались аналитические методы исследований из аналитической геометрии, вычислительные методы линейной алгебры, теории вероятностей, математической и прикладной статистики, численных методов, системного анализа, математического моделирования, методы объектно-ориентированного и визуального программирования.

Тематика работы соответствует п. 3 «Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий», п. 4 «Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента», п. 5 «Комплексные исследования научных и технических проблем с применением ... вычислительного эксперимента» паспорта специальности 05.13.18 - «Математическое моделирование, численные методы и комплексы программ».

Научная новизна. В работе получены следующие результаты, характеризующиеся научной новизной:

- формализованное описание и классификация известных методов исследования зависимости категориальных переменных, основанная на учете значений и расположения частот в таблице сопряженности, что повышает эффективность использования критериев;

- численный метод получения оценок теоретических частот, характеризующийся использованием предложенных идеально независимой и идеально зависимой таблиц, ближайших к наблюдаемой, позволяющий проверять гипотезу о зависимости переменных;

- численные методы исследования вида и степени зависимости между категориальными переменными, основанные на идеальных таблицах сопряженности и позволяющие строить адекватные модели объектов, описываемых категориальными переменными;

- алгоритм выбора рационального способа численной проверки наличия связи между переменными, характеризующийся совместным использованием

известных и предложенных критериев, позволяющий устанавливать наличие и степень связи с учетом значений и расположения частот в таблице сопряженности;

- алгоритм выявления групп населения, потенциально подверженных повышенному риску нового заболевания, позволяющий осуществить комплексное исследование методов распространения и лечения заболевания различных категорий людей.

Практическая значимость и результаты внедрения.

Разработан программный комплекс по выявлению групп населения, потенциально подверженных повышенному риску нового заболевания, позволяющий автоматизировать расчеты, уменьшить время принятия решения и увеличить достоверность выводов о наличии связи между бинарными категориальными переменными. Элементы программного комплекса прошли государственную регистрацию в ФГНУ ЦИТИС.

С использованием предложенных программных средств проведены комплексные исследования распространения вируса А(НШ1)09 и определены существенные и несущественные факторы риска данного заболевания. Результаты внедрения отражены в деятельности ГБУЗ РМ «Республиканская инфекционная клиническая больница» (г. Саранск), что подтверждается актом внедрения.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих конференциях: Международной научно-практической конференции «Перспективные инновации в науке, образовании, производстве и транспорте '2010» (Одесса, 2010); Х1У-ХУ1 научных конференциях молодых ученых, аспирантов и студентов Мордовского государственного университета имени Н. П. Огарева (Саранск, 2010-2012); Международной научной конференции «Научное лето - 2011» (Киев, 2011); Международной заочной научно-практической конференции «Современные тенденции в науке: новый взгляд» (Тамбов, 2011); Международной научно-практической конференции студентов, аспирантов и молодых ученых «Современные задачи прикладной статистики, промышленной, актуарной и финансовой математики» (Донецк, 2012); Международной научно-практической конференции «Научные исследования и их практическое применение. Современное состояние и пути развития '2012» (Одесса, 2012); IX Международном семинаре «Физико-математическое моделирование систем» (Воронеж, 2012); Открытой конференции молодых ученых по математическому моделированию и информационным технологиям ИВМ СО РАН (Красноярск, 2013).

Публикации. По материалам диссертации опубликована 21 научная работа, в том числе 6 - в изданиях, рекомендованных ВАК. В работах, опубликованных в соавторстве, лично соискателю принадлежат: [8] - сравнительный анализ использования существующих критериев проверки связи между качественными переменными; [2, 6, 7, 8] - анализ использования различных методов исследования связи между категориальными переменными с помощью таблиц сопряженности; [1, 3] - сформулированные и доказанные условия независимости категориальных переменных; [4] - особенности исследо-

вания зависимости между категориальными переменными при работе с предложенными «идеальными» таблицами сопряженности.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованных источников и приложений.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертационной работы, сформулированы цель и задачи исследования, их научная новизна, определена практическая значимость полученных результатов, приведены сведения об апробации и результаты научного исследования.

Глава 1 посвящена анализу проблем численного исследования зависимости категориальных переменных, проведен анализ данной проблемы по выявлению и оценке силы связи, в результате которого получены особенности использования кросстабуляции как универсального и наиболее часто используемого метода выявления и оценки силы связи. Продемонстрирована универсальность использования категориальных переменных в различных областях человеческой деятельности через обзор прикладных задач, связанных с их применением.

На основе проанализированного материала первой главы сформулированы задачи, которые должны быть решены в ходе работы над диссертацией.

Глава 2 посвящена анализу и разработке аналитических и визуальных численных методов исследования зависимости категориальных переменных. При этом особое внимание уделяется использованию аппарата таблиц сопряженности как эффективного, наглядного и универсального инструмента исследования зависимости между качественными переменными в целом и бинарными категориальными переменными в частности.

Для выявления связи между двумя категориальными переменными А (Ли А2) и В (В\, Вт) таблица сопряженности будет иметь следующий вид (табл. 1).

Таблица 1. Схема таблицы сопряженности 2x2.__

Si Вг Всего

А, /и /и /ю

а2 Й1 /22 /20

Всего /о. Л2 /т

Проводятся анализ и классификация использования известных методов исследования связи между категориальными переменными. К аналитическим методам, основу которых составляет вычислительный этап с последующим анализом полученной статистики, относятся: первые критерии оценки связи, коэффициент отношения избытка, G-критерий Вульфа, точный критерий Фишера, коэффициенты взаимной сопряженности К. Пирсона и А. Чупрова, шанс и шансовое отношение, различные модификации классического критерия х2 проверки независимости. К методам, при реализации которых необходимо использование ЭВМ и специальных программ, относятся: G-критерий Вульфа (MS Excel), шанс (MS Excel, Калькулятор таблиц сопряженности),

критерий Фишера (МяЬегЕхасО. Изучены особенности использования пакета анализа статистических данных «БТАТКТЮА» при исследовании зависимости категориальных переменных. Для всех вышеперечисленных критериев сформулированы условия их эффективного применения и приведены формулы расчета статистик в зависимости от значения и расположения частот в таблице сопряженности.

Особое внимание в работе уделяется критерию у\ Основным недостатком его использования являются жесткие условия применимости для получения корректного результата:

1) случайный выбор наблюдений;

2) ожидаемые частоты /¡, <4 должны встречаться не более чем в 25 % полей таблицы;

3) суммы по строкам и столбцам всегда должны быть не равными нулю. Предложен и реализован численный метод получения оценок частот

теоретической таблицы, ближайшей к наблюдаемой, позволяющий проверять гипотезу о зависимости переменных. Такие таблицы получили название «идеальных» таблиц сопряженности как иллюстрации проявления максимальной степени зависимости (независимости).

Определение 1. Таблица сопряженности размером кхт называется идеально независимой, если значения в ее ячейках представимы в виде ар}1п,

где Е= п, Y.bj = n, г = 1,к, ] = 1,т, п - сумма наблюдаемых частот.

Введенные величины а, и ¿>у являются оценками теоретических маргинальных (парциальных) частот для /¡¡. Обычно для них используются статистики: а, = /'о Ь] =Уо7=2Л' • ^Р" этом должно выполняться равен) '

ство /оо= XX! Л = п. Следует заметить, что указанные статисти-' 1 ' ]

ки плохо пригодны для таблиц, отличающихся от идеально независимых (табл. 2).

в. Вг Всего

А, аА п п а\

Аг аф, п афг п аг

Всего Ьх Ьг п

Определение 2. Прямоугольная таблица сопряженности размером кхт называется идеально зависимой, если в каждом ее столбце (или в каждой строке) имеется только один ненулевой элемент и все они расположены не целиком в одной строке (в одном столбце).

Определение 3. Прямоугольная таблица сопряженности размером кхт называется идеально зависимой первого рода, если в каждом ее столбце имеется только один ненулевой элемент и все они расположены не целиком в одной строке.

Определение 4. Прямоугольная таблица сопряженности размером кхт называется идеально зависимой второго рода, если в каждой ее строке имеется только один ненулевой элемент и все они расположены не целиком в одном столбце.

Обозначим (Д,) матрицу, имеющую ровно т ненулевых элементов, равных единице и расположенных по одному в каждом столбце, но не целиком в одной строке. Тогда ячейки идеально зависимой таблицы сопряженности первого рода могут быть представлены в виде Л,у6р где = и, для таблиц

второго рода аналогично а,Л,у, где (А-ненулевых элементов). Вве-

денная для идеально зависимых таблиц матрица Д определяет вид зависимости между переменными. Поэтому Д будем называть матрицами вида зависимости между категориальными переменными.

Предложенные определения и виды идеальных таблиц сопряженности легли в основу метода определения вида и степени зависимости категориальных переменных.

Суть метода состоит в следующем. Рассматриваются матрицы, соответствующие фиксированному объему наблюдений:

к т

О)

1=1 у=1

Идеально зависимые матрицы одного вида принадлежат пересечению гиперплоскости пространства Якт размерности т или к

Л-(1-Д,)=0, / = й, У = й (2)

и множества (1). Это пересечение согласно (1) и (2) задается таким образом:

, . к т ___

/у-(1-д,)=о, л-20 (3)

г=1 ;=1

Из матриц вида (3) находится ближайшая к наблюдаемой матрице (/¡у),

что осуществляется с помощью решения следующей задачи на условный минимум по методу множителей Лагранжа (для таблицы первого рода):

/ / > к т 2 1

'=17=1 0=1 )

В результате решения задачи (4) получены значения элементов идеально зависимой матрицы в виде:

т

к т

где п0 = - сумма частот, находящихся в ячейках с ненулевыми

/•=1*=1

значениями элементов матрицы Д.

Аналогичным образом получено решение и для таблиц второго рода:

т'т(ЬА . (4)

I

в/ = £ЛА/+-

1 = 1, к.

(5)

На основе предложенного способа построения ближайшей идеально зависимой таблицы разработан следующий алгоритм. Алгоритм определения вида зависимости первого (второго) рода

1.Из наблюдаемой таблицы сопряженности [/у) в каждом столбце (строке) выбирается наибольшая частота /¡^ . Если таких частот в данном

столбце (строке) несколько, то выбирается любая из них.

2. Если все выбранные частоты оказались в одной строке (столбце), то в

оставшейся части таблицы выбирается наибольшая частота /, , (если их не-

р-'р

сколько, то выбирается любая, расположенная в таблице ближе к уже выбранным частотам) и ранее выбранная частота /¡ у заменяется на у]. .

3. Выбранные максимальные частоты остаются на своих местах, которые они занимали в исходной таблице.

4. Оставшиеся (не максимальные) частоты складываются, делятся поровну и прибавляются к максимальным, а на их место помещаются нули.

5. На основе построенной идеально зависимой таблицы формируется матрица Д вида зависимости путем замены максимальных частот на единицы.

Таким образом получаются две идеально зависимые таблицы сопряженности для данной таблицы частот. Из них выбирается та, для которой расстояние до матрицы (/¡у) наименьшее:

с/, = гшп

к т

(6)

I /=1 У=1 V '"=1 м

Аналогично определяется расстояние до ближайшей идеально незави симой таблицы:

(7)

т( а-ЬА2

Щь-^)

1=1 у'=1 V п )

Степень зависимости между категориальными переменными определяется одним из следующих способов (рис. 1):

с/„ с1и с1„

>; =-

(8)

Коэффициент г0 изменяется линейно при малых с/3 и с!н, поэтому он достаточно чувствителен для отклонений от идеальных матриц и с практической точки зрения его использование наиболее эффективно.

В случае идеально независимой таблицы функция Лагранжа имеет вид:

* аъЛ2 Г к \

Л]-— ~л

Ы у=1 V " / Ч/=1

и=1

->тт(а,,Ьу). (9)

(11)

, и)

Рис. 1. Графики поведения коэффициентов го, г\ и п На основе решения задачи минимизации (9) найдена система уравнений

у=1 п j=^ к у=1

,=1 и ¡=1 ™,'=1

Для решения полученной нелинейной системы разработана простая итерационная схема:

=п—-^-, «=й;

7=1

= -Т77-Г;-. У =

В качестве нулевого приближения берется о/0' = /}0, Ь^ = /0у. На основе численного исследования схемы (11) показана ее устойчивость и быстрая сходимость во всех расчетных случаях. Установлено, что уже первая итерация дает решение с относительной ошибкой не более 5 % для векторов а,Ь и не более 1 % для расстояния (7), что является вполне удовлетворительным для практического использования. Тогда эффективное решение имеет вид:

т к

ХЛ'/о/ ___

--, ¡ = 1,к, Ъ1=пЦ--,] = \,т. (12)

7=1 /=1

Расчет по формулам (12) алгоритмически не сложнее традиционного определения независимой таблицы в виде 0, но обладает большей кор-

ректностыо и точностью для таблиц, существенно отличающихся от независимых.

Проверка адекватности предложенного численного метода определения степени и вида зависимости категориальных переменных осуществлялась методом статистических испытаний. Показано, что экспериментальная степень зависимости совпадает с модельной с разбросом в пределах ±0,1, что подтверждает надежность предлагаемого метода. Одновременно проверялось восстановление правильного вида зависимости Д и определялась ошибка

||д — ДэI. В результате получена следующая интерпретация значения коэффициента г0. При г0 < 0,3 зависимости следует считать статистически незначимыми. Если 0,3 < г0< 0,7, зависимость статистически значима, а вывод о практической значимости должен приниматься пользователем. При г0 > 0,7 зависимость следует считать надежно установленной со значимой степенью.

Кроме рассмотренного выше численного метода исследования вида и степени зависимости между категориальными переменными, получено обобщающее условие независимости бинарных категориальных переменных. Исходя из пропорциональности частот в случае независимости переменных получено выражение для оценки коэффициента независимости с (ceR +).

- _ /ill fil fw _ fut fl\ fttl ЛТ»

с, - ,c2- ^ i)

-/10 J 2\ -/1)2

Коэффициенты независимости с, и с2 связаны следующим соотношением: с\ ■ с2 = 1. В диссертации описаны особенности вычисления коэффициента независимости, когда значение частоты в одной из ячеек равно 0.

Для таблиц сопряженности размерности 2x2 кроме аналитических методов исследования зависимости разработан и реализован визуальный метод выявления связи, имеющий графическую природу. Он предназначен для выявления связи только между бинарными категориальными переменными.

Для каждой таблицы сопряженности строится одна прямая, и по ее расположению относительно оси ОВ делается вывод о независимости категориальных переменных. Если переменные независимы, то получается горизонтальная прямая, в случае зависимости прямая наклонная, знак наклона соответствует знаку зависимости. При наличии нулевых ячеек можно использовать поправку Йетса или поменять изображаемую переменную. Однако практически прямая никогда не будет строго горизонтальной из-за целочисленно-сти экспериментальных частот и наличия случайного разброса наблюдений. Поэтому необходимо использование специальных критериев для установления значимости отличия прямой от горизонтальной (рис. 2).

В результате использования визуального метода получено условие практической незначимости зависимости через коэффициент корреляции р0:

I I _ „ v/o 1/02/10/20

\z\-z2\<Pa-7-7-■

J22J21

Для конкретных значений частот эту разность можно показать на графике как предельные границы, что и будет визуально определять незначимость зависимости.

\fulfli

/и'Л,

К

В, Вг Идеальная независимость

В1 В2 Статистическая независимость

В] В2 Практическая независимость

(не реализуется) (статистический критерий) (незначимость)

Рис. 2. Графическое представление различных видов независимости

Таким образом, предложенная схема исследования зависимости категориальных переменных включает сначала исследование зависимости с помощью критерия у;, коэффициента независимости, визуального метода и др. Если зависимость имеется, то следует использовать разработанный численный метод исследования вида и степени зависимости между категориальными переменными, основанный на идеальных таблицах.

Глава 3 посвящена алгоритмизации предложенных во второй главе численных методов исследования зависимости категориальных переменных с использованием таблиц сопряженности. Структура процесса алгоритмизации исследования зависимости имеет вид: объект, свойства которого описываются категориальными переменными с использованием таблиц сопряженности —> (практическое приложение) алгоритм выявления групп населения, потенциально подверженных риску нового заболевания —> алгоритм выбора рациональных методов исследования зависимости категориальных переменных.

На основе предложенного метода определения степени и вида зависимости предложена модификация процесса построения описания объекта на основе категориальных переменных.

¡.Определение набора категориальных переменных для представления объекта описания.

2. Классификация выбранных переменных: внешние, внутренние (статические и динамические), переменные состояния.

3. Определение значений категориальных переменных.

4. Составление по наблюдениям таблиц сопряженности для выбранных переменных по принятым для них значениям.

5. Анализ таблиц на независимость для отсева заведомо статистически незначимых связей.

6. Анализ оставшихся таблиц для установления вида и степени зависимости.

7. Отсев статистически и практически незначимых зависимостей.

8. Составление стохастической модели связей, выражающих вид и степень влияния внешних и внутренних переменных на переменные состояния.

Предварительный этап

Исследование наличия заболевания в зависимости

v

Основной этап

и

Аналитический этап

О

Завершающий этап

от базовых факторов (пол, возраст)

от динамических факторов (место проживания, вр. привычки и т.д.)

Выбор оптимальных критериев проверки наличия и силы связи и последовательности их использования

Анализ вычисленных статистик, достоверности и согласованности полученных коэффициентов

Выводы о наличии/отсутствии связи и выявление категорий лиц, особо подверженных риску нового заболевания

Рис. 3. Схема алгоритма выявления групп населения, особо подверженных риску нового заболевания

возраст

место проживания

вредные привычки

хронические заболевания

семейное положение

наличие детей

материальныи достаток

употребление лекарств

Заражение

Сх?

н

Лечение бэ

заболевания а

Наличие осложнений Р

ох

Ьа

о

со

Результат р

лечения

Рис. 4. Схема взаимодействия характеристик пациента и этапов заболевания

Практическое приложение построения модели объекта, описываемого категориальными переменными, представлено в виде разработанного алгоритма выявления групп населения, потенциально подверженных риску нового заболевания (рис. 3, 4).

Для исследования зависимости между категориальными переменными предложен и реализован алгоритм выбора рациональных методов исследования зависимости категориальных переменных, характеризующийся совместным использованием известных и предложенных критериев (рис. 5).

11ачало

Рис. 5. Алгоритм выбора рационального способа проверки наличия связи между категориальными переменными

Ценность данного алгоритма заключается в выявлении аналогии между критериями и особенностями расположения частот и значений в таблице сопряженности. Теоретический результат — выбор эффективных методов проверки связи из известных и предложенных (жирным), а практический - вычисленные значения различных коэффициентов и выводы о зависимости.

Предложенный процесс реализован с помощью двух разработанных алгоритмов, позволяет проводить комплексный анализ исследования зависимости категориальных переменных и находит практическое применение при донозологическом контроле в здравоохранении, увеличивая достоверность вычислений и уменьшая время принятия решения.

Глава 4 посвящена разработке и реализации программного комплекса по исследованию зависимости категориальных переменных и проведению численного эксперимента, с использованием известных и новых численных методов анализа качественных данных.

Разработанное программное обеспечение прошло апробацию на примере выявления групп риска относительно вируса гриппа А (НШ1)09 в 2009-2011 гг. с помощью программного модуля «Алгоритм выбора рационального способа проверки наличия зависимости между категориальными переменными». Разработанный модуль предназначен для сравнения различных методов анализа зависимости категориальных переменных и последующего использования, как самостоятельного исследовательского средства, так

и в качестве компоненты алгоритма диагностики нового заболевания (рис. 6).

>

Пациент

Врач

Эксперт-аналитик

П1ггерфейс

Программный модуль «Алгоритм выбора рационального способа проверки наличия зависимости между категориальными певеменнымиь

Подсистема сбора диагностических данных

Модуль

—► предвари-

тельного

этапа

Delphi 7

Интерфейс

Модуль ОСНОВНОГО этапа

Врач

Эксперт-аналитик

Модуль аналитического этапа

ШР 8

_ Модуль завершающего этапа

Формирование рекомендаций

Рис. 6. Архитектура программного комплекса по выявлению групп риска

Основное достоинство данного программного комплекса состоит в том, что различные модули и блоки связаны таким образом, что их можно рассматривать как автономные объекты и как звенья данной системы.

Проведен сравнительный анализ возможности и эффективности использования известных вычислительных методов исследования зависимости би-

нарных категориальных переменных и разработанных в ходе диссертационного исследования относительно значений частот в таблице сопряженности.

Таблица 3. Анализ использования известных и предложенных критериев

Области применения Критерии

Критерий Фишера G-критерий Вульфа Критерий х2* Коэффиц. зависим. Го Коэффиц. нсзавим. с* Метод визуализации*

Ограниченность применения ограничений нет ограничения имеются ограничения имеются ограничений нет ограничений нет ограничений нет

Л = о + / + + /- + /- + / + + / + + / +

Л ^ + / + + /- + /- + / + + / + + / +

5<fij <30 + / + + /- + / + + / + + / + + / +

fa>30 + / + + / + + / + + / + + / + + / +

+ / + — возможность использования критерия / достоверность выводов.

* — проверяется независимость переменных.

Полученная таблица демонстрирует преимущества использования предложенных численных методов проверки связи, особенно в тех случаях, когда применение известных критериев не всегда возможно или не обеспечивает необходимый уровень достоверности выводов.

Таблица 4. Значения коэффициентов, позволяющих оценить наличие связи между переменными «возраст», «место проживания» и «результат лечения» в 2009—2011 гг._

Коэффициент Значения коэффициентов при исследовании связи между переменными «возраст» и «результат лечения» Значения коэффициентов, при исследовании связи между переменными «место проживания» и «результат лечения» в 2010-2011 гг.

в 2009—2010 гг. в 2010—2011 гг.

Быстрый способ оценивания связи |Z |= 12,41 |2|= 17,897 | Z | = 26,695

Коэффициент контингенции \V | = 0,22 |К | = 0,109 \V | = 0,037

Коэффициент отношения избытка Д: = 0,1429 R2 = 0,0461 R2 = 0,0063

Коэффициент Пирсона С = 0,304 С = 0,152 С„„ = 0,052

Коэффициент Чупрова К = 0,221 л:=0,109 К„ = 0,037

С-критерий Вульфа G = 5,424 G = 2,121 G= 1,027

Критерий Фишера Р = 0,012 Р = 0,087 Р = 0,424

Шанс о' = 0,077 о' = 0,15 о' = 0,597

Критерий х" независимости Г =5,838 Г =3,036 Г =0,352

Коэффиц. зависимости гп г„ = 0,06 г» = 0,02 г,, = 0,01

Коэффициент независимости с, = 0,676 с, = 0,675 с, = 0,699

Визуальный способ Р = 0,22 0 = 0,11 р = 0,04

Результатом четвертой главы является реализация программного комплекса по выявлению групп населения, потенциально подверженных повышенному риску нового заболевания, на основе исследования зависимости ка-

тегориальных переменных на примере лечения вируса гриппа А (НШ1)09. Приводятся детальные вычисления всех критериев, упомянутых в диссертации, и сводная таблица полученных значений с выводами о наличии/отсутствии связи. На основе этого вычислительного эксперимента проведен сравнительный анализ эффективности исследования зависимости с учетом новых методов и уже известных при решении задач выявления связи между категориальными переменными «возраст», «место проживания» и «результат лечения» в 2009-2011 гг.

На основе анализа расчетных значений можно сделать вывод о том, что в целом все критерии утверждают наличие связи между переменными «возраст пациента» и «результат лечения», хотя связь статистически незначима. Следовательно, в зависимости от возраста можно выделить две категории пациентов: дети, для которых выживаемость 100 %, и взрослые с более низким данным показателем, которые и будут являться группой риска. Поэтому врачам, по возможности, следует обратить особое внимание на эту группу пациентов и повысить эффективность лечения. Для переменных «место проживания (лечения)» и «результат лечения» наличие связи не определено, т.е. групп, потенциально подверженных риску, нет. Следовательно, эффективность лечения одинакова как для пациентов, проживающих в г.о. Саранск, так и для людей, проживающих не в столице.

• Показано, что предложенные методы выявления групп риска с помощью новых численных методов исследования зависимости категориальных переменных обеспечивает специалистам и врачам возможность оперативного принятия достоверных управленческих решений и оказания своевременной и эффективной помощи населению. То есть основная практическая функция предложенного комплексного исследования состоит в раннем скрининге нового заболевания для различных категорий пациентов.

В заключении обращается внимание на научную новизну и практическую ценность- исследований. Также кратко сформулированы основные результаты и выводы, полученные в ходе работы над диссертацией.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Разработаны формализованное описание и классификация известных методов исследования зависимости категориальных переменных, учитывая особенности расположения и значения частот в таблице сопряженности.

2. Предложен численный метод получения оценок теоретических частот идеально независимой и идеально зависимых таблиц сопряженности, позволяющий проверять гипотезу о зависимости переменных; показаны устойчивость и быстрая сходимость итерационной схемы нахождения оценок идеальных частот.

3. Разработаны численные методы исследования вида и степени зависимости между категориальными переменными, основанные на предложенной мере различия наблюдаемых и идеальных таблиц сопряженности и позволяющие строить адекватные модели объектов, описываемых категориальными переменными.

4. Предложен визуальный метод исследования независимости бинарных категориальных переменных, позволяющий исходя из расположения прямой отношения категорий относительно горизонтальной оси делать выводы о практических уровнях независимости.

5. Получено в численном виде обобщающее условие независимости бинарных категориальных переменных аналитическим и визуальным методами.

6. Разработано и реализовано математическое и программное обеспечение алгоритма выявления групп населения, потенциально подверженных повышенному риску нового заболевания, на основе предложенного метода выбора рациональных способов исследования закономерностей для категориальных переменных.

7. Разработан, прошел государственную регистрацию в ФГНУ ЦИТИС и апробирован программный комплекс по выявлению групп населения, потенциально подверженных повышенному риску нового заболевания (на примере вируса гриппа А (H1N1)09 в 2009-2011 гг.) в целях оперативности принимаемых решений и достоверности выводов.

Основные результаты диссертационного исследования опубликованы в следующих работах

Публикации в изданиях, рекомендованных ВАК

1. Бакаева О. А. Выявление независимости между качественными переменными / О. А. Бакаева, В. Н. Щенников // Вестник Воронежского государственного ун-та. Сер.: Физика. Математика. - 2011,- №2.-С. 58-63.

2. Бакаева О. А. Сравнительный анализ «первых» критериев выявления связи между качественными переменными / А. Н. Антамошкин, О. А. Бакаева // Вестник Сибирского государственного аэрокосмического университета им. академика М. Ф. Решетнева. - 2011. - № 4. - С. 4-7.

3. Бакаева О. А. Условия независимости качественных переменных: вероятностный подход / А. Н. Антамошкин, О. А. Бакаева // Системы управления и информационные технологии. - 2011. - № 4. - С. 7-9.

4. Бакаева О. А. Использование критерия х~ для выявления связи между качественными переменными на основе «идеальных» таблиц сопряженности / O.A. Бакаева, В.Н. Щенников // Ярославский педагогический вестник. -2011. - № 4, Т. III (Естественные науки). - С. 15-20.

5. Бакаева О. А. Использование шанса и шансового отношения для выявления связи между качественными переменными / O.A. Бакаева, В.Н. Щенников // Вестник Восточно-Сибирского государственного университета технологий и управления. - 2012. -№ 3 (38). - С. 37^1.

6. Бакаева О. А. Математическое и программное обеспечение подсистемы принятия решений по выявлению групп населения, потенциально подверженных повышенному риску нового заболевания // Системы управления и информационные технологии.-2012.-№4.1 (50). - С. 116-120.

Статьи и материалы конференций

7. Бакаева О. А. Приложения статистического анализа к обработке результатов медицинских экспериментов / Р. Р. Бикмурзина, О. А. Бакаева // Технические и естественные науки: проблемы, теория, практика : межвуз. сб. науч. тр. - Вып. 8. - Саранск : Изд-во Мордов. ун-та, 2008. - С. 187-190.

8. Бакаева О. А. Оценка связи между качественными признаками с помощью таблиц сопряженности / Р. Р. Бикмурзина, О. А. Бакаева, А. А. Панина И Технические и естественные науки: проблемы, теория, практика : межвуз. сб. науч. тр. - Вып. X. - Саранск : РНИИЦ, 2009. - С. 33-38.

9. Бакаева О. А. Применение нормального распределения при проверке статистических гипотез в медицинских экспериментах / Р.Р. Бикмурзина, О. А. Бакаева // XXXVII Огаревские чтения : материалы науч. конф. : в 3 ч. Ч. 2. - Саранск : Изд-во Мордов. ун-та, 2009. - С. 193-197.

10. Бакаева O.A. Определение минимального объема выборки // Вестник Мордовского университета. Сер. физико-математические науки. - 2010. -№4.-С. 111-114.

11. Бакаева О. А. Предварительная обработка статистических данных // XXXVIII Огаревские чтения : материалы науч. конф. : в 3 ч. Ч. 2. - Саранск : Изд-во Мордов. ун-та, 2010. - С. 303-306.

12. Бакаева О. А. Шкалы измерения информации в области медицины // Экономическое развитие современной России: проблемы и перспективы : межвуз. сб. науч. тр. - Вып. VII. - Саранск : [б.и.], 2010. - С. 174-177.

13. Бакаева О. А. Использование некоторых видов статистического анализа при обработке медицинских данных // «Научное лето - 2011»: сб. научн. тр. по материалам Международной научн. конф. - Киев : 2011, «НАИРИ». Ч. 2 - С. 34-37.

14. Бакаева О. А. Использование коэффициента К. Пирсона для выявления связи между качественными переменными // «Современные тенденции в науке : новый взгляд» : сб. научн. тр. по материалам Международной заоч. науч.-практ. конф.: в 9 ч. Ч. 8.-Тамбов, 2011.-С. 15-16.

15. Бакаева О. А. Графический способ выявления связи между категори-зованными переменными // Тезисы докладов Шестой Международной научно-практической конференции студентов, аспирантов и молодых ученых «Современные задачи прикладной статистики, промышленной, актуарной и финансовой математики», посвященной 75-летию Донецкого национального университета. - Донецк : ДонНУ, 2012. - С. 37.

16. Бакаева О. А. Необходимость использования поправки Йетса в критерии х" проверки независимости качественных переменных // «Научные исследования и их практическое применение. Современное состояние и пути развития '2012» : сб. науч. трудов SWorld Международной научно-практической конференции - Вып. 3, Т. 2. - Одесса : КУПРИЕНКО, 2012. -С. 82-83.

17. Бакаева О. А. Использование точного критерия Фишера для выявления связи между категориальными переменными // XL Огаревские чтения :

материалы науч. конф. - Саранск : Изд-во Мордов. ун-та, 2012. - С. 154-157.

18. Бакаева О. А. Методика определения вида и степени зависимости категориальных переменных на основе таблиц сопряженности // Физико-математическое моделирование систем : материалы IX Междунар. семинара. Воронеж : ФГБОУ ВПО «Воронежский государственный технический университет», 2012. - Ч. 2. - С. 109-124.

19. Бакаева О. А. Критерии визуализации зависимости случайных бинарных переменных //Физико-математическое моделирование систем: материалы IX Междунар. семинара. Воронеж : ФГБОУ ВПО «Воронежский государственный технический университет», 2012. - Ч. 2. - С. 162-167.

20. Бакаева О. А. Алгоритм выбора рационального способа проверки наличия зависимости между категориальными переменными при донозоло-гическом контроле // Информационные технологии моделирования и управления. - 2013. - № 1 (79). - С. 4-11.

21. Бакаева О. А. Программный модуль «Алгоритм выбора рационального способа проверки наличия зависимости между категориальными переменными» // В. Н. Щенников, О. А. Бакаева. М. : ФГНУ ЦИТИС, 2013. -№ 50201350197.

Подписано в печать 23.05.13. Объем 1,25 п. л. Тираж 80 экз. Заказ № 761. Типография Издательства Мордовского университета 430005, г. Саранск, ул. Советская, 24

Текст работы Бакаева, Ольга Александровна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Мордовский государственный университет им. Н.П.Огарева»

На правах рукописи

О. ^^

Бакаева Ольга Александровна

РАЗРАБОТКА И РЕАЛИЗАЦИЯ ЧИСЛЕННЫХ МЕТОДОВ ИССЛЕДОВАНИЯ ЗАВИСИМОСТИ КАТЕГОРИАЛЬНЫХ ПЕРЕМЕННЫХ НА ОСНОВЕ ТАБЛИЦ СОПРЯЖЕННОСТИ

Специальность 05.13.18 - Математическое моделирование,

численные методы и комплексы программ

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель: д.ф.-м.н., профессор Щенников Владимир Николаевич

Воронеж - 2013 г.

Содержание

Введение

1. Теоретические и практические аспекты численного анализа зависимости категориальных переменных

1.1 Анализ проблемы исследования зависимости категориальных переменных

1.2 Особенности использования кросстабуляции для выявления и оценки силы связи между категориальными переменными. Объясняющие переменные, переменные отклика и направление связи

1.3 Обзор прикладных задач, связанных с анализом категориальных переменных

1.4 Постановка задач работы

2. Анализ и разработка аналитических и визуальных численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности

2.1 Анализ и классификация использования известных методов исследования связи между категориальными переменными с помощью аппарата таблиц сопряженности

2.1.1 Первые критерии оценки связи

2.1.2 Коэффициент отношения избытка

2.1.3 в-критерий Вульфа

2.1.4 Точный критерий Фишера

2.1.5 Коэффициенты взаимной сопряженности К.Пирсона и А.Чупрова

2.1.6 Шансы и отношение шансов

2.1.7 Использование автоматизированных компьютерных средств для исследования связи между категориальными переменными

2.1.8 Использование различных видов классического критерия для поиска закономерностей между качественными данными. Необходимость поправки Иетса

2.2. Разработка численных методов исследования зависимости качественных переменных на основе «идеальных» таблиц сопряженности

2.2.1 Идеально независимые таблицы сопряженности

2.2.2 Идеально зависимые таблицы сопряженности

2.2.3 Методика определения вида и степени зависимости категориальных переменных на основе идеальных таблиц сопряженности

2.2.4. Исследование устойчивости определения вида и степени зависимости категориальных переменных на основе идеальных таблиц сопряженности

2.3 Разработка обобщающего условия независимости бинарных категориальных переменных. Коэффициент независимости

2.4 Метод визуализации зависимости между бинарными категориальными переменными с использованием MS Excel

3. Алгоритмизация численных методов исследования зависимости категориальных переменных с использованием таблиц сопряженности

3.1 Модификация этапа установления связей при построении модели объекта, описываемого категориальными переменными, с использованием таблиц сопряженности

3.2 Разработка алгоритма выявления групп населения, потенциально подверженных риску нового заболевания

3.3 Разработка алгоритма выбора рациональных методов исследования зависимости категориальных переменных при донозологическом контроле

3.4 Алгоритмизация методов исследования зависимости категориальных переменных для эпидемиологических приложений

4. Разработка и реализация программного комплекса по исследованию зависимости категориальных переменных с использованием известных и новых численных методов анализа качественных данных

4.1 Архитектура программного комплекса по выявлению групп населения, подверженных повышенному риску нового заболевания (структура, взаимодействие модулей, информационные потоки)

4.2 Особенности реализации модулей вычислительного и управляющего уровня программного комплекса по выявлению групп риска

4.3 Сравнительный анализ эффективности использования известных и новых численных методов исследования зависимости категориальных переменных (на примере исследования вируса гриппа А (НШ1)09)

Заключение

Список использованных источников Приложение А Приложение Б Приложение В

Введение

Актуальность темы. Особенности традиционного подхода к исследованию проблемы зависимости переменных требует четко определенного вероятностного пространства и случайного эксперимента. В действительности же имеется эксперимент, характеризующийся конечным числом условно упорядоченных значений переменной. Поэтому для любого исследователя важны не числовое выражение степени зависимости и его обоснование, а более грубые понятия - «практически независимы», «практически зависимы», а также вид зависимости - «возрастающая», «убывающая». В связи с этим существует необходимость разработки численных методов исследования зависимости, способных практически оценивать наличие связи.

В результате использования численных методов исследования зависимости происходит анализ и выбор факторов, т.е. отличительных особенностей объектов. При обработке такого рода информации особую роль играют категориальные переменные, то есть те, которые принимают качественные значения, и бинарные переменные с двумя альтернативными значениями. Такие переменные встречаются достаточно часто в технических, социальных и биомедицинских системах, что обуславливает необходимость их исследования. Эффективным, наглядным и универсальным инструментом обработки таких данных являются таблицы сопряженности.

Для категориальных переменных существует достаточно много способов выявления связи с помощью аппарата таблиц сопряженности, но среди них нет универсального. В связи с этим в зависимости от расположения и значений частот приходится использовать тот или иной критерий проверки связи. Следовательно, актуальность проявляется и в назревшей проблеме анализа и классификации всех способов выявления связи между категориальными переменными, модификации некоторых из них и выборе рационального способа проверки наличия зависимости.

Отдельно различным методам исследования связи между категориальными переменными уделяли внимание ряд авторов (П. Н. Бабич, А. В. Чу-бенко, С. Н. Лапач, Ю. Н. Толстова), но, к сожалению, в данной области нет комплексного подхода, который бы четко скоординировал работу всех критериев проверки связи и тем самым повысил уровень оперативности, достоверности и обоснованности выводов о ее наличии.

Таким образом, существует необходимость разработки эффективных численных методов определения вида и степени зависимости. Поэтому разработка и реализация численных методов исследования зависимости категориальных переменных с помощью таблиц сопряженности являются актуальными.

Работа выполнена в соответствии с научным направлением «Разработка методов систематизации результатов измерений» кафедры дифференциальных уравнений ФГБОУ ВПО «Мордовский государственный университет им. Н. П. Огарева».

Целью диссертационной работы является разработка новых численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности и их практическая реализация.

Поставленная цель определила необходимость решения следующего комплекса взаимосвязанных задач:

1) классификация и анализ известных способов исследования зависимости категориальных переменных;

2) разработка новых аналитических и численных методов исследования зависимости категориальных переменных на основе таблиц сопряженности;

3) алгоритмизация выбора рациональных методов выявления закономерностей для категориальных переменных на основе предложенных численных методов исследования зависимости;

4) алгоритмизация выявления групп населения, потенциально подверженных повышенному риску нового заболевания на основе численного анализа зависимости категориальных переменных;

5) программная реализация средств для выявления связи между категориальными переменными при возникновении нового заболевания в целях предотвращения его распространения на основе предложенных алгоритмов и модели объекта, описываемого категориальными переменными.

Методы исследования. В работе использовались аналитические методы исследований из аналитической геометрии, вычислительные методы линейной алгебры, теории вероятностей, математической и прикладной статистики, численных методов, системного анализа, математического моделирования, методы объектно-ориентированного и визуального программирования.

Тематика работы соответствует п. 3 «Разработка, обоснование и тестирование эффективных вычислительных методов с применением современных компьютерных технологий», п. 4 «Реализация эффективных численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для проведения вычислительного эксперимента», п. 5 «Комплексные исследования научных и технических проблем с применением ... вычислительного эксперимента» паспорта специальности 05.13.18 - «Математическое моделирование, численные методы и комплексы программ».

Научная новизна. В работе получены следующие результаты, характеризующиеся научной новизной:

- формализованное описание и классификация известных методов исследования зависимости категориальных переменных, основанная на учете значений и расположения частот в таблице сопряженности, что повышает эффективность использования критериев;

- численный метод получения оценок теоретических частот, характеризующийся использованием предложенных идеально независимой и идеально зависимой таблиц, ближайших к наблюдаемой, позволяющий проверять гипотезу о зависимости переменных;

- численные методы исследования вида и степени зависимости между категориальными переменными, основанные на идеальных таблицах сопря-

женности и позволяющие строить адекватные модели объектов, описываемых категориальными переменными;

- алгоритм выбора рационального способа численной проверки наличия связи между переменными, характеризующийся совместным использованием известных и предложенных критериев, позволяющий устанавливать наличие и степень связи с учетом значений и расположения частот в таблице сопряженности;

- алгоритм выявления групп населения, потенциально подверженных повышенному риску нового заболевания, позволяющий осуществить комплексное исследование методов распространения и лечения заболевания различных категорий людей.

Практическая значимость и результаты внедрения.

Разработан программный комплекс по выявлению групп населения, потенциально подверженных повышенному риску нового заболевания, позволяющий автоматизировать расчеты, уменьшить время принятия решения и увеличить достоверность выводов о наличии связи между бинарными категориальными переменными. Элементы программного комплекса прошли государственную регистрацию в ФГНУ ЦИТИС.

С использованием предложенных программных средств проведены комплексные исследования распространения вируса А(НШ1)09 и определены существенные и несущественные факторы риска данного заболевания. Результаты внедрения отражены в деятельности ГБУЗ РМ «Республиканская инфекционная клиническая больница» (г. Саранск), что подтверждается актом внедрения.

Апробация работы. Основные результаты диссертационной работы док-ладывались и обсуждались на следующих конференциях: Международной научно-практической конференции «Перспективные инновации в науке, образовании, производстве и транспорте '2010» (Одесса, 2010); Х1У-ХУ1 научных конференциях молодых ученых, аспирантов и студентов Мордовского государственного университета имени Н. П. Огарева (Саранск, 2010-2012);

Международной научной конференции «Научное лето - 2011» (Киев, 2011); Международной заочной научно-практической конференции «Современные тенденции в науке: новый взгляд» (Тамбов, 2011); Международной научно-практической конференции студентов, аспирантов и молодых ученых «Современные задачи прикладной статистики, промышленной, актуарной и финансовой математики» (Донецк, 2012); Международной научно-практической конференции «Научные исследования и их практическое применение. Современное состояние и пути развития '2012» (Одесса, 2012); IX Международном семинаре «Физико-математическое моделирование систем» (Воронеж, 2012); Открытой конференции молодых ученых по математическому моделированию и информационным технологиям ИВМ СО РАН (Красноярск, 2013).

Публикации. По материалам диссертации опубликована 21 научная работа, в том числе 6 - в изданиях, рекомендованных ВАК. В работах, опубликованных в соавторстве, лично соискателю принадлежат: [36] - сравнительный анализ использования существующих критериев проверки связи между качественными переменными; [6, 21, 34, 36] - анализ использования различных методов исследования связи между категориальными переменными с помощью таблиц сопряженности; [26, 7] - сформулированные и доказанные условия независимости категориальных переменных; [25] - особенности исследования зависимости между категориальными переменными при работе с предложенными «идеальными» таблицами сопряженности.

В итоге основные результаты работы таковы:

1. Разработаны формализованное описание и классификация известных методов исследования зависимости категориальных переменных, учитывая особенности расположения и значения частот в таблице сопряженности.

2. Предложен численный метод получения оценок теоретических частот идеально независимой и идеально зависимых таблиц сопряженности, позволяющий проверять гипотезу о зависимости переменных; показаны устойчи-

вость и быстрая сходимость итерационной схемы нахождения оценок идеальных частот.

3. Разработаны численные методы исследования вида и степени зависимости между категориальными переменными, основанные на предложенной мере различия наблюдаемых и идеальных таблиц сопряженности и позволяющие строить адекватные модели объектов, описываемых категориальными переменными.

4. Предложен визуальный метод исследования независимости бинарных категориальных переменных, позволяющий исходя из расположения прямой отношения категорий относительно горизонтальной оси делать выводы о практических уровнях независимости.

5. Получено в численном виде обобщающее условие независимости бинарных категориальных переменных аналитическим и визуальным методами.

6. Разработано и реализовано математическое и программное обеспечение алгоритма выявления групп населения, потенциально подверженных повышенному риску нового заболевания, на основе предложенного метода выбора рациональных способов исследования закономерностей для категориальных переменных.

7. Разработан, прошел государственную регистрацию в ФГНУ ЦИТИС и апробирован программный комплекс по выявлению групп населения, потенциально подверженных повышенному риску нового заболевания (на примере вируса гриппа А (НШ1)09 в 2009-2011 гг.) в целях оперативности принимаемых решений и достоверности выводов.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованных источников и приложений. Работа содержит 169 страниц основного текста, включая 19 рисунков, 51 таблицу и список источников из 148 наименований.

и

1. Теоретические и практические аспекты численного анализа зависимости категориальных переменных

1.1 Анализ проблемы исследования зависимости категориальных переменных

Признак - это свойство, характерная черта явления, подлежащая статистическому изучению. Каждый признак какого-либо объекта может быть описан переменной. Переменные классифицируются в зависимости от своей природы на количественные и качественные (атрибутивные). Переменные, отдельные значения которых различаются по величине, называются количественными. Переменные, которые выражают существенное неотъемлемое свойство предмета, называются качественными. Противоположные качественные признаки называют альтернативными.

Способы обработки количественной информации изучены достаточно хорошо и известны практически всем исследователям. Это и корреляционный, и регрессионный, и дисперсионный и другие виды анализа. Тогда как проблеме обработки данных, имеющих нечисловую, а качественную природу? уделяется достаточно мало внимания.

Как известно, основная задача исследователя, занимающегося обработкой данных, сводится к выявлению закономерностей из случайностей. Проблема выявления закономерности, то есть связи между переменными и последующей оценки ее силы в независимости от того, какую природу они имеют, является актуальной задачей прикладной статистики. Если связь признается значимой, то возникает вопрос о силе тесноты данной связи. Методов измерения тесноты взаимосвязи довольно много, и все они условно делятся на параметрические и непараметрические [2, 3].

Задача исследования связи межд