автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка адаптивных статистических моделей классификации и прогнозирования

кандидата физико-математических наук
Суфиянов, Вадим Гарайханович
город
Ижевск
год
2004
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка адаптивных статистических моделей классификации и прогнозирования»

Автореферат диссертации по теме "Разработка адаптивных статистических моделей классификации и прогнозирования"

На правах рукописи

СУФИЯНОВ ВАДИМ ГАРАИХАНОВИЧ

РАЗРАБОТКА АДАПТИВНЫХ СТАТИСТИЧЕСКИХ МОДЕЛЕЙ КЛАССИФИКАЦИИ И ПРОГНОЗИРОВАНИЯ

- Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

Пермь - 2004

05.13.18.

Работа выполнена в Ижевском государственном техническом университете.

Защита состоится 1 июня 2004 г. в 15 часов на заседании диссертационного совета ДР.212.188.04 при Пермском государственном техническом университете по адресу: 614000, г. Пермь, Комсомольский проспект, 29, аудитория 206.

С диссертацией можно ознакомиться в библиотеке Пермского государственного технического университета

Автореферат разослан «30» апреля 2004 г.

Научный руководитель -

Русяк Иван Григорьевич -

заслуженный деятель науки УР, член-корреспондент РАРАН, доктор технических наук, профессор

Официальные оппоненты -

Тененев Валентин Алексеевич - доктор физико-математических наук, профессор; Вильдеман Валерий Эрвинович - доктор физико-математических наук, профессор

Ведущая организация -

Томский государственный университет

Ученый секретарь диссертационного совета доктор технических наук

Общая характеристика работы

Актуальность проблемы.

Задачи классификации и прогнозирования занимают важное место в различных областях знаний. Существуют различные подходы к решению этих задач, но наиболее широкое распространение получили вероятностно-статистические методы, основанные на изучении прецедентов. Большинство методов построения классификационных и прогнозных статистических моделей используют адаптивные алгоритмы.

Огромный вклад в развитие вероятностно-статистического моделирования внесли Т. Байес, К. Гаусс, Ф. Гальтон, К. Пирсон, Р. Фишер, С.Р. Рао, Д.Р. Кокс, Б.В. Смирнов, А.Н. Колмогоров, И.М. Гельфанд, М.М. Бонгард, Ю.И. Журавлев, А.И. Орлов, С.А. Орловский, С.А. Айвазян, B.C. Мхитарян, A.M. Дубров, Л.Д. Мешалкин и др.

К настоящему времени разработан целый ряд статистических методов прогнозирования и классификации. Однако задача повышения их точности по-прежнему остается весьма актуальной проблемой. Оценкой качества модели является проверка применимости их на новых данных. Так, достаточно широко распространены случаи, когда точные модели на обучающей группе оказываются менее точными на практике.

Одним из путей повышения точности классификации является введение некоторой области изменения модельных значений (интервала неопределенности), при попадании в которую трудно определить принадлежность наблюдения тому или иному классу. Задача состоит в оптимизации интервала неопределенности, с точки зрения минимизации потерь, связанных как с неправильной классификацией, так и с отказом от классификации.

Еще одним резервом повышения точности моделей классификации и прогнозирования является учет пространственно-временной неоднородности данных. Зачастую модель, разработанная по данным одного региона, может не работать в условиях другого региона. Кроме того, изменения внешних условий могут воздействовать на изучаемые явления, что особенно характерно для вариабельных систем. В медицинских исследованиях при изучении биологических систем внешними факторами могут служить изменение экологической, социально-экономической обстановки и т.п. В связи с этим необходимо разрабатывать модели, адаптированные к региону и определенному времени.

Целью диссертационной работы является разработка адаптивного алгоритма построения статистических моделей для анализа данных с пространственно-временной неоднородностью и исследование возможности повышения точности статистических моделей в задачах классификации и прогнозирования.

Достоверность полученных результатов.

В работе используются эмпирические и теоретические методы исследования. Результаты основаны на положениях pppfHTlp""1"" ■■ ской статистики, теории принятия решений. ficWrt&I^UilWMW^^ чых результатов основывается на известных статисти1ЕскихЭД£Лй9?ЭД&нки шекват-

\ Дй

ности моделей. Проверка качества моделей проводилась на независимых контрольных фуппах. Решения задач оптимизации используют фундаментальные положения теории оптимизации.

На защиту выносятся.

1. Метод повышения качества статистической модели классификации на основе оптимизации интервала неопределенности.

2. Алгоритм адаптации статистических моделей к данным с пространственно-временной неоднородностью.

3. Результаты применения статистических методов к практическим задачам в области кардиологии.

4. Информационно-аналитическая система сбора, хранения и обработки данных в кардиологии.

Научная новизна.

1. Разработан единый подход к решению задач классификации и прогнозирования, использующих переменные различных типов.

2. Впервые сформулирована математическая постановка задачи оптимизации интервала неопределенности и предложена методика её решения.

3.Разработана математическая модель, учитывающая, пространственно-временную неоднородность статистических данных, и предложен алгоритм реализации адаптивных моделей.

4. Выявлены и оценены наиболее важные показатели для прогнозирования летальности и утраты трудоспособности при инфаркте миокарда и построены их статистические модели.

5. Выявлены показатели наиболее важные для прогнозирования времени сохранения синусового ритма после купирования пароксизма мерцательной аритмии и построена ее статистическая модель.

Практическая значимость.

Предложенные модели позволяют существенно повысить точность прогнозирования исходов таких заболеваний, как инфаркт миокарда и мерцательная аритмия.

Полученные научные результаты в виде прикладного программного обеспечения легли в основу информационно-аналитической системы, которая может быть использована практикующим врачом-кардиологом.

Апробация работы.

Результаты исследований докладывались на:

• VI Всероссийском съезде кардиологов (Москва, 1999);

• Научно-практической конференции «Кардиоцентру - 20 лет» (Ижевск, 1999);

• Межрегиональной научно-практической конференции «Региональные проблемы здоровья населения» (Ижевск, 2001);

• Ш Уральской научно-практической конференции «Применение математических методов в медицине и биологии» (Екатеринбург, 2001);

• V Российской университетско-академической научно-практической конференции (Ижевск, 2001);

• научно-практической конференции «Информатизация процессов управления в региональном здравоохранении» (Ижевск, 2001);

• VII научной конференции молодых ученых и специалистов Объединенного института ядерных исследований (Дубна, 2003);

• IV Международной научно-технической конференции'«Информационные технологии в инновационных проектах» (Ижевск, 2003).

Публикации.

По теме диссертации опубликовано 15 печатных работ, в том числе 9 статей и 6 тезисов докладов. Получено 2 патента на изобретения.

Структура и объем работы.

Объем диссертации составляет 142 страницы, включая 40 рисунков и 34 таблицы. Работа состоит из введения, пяти глав, заключения и списка литературы, включающего 130 источников.

Содержание диссертации

Во введении обосновывается актуальность выбранной темы, определены цель и задачи исследования.

В первой главе рассматриваются этапы проведения статистического исследования и область применения существующих статистических методов классификации и прогнозирования. Дается обзор и описание подходов и методов разработки квазилинейных статистических моделей, используемых в настоящей работе, таких как множественный регрессионный анализ, логистическая регрессия, регрессия Кокса. Описывается существующие методики определения оптимального количества переменных в вероятностно-статистических моделях и методы оценки их точности.

Во второй главе рассматривается задача классификации объектов-двух классов. Функцией отклика в данной задаче является случайная величина У, принимающая значения из множества Е = 5,} • Конкретная реализация случайной величины У обозначается у,, которая принимает значение 5,, если объект наблюдения И,, / = 1, п, относится к первому классу, иначе у, =52, что означает принадлежность объекта второму классу. Измеряемые переменные обозначаются X/, у = 1, т. Реализацией переменных X] для / -го наблюдения является вектор х( ={хл,х,г,...,х,т}.

На основе имеющихся данных строится статистическая модель, зависящая от переменных X] = ],т, по которой можно судить о принадлежности наблюдения одному из классов. Рассматривается логистическая регрессионная 1

модель л =-- с линейной функцией У вида:

\ + е~г

У-Р„+Р,Л,+- + Р/Л,. О)

где л— вероятность принадлежности наблюдения классу Ро" свободный коэффициент; - коэффициенты логистической регрессии. Коэффициенты

модели оцениваются методом максимального правдоподобия.

Задача определения оптимального количества переменных, входящих в логистическую регрессию, решается на основании проверки качества модели на контрольной группе. Оценка важности включения (исключения) переменных в модель (из модели) осуществляется пошаговым методом. Увеличение количества переменных в статистической модели позволяет повысить точность классификации на обучающей группе, однако верификация на контрольной группе показывает существование оптимального набора переменных, такого, что при добавлении в этот набор новых переменных точность модели не улучшается.

Плотности распределения случайной величины У объектов первого /Д^)-= ) и второго = классов (см. рис. 1), а также ап-

риорные вероятности появления объектов первого Р(з|) и второго Р^й?) классов определяются по выборочным данным.

Рис. 1. Кривые плотностей распределения У На рис. 1 приняты следующие обозначения: и ^ - вероятности правильной классификации объектов первого и второго класса соответственно; и - вероятности неправильной классификации объектов первого и второго класса соответственно; и 1)2 - вероятности отказа от классификации объектов первого и второго класса соответственно.

Целью решения задачи оптимизации является минимизация функций

средних потерь, связанных как с неправильной классификацией так и с

неопределенной классификацией

(2)

где ^ и с1 - удельный вес потерь, связанных с неправильной классификацией объектов первого и второго классов.

В работе рассматривалась задача минимизации суммы функций (1) и (2):

(3)

где коэффициент ф характеризует влияние неопределенной классификации на

общее качество классификации.

Задача оптимизации записывается в виде:

(4)

Решение задачи (4) основано на методе проекции градиента, что обусловлено наличием линейного ограничения и возможностью аналитического представления градиента функции средних потерь.

В процессе решения задачи (4) классификация осуществляется по схеме, представленной на рис. 2.

Предложенный алгоритм был использован для прогнозирования утраты трудоспособности и летального исхода у больных инфарктом

миокарда. Входными данными были сведения о больных после инфаркта миокарда. Всего исследовалось т = 23 показателя. Выборка случайным образом была поделена на обучающую и контрольную группы. При этом наилучшая точность в наших условиях достигалась, как правило, при объеме обучающей выборки 60-70% от общего объема данных.

На основе пошагового логистического регрессионного анализа была получена модель прогнозирования утраты трудоспособности:

- 7 уФ -1 Я«. И3)

Рис. 2. Схема принятия решения на основе интервала неопределенности

У, = -3,545 + 8,450• Х\ - 3,610 • *- 2,763 • Х?' -1,856 • ху> + 3,704 • Х'и

16

(5)

где Х\ - нормированная от 0 до 1 переменная, характеризующая возраст, Х^ ,

/ = 1,3 - фиктивные переменные, характеризующие тяжесть артериальной гипертонии (см табл. 1), -А",^ - нормированная от 0 до 1 переменная, характеризующая начальный уровень перекисного окисления липидов.

Таблица 1

Кодирование переменной Х-*

X? х<2>

1 - нет артериальной гипертонии 1 0 0

2 - мягкая форма артериальной гипертонии 0 1 0

3 — умеренная форма артериальной гипертонии 0 0 1

4 - тяжелая форма артериальной гипертонии 0 0 0

В результате были построены гистограммы распределения (см. рис. 3) для каждого из классов, восстановивших трудоспособность Г, =5, и утративших трудоспособность

Рис. 3. Гистограммы и кривые плотностей распределения У]

Распределения каждого из классов были аппроксимированы нормаль ными распределениями:

'/№=*.)=/,(-». .«Л*)

Гипотезы согласия по модифицированному критерию Колмогорова-Смирнова о нормальном законе распределения не отвергались на уровне значимости 0,05.

В результате применения алгоритма оптимизации интервала неопределенности были получены зависимости характеристик модели от параметра ф е [0,18,0,3] (см. рис.

4).

Выборочные характеристики, оцениваемые при решении задач классификации, такие как точность, чувствительность и специфичность вычислялись по данным исследуемого массива по формулам:

и.

0,5

-1-1- . \/иг\ ... г—— -

IV: Г 1

0,18

ом

ада

В)

ода

0,2В

0,3 1

Рис. 4. Зависимости характеристик модели от параметра

где Л'] 1 и N22 - количество верных классификаций объектов первого и второго классов соответственно; - количество неверных классификаций

объектов первого и второго класса соответственно.»

Применение разработанного алгоритма позволило увеличить точность с 80% до 93%, чувствительность с 75% до 90% и специфичность с 82% до 94%.

Аналогичные исследования были проведены для прогнозирования летального исхода после инфаркта миокарда.

В третьей главе решалась задача прогнозирования времени сохранения синусового ритма после купирования пароксизма мерцательной аритмии. Проведено сравнение различных подходов к решению поставленной задачи. Сравнивались результаты решения задачи, полученные на основе регрессионной модели пропорциональных интенсивностей Кокса и квазилинейных регрессионных моделей. Рассматривалась также задача определения оптимального количества переменных, входящих в регрессионные модели.

Входными данными были сведения о больных. Всего исследовалось т = 22 переменных, которые обозначались через X_/ = 1 ,т . Выборка случайным образом была поделена на обучающую и контрольную. Выходной переменной является время сохранения синусового ритма Т е . Задача состояла в выявлении наиболее значимых переменных, выборе вида модели и построении статистической модели прогнозирования времени сохранения синусового ритма.

Корреляционный анализ показал, что наиболее значимой связью выходной переменной является связь с одной из непрерывных переменных (219), характеризующей состояние больного. Дополнительный анализ показал, что эта связь является нелинейной (см. рис. 5). На основе метода Бокса-Кокса было определено, что наиболее подходящим преобразованием данных, с целью их линеаризации, является логарифмическое. Исследовались три вида зависимости: экспоненциальная (1), степенная (2) и логистическая (3) (см. рис 5)

В результате исследований из всех рассматриваемых зависимостей была выбрана наиболее адекватная логистическая зависимость:

(9)

где параметр и* = 650 дней определялся на основе максимизации коэффициента детерминации; У -линейная комбинация:

-3,097.?п-6,397-2^ + о,390.г„+ 0,352-2,, ' (10)

Рис. 5. Нелинейная аппроксимация

Z8, Z,, Z10- переменные, характеризующие наличие идиопатической фибрилляции предсердий, острого инфаркта миокарда, артериальной гипертонии; Z',, Z.J0— стандартизированные переменные (в пределах от 0 до 1), характеризующие скорость и ускорение трансмитралыюш потока; Z21, Z„ - переменные, характеризующие номер приступа (0 - первый, 1 - повторный) и способ купирования (0 - с помощью электроимпульсной терапии, 1 - медикаментозно) мерцательной аритмии.

Были построены доверительные интервалы прогнозного значения Т1м1,ы.

Сравнение квазилинейной логистической модели с регрессионной моделью Кокса показало, что первая из них более адекватно позволяет прогнозировать время сохранения синусового ритма.

В четвертой главе предложена математическая модель адаптации статистических квазилинейных моделей к данным с пространственно-временной неоднородностью, основанная на использовании весовых коэффициентов.

Вводятся следующие обозначения: g, - географическое положение /-го объекта; g, е Г; Г = {у|,у->,---, Y/} - множество р е г и о й,оевТ; - год проведения исследования; - /-ое наблюдение

По выборке 0 = |/ = 1, П] | строятся модели 1|>т из множества моделей

^ = (*|рТ) | VyerJ , а по вновь поступающим наблюдениям 0' проверяется адекватность модели.

Предполагается, что в рассматриваемый год теТив некотором регионе наблюдения представляют собой однородную совокупность. Рассматривались модели множественной регрессии вида:

где коэффициенты определяются обобщенным методом наимень-

ших квадратов:

4Г)= -Л^тт, (12)

где yt - истинные значения функции отклика; у, =4/^(^1 »•■•»•хш|РТ) - модельные значения функции отклика; - весовые коэффициенты, учитывающие пространственно-временную неоднородность, которые записывались в виде:

ю, =o,(a) = (o¡r(af)-<D;(aT); (13)

а = (0^,0,) - вектор параметров, характеризующих наличие неоднородности

по пространств}' ат и времени ат; <»,т(ат)=е р" - вес 1 -го наблюдения

по пространству; <с^(ат) = е Лт" - вес /-го наблюдения по времени; р(у,&) - мера удаленности между регионами у и gl по пространству; р^ - масштаб меры удаленности; Дт„, - масштаб времени.

Точность модели оценивалась на контрольной группе ©'. Мера качества регрессионных моделей ,1Р определялась по коэффициенту детерминации:

ИЬ-У.Г

к(©',Ч')=/?22 =1

Л'.еЭ'

Яу.-УУ

Л/,60'

(И)

где у - среднее значение Г, определенное по выборке ©'. Задача оптимизации весовых коэффициентов имеет вид.'

а"р1 = ¡¡^(тих к(©', (15)

В результате был получен алгоритм реализации адаптивных моделей, схематично представленный на рис. 6.

т = ео|__т = 90 +1 : т = 0о +2...

Анализ данных: 1

0; ©' = 0; а0'" = (0;0>

Анализ данных: /у_

о4" =аг2{т1ахК.(©',Ч')}; © = ©и©*; ©' = 0

I

у, (-И I ■

Вычисление модельных значений: '1

Сбор новых данных:

0' = ©'и{^}.

Вычисление модельных значений:^

А«, = Р') •

Рис. 6. Схема алгоритма реализации адаптивных моделей

Результаты верификации на модельных данных показали, что алгоритм позволяет надежно определять наличие или отсутствие пространственно-временной неоднородности данных.

Разработанный алгоритм применялся для прогнозирования времени сохранения синусового ритма после купирования пароксизма мерцательной аритмии. В результате при построении квазилинейной модели (9), (10) было найдено оптимальное значение , в то время как без учета пространственно-временной неоднородности, коэффициент детерминации равен R.\ =0,801. Поверхность зависимости коэффициента детерминации от параметров и а, представлена на рис. 7.

Рис. 7. Зависимость коэффициента детерминации от ат И а, на данных с пространственно-временной неоднородностью

Пятая глава посвящена описанию информационно-аналитической системы и ее основных возможностей. Рассматриваются вопросы сбора, хранения и представления данных о пациентах.

Информационно-аналитическая система состоит из двух частей. Первая часть представляет собой интерфейс обработки статистических данных Кар-диоСтат, с блоком статистических расчетов и оптимизации. Вторая часть представляет автоматизированное рабочее место кардиолога с блоком прогнозирования.

Программный комплекс обладает возможностью прогнозирования исходов заболеваний при инфаркте миокарда и времени возникновения повторного пароксизма мерцательной аритмии после восстановления синусового ритма.

Заключение

1. Сформулирована математическая постановка задачи оптимизации интервала неопределенности в задачах классификации и разработан алгоритм ее решения. Метод дает возможность существенно повысить точность классификации за счет введения и оптимизации интервала неопределенных классификаций.

2. Выявлены наиболее важные показатели для прогнозирования летальности и утраты трудоспособности при инфаркте миокарда и построены статистические модели, явившиеся предметами изобретений. Решена задача оптимизации количества переменных, включаемых в модель. На основе обучающей выборки строились модели и верифицировались на контрольной выборке. В результате были определены оптимальные наборы переменных для прогнозирования исходов заболевания так, что при добавлении новой переменной точность моделей на контрольной группе не улучшалась. Применение алгоритма оптимизации интервала неопределенности позволило повысить точность предсказания летального исхода, а также утраты трудоспособности с 80% до 93%.

3. Выявлены наиболее важные показатели для прогнозирования времени сохранения синусового ритма. В ходе исследований были разработаны статистические модели прогнозирования времени сохранения синусового ритма. Рассматривались различные способы аппроксимации: регрессия Кокса и квазилинейные регрессионные модели. Модели строились на обучающей группе пошаговым методом, оптимальный набор переменных определялся на данных контрольной группы. В результате была построена статистическая модель, позволяющая достаточно точно предсказывать время сохранения СР. Были определены плотности распределения и построены доверительные интервалы для прогнозных значений.

4. Разработана математическая модель и алгоритм адаптации статистических моделей к данным с пространственно-временной неоднородностью. В работе предложен один из способов учета пространственно-временной неоднородности при построении вероятностно-статистических моделей. Исследовалась модель множественной регрессии. Алгоритм адаптации был применен к реальным данным. В результате точность модели, которая оценивалась по коэффициенту детерминации на контрольной группе, увеличилась с 0,801 до 0,851.

5. Создана информационно-аналитическая система, состоящая из блока обработки данных, содержащего статистические методы обработки и математические методы оптимизации, и автоматизированного рабочего места кардиолога, куда входят разработанные статистические модели и модели принятия решений, позволяющие осуществлять классификацию и прогнозировать исходы при инфаркте миокарда и мерцательной аритмии. Информационно-аналитическая система внедрена в ряде лечебных учреждений Удмуртской Республики.

Основные публикации по теме диссертации

1. Русяк И.Г., Лещинский Л.А., Фархутдинов А.Ф., Логачева И.В., Пономарев СБ., Суфиянов В.Г. Математическая модель прогнозирования восстановления трудоспособности у больных инфарктом миокарда // Медицинская техника. -1999. -№4.- С. 6-10.

2. Пономарев СБ., Логачева И.В., Русяк И.Г., Мультановский Б.Л. Суфиянов В.Г. Опыт разработки информационно-аналитической системы при инфаркте миокарда и тяжелой артериальной гипертонии // Российский кардиологический журнал. - 1999. - № 4(приложение). - С. 130.

3. Rusyak I.G., Leshchinsky LA, Farkhutdinov A.F., Logachova I.V., Ponomarev S.B., Sufiyanov V.G. A mathematical model for predicting the recovery of working ability in patients with myocardial infarction // Biomedical Engeneering. - 1999. -№4.-P. 7-10.

4. Пономарев СБ., Лещинский Л.А., Суфиянов В.Г. и др. Способ прогнозирования утраты трудоспособности при инфаркте миокарда // Бюллетень «Изобретения, полезные модели». - 1999. - № 30. - Ч. 2. - С. 438.

5. Пономарев СБ., Лещинский Л.А., Суфиянов В.Г. и др. Способ прогнозирования состояния больного после инфаркта миокарда // Бюллетень «Изобретения, полезные модели». - 2000. - № 1. - Ч. 2. - С. 447.

6. Тюлькина Е.Е., Пономарев СБ., Русяк И.Г., Лещинский Л.А., Фархутдинов А.Ф., Суфиянов В.Г. Опыт разработки информационно-аналитической системы для прогнозирования времени сохранения синусового ритма после купирования пароксизма фибрилляции предсердий // Вестник аритмологии. - 2000. -№20. - С. 58-67.

7. Лещинский Л.А., Пономарев СБ., Суфиянов В.Г. и др. К вопросу использования высоких информационных технологий в прогнозировании исходов сердечно-сосудистых заболеваний // Клиническая медицина. - 2000. - Т.48. -№1.- С 31-34.

8. Русяк И.Г., Суфиянов В.Г., Пономарев СБ. Некоторые статистические аспекты прогнозирования времени сохранения синусового ритма // Вестник Ижевского государственного технического университета. - 2001. Вып. 1. - С. 61-64.

9. Русяк И.Г., Суфиянов В.Г., Пономарев СБ. Некоторые статистические аспекты прогнозирования времени сохранения синусового ритма после купирования пароксизма фибрилляции предсердий // Математические методы в медицине и биологии: материалы III Уральской научно-практической конференции. - Екатеринбург, 2001. - С 87-88.

10. Пономарев СБ., Русяк И.Г., Лешинский Л.А., Суфиянов В.Г. Специальные методы синтеза прогностических технологий в медико-социологических исследованиях // Тез. докладов научно-практической конференции «Информатизация процессов управления в региональном здравоохранении». - Ижевск, 2001. -С 196-198.

11. Русяк И.Г., Суфиянов В.Г. Применение логистической регрессии на примере одной задачи распознавания в кардиологии // Тезисы докладов 5-ой Российской университетско-академической научно-практической конференции. -Т.39. - Ижевск: УдГУ, 2001.-Ч.10-С. 55-56.

12. Суфиянов В.Г. Разработка информационно-аналитической системы поддержки принятия решений в кардиологии // Тезисы докладов VII научной конференции молодых ученых и специалистов ОИЯИ. Секция: Информационные технологии и их применение (Дубна, 3-8 февраля 2003 г.). - М.: ВНИИгеоси-стем, 2003. - С. 315-317.

13. Суфиянов В.Г. Оценка оптимального количества переменных в задачах вероятностно-статистического моделирования // Тезисы докладов VII научной конференции молодых ученых и специалистов ОИЯИ. Секция: Применение математических методов информационных технологий в научных исследованиях (Дубна, 3-8 февраля 2003 г.). - М: ВНИИгеосистем, 2003. - С. 365-366.

14. Суфиянов В.Г., Русяк И.Г., Пономарев СБ. Адаптация статистических алгоритмов распознавания образов в условиях неоднородной пространственно-временной структуры данных // Тезисы докладов IV Международной научно-технической конференции «Информационные технологии в инновационных проектах» (Ижевск, 29-30 мая 2003 г.). - Ижевск: Изд-во ИжГТУ, 2003. - Ч. 2. -С. 91-93.

15. Русяк И.Г., Суфиянов В.Г. К вопросу о применении алгоритма адаптации регрессионной модели к данным с пространственно-временной неоднородностью // Интеллектуальные системы в производстве. - Ижевск: Изд-во ИжГТУ, 2004.-№2.-С. 160-167.

Патенты на изобретения:

1. Логачева И.В., Пономарев СБ., Русяк И.Г., Лещинский Л.А., Фархутдинов А.Ф., Суфиянов В.Г., Чернышева Л.Р. Способ прогнозирования утраты трудоспособности при инфаркте миокарда. - Патент на изобретение № 2140649 от

27.10.1999.

2. Пономарев СБ., Логачева И.В., Лещинский Л.А., Русяк И.Г., Фархутдинов А.Ф., Суфиянов В.Г., Корепанов А.А. Способ прогнозирования состояния больного после инфаркта миокарда. - Патент на изобретение № 2144192 от

10.01.2000.

Подписано в печать 27.04.04. Формат 60x84/16 Печать офсетная. Усл. леч. л. 1,1. Тираж 100 экз. Заказ №757.

Отпечатано с оригинал-макета заказчика

Типография Удмуртского государственного университета 426034, Ижевск, ул. Университетская, 1, корп. 4.

Оглавление автор диссертации — кандидата физико-математических наук Суфиянов, Вадим Гарайханович

ОСНОВНЫЕ СОКРАЩЕНИЯ И ОБОЗНАЧЕНИЯ.

ВВЕДЕНИЕ.

1. ОБЗОР СТАТИСТИЧЕСКИХ МЕТОДОВ КЛАССИФИКАЦИИ И ПРОГНОЗИРОВАНИЯ.

1.1. Этапы проведения статистического исследования.

1.2. Обзор подходов к решению задач классификации и прогнозирования.

1.3. Статистический подход к решению задач классификации и прогнозирования.

1.4. Описание объекта исследования.

1.5. Описание методов решения задач классификации и прогнозирования.

1.5.1. Множественный регрессионный анализ.

1.5.2. Логистический регрессионный анализ.

1.5.3. Регрессионный анализ на основе модели пропорциональных интенсивностей Кокса.

1.6. Анализ точности статистической модели.

2. ПОВЫШЕНИЕ ИНФОРМАТИВНОСТИ РЕГРЕССИОННЫХ МОДЕЛЕЙ КЛАССИФИКАЦИИ НА ОСНОВЕ ОПТИМИЗАЦИИ

ИНТЕРВАЛА НЕОПРЕДЕЛЕННОСТИ.

2.1. Постановка задачи повышения информативности статистической модели классификации на основе оптимизации интервала неопределенности.

2.1.1. Стандартная постановка задачи классификации.

2.1.2. Оценка качества модели классификации по выборке.

2.1.3. Постановка и решение задачи классификации на основе оптимизации интервала неопределенности.

2.1.4. Способы аппроксимации распределений.

2.1.5. Проверка гипотезы согласия.

2.2. Решение практической задачи из области кардиологии на основе оптимизации интервала неопределенности.

2.2.1. Прогнозирование утраты трудоспособности и летального исхода в течение года после инфаркта миокарда.

2.2.2. Оценка достаточности данных для построения прогнозной модели.

2.2.3. Применение логистической регрессии для предсказания исходов инфаркта миокарда.

2.2.4. Оценка оптимального количества переменных при прогнозировании утраты трудоспособности на основе логистической регрессионной модели.

2.2.5. Оптимизация интервала неопределенности при решении задачи прогнозирования утраты трудоспособности.

2.2.6. Оценка оптимального количества переменных при прогнозировании летального исхода на основе логистической регрессионной модели.

2.2.7. Оптимизация интервала неопределенности при решении задачи прогнозирования летального исхода.

3. ПРИМЕНЕНИЕ РЕГРЕССИОННЫХ МОДЕЛЕЙ В ЗАДАЧЕ ПРОГНОЗИРОВАНИЯ ВРЕМЕНИ ВОЗНИКНОВЕНИЯ ПОВТОРНОГО ПАРОКСИЗМА МЕРЦАТЕЛЬНОЙ АРИТМИИ.

3.1. Объект и методы исследования.

3.2. Применение множественного регрессионного анализа в задаче прогнозирования времени возникновения повторного пароксизма мерцательной аритмии.

3.2.1. Аппроксимация времени возникновения повторного пароксизма мерцательной аритмии квазилинейной зависимостью.

3.2.2. Оценка оптимального количества переменных в модели прогнозирования времени возникновения повторного пароксизма мерцательной аритмии.

3.2.3. Интервальный прогноз времени возникновения повторного пароксизма мерцательной аритмии для логистической зависимости.

3.2.4. Оценка оптимального количества переменных в модели регрессии Кокса для прогнозирования времени возникновения пароксизма мерцательной аритмии.

4. РАЗРАБОТКА АДАПТИВНЫХ АЛГОРИТМОВ ПОСТРОЕНИЯ СТАТИСТИЧЕСКИХ МОДЕЛЕЙ С ПРОСТРАНСТВЕННО-ВРЕМЕННОЙ НЕОДНОРОДНОСТЬЮ.

4.1. Постановка задачи разработки модели статистической системы с пространственно-временной структурой.

4.1.1. Определение весовых коэффициентов, учитывающих временную неоднородность данных.

4.1.2. Определение весовых коэффициентов, учитывающих пространственную неоднородность данных.

4.1.3. Определение весовых коэффициентов, учитывающих совместную пространственно-временную неоднородность данных.

4.2. Оценка весовых коэффициентов наблюдений, при построении логистической регрессионной модели.

4.3. Метод определения параметров ау и ат в весовых коэффициентах.

4.4. Критерии качества моделей распознавания.

4.5. Общая схема построения моделей, в условиях пространственно-временной неоднородности.

4.6. Верификация алгоритма адаптации на модельных данных.

4.7. Применение алгоритма адаптации к данным с пространственно-временной неоднородностью.

5. РАЗРАБОТКА И ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ ВРАЧА-КАРДИОЛОГА.

5.1. Обзор программного обеспечения сбора и обработки статистических данных.

5.2. Архитектура информационно-аналитической системы.

5.2.1. Структура базы данных информационно-аналитической системы.

5.2.2. Возможности информационно-аналитической системы.

Введение 2004 год, диссертация по информатике, вычислительной технике и управлению, Суфиянов, Вадим Гарайханович

Актуальность темы исследования. Статистические методы находят все более широкое применение в областях, изучающих объекты, подверженные большой вариабельности, в частности, это относится к медико-биологическим, социальным и экономическим исследованиям. Исследования в области методов обработки статистических данных начались, как отмечает Б.В. Гнеденко [1], во второй половине XVII века, но систематическое построение основ теории вероятности и математической статистики началось позже. В 1763 г. Т. Байес опубликовал работу, которая легла в основу целого направления в статистике — байесовского подхода. Весьма значимый вклад в исследование статистических методов, как отмечают авторы [2], внес К. Гаусс, который разработал один из наиболее эффективных способов восстановления зависимостей - метод наименьших квадратов (МНК). К. Гаусс, и независимо от него П. Лаплас, изучили свойства нормального распределения [3]. Дальнейшие исследования в области статистики продолжались по пути изучения свойств параметрических семейств распределений. Изучались предельные свойства числовых характеристик выборок при стремлении количества наблюдений к бесконечности. Значимый вклад в исследование предельных свойств распределений внесли выдающиеся русские математики П.Л. Чебышев, А.А. Марков, A.M. Ляпунов.

Началом современного этапа развития статистических методов, как указывает А.И. Орлов [4], можно считать начало XX века с момента опубликования работ К. Пирсона. Он обобщил и математически обосновал применение многих статистические методов анализа данных, например, корреляционного анализа, вывел обобщенное дифференциальное уравнение, из которого можно получить большинство из известных законов распределения и т.д. Областью приложения статистических методов первоначально было исследование биомедицинских данных, именно поэтому К. Пирсоном в 1900 году был основан журнал "Biometrika", в котором обсуждались как статистические, так и биомедицинские исследования. Среди других известных биостатистиков важную роль сыграл Ф. Гальтон [4], который, при изучении одной из задач наследственности, ввел термин регрессия, закрепившийся за множественным регрессионным анализом. Наиболее существенный вклад в основании современной параметрической статистики внесли работы Р. Фишера, в которых он разработал и обосновал применение широкого круга статистических методов, в том числе и метода максимального правдоподобия. Этот метод является базисом при оценке параметров большинства статистических моделей.

Работы этих ученых заложили основы современного параметрического анализа данных. Тогда же статистические методы для конкретных отраслей знаний получили свои названия, так биометрика (биостатистика) занимается изучением объектов живой природы, эконометрика - изучает экономические явления и т.д. Несмотря на различие объектов исследования, методы обработки данных существенно не различаются.

Применение параметрических методов при обработке реальных данных показало, что область их применения достаточно ограничена. Поэтому были начаты исследования по разработке непараметрических статистических методов, предназначенных для обработки реальных данных, не зависящих от вида распределения. Большое влияние на развитие непараметрических методов оказали работы таких математиков как А.Н. Колмогоров и Б.В. Смирнов, которые предложили непараметрические методы проверки критерия согласия, а также работы Д.Р. Кокса, предложившего одну из основополагающих моделей - модель пропорциональных интенсивностей при изучении вопроса выживаемости.

На основе статистического подхода, разработан огромный спектр методов прогнозирования и классификации, каждый из них имеет свои преимущества и недостатки. Конечной же целью использования статистических методов является разработка адекватной (качественной) модели. Оценкой качества моделей является проверка применимости их на новых данных. Достаточно широко распространены случаи, когда достаточно точные модели на обучающей группе являются менее точными на практике. Этот эффект известен как «переобучение», который состоит в том, что при усложнении статистической модели, за счет введения новых параметров или при добавлении новых переменных, существует предел, при котором точность модели на контрольной группе не увеличивается или даже уменьшается. Поэтому необходимо искать другие пути повышения точности моделей.

Наряду с задачей увеличения точности модели достаточно важным является вопрос пространственно-временной неоднородности данных, в том числе и в регрессионном смысле [2]. Так, с одной стороны, модель, разработанная по данным одного региона, может не работать в условиях другого региона. С другой стороны, изменения внешних условий могут воздействовать на изучаемые явления, что особенно характерно для вариабельных систем. В медицинских исследованиях, изучающих в основном биологические системы, внешними факторами могут служить изменение экологической, социально-экономической обстановки и т.п. В связи с этим необходимо разрабатывать системы, адаптированные к региону и определенному времени.

Важно отметить, что область приложения данной работы - медицина, которая наряду с другими гуманитарными дисциплинами, остается, по мнению многих авторов [5-10], наукой, в которой доля математики все еще мала по сравнению с такими естественнонаучными областями, как физика, химия, астрономия и т.д. Несмотря на широкий спектр математических методов прогнозирования, традиционным в медицине, по-прежнему, остается предсказание возможного исхода течения болезни на основе личного опыта и интуиции врача. И этому есть свои причины, которые, как указывают авторы монографии [10], кроются в историческом развитии математики и медицины, отличающиеся своей методологией, философией и системой научных приоритетов. Как отмечает И.М. Гельфанд [8], "непостижимая эффективность математики в естественных науках не распространяется пока на науки гуманитарные и описательные", что связанно с особенностью эмпирической части медицины, которая отличается не только значительным объемом, но и тем, что сам характер рассматриваемых явлений характеризуется значительной сложностью. Поэтому, из всего спектра математических методов, наиболее адекватное применение в медицинских исследованиях находят методы вероятностно-статистического характера.

Целью работы является разработка адаптивного алгоритма построения статистических моделей для анализа данных с пространственно-временной неоднородностью, а также исследование возможности повышения точности статистических моделей.

Объектом исследования и разработки является информационно-аналитическая система для решения задач прогнозирования исходов заболеваний в кардиологии.

Предметом исследования являются статистические модели задач классификации и прогнозирования по данным медицинского обследования. В ходе работы решались следующие научные и практические задачи:

1. Разработка методов повышения точности статистических моделей распознавания.

2. Разработка вероятностно-статистических моделей прогнозирования летального исхода и утраты трудоспособности в течение года после инфаркта миокарда (ИМ).

3. Разработка вероятностно-статистической модели прогнозирования времени сохранения синусового ритма (CP) после купирования пароксизма мерцательной аритмии (МА).

4. Разработка алгоритма адаптации статистической модели к данным с неоднородной пространственно-временной структурой.

5. Разработка программного комплекса для сбора, хранения, первичной обработки данных о пациентах и статистического моделирования исходов кардиологических заболеваний.

Для решения указанных задач использовались методы статистической обработки данных и средства объектно-ориентированного программирования.

По теме диссертации опубликовано 15 печатных работ [114-128], в том числе 9 статей и 6 тезисов докладов. Получено 2 патента на изобретения [129, 130].

Диссертационная работа состоит из введения, пяти глав и заключения.

Заключение диссертация на тему "Разработка адаптивных статистических моделей классификации и прогнозирования"

Основные выводы по работе:

1. Сформулирована математическая постановка задачи оптимизации интервала неопределенности в задачах классификации и разработан алгоритм ее решения. Метод дает возможность существенно повысить точность классификации за счет введения и оптимизации интервала неопределенных классификаций.

2. Выявлены наиболее важные показатели для прогнозирования летальности и утраты трудоспособности при инфаркте миокарда и построены статистические модели, явившиеся предметами изобретений. Решена задача оптимизации количества переменных, включаемых в модель. На основе обучающей выборки строились модели и верифицировались на контрольной выборке. В результате были определены оптимальные наборы переменных для прогнозирования исходов заболевания так, что при добавлении новой переменной точность моделей на контрольной группе не улучшалась. Применение алгоритма оптимизации интервала неопределенности позволило повысить точность предсказания летального исхода, а также утраты трудоспособности с 80% до 93%.

3. Выявлены наиболее важные показатели для прогнозирования времени сохранения синусового ритма. В ходе исследований были разработаны статистические модели прогнозирования времени сохранения синусового ритма. Рассматривались различные способы аппроксимации: регрессия Кокса и квазилинейные регрессионные модели. Модели строились на обучающей группе пошаговым методом, оптимальный набор переменных определялся на данных контрольной группы. В результате была построена статистическая модель, позволяющая достаточно точно предсказывать время сохранения СР. Были определены плотности распределения и построены доверительные интервалы для прогнозных значений.

4. Разработана математическая модель и алгоритм адаптации статистических моделей к данным с пространственно-временной неоднородностью. В работе предложен один из способов учета пространственно-временной неоднородности при построении вероятностно-статистических моделей. Исследовалась модель множественной регрессии. Алгоритм адаптации был применен к реальным данным. В результате точность модели, которая оценивалась по коэффициенту детерминации на контрольной группе, увеличилась с 0,801 до 0,851.

5. Создана информационно-аналитическая система, состоящая из блока обработки данных, содержащего статистические методы обработки и математические методы оптимизации, и автоматизированного рабочего места кардиолога, куда входят разработанные статистические модели и модели принятия решений, позволяющие осуществлять классификацию и прогнозировать исходы при инфаркте миокарда и мерцательной аритмии. Информационно-аналитическая система внедрена в ряде лечебных учреждений Удмуртской Республики.

ЗАКЛЮЧЕНИЕ

В ходе проведенных исследований был проведен статистический анализ медицинских данных и предложены методы повышения точности моделей классификации и прогнозирования, которые были реализованы в виде информационно-аналитической системы. По результатам исследований опубликованы 15 печатных работ [114-128] и получено 2 патента на изобретения [129, 130].

Библиография Суфиянов, Вадим Гарайханович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Гнеденко Б.В. Введение в специальность математика. — М.: Наука, 1991. — 240 с.

2. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. В 2-х книгах: Кн.1— М.: Финансы и статистика, 1986. 366 с. — Кн. 2 — М.: Финансы и статистика, 1987.-351 с.

3. Орлов А.И. Современная прикладная статистика // Журнал «Заводская лаборатория». 1998. - Т. 64. - № 3. - С. 52-60.

4. Бейли Н. Математика в биологии и медицине. М.: Мир, 1970. - 326 с.

5. Фролов Т.И. Моделирование и математизация биологических исследований // В кн. Философия и современная биология. М.: Изд-во политической литературы, 1974. - С. 96-119.

6. Гельфанд И.М. и др. Некоторые задачи классификации и прогнозирования из различных областей медицины // Вопросы кибернетики. Вып. 112.-С. 91-98.

7. Гельфанд И.М., Розенфельд Б.И., Шифрин М.А. Очерки о совместной работе математиков и врачей. — М.: Наука, 1989. 270 с.

8. Шевченко Ю.Л. и др. Прогнозирование в кардиохирургии. СПб., 1998. -274 с.

9. Ю.Пономарев С.Б., Лещинский Л.А., Русяк И.Г. Очерки прогнозирования в кардиологии. Ижевск, 2000. - 192 с.

10. П.Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983.-471 с.

11. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. М.: Финансы и статистика, 1985. - 487 с.

12. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989. - 607 с.

13. Н.Мазуров В.Д. Метод комитетов в задачах оптимизации и классификации. -М.: Наука, 1990.-248 с.

14. Эльясберг П.Е. Измерительная информация: сколько ее нужно? как ее обрабатывать? М.: Наука, 1983. - 208 с.

15. Вентцель Е.С. Теория вероятностей. М.: Высшая школа, 2002. - 575 с.

16. Ван дер Варден. Математическая статистика. М.: Изд-во иностранной литературы, 1960. - 434 с.

17. Крамер Г. Математические методы статистики. М.: Мир, 1975. - 648 с.

18. Джессер Р. Методы статистических исследований. М.: Финансы и статистика, 1985.-276 с.

19. Дюге Д. Теоретическая и прикладная статистика. М.: Наука, 1972. — 383 с.

20. Браунли К.А. Статистическая теория и методология в науке и технике. -М.: Наука, 1977.-407 с.

21. Леман Э. Теория точечного оценивания. М.: Наука, 1991. - 444 с.

22. Болыиев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983.-474 с.

23. Холлендер М., Вульф Д. Непараметрические методы статистики. М.: Финансы и статистика, 1983. - 518 с.

24. Кокрен У. Методы выборочного исследования. М.: Статистика, 1976. -440 с.

25. Справочник по прикладной статистике. В 2-х т. /Под ред. Э. Ллойда, У. Ледермана, Ю.Н. Тюрина. М., 1989. - Т.1. - 510 с.

26. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. М.: Мир, 1982. - 488 с.

27. Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. / Под ред. В.Э. Фигурнова. М.: ИНФРА-М, 1998. - 528 с.

28. StatSoft, Inc. Электронный учебник по статистике. М.: StatSoft, 2001. -WEB: http://www.statsoft.ru/home/textbook/default.html

29. Теория статистики: Учебник / Под ред. Г.Л. Громыко. М.: ИНФРА-М, 2000.-414 с.

30. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2000. - 384 с.

31. Уотермен Д. Руководство по экспертным системам. М.: Мир, 1989. -388с.

32. Reggia J.A. Representing and using medical knowledge for neurological localization // Report TR-693, Computer Science Dept., University of Maryland. -1988.- 149 p.

33. Shortliffe E.H., Buchanan B.G., Feigenbaum E.A. Knowledge engineering for medical decision-making: a review of computer-based clinical decision aids // Proceedings of the IEEE. 1979. - Vol. 67. - No. 9. - P. 1207-1224.

34. Саркисян C.A., Каспин B.H., Лисичкин B.A. Теория прогнозирования и принятия решений. — М.: Высшая школа, 1977. — 351 с.

35. Zadeh L.A. Fuzzy sets // Inf. Control. 1965. - No. 8. - P. 338-353.

36. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. М.: Мир, 1976. - 165 с.

37. Де Гроот М. Оптимальные статистические решения. М.: Мир, 1974. — 494 с.39.0рлов А.И. Задачи оптимизации и нечеткие переменные. М.: Знание, 1980.-64 с.

38. Орловский С.А. Проблемы принятия решений при нечеткой исходной информации. -М.: Наука, 1981.-208 с.

39. Бонгард М.М. Проблема узнавания. М.: Наука, 1967. — 320 с.

40. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания и классификации // Проблемы кибернетики. 1978. — Вып. 33. - С. 568.

41. Розенблатт Ф. Принципы нейродинамики. М: Мир, 1965. - 480 с.

42. Минский М. Д., Пейперт С. Персептроны. М: Мир, 1971.-261 с.

43. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика. М., 1992.-240 с.

44. Буров К. Обнаружение знаний в хранилищах данных // Открытые системы. 1999. -№ 05-06. http://www.osp.ru/os/1999/05-06/14.htm

45. Ожегов С.И. Словарь русского языка. Екатеринбург: Урал-Советы, 1994. - 800 с.

46. Вучков И., Бояджиева Л., Солаков Е. Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987. — 239 с.

47. Демиденко Е. 3. Линейная и нелинейная регрессия. М.: Финансы и статистика, 1981.-302 с.

48. Четыркин Е.М. Статистические методы прогнозирования. М.: Статистика, 1977.-200 с.

49. Дубров А. М., Мхитарян B.C., Трошин Л.И. Многомерные статистические методы. -М.: Финансы и статистика, 1998. -352 с.

50. Шурыгин A.M. Прикладная стохастика: робастность, оценивание, прогноз. — М.: Финансы и статистика, 2000. —224 с.

51. Elfving G. Optimum estimation allocation in linear regression theory // Ann. Math. Statist. 1952. - Vol. 23. - P. 255.

52. DeMaris A. Logit modeling: Practical applications. Thousand Oaks, CA: Sage Publications. - 1992. - No. 106.-241 c.

53. Press S. J., Wilson S. Choosing Between Logistic Regression and Discriminant Analysis // Journal of the American Statistical Association. — 1978. — Vol. 73. -No 364.-P. 699-705.

54. Lee E.T. A Computer Program for Linear Logistic Regression Analysis // Computer Programs in Biomedicine. 1974. - Vol. 4. - P. 80-92.

55. Nagelkerke N.J.D. A note on a general definition of the coefficient of determination//Biometrika. 1991. - Vol. 78.-No. 3.-P. 691-692.

56. Menard S. Applied logistic regression analysis. Thousand Oaks, CA: Sage Publications. Series: Quantitative Applications in the Social Sciences. - 1995. -No. 106.- 128 p.

57. Gehan, E. A. Statistical methods for survival time studies. Cancer Therapy: Prognostic Factors and Criteria. New York: Raven Press, 1975. - P. 7-35.

58. Кокс Д.Р., Оукс Д. Анализ данных типа времени жизни. М: Финансы и статистика, 1988.- 191 с.

59. Сох D. R. Regression models and life tables // Journal of the Royal Statistical Society, Series В. 1972.-No. 34-P. 187-220.

60. Байхельт Ф., Франкен П. Надежность и техническое обслуживание. Математический подход. М.: Радио и связь, 1988. - 392 с.

61. Боровиков В.П. Программа STATISTIC А для студентов и инженеров. -М.: КомпьютерПресс, 2001. 301 с.

62. Storer В. Е., Crowley J. A diagnostic for Сох regression and general conditional likelihoods // Journal of the American Statistical Association. 1985. -No. 80.-P. 139-147.

63. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. М.: Финансы и статистика, 1988. - 263 с.

64. Snee R.D. Some aspects of nonorthogonal data analysis: Part I. Developing prediction equations // J. Quality Technol. 1973. - No. 5. - P. 67-79.

65. Горелик A.JI., Гуревич И.Б., Скрипкин B.A. Современное состояние проблемы распознавания. М.: Радио и связь, 1985. - 160 с.

66. Статистическая классификация, основанная на выборочных распределениях. / Иголкин В.Н., Ковригин А. и др. Л.: Изд-во ЛГУ, 1978. - 104 с.

67. Вапник В.Н., Червоненкис А .Я. Теория распознавания образов. Статистические проблемы обучения. — М.: Наука, 1974. 415 с.

68. Бююль А., Цёфель П. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. -СПб.: ДиаСофтЮП, 2002. 608 с.

69. Лесин В.В., Лисовец Ю.Н. Основы методов оптимизации. М.: МАИ, 1995.-344 с.

70. Аоки М. Введение в методы оптимизации. М.: Наука, 1977. - 344 с.

71. Васильев Ф.П. Численные методы решения экстремальных задач. — М.: Наука, 1988.-552 с.

72. Каханер Д., Моулер К., Нэш С. Численные методы и программное обеспечение. М.: Мир, 1988. - 575 с.

73. Гилл Ф., Мюррей У., Райт М. Практическая оптимизация. М.: Мир, 1985.-509 с.

74. Кендалл М., Стьюарт А. Теория распределений. — М.: Наука, 1966. — 587 с.

75. Ивченко Б.П., Мартыщенко Л.А., Монастырский М.Л. Теоретические основы информационно-статистического анализа сложных систем. СПб.: Лань, 1997.-320 с.

76. Хастингс Н., Пикок Дж. Справочник по статистическим распределениям. М.: Статистика, 1980. - 95 с.

77. Smirnov N. V. Table for estimating the goodness of fit of empirical distributions // Annals of Mathematical Statistics. 1948. - No. 19. - P. 279-281.

78. Schnur S. Mortality rates in acute myocardial infarction. A proposed method for measuring quantatively severity of illness on admission to the hospital // Ann. Intern. Med. 1953.-Vol. 39.-P. 1018.

79. Peel A.A., Semple Т., Wand I., Lancaster W., Dall I. A coronary prognostic index for grading the severity of infarction // Brit. Heart. J. 1962. - Vol. 234. -P. 745.

80. Norris R.M., Brandt W.P., Caughey D.E., Lee A.I., Scott P.I. A new coronary prognostic index. Lancet, 1969. - Vol. 1. - P. 274.

81. Халфен Э.Ш. Кардиологический центр с дистанционным и автоматическим наблюдением за больными. — М.: Медицина, 1980. 189 с.

82. Лещинский Jl.А., Пономарев С.Б., Липовецкий Ю.М., Мультановский Б.Л., Буланкин А.В. Способ прогнозирования отдаленного исхода инфаркта миокарда. — Патент на изобретение 2114552 от 10.07.1998.

83. Лещинский Л.А., Пономарев С.Б., Мультановский Б.Л., Липовецкий Ю.М. Способ прогнозирования трудоспособности после перенесенного инфарктом миокарда. Патент на изобретение 2073486 от 20.02.1997.

84. Лещинский Л.А., Валеева P.M., Воронцов A.M. Способ определения устойчивости эритроцитов к перекисному гемолизу. Патент на изобретение 2102766. С1. от 16.06.1995.

85. Лещинский Л.А., Тюлькина Е.Е. Фармакологическое лечение фибрилляции предсердий. В кн. «Мерцательная аритмия. Стратегия и тактика лечения на пороге XXI века». СПб. - Ижевск. - М.: Алфавит, 1998. — С. 1582.

86. Levy S. Epidemiology of atrial fibrillation: clinical implication and relevance to therapy // Practical Therapeutic Strategies for Atrial Fibrillation: Thesis of symposium held in conjunction with Europace 97. Athens, 1997.

87. Лукошявичуте А.Й., Печулене И.Р. Опыт применения многократных электрических дефибрилляций по поводу мерцания предсердий у больных ишемической болезнью сердца // Кардиология. 1981. - № 9. -С. 38-40.

88. Егоров Д.Ф., Гордеев О.Л. О распространенности мерцательной аритмии в кардиологических стационарах г. Ленинграда // В сб. научных трудов Ле-нингр. НИИ кард. «Современные методы лечения сердечно-сосудистых заболеваний». Л., 1991. - С. 257-264.

89. Алексеевская М.А., Недоступ А.В. Диагностические игры в медицинских задачах: на примере прогнозирования срока сохранения синусового ритма после устранения мерцательной аритмии // Вопросы кибернетики. 1985. -Вып. 112.-С. 128-138.

90. Кадырова М.М. Антиаритмический и гемодинамический эффекты алла-пинина у больных с мерцательной аритмией до и после восстановлениясинусового ритма в сравнении с хиндином бисульфатом: Дисс.-r канд. мед. наук. М., 1990. - 109 с.

91. Либерман Б.М. О математическом прогнозировании устойчивости синусового ритма после устранения мерцательной аритмии у больных с ИБС // Актуальные вопросы современной медицины. — Таллин, 1973. — С. 42-46.

92. Недоступ А.В., Сыркин А.Л., Маевская И.В. Электроимпульсная терапия марцательной аритмии Н В кн. «Мерцательная аритмия. Стратегия и тактика лечения на пороге XXI века». СПб. - Ижевск. - М.: Алфавит, 1998. -С. 84-121.

93. Kato М et al. An echocardiographic index predictive of larly fecurrence of atrial fibrillation after cardioversion // Eur. Heart J. August, 1996. - No. 17. -P. 2587.

94. Ельков A.H., Новосельцев B.H. Метод прогнозирования состояния организма в экстремальной ситуации // В сб. Физиологическая и медицинская информатика. Киев, 1990. - С. 66-69.

95. Killip Т., Yomark S. Short and long-term results from DC conversion for atrial fibrillation and flutter // Circulation. 1965. - Vol. 33. - P. 125.

96. ЮО.Березный E.A. Корреляционная ритмография при исследевании и лечении больных мерцательной аритмией // Кардиология. 1981. - №5. -С. 9496.

97. Пономарев С.Б., Тюлькина Е.Е., Русяк И.Г., Лещинский Л.А., Фархутди-нов А.Ф. Способ прогнозирования повторного пароксизма мерцательной аритмии. Патент на изобретение № 2187965 от 27.08.2002.

98. Тюлькина Е.Е., Пономарев С.Б., Русяк И.Г. и др. Способ прогнозирования сохранения синусового ритма после купирования мерцательной аритмии. — Патент на изобретение № 2167596 от 27.05.2001 г.

99. Box G.E.P., Сох D.R. An analysis of transformations // Journal of the Royal Statistical Society. 1964. - Vol. 26. - P. 211-243.

100. Наука. Инфаркт миокарда // Газета "Медицинская газета". — № 95-99 http://medgazeta.rusmedserv.com/1999/95/nau.htm

101. Недосекин А.О. Применение теории нечётких множеств к задачам управления финансами. http://www.optim.rU/fin/2000/2/upr fin/uprfin 1 .asp

102. Дерр В.Я., Дизендорф К.И. Статистическое моделирование: Метод, указания к лаб. раб. по курсу «Теория вероятностей и математическая статистика». Ижевск: Изд-во ИжГТУ, 2001. - 52 с.

103. Айвазян С.А., Степанов B.C. Инструменты статистического анализа данных // Мир ПК. 1997. - №8. - С. 32-41.

104. Енюков И.С. Методы алгоритмы программы многомерного статистического анализа: Пакет 1111СА. М.: Финансы и статистика, 1986. - 232 с.

105. ПО.Кулаичев А.П. Методы и средства анализа данных в среде Windows. STADIA 6.0. М.: Информатика и компьютеры, 1998. - 270 с.

106. Александров В.В., Алексеев А.И., Горский Н.Д. Анализ данных на ЭВМ (на примере системы СИТО). М.: Финансы и статистика, 1990. 192 с.

107. Векслер Л.С. Статистический анализ на персональном компьютере // Мир ПК. 1992. - № 2. - С. 89-97.

108. Mathematics&Statistics. London: International Thomson Publisher. - 1997. -46 p.

109. Русяк И.Г., Лещинский Л.А., Фархутдинов А.Ф., Логачева И.В., Пономарев С.Б., Суфиянов В.Г. Математическая модель прогнозирования восстановления трудоспособности у больных инфарктом миокарда // Медицинская техника. 1999. - №4. - С. 6-10.

110. Пономарев С.Б., Лещинский Л.А., Суфиянов В.Г. и др. Способ прогнозирования утраты трудоспособности при инфаркте миокарда // Бюллетень «Изобретения, полезные модели». 1999. - № 30. - Ч. 2. - С. 438.

111. Пономарев С.Б., Лещинский Л.А., Суфиянов В.Г. и др. Способ прогнозирования состояния больного после инфаркта миокарда // Бюллетень «Изобретения, полезные модели». 2000. - № 1. - Ч. 2. - С. 447.

112. Лещинский Л.А., Пономарев С.Б., Суфиянов В.Г. и др. К вопросу использования высоких информационных технологий в прогнозировании исходов сердечно-сосудистых заболеваний // Клиническая медицина. -2000. Т.48. - № 1. - С. 31 -34.

113. Русяк И.Г., Суфиянов В.Г., Пономарев С.Б. Некоторые статистические аспекты прогнозирования времени сохранения синусового ритма // Вестник Ижевского государственного технического университета. — 2001. -Вып. 1.-С. 61-64.

114. Русяк И.Г., Суфиянов В.Г. К вопросу о применении алгоритма адаптации регрессионной модели к данным с пространственно-временной неоднородностью // Интеллектуальные системы в производстве. — Ижевск: Изд-во ИжГТУ, 2004. №2. - С. 160-167.

115. Логачева ИВ., Пономарев С.Б., Русяк И.Г., Лещинский Л.А., Фархутди-нов А.Ф., Суфиянов В.Г., Чернышева Л.Р. Способ прогнозирования утраты трудоспособности при инфаркте миокарда. Патент на изобретение № 2140649 от 27.10.1999.

116. Пономарев С.Б., Логачева И.В., Лещинский Л.А., Русяк И.Г., Фархутди-нов А.Ф., Суфиянов В.Г., Корепанов А.А. Способ прогнозирования состояния больного после инфаркта миокарда. Патент на изобретение № 2144192 от 10.01.2000.