автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Факторный анализ и другие многомерные статистические методы диагностики кардиопатологий

кандидата физико-математических наук
Гольтяпин, Виктор Викторович
город
Омск
год
2002
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Факторный анализ и другие многомерные статистические методы диагностики кардиопатологий»

Оглавление автор диссертации — кандидата физико-математических наук Гольтяпин, Виктор Викторович

Введение.

Глава I. Факторный анализ и методы распознавания. образов, математическая постановка задачи.

1.1 Основная цель факторного анализа.

1.2 Базовая идея факторного анализа как метода уменьшения числа данных.

1.2.1 Комбинирование двух переменных в один фактор.

1.2.2 Компонентный анализ.

1.2.3 Выделение основных компонент.

1.2.4 Обобщающий случай многочисленных переменных.

1.2.5 Многомерные ортогональные факторы.

1.2.6 Как много факторов выделять?.

1.2.7 Рассмотрение результатов компонентного анализа.

1.2.8 Собственные значения.

1.2.9 Собственные значения и проблема числа факторов.

1.2.10 Критерий Кайзера.

1.2.11 Графический тест.

1.2.12 Какие критерии использовать?.

1.2.13 Факторный анализ. Общности.

1.2.14 Компонентный и факторный анализ.

1.3 Факторный анализ как классификационный метод.

1.3.1 Факторные нагрузки.

1.3.2 Вращательные стратегии.

1.3.3 Интерпретация факторной структуры.

1.3.4 Косоугольные факторы.

1.3.5 Иерархический факторный анализ.

1.3.6 Априорный факторный анализ.

1.4 Другие аспекты факторного анализа.

1.4.1 Факторное множество.

1.4.2 Воспроизведенные и остаточные корреляции.

1.4.3 Вращение факторной структуры. Плохо обусловленная корреляционная матрица.

1.5 Вероятностные методы распознавания.

1.6 Метрические методы распознавания.

1.7 Формализация медицинской постановки задачи.

1.8 Математическая постановка задачи.

Глава II. Описание информационно-вычислительной экспертной системы.

2.1 Описание интерфейса первой программной формы информационно-вычислительной экспертной системы и алгоритм работы с ней.

2.2 Описание интерфейса второй программной формы информационновычислительной экспертной системы и алгоритм работы с ней.

Глава III. Базовые многопараметрические факторные модели и их гибридизации, используемые в диагностировании кардиологических признаков.

3.1 Описание общей факторной модели. Алгоритм расчета факторных выражений.

3.2 Классификация факторных нагрузок. Понятие факторной структуры.

3.3 Варимакс вращение, как метод поиска "простой структуры" ортогональных моделей факторного анализа. Алгоритм поиска угла вращения.

3.4 Вариация метода главных компонент (МГК).

3.4.1 Варимакс вращение и критерий отсеивания % незначимых факторов для МГК.

3.4.2 Тестирование новой факторной модели на данных "физиологическая норма" и митральный стеноз различной степени. Вычислительный эксперимент.

3.4.3 Факторные диаграммы "физиологической нормы" и митрального стеноза 1-ой и 5-ой степени.

3.4.4 Обсуждение результатов и выводы.

3.5 Итерационный метод главных факторов (МГФ) с варимакс вращением. Нахождение редуцированной матрицы.

3.5.1 Тестирование МГФ и МГК на данных "физиологическая норма" и митральный стеноз различной степени (13 параметров). Сравнение матриц весовых нагрузок МГК и МГФ. Вычислительный эксперимент.

3.5.2 Факторные диаграммы состояния "физиологическая норма" и митральный стеноз 1-ой и 5-ой степени полученные МГФ и МГК.

3.5.3 Обсуждение результатов и выводы.

3.6 Метод нахождения факторных значений при прямоугольной матрице весовых нагрузок факторов.

3.7 Способы вычисления оценок общностей.

3.7.1. Способ наибольшей корреляции.

3.7.2. Коэффициент множественной корреляции как первичная оценка общности.

3.7.3. Итеративная процедура.

3.8 Нахождение обратной матрицы R"1 методом квадратного корня.

3.9 Нахождение собственных значений и собственных векторов матрицы R методами вращения.

3.9.1 Прямой метод вращения для эрмитовых матриц.

3.9.2 Итерационный метод вращения.

3.9.3 Нахождение собственных значений и собственных векторов матрицы R путем объединения прямого и итерационного метода вращения.

Глава IV. Метод распознавания образов, базирующийся на гибридизации формулы Байеса для распознавания классов с методом главных компонент и стохастической аппроксимацией и-мерной функции плотности распределения.

4.1 Байесовский критерий для задачи распознавания образов.

4.2 Аппроксимация плотности распределения вероятности.

4.3 Определение уровня значимости.

4.4 Обсуждение результатов и выводы.

Глава V. Метрические методы распознавания на базе факторной модели -метода главных компонент.

5.1 Общая постановка задачи таксономии.

5.2 Решение проблемы весовых множителей для решающего правила посредством использования факторной модели.

5.3 Новый метод таксономии, основанный на гибридизации метода главных компонент с методом определения расстояния объекта до центра класса.

5.4 Обсуждение результатов и выводы.

Выводы.

Введение 2002 год, диссертация по информатике, вычислительной технике и управлению, Гольтяпин, Виктор Викторович

Актуальность работы

Внедрение в клиническую практику многопараметрических измерительных комплексов на порядок увеличивает объем информации для клинициста, при этом существенно усложняется анализ результатов исследований [1,2,8,27,28]. Длительный мониторинг параметров гомеостаза в отделениях кардиологии, реанимации, интенсивной терапии, применение «объемных» методов исследования: двухмерная эхокардиография, доплерокардиография, определение структурно-геометрических, интраоперационных показателей сердца - требует особых математических методов при анализе результатов.

Статистические методы распознавания образов все больше привлекают внимание специалистов в области теории и практики распознавания образов и автоматической классификации. Однако, в настоящее время сложилась парадоксальная ситуация: при обилии отечественных теоретических работ в области математической статистики используются зарубежные программные комплексы, в которых реализованы почти все классические статистические методы и модели. Современный заказчик таких программных комплексов предпочитает надежные системы, в которых реализованы определенные статистические модели и методы с удобным интерфейсом. Через некоторое время исследователь понимает, что методов или моделей данного программного комплекса ему недостаточно; программный комплекс не позволяет модифицировать модель под конкретную узконаправленную задачу.

Решение проблемы - программирование отечественного специализированного комплекса, направленного на решение конкретной специфической задачи в определенной области деятельности и основанного на современных статистических методах. Уровень использования прикладной статистики в медицинской и биологической науке не отвечает современным возможностям. Практически не используются методы многомерной статистики: множественная регрессия, кластерный анализ, факторный анализ и т.д.

На данном этапе в медицине отсутствуют информационно-вычислительные экспертные системы, с помощью которых можно провести классификацию заболевания или нормального состояния индивидуума по совокупности корреляционно зависимых параметров, а также выявить скрытые процессы, которые определяют данное нарушение гомеостаза. Существующие компьютерные системы позволяют провести стандартную статистическую обработку данных без учета следующих особенностей: а), специфичности медицинских параметров, б), их корреляционной зависимости, в), необходимости сокращения размерности параметров для дальнейшего анализа.

Следовательно, создание информационно-вычислительной экспертной системы для дифференциальной диагностики кардиопатологий, количественной оценки степени нарушения гомеостаза, выявления компенсаторно-адаптационных механизмов организма является актуальным.

Цель работы

Целью данной работы являлась разработка новых математических методов и моделей универсальной информационно-вычислительной экспертной системы для выявления основных закономерностей при решении проблемы первичной диагностики заболеваний. Основой системы является специфический математический аппарат. Аппарат, посредством которого происходит: отсеивание незначимых данных, формирование классов данных (определенные виды заболеваний), определяется принадлежность диагностируемого к тому или иному классу, выделение значимых факторов, характеризующих то или иное заболевание, и, в конечном итоге, объективная количественная оценка тяжести заболевания, определение степени хирургического риска. А также - создание новых вычислительных алгоритмов, представление информационно-вычислительной экспертной системы в виде программного приложения, способного работать под управлением операционных систем Windows 95/98, Windows NT. Конечная цель - внедрение информационно-вычислительной экспертной системы в медицинские учреждения страны, в частности, в диагностических центрах и кардиологических диспансерах [13,14,15,17].

Основные научные положения, полученные автором и выносимые им на защиту, следующие:

- модифицированные методы главных компонент и главных факторов с вари-макс вращением, отсеиванием незначимых факторов и интерпретацией оставшихся. Метод нахождения факторных значений при прямоугольной матрице весовых нагрузок факторов;

- способы визуализации и построения факторных диаграмм;

- метод распознавания образов, базирующийся на гибридизации формулы Байеса для распознавания классов с методом главных компонент и аппроксимацией n-мерной функции плотности распределения;

- метрические методы распознавания на базе факторной модели - метода главных компонент.

Методика исследований

Исследование носило теоретический характер и проводилось с использованием аппарата теории вероятностей и математической статистики, многомерного факторного анализа, теории распознавания образов, теории построения информационно-вычислительных экспертных систем, численных методов и матричного исчисления. Правильность результатов исследования и предлагаемых методов подтверждена результатами имитационного моделирования на ЭВМ и экспертными оценками опытных клиницистов на всех этапах вычислительного эксперимента. Способ диагностики фундаментального состояния кар-диосистемы запатентован.

Теоретическая ценность работы. Сформированы модифицированные математические методы и модели, основанные на многомерной статистической теории, позволяющие достаточно адекватно проводить первичную диагностику ряда кардиологических заболеваний, новое направление применения математических методов (многофакторного анализа с методами распознавания образов) для первичной диагностики заболеваний.

Практическая ценность работы заключается в том, что полученные в ней результаты, в частности информационно-экспертная система, могут быть внедрены и частично уже используются в медицинских диагностических учреждениях в качестве аппарата первичной диагностики.

Апробация работы

Основные результаты диссертационной работы докладывались и обсуждались на Международной конференции "Кардиостим" (Санкт-Петербург 1998), Международной конференции "Медицинские приложения математических и инженерных наук" (Харьков, 1998), Международной конференции "European medical Engineering Conference" (Vienna, 1999), Международной научно-технической конференции "Измерения, контроль, информатизация" (Барнаул, 2000, 2001), 1-ом Евразийском конгрессе по медицинской физике и инженерии (Москва, 2001), Всероссийской научной конференции студентов и аспирантов (Таганрог, 1997), на научных семинарах кафедры математического анализа и лаборатории 11 Биофизики сердца" ОмГУ.

Реализация и внедрение полученных результатов

Имеется патент на методы диагностики заболеваний, используемые в данной информационно-вычислительной экспертной системе. В 2000 году был получен грант "Молодых ученых" от Омского Государственного Университета, направленный на дальнейшее усовершенствование информационновычислительной системы. За творческую работу в данном направлении соискатель дважды был награжден стипендией президента Российской Федерации для аспирантов и признан Соросовским аспирантом в 2000 г. Данная информационно-вычислительная экспертная система реализована в виде программного приложения, работающего под управлением операционных систем Windows 95/98, Windows NT и частично внедрена в клиническую практику - МСЧ 10, МСЧ 7, кардиодиспансер г.Омск. Результаты работы использовались при выполнении курсовых и дипломных работ студентами ОмГУ и при создании WEB -атласа электрокардиограмм.

По теме диссертации опубликовано 16 работ, в том числе 6 статей.

Структура и объем работы

Диссертация состоит из введения, пяти глав, выводов, списка литературы и списка публикаций. Диссертация изложена на 124 страницах машинописного текста. Список литературы включает 55 наименований.

Заключение диссертация на тему "Факторный анализ и другие многомерные статистические методы диагностики кардиопатологий"

Выводы.

Объединение моделей факторного анализа с методами распознавания образов, использующих модель факторного анализа, успешно позволяет решать вопросы по диагностике заболеваний сердечно-сосудистой системы. Факторные модели позволяют выявить характерные взаимосвязи показателей патологических состояний, основным признаком которых является нарушение равновесия между потребностью миокарда в кислороде и его поступлением, выделить наиболее значимые факторы, а методы распознавания образов при использовании модели факторного анализа позволяют отнести диагностируемого индивидуума к тому классу заболевания, к которому он принадлежит.

Факторные модели были протестированы на патологиях сердечнососудистой системы. По наиболее информативным факторам была проведена дифференциальная диагностика митрального стеноза 1-5-ой степени. Анализ изменения факторных диаграмм в процессе коррекции патологических состояний позволил дать объективный прогноз по течению заболевания.

По результатам тестирования по Байесовскому критерию индивидуумов, имеющих патологию сердечно-сосудистой системы, в котором для решения проблемы независимости параметров также использовалась модель факторного анализа распознавания, получены таблицы, содержащие апостериорные вероятности принадлежности объектов (индивидуумов) к данным классам (патологиям).

По результатам тестирования индивидуумов метрическими моделями распознавания получены таблицы, содержащие, либо факторное евклидовое расстояние объектов до класса, либо факторное расстояние до центра класса, в зависимости от выбора модели исследователем. Из анализа таблиц видно, что индивидуум принадлежит к тому классу, до которого расстояние меньше, независимо от выбора модели.

Общий вывод следующий - в независимости от выбора модели информационно-вычислительной экспертной системы результаты диагностирования однозначны и соотносятся друг с другом.

Метод главных факторов с варимакс вращением и с редуцированной матрицей корреляции, в качестве оценки общностей которой использовались коэффициенты множественной корреляции, является более точной моделью описывающей состояния кардиогемодинамики и гомеостаза при заболеваниях сердечно-сосудистой системы, чем МГК с вращением.

Данные модели преобразованы в соответствующее программное приложение, которое включает в себя интерфейс для ввода и обработки классов данных, а также объектов данных. В качестве языка программирования был выбран "Delphi 3" и "С++". Тексты программ представлены в приложении 2.

Библиография Гольтяпин, Виктор Викторович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Автоматизация научных исследований в медицине. / А.В. Лапко, J1.C. Поликарпов, В.Т. Манчук и др .- Новосибирск., Наука, Сибирская издательская фирма РАН, 1996., 270 с.

2. Баевский P.M. Прогнозирование состояний на грани нормы и патологии. -М. Медицина, 1979., 200 с.

3. Благуш П. Факторный анализ с обобщениями .-М., Финансы и статистика, 1989., 246 с.

4. Боровков А. А. Курс теории вероятностей М., Наука, 1972., 288 с.

5. Боровков А. А. Математическая статистика.- Новосибирск, Наука, 1997., 771 с.

6. Бушев С. Н., Бесфамильный М. С. Программно-аппаратные методы управления данными .- М, Наука, 1982., 240 с.

7. Вапник В.Н., Червоненкис А. Я. Теория распознавания образов .- М., Наука, 1974., 416 с.

8. Власов Ю.А., Окунева Г.Н. Кровообращение и газообмен человека .-Новосибирск, Наука, Сиб. Отд-ние, 1992., 319 с.

9. Гольтяпин В.В., Яковлев В.М. Факторный анализ в дифференциальной диагностике заболеваний сердечно-сосудистой системы.//Тез. докл. Всероссийская научная конференция студентов и аспирантов. Окт. 1997.- Таганрог, с.52.

10. Гольтяпин В.В., Потуданская М.Г., Семиколенова Н.А., Терентьев С.А., Яковлев В. М. Факторная модель гомеостаза при митральном стенозе. // Вестник аритмологии.- С.-Петербург, 1998 .-№8.- с.524.

11. Гольтяпин В.В., Потуданская М.Г., Семиколенова Н.А., Терентьев С. А., Яковлев В. М. Факторная модель гомеостаза при патологиях сердечнососудистой системы. // Биофизика .- 1999.- Т. 44. № .3 .- с. 571-578.

12. Гольтяпин В.В., Потуданская М. Г., Семиколенова Н.А., Терентьев С. А.,

13. Яковлев В. М. Митральный стеноз. Факторный анализ.// Вестник Омского университета.-ОмГУ ,1998.-№4.-с.З 0-33.

14. Патент.- Выходные данные: (19) RU (11) №2141243 (13) С1 (51) 6 А 61 В 5/02, 5/04. Способ диагностики функционального состояния кардиосисте-лш./В.В. Гольтяпин, М.Г. Потуданская, Н.А. Семиколенова, С.А. Теренть-ев, В.МЛковлев.

15. Гольтяпин В.В., Потуданская М.Г., Терентьев С. А., Яковлев В.М. The factor Analysis in Cardiology. //Тез. докл. Международная конференция «Медицинские приложения математических и инженерных наук».- Харьков. 1998.-с 28.

16. Victor. V.Gol'tyapin, Sergey. A. Terent'ev. Information-computing expert system of an estimation cardiodynamics. //Тезисы.Е118ЕС')9. European medical Engineering Conference.- Vienna, November 4-7,1999.

17. Гольтяпин В.В., Яковлев В.М. WEB-атласа электрокардиограмм. IIWEB-ресурс WEB-атласа электрокардиограмм .- грант №IEB842W Института "Открытое общество" фонда Soros, 1999., 270 с.

18. Гольтяпин В.В., Потуданская М.Г., Семиколенова Н.А., Яковлев В.М. Факторный анализ при формировании современного понятия нормы в физиологии.// Микросенсорика (Материалы и элементная база). Сборник трудов НИИ ИСМЭ СО РАН.- Омск, 2000 .- с. 95-101 .

19. Гольтяпин В.В. Яковлев В.М., Топчий В.А. Факторная модель в дифференциальной диагностике митрального стеноза. //Мед. физика.- 2001.1-й Евразийский конгресс по медицинской физике и инженерии. Июнь, 2001 .-М., МГУ, -с. 201.

20. Гольтяпин В.В., Топчий В.А., Яковлев В.М. Факторная модель в теории распознавания образов II Микросенсорика (Материалы и элементная база). Сборник трудов НИИ ИСМЭ СОРАН.-Омск, 2002 с. 145-151,

21. Горелик A.JI, Скрипкин. В.А., Методы распознавания М., Высшая школа, 1984., 208 с.

22. Дайитбегов Д.М., Калмыкова О.В., Черенанов А.И. Программное обеспечение статистической обработки данных .- М.,Финансы и статистика, 198., 192 с.

23. Денисенко Б.А., Гольдберг Г.А., Дробышев. Ю.П. Инфаркт миокарда правого и левого желудочков. Математическая диагностика, коррекция нарушений гемодинамики.- Новосибирск, Наука, Сиб. Отд-ние, 1987., 224 с.

24. Дитятев В.П., Антюфьев В.Ф., Ардашев В.Н., Оранский И.Е. Информационная поддержка решений врача в кардиологии (опыт и размышления).-Екатеринбург., Виктор, 1997., 321 с.

25. Длин А. М. Факторный анализ в производстве.- М., Статистика 1975., 328с.

26. Дубов А. М. Обработка статистических данных методом главных компонент .-М., Статистика, 1978., 135 с.

27. Дюран Б., Оделл П. Кластерный анализ./ Под ред. Боярского А. Я .- М., Статистика, 1977., 128 с.

28. Загоруйко. Н.Г. Прикладные методы анализа данных и знаний.- Новосибирск., изд-во Ин-та математики, 1999.

29. Калиткин Н.Н. Численные методы. / Под ред. Самарского А.А.- М., Наука,1978., 512 с.

30. Лбов Г. С., Старцев Н. Г. Логические решающие функции и вопросы статистической устойчивости решений .- Новосибирск., Изд-во/Йн-та математики, 199.- 212 с.

31. Лбов Г.С. Методы обработки разнотипных эксцертментальных данных,-Новосибирск., Наука, 1981., 160 с.

32. Окунь Л. Факторный анализ .- М., Статистика, 1974., 199 с.

33. Прикладной многомерный статистический анализ. /Сб. статей под ред. Ай-возяна С.А., Орлова А.И. М., Наука, 1978., 392 с.

34. Резников А.П. Предсказание естественных процессов обучающейся систе-мой.-Новосибирск., Наука, 1982., 288 с.

35. Справочник по теории вероятностей и математической статистике, Коро-люк B.C., Портенко Н. И., Скороход А. В., Турбин А. В.- М., Наука, Главная редакция физико-математической литературы, 1985., 640 с.

36. Справочник по прикладной статистике. / Под ред. Ллойда Э., Ледермана У.- М., Финансы и статистика, Т.2.,1990., 526 с.

37. Справочник по специальным функциям. / Под ред. Абрамовича М. М., Наука, 1979., 832 с.

38. Трухаев Р. И., Горшков И. С. Факторный анализ в организационных системах .- М., Радио и связь, 1985., 184 с.

39. Фукунага К. Введение в статистическую теорию распознавания образов .-М., Наука, 1979., 368 с.

40. Факторный, дискриминантный и кластерный анализ (сборник). / под ред. Енюкова И.С.- М., Финансы и статистика, 1989., 215 с.

41. Чистяков В. П. Курс теории вероятностей .- М., Наука, 1982., 256 с.

42. Харман. Г. Современный факторный анализ. М.,Статистика, 1972., 486 с.

43. Uberla U. Faktorenanalyse., Berlin-Heidelberg-New York, 1977., пер.-М. Статистика, 1980, 399 с.

44. Charles D. Constrained PCA techniques for the identification of common factors in data // Neurocomputing.- Elsevier Science B.V, 1998.- № 22 .- 145-156 c.

45. Shen Q., Chouchoulas A. Combining rough sets and data-driven fuzzy learning for generation of classification rules// Pattern Recognition.- Elsevier Science, 28 february, 1999.-№32.- 2073-2076 c.

46. Fotheringhame D., Baddeley R. Nonlinear principal components analysis of neuronal spike train data // Biological Cybernetics.-Springer-Verlag, 1 July, 1997.-№77.- 283-288 c.

47. Abdel-Gawad H. I. An approach to solutions of systems of linear partial differential equations with applications// Journal of Computational and Applied Mathematics.- Elsevier Science, 28 february, 1998.- № 95,- 145-156 c.

48. Esogbue A. O. Cluster Validity for Fuzzy Criterion Clustering// An international journal Computer & Mathematics with Applications.- Elsevier Science, 1999.-№37.- 95-100 c.

49. Klapal M., Eggers С., Bunk D., Koriath H. Funf-Faktoren-Modell kindlicher Schizophrenien//Nervenartzt.- Springer-Verlag, 1998.-№69.-238-242 c.

50. Pohlmann J. T. Factor analysis glossary// EPSY 580B- Factor Analysis Seminar, 2000.

51. Tucker L. R., MacCallum R. C. Exploratory Factor Analysis// Computational and Applied Mathematics.- Elsevier Science, 1997.- № 86.-135-146 c.