автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы и алгоритмы случайно-множественного анализа медицинских данных

кандидата технических наук
Белов, Константин Андреевич
город
Воронеж
год
2005
специальность ВАК РФ
05.13.01
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и алгоритмы случайно-множественного анализа медицинских данных»

Автореферат диссертации по теме "Методы и алгоритмы случайно-множественного анализа медицинских данных"

На правах рукописи

БЕЛОВ Константин Андреевич

МЕТОДЫ И АЛГОРИТМЫ СЛУЧАЙНО-МНОЖЕСТВЕННОГО АНАЛИЗА МЕДИЦИНСКИХ ДАННЫХ

Специальность: 05.13.01 -Системный анализ, управление

и обработка информации

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Воронеж-2005

Работа выполнена в Воронежском государственном техническом университете

Научный руководитель доктор технических наук,

профессор Львович Игорь Яковлевич Официальные оппоненты: доктор технических наук,

доцент Чопоров Олег Николаевич; кандидат технических наук Заславский Евгений Леонидович Ведущая организация Курский государственный технический

Защита состоится «25» февраля 2005 г. в 13.00 часов в конференц-зале на заседании диссертационного совета Д 212.037.02 Воронежского государственного технического университета по адресу: 394026, г. Воронеж, Московский просп., 14.

С диссертацией можно ознакомиться в библиотеке Воронежского государственного технического университета.

Автореферат разослан «25» января 2005 г.

университет

диссертационного совета

Ученый секретарь

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время практически любое серьезное медицинское исследование подразумевает при обработке результатов наблюдений, экспериментов, измерений использование технологий анализа данных. Их применение позволяет получить новое знание об объекте исследования, выявить скрытые закономерности. Существующее программное и алгоритмическое обеспечение, используемое в этой области, разнообразно по своему назначению и позволяет решать множество задач, как статистического анализа данных, так и анализа данных, в понимании этого термина как совокупности статистических методов, не предполагающих вероятностной модели изучаемого явления. Оба этих подхода можно отнести к прикладной статистике, одним из важных разделов которой является статистика объектов нечисловой природы. Данные нечисловой природы встречаются в медицинских исследованиях крайне часто, и для их обработки следует привлекать корректные методы, основанные на соответствующих вероятностных моделях, что зачастую в реальных исследованиях, как в России, так и за рубежом игнорируется.

Нередко при обработке медицинских данных возникает ситуация, когда исходная информация об объекте исследования представлена дихотомическими признаками. В этом случае, адекватной математической моделью данных являются случайные множества, относящиеся к одному из объектов статистики нечисловой природы.

Для выборочных данных, описываемых дихотомическими признаками, приходится решать те же самые задачи, что и в классических разделах математической статистики: классификация объектов без указания учителя, распознавание образов объектов, оценивание регрессионной зависимости и другие. В связи с тем, что в настоящее время не существует программного обеспечения в этой области, алгоритмы и методы решения указанных задач носят весьма разрозненный характер, а по многим актуальным вопросам отсутствуют, в диссертации разрабатывается алгоритмическое и программное обеспечение анализа дихотомических данных с позиции теории случайных множеств, ориентированное на задачи, свойственные медицинским приложениям. В медицинских исследованиях, чаще других, решают две задачи: классификации и прогнозирования. Указанное алгоритмическое и программное обеспечение способствует их решению для некоторых важных в практическом смысле постановок. Оно также может быть использовано и в других областях, таких как экономика, страхование, социология и т.д.

Таким образом, актуальность темы определяется необходимостью использования для анализа дихотомических данных методов, основанных на случайно-множественной модели данных.

Диссертационная работа выполнена в соответствии с межвузовской комплексной научно-технической программой 12.11 «Перспективные информационные технологии в высшей школе» в рамках одного из основных направлений Воронежского государственного технического университета «Биомедкиберне-тика, компьютеризация в медицине».

Цель и задачи исследования. Целью исследования является разработка методов, алгоритмов и программного обеспечения, основанных на теории случайных конечных множеств и общих подходах статистики объектов нечисловой природы, и предназначенных для решения задач анализа дихотомических данных, имеющих широкое приложение в медицинских исследованиях.

Для достижения поставленной цели необходимо решить следующие задачи:

проанализировать современное состояние проблемы анализа дихотомических данных с позиции случайно-множественного подхода и теории статистики объектов нечисловой природы, и в этой связи определить перечень наиболее значимых для медицинских приложений задач, с указанием путей их решения;

разработать алгоритм классификации подмножеств случайного множества без указания учителя, основанный на предлагаемом модифицированном методе поиска системы максимальных подмножеств и указать возможные приложения результатов классификации в медицинских исследованиях;

разработать алгоритмы построения различных видов регрессии, когда предиктором является случайное множество;

предложить алгоритм дискриминантного анализа на основе непараметрической оценки распределения случайного множества;

оценить на практических примерах эффективность предлагаемых моделей, в сравнении с существующими подходами;

разработать на основе полученных алгоритмов и внедрить программное обеспечение анализа дихотомических данных.

Методы исследования. В работе использованы методы теории случайных конечных множеств, теории вероятностей, математической статистики, в частности статистики объектов нечисловой природы.

Научная новизна. В диссертации получены следующие основные результаты, характеризующиеся научной новизной:

метод «СИМАП» поиска системы максимальных подмножеств, гарантирующий нахождение всех максимальных подмножеств и позволяющий решать задачу классификации подмножеств случайного множества без указания учителя;

алгоритмы построения регрессии одного случайного множества на другое через случайные соответствия и на основе оценки близости между подмножествами предиктора, отличающиеся от существующих подходов более высокой

точностью получаемых с их помощью оценок;

алгоритмы построения регрессии случайной величины на случайное множество через случайные соответствия и на основе оценки близости между подмножествами предиктора, отличающиеся от существующих подходов более высокой точностью получаемых с их помощью оценок;

алгоритм восстановления пропущенных значений в дихотомических данных на основе регрессии одного случайного множества на другое, обеспечивающий высокую точность заполнения пропусков;

алгоритм дискриминантного анализа, основанный на непараметрической оценке распределения случайного множества, отличающийся от существующих подходов более высокой точностью распознавания.

Практическая значимость и результаты внедрения. Результаты работы могут быть использованы при решении следующих задач анализа дихотомических данных: классификация без указания учителя; классификация с указанием учителя; построение регрессии, когда предикторами являются дихотомические признаки; восстановление пропущенных значений. В медицинских исследованиях с их помощью могут быть решены следующие задачи. Классификация: выделение наиболее вероятных сценариев развития некоторого заболевания с точки зрения последовательного возникновения его симптомов; классификация совокупности пациентов по перенесенным ранее заболеваниям; упрощение принятия решения при многомерном поисковом прогнозе осложнений некоторого заболевания; мониторинг состояния пациента, описываемого дихотомическими признаками; задача диагностики при дихотомических диагностических признаках и другие задачи.

Прогнозирование: прогноз степени тяжести заболевания по множеству наблюдаемых у пациента симптомов; прогноз множества осложнений, возможных у пациента по множеству диагностических симптомов; прогнозирование процесса течения некоторой болезни, когда состояние пациента характеризуется набором дихотомических признаков; прогноз некоторого количественного показателя по множеству симптомов болезни и другие задачи.

Теоретические и практические результаты работы, реализованные автором в программе «СКМ Анализ», внедрены в учебный процесс кафедры «Системный анализ и управление в медицинских системах» для студентов специальности 200401 «Биотехнические и медицинские аппараты и системы» Воронежского государственного технического университета, в учебный процесс кафедры «Информационные системы» для студентов специальности 230201 «Информационные системы и технологии» Воронежского института высоких технологий, в научно-исследовательскую работу кафедры «Общественного здоровья и здравоохранения» Воронежской государственной медицинской академии им. Н. Н. Бурденко.

Апробация работы. Результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах: Всероссийской конференции «Интеллектуализация управления в социальных и экономических системах» (Воронеж, 2004), Всероссийской научно-технической конференции «Теория конфликта и ее приложения» (Воронеж, 2004).

Публикации. Основное содержание диссертационной работы изложено в 10 печатных работах. Личный вклад автора заключается в разработке методов [610], алгоритмов [3-5], программного обеспечения анализа дихотомических данных [6-9], построении математических моделей [1, 2], организации эксперимента с ними [9] и последующей интерпретации результатов моделирования [1,2, 10].

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, библиографического списка из 104 наименований. Основная часть работы изложена на 118 страницах, содержит 9 рисунков, 5 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность работы, формируются цель и задачи исследования, основные научные результаты, выносимые на защиту, дается краткая характеристика работы.

Первая глава посвящена вопросам применения теории случайных конечных множеств для анализа медицинских данных.

Установлено, что для описания дихотомических данных наиболее адекватным является аппарат теории случайных множеств. Для случайных множеств полагают, что объект исследования характеризуется не числовым вектором, а подмножеством некоторого конечного неупорядоченного множества, что эквивалентно его описанию дихотомическим вектором. Проанализирован ряд работ, позволивших указать место теории случайных конечных множеств в структуре статистики объектов нечисловой природы, рассмотрены существующие подходы к обработке нечисловых данных. Установлено, что математический аппарат статистики объектов нечисловой природы, существенно отличается от классического подхода и основан на введении в соответствующих пространствах мер близости и непараметрических оценок распределения.

Рассматривались решенные задачи в теории случайных множеств, результаты которых можно применить в медицинских исследованиях, связанных с анализом дихотомических данных, формулировались собственные подходы. Изучались существующие недостатки в алгоритмах решения указанных задач.

Во второй главе рассматриваются необходимые сведения из теории случайных конечных множеств, вопросы, связанные с задачей классификации подмножеств случайного множества, строится модифицированный алгоритм ее решения, указываются возможные приложения в медицинских исследованиях.

Пусть объекты (наблюдения) описываются дихотомическими переменными, что означает, что каждый объект представляет собой подмножество конечного неупорядоченного множества X = {х,,...^}.

Определение. Случайным конечным множеством (СКМ) называется измеримое отображение:

К:(ВДР)->(2Х,22*).

Здесь X = {хр...,хп} - конечное множество, (Г2,Р,Р)- вероятностное пространство, 2х - это система подмножеств множества X, 22 - это система подмножеств системы подмножеств множества X.

Распределение вероятностей случайного множества К под X можно задать несколькими способами, но наиболее часто приходится иметь дело с произвольным распределением

Из него можно вычислить распределение вероятностей включения

(2)

что является эквивалентным способом задания распределения СКМ.

Задача классификации подмножеств случайного множества (КПСМ) без указания учителя формулируется следующим образом. Пусть К - случайное множество, заданное под X распределением р. Решением задачи КПСМ К без указания учителя на п классов называется такой набор классов удовлетворяющий условиям

в котором принадлежность подмножеств классам определяется статистическими зависимостями, навязанными К. Назовем множество Ас2х глобальной областью поиска. Предполагается, что А = {Е е 2х | Р(Е = К) * 0} состоит из тех подмножеств, которые в произвольном распределении (1) имеют ненулевую вероятность.

Решение задачи классификации объектов нечисловой природы без указания учителя, в том числе и КПСМ, осуществляется по двум направлениям:

1) задание меры близости объектов в соответствующем пространстве;

2) классификация на основе непараметрических оценок плотности распределения.

В диссертации рассматривается первый подход, поскольку он находит большее практическое применение. Понятие меры близости в пространстве множеств существует давно, и одна из наиболее распространенных метрик

5

мощность симметрической разности двух множеств

d(A,B) = |AAB|, A,ßcX (3)

учитывает только структуру решетки 2х, но не учитывает статистические зависимости между ее подмножествами, что особенно важно в практических приложениях. Для отображения, как структуры решетки подмножеств, так и статистических зависимостей между подмножествами используется вероятностная псевдометрика

d(A, В) = Р(АсК) + Р(ВсК)-2Р(АиВсК). (4)

Матрица псевдорасстояний, полученная по формуле (4) может быть обработана для получения классификации любым из известных иерархических алгоритмов или методами кластерного анализа, использующими только меру близости объектов. В диссертации рассматривается также другой подход, основанный на системе W максимальных подмножеств.

Задача КПСМ заключается в поиске системы W, что соответствует поиску точек локального максимума распределения случайного множества.

Определение. Пусть К - СКМ под X с распределением р, d - вероятностная псевдометрика. Максимальным подмножеством Ее А называется такое подмножество, если

3h, VE е В: Р(К = Е) < Р(К = Ё), где

В этом данном случае р - это функция, для которой ищется максимум. Здесь - область поиска, причем не обязательно глобальная.

Определение. Пусть К - СКМ под X, распределением р. Глобальным максимальным подмножеством Е* е А на зовем моду распределения р, то есть Р(К = Е*) > Р(К = В), VBeÄ.

Очевидно, что глобальное максимальное подмножество всегда существует, оно может быть не одно, и их количество равно количеству мод распределения р. В этой связи введем множество G - глобальных максимальных подмножеств,

Существующие алгоритмы поиска системы максимальных подмножеств обладают существенным недостатком, связанным с тем, что не гарантируют обнаружение множества W полностью. Для его устранения в диссертации предлагается собственный метод «СИМАП» и алгоритм решения на его основе задачи КПСМ. Метод базируется на алгоритме получения решения на два класса, позволяющий обнаружить следующее максимальное подмножество. Решений на два класса может быть несколько.

Алгоритм решения задачи КПСМ на два класса

Шаг 1. Найти Е**- глобальное максимальное подмножество.

Шаг 2. Взять произвольное множество (кандидат) Е2*Е1,Е2еА, причем <1(Б2, Е1*) > 0. Очевидно, что все подмножества А делятся на два класса

А2 = {ЕбА|с1(Е;,Е)>с1(Е2,Е)}. (5)

Шаг 3. Если в семействе А2 вероятность значения множества Е2 максимальна, то Е2 - максимальное подмножество. В противном случае необходимо вернуться к шагу 2, и выбрать другое множество (кандидат) Е2.

Метод поиска системы максимальных подмножеств (СИМАП)

Шаг 1. В произвольном распределении р СКМ К (1), объекты с нулевой вероятностью исключить.

Шаг 2. Вычислить распределение вероятностей включения (2).

Шаг 3. Вычислить матрицу псевдорасстояний.

Шаг 4. Найти множество глобальных максимумов О = {Е1*Е2*,...,Еч*|.

Шаг 5. Задать априорный порог чувствительности к, характеризующий минимальное количество элементов в окрестности максимального подмножества.

Шаг 6. Задать глобальную область поиска А = {Е е 2х |Р(К = Е) # 0} , принять W = О - система максимальных подмножеств. Текущая область поиска А = А.

Шаг 7. Взять следующий из неотмеченных элементов множества W, объявив его текущим.

Шаг 8. Получить любое решение из текущей области поиска А с помощью (5) на два класса - А1 и А^ А1 - класс от текущего элемента. А = А1, Е2 занести В\¥.

Шаг 9. Повторять шаг 8 до тех пор, пока не будет выполнено: |А,|<кили решение задачи (5) не удастся обнаружить (максимальных подмножеств в окрестности текущего больше нет).

Шаг 10. А=АпА; пометить текущий элемент во множестве W как рассмотренный; переход к шагу 7 в том случае, если в W есть нерассмотренные элементы.

Шаг 11. Итог работы алгоритма - система максимальных подмножеств W, каждое из которых, в своей окрестности имеет более к элементов.

Модифицированный алгоритм решения задачи КПСМ на п классов, основанный на системе максимальных подмножеств

Шаг 1. Получить множество W максимальных подмножеств, задать предполагаемое число классов п. Если , то выход, решение не может быть найдено.

Шаг 2. Выделить из W множество глобальных максимумов О = {Е1* ,Е2*,.. .,Еч*|.

Шаг 3. Множество решений задачи 0 = 0.

Шаг 4. Выбрать содержащее хотя бы один глобальный

максимум. Если все подмножества рассмотрены, то переход к шагу 7.

Шаг 5. формируется класс множеств

= {Е е А | сКЕ^Е) >.с1(Е1,Е), 1 < ] < п}.

Шаг 6. Если в семействах А, соответствующие множества Ц будут иметь максимальную вероятность значения, то множества Е1,Е2,..., Еп - совокупность п максимальных подмножеств, являющаяся решением задачи КПСМ на п классов А1,А2,...,Ап. Занести его во множество решений Б. Переход к шагу 4.

Шаг 7. Исследовать множество решений D на оптимальность с помощью выбранного критерия.

Шаг 8. Выдать итоговое решение. Множества Е1,Е2,..., Еп - назовем представителями классов.

Рис.1. Условно показана одна итерация «СИМАП». Черный круг соответствует текущему элементу, белые - последовательно обнаруживаемым максимальным подмножествам. Линии указывают разделение области поиска на элементы более близкие к текущему, чем к найденному максимуму. Центральная область не содержит максимумов, либо достаточно мала

Для поиска наиболее предпочтительного среди нескольких решений на п классов, а также в условиях априорной неопределенности об их количестве, используется следующий критерий качества классификации. Пусть получено разбиение S = подмножеств Е1,Е2,...,Еk из глобальной области поиска на п классов.

Назовем Z(S) мерой концентрации элементов, 1(п>(8) - средней мерой внутриклассового рассеяния^, характеризующими разбиение в. Положим

где п - количество объектов в 1-м классе, п - количество классов, к - общее количество объектов. Пусть

^«[.(ЭН/ЗД, (6)

где некоторые положительные константы, на-

пример, а = Р = \.

Если исследователь заранее не задал количество классов, то наилучшим среди всех возможных разбиений следует признать то, которое доставляет минимум функционалу (6). Это также касается и ситуации когда количество классов известно, было получено несколько решений, и чтобы выбрать наиболее предпочтительное, надо минимизировать (6).

В третьей главе рассматривается вопрос построения различных видов регрессии, когда предиктором является случайное множество, а также предлагается и разрабатывается алгоритм дискриминантного анализа в пространстве конечных множеств на основе непараметрической оценки распределения случайного множества.

При анализе медицинских данных достаточно часто приходится искать регрессионную зависимость. В диссертации рассматривается несколько ее видов, объединенных тем, что предиктором является случайное множество. Ключевым среди них является метод сет-регрессии.

В многомерной статистической постановке решение задачи построения регрессии случайного вектора п на случайный вектор \ дается условным математическим ожиданием, которое называется функцией теоретически ожидаемой регрессии:

Построение регрессии в такой форме требует, либо знания совместного распределения случайных векторов либо его статистической оценки. Но

на практике часто либо неизвестно совместное распределение, либо выборка

значений векторов слишком мала и не позволяет приемлемо оценить условные средние. Разумным в этой ситуации является использование дополнительной информации о том, что функция регрессии принадлежит к определенному классу функций.

Пусть требуется построить оптимальное отображение одного случайного множества - К1 на другое - К2, значения которых содержатся во множествах X и У соответственно. Сет-регрессией К, на К, называется любой оператор

приближенно представляющий статистическую зависимость К2 от К1 Оптимальное регрессионное отображение необходимо находить из условия минимума некоторого функционала g, характеризующего близость случайного множества К2 и его регрессии на случайное множество К1

§(К2,^(К1))->шга.

Исходя из (7), для того чтобы развивать регрессионный анализ в пространствах конечных множеств, необходимо ввести понятие математического ожидания случайного множества, поскольку обычное определение математического ожидания неприемлемо. Рассмотрим определение сет-средних и сет-моды случайного множества.

Определение. Сет-модой случайного множества К под X называется множество Мос1(К)сХ, на котором вероятность Р(К = Моё(К)) принимает свое максимальное значение

Р(К = Мо<1(К))> Р(К = В), УВ 6 2х.

Определение. Под сет-медианой случайного множества К понимается множество

Ме<1(К) = {х 6 X :я'к(х) > 1/2}.

Здесь ттк(х)- вероятность принадлежности точки х случайному множеству К, ^(х) = Р(х е К). Эту вероятность называют вероятностью покрытия точки х случайным множеством К. Она входит в распределение вероятностей включения (2).

Определение. Под сет-ожиданием случайного множества К понимается множество

£(К) = {х е X: ягк(х) > И},

где И выбирается таким образом, чтобы мощность сет-ожидания была ближайшим целым числом к математическому ожиданию мощности случайного множества К. Если все вероятности покрытия имеют различные значения, то условие на уровень И можно записать следующим образом:

На основании рассмотренных определений вводятся определения условных сет-ожидания, сет-медианы и сет-моды.

В диссертации разрабатывается алгоритм построения сет-регрессии через случайные соответствия.

Соответствие между двумя множествами X и У - произвольное подмножество W декартова произведения X х У . Отсюда следует, что совокупность всех соответствий между X и У совпадает с множеством 2 .

Образом элемента хеX при соответствии ШсХхУназывается множество Ш[х] = {уеУ:(х,у)е\¥}

Пусть А - некоторая совокупность подмножеств множества X, которая может содержать повторяющиеся множества, т.е. А - мультимножество с элементами из 2 .

Срезом совокупности множеств А по уровню И называется множество Ц(Л), состоящее из элементов, содержащихся как минимум в И множествах из А. Понятно, что Ц(А) - это объединение, а Ъщ(А)- это пересечение множеств

из А.

Образом уровня h множества АсХ при соответствии \VcXxY называется множество

где

Случайным соответствием Б между конечными множествами X и У называется измеримое отображение

Р:(РЛА)->(2Х+¥,22"Г).

Случайное соответствие Б является случайным множеством со значениями в 2Х+У. Его распределение задается стандартным образом с помощью вероятно-

Р(Р = \У),\УсХхУ.

Так как образ множества уровня И при соответствии между X и У - это тоже отображение 2Х в 2У, то регрессию К на К1 можно искать в виде образа множества уровня И при некотором соответствии W:

при этом W и И будут параметрами регрессии. Образ множества уровня И при случайном соответствии - это случайное множество, элементы которого содержатся в У. Сет-среднее этого случайного множества будет элементом 2У. Следовательно, сет-регрессию К2 на К1 можно искать в одном из трех видов

11

В = Mod(Fh[A]), B = Med(Fh[A]),

Уровень h = [1 + a|A|-a], где параметр ае(0,1) априорно задается исследователем. Для нахождения наилучшего значения параметра а в диссертации минимизируется функционал ошибки модели методом одномерного поиска, при заданном типе отображения.

В диссертации разрабатывается алгоритм решения этой задачи, а также предлагается собственный подход, базирующийся на вычислении близости между подмножествами случайного множества-предиктора. В качестве меры близости используется вероятностная псевдометрика (4). В основе алгоритма лежит предположение, что при близких значениях СКМ предиктора, значения СКМ отклика тоже близки. Алгоритм более прост при реализации, но не менее эффективен с позиции точности. Будем полагать, что исходные данные представлены в виде прямоугольной таблицы, левая часть которой представляет собой m реализаций СКМ K под X (предиктора), а правая часть соответственно m реализаций СКМ К2 под Y (отклика).

Алгоритм построения сет-регрессии через оценку близости

Шаг 1. Задать множество-аргумент А; вид отображения: сет-мода, сет-ожидание, сет-медиана; к - допустимое различие.

Шаг 2. Определить массив G из 2Y элементов, G[i] = 0, 1 < i < 2Y . Определить функцию , которая взаимно однозначно ставит в соответствие каждому множеству В с 2Y число i (номер в массиве), 1 < i < 2Y . Взять первое множество А1 из левой части таблицы данных, объявив его текущим.

Шаг 3. Если d(A„A)<k, то G[Pos(Ai)] = G[Pos(A,)] + l. Если i<m, то объявить текущим множество Ai+1 и переход к шагу 3, иначе переход к шагу 4.

Шаг 4. Вычислить - произвольное распределение

выходного СКМ, S - сумма элементов массива G.

Шаг 5. Найти сет-среднее выходного СКМ, в соответствии с заданным видом отображения. Выдать результат.

На основе полученных алгоритмов можно строить регрессию случайной одномерной величины на случайное множество ц/: 2 х -> R . Такая задача решается заменой значений множества-отклика на значения случайной величины. Тогда на шаге 5 вычисляется выборочное среднее или выборочная медиана.

Дискриминантный анализ или классификация с учителем в медицинских исследованиях используются весьма широко. Примером является построение решающих правил для задачи диагностики, когда по наблюдаемым у пациента признакам следует выбрать диагноз из некоторого множества диагнозов. Для дихотомических признаков в диссертации разрабатывается алгоритм классификации с учителем на основе существующей непараметрической оценки распределения случайного множества типа Розенблатта-Парзена.

Пусть на X задано СКМ К с неизвестным теоретическим распределением и представлено случайной выборкой множеств К1,К2,...,Кт. Непараметрическая оценка для СКМ К записывается следующим образом

(8)

где ё - целочисленная метрика, например (3); Ф - ядро (убывающая функция

- случайная величина, означающая количество повторений К, в выборке; с - параметр размытости подчиненный правилу С —> 0 при т -> оо; М - случайная величина определяемая как:

м = 1

т(К,)-Хф(4|В(К,,.0|

Здесь В(К, ^ - сфера с центром во множестве К, и радиусом таххс1(С,В)

Сферой ВО множестве А И гатгегпм г ня™вяетс5г множество В(А,г)={В:<1(А,В) = г}.

В диссертации предлагается следующая схема дискриминантного анализа. Пусть имеется генеральная совокупность значений СКМ К под X, составленная из т генеральных совокупностей значений СКМ К1,К2,...,Кт, заданных под X с распределением вероятностей Р1(К1 = Е), Р2(К2 = Е),...,Рт(Кт = Е) соответственно, и где Ее2х. Тогда, распределение Р(К = Е) случайного множества К под X является смесью указанных распределений с априорными вероятностями Ч1,Ч2,...,Чт, то есть

Для любого подмножества Ее2х поиск номера j его класса заключается в нахождении

ПЛП£Ч,Р!(К!=Е)С(ЛО.

Если минимум достигается при двух различных значениях j, то можно выбрать любое из них. Здесь С(j|i), i,je{1, 2,...,к} - функция потерь.

Для оценки вероятностей РДК( =Е), i = 1...к используется непараметрическая оценка (8), вычисленная по той части выборочной совокупности значений СКМ К, у которой группирующий показатель равен i.

В четвертой главе рассматривается программа анализа дихотомических данных, созданная на основе разработанного алгоритмического обеспечения, оценивается точность получаемых с ее помощью моделей в сравнении с традиционными подходами.

На базе разработанного алгоритмического обеспечения была создана программа анализа дихотомических данных «СКМ Анализ». По существующей классификации статистических программных продуктов она является специализированной программой статистического анализа нечисловой информации. В отношении интерфейса, организации взаимодействия между модулями, подготовки исходных данных к анализу, выдачи результатов расчетов и т.д., программа обладает сходством с пакетом статистического анализа данных STATISTICA.

Программа «СКМ Анализ», в соответствии с модульным принципом построения статистических программных продуктов, содержит модули: классификации; регрессионного анализа; дискриминантного анализа; восстановления пропусков; описательных статистик.

Для оценки эффективности разработанного алгоритмического и программного обеспечения проводилось сравнение случайно-множественного и традиционных подходов анализа дихотомических данных на конкретных примерах. Под традиционными подходами при прогнозировании понимаются: логистическая регрессия (STATISTICA 6.0), линейный дискриминантный анализ (STATISTICA 6.0), метод искусственных нейронных сетей (STATISTICA Neural Networks).

В качестве исходных для анализа данных использовался открытый источник наборов медицинских данных «RUSDASL» ресурса «Биометрика» (http://www.biometrica.tomsk.ru/). Выборки состояли из нескольких сотен пациентов с инфарктом миокарда. Целью исследования ставилось сравнение точности моделей, построенных традиционными методами и разработанными алгоритмами на контрольных и обучающих выборках.

Эффективность метода сет-регрессии и дискриминантного анализа оценивалась в сравнении с искусственной нейронной сетью, линейным дис-криминантным анализом, логистической регрессией (только для сет-регрессии). Оценкой точности в обоих случаях служил критерий количества правильных ответов от общего числа ответов. В качестве архитектуры ней-

ронной сети использовался многослойный персептрон с прямой передачей сигнала, обучение проводилось по методу сопряженных градиентов. Количество скрытых слоев и количество нейронов в них подбиралось с помощью специального алгоритма автоматического поиска Automatic Network Designer. Полученные результаты показали, что точность случайно-множественных моделей примерно на 5-8% выше, чем наилучшая сравниваемая модель.

Метод сет-регрессии использовался в диссертации для восстановления пропущенных значений в дихотомической выборке. Из выборочных данных в соответствии с механизмом порождения пропусков «данные отсутствуют полностью случайно» удалялись в заранее заданном количестве отдельные значения, а затем восстанавливались, и вычислялась точность. Доля пропущенных значений не была выше 50% от объема общей выборки. В ходе эксперимента осуществлялся контроль над тем, чтобы доля пропусков в каждой из переменных не превысила (D — 10)%, где D - общая доля пропусков.

0.1-------------------------------------

0 1—:------—- . I

0 4 8 12 16 20 24 28 32 36 40 44 48

Доля пропусков, %

Рис.2. Зависимость точности восстановления от доли пропусков

Отдельно рассматривался пример решения задачи КПСМ по методу «СИМАП» и иерархическими агломеративными методами в программе 8ТАТ18Т1СА по импортированной туда матрице псевдорасстояний. Сравнение результатов классификации не показало расхождения и убедительно продемонстрировало, что классы формируются вокруг максимальных подмножеств.

В заключении приводятся основные результаты работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. На основе анализа современного состояния проблемы анализа дихотомических данных было установлено, что наилучшим подходом для разработки соответствующего алгоритмического и программного обеспечения является использование теории случайных множеств, как одного из объектов статистики нечисловой природы.

2. Разработан алгоритм классификации подмножеств случайного множества без указания учителя на основе предложенного метода «СИМАП» поиска системы максимальных подмножеств.

3. Разработаны алгоритмы построения различных видов регрессии, когда предиктором является случайное множество.

4. Разработан алгоритм дискриминантного анализа на основе непараметрической оценки распределения случайного множества.

5. На базе разработанного алгоритмического обеспечения создана программа «СКМ Анализ» анализа дихотомических данных. Программа ориентирована на использование в медицинских исследованиях, но может применяться и в других областях, таких как экономика, страхование, социология и т.д.

6. Установлена эффективность разработанного алгоритмического и программного обеспечения в сравнении с существующими подходами к анализу дихотомических данных.

7. Разработанная программа внедрена в учебный процесс кафедры «Системный анализ и управление в медицинских системах» в Воронежском государственном техническом университете, в учебный процесс кафедры «Информационные системы» Воронежского института высоких технологий, в научно-исследовательскую работу кафедры «Общественного здоровья и здравоохранения» Воронежской государственной медицинской академии им. Н. Н. Бурденко.

Основные результаты диссертации опубликованы в следующих работах:

1. Белов К. А., Львович И. Я., Разинкин К. А. Опыт применения анализа главных компонент при решении задачи прогнозирования исходов сочетанных травм // Оптимизация и моделирование в автоматизированных системах: Меж-вуз.сб.науч.тр. Воронеж: ВГТУ, 2001. С. 162-167.

2. Белов К. А., Разинкин К. А., Федянина Я. В. Оценка степени тяжести состояния травматических больных с применением методов кластерного анализа и анализа выживаемости // Компьютеризация в медицине: Межвуз. сб.науч.тр. Воронеж: ВГТУ, 2001. С. 191-198.

3. Белов К. А., Львович И. Я. Применение задачи классификации подмножеств случайного множества при выборе тактики лечения // Материалы от-

четной науч. конф. профессорско-преподавательского состава Воронежского института высоких технологий за 2003-2004 гг.: Сб.науч.тр. Воронеж: Изд-во «Научная книга», 2004. Вып.2. С. 8-12.

4. Белов К. А., Львович И. Я. Использование сет-регрессии для анализа медицинских данных // Теория конфликта и ее приложения: Материалы Ш-й Всерос. науч.-техн. конф. Воронеж: Изд-во «Научная книга», 2004. С. 123-127.

5. Белов К. А., Львович И. Я. Классификация подмножеств случайного множества бинарных прогнозов при выборе тактики лечения травматических больных // Интеллектуализация управления в социальных и экономических системах: Тр. Всерос. конф. Воронеж, 2004. С. 178-179.

6. Белов К. А., Львович И. Я. Новый метод «СИМАП» в задаче классификации подмножеств случайного множества // Оптимизация и моделирование в автоматизированных системах: Межвуз.сб.научлр. Воронеж: ВГТУ, 2004. С. 116-121.

7. Белов К. А., Львович И. Я. Некоторые виды регрессии в пространствах конечных множеств // Оптимизация и моделирование в автоматизированных системах: Межвуз.сб.науч.тр. Воронеж: ВГТУ, 2004. С. 242-246.

8. Белов К. А., Львович И. Я. Дискриминантами анализ на основе непараметрической оценки распределения случайного множества // Оптимизация и моделирование в автоматизированных системах: Межвуз.сб.науч.тр. Воронеж:

9. Белов К. А., Львович И. Я. Восстановление пропущенных значений в дихотомических данных // Оптимизация и моделирование в автоматизированных системах: Межвуз.сб.науч.тр. Воронеж: ВГТУ, 2004. С. 19-24.

10. Белов К. А., Львович И. Я. Задача классификации подмножеств случайного множества при оценке возникновения септических осложнений // Системный анализ и управление в биомедицинских системах: журнал практической и теоретической биологии и медицины. М., 2004. Т.З. №3.С. 168-

Подписано в печать

О/. 0£.

Формат 60x84/16. Бумага для множительных аппаратов. Усл.печл. 1,0. Тираж экз. Заказ №

Воронежский государственный технический университет 394026 Воронеж, Московский просп., 14

05.a-05. УЗ

(ff!»

2 2 MA? Л Л " S у

Оглавление автор диссертации — кандидата технических наук Белов, Константин Андреевич

ВВЕДЕНИЕ.

1 ВОПРОСЫ ПРИМЕНЕНИЯ ТЕОРИИ СЛУЧАЙНЫХ МНОЖЕСТВ ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ДАННЫХ.

1.1 Место случайных множеств в структуре статистики объектов нечисловой природы.

1.2 Формулировка и обоснование актуальности решаемых в диссертации задач с позиции случайно-множественного подхода.

1.3 Цель и задачи исследования.

2 АЛГОРИТМИЗАЦИЯ ЗАДАЧИ КЛАССИФИКАЦИИ ПОМНОЖЕСТВ СЛУЧАЙНОГО МНОЖЕСТВА.

2.1 Модификация алгоритма решения задачи классификации подмножеств случайного множества.

2.2 Применение результатов классификации в медицинских исследованиях.

Выводы второй главы.

3 АЛГОРИТМИЗАЦИЯ ЗАДАЧ ПРОГНОЗИРОВАНИЯ НА ОСНОВЕ ТЕОРИИ СЛУЧАЙНЫХ МНОЖЕСТВ.

3.1 Разработка алгоритмов построения сет-регрессии.

3.2 Разработка алгоритма дискриминантного анализа на основе непараметрической оценки распределения случайного множества.

Выводы третьей главы.

4 ОЦЕНКА ЭФФЕКТИВНОСТИ РАЗРАБОТАННЫХ АЛГОРИТМОВ

АНАЛИЗА ДИХОТОМИЧЕСКИХ ДАННЫХ.

4.1 Структура программного обеспечения анализа дихотомических данных.

4.2 Пример решения задачи классификации подмножеств случайного множества.

4.3 Пример решения задачи построения сет-регрессии и дискриминантного анализа.

Выводы четвертой главы.

Введение 2005 год, диссертация по информатике, вычислительной технике и управлению, Белов, Константин Андреевич

Актуальность темы. В настоящее время практически любое серьезное медицинское исследование подразумевает при обработке результатов наблюдений, экспериментов, измерений использование технологий анализа данных. Их применение позволяет получить новое знание об объекте исследования, выявить скрытые закономерности. Существующее программное и алгоритмическое обеспечение, используемое в этой области, разнообразно по своему назначению и позволяет решать множество задач, как статистического анализа данных, так и анализа данных, в понимании этого термина как совокупности статистических методов, не предполагающих вероятностной модели изучаемого явления. Оба этих подхода можно отнести к прикладной статистике, одним из важных разделов которой является статистика объектов нечисловой природы. Данные нечисловой природы встречаются в медицинских исследованиях крайне часто, и для их обработки следует привлекать корректные методы, основанные на соответствующих вероятностных моделях, что зачастую в реальных исследованиях, как в России, так и за рубежом игнорируется.

Нередко при обработке медицинских данных возникает ситуация, когда исходная информация об объекте исследования представлена дихотомическими признаками. В этом случае, адекватной математической моделью данных являются случайные множества, относящиеся к одному из объектов статистики нечисловой природы.

Для выборочных данных, описываемых дихотомическими признаками, приходится решать те же самые задачи, что и в классических разделах математической статистики: классификация объектов без указания учителя, распознавание образов объектов, оценивание регрессионной зависимости и другие. В связи с тем, что в настоящее время не существует программного обеспечения в этой области, алгоритмы и методы решения указанных задач носят весьма разрозненный характер, а по многим актуальным вопросам отсутствуют, в диссертации разрабатывается алгоритмическое и программное обеспечение анализа дихотомических данных с позиции теории случайных множеств, ориентированное на задачи, свойственные медицинским приложениям.

В медицинских исследованиях, чаще других, решают две задачи: классификации и прогнозирования. Указанное алгоритмическое и программное обеспечение способствует их решению для некоторых важных в практическом смысле постановок. Оно также может быть использовано и в других областях, таких как экономика, страховое дело, социология и т.д.

Таким образом, актуальность темы определяется необходимостью использования для анализа дихотомических данных методов, основанных на случайно-множественной модели данных.

Диссертационная работа выполнена в соответствии с межвузовской комплексной научно-технической программой 12.11 «Перспективные информационные технологии в высшей школе» в рамках одного из основных направлений Воронежского государственного технического университета «Биомедкибернетика, компьютеризация в медицине».

Целью исследования является разработка методов, алгоритмов и программного обеспечения, основанных на теории случайных конечных множеств и общих подходах статистики объектов нечисловой природы, и предназначенных для решения задач анализа дихотомических данных, имеющих широкое приложение в медицинских исследованиях. Для достижения поставленной цели необходимо решить следующие задачи: проанализировать современное состояние проблемы анализа дихотомических данных с позиции случайно-множественного подхода и теории статистики объектов нечисловой природы, и в этой связи определить перечень наиболее значимых для медицинских приложений задач, с указанием путей их решения; разработать алгоритм классификации подмножеств случайного множества без указания учителя, основанный на предлагаемом модифицированном методе поиска системы максимальных подмножеств и указать возможные приложения результатов классификации в медицинских исследованиях; разработать алгоритмы построения различных видов регрессии, когда предиктором является случайное множество; предложить алгоритм дискриминантного анализа на основе непараметрической оценки распределения случайного множества; оценить на практических примерах эффективность предлагаемых моделей, в сравнении с существующими подходами; разработать на основе полученных алгоритмов и внедрить программное обеспечение анализа дихотомических данных.

Методы исследования. В работе использованы методы теории случайных конечных множеств, теории вероятностей, математической статистики, в частности статистики объектов нечисловой природы.

Научная новизна. В диссертации получены следующие основные результаты, характеризующиеся научной новизной: метод «СИМАП» поиска системы максимальных подмножеств, гарантирующий нахождение всех максимальных подмножеств и позволяющий решать задачу классификации подмножеств случайного множества без указания учителя; алгоритмы построения регрессии одного случайного множества на другое через случайные соответствия и на основе оценки близости между подмножествами предиктора, отличающиеся от существующих подходов более высокой точностью получаемых с их помощью оценок; алгоритмы построения регрессии случайной величины на случайное множество через случайные соответствия и на основе оценки близости между подмножествами предиктора, отличающиеся от существующих подходов более высокой точностью получаемых с их помощью оценок; алгоритм восстановления пропущенных значений в дихотомических данных на основе регрессии одного случайного множества на другое, обеспечивающий высокую точность заполнения пропусков; алгоритм дискриминантного анализа, основанный на непараметрической оценке распределения случайного множества, отличающийся от существующих подходов более высокой точностью распознавания.

Практическая ценность и реализация результатов работы. Результаты работы могут быть использованы при решении следующих задач анализа дихотомических данных: классификация без указания учителя; классификация с указанием учителя; построение регрессии, когда предикторами являются дихотомические признаки; восстановление пропущенных значений. В медицинских исследованиях с их помощью могут быть решены следующие задачи. Классификация: выделение наиболее вероятных сценариев развития некоторого заболевания с точки зрения последовательного возникновения его симптомов; классификация совокупности пациентов по перенесенным ранее заболеваниям; упрощение принятия решения при многомерном поисковом прогнозе осложнений некоторого заболевания; мониторинг состояния пациента, описываемого дихотомическим признаками; задача диагностики при дихотомических диагностических признаках и другие задачи.

Прогнозирование: прогноз степени тяжести заболевания по множеству наблюдаемых у пациента симптомов; прогноз множества осложнений, возможных у пациента по множеству диагностических симптомов; прогнозирование процесса течения некоторой болезни, когда состояние пациента характеризуется набором дихотомических признаков; прогноз некоторого количественного показателя по множеству симптомов болезни и другие задачи.

Теоретические и практические результаты работы, реализованные автором в программе «СКМ Анализ», внедрены в учебный процесс кафедры «Системный анализ и управление в медицинских системах» для студентов специальности 200401 «Биотехнические и медицинские аппараты и системы» Воронежского государственного технического университета, в учебный процесс кафедры «Информационные системы» для студентов специальности 230201 «Информационные системы и технологии» Воронежского института высоких технологий, в научно-исследовательскую работу кафедры «Общественного здоровья и здравоохранения» Воронежской государственной медицинской академии им. H.H. Бурденко.

Апробация работы. Результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах: Всероссийской конференции «Интеллектуализация управления в социальных и экономических системах» (Воронеж, 2004), Всероссийской научно-технической конференции «Теория конфликта и ее приложения» (Воронеж, 2004).

Публикации. Основное содержание диссертационной работы изложено в 10 печатных работах. Личный вклад автора заключается в разработке методов, алгоритмов, программного обеспечения анализа данных, построении математических моделей, организации эксперимента с ними и последующей интерпретации результатов моделирования.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, изложенных на 118 страницах машинописного текста, списка литературы (106 наименований), содержит 9 рисунков, 5 таблиц.

Заключение диссертация на тему "Методы и алгоритмы случайно-множественного анализа медицинских данных"

ВЫВОДЫ ЧЕТВЕРТОЙ ГЛАВЫ

1. Разработана программа случайно-множественного анализа дихотомических данных, ориентированная на применение в медицинских исследованиях. Программа по существующей классификации является специализированным пакетом статистического анализа нечисловой информации, позволяет решать следующие основные задачи: классификация, регрессия, дис-криминантный анализ, восстановление пропущенных значений, вычисление описательных статистик. Программа базируется на существующих методах в теории СКМ, а также на собственных разработках.

2. На практических примерах показана эффективность разработанного алгоритмического и программного обеспечения, в частности при сравнении решения задач сет-регрессии и дискриминантного анализа с искусственными нейронными сетями. Разработанное программное обеспечение предоставляет возможность решения задачи КПСМ как с помощью собственного подхода, так и любым из известных алгоритмов классификации без указания учителя, использующим матрицу сходства.

3. Разработанный статистический программный продукт может быть применен и в других, отличных от медицины областях: экономике, социологии, страховании, политологии и т.д.

ЗАКЛЮЧЕНИЕ

В результате проведенной работы по разработке алгоритмического и программного обеспечения анализа дихотомических данных на основе теории случайных конечных множеств были получены следующие результаты.

1. На основе анализа современного состояния проблемы анализа дихотомических данных было установлено, что наилучшим подходом для разработки соответствующего алгоритмического и программного обеспечения является использование теории случайных множеств, как одного из объектов статистики нечисловой природы.

2. Разработан алгоритм классификации подмножеств случайного множества без указания учителя на основе предложенного метода «СИМАП» поиска системы максимальных подмножеств.

3. Разработаны алгоритмы построения различных видов регрессии, когда предиктором является случайное множество.

4. Разработан алгоритм дискриминантного анализа на основе непараметрической оценки распределения случайного множества.

5. На базе разработанного алгоритмического обеспечения создана программа «СКМ Анализ» анализа дихотомических данных. Программа ориентирована на использование в медицинских исследованиях, но может применяться и в других областях, таких как экономика, страхование, социология и т.д.

6. Установлена эффективность разработанного алгоритмического и программного обеспечения в сравнении с существующими подходами к анализу дихотомических данных.

7. Разработанная программа внедрена в учебный процесс кафедры «Системный анализ и управление в медицинских системах» в Воронежском государственном техническом университете, в учебный процесс кафедры

Информационные системы» Воронежского института высоких технологий, в научно-исследовательскую работу кафедры «Общественного здоровья и здравоохранения» Воронежской государственной медицинской академии им. Н. Н. Бурденко.

Библиография Белов, Константин Андреевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Айвазян С. А., Бежаева 3. И., Староверов О. В. Классификация многомерных наблюдений. - М.: Статистика, 1974. - 240 с.

2. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989. - 606 с.

3. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Исследование зависимостей. -М.: Финансы и статистика, 1983. 487 с.

4. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. - 472 с.

5. Айвазян С. А., Степанов В. С. Программное обеспечение по статистическому анализу данных: методология сравнительного анализа и выборочный обзор рынка. Электронное издание. М.: ЦЭМИ РАН, 1997.

6. Алгоритмы и программы восстановления зависимостей / Под. ред. В. Н. Вапника. М.: Наука, 1984. - 816 с.

7. Амбарцумян Р. В., Мекке И., Штойян Д. Введение в стохастическую геометрию. М.: Наука, 1989. - 400 с.

8. Анализ нечисловой информации в социологических исследованиях. М.: Наука, 1985. - 219 с.

9. Андерсон Т. Введение в многомерный статистический анализ. -М.: Физматгиз, 1963. 500 с.

10. Афифи А., Эйзен С. Статистический анализ: подход с использованием ЭВМ. М.: Мир, 1982. - 488с.

11. Балантер Б. И., Ханин М. А., Чернавский Д. С. Введение в математическое моделирование патологических процессов. М.: Медицина, 1980.-263 с.

12. Беллман Р. Математические методы в медицине. М.: Мир, 1987.-200с.

13. Беляев Ю. К. Вероятностные методы выборочного контроля. -М.: Наука, 1975. 408 с.

14. Березин Ф. Б., Мирошников М. П., Рожанец Р. В. Методика многостороннего обследования личности в клинической медицине и психологии. М.: Медицина, 1976. - 186 с.

15. Биркгоф Г. Теория решеток. М.: Наука, 1984. - 567 с.

16. Боровков А. А. Теория вероятностей. М.: Наука, 1986. - 432 с.

17. Браверман Э. М., Мучник И. Б. Структурные методы обработки эмпирических данных. М.: Наука, 1983. - 432с.

18. Брудно А. Л. Теория функций действительного переменного. -М.: Наука, 1971.- 119 с.

19. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979. - 447 с.

20. Вишнев С. М. Основы комплексного прогнозирования. М.: Наука, 1977.-287с.

21. Воробьев А. О. Прямые и обратные задачи для моделей распространения пространственных рисков: автореферат дис.к-та физ. мат. наук. Красноярск, 1998. 23 с.

22. Воробьев О. Ю. О классах распределений случайных множеств // ФАМ записки. Том 6. Красноярск: ИВМ СО РАН, 2001. С. 26-47.

23. Воробьев О. Ю. Среднемерное моделирование. М.: Наука, 1984.- 132 с.

24. Воробьев О. Ю. Средние множества. Происхождение идеи // ФАМ Записки. Том 3. Красноярск: ИВМ СО РАН, 1998. С. 76-82.

25. Воробьев О. Ю., Валендик Э. Н. Вероятностное множественное моделирование распространения лесных пожаров. Новосибирск: Наука, 1978. - 160 с.

26. Воробьев О. Ю., Воробьев А. О., Фомин А. Ю. Средние множественные характеристики случайных множеств // ФАМ Записки. Том 3. Красноярск: ИВМ СО РАН, 1999. С. 396-409.

27. Воронин Ю. А. Теория классифицирования и ее приложения. -Новосибирск: Наука. Сиб. отд-ние, 1985. 231 с.

28. Гихман И. И., Скороход А. В. Управляемые случайные процессы. Киев: Наукова думка, 1977. - 576 с.

29. Гмурман В. Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 1998. - 478 с.

30. Гнеденко Б. В. Математика и контроль качества продукции. М.: Знание, 1978. - 64 с.

31. Голденок Е. Е. Моделирование структур зависимостей и взаимодействий случайных событий в статистических системах: автореферат дис.к-та физ. мат. наук. Красноярск, 2002. 24 с.

32. Гублер Е. В. Вычислительные методы анализа и распознавания патологических процессов. Л.: Медицина, 1978. - 294 с.

33. Гуманенко Е. К. и др. Объективная оценка тяжести травм // Военно-медицинский журнал. 1996. - №10. - С. 25-34.

34. Деврой Л., Дьерфи Л. Непараметрическое оценивание плотности. и подход. - М.: Мир, 1988. - 408 с.

35. Джини К. Средние величины. М.: Статистика, 1970. - 556 с.

36. Дубровский С. А. Прикладной многомерный статистический анализ. М.: Финансы и статистика, 1982. - 216 с.

37. Дэвид Г. Метод парных сравнений. М.: Статистика, 1978. - 144 с.

38. Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977.- 128 с.

39. Елисеева И. И. Группировка, корреляция, распознавание образов.- М.: Статистика, 1977. 143 с.

40. Енюков И. С. Методы, алгоритмы и программы многомерного статистического анализа (пакет ППСА). М.: Финансы и статистика, 1986. -232 с.

41. Ерюхин И. А., Шляпников С. А. Экстремальное состояние организма. Элементы теории и практические проблемы на клинической модели тяжелой сочетанной травмы. СПб.: Эскулап, 1997. - 296 с.

42. Жамбю М. Иерархический кластер-анализ и соответствия. М.: Финансы и статистика, 1988. - 342 с.

43. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. -Новосибирск: Изд-во Ин-та математики, 1999. 270 с.

44. Карапетян К. А., Чахмахнян А. А. // Тезисы докладов Второй Всесоюзной школы-семинара «Программно-алгоритмическое обеспечение прикладного многомерного статистического анализа» / T. II. М.: ЦЭМИ АН СССР. 1983.-С. 10-18.

45. Кемени Дж., Снелл Дж. Кибернетическое моделирование: Некоторые приложения. М.: Советское радио, 1972. - 192 с.

46. Кендалл М. Дж., Стъюарт А. Статистические выводы и связи. М.: Наука, 1973. 899 с.

47. Классификация и кластер / Под. ред. Дж. Вэн Райзина. М.: Мир, 1980. - 390 с.

48. Клир Дж. Системология. Автоматизация решения системных задач. М.: Радио и связь, 1990. - 544с.

49. Колмогоров А. Н., Фомин C.B. Элементы теории функций и функционального анализа. М.: Наука, 1981. - 542 с.

50. Кофман А. Введение в теорию нечетких множеств. М.: Радио и связь, 1982. - 432 с.

51. Куприянова Т. В. Задача классификации подмножеств случайного множества и её применение: дис.к-та физ. мат. наук. Красноярск, 2002. -159 с.

52. Куратовский К., Мостовский А. Теория множеств. М.: Мир, 1970.-416 с.

53. Лапко А. В. Непараметрические методы классификации и их применение. Новосибирск: Наука. Сиб. изд. фирма, 1993. - 149 с.

54. Лбов Г. С., Старцева Н. Г. Логические решающие функции и вопросы статистической устойчивости решений. Новосибирск: Изд-во Ин-та математики, 1999. - 212 с.

55. Лбов Г. С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука. 1981. - 160 с.

56. Литлл Р. Дж. А., Рубин Д. Б. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1990. - 336 с.

57. Лумельский Я. П. Статистические оценки результатов контроля качества. М.: Из-во стандартов, 1979. - 200 с.

58. Мандель И. Д. Кластерный анализ. М.: Финансы и статистика, 1988.- 176 с.

59. Математический энциклопедический словарь / Гл. ред. Ю. В. Прохоров. М.: Сов. энциклопедия, 1988.

60. Матерон Ж. Случайные множества и интегральная геометрия. -М.: Мир, 1978.-318 с.

61. Методы анализа данных: Подход основанный на теории динамических сгущений / Пер. с фр.; Под. ред. и с предисл. С. А. Айвазяна и В. М. Бухштабера. М.: Финансы и статистика, 1985. - 357 с.

62. Миркин Б. Г. Анализ качественных признаков и структур. М.: Статистика. 1980. - 319 с.

63. Миркин Б. Г. Группировки в социально-экономических исследованиях: Методы построения и анализа. М.: Финансы и статистика. 1985. -223 с.

64. Миркин Б. Г. Проблема группового выбора. М.: Наука, 1974.256 с.

65. Миркин Б. Г., Родин С. Н. Графы и гены. М.: Наука. 1977. - 240 с.

66. Моделирование биотехнических и медицинских систем.: Учеб. пособие / Я. Е. Львович, М. В. Фролов Воронеж: Воронеж, гос. техн. ун-т, 1994. - 194 с.

67. Орлов А. И. Задачи оптимизации и нечеткие переменные. М.: Знание, 1980. - 63 с.

68. Орлов А. И. Классификация объектов нечисловой природы на основе непараметрических оценок плотности // Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. -Пермь: изд-во Пермского госуниверситета, 1996.

69. Орлов А. И. Некоторые вероятностные вопросы теории классификации // Прикладная статистика. М.: Наука, 1983. - С. 166-179.

70. Орлов А. И. Некоторые неклассические постановки в регрессионном анализе и теории классификации // Программно-алгоритмическое обеспечение анализа данных в медико-биологических исследованиях: Доклады. М.: Наука, 1987. - С. 27-40.

71. Орлов А. И. О применении статистических методов в медико-биологических исследованиях. Вестник АМН СССР, 1986.

72. Орлов А. И. Общий взгляд на статистику объектов нечисловой природы // Анализ нечисловой информации в социологических исследованиях. М.: Наука, 1985. - С. 58-92.

73. Орлов А. И. Объекты статистики объектов нечисловой природы // Заводская лаборатория. 1995, №3.

74. Орлов А. И. Оценка размерности модели в регрессии // Алгоритмическое и программное обеспечение прикладного статистического анализа.- М.: Наука, 1980 С. 92-99.

75. Орлов А. И. Структура статистики объектов нечисловой природы // Заводская лаборатория, 1990. №3.

76. Орлов А. И. Устойчивость в социально-экономических моделях.- М.: Наука, 1979. 296 с.

77. Прогностика. Терминология. М.: Наука, 1990. - 56с.

78. Прохоров Ю. В., Розанов Ю. А. Теория вероятностей: основные понятия, предельные теоремы, случайные процессы. М.: Наука, 1978. - 370 с.

79. Пугачев В. С. Теория вероятностей и математическая статистика.- М.: Наука, 1979. 370 с.

80. Пытьев Ю. П. Возможность: элементы теории и применения. -М.: Эдиториал УРСС, 2000. 190 с.

81. Раушенбах Г. В. Меры близости в пространстве множеств // Алгоритмы анализа данных социально-экономических исследований. Новосибирск: ИЭ и ОПП СО РАН, 1982. С. 29-43.

82. Раушенбах Г. В. Меры близости и сходства // Анализ нечисловой информации в социологических исследованиях. М.: Наука, 1985. - С. 169203.

83. Раушенбах Г. В. Об измерении близости между множествами в задачах кластер-анализа // Статистика. Вероятность. Экономика. М.: Наука, 1985.-С. 388-392.

84. Раушенбах Г. В. Проблемы измерения близости в задачах анализа данных // Программно-алгоритмическое обеспечение анализа данных в медико-биологических исследованиях: Доклады. М.: Наука, 1987. - С. 4154.

85. Ригельман Р. Как избежать врачебных ошибок: Кн. практикующего врача М.: Практика, 1994. - 203 с.

86. Розин Б. Б. Теория распознавания образов в экономических исследованиях. М.: Статистика, 1973. - 224 с.

87. Семенова Д. В. Методы построения статистических зависимостей портфельных операций в рыночных системах. Автореферат диссертации на соискание. кандидата физико-математических наук. Красноярск: ИВМ СО РАН.-2002.-24 с.

88. Сильвестров Д. С. Программное обеспечение прикладной статистики. М.: Финансы и статистика, 1988. - 240 с.

89. Типология и классификация в социологических исследованиях. -М.: Наука, 1982. 296 с.

90. Тюрин Ю. Н. Непараметрические методы статистики. М.: Знание, 1978 - 64 с.

91. Факторный, дискриминантный и кластерный анализ. Дж.-О. Ким, Ч. У. Мьюллер, У. Р. Клекка и др. М.: Финансы и статистика, 1989. - 215 с.

92. Феллер В. Введение в теорию вероятностей и ее приложения, в 2х томах. М.: Мир, 1984.

93. Фомин А. Ю. Сет-регрессионный анализ зависимостей случайных событий в статистических системах: дис.к-та физ. мат. наук. Красноярск, 2002. 126 с.

94. Фролов В. Н. Выбор тактики лечения с применением математических методов. Воронеж: Изд-во ВГУ, 1977. - 117 с.

95. Фукунага К. Введение в статистическую теорию распознавания образов. М.: Наука, 1979. - 368 с.

96. Холлендер М., Вульф Д. Непараметрические методы статистики. М.: Финансы и статистика, 1983. - 518 с.

97. Хьюбер П. Робастность в статистике. М.: Мир. 1984. - 304 с.

98. Ченцов Н. Н. Статистические решающие правила и оптимальные выводы. М.: Наука, 1972. - 520 с.

99. Ширяев А. Н. Вероятность. М.: Наука, 1980. - 575 с.

100. James P. Marcin, Murray М. Pollack. Triage scoring systems, severity of illness measures, and mortality prediction models in pediatric trauma // Crit. Care Med. 2002. - Vol. 30. - № 11. - P. 457-467.

101. Kendall D. G. Foundations of the theory of random sets: Stochastic geometry / Ed. by E. F. Harding, D. G. Kendall, N. Y.: Wiley, 1974. P. 322-376.

102. Lefering R. Trauma Score Systems for Quality Assessment // European Journal of Trauma. 2002. - № 2. - P. 53-63.1. Утверждаюьбо'-1'^1 '-1 о.,1. Воронежскоймедицинской Н. Бурденко ). Есауленко ^2004 г.1. АКТ ВНЕДРЕНИЯ

103. Заказчик Воронежская государственная медицинская академия1. Наименование организации)1. И.Э. Есаул енко

104. Ф.И.О. руководителя организации)

105. Вид внедренных результатов статистический программный продуктанализа дихотомических данных "СКМ Анализ"

106. Характеристика масштаба внедрения единичное

107. Форма внедрения программный продукт

108. Новизна результатов научно-исследовательских работ методы анализа дихотомических данных для решения задач классификации и прогнозирования,1 ~ 4 —1 1 1 "■' ~основанные на теории случайных конечных множеств.

109. Внедрены: в научно-исследовательскую работу кафедры "Общественного здоровья и здравоохранения" ВГМА

110. Социальный и научно-технический эффект повышение точности прогнозирования, точности решающих правил, качественно новый метод классификация объектов, описываемых дихотомическими признаками при анализе медицинских данных

111. Заведующий кафедрой " Общественного здоровья и здравоохранения", д.м.н., профессор1. Клименко Г. Я.1. УТВЕРЖДАВ»

112. Первый проректор арственного иверситета Петренко 2004г.1. АКТо внедрении результатов научной работы Белова К. А.в учебный процесс ВГТУ по специальности 200401 -"Биотехнические и медицинские аппараты и системы"

113. Заведующий кафедрой "Системный анализ и управление в медицинских системах"1. О.В. Родионов

114. Начальник учебно-методического управления1. В*С. Железный1. АКТо внедрении результатов научной работы Белова К. А. в учебный процесс ВИВТ по специальности 230201 -"Информационные системы и технологии"м

115. Заведующий кафедрой "Информационные системы"1. Ю. С. Сербулов

116. Начальник учебно-методического отдела1. Г. И. Жилина