автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка методов и алгоритмов прогнозирования качественных ситуаций в задачах обработки разнотипных данных

кандидата технических наук
Абдулкеримов, Сагид Абдурахманович
город
Москва
год
1991
специальность ВАК РФ
05.13.01
Автореферат по информатике, вычислительной технике и управлению на тему «Разработка методов и алгоритмов прогнозирования качественных ситуаций в задачах обработки разнотипных данных»

Автореферат диссертации по теме "Разработка методов и алгоритмов прогнозирования качественных ситуаций в задачах обработки разнотипных данных"



Московский ордена Ленина и ордена Октябрьской революции

Абдулкеримов Сагид Абдурахманович

Разработка методов и алгоритмов прогнозирования качественных ситуаций в задачах обработки разнотипных данных

Специальности: 05.13.01 - Управление в технических

системах

05.13.16 - Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях

энергетический институт

на правах рукописи

Автореферат на соискание ученой степени кандидата технических наук

Москва - 1991

Работа выполнена на кафедре автоматики Мэсковского ордена Ленина и ордена Октябрьской революции энергетического института

Научный руководитель - доктор технических наук, профессор Голяс Ю. Е.

Официальные оппоненты - доктор технических наук, в. н. с. Мкртчян Фердинанд Анушаванович

кандидат технических наук, с. н. с. Андрукович Петр Федорович

Вэдушдя организация -

Всесоюзный научно-исследовательский институт химической технологии министерства атомной энергетики и промышленности

Зашита состоится " 5 " ДекабРЯ 1991 г.

14

час. вв мин.

в ауд. Г-310 на заседании специализированного Совета К 053.16.18 в Московском энергетическом институте.

Отзывы (в двух экземплярах, заверенные печатью) просим направить по адресу: 105835, ГСП, Москва, Е-250, ул. Красноказарменная, д. 14, Ученый Совет МЭИ.

О диссертацией можно ознакомиться в библиотеке МЭИ.

Автореферат разослан IО 1991 г.

Ученый секретарь специализированное Совета К. 053.16.18 ,,-г..

(Полотнов М. М. )

Актуальность темы. Возрастающая потребность в применении методов математической статистики в самых разных областях человеческой деятельности привела к интенсивному развитию нового ее направления - методов анализа данных, которые в последние годы находят очень широкое практическое применение. Ускоренное развитие вычислительной техники как средства обработки больших массивов данных также стимулировало в последние годы проведение широких комплексных исследований сложных технических объектов, социально-экономических, медицинских, биологических и других процессов и систем, которые непосредственно связаны с человеческим фактором.

Широкое оаспространение таких объектов и явлений и присущая им разнотипность характеристик, т. е. наличие в их описаниях не только количественных, но и качественных и других прианаков, делает актуальной разработку методов и алгоритмов статистического анализа такого рода данных.

Цель и задачи работы. Целью работы является разработка методов и алгоритмов прогнозирования качественной выходной переменной' при качественных или разнотипных входных признаках.

В диссертации решаются следующие задачи:

- разработка и экспериментальное исследование методов и алгоритмов статистического анализа качественных или разнотипных экспериментальных данных;

- выбор, обоснование подхода и разработка алгоритма для решения задачи прогнозирования качественного отклика;

- разработка методических рекомендаций по практическому применению предложенных алгоритмов;

- разработка программного обеспечения для решения указанных задач на ЭВМ и представление его в форме удобной для экллуатации;

- решение задач медицинской диагностики и прогнозирования исхода биотехнологического процесса

Научная новизна работы. Автором получены следующие результаты:

1. Предложен и разработан модифицированный метод факторного анализа для обработки качественных статистических данных в условиях коррелированности входных воздействий и метод выделения информативных признаков, обладающих наибольшей диагностической силой для классификации объектов.

2. С использованием модельных примеров исследораны четыре типа коэффициентов связи. Показана возможность их эффективного примене-

ния вместо коэффициентов корреляций (ковариаций) в алгоритмах факт, торного анализа.

Предложен критерий для отбора значимого признака-представителя из множества однородных признаков.

3. На основе обобщения одномерного подхода предложен метод прогнозирования качественных ситуаций с помощью модифицированной процедуры Вальда на основе критерия отношения вероятностей. Получены необходимые математические формулы.

4. На основе проведенных исследований доказана возможность эффективного практического использования предложенных алгоритмов.

5. Разработанные в работе методы и алгоритмы реализованы в виде программного комплекса для статистического анализа качественных данных на ЭВМ.

Практическая значимость работы.

1. На основе полученных теоретических результатов разработаны алгоритмы статистического анализа разнотипных данных. Эти алгоритмы реализованы в виде программного комплекса и могут быть применены для широкого класса задач, связанных с исследованием сложных многомерных объектов.

2. Разработанное программное обеспечение имеет диалоговый характер, рассчитано на неподготовленного пользователя и может служить инструментальным средством для использования в научно-исследовательской и практической работе специалистов разного профиля с использованием ЭВМ, в том числе, в таких областях, как социология, психология, техника, экология и др.

3. Разработаны подробные методические рекомендации по применению указанных методов и алгоритмов в практических задачах.

4. Программные средства, разработанные в диссертационной работе, были использованы при решении задачи прогнозирования невынашивания беременности на ранних сроках. Построенное для этой задачи диагностическое правило реализовано на персональном компьютере во Всесоюзном научно-исследовательском центре по охране здоровья матери и ребенка МЗ СССР (ВНЩ ОЗМ и Р, г. Москва) и используется при диспансеризации и профилактике беременных женшин.

Решена задача прогнозирования биотехнологического процесса синтеза антибиотиков. Полученное классификационное правило, включающее информативные входшк признаки, относит результат процесса

к "хорошему" или " плохому".

Основные итоги внедрения результатов работы подтверждены документами, приведенными в приложении.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на IX Всесоюзной конференции по планированию эекперимента в научных исследованиях ( Москва, 1989 г. ), на научных семинарах МЭИ, на семинаре во ВНИЦ ОЗМ и Р по результатам анализа статистических данных по проблеме невынашивания беременности, а также демонстрировались на ВДНХ СССР.

Публикации. По результатам диссертационной работы опубликованы 4 печатных работы.

Структура работы. Диссертация состоит из введений, 4-х глав, списка литературы, включающего 86 наименований, приложения. Работа содержит 124 страниц машинописного текста, 4 рисунка, 20 таблиц.

Содержание работы.

Во введении обоснована актуальность диссертационной работы, ' ее новизна, раскрыт смысл некоторых терминов, встречающихся в работе, изложены основные положения выносимые на защиту, дана общая характеристика работы.

В первой глаг.е описана и схематически раскрыта постановка задачи исследования. Рассматривается многомерный и сложный объект, на входе которого действует вектор Л =» (X/, х3,.--,Хт) случайных контролируемых признаков. Допускается присутствие случайных неконтролируемых помех «5 = (£г,£*,.Предполагается, что все указанные величины имеют разнотипную, а отклик У - качественную природу. Цель исследования - по наблюденным входным воздействиям дать прогноз значения отклика, используя только наиболее информативны« признаки. Так как отклик имеет качественную природу, то процесс носит классификационный характер деления значений отклика на два класса ("да"-"нет", "хороший"-"плохой" и т.д.). Состояние объекта может быть описано лишь вероятностно, поэтому задача является статистической. Ее решение сводится к проверке статистических гипотез с помощью некоего классификационного правила К(к) , где К(х) означает, что принимается гипотеза Н; , соответствующая состоянию обвита АI , описываемого вектором X; ■

Выделены четыре этапа, иа которых состоит решение задачи. Эти этапы включают в себя: предварительный анализ данных; выделение информативных признаков из входного множества; построение классификационного правила; проверка его качества. Второй и третий из этих этапов являются основными.

Известно, что выделение информативных признаков является одной из задач сжатия признакового пространства. Тот или иной вариант конкретизации этой задачи приводит к разным методам ее решения: к методу главных компонент, факторному анализу, экстремальной группировке параметров, многомерному шкалированию, методам распознавания образов, анализу соответствий и т.д.

В данном случай выбор остановлен на факторном анализе. Обосновать это можно следующим образом. Факторный анализ - один из широко известных методов анализа данных-. Он хорошо статистически обоснован и эффективен. Однако, при переносе алгоритмов факторного анализа на качественные переменные происходит резкое снижение их эффективности в отличие от других названных выше методов. Дело здесь в том, что все существующие алгоритмы качественного факторного анализа используют в качестве матрицы исходных данных дихотомическую матрицу, полученную путем перевода качественных признаков в бинарные. Эта матрица содержит много нулей, и именно это обстоятельство является причиной, по которой факторный анализ лишается своих достоинств.

В данной работе разработан модифицированный алгоритм факторного анализа, который позволяет значительно повысить эффективность анализа качественных статистических данных. Из описанных в работе известных алгоритмов в экспериментах и расчетах был использован метод главных факторов. Затем все полученные факторы были заменены информативными признаками - представителями, которые используются для прогнозирования отклика. Частое применение для этого нашли классификационные правила, в частности, построенные на основе критерия отношения вероятностей с использованием последовательного анализа Вальда, который примерно в два раза (по затратам на наблюдения) выгоднее, чем наилучший из классических критериев - критерий Неймана-Пирсона. В работе предложен модифицированный алгоритм последовательного анализа Вальда для случая многомерных объектов.

Вторая глава посвящена предварительному анализу исходных данных, разработке и исследованию нового алгоритма факторного анализа качественных переменных. Предварительный статистический анализ исходных данных, представленных в Еиде альтернативных обучающих выборок, применяется для того, чтобы оценить наиболее общие параметры распределения признаков в исследуемых классах, в том числе, информативность признаков, абсолютные и относительные частоты и их доверительные интервалы, диагностические коэффициенты, а также проверки статистической значимости различий в распределении признаков в изучаемых классах по непараметрическому критерию У углового преобразования Фишера, строится вариационный ряд признаков по убыванию информативности. Некоторые из этих параметров используются в дальнейшем, как при классификации признаков (информативность), так и при построении классификационного правила (диагностические коэффициенты).

Основная модель факторного анализа в матричном виде записывается в следующей форме:

х = А{+е . (1)

Здесь X = (Х^ ,Хг») - ш - мерный вектор-столбец наблюдаемых переменных;

''У'»/г» —» У/"^ ' ^ -мерный.вектор-столбец общих факторов;

" (&1, т -мерный вектор-столбец специфичес-

ких факторов, влияющих только на данную переменную. Предполагается, что они не коррелированы как между собой, так и с общими факторами / ;

А = (о,[г\- (т + Р) - матрица факторных нагрузок.

Для оценки неизвестных факторных нагрузок и дисперсий специфических факторов используют информацию, содержащуюся в корреляционной матрице, т.к. из (1) при ортогональности ({акторов можно получить

{■, (2)

где - корреляционная матрица исходных переменных;

У - (тлт) - диагональная корреляционная матрица специфических факто;ов.

В данной работе используется усеченная процедура факторного анализа, в которой значения самих факторов не используются , т.е. вычислительные аспекты заканчиваются получением матрицы, факторных нагрузок, которую затем анализируют.

Все существующие алгоритмы качественного факторного анализа предполагают перевод качественных переменных в дихотомические, таким образом, что если c}¡ - число градаций признака У; , то он заменяется бинарным вектором длины £; , в котором 1 обозначает градацию, в которой получен ответ. При этом общее число

гг*

признаков определяется как сумма -5Г числа градаций всех признаков.

^ Пусть Р. - вероятность выбора градации ^ в признаке X; , - вероятность выбора градации t в признаке ху , а -

вероятность одновременного выбора этих градаций. Тогда факторный анализ таких данных основывается на анализе аналога ковариационной матрицы, вычисляемой по формуле

Рц • (3)

Использование формулы (3) имеет ряд недостатков. Во-первых, это резкое увеличение числа исходных признаков, т. к. в таком случае каждая градация выступает в качестве отдельного признака. Это обстоятельство, в свою очередь, приводит к необходимости увеличения числа наблюдений. Во-вторых, полученная по формуле (3) матрица имеет " плохую" структуру, т. к. в дихотомической матрице такого типа число нулей значительно больше числа единиц. Это приводит к слабой коррелированности переменных, а дисперсии факторов уменьшаются очень медленно, что делает необходимым включать в модель большое их число для объяснения достаточной доли исходной информации. .

Все эти недостатки, как оказалось, можно устранить, если вместо выражения (3) использовать матрицы, основанные на коэффициентах связи Чупрова, Крамера, Пирсона и Шеннона для градаций качественных признаков. Все эти коэффициенты, как и коэффициенты корреляции (ковариации), относятся к мерам близости и основаны

на величине У- , и поэтому теоретически такой подход вполне корректен и обоснован. Для вычисления коэффициентов свяэи используются двумерные таблицы сопряженности признаков.

Обозначив через /V - объем выборки, 7,5- число строк и столбцов таблицы сопряженности (ТС), соответственно, запишем формулы для вычисления коэффициентов. Коэффициент Чупрова

; л

т' у

й \/(7-1)(5Ч)

Коэффициент Крамера

(4)

* тс*

У " А/ тГп(7-0^-1) ' (5)

Коэффициент Пирсона

/ , у Й-

(6)

У хя-

А коэффициент Шеннона основан на информационных статистиках и вычисляется как

/Р Н(У)~Н(У/х)

-Ш)— ' ()

где Н(У)= - ^Ру- дед Р^- - энтропия переменной У ,

Н(У/х)= Р./- ' условная энтропия переменной У

О/Ц) ^

Если матрицу коэффициентов связи обозначить через 5 и поставить его вместо ^ в выражении (2), то получим

(8)

С учетом (8) для определения дисперсий факторов и матрицы нагрузок нужно решить систему

(в - Ае I) ые - о

_ - 10 -где - 5 редуцированная матрица связи (общность можно вычислить как максимальный парный коэффициент связи), - собственные значения и Ы,? - собственные векторы матрицы й , 2 - единичная матрица На оС» накладываются условия: ~

' Ц) Сл *

Для проверки эффективности предложенных мер связи проведены исследования с использованием метода главных факторов и модельных примеров с априори известной факторной структурой. Во всех случаях результаты исследований подтвердили предполагаемую факторную структуру и, как следствие, обоснованность предложенного подхода.

Проиллюстрируем это на одном из модельных примеров, заимствованном из литературы. Массив содержит группу из 23 наблюдений (цветки ириса), описанные с помощью четырех признаков (длина и ширина чашелистика, длина и ширина лепестка):

Факторный анализ, проведенный с использованием количественных признаков, привел к двум четко выделяющимся факторам (табл.1), первый из которых связан с признаками 1,3 (длина чашелистика и длина лепестка), а второй - с признаками 2,4 (ширина чашелисти-тика и ширина лепестка).

Табл. 1

Матрица факторных нагрузок на основе парных коэффициентов корреляции

Переменные

Факторы

1

2

1 2

3

4

0. 936 0. 265 0. 931 0.165

0. 247 0. 746 -0. 253 -0. 794

Если перевести исходные данные в дихотомические переменные, то получается 14 переменных, т.е. исходный массив будет иметь значительно больший объем. Корреляционную матрицу будем вычислять по формуле (3). Результаты факторного анализа представлены в

табл. 2. Как и говорилось выше, дисперсия таких факторов уменьшается медленно, поэтому в данном случае для воспроизведения около 807. исходной общности пришлось выделить 7 факторов. Это один из главных недостатков данного алгоритма.

Табл. 2

Матрица факторных нагрузок на основе дихотомизированных переменных

Переменные Факт о р ы

1 « 3 4 5 6 7

1 -0. 268 0.036 0.055 -0.113 -0. 144 0. 268 0. 268

2 -0. 868 0. 053 -0.151 -0.10 -0.144 0. 268 0. 268

3 -0. 003 0.082 0.00 -0. 855 -0. 419 0. 003 0. 003

4 0. 027 0.062 0.15 0.10 -0. 233 0. 027 0. 868

5 0.027 0.062 0.15 -0. 10 -0. 233 0. 868 0. 027

6 0. 214 0.073 0. 793 -0. 286 -0. 294 -0. 214 0. 214

7 0. 448 0.119 0. 473 -0. 311 -0. 549 -0. 448 0. 448

8 0.124 0.033 -0.148 -0. 512 -0. 034 -0. 124 0. 124

9 0. 142 0. 044 0. 051 -0. 181 -0. 56 0.142 0. 142

10 0.337 0. 088 -0.094 -0. 449 0. 023 0.337 0. 337

11 0.337 0.088 -0. 094 -0. 449 0. 023 0. 337 0. 337

12 0.129 0. 047 -0.148 -0. 087 -0. 733 0.129 -0. 129

13 0. 386 -0.606 -0.179 -0. 485 -0. 428 0. 386 -0. 386

14 0. 295 -0. 814 -0.159 -0. 362 -0. 361 0. 295 -0. 295

После перевода исходных (количественных) признаков на номинальную шкалу путем разбиения на части гистограммы их распределения, проведем факторный анализ с использованием коэффициентов связи. Соответствующие результаты приведены в таблицах 3-6.

Как видно из них, практически во всех случаях получила подтверждение факторная структура, представленная в табл. 1, и проявляющаяся в виде двух факторов, каждый из которые имеет влияние на группу двух признаков, причем все использованные коэффициенты показали близкие результата При этом следует заметить, что фак-

торный анализ на основе коэффициентов связи приводит к некоторому выравниванию значений факторных нагрузок по сравнению с аналогичными нагрузками в табл. 1.

В результате факторизации исходного массива с количественными данными удалось восстановить 99,3 % исходной общности, что свидетельствует о хорошей факторной структуре переменных. Фок-торный анализ качественных признаков, как и ожидалось, привел к некоторому снижению восстановленной дисперсии. Это, очевидно, связано с потерей.части информации при переводе количественных переменных в качественные и носит неизбежный характер. При этом важно стремиться к минимизации этих потерь.

Табл. 3

Матрица факторных нагрузок на основе коэффициентов Чупрова

Факторы

Переменные 1 2

1 0. 811 0. 254

2 0. 209 0. 652

3 0.803 -0. 279

' 4 0. 220 -0. 649

Табл. 4

Матрица факторных нагрузок на основе коэффициентов Крамера

Переменные

Факторы

1

0. 821 0. 212 0. 834

0. 330

0. 315 0. 719 -0. 293 -0. 673

Табл. 5

Матрица факторных нагрузок на основе коэффициентов Пирсона

Переменные

Факторы

1

2

0. 821 0. 318 0.836 0. 245

0. 361 0. 636 -О. 343 -0. 650

Табл. б

Матрица факторных нагрузок на основе коэффициентов Шеннона

Переменные

Факторы

1

2

0. 683 О. 349 0. 812 0. 348

0. 392 0. 668 -0. 318 -0.642

Как видно, использование матрицы коэффициентов связи оказа-намного эффективнее, чем матрицы, вычисленной по формуле При сравнении результатов факторного анализа с использова-I дихотомических переменных и тех же результатов на основе фициентов связи (4 - 7), графически иэобр&тенных на рис. 1, идны преимущества последних. Так, для восстановления пример-¡02 общей дисперсии в случая использования дихотомических пе-

ременных необходимо использовать 7 факторов, тогда как такой же результат на основе коэффициентов связи достигается всего с двумя факторами.

1 2 3 4 5 6 7 . N

Рис. 1 Диаграмма изменения дисперсий факторов при •• различных коэффициентах связи

Это наиболее показательный итог данных исследований, на основе которого можно сделать вывод о высокой эффективности предложенного подхода.- Выделить какой-либо из использованных в работе коэффициентов связи трудно, т.к. они показали практически одинаковые результаты, поэтому с учетом не слишком больших вычислительных затрат, требуемых для их оценки,исследователю предложено использовать в работе все коэффициенты и выбрать наиболее эффективный из них. В конце главы даны подробные методические указания по использованию этого алгоритма. Полученная после ортогонального вращения матрица факторных нагрузок подвергается тщательному анализу. Выделенные при этом факторы заменяются признаком-представителем из исходного множества, в качестве которого выбирается тот признак, который по результатам предварительного анализа обладает максимальной информативностью. Таким образом, в

качестве информативных мы получаем столько признаков, сколько было выделено факторов. Все полученные признаки затем включаются в классификационное правило для прогнозирования отклика.

Третья глава посвящена вопросам применения модифицированной многомерной последовательной процедуры диагностики Вальда для построения классификационного правила с использованием информативных признаков, а также анализа качества правила.

Метод последовательной проверки гипотез заключается в следующем. Устанавливается некоторое правило, которым руководствуются при принятии на каждой стадии процедуры классификации одного из следующих решений: 1) принять гипотезу Но, 2) отклонить гипотезу //„, 3) продолжить эксперимент и провести дополнительное измерение. Таким образом, проверка проводится последовательно до принятия одного из решений на основе критерия отношения вероятностей.

В своем первоначальном варианте последовательный аналиа Вальда применялся только для случая одного или нескольких независимых переменных. При этом измерялись значения всех признаков и принимали решение о классификации всей группы объектов. В таком подходе случайным является число объектов, которое необходимо изучить, чтобы осуществить классификацию группы в целом. Такая процедура, прежде всего, ориентирована на классификацию группы объектов, но неудобна и трудоемка для классификации отдельного объекта Поэтому для классификации сложных объектов с большим числом входных признаков последовательный анализ практически не применялся. В данной работе предлагается обобщить такой подход на случай многомерных объектов, используя при этом только часть входных признаков. В такой постановке случайным является не объем выборки как в одномерном случае, а число используемых признаков, хотя общее их число известно. Применение многомерного подхода к процедуре Вальда может значительно сократить число признаков, требуемых для принятия решения, что приводит к: сокращению временных затрат.

Обозначим через и Ая диагностические пороги, соответст-ветствующие событиям А1 и которые находятся как

А, = , а = -А— • О)

' уа * ■ /-у»

Здесь - ошибка первого, а уЭ - ошибка второго рода, причем

под отношениями в правой части выражений (9) понимают желаемое (заданное) соотношение правильных и ошибочных прогнозов, которые принимаются, исходя из условий конкретной задачи. Для многомерных объектов в случае существования двух гипотез Н» и Ht и при условии независимости входных признаков, принцип принятия решения выглядит следующим образом. Если выполняется неравенство

P(Ai) Р(х,1/А,) Plxj/A,) у л

Р(Л2) Р(Х{/А2) ' • • • Pfx{/4j) У 1 '

то принимают решение "событие Af ". А если

РШ Р(х//А,) . PÍXS/A,) < л

Р(А/ Р(Х,</А2) Р(х7ЧА3)

2

(И)

то принимают решение "событие A¡t". Здесь Р(А,) и P(A¿) - априорные вероятности появления событий Ai и А2 , соответственно, а

/Ai,2) - условная вероятность появления градации Ху' при соответствующих событиях, 7 - число информативных входных переменных.

Если умножение вероятностей заменить сложением логарифмов, умноженных на масштабный коэффициент ( 10 или 100), то получим диагностические коффициенты

ДК= WP* P/xJ/Af) , * Pfx/Mг)

а формула принятия решения с учетом того, что диагностические пороги тоже должны быть представлены в виде логарифмов, окончательно принимает вид:

Мпор (Аг) <дк(0) + Z^KÍxj) < Жпор U)

где %К(0) - коэффициент априорных вероятностей.

Для оценки информативности признаков использована мера Куль-Сака, которая в отличие от многих подобных мер, не зависит непосредственно от объема выборки. Информативность отдельной градации Xj признака ^-определяется как

IÍX/J- Mfx/Jf^J PÍxJ/A,) - PÍA,) ■ Pf у//А2)]

а информативность признака как сумму информативностей Есех его

градаций.

В конце главы описаны критерии для оценки качества классификационного правила. Вводятся понятия "специфичности" и "чувствительности" правила.

Для оценки вероятности средней ошибочной классификации используется формула

где Паи и Леш - число ошибочных классификаций, ft^ и - число объектов в классах /f/И , соответственно.

В четвертой главе описано программное обеспечение для предварительного статистического анализа данных, представленных в виде альтернативных обучающих выборок матрицей типа "объект-признак", классификация коррелированных разнотипных переменных с помощью алгоритма качественного факторного анализа, а также программные модули для решения конкретных практических задач. В целом это комплекс диалоговых программных модулей, каждый из которых является законченной программной единицей. Диалоговое взаимодействие с . программой позволяет оперативно внести коррективы в ход решения задачи, изменить отдельные параметры, вернуться к разным ее этапам, 'осуществить вывод результатов на экран, печатающее устройство или записать в файл.

Программный модуль STAT IS предназначен для предварительного анализа данных и включает в себя: вычисление абсолютных и относительных частот признаков в альтернативных классах, вычисление их доверительных интервалов, информативности по-Кульбаку, проверка статистической достоверности результатов по непараметрическому критерию у углоеого преобразования Фишера, расчет диагностических коэффициентов признаков для прогнозирования целевой функции, построение вариационного ряда признаков по информативности, а также выделение групп с высокой, средней и малой информативностью признаков. Данная программа предназначена для сравнительного анализа 2-х обучающих выборок. Объем выборок может быть ограничен только возможностями ЭВМ. Диалоговый режим,в числе других,содержит вопрос и о признаках классов, которые предусмотрены в качестве последних элементов строк исходной матрицы. Модуль STAT IS написан

Az

ft РШ

t

на. языке FORTRAN к реализован на ЭВМ СМ-1420 в операционной системе ОС РВ (RSX-11M) и ПЭВМ IBM PC AT (КБ DOS 3.30).

Программный комплекс FAC5 реализует алгоритм модифицированного факторного анализа качественных переменных с использованием коэффициентов связи Чупрова, Крамера, Пирсона и Шеннона. Комплекс написан на языке FORTRAN и реализован на ЭВМ СМ-1420 с использованием оверлейной структуры. Общий объем разработанных в работе программных средств составляет около 500 кВт.

Рассмотрено практическое применение разработанных алгоритмов и программного комплекса для выделения групп информативных приз-ков и прогнозирования невынашивания беременности на основе статистического материала, собранного во Всесоюзном научно-исследовательском центре по охране здоровья матери и ребенка (ВНИЦ ОЗМ и Р) в 1987-1989 г. г. Данные исследования предусмотрены прораммой Р. 02 разработок по неотложным состояниям МЗ PCiCP в рамках создания автоматизированных систем управления технологическим процессом в медицинской промышленности (АСУТП МП). Совместно с сотрудниками отделения невынашивания беременности ВНИЦ ОЗМ и Р (руководитель отделения д. м. н., проф. Сидельникова В. М.) создана минимизированная анкета, содержащая 50 признаков и предназначенная для изучения чрезвычайно важной проблемы невынашивания беременности. По результатам предварительного анализа обучающей выборки объемом 477 анкет (239 больных и 238 здоровых) определены характеристики распределений признаков в исследуемых классах. Затем по случайной выборке из 272 анкет построено классификационное правило, которое имеет два варианта применения для первых и последующих родов, содержащие 8 и 10 признаков, соответственно. Результаты проверки качества правила на экзаменационной выборке оказались следующими: из 33 больных правильно распознаны 30, 3 пациентки имели неопределенный ответ, ошибочных ответов не было. Таким образом, специфичность правила равна 90. 9 %. Из 32 здоровых пациенток правильно распознаны 28, один ответ был неопределенный, 3 - ошибочных, т.е. чувствительность правила равна 84. 4 %. Диагностическое правило расширяет "группу риска", что позволяет сократить число неблагоприятных исходов беременности. При построении классификационного правила априорная вероятность принята равной 0.1, ошибка первого родас^-0. 05 (диагностический порог Af - -12.5), ошибка второго родауВ -0.01

- 19 -

(диагностический порог А^-Э. 8).

Классификационное правило реализовано во ВНИЦ ОЗМ и Р на ПЭВМ 1ВМ РС АТ и используется для отбора "группы риска" при профилактических осмотрах беременных женщин. Выделенная' группа пациенток подвергается дополнительному обследованию, даются рекомендации, а при необходимости назначают нужное лечение.

Следующей задачей, решенной с помошью данного программного обеспечения, является выделение информативных признаков и прогнозирование исхода синтеза антибиотиков, которая составной частью входит в АСУТП в биологической промышленности. Результатом применения правила могут быть прогнозы "плохого" и "хорошего" исходов биотехнологического процесса. Исходная выборка включала 50 наблюдений по 9 признаков. Используя программный комплекс РАСЗ, выделены 3 информативных признака, которые и вошли в классификационное правило. Результаты проверки качества правила следующие: из 10 "плохих" исходов правильно определены 9, а из 10 "хороших" исхо-1 дов - 8. Таким образом, разработанное диагностическое правило характеризуется специфичностью равной 90 X, чувствительностью - 80 7.. В классификационном правиле использованы априорная вероятность. 0.5, ошибка первого и второго рода равные 0.1.

Основные результаты работы.

1. На основе анализа известных статистических подходов разработан модифицированный метод факторного анализа для качественных переменных. Алгоритм предполагает использование в факторном анализе вместо корреляционной (ковариационной) матрицы матрицы связи, состоящей из коэффициентов связи Чупрова, Крамера, Пирсона и ПЬн-нона. Проведенные исследования потвердили эффективность такого подхода

2. Путем обобщения неоднородной последовательной процедуры Вальда на многомерный случай предложен модифицированный алгоритм для классификации качественных ситуаций (объектов с качественным откликом) и получены соответствующие математические выражения.

3. Разработаны подробные методические указания по практическому применению предложенных и исследованных в работе алгоритмов.

4. На основе результатов диссертационной работы создан прог-

раммный комплекс для статистического анализа разнотипных экспериментальных данных и прогнозирования исхода качественных ситуаций.

5. Впервые решена задача прогнозирования невынашивания беременности в условиях ограниченной клинической информации. В результате использования разработанных алгоритмов получены информативные группы признаков и разработано эффективное диагностическое правило, которое используется при профилактических осмотрах пациенток во ВНИЦ ОЗМ и Р МЗ СССР,

6. Решена задача по оценке информативности признаков и прогнозирования исхода биотехнологического процесса синтеза антибиотиков.

Основные результаты диссертационной работы отражены в следующих публикациях:

1. Слепцова С. И., Сидельникова Е М. , Логинова Е Ф. , Абдулке-римов С. А., Голяс К1 Е. Эпидемиологическое изучение условий возникновения невынашивания беременности. //Акут, и гинек. -1909. -N1. -С.'56-бО.

2. Слепцова С. И., Абдулкеримов С. А. , Голяс Ю. Е. , Исаева В. И Изучение эпидемиологии невынашивания беременности с помо!дью формирования первичного пространства признаков. -М. , 1989. -12 с. -Деп. в ВИНЯМИ АМН СССР 11.04.89, N Д-18156.

3. Голяс Ю. Е. Абдулкеримов С. А. Особенности методов классификации в задачах обработки разнотипных данных. //Труды ин-та /Мэск. эн'ерг. ин-т. -1989. -С. 120-127.

4. Абдулкеримов С. А. , Архиреева И. Н. Модель прогнозирования качественной переменкой. //IX Всесоюзная конференция по планированию эксперимента в научных исследованиях: Тез. докл. -М. , 1989. 4 1. -С. 5-6.

Пилижани к печати

Л-

Тираж /а?

Зака!

Типография МЭИ, Крзоноказармсинаи, 13