автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.14, диссертация на тему:Многоуровневая непараметрическая система обработки информации

доктора технических наук
Ченцов, Сергей Васильевич
город
Красноярск
год
1999
специальность ВАК РФ
05.13.14
Диссертация по информатике, вычислительной технике и управлению на тему «Многоуровневая непараметрическая система обработки информации»

Текст работы Ченцов, Сергей Васильевич, диссертация по теме Системы обработки информации и управления

/ С/) -//?5уег

Министерство общего и профессионального образования России Красноярский государственный технический университет

¡ Президиум ВАК России ||

| (решение от" Ж " 19 Ж № ¿¿О/^Т-

I присудил ученую степень ДОКТОРА На правах рукописи

||--__ наук УДК 519.7+681.513+613.1

П Начальник^управления ВАК России I;

р __

ЧЕНЦОВ СЕРГЕЙ ВАСИЛЬЕВИЧ

МНОГОУРОВНЕВАЯ НЕПАРАМЕТРИЧЕСКАЯ СИСТЕМА ОБРАБОТКИ ИНФОРМАЦИИ

05.13.14 Системы обработки информации и управления

диссертация на соискание ученой степени доктора технических наук

Научный консультант: доктор технических наук профессор Лапко A.B.

КРАСНОЯРСК-1999

Оглавление

Введение 7

Глава 1. Методика построения многоуровневой непараметрической системы обработки информации 14

1.1. Общие сведения о процессе принятия решений 14

1.2. Характеристика системы "Здоровье населения - окружающая среда" ^

1.3. Общая характеристика многоуровневой непараметрической информационной системы 18

1.4. Структура информационной системы "Здоровье населения -окружающая среда" 22

Выводы 25

Глава 2. Многоуровневые непараметрические модели обработки информации в условиях больших выборок 27

2.1. Непараметрическая оценка плотности вероятности в условиях больших выборок 28

2.2. Непараметрические алгоритмы распознавания образов в условиях больших выборок 32

2.3. Непараметрическая оценка регрессии в условиях больших выборок 34

2.4. Анализ многоуровневых непараметрических моделей обработки информации 38

Выводы 41

Глава 3. Многоуровневые непараметрические системы распознавания образов 42

3.1. Теоретические основы синтеза байесовых алгоритмов распознавания образов 43

3.2. Непараметрические алгоритмы распознавания образов основанные на оценках плотности вероятности "ядерного" типа. 45

3.3. Методика синтеза многоуровневых непараметрических алгоритмов распознавания образов 50

3.4. Показатели эффективности многоуровневых непараметрических алгоритмов распознавания образов. 54

3.5. Асимптотические свойства статистической оценки ошибки распознавания образов. 56

3.6. Исследование свойств многоуровневых непараметрических алгоритмов распознавания образов методом статистических испытаний 61

3.7. Выбор рациональной структуры многоуровневых систем распознавания образов 66

Выводы 68

Глава 4. Непараметрические модели коллективного типа 69

4.1. Синтез непараметрических моделей коллективного типа при восстановлении стохастических зависимостей 70

4.2. Непараметрические коллективы в задаче распознавания образов. 73

4.3. Асимптотическая сходимость непараметрических моделей коллективного типа 75

4.4. Выбор закона распределения системы "опорных" точек при синтезе непараметрической модели коллективного типа 82

4.5. Критерии оценивания условий компетентности непараметрических моделей коллективного типа 83

4.6. Непараметрические модели нестационарных временных зависимостей. 89

4.7. Непараметрические модели инерционных процессов 94

4.8. Коллектив решающих правил в задаче аппроксимации нестационарных временных зависимостей 95

4.9. Применение непараметрических моделей коллективного типа в задачах количественного прогнозирования 97

4.10. Исследование свойств непараметрических моделей коллективного типа при конечных объёмах обучающих выборок 99

4.10.1. Исследование свойств непараметрических моделей коллективного типа в задаче восстановления стохастических зависимостей 99

4.10.2. Свойства непараметрических алгоритмов распознавания образов коллективного типа 102

4.10.3. Области компетентности непараметрических моделей коллективного типа 105

Выводы 109

Глава 5. Принятие решений в многоуровневых системах с дискретным временем при нечетко заданных условиях 111

5.1. Постановка задачи 112

5.1.1. Статистическая модель развивающейся системы с дискретным временем 112

5.1.2. Постановка задач принятия решений 115

5.2. Принятие решений в условиях (sM,un t = 1,М^ 116

5.3. Принятие решений в развивающихся системах

(Sh, hels, Ut,t=l+\,M) 119

5.4. Алгоритм формирования управляющих воздействий в сис-

теме (SM, ut, t = l,Mj 121

5.5. Алгоритм формирования управляющих воздействий в сис-

теме {51 к ип ? = / + 1,М^ 125

5.6. Анализ эффективности методов случайного поиска глобального экстремума в задачах нечеткой оптимизации 127

5.7. Исследование алгоритмов управления системами с дискретным временем в расплывчатых условиях 131

5.7.1. Модель исследования 133

5.7.2. Результаты статистического моделирования 134 Выводы 141

Глава 6. Информационная система "Здоровье населения - окружающая среда" 143

6.1. Требования к информационной системе 145

6.1.1. Требования к функциональным характеристикам 145

6.1.2. Требования к надежности 147

6.1.3. Требования к составу и параметрам технических средств 147

6.1.4. Технико-экономические показатели 148

6.2. Характеристика системы "Здоровье населения - окружающая среда" 148

6.3. Методы обнаружения вероятностных закономерностей взаимосвязи показателей заболеваемости и экологических параметров 152

6.4. Методика обнаружения взаимосвязи между экологическими факторами и показателями заболеваний населения 155

6.5. Вероятностный анализ показателей взаимосвязи между заболеваемостью населения и экологическими факторами 156

6.6. Прогнозирование состояния здоровья населения 158

6.7. Оценивание степени влияния экологических факторов на изменение показателей заболеваемости 161

6.8. Расчет вариантов значений экологических факторов, соответствующих заданному уровню заболеваний населения 163

6.9. Описание программного комплекса 164

6.9.1. Требования к аппаратному и системному программному обеспечению 165

6.9.2. Список основных частей программного комплекса 165

6.9.3. Установка комплекса программ 167

6.10. Информационная база комплекса программ 168

6.10.1. Заболеваемость населения 168

6.10.2. Демографические показатели 168

6.10.3. Климатические показатели 169

6.10.4. Загрязнения 170

6.11. Методики решения основных функциональных задач информационной системы 171

6.11.1. Ранжирование факторов загрязнения окружающей среды по степени влияния на заболеваемость населения конкретного района 171

6.11.2. Оценивание временной задержки влияния факторов загрязнений на показатели заболеваемости населения 171

6.11.3. Сравнение медико-экологических условий двух районов 172

6.11.4. Обнаружение причин временного изменения уровня заболеваемости населения района 173

6.11.5. Комплексная оценка влияния экологических факторов на уровень заболеваемости населения 173

6.11.6. Выбор рекомендаций по изменению экологических и социально-гигиенических факторов 174

Выводы 175

Заключение 177

Список литературы 179

Приложения

П1. Руководство оператора 189

П2. Контрольные примеры 213

ПЗ. Диалоговый пакет программ "NPCL - Непараметрические

методы классификации" 227

Введение

Актуальность проблемы: Непараметрические методы принятия решений, основанные на оценках плотности вероятности "ядерного" типа, широко применяются при исследовании объектов различной природы в условиях априорной неопределенности. Используя обучающие выборки и общие сведения о характере скрытых закономерностей, они позволяют получать результаты максимально адекватные действительности.

Идея построения непараметрических алгоритмов и моделей заключается в оценивании существующих решающих правил теории оптимальных систем и последующем анализе их свойств. Поэтому исследования в области теории непараметрическйх адаптивных систем в нашей стране и за рубежом были сосредоточены на синтезе и анализе оценок плотности ядерного типа, их производных, линейных и нелинейных функционалов от плотности вероятности.

Однако по мере усложнения изучаемых объектов появляются методологические и вычислительные трудности применения традиционных непараметрических алгоритмов. Это наблюдается, в частности, при обработке больших массивов данных, принятии решений в пространстве значительной размерности и анализе процессов развития, контролируемых в дискретном времени. Прямая обработка подобной информации с помощью непараметрических систем сопряжена с увеличением временных затрат, усложнением процедур оптимизации алгоритмов и, как следствие, влечет снижение точности решаемых задач.

Традиционная эвристическая методика "обхода" возникающих проблем состоит во введении этапа минимизации описания и последующем решении целевой задачи по сформированной выборке меньшего объема, что связано с потерей полезной информации, ограничением возможности использования дополнительных априорных сведений о решаемой задаче и требований к проектируемой системе.

Предлагаемая работа посвящена разработке математического и программного обеспечения многоуровневой непараметрических системы об-

работки информации в условиях больших выборок и значительной их размерности, обеспечивающих сокращение времени, повышение точности решения задач и рациональный учет априорных сведений и требований при проектировании систем.

Полученные научные результаты создают методическую и математическую основу автоматизации проектирования информационных систем обработки в различных прикладных областях.

Фундаментальная научная значимость данного направления состоит в возможности его распространения на проблему моделирования динамических систем с дискретным временем при структурной неопределенности, включая их комплексы с различным характером взаимодействия и пространственно распределенные процессы развития. Так как многоуровневые непараметрические системы включают, как частный случай, модели теории цепных зависимостей, то создаются основы обобщения ее результатов и сопоставления получаемых утверждений.

Диссертация выполнялась в рамках гранта РФФИ № 97-01-01043, программы Госкомвуза РФ "Технические университеты" (раздел 2.3 "Интеллектуальные информационные технологии"), грантов Госкомвуза по математике (конкурсный центр при Новосибирском государственном университете), фундаментальным исследованиям в области естествознания (конкурсный центр при Санкт-Петербургском государственном университете, 1996-97 г.г., № 95-0-2.2-36), фундаментальным исследованиям в области автоматики и телемеханики, вычислительной техники, информатики, кибернетики (Санкт-Петербургский электротехнический университет, 1998 г.), гранта РГНФ № 98-06-12001в, проекта Федеральной целевой программы "Интеграция" (направление 4.1, регистрационный номер 124-01).

Цель диссертации. Разработка математических и информационных средств построения многоуровневых непараметрических систем обработки информации с позиций условно-последовательных процедур принятия решений, обеспечивающих "обход" проблем сложности в задачах исследования систем при априорной неопределенности.

Цель достигается путем решения следующих, задач:

- создание методики синтеза и анализа многоуровневых непараметрических систем обработки информации в условиях больших выборок;

- построение многоуровневых непараметрических систем распознавания образов на основе условно-последовательных процедур принятия решений;

- разработка и исследование многоуровневых непараметрических моделей стохастических зависимостей и нестационарных временных процессов с позиций принципов коллективного оценивания;

- разработка и исследование алгоритмов принятия решений в многоуровневых непараметрических системах при нечетко заданных условиях;

- создание информационных средств построения многоуровневых непараметрических систем обработки информации;

- разработка информационной системы автоматизации научных исследований и прогнозирования состояния здоровья населения региона по динамическим данным популяционных обследований.

Методы исследований. Для реализации сформулированных задач использовались методы теории сложных систем, теории адаптивных и обучающихся систем, теории вероятностей и математической статистики, теории расплывчатых множеств и имитационного моделирования.

Научная новизна. Впервые разработаны математические и информационные средства построения многоуровневых непараметрических систем обработки информации, охватывающих методы синтеза и анализа структуры изучаемых систем в условиях больших обучающих выборок и значительной размерности, создание на из основе нечетких алгоритмов принятия решений, исследование свойств статистических алгоритмов и моделей, что обеспечило разработку универсальной системы автоматизации научных исследований и прогнозирования состояния здоровья населения региона по динамическим данным популяционных обследований.

В частности:

1. Предложена и исследована новая непараметрическая оценка плотности вероятности регрессионного типа, являющаяся основой формирования непараметрических систем анализа больших выборок.

2. Разработаны и исследованы новые непараметрические алгоритмы восстановления стохастических зависимостей и распознавания образов на основе регрессионных оценок плотностей вероятности, позволяющие повысить эффективность обработки больших выборок.

3. Разработаны и исследованы многоуровневые непараметрические системы распознавания образов, реализующие условно-последовательные процедуры принятия решений, что позволяет, по сравнению с методами прямой обработки информации, значительно повысить вычислительную эффективность классификации и осуществить рациональный учет априорных сведений.

4. Предложены новые непараметрические модели коллективного типа для восстановления нестационарных временных зависимостей.

5. Теоретически обоснована последовательная процедура синтеза и анализа непараметрических моделей коллективного типа в задачах восстановления стохастических зависимостей, использующая идею построения упрощенных параметрических аппроксимаций относительно системы опорных точек с последующей их организацией в коллектив непараметрического типа. Установлены их асимптотические свойства и условия компетентности.

6. Создано методическое и алгоритмическое обеспечение принятия решений в развивающихся системах с многоуровневой структурой при различных вариантах задания нечетких условий. Определены зависимости свойств статистических оценок показателей эффективности разработанных алгоритмов от параметров структуры развивающейся системы и объема исходной информации.

и

Практическая ценность диссертации заключается в разработке алгоритмического и программного обеспечения многоуровневой непараметрической системы обработки информации и принятия решений, ориентированной на исследование объектов различной природы при априорной неопределенности. Систему рекомендуется использовать при прогнозировании состояния уникальных временных процессов по коротким рядам, моделировании и управлении развивающимися системами с дискретным временем при нечетко заданных целевых установках, обработке больших массивов статистических данных в задачах восстановления стохастических зависимостей и распознавания образов.

На ее основе разработана информационная система прогнозирования состояния здоровья населения региона и выбора рациональных санитарно-гигиенических мероприятий. Отдельные фрагменты многоуровневой непараметрической системы применяются в задачах автоматизации научных исследований медико-биологических процессов.

Автор защищает:

1. Многоуровневую непараметрическую систему обработки информации и принятия решений, ориентированную на исследование объектов различной природы при априорной неопределенности.

2. Регрессионную оценку плотности вероятности, обеспечивающую синтез многоуровневых непараметрических алгоритмов обработки больших массивов статистических данных. Их свойства и результаты сравнения с традиционными непараметрическими моделями.

3. Многоуровневые непараметрические системы распознавания образов на основе условно-последовательных процедур принятия решений, позволяющих значительно повысить вычислительную эффективность процессов классификации статистических данных.

4. Непараметрические модели коллективного типа в задачах восстановления стохастических зависимостей и распознавания образов, сочетающие преимущества локальных и параметрических аппроксимаций. Асимптотические свойства предложенных моделей, ме-

тоды их оптимизации и критерии оценивания областей компетентности.

5. Непараметрические модели коллективного типа нестационарных временных зависимостей, условия их применения и свойства.

6. Нечеткие алгоритмы принятия решений в развивающихся системах с дискретным временем, зависимости их свойств от параметров многоуровневой структуры и объема исходной информации.

Реализация результатов работы♦ Многоуровневая информационная система прогнозирования состояния здоровья населения региона с учетом экологических условий и выбора рациональных санитарно-гигиенических мероприятий, внедрена в Цент�