автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Методы локального оценивания многомерной функции плотности вероятности в задачах обработки экспериментальных данных физики космических лучей

кандидата физико-математических наук
Галфаян, Софья Хосрововна
город
Ереван
год
1993
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Методы локального оценивания многомерной функции плотности вероятности в задачах обработки экспериментальных данных физики космических лучей»

Автореферат диссертации по теме "Методы локального оценивания многомерной функции плотности вероятности в задачах обработки экспериментальных данных физики космических лучей"

^Д? V 6 ом

- Ь; О'.'Л ^

ЕРЕВАНСКИЙ ФИЗИЧЕСКИЙ ИНСТИТУТ

На правах рукописи

ГАЛФАШ СОФЬЯ ХОСРОВОВНА

МЕТОДУ ЛОКАЛЬНОГО ОЦЕНИВАНИЯ МНОГОМЕРНОЙ ФУНКЦИИ ПЛОТНОСТИ ВЕРОЯТНОСТИ Ь ЗАДАЧАХ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ ФИЗИКИ КОСМИЧЕСКИХ ЛУЧЕЙ

05.13.16 - Применение вычислительной техники и математических методов в научных исследованиях

АВТОРЕФЕРАТ диссертации на соисканив ученой степени кандидата физико-математических наук

ЕРЕВАН - 1993

Работа выполнена в Ереванском физическом институте.

Научный руководитель: доктор физико-математических наук,

А.А.Чилингарян

Официальные оппоненты: доктор физико-математических наук,

Р.Л.Шахбагян (ЕГУ) кандидат технических наук, Д.Г.Асатрян (НИИРИ.РА)

Ведущая организация: Ереванский Государственный

Университет

Защита состоится 21 сентября 1993 года в 14 часов на заседании сшциализированного совета К 034.03.01 по защите диссертаций на соискание учёной степени кандидата наук при Ереванском физическом институте по адресу: 375036, г. Ереван-36, ул. Братьев Алиханян-2.

С диссертацией можно познакомиться в библиотеке Ереванского физического института.

Автореферат разослан 20 сентября 1993-года.

Учёный секретарь специализированного совета кандидат технических наук

С.Г.Ананян

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ'

Актуальность работы.

В настоящее время существует множество состоятельных методов непараметрического оценивания плотности вероятности, в которых скорость сходимости среднеквадратической ошибки практически приближается к теоретически возможной. Однако применению непараметрических методов препятствует наличие в них неизвестных параметров процедур (параметров сглаживания), которые зависят как от неизвестной функции плотности, так и от объема обучающей выборки и размерности пространства. В парзеновском ?<етоде оценки функции плотности - это тип и ширина ядра, в knn' методе - число ближайших соседез, в гистограммном методе - размер ячейки (бина) и т.д.

До последнего времени не уделялось достаточного внимания щжсладным вопросам непаракотрического оценивания плотности вероятное'/:: по конечным, з часто и гест-'-а ограниченным выборкам. Гакоа важной проблема, кз:-: выбор параметра сглаживания по наблюдениям, посвядс-:-^: лишь единичные публикации, и, предложенные в них ме-го~-1 не дают способа выбора оптимального значения параметра процедуры в случае конечного набор экспериментальных данных.

Так как статистические задачи в физике космических лучей в основное необходимо решать при условии, что распределения переменных заданы в непарзкетричецкой форме, то для выбора параметров процедур в качестве критерия предлагается кспользссать вероятности >■.""^очно? яласск^лсации, которую можно оценить по выборочной информации.

Ограниченность обЪема обучающей выборки может вызвать смещение оценки исследуемой величины. Уменьшение такого смещения является также очень важным, так как в противном случае подучим оценку, характеризующую только данную конкретную выборку, а не исследуемый физический процесс. Применение бутстреп метода позволило кроме компенсации смещения оценить также дисперсию оценок.

Для компенсации смещения в работе предложена процедура адаптации оценки. Для каждой выборки вокруг оптимального значения параметра сглаживания, выбранного по минимуму риска, с некоторым шагом выбирается несколько значений параметра, и классификация идет не по определенному значению параметра, а по медианному значению вариационного ряда плотности.

Цель работы состояла в:

1. Разработке методов непараметрического локального оценивания многомерной функции плотности вероятности при конечном объеме обучающих выборок:

2. Автоматизации выбора параметров процедур оценивания многомерной плотности вероятности:

3. Выборе критерия оптимизации для определения наилучших параметров статистических процедур по наблюдениям и для сравнения различных непараметрических методов оценивания?

4. Выборе метода управления данными в ходе обработки с целью получения оценок параметров разброса оценок по единственной и ограниченной выборке.

Новизна работы. Предложен новый класс оценок плотности вероятности - медианные оценки, которые точнее, чем оцэнки с любым фиксированным параметром процздуры.

Впервые в задачах физики космических лучей для управления

данными в ходе обработки применена бутстреп процедура как средство уменьшения снесения оценотс и оценивания дисперсии в случае единственно!! выборки.

Предложена процедура вчоогч оптимального пара?«9тра огла^оания при оценив плотности вероятности по результатам эксперимента, где показателе'' качества оценки выбран байесовский риск, который может быть оценен по результатам эксперимента. .

Научная и практическая ценность.

Развитые в диссертации методы применяются при обработке данных крупных экспериментов физики КЛ - эксперимента "Памир", и черенковского телескопа обсерватории Уигаы.

Особенно полезным оказался принцип индивидуальной обработки каждого события - что невозможно без эффективных непараметрических методов оценивания функции плотности вероятности. Переход к многомерному анализу так же значительно повысил надежность физических выводов в физике КЛ.

Апробация работы. Результаты, приведенные в диссертации, докладывались на Международны* . конференциях по :сссг.пг:ес:сиг: лучам и методам вычислительной физики (Бангалор, 1283 Сан-Диего, 1985:. Чехословакия, 1835; Москва, 1987), на и Всесоюзной конференции по автоматическое обработке физической информации (Ереван,1885} и IV Всесо;г-чной школе-семинаре по про^ашгао-алгоритшческому обеспечению приклздаого

нногокерного статистического ака'яга, (].тзхкадаор,1891).

Структура диссертации. Диссертация состоит из введения, 3 глав, заключения, списка "гтэр.зтуры. ОбЪе.ч диссертации составляет 95 страниц, включая 7 рисунков и 13 таблиц. Список литературы содэршт 71 наименование. По те::э диссертации

опубликовано 13 работ. Их перечень дан в заключении диссертации.

Автор диссертации защищает:

1. Эффективность использования адаптивйых локальных оценок плотности вероятности - медианных оценок в задачах физики космических лучей.

2. Использование байесовского риска в качестве критерия при выборе оптимального набора признаков и оптимального ядра в задаче оценивания плотности при обучении байесовского классификатора.

3. Применение бутстреп процедуры как эффективного способа управления конечной выборкой в ходе'обработки данных.

4. Результаты обработки данных в экспериментальной физике космических лучей.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность разработки новых методов и процедур непараметрического локального оценивания функции, плотности вероятности в задачах интерпретации экспериментальных данных физики космических лучей.

В первой главе обсуждается характер задач в области физики космических лучей и обосновывается подхс д к ним, как.к задачам теории распознавания образов. В качестве классификатора минимизирующего общие потери выбирается байесовское решающее правило, которое в случае использования простой функции потерь и равенства априорных вероятностей может быть записано в виде

б

Г"

I

если £«о1/х>> £("г/х) (1)

в противном случае

Вероятность ошибки при классификации вектора х байесовским РП, равна

(шуХ) («/Х)| (2)

ЯБ=Е(ГБ(Х)]-=ГГБ1Х)* t"(X)dX (3)

Усредненная по всему признаковому пространству эта вероятность равна байесовскому риску

3=Е{гБ.Х)}=Хг

Г - область определения х.

Рассматриваются вопросы выбора оптимального для целей классификации числа признаков, оптимальной метрики в признаковом пространстве, способов обучения классификатора. В качестве оптимального набора признаков выбирается набор, минимизирующий ошибки классификации. Оценку ошибки проводим по формуле

И = Нэ= 1/М- £ г(Хь) (4)

1=1

где

г(Х) = /0'еали хг классифицирован правильно (5)

в противном случае

Для обучения классификатора применяется метод скользящего экзамена.

Дается краткий обзор литературы по непараметрическому оцениванию плотности вероятности.

В последнее время получили развитие методы моделирования, в которых каждой реализации вычислительного эксперимента

приписывается вес, отражающий значимость и представительность данного события.Чтобы обеспечить возможность работы с такими выборками, нами выбраны непараметрические (ядерные) метода апроксиыации, которые ныне являются одним га самых популярных подходов.

Если точкам приписаны веса а., парзеновская оценка плотности запишется в виде

ffx) = atl/h Щу/h) (6)

l

где кс y/hi некоторая колоколсобразная функция с нулевым средним. ь - Еазывгется сириног ядерной функции.

Обсуждаются подхода к определению ош^жэльвой ширины яда.ч в парзенозском методе оценивания плотности. !1р1годены рекомендации по знбзру критерия достоверности различных модификаций непара1г.етричееких методов оценивания плетне етт; вероятности.

Сравнение различиут ' ?эпарзу.9тр;кэс:<их оценок ярзьояггея относительно функций пгггоь, которая количественным образом вырзжаэт меру рзехежгэяул ••■"иг.у --■:.•<) и f.>:ï.

Сред;! множества .т.»-гло;?.зяеых функций пс ерь вызрзны интегральная среднеквадрэткчзская ошибка imse (l„- расстояние) и ы-метрика. Таког. выбор обусловлен :: ппрзкоз распространенностью зтих оценок и тем, что, обычно, состоятельность, несмещенность, асимптотическая оптимальность оценки доказывается относительно этих ошибок.

Лдя выбора оптимального значения парзметрз процедуры оценивания в классификационных задачах рекомендуется использовать Байесовский риск R или, «что то же самое при использовании простой функции потерь) - вероятность ошибочной

кдз с скфикации.

Важность Багесозского риска обусловлена тем, что для его вычленения на нэдо знзть истжяое знзчендэ плотности, как в случае вычисления ь, л хл метрик. Так что, вычисление зтширичсского риска к1* по формуле (4) позволит прохсзБодтгь 0ТШКК3315® по рззлгжк» кяшлзкегм признаков к пэргмэтрам

пзрзкетрз сглз^згчяя в парзэнсвских одзнкгх функция плотности

для конечного набора эксгвркэнтальных данных. Показан соглагоззнность оценок опгкчзльного параметра по миниу-уму ь, и тл у^-тр^ и эт'лг.р;с-:егкг.-о риска.

ядзэ ь, хмэз и 1:-и8Тэагси от обЬека выбсргс!. Поззодятся

•л некоторое улучшение получается з значена: ЕСЕС^гцпзнта с.

3 рабств для оптимального пзрз'.'.етрз и 1мзе адаптивной т', т1:сг получекь? э'-тцгрт-тоэс--а'е выпз^вкия зависимости ст обЪв^з выборки, которые имеют вид

ь ~ 2.147*м"°* 22°2 . 1мзе = 0.1871-М"0'(в)

Зависимость такого та вида яаадэно и для ы-кетри-си

ь1 = 0.4544-м-°-3^а (9)

Робастность (устойчивость) катода ецзнизания КЕогстарноа

плотности достигается путем использования не одного, а целого ряда параметров, из некоторого, заранее выбранного интервала. Ясно, что легче выбрать интервал в параметрическом" пространстве, чем. одно значение. Кроме того, удается построить процедуру выбора оптимального значения параметра из набора возможных величин, так что полученные оценки точности оказываются лучшими, чем полученные с любым фиксированным значением параметра.

Метод был реализован в виде вычислительной процедуры и опробован на решении тестовых задач, после чего был применен для обработки результатаов экспериментов в физике космических лучей.

Таблица ы 1

Объем ОВ Ядерные оценки

м = 25 11=0.90 Ь=1.00 11*=1.10 Ь=1.20 11=1.30 адапт.

0.0175 0.0174 0.0171 0.0190 0.0206 0.0170

М = 50 11=0.79 11=0.84 Ь*=0.89 11=0.94 11=0.99 адапт.

0.0126 0.0115 0.0105 0.0109 0.0117 0.0104

М = 100 11=0.65 Ь=0.70 Ь*=0.75 11=0.80 11=0.85 адаггг.

0.0073 0.0068 0.0066 0.0068 0.0071 0.0064

М = 200 11=0.55 Ь=0.60 Ь*=0.65 11=0.70 11=0.75 адапт.

0.0032 0.0031 0.0031 0.0032 0.0036 0.0030

М = 400 Ь=0.30 11=0.40 Ь*=0.50 11=0.60 11=0.70 адаггг.

0.0035 0.0025 0.0020 0.0021 0.0024 0.0020

В таблице N1 представлены значения 1МБЕ соответствующие различным объемам выборок, различным параметрам процедуры и адаптивная оценка. Звездой показано наилучшее ядро. Предложенный класс оценок - медианные оценки, преодолевают основной недостатаок непараметрических методов

ю

непредсказуемость флу ггуационных эффектов малых выборок. Для уменьшения выборочного смещения и оценивания дисперсии оценки параметра эффективным средством является бутстреп процедура.

Таблица N 2

\ ч м "бут N \ 25 50 100 200 400

1 .01649 .01037 .00640 .00324 .00222

25 .01520 .00995 .00629 .00309 ' .00216

50 .01419 .00960 .00625 .00300 .00204

100 .01312 .00944 .00542 .00297 .00196

В таблице N2 приведена зависимость 1МБЕ от числа бутстреп повторений Для каждого объема вычисления проводились при оптимальном значении параметра сглаживания для данного объема.

Как видно из таблицы с увеличением числа бутстреп повторении интегральная ошибка оценивания уменьшается. Эффект бутстрепирования особенно заметен для малых объемов.

В третьей главе приводятся результаты применения методов непараметрического оценивания многомерной функции плотности вероятности в задачах определения массового состава первичного космического излучения и к задаче детектирования потока г-квантов от точечных звездных источников.

В таблице 3 показаны "истинные" и восстановленные доли различных ядер в первичном потоке, полученные в результате классификации "псевдоэкспериментальных" событий, отобранных из банка модельных событий по числу -электронов не. Приведенные ошибки получены с помощью бутстреп - процедуры. Как видно из

таблицы, предлагаемый метод поззоляет с достаточно хорошей точностью определить долх: протонов и ядер железа в первичном потоке. Для того, чтобы увеличить точность определения доли промежуточных ядер необходимо увех^чит,; размер обучачщоя пз следовательно ста.

Таблица.ы 3

Восстадовленные доли четырех груш ядер в интервале 1.ю5<ы <2.ю5 (W. - "истинная" доля, w -восстановленная)

мов м. т

р 200 0.370 0.345 0.038

сю 1В8 0.272 0.229 0.067

н 194 0.168 0.232 0.057

УН 163 0.189 0.194 0.019

Методика классификации с непараметрическим оцениванием многомерной плотности таю.з использовалась для обработки данных с оптических черенковских телескопов, регистрирующие потоки -квантов от точечных источников.

Использование одновременно нескольких параметров, учитывающих как размзры, так и ориентацию черенковского изображения улучшает достзвернссть регистрации потока /-квантов очень высоких энергий по сравнению с одномерным анализом. В таблице 4 приведены результаты байесовской классификации модальных у- и р- изображений по нескольким параметрам черенковского изображения - соответствующие значения

эффективности регистрации и примеси фона вместе с максимальным показателем улучшения эффективнсспт» который можно получить с использованием данной комбинации признаков.

Таблица N 4

Байесовская классификации черэнкпвских изображений (модельная выборка)

ZONE EVENTS WIDTH WIDTH LENGTH7 LENGTH MISS ÄZWIB WIDTH LENGTH MISS Ü/V WIDTH LENGTH (J/V AZWID

ЗТ Channels.

2 584/364 0.411 0_501 0.004 Q_0Q1 6.766 T3..QTT 0.6S8 0.012 6.299 0.521 0.001 17.652

1 строка - эффективность регистрации г- ливнеа

2 строка - примесь фона от р-ливнвж р.

3 строка - фактор улучшения ,

В заключении сформулированы основные результата работы.

Публикации по материала.'?, дстсертации i-Галфаян С.Х., Зазян М.З., Чшшнгарян A.A. - Анализ экспериментальных данных физики кпсяичвснш. лечез как задача распознавания. - Материалы _ г г Бсесшззноа конференции по математической теории распознавания сяГразав. Дгшгзан, 1885. с.77-81.

2.Акопов Н.З., Св.Х.Аругенян. С_Х_Аругенян, С.Х.Гагфаян, В.Х.Матевосян, А.А.Чилингарян, АвтпззтЕзация средств обработки

данных в физике космических лучей. Материалы II конференции по автоматизации обработки физической информации, Ереван, 1985, С.137-139

3. Akopov N.Z., Chilingarian A.A. et al. The ANI data centre structure, Preprint EFI 818(45)-85, Yerevan, 1985.

4. Акопов H.3., Арутюнян С.Х.и др. Пакет прикладных программ

многомерного статистического анализа.Мат.бмеждународной школы по методам выч. физики,Чехословакия,1985,с.52-55 -

5.Галфаян С.Х., Чилингарян А.А., Медианные оценки многомерной

функции плотности вероятности, Тезисы докл. IV Всесоюзной школы-семинара, октябрь, 1991, Цахкадзор

6. Галфаян С.X., Чилингарян А.А. - Вычисление байесовского риска при помощи КБС оценок плотности вероятности. Статистические проблемы управления, Вильнюс1985, вып.66, стр.66-78.

7.A.A.Chilingarian, S.Kh.Galfayan, M.Z.Zazyan, A.M.Dunaevskii, Multidimensional Analysis of Data Obtained in Experiments with X-ray Emulsion Chambers and Extensive Air Showers, Proc. 18 ICRC 5, San Diego, 1985, p.392-395

8. Галфаян С.Х., Чилингарян А.А., и др.. Множественное сравнение данных, получаемых в экспериментах с ШАЛ и методами РЭК, с данными моделирования, Изв. АН СССР, сер. Физ. 50, 2146, 1986..

9. Галфаян С.Х., Дунаевский A.M., Чилингарян А.А.,и др. Многомерный анализ даннных, получаемых в экспериментах с РЭК и в ШАЛ, препринт ФИАН N 332, 1986.

10. Chilingarian А.А.,Galfayan S.Kh., et.al., The new method of r- families analysis, Proc. 19 ICP.C 5, 312, Мокоа, 1987.Dunaevscii A.M., Zazyau M.Z., Some possibilities in EAS

emulsion chamber experiments, Proc. 17 ICRC 5, 231, Paris, 1981.

11. Chilingarian, A.A.,Galfayan S.Kh., et.al., The upper boundary of iron nuclei fraction in primary cosmic rays obtained from Pamir experiment data, 19 ICRC 1, 386, Moscow, 1987.

12. Chilingarian A.A, Galfayan S.Kh., et al, Upper boundary of iron nuclei fraction in PCR, Preprint FIAN 75, 1988.

13. Галфаян C.X., Чилингарян A.A., и др.. Ядра железа в первичном космическом излучении по данным г- семейств, Изв. АН СССР, сер. Физ. 53, 280, 1989.

Технически« редактор А.С.Абраыяя

Подписано в печать!8.08.93г. Формат 60x84x16

Офсетная печать. Тирах ЮО.^кз.

Зак.тип. 105

Отпечатано в Ереванском физическом институте Ереван-36, ул.Братьев Алиханян, 2