Моделирование и методы статистического анализа пространственной структуры древостоев на основе случайных точечных полей

Грабарник, Павел Яковлевич

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Моделирование и методы статистического анализа пространственной структуры древостоев на основе случайных точечных полей

доктора физико-математических наук: Грабарник, Павел Яковлевич
город: Петрозаводск
год: 2013
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Моделирование и методы статистического анализа пространственной структуры древостоев на основе случайных точечных полей»

Автореферат диссертации по теме "Моделирование и методы статистического анализа пространственной структуры древостоев на основе случайных точечных полей"

На правах рукописи

ГРАБАРНИК Павел Яковлевич

МОДЕЛИРОВАНИЕ И МЕТОДЫ СТАТИСТИЧЕСКОГО

АНАЛИЗА ПРОСТРАНСТВЕННОЙ СТРУКТУРЫ ДРЕВОСТОЕВ НА ОСНОВЕ СЛУЧАЙНЫХ ТОЧЕЧНЫХ

ПОЛЕЙ

Специальность 05.13.18 Математическое моделирование, численные методы и комплексы программ

21 НОЯ 2013

Автореферат

диссертации на соискание ученой степени доктора физико-математических наук

Петрозаводск — 2013

005539956

Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте физико-химико и биологических проблем почвоведения РАН (г. Пущино)

Научный консультант: доктор биологических наук, профессор

Комаров Александр Сергеевич

Официальные оппонепты: Мазалов Владимир Викторович,

доктор физико-математических наук, профессор, директор Института прикладных математических исследований Карельского научного центра РАН Малышев Вадим Александрович, доктор физико-математических наук, профессор, заведующий лабораторией больших случайных систем Московского государственного университета им. М. В. Ломоносова Логофет Дмитрий Олегович, доктор физико-математических наук, профессор, главный научный сотрудник лаборатории математической экологии Института физики атмосферы им. А. М. Обухова РАН

Ведущая организация: Государственное научное учреждение Агрофизический научно-исследовательский институт РАСХН

Защита состоится 25 декабря 2013 г. в 11:00 на заседании диссертационного совета Д212.190.03 на базе ФГВОУ ВПО "Петрозаводский государственный университет" по адресу: 185910, г. Петрозаводск, пр. Ленина, 33.

С диссертацией можно ознакомиться в научной библиотеке Петрозаводского государственного университета.

Автореферат разослан ^_2013 года.

Ученый секретарь

диссертационного совета убЙГ Р. В. Воронов

Общая характеристика работы

Актуальность проблемы. Изучение пространственных взаимоотношений между взаимодействующими объектами сложноструктурированных многокомпонентных систем является предметом исследования многих научно-естественных и социо-эконо-мических дисциплин. В качестве самостоятельного класса задач можно выделить моделирование случайных систем пространственно распределенных дискретных объектов. Задачи, связанные со свойствами таких случайных систем, решаются методами стохастической геометрии и теории случайных точечных полей, развитие которых в значительной степени стимулировалось запросами прикладных исследований. Примерами применения указанных методов являются анализ распределения эпицентров землетрясений в геофизике, изучение пространственного размещения географических объектов, анализ пространственной структуры растительных сообществ, моделирование распределения месторождений полезных ископаемых в геологии, моделирование нейронных сетей в нейрофизиологии, пространственный анализ социо-экономических систем и многие другие.

Общим для указанных задач является то, что, во-первых, случайные события происходят в физическом пространстве и, во-вторых, эти события пе являются независимыми. Предполагается, что локализация случайных событий в рассматриваемой области мала и наблюдаемая конфигурация объектов может рассматриваться как частная реализация случайного точечного поля. Отметим, что для задач, в которых случайные топки образуют поток событий (па временной оси), существует хорошо разработанная теория случайных точечных процессов (потоков), которая, как и теория временных рядов, допускает обобщение на случай многомерного параметра. В отличие от случайных процессов, где имеется естественная упорядоченность событий, модели случайных точечных полей требуют поиска новых подходов и разработки специальных методов, которые позволяли бы строить и проверять согласие моделей и экспериментальных данных.

Методы анализа точечных структур теспо связаны со стохастической геометрией, которая предлагает математические модели для данных, соответствующих точечным конфигурациям. Примерами таких данных являются карты расположения деревьев в лесу, местоположения археологических находок, расположение гнездовий птиц и многие другпе объекты в географии, астрономии, биологии, медицине.

Несомненным источником идей для пространственной статистики явились теоретические результаты, наработанные в задачах статистической физики. Модели, которые используют физики, чтобы описать большие молекулярные системы, оказались достаточно универсальны, чтобы быть полезными для описания пространственных данных различной природы. Идея использовать микроописание системы взаимодей-

ствующих объектов, чтобы предсказать ее макроповедение, успешно реализуется во многих науках, являясь основой имитационного и статистического моделирования.

Теоретические основы для применения статистических методов, базирующихся на моделях случайных точечных полей, были заложены в работах Б. Рипли и развиты усилиями представителей немецкой математической школы (Фрайберг, Германия). Важные результаты в области стохастической геометрии и теории случайных пространственных точечных процессов получены в работах М.Бартлетта, П.Диггла, Ю.Бесага, Б.Рипли, И. Мекке, Д.Штояна, К.-Х.Ханиша, И. Маттеса, Е. Огаты, Д. Дели, Д. Вери-Джонса, О. Калленберга, Д. Кепдалла, Р. Майлза, А. Бэддли, Е.Йепсеп, И. Молчанова, Е. Мёллера и других. Известна своими работами в области стохастической геометрии группа, возглавляемая акад. Р.В. Аыбарцумяном в Армении.

Часто полигоном для опробования новых методов стохастической геометрии и статиспгческого анализа пространственных данных являются задачи лесной экологии. Интерес экологов к математическим методам пространственной статистики обусловлен той значительной ролью, которую играет пространственная структура расти-тельпого сообщества в общей структуре функциональных единиц лесной экосистемы. Изучение пространственной структуры древесного яруса растительных сообществ является важной частью исследования всего комплекса разнообразных взаимодействий элементов лесной экосистемы. Кроме того, пространственная структура закономерно связана с процессами, протекающими в растительном сообществе. Неслучайно интерес к изучению пространственной структуры значительно вырос в последнее время, так как развитие методов анализа данных о пространственной структуре сделало возможным математически строго отвечать на вопросы, которые раньше не мотли быть поставлены в практической плоскости.

Несмотря на значительный прогресс методов пространственной экологии, много- . образие и сложность факторов, влияющих на возобновление, рост и отпад деревьев и приводящих к специфической пространственной организации древостоев, настолько велики, что построение исчерпывающей системы моделей и методов далеко от завершения. В настоящей работе мы систематизируем модели и методы, которые могут быть использованы для изучения особенностей пространственной структуры популяций и сообществ растений, и предлагаем ряд новых инструментов теоретического характера, существенно расширяющих палитру методов математического моделирования.

Необходимо подчеркнуть роль компьютерных вычислепий в методах стохастической геометрии и статистического анализа пространственных данных. В последние два десятилетия с увеличением мощности компьютеров и их большей доступностью растет иптерес к применению компьютерных программ для реализации статистиче-

ских методов н методов стохастической геометрии. Причем, компьютерные методы используются не только в их традиционном амплуа, на стадии анализа данных, но и для изучения свойств математических объектов, где теоретические инструменты либо слишком грубы, либо просто отсутствуют. Более того, такие программы особенно важны, когда исследуют свойства реальных систем и, следовательно, упрощающие предположения могут быть слишком ограничительны. В настоящее время имеется ряд пакетов программ, которые включают методы анализа пространственных данных и моделирования пространственных систем, однако далеко не все разработанные методы доступны потенциальным пользователям.

Таким образом, три взаимосвязанные проблемные области: модели случайных точечных полей и статистические методы, основанные ца этих моделях, математическое моделирование популяций растений как системы взаимодействующих объектов, а также программпые средства, необходимые для реализации новых методов моделирования, являются активно развивающимися областями исследования и определяют актуальность настоящей работы.

Цель работы. Целью работы является развитие методов стохастической геометрии, включающих вероятностно-статистические модели, описывающие различные особенности пространственной структуры случайных точечных систем, а также разработка эффективных процедур анализа пространственных данных и применение их для анализа различных экологических проблем.

Задачи исследования.

В диссертации были поставлены и решаются следующие задачи:

1) в рамках направления, связанного с анализом пространствепной структуры растительных сообществ, разработать методы и классы моделей, описывающих случайные системы пространственно распределенных взаимодействующих объектов, которые в наибольшей степени отвечают характеристикам природных систем;

2) предложить и изучить свойства статистических процедур диагностики пространственной структуры, которые учитывают особенности пространственной структуры одновозрастпых п разновозрастных многовидовых популяций древесных растений;

3) предложить вероятностно-статистические модели, позволяющие учесть иерархию взаимодействия объектов в системе, и разработать теоретические аспекты моделирования пространственно распределенных систем локально взаимодействующих объектов, включающих как симметричное так асимметричное взаимодействие;

4) разработать методы параметрического оценивания для моделей случайных точечных полей с локальным взаимодействием п изучить их свойства;

5) разработать методы проверки согласия моделей случайных точечных полей с

учетом возможных альтернатив;

6) разработать комплекс программных средств, реализующий методы моделирования и статистического анализа пространственно распределенных точечных систем.

Методы исследования. В работе используются методы стохастической геометрии и случайных точечных полей; методы теории оценивания и проверки гипотез; базовые положения популяцпонной экологии растений. Для численного исследования свойств алгоритмов обработки данных применяются методы статистического моделирования. Для реализации алгоритмов используются среды и языки программирования

С, С++, И.

Научная новизна.

1. Предложены модели случайных точечных полей с локальным взаимодействием, вероятностная структура которых управляется небольшим числом параметров и которые способны воспроизводить широкий спектр регулярных, кластерных и смешанных регулярно-кластерных точечных конфигураций.

2. Впервые предложены модели, способные описывать и анализировать пространственную структуру с учетом асимметричного взаимодействия между объектами.

3. Предложен новый класс процедур оценивания параметров моделей случайных точечных полей в условиях, когда метод максимального правдоподобия не может быть применен непосредственно, изучены свойства оценок параметров вероятностных моделей, получаемых новым методом.

4. Разработан метод оценивапия параметров случайных точечных полей, допускающий реализацию с помощью стандартных пакетов программ.

5. Разработан статистический критерий, обобщающий классический критерий Пирсона хи-квадрат, для проверки гипотезы полной пространственной случайности. Новый критерий обладает большей мощностью, чем статистические критерии, известные в литературе, когда в качестве альтернативы рассматриваются точечные поля, проявляющие регулярно-кластерных свойства.

6. Впервые задачи проверки согласия модели и пространственных данных рассмотрены с позиций задачи проверки нескольких гипотез одновременно. Предложен метод контроля вероятности ошибки первого рода для критерия, основанного на построении области типичности функционалов от реализаций случайного точечного поля.

Основные положения и результаты, выносящиеся на защиту:

1} Предложен и исследован класс моделей, описывающих пространственно распределенные системы взаимодействующих объектов, применимый к широкому кругу задач, возникающих в популяцпонной экологии растений. Изученные в работе маркированные гиббсовские точечные поля используются как в качестве описания простран-

ственной структуры растительного сообщества, так и в качестве моделей, позволяющих воспроизводить специфические особенности взаимного расположения деревьев с учетом сложных механизмов взаимодействия между соседними деревьями.

2) Модели гиббсовских точечных полей применимы для анализа большого разнообразия точечных конфигураций и допускают изучение в рамках наиболее информативного подхода, основанного на апализе фупкцпи правдоподобия. Предложенные новые методы оценивания параметров моделей случайных точечных налей применимы в ситуациях, когда модель не может быть полностью специфицирована.

3) Естественная иерархия пространственных взаимоотношений растений описана в рамках пространственных моделей с локальным взаимодействием с помощью нового класса многомерных точечных процессов с иерархическим потепциалом взаимодействия.

4) Потеря мощности критериев значимости, описанная в литературе, когда точечный паттерн имеет смешанные регулярно-кластерные свойства, может быть устранена с помощью применения критериальной статистики пирсоновского типа, которая обобщает классический тест хи-квадрат на случай зависимых данных.

5) Разработанные методы диагностики моделей гиббсовских точечных полей, а также проверки согласия моделей и данных позволяют выдвигать и проверять биологические гипотезы на основе экспериментальных данных.

Теоретическая и практическая значимости работы. Статистические методы случайных точечных полей - активно развивающаяся область теории вероятностей и математической статистики. Описанные в диссертационной работе методики являются вкладом в развитие теоретических и прикладных аспектов стохастической геометрии и пространственной статистики. Методы построения и идентификации вероятностно-статистических моделей, предлагаемых в диссертационной работе, расширяет инструментарий исследователя, позволяя анализировать различные классы моделей, учитывающие специфические характеристики объекта.

Разработанные алгоритмы п статистические методы имеют практическую ценность для анализа экспериментальных данных, получаемых в ходе натурных исследований. Программная реализация методов оформлена в виде пакета программ и получено свидетельство о государственной регистрации программ SPPS (Spatial Point Pattern Statistics) - программпый комплекс моделирования и анализа точечных структур. Кроме того, некоторые программы были включены в пакет программ Spatstat (http://www.spatstat.org). Разработаггпые программы используются в учебном процессе и научной работе ряда учреждений (биологический факультет МГУ, Центр по проблемам экологии и продуктивности лесов РАН, Институт леса им. В. Н. Сукачёва СО РАН, Пущинский государственный естественно-научный институт).

Апробация работы. Основные результаты диссертации были доложены на многих международных и всероссийских конференциях, а также выносилнсь на семинары с участием специалистов - мировых лидеров в данной области. Список (с 2000 г.) конференций и семинаров, выступление на которых с устными докладами входили в программу и были заслушаны участниками, включает:

International Conference on Spatial Statistics in the Agro-Bio- and Geosciences (Фрайберг, Германия, 2000),

llth International Workshop on Stereology, Stochastic Geometry and Related Fields (Перт, Австралия, 2001),

International Workshop on "Spatial Statistics, Image Analysis and Signal Processing Within Bioscience and Thechnology"(CMoren, Швеция, 2004),

5th European Conference on Ecological Modelling (Пущино, Россия, 2005), International Conference on Stochastic Geometry and its Applications (Берн, Швейцария, 2005),

1-я Международная конференция "Математическая биология и биоинформатика" (Пущино, 2006),

International Workshop on Spatial and Spatio-temporal Modelling in Biology, Ecology and Geosciences (Смогеп, Швеция, 2006),

International Workshop on Stochastic Geometry, Spatial Statistics and their Applications (Райзепбург, Германия, 2007)

III Всероссийская научная конференция "Принципы и способы сохранения биоразнообразия" (Пущино, 2008),

2-я Международная конференция "Математическая биология и биоинформатика" (Пущино, 2008),

Национальная конференция "Математическое моделирование в экологии" (Пущино, 2009).

Большой семинар кафедры теории вероятностей (рук. ак. А.Н. Ширяев), МГУ, (Москва, 2010).

International conference "Spatial Statistics 2011- Mapping Global Change"(3inm^e, Голландия, 2011)

Большой семинар Института Стохастики (рук. проф. Д. Штоян), Технический университет, (Фрайберг, Германия, 2011)

II Национальная конференция "Математическое моделирование в экологии" (Пущино, 2011)

7th International Conference on Stereology, Spatial Statistics and Stochastic Geometry (Прага, Чехия, 2012)

3-я Международная конференция "Математическая биология и биоинформати-

ка" (Пущино, 2012),

Поддержка работы грантами:

Грант РФФИ №04-01-00с22-а "Статистическое моделирование систем случайных множеств с локальным взаимодействием и его применение в экологии", 2004 2005. руководитель.

Грант РФФИ №12-04-01527-а "Разработка моделей прострапственно-временной стрз'ктуры лесных экосистем" , 2012-2014, руководитель.

Hong Kong Research Council, проект "Goodness of fit testing the complete spatial randomness against mixtures of regular and clustered spatial point processes" , 1998, исполнитель, руководитель С. Чиу (S.N. Chin).

Australian Research Council, проект "Extrapolating and interpolating of spatial patterns", 2001-2002, исполнитель, руководитель А.Бэддли (A. Baddeloy).

INTAS проект 01-0633 "Silvicultural Systems for Sustainable Forest Resource Management" (SILVIOS), 2001-2005, исполнитель, руководитель с российской стороны А.С.Комаров.

The Royal Sivedish АсаЛету of Sciences, Research Grant Programme, проект "Bayesian analysis of spatial point patterns cvolving in time 2005-2007, со-руководитель.

DAAD (Германия), программа "Научные стажировки ученых", проект "Computerintensive methods in Stochastic Geometry" 2006, со-руководитель.

Публикации. Основные работы, изданные в реферируемых журналах, в которых отражены результаты диссертации: [1-16]. К тематике диссертации относятся также работы |17-2С], соответствующие главам в мопографиих, публикациям в сборниках статей и трудах конференций.

Личный вклад автора. Все работы, в которых отражено основное содержание диссертации, за исключением [1-2], инициированные соавтором (проф. Д. Штояным), были спланированы при прямом участии автора. Автору принадлежат постановки задач, разработка и участие в программной реализации алгоритмов, доказательство теорем, анализ данных и интерпретация результатов, а также основной вклад в оформление текстов статей. В работах [5] п [12] основной соавтор являлся аспирантом. В работах [3|, [6], [9], [12] соавторы отвечали за биологическую составляющую работы. В работе [1] автору принадлежпт теорема о связи функции условной интенсивности и корреляционной функции точечного поля и идея использовать конструкцию специального маркирования для задачи определения сходимости алгоритмов к стационарному состоянию и диагностики моделей. В работе [4] автору принадлежит утверждение о связи методов оценивания и получение представления функции псевдо-правдоподобия для точечных полей. В работе [16] доказательство первой теоремы получено соавтором, доказательство других утверждений получено совместно.

Структура и объем диссертации. Диссертация состоит из введения, 8 глав,

приложения и списка литературы из 222 наименований. Полный объем диссертации (без приложения) - 2СЗ страницы.

Содержание работы

Во введении сжато изложено обоснование исследования: дан краткий исторический обзор, обоснована актуальность диссертационной работы, сформулирована цель и раскрыта научная новизна исследований, показана теоретическая и практическая значимость полученных результатов, представлены выносимые на защиту научные положения.

Глава 1. Обзор методов и моделей случайных точечных полей

В первой главе мы определяем, даем характернацию и приводим примеры центрального понятия, которое будет использовано во всех частях данной работы, случайного точечного паяя. Для статистических задач, которые оперируют наблюдаемыми данными, в большинстве случаев можно ограничиться конечными случайными полями. В некоторых ситуациях в изложение включены технически более сложные модели полей, заданных на неограниченных множествах. Данная глава носит справочный характер, вводя необходимые определения. В частности, мы определяем меры Кэммбелла, распределение Пальма, моментпые меры, меру условной интенсивности, рассматриваем связь между различными характеризациями условных распределений, и даем сводку основных операций, которые позволяют конструировать новые модели из базовых. Далее рассматриваются типичные модели случайных точечных полей, среди которых особое внимание уделяется конечным полям, заданных плотностью относительно пуассоновского точечного поля, - гиббсовским точечным полям.

Случайные точечные поля (или пространственные точечпые процессы) служат естественными моделями пространственных данных, которые представляют собой конфигурации точек. Часто такие данные называются точечными множествами или точечными паттернами (паттерн здесь означает структурированное точечное множество, обладающее определенным рисунком). Геометрический взгляд на вероятностную модель представляется оправданным с точки зрения многочисленных приложений, в которых наблюдению доступны местоположения всех точечных объектов.

Во многих приложениях удобно работать с расстояниями между точками, поэтому мы предполагаем, что пространство §, где могут располагаться точки, снабжено метрикой. В общем случае будем предполагать, что пространство 8 является польским, т.е. метрическим полным сепарабельным пространством. Обозначим через ¿8 борелевское <г-поле, порождеЕгаое открытыми множествами в В. Кроме того, интерес будет представлять <т-алгебра ограниченных множеств из §, которую мы обозначим

So, т.е. ^o С Я. Мы предполагаем, что пространство § снабжено сигма-конечной мерой f, в частном случае евклидова пространства RJ это может быть лебегова мера.

Предполагается, что точечные конфигурации х = {xi, ..., ц,...}, где Xj € S, являются локально конечными. Под конфигурацией понимается множество неупорядоченных точек. Будем обозначать через X множество всех точечных конфигураций X = {х С S : п(хв) <00.В 6 где п(хд) обозначает число точек в множестве х П В. В частности х = 0 будет соответствовать "вакуумной" конфигурации, то есть конфигурации с нулевым числом точек п(хд) = 0. Если само пространство S ограничено или число всех точек любой конфигурации конечпо, т.е. п(х3) < оо, то тогда точечное поле называется конечным.

Далее будем предполагать, что § = D, где D С Rd. Обозначим х = {xi,..., х„} конфигурацию точек ifED, где п может быть произвольным целым неотрицательным числом, и случай п = 0 соответствует конфигурации без точек хц.

Рассмотрим конфигурации х„, для которых п фиксировано. Пусть Х'п> есть множество всех конфигураций с п точками, и рассмотрим конфигурационное простран-

оа

ство, состоящее in всех возможных точечных конфигураций X = |J X'1'. Обозначим

•=о

через ,5?(X) наименьшую (т-алгебру, содержащую J^i,... , где ^ = 38(}U). Пусть Р) - вероятностное пространство.

Определение. Случайное (конечное) точечное поле есть измеримое отображение X : П X из (П, si) в (Х,^(Х)). Вероятностная мера Рх па (Х,^(Х)), индуцируемая случайной величиной X и порождаемая вероятностной мерой Р, пазывается распределением случайного точечного поля X.

Определим меру Лебега-Пуассона на (X, .^(Х)) как

ii{F) = 1(хо е F) + f] i / • ■ • / 1{(ц,... ,х„) е 7Г~1 FWdxr) ■ ■ ■ u(dxn), FZL&, ^ n! -Id JD

где тг„ : Dn -> X(n). Нормированная мера Рх = определяет пуассоновское

точечное поле на D, которое называется стандартным и обозначается Пя(1), где число соответствует единичной интенсивности точек.

Стандартное пуассоновское поле является отправной точкой для построения большого числа других моделей. Заметим, что конечные точечные поля являются основой многих моделей, где требуется вычисление характеристик, зависящих от вероятностного распределения. Важным примером здесь являются модели в гиббсовской форме, которые рассматриваются в этой работе. Кроме того, экспериментальные данные и компьютерные вычисления оперируют конфигурациями конечного размера и, следовательно, в вычислительных процедурах используются именно модели конечных точечных полей.

Условные, распределения, связанные, с точечными по^гями.В изучении случайных точечных полей часто возникают задачи, связанные со свойствами распределений, условных относительно одной или нескольких точек точечного поля. Типичным примером является вопрос о вычислении распределения расстояния от произвольной точки случайного точечного поля до ближайшей к ней точки поля. На произведении измеримых пространств (К14 ¡%(Х)) вводится мера, называемая мерой Кэм-

пбелла С(В х Р) = ЕЕл-.еХ 1{Х; е £}1{Х 6 для всех В € @ и Р 6 ^(Х). Поскольку С {В х р) < ЕХ(В) = А(В), где мера интенсивности Л(-) существует и с-конечна, то мера С(- х Р) абсолютно непрерывна относительно меры Л(-), и по теореме Радона-Никодима существует плотность, которая является измеримой функцией Р(.)(Р) : определенной единственно до Л-нуль множества. При фиксиро-

ванном I с Р.' Рх( ) есть вероятностная мера, которая называется распределением Пальма точечного поля X в точке х.

В концепции, двойственной распределению Пальма, предлагается вычислять локальную интенсивность появления точек при условии, что вне локальной области точечное поле имеет заданную конфигурацию. Эта идея реализуется с помощью меры условной интенсивности Папангелу. Пусть X - случайное точечное поле. Предположим, что для любого ограниченного борелсвского множества В £ мера Кэмпбелла С(-х-) абсолютно непрерывна относительно распределения точечного поля Р(-), тогда имеет место соотношение С(В хР) = Е[Л"(Д,Х)1{Х € Г}], где плотность Л*(-,х) есть локально конечная борелевская мера, которая называется ядром Папангелу. На практике значительно более удобной оказывается работа с локальной версией ядер Папангелу - функцией условной интенсивности А* : § х X —► которая определяется (если существует) из соотношения, которое называется формулой Нгуена-Цессина:

л^л

для любой измеримой неотрицательной интегрируемой функции д. Это уравнение является основой методов оценки параметров случайных гиббсовских точечных полей.

Модели случайных точечных полей. Предметом изучения в данной работе являются вероятностно-статистические свойства разнообразных точечных полей, которые используются в задачах стохастической геометрии для описания больших систем геометрических объектов, структура которых не может быть описана в рамках детерминистических моделей. В первой главе приводится описание наиболее употребительных моделей, которые находят применение в задачах анализа пространственной структуры экологических и биологических систем.

Однородное точечное поле Пуассона является фундаментальной моделью в стоха-

стической геометрии. В большом числе случаев, отправляясь от этой модели, удается получить теоретические результаты, и, кроме того, она играет роль эталонной модели, относительно которой рассматриваются многие другие модели. Точечное поле Пуассона формализует представления о "совершенной" случайности, что выражается в отсутствии определенной структуры у множества точек, образующих реализацию данного точечного поля.

Модели, учитывающие неоднородность распределения ресурсов, и модели возобновления. Для природных процессов характерна пространственная вариабельность, которая обусловлена неоднородностью распределения того или иного ресурса по территории и которая не может быть описана взаимовлияниями, действующими на расстояниях сопоставимыми с размерами объектов. Например, топографическая или почвенная вариабельность могут приводить к формированию растительных сообществ, отличающихся по составу, биометрическим характеристикам и т.д. Эти отличия, как правило, проявляются не резко, а нарастают постепенно. В этом случай удовлетворительными моделями являются случайные поля Кокса.

Кластерные случайные точечные поля. Пространственная структура древостоя с возобновлением может быть описана моделями случайных точечных полей кластерного типа, в котором группа деревьев, образующих кластер, рассматривается как совокупность "потомков" некоторого "родительского" дерева. Кластерное точечное поле можно рассматривать как случайпое тачечное поле (обычно пуассоновское) центров кластеров (или "родительское" точечное поле) и точечное поле "потомков", т.е. с каждой точкой "родительского"поля связана независимая копия точечного поля "потомков" . Таким образом, кластерное точечное поле представляет собой суперпозицию точечных полей "потомков".

Модели, заданные плотностью относительно пуассоновского точечного поля, являются гибким и мощным инструментом исследования систем точечных объектов. Многие авторы отмечали закономерные изменепия пространственной структуры лесной экосистемы, прослеженной в течении длительного времени. Если пространственная структура древостоя на этапе начального заселения характеризуется кластерными свойствами, то для зрелого древостоя тип размещения можно описать как регуляри-зованный. Класс моделей, заданный плотностью относительно пуассоновского точечного поля, позволяет оппсывать широкий спектр типов размещений, и, следовательно, изменение типов размещения отражается в соответствующем изменении параметров.

Пусть Рп - распределение пуассоновского точечного поля X ~ П. Мы будем рассматривать конечные точечные поля X, которые имеют плотность р : X —* [О, оо) относительного пуассоновского точечного поля Рц, называемого "свободной" мерой, Р(Х 6 Г) = ¡рР{х)<1Рп(х).

Важный вопрос, который возникает в связи с классом точечных полей, заданных плотностью относительно пуассоновской меры, - это условия, которым должна удовлетворять функция плотности, чтобы обеспечить существование заданного ею точечного поля. Следующие условие являются достаточными, чтобы плотность р была П-интегрируема. Неотрицательная измеримая функция р : X [0, оо) называется стабильной (по Рюэлю), если существует константы К > 0 и с > 0 такие, что для всех конфигураций х 6 X выполняется р(х) < сКпМ.

Класс случайных точечных полей, заданных положительной плотностью относительно пуассоновской меры, совпадает с классом так называемых гиббсовских точечных полей на ограниченном множестве. Гиббсовские точечные поля впервые были введены в статистической физике, где они использовались для описания систем взаимодействующих объектов. Этим обстоятельством объясняется терминология, используемая для определения данных моделей. Так, отрицательный логарифм ненормализованной функции плотности £/(х) = - Ьр(х)/р(0) называется полной энергией системы или гамильтонианом. Отрицательный логарифм функции условной интенсивности Е{и,х) = — 1пА*(а,х) называется локальной энергией. Заметим, что функция плотности вероятности определена с точностью до нормирующего множителя, который не может быть выписан в явном виде за исключением простейших моделей. В статистической физике нормирующий множитель плотности распределения называется статистическая сумма, исследованию которой посвящено большое количество работ.

Для многих задач, в частности, для моделирования пространственной структуры растительного сообщества гиббсовское описание вероятностпого распределения оказывается достаточно удобным. Модельные представления, описывающие тип размещения объектов в терминах взаимодействий между объектами, достаточно хорошо соответствуют реальности, поскольку под взаимодействием может пониматься влияние, которое соседние деревья оказывают друг на друга, в частности, через перераспределение доступного ресурса.

Марковские точечные поля. Наибольший интерес с точки зрения приложений представляют гиббсовские точечные поля, распределение которых связано с некоторой структурой соседства, определенной для точек конфигураций. В то же время можно показать, что отношение соседства позволяет ввести класс марковских точечных полей, который совпадает с классом гиббсовских точечных полей, специфицированных такой же системой отношений между соседними точками. Эта связь между глобальным и локальным описанием случайных систем составляет содержание теоремы Аверинцева-Хаммерсли-Клиффорда, первоначально доказанной для случайных полей на графах.

Глава 2. Модели маркированных гиббсовских точечных полей

Вторая глава посвящена описанию класса моделей гиббсовских точечных полей, который иаходит применение для анализа более общего типа пространственных данных - точечных конфигураций, в которых точки снабжены марками. Многие природные системы пространственно распределенных объектов могут быть описаны с помощью моделей маркированных точечных полей. Так, в популяционной экологии растений анализ взаимодействия растений двух и более видов является одной из важнейших задач, позволяющий приблизиться к понимапию проблемы устойчивости ценозов. Большой интерес также представляет задача оценки конкурентных взаимоотношений между растениями, которые зависят как от нх взаимного расположения (пространственный аспект), так и от размерных характеристик индивидуальных особей с учетом расстояния между ними, что может быть прослежено с помощью пространственной корреляции. Использование марки в качестве переменной, соответствующей характеристике биомассы дерева, например, диаметру ствола, высоте дерева или площади кроны, позволяет моделировать конкурентные взаимоотношения между растениями в сообществе.

Более того, структура самих марок может быть довольно сложной, например, соответствовать размеру и форме геометрических фигур. Тем самым, модели маркированных гиббсовских полей могут быть использованы для анализа геометрических случайных систем, к которым относятся, например, поля случайных отрезков, поля непересекающихся кругов и т.д. Указанные стохастические модели пространственно распределенных геометрических объектов могут служить средством описания свойств горизонтальной структуры древостоя при моделировании отклонения центров крон и анализа геометрического рисунка проекций крои ¡3].

В разделе 2.1 вводится формальная конструкция (конечных) маркированных гиббсовских точечных полей, и даны некоторые примеры, соответствующие различным типам марок. В разделе 2.2 описывается модель марковского точечного поля относительно маркированных соседей. В разделе 2.3 мы описываем предложенный нами в [5] метод оценивания, основанный на функции псевдо-правдоподобия, который обобщает метод максимального псевдо-правдоподобия [4| на случай маркированных точечных полей. Далее, в разделе 2.4 изучаются статистические свойства оценок, получаемых методом максимального псевдо-правдоподобия, в случае гиббеовского точечного поля с двумя типами точек. Раздел 2.5 посвящен специальной модели маркированных точечных полей - взаимодействующим дискам, которая была применена для анализа закартированных данных древостоя.

Пусть £> с К"* и у{0) < оо, и Й?(£>) - сг-алгебра борелевских множеств, и -мера Лебега. Пусть к) - измеримое пространство марок. Пространство марки-

рованных точек есть произведение D х L, соответствующая ст-алгебра обозначается 38(D) ®.5?, и мера - ц ® к. Часто в качестве пространства марок L выбирается (конечное) дискретное множество или интервал L С К. Чтобы подчеркнуть неравноправность каждого из пространств, будем называть элементы пространства D точками, L - марками, и D х L - маркированными точками, которые будем обозначать [х, I]. Наконец, множество маркированных точек х^' = {[xi.ii], [хг, h], •.., [х„,'»]} будем называть маркированными точечными конфигурациями. Условие локальной конечности для точечных конфигураций влечет, что число маркированных точек n(x'!' nflxi) любой маркированной конфигурации х® конечно.

Предположим, что точки конфигурации хю, не могут совпадать, т.е. xt ф Xj, если i ф j, тогда пространство реализаций маркированного точечного поля X® есть множество всех маркированных точечных конфигураций . Обозначим ,S?(X(1)) наименьшую ст-алгебру, которая порождается отображениями >-> n(x(f' П В х £), где В С D и L с L.

Пусть Ар - мера интенсивности точечного поля на D и М - распределение марок. Соответственно, мера интенсивности маркированного поля с независимыми марками есть Лт = Ар® М.

Определение. Случайное маркированное точечное поле Х^ называется маркированным гиббсовским точечным полем с энергией U, если его распределение Р на (Х®,^(Х®)) удовлетворяет соотношению

( g(x«>)F(<ix«>) =е-А»№>[1 + V i [ ■ ■ ■ [ 9Ы[хь !,],[х„, !„]))

Ух» п! J J

~ «р(-1/(*„([х,. !,],..., [х„, ШМФь У)... Am(d[xn, Ц)},

где g измеримая неотрицательная функция, Z нормирующая константа, и измеримая функция U : Х-'! (—оо, оо] должна удовлетворять условию наследственности, а именно, если у'Л С х'л, тогда из U(y(i>) = оо следует f7(xw) = оо, и, кроме, того (7(0) = 0.

Преимущество экспоненциального представления плотности связано с тем, что функция полной энергии U может быть представлена как сумма потенциалов взаимодействия Ф, т.е.

У(х«>)= £ Ф(У<'>),

у(')Сх!'1

где Ф : X(i> -+ (-оо, оо] измеримая функция с Ф(0) — 0. Функция потенциального взаимодействия описывает вклад каждого из подмножеств маркированных точек в полную энергию системы. На практике в качестве модели часто используют маркированное гиббсовское поле с парным взаимодействием.

Оценивание параметров маркированного гиббсовского точечного поля является одной из важных задан апализа данных. Некоторые способы обойти основную трудность, евязаппую с оцениванием параметров гпббсовскпх моделей, - отсутствию аналитического выражения для нормирующей константы были предложены нами в работах [2] и [4). В этих работах рассматривались параметрические модели гиббеов-екпх точечных полей без марок. В [5] был предложи! метод максимального псевдоправдоподобия для оценки параметров маркированного точечного поля. Нами было указано, что основой метода является интегральная характернзалия маркированного гиббсовского точечного поля, аналогичная формуле Нгуепа-Цессина.

Теорема. Маркированное точечное поле X® является гиббсовским точечным полем тогда и только тогда, когда для всех неотрицательных измеримых функций

[ [ fl(u1i,xW)A'(«,i,x('>)P(x(,>)Am(dlu,il)!

Jd Jx<«>

где A*(u, 2,х^) - условная интенсивность точечного поля-Х®, a Am(ti[ti, I]) - мера интенсивности маркированного пуссоновского поля, взятого в качестве свободной меры.

Часто пользуются логарифмической формой условной интенсивности Е(и, I, х® ) = — 1п А* (и, Z, х®), которую называют локальной энергией, и неизвестные параметры в, которые следует оценить, входят в параметрическое выражение локальной энергии Е = Ев, б € © С Кр, где 0 - пространство параметров.

В работе [5] была введена функция (логарифма) псевдо-правдоподобия

1 nPL(0;x(,>) = - Y, Ев{х,1,х® \[х,т])

МехМ

- J £eyLP(-Ee{u,t,x.®))M{dt)du.

Оценка максимального псевдо-правдоподобия (МПП) есть значение векторного параметра 0, при котором функция псевдо-правдоподобия достигает максимума, P£(0) = supfleePL(fl;x«>).

Статистические свойства оценок максимального псевдо-правдоподобия изучались в ряде работ. Наличие состоятельности дает основания для применения метода максимального псевдо-правдоподобия в случае больших выборок. В то же время информация о свойствах оценок максимального псевдо-правдоподобия для конечных размеров выборок и точности оценивания в случае типичных объемов данных представляет значительный интерес. В работе [4] были представлены результаты обшир-

ного вычислительного эксперимента, где сравнивались различные методы оценивания параметров немаркированных моделей гиббсовскнх точечных полей. Мы пришли к заключению, что метод максимального псевдо-правдоподобия дает оценки приемлемого качества, кроме тех случаев, где модели соответствовали сильным взаимодействиям между точками. В работе [5] представлены результаты сходного эксперимента, в котором изучались свойства оценок для параметров моделей маркированных гиббсовских моделей. В [5j для сравнения свойств оценок был нспользован метод, который основан на аппроксимации функции правдоподобия кластерными интегралами второго порядка. Эксперимент показал существенное преимущество метода псевдо-правдоподобия.

Гиббсовские модели с непрерывными марками. Важный в экологическом контексте пример маркированных гиббсовских точечных полей дает модель взаимодействующих дисков [5]. Эта модель представляет собой точечное поле, реализациями которого являются маркированные конфигурации точек, причем в качестве марки здесь выступает радиус диска (или шара). Диск B(x¡,Ri) может интерпретироваться как жизненное пространство, связанное с деревом, расположенном в точке i¡, и радиус диска R¡, соответствует размеру дерева и является количественной характеристикой ресурсной области, которая необходима дереву для получения элементов питания для его жизнедеятельности. Множество S = UiB(x¡, ñ,), таким образом, может интерпретироваться как область, которая освоена растительным сообществом в целом на территории D. В частности, отношение |E|/|D| имеет отношение к лесотехническому понятию полноты древостоя.

При моделировании пространственной структуры древостоя естественно предполагать, что взаимодействуют только соседние деревья. Дополнительное предположение состоит в том, что отличны от нуля только парные потенциальные функции взаимодействия, которые могут быть выбраны в форме Ф(х,у,т,1\ в) = 01(\\х — у|| < m-t-I). в > О, где в - параметр взаимодействия. Мы использовали данную модель, чтобы описать размещения деревьев на постоянной пробной площади [5]. Зафиксируем наименьший fio и наибольший радиусы дисков так, чтобы пространство марок было интервалом L - [Ло, /?„,„]. Чтобы полностью специфицировать модель, нам необходимо выбрать параметрическое представление для одноточечного потенциала Ф([-, Í]; /¿), где ¡i вектор неизвестных параметров. В случае, если функциональная форма для потенциала неизвестна, прагматичным подходом является выбор ступенчатой функции, т.е. для пекоторого разбиения интервала R0 < ... < fi¡_i < fí¡ < ... < R^ = fimax значение Ф([-, ¿]; ;¿) на ñ¡_i, R¡ положим равным неизвестному параметру fi¡. Наконец, фиксируем распределение марок свободной меры, выбрав равномерное распределение на L = [fío, fí,»«].

Таким образом, для модели точечного поля взаимодействующих дисков с уче-

том выбранной параметризации химического потенциала и функции взаимодействия штрауссовского типа функция псевдо-правдоподобия принимает вид

ЫРЦ^О-х^) = к

[1,т] (=1 [х,тп\

I г /-Л„,« к

~1в-яч/ / ^(-Ц/^^л^-вЦ 1(11«-г/11 +

Максимизируя функцию псевдо-правдоподобия, мы получили оценку О = 1.108 для потенциала взаимодействия, величина которой характеризует взаимодействия как достаточно сильные. С помощью модельных повторностей была рассчитана стандартная ошибка оценки «о = 0.071.

В работе [5] также обсуждалась роль одноточечного потенциала Ф([х, г]) в процедурах оценки параметров и его соотношение с эмпирическим распределением марок и распределением марок свободной меры.

Глава 3. Моделирование кластерных конфигураций

Цель третьей главы - предложить подходящие мсщели гиббсовских точечных полей, которые позволяют получать и апализировать точечные конфигурации с кластерными свойствами, причем, эти свойства должны быть связаны с наличием взаимодействия между соседними точечными объектами.

В начале главы определяется понятие динамического соседства, чтобы на его основе ввести класс марковских точечных полей более широкий, чем марковские точечные поля относительно статических соседей. Далее, вводится класс случайных точечных полей взаимодействующих соседей, в которых вклад соседей точек шля в логарифм плотности распределения может описываться многочастичными функциями взаимодействия бесконечного порядка. Мы изучаем марковское свойство новых моделей и показываем, что этот класс точечных полей является марковским относительно 2-х шагового соседства. Мы доказываем характеризационную теорему для нового класса полей п показываем, что пекоторые известные в литературе модели являются частными случаями полей взаимодействующих соседей. С помощью вычислительного эксперимента изучаются свойства известных и новых моделей из данного класса. Глава завершится примером применения новых моделей к анализу реальных данных размещения деревьев.

Модели, которые могут быть использованы на практике, должны иметь небольшое число параметров, а параметрические функции - содержательную интерпретацию

в терминах свойств изучаемых природных систем. Поэтому гиббсовские точечные поля с парным взаимодействием - идеальный кандидат для моделирования пространственной структуры древостоя. Парный потенциал взаимодействия, или парная функция взаимодействия удобны для описания пространственных взаимодействий (или взаимовлияний) соседствующих деревьев. Хотя эти взаимодействия в отличие от физических систем пе могут приводить к изменению положения деревьев в пространстве, тем не менее экологическая система как целое претерпевает определенные изменения, которые выражаются в изменении количественных характеристик пространственной структуры.

Часто характер взаимодействий между соседними деревьями можно охарактеризовать как взаимное угнетение, то есть препятствие дяя свободного развития, роста и получения элементов питания, что является следствием ограниченности ресурсов в зоне, доступной для потребления. Такой вид взаимодействия относят к конкуренции за ресурс и по аналогии с физическими системами, например, моделями молекулярного газа, говорят о таких взаимодействиях как об отталкивании. Данный вид взаимодействия приводит к конфигурациям, рисунок (паттерн) которых характеризуется регуляризованными свойствами. В вероятностных терминах это означает, что в некоторой зоне, связанной с расположением объекта, так называемой зоне взаимодействия или влияния, вероятность встретить еще один объект ниже, чем для пуассоновского точечного поля. Экстремальный случай этого правила - это полный запрет нахождения одного или более объектов в зоне взаимодействия для каждого объекта. Типичными примерами в лесной экологии могут быть модели, учитывающие размер ствола дерева. Более интересные примеры доставляют модели лесных систем теневыносливых деревьев, кроны которых препятствует близкому расположению других деревьев. Существует целый спектр степени угнетения, которое может оказывать одно дерево на соседнее дерево в зависимости от породы. Это служит обоснованием применения простых потенциальных функций, которые описывают изменение количественного показателя взаимодействия в зависимости от расстояния от центра дерева.

Вместе с тем нередки ситуации, когда особенности биологии вида (вегетативное размножение), характер и условия возобновления, а также абиотические факторы среды приводят к необходимости применять модели, которые способны порождать точечные конфигурации, характеризующиеся групповыми или кластерными свойствами. При этом простые модели с парным взаимодействием не подходят для описания конфигураций с кластерными свойствами.

В работе [7] мы ввели новый класс моделей точечных полей с расширенным определением соседства, способных порождать кластерные конфигурации.

Модель точечного поля взаимодействующих соседей [7/. Пусть Рп - распределе-

ние пуассоновского точечного процесса Щ1) с единичной интенсивностью в D. Обозначил dx(x¡) - множество соседей точки ц.

Определение. Случайное точечное поле X называется точечным полем взаимодействующих соседей с задаппьш отношением соседства ~ на D, если его плотность относительно Рц имеет вид

P(x) = z-infl(z¡,ax(x,)),

цех

где g : D х Xd —► [0, со) есть измеримая функция, и Z нормирующий множитель.

Особенностью данной модели является то, что отношение р(хи{и})/р(х) зависит не только от точки и, соседей точки и, tro и соседей соседей точки и. Чтобы определить отношение соседства, включающее соседей соседей, нам понадобится

Определение. Пусть задано отношение соседства ~ на D. Точки х € х и у S х являются 2 шаговыми соседями х у, если либо они ~-соседи, либо существует точка z 6 х, что х ~ z ~ у.

Таким образом, отношение определяется на конфигурации х и, следовательно, то, что две точки являются соседними, может зависеть от положения других точек конфигурации.

Еще одна трудность, которая возникает, когда понятие марковости распространяется на случай конфигурационных соседей, - это "динамическое" изменение множеств взаимных соседей, или клик. В отличие от случая статических соседей мы должны наложить ограничения на множество клик, которое обеспечивает отсутствие появления новых клик, не включающих добавляемую точку к имеющейся конфигурации.

Определение. Множество z С х называется 2-х шаговой кликой, если для каждой пары точек {и, и} С z они либо "--соседи (u ~ v), либо существует еще одна точка этого множества w £ z, которая является ■-—соседом каждой из этих двух точек [и ~ ш ~ v ).

Обозначим множество всех ~£-клик, соответствующих конфигурации х через Множество F^j-клик позволяет сформулировать характеризационную теорему, которая утверждает, что для точечных полей, являющихся марковскими относительно 2-х шаговых соседей, вклад (потенциальпой) фупкции взаимодействия в плотность нетривиален только для 2-х шаговых клик.

Теорема [7]. Если конечное точечное поле X является полем взаимодействующих соседей относительно некоторого статического соседства тогда его плотность р может быть выражена как

p(x) = Z-' П ф{ у),

где й(-) > 0 - функция взаимодействия, описывающая вклад всех подмножеств точечной конфигурации в функцию плотности, ¡¡Г*(~£) - множество звездных клик, которые определяются условием, что существует точка, являющаяся соседом каждой точки множества, образующего звездную клику.

Точечные поля, когда взаимодействие задано в полупараметрической форме [16], являются одним их важнейших примеров полей взаимодействующих соседей (ВС-полей). Распределение предлагаемого точечного процесса есть вероятностная мера на измеримом пространстве (Хс>,&(Хо)), определяемая плотностью по отношению к мере стандартного пуассоновского поля:

/(х) = П

хк£х

где {¡¡т, т > 0} — некоторая последовательность неотрицательных чисел, а2-нормирующий множитель.

Ограничения на параметры Рт, обеспечивающие конечность статистической суммы 2 и, таким образом, существование конечного точечного процесса, устанавливает

Теорема [16]. 1) Если существует константа С > 0, такая, что для всех т выполняется /Зт < Ста", где а < 1, то статистическая сумма 2 конечна.

2) Если существует константа С > 0, такая, что для всех тп выполняется /}т > Ст", где а > 1, то статистическая сумма 2 бесконечна.

Таким образом, эта модель может рассматриваться как полупараметрическая версия класса ВС-полей с плотностью, принадлежащей экспоненциальному семейству распределений. Данный выбор формы модели удобен, когда отсутствует априорная информация о виде функции взаимодействия с соседями д(х<, Зх(х,)).

Для данной модели было доказано свойство локальной стабильности для достаточно широкого класса рассматриваемых точечных полей. Точечное поле с условной интенсивностью А*(и|х) называется локально стабильным, если существует такая константа С > 0, что неравенство А"(и|х) < С выполняется равномерно по всем и £ Я и х Е Р, Полезность данного условия объясняется тем, что его выполнение обеспечивает геометрическую сходимость алгоритмов моделирования точечных полей, заданных плотностью относительно пуассоновской меры. Кроме этого локальная стабильность влечет выполнение центральной предельной теоремы дои некоторых функционалов от точечных полей.

Теорема. [16] Если Д- > 0, г = 0...., ./V, и Д = 7 > 0, ; > Л", для некоторого фиксированного М, то точечное поле локально стабильно.

Практический интерес представляют малопараметрические модели с плотностью, принадлежащей к семейству экспоненциальных распределений, так как в некоторых

Рис. 1: Модельные реализации ВС-точечного поля с двумя фазами (би-паттерн) с параметрами I117 равными а) 0.04 Ь) 0.08.

случаях удается использовать стандартное программное обеспечение для нахождения оценок параметров. В качестве примера в |7] рассмотрено точечное поле с плотностью

р(х) = Д уш*{о,|а«(чЖ<НМ=«)|)})

где ß > 0 контролирует интенсивность точек, 7 > 0 - параметр взаимодействия и с > 1 - произвольная константа.

В случае 7 > 1, величина 7max{°.l®»(:ci)l(c-|e«(a:i>D) принимает наибольшее значение, когда число соседей равно , и, таким образом, конфигурации точек с кластерами размеров (JJ + X реализуются чаще, чем конфигурации с другими свойствами. Следовательно, выбором соответствующей константы с мы можем контролировать размер кластеров.

В случае 0 < 7 < 1 наибольшие значения величина 7I»»*{(M3xWK'H3*(*i)l)} принимает, когда либо точка не имеет соседей, либо число соседей равно [cj. Следовательно, вместо того, чтобы проявлять регуляризованные свойства эта модель является специальным случаем кластерных конфигураций: вместе с кластерами, имеющих размер |cj + 1, оставшееся пространство заполняется изолированными точками, не имеющих соседей. Таким образом, данная модель демонстрирует одновременно кластерные и регулярные свойства, и поэтому была названа в [7] двухфазным (би-паттерн) полем (см. Рис.1)

В работе [7] сделан вывод, что данная модель, сочетающая регулярные и кластерные свойства, может найти применение в анализе пространственной структуры разновозрастного древостоя, когда одновременно встречаются два типа размещений: групповое, связанное с возобновлением, и регуляризованное, отвечающее характеру размещения взрослых деревьев.

Глава 4. Моделирование несимметричного взаимодействия

Подход, который мы развиваем, состоит в том, чтобы моделировать размещение

точечных объектов с помощью случайных точечных полей с локальным взаимодействием. Преимущество данного класса моделей связано с тем, что они основаны на хорошо разработанных методах, использующих вероятностное распределение, параметры которого могут быть интерпретированы в терминах конкурентных взаимоотношений между деревьями. Однако, в классических моделях гиббсовских точечных полей предполагается, что взаимодействие между объектами является симметричным, в то время как взаимодействие между объектами в реальных системах не обязательно симметрично. Например, при моделировании пространственной структуры древостоя мы сталкивается с необходимостью учесть асимметричный характер взаимодействия между деревьями - непропорциональный раздел ресурсов соседствующих деревьев в пользу большего дерева.

В работах [11, 14] показывается как, используя так называемый иерархический потенциал, можно построить модель с асимметричным взаимодействием. Преимущество предлагаемой модели случайного точечного поля с иерархическим взаимодействием, состоит в более точном учете характера взаимодействия. Кроме того, иерархический потенциал позволяет моделировать оба типа взаимодействия симметричное (т.е. когда соседние деревья оказывают сравнимое влияние) и асимметричное (когда одно из соседних деревьев подавляет другое) одновременно.

Модель с иерархическими взаимодействиями. Модель, которую мы берем в качестве исходной, является многомерным (относительно числа переменных) точечным полем X = (Хь ..., X,) на В С Это частный случай маркированного точечного поля, где пространство марок есть конечное множество Ь = {1,..., <?}. Каждая компонента X; отвечает определенному типу точек (например, породе или виду растений), или маркированные точки могут быть разбиты на группы согласно выбранному критерию.

Идея, которая лежит в основе нового подхода, состоит в конструировании иерархии точечных конфигураций, в которой точки более высокого уровня являются источником неоднородности для точечных конфигураций следующих уровней. Заметим, что только точки одного и того же типа образуют конфигурацию, соответствующую определенному уровню.

Указанный подход реализуется с помощью представления многомерной плотности как произведения маргинальной и условных плотностей с использованием формулы умножения вероятностей,

р(*) = Р1(Х1)Р2(Х2|Х1)Р3(Х3|Х1, Х2) • - • Р,(х,|хь ..., Х,_!), где х = (хьх2...,х,) и X! - точечная конфигурация верхнего уровни, ах, -точечная

конфигурация самого нижнего уровня иерархии.

Таким образом, моделирование точечной конфигурации, состоящей из точек нескольких типов, осуществляется последовательно, начиная с верхнего уровня, который определяется маргинальным распределением р 1(х;), затем моделируют конфигурацию следующего по порядку уровня в соответствии с условным распределением рг(х2|х1) и так далее. Преимущество такого подхода состоит в том, что мы можем управлять выбором функции взаимодействия на каждом уровне иерархии модели, что ведет к более адекватному учету характера взаимоотношений реальных объектов.

Рассмотрим пример, поясняющий принятую методологию. Допустим, имеется простая модель конечного двухчастичного точечного поля (X, К), компоненты которого суть пуассоновские поля X и У, и взаимодействие между ними задано условием, что минимальное расстояние меязду точками различных типов больше, чем Я. Маргинальное распределение поля точек первого типа X имеет вид

Р1(х) = г-Чф* ехр(/3?|£> \ Сх| - |Д|),

где мы обозначили через ¡/х область, покрытую дисками (шарами) b(xi,R) радиуса Й, центрированных в точках конфигурации х, т.е. их = Я). Таким образом,

маргинальное поле X имеет значительно более сложную структуру, чем исходное поле.

Наш подход к построению моделей пространственно распределенных иерархически взаимодействующих точечных объектов предполагает выбор маргинального распределения точечной конфигурации верхнего уровня р(х) и цепочки условных распределений, описывающих размещение точек последующих уровней ^(х^хьхг, •.., 0> исходя из простых предположений о характере взаимодействия между точками одного типа и разных типов. Так построенная модель в состоянии учесть например, несимметричный характер взаимодействия между растениями в сообществе в соответствии с представлениями об отношениях между соседними деревьями на различных уровнях иерархии.

Алгоритм моделирования гиббсовского поля с иерархическими взаимодействиями является модификацией метода, который используется для статистического моделирования многомерной плотности, заданной с помощью функции (потенциального) взаимодействия. В случае, когда многомерная плотность задана с точностью до нормирующего множителя, прибегают к процедурам Монте-Карло по схеме марковских цепей (МСМС), которые включают алгоритмы Метрополиса-Хастингса и пространственные процессы рождения и гибели.

Идея, на которой основаны МСМС-алгоритмы, состоит в том, чтобы выбрать марковкую цепь (процесс), для которого моделируемое распределение является пре-

дельным. В нашем случае предельное распределение соответствует плотности гиббсов-ского поля, реализации которого нам необходимо получить. Если длина марковской цепи, т.е. последовательности точечных конфигураций, достаточно большая, то фи-пальная конфигурация есть реализация гиббсовского точечного поля с плотностью, достаточно близкой к плотности "целевого" распределения. Существуют различные методы диагностики, что марковская цепь вышла на стациопарный режим, один из которых описан в [1].

Схема одного из возможных алгоритмов рассмотрена в [11]. Мы ограничились описанием алгоритма, который порождает конфигурации с фиксированным числом точек каждого типа. Внимание к моделированию конфигураций с заданным числом точек оправдано тем обстоятельством, что на практике, как правило, имеют дело с единственной реализацией и интерес к вариабельности, связанной с интенсивностями точек поля, имеет второстепенное значение. Такие алгоритмы, когда подразумеваются определенные ограничения, накладываемые на реализацию случайного поля, называются условными.

Предположим, что число точек тц,.., п, всех уровней фиксированно.

• Допустим, что текущее состояние марковской цепи есть точечная конфигурация х<(, = (хьх2, -.., х^), где XI,... - конфигурации, которые являются результатом работы алгоритма на предыдущем шаге, и щ есть произвольная конфигурация щ точек к-того типа,

• Выберем точку хул конфигурации случайно и определим для нее новое расположение и, которое равномерно распределено в области £>,

• С вероятностью (принятия)

новая конфигурация {«} и \ {ги} (точка ты удаляется а новая точка и добавляется) становится новым состоянием цепи. В противном случае сохраняется старое состояние цепи и конфигурация х<к остается неизменной.

Реализации случайного точечного поля с иерархическим взаимодействием использовались в [11] для проверки согласия модели и данных.

Глава 5. Методы оценивания параметров гиббсовских точечных полей

Пятая глава посвящена рассмотрению свойств методов оценивания параметров гиббсовских точечных полей, основанных на семействе так называемых инвариантных

во-времени (ИВ) оценивающих уравнений, введенных в работе Бэддли1.

В п. 5.1 мы описываем два метода оценивания: максимального псездо-правдопо-добия, изученного в [4] и метода, предложенного Такачем2 и Фикселем3. В п. 5.2 мы даем различные формы инвариантных во времени оценок, в частности, описывается новый метод оценивания, допускающий простую реализацию с помощью стандартных пакетов. В п. 5.3 мы обобщаем метод ИВ-оценпвания. В п. 5.4 сравнивается качество различных ИВ-оценок на основе результатов вычислительного эксперимента.

Стандартный метод максимального правдоподобия для таких моделей не может быть использован из-за трудностей вычислительного характера. Оценивание методом максимального псевдо-правдоподобия (МПП) или методом Такача-Фикселя (ТФ) является в этом случае альтернативой, позволяющей избежать вычислительных проблем. Однако, эти оценки являются неэффективными и имеют значительное смещение в случае моделей, в которых взаимодействие между точками характеризуется значительными величинами. Следовательно, имеет смысл поиск оценивающих процедур, обладающих вычислительной простотой МПП- или ТФ-оценок, но имеющих лучшие статистические свойства.

Основные критерии выбора той или иной оценки являются качество и удобство вычислительной реализации. В литературе4 обсуждаются практические аспекты вычислительной реализации наиболее часто использующегося метода нахождения оценок - максимального псевдо-правдоподобия (МПП). Мы показываем, что среди ИВ-оценок существует такая, которая допускает реализацию с помощью стандартных статистических пакетов и в то же время имеет значительно лучшие статистические свойства, чем МПП-оценка.

Предположим, что р(х, б) есть параметрически заданная плотность распределения точечного поля X на В С параметр 0 которой нам требуется оценить по имеющимся данным х, т.е. точечной конфигурации в выборочном окне W С jD. Пусть (У,, t > 0) есть дискретная (для простоты) марковская цепь такая, что для любого б равновесное распределение цепи (У() имеет плотность вероятности р(х;0). Пусть Ад генератор цепи (Yt),

(AS)(x) = Ее [5(У1+1) - S(Vt) | Yt = xj

Инвариантная-во-времени оценка в есть решение уравнения (AqS)(x) — 0. Поскольку

lBaddeley А. J. Time-invariance estimating equatione //Bemoulli. - 2(100. - V. 6. - Р. 783-808.

sTakacs R. Estimator for the pair-potential of a Gibbsian point process //Statistics: A Journal of Tlieoretical and Applied Statistics. -1986. - V. 17. - P. 429-433.

3Fiksel T. Estimation of parametrized pair potentials of marked and non-marked Gibbsian point proecsses //Elektronische Informationsverarbeitung und Kybernetik. - 1984. - V. 20. - P. 270-278.

4 Baddeley A., Turner R. Practical maximum pseudolikelihood for spatial point patterns //Australian & New Zealand Journal of Statistics. - 2000. - V. 42. - Р. 283-322.

E^.AsS'X-X') = 0, то уравнение является несмещенным оценивающим уравнением.

В работе1 было установлено, что уравнение псевдо-правдоподобия могут быть получены из ИВ-оценивающих уравнений для экспоненциального семейства моделей, основанных на марковской цепи рождения и гибели с непрерывным временем (РГНВ), такой, что интенсивности рождения и гибели имеют вид

и статистика S(x) является достаточной статистикой для данного вида распределений.

В более общем случае мы можем получить семейство РГНВ марковских цепей, для которых метод, основанный на генераторе цепи, позволяет получить семейство РГНВ-оценивающих уравнений:

(AS)M = ^i5(x\x,)-.S(x)] (A-f^x;«))'1-»,

2i€X

+ f [S(x U и) - S(x)\ (A*(u,x; 0))c du. Jw

Аналогичные рассмотрения для генератора марковских цепей Метрополиса-Хас-тингса ведут к оценивающим уравнениям вида

(AS)(x) = 2,n0(xt:х\ х.) [S(x \ Xi) - 5(х)]

+ I тв (и, х) [5(х U и) - 5(x)J А" (и, х; в) du Jw

где

Ыи, х) =

или

me("'x) = сп(х и и) + (1 - с)A*(u, х; 0)\W\' которые названы Гейер-Мёллер (Г-М) и Баркер-Хастингс (Б-Х) уравнениями, так как отвечают соотвествующим МСМС алгоритмам.

Определим модификацию функции (логарифма) псевдо-правдоподобия

I лг/. ч _АЧХ41Х:(?)

lnQLc(0;x) = с ¿Ьсп(х) + (1 - c)A'fo,х;0)|W|

-(t -(c)\w\fwHcn{*Uu) + il ~ du-

Можно показать, что частные производные In QL дают оценивающие равнения Барксра-

Хастингса. Преимущество Б-Х-оценивающего уравнения состоит в том, что метод оценивания, использующий функцию QL, допускает реализацию с помощью стандартных пакетов программ.

Класс ИВ-оценок содержится в классе оценок Такача-Фикселя. Чтобы расширить класс инвариантных во времени оценок в диссертации предложено обобщение ИВ-ыетода оцепивания, которое приводит к оценивающим уравнениям, которые не могут быть получены с помощью метода Такача-Фикселя. В частном случае, используя алгоритм Метрополией, мы получили следующие оценивающие уравнения

(B,V)(x) = У] ( 1 (AU < 0) - 1 (AU > 0) ехр(-Д17) d«,

где Л1/ = U(k\ Xi U и: 0) - U(x; в), и [/(•, в) - полная энергия системы.

Мы сравнили качество оценок (см. Таблицы 1 и 2), получаемых с помощью различных оценивающих уравнений. В качестве модельного распределения использовалось точечное поле Штраусса5, заданное плотностью

р(х; в) = -^1(А(х) = 0) ехр (ап(х) + ßs(x}),

где в = (л, /5) параметры, которые управляют плотностью точек (параметр а) и взаимодействием между точками (параметр ß), п(х) обозначает число точек в точечном множестве х, наблюдаемом в выборочном окне W С Н.2. Статистика s(x) есть число пар точек, которые удалены далее, чем г0 и ближе, чем г единиц друг от друга, и статистика Л(х) определяет условие твердой сердцевины, которое проверяет отсутствие пар точек, расположенных ближе друг к другу, чем Гц\ г0 называется радиусом твердой сердцевины, а 7- - радиусом взаимодействия, и могут быть выбраны заранее или оцениваться по данным.

Таблица 1. Средние и стандартные ошибки (в скобках) для ИВ-оценок параметра взаимодействия ß в модели Штраусса с взаимодействием отталкивающего типа .

Оценка ß = -0.8 ß = -1.2 ß = -1.6 ß = -2.0 ß = -2.4

МПП -0.842 (0.192) -1.27 (0.252) -1.73 (0.353) -2.23 (0.508) -2.84* (0.870)

РГНВ(с = 0.5) -0.851 (0.193) -1.27 (0.241) -1.70 (0.296) -2.14 (0.356) -2.58 (0.423)

Г-М -0.836 (0.189) -1.24 (0.230) -1.66 (0.278) -2.08 (0.328) -2.50 (0.373)

Б-Х -0.842 (0.188) -1.25 (0.230) -1.67 (0.275) -2.09 (0.327) -2.51 (0.377)

Метроп -0.813 (0.183) -1.22 (0.222) -1.63 (0.261) -2.05 (0.310) -2.47 (0.355)

* in 5.2% реализаций конечная оценка не была найдена

5Strauss D. J. А model for chistermg //Biomettika. - 1975. - V. 62. - Р. 467-^175.

ТАБЛИЦА 2. Средние и стандартные ошибки (в скобках) для ИВ-оценок параметра взаимодействия ¡3 в кластерной модели Штраусса с жесткой сердцевиной.

Оценка ft = 0.4 ft = 0.8 ft = 1.2 /5 = 1.6

МПП 0.371 (0.187) 0.780 (0.183) 1.22 (0.249) 1.92* (0.604)

РГНВ( с = 0.5) 0.371 (0.189) 0.770 (0.171) 1.17 (0.169) 1.60 (0.212)

Г-М 0.377 (0.203) 0.772 (0.196) 1.16 (0.196) 1.58 (0.226)

Б-Х 0.374 (0.197) 0.773 (0.187) 1.17 (0.190) 1.58 (0.224)

Метроп 0.401 (0.186) 0.796 (0.169) 1.20 (0.175) 1.66 (0.255)

* in 2.9% реализаций конечная оценка не была найдена

Результаты эксперимента демонстрируют, что оценка, основанная на цепи Маркова с динамикой Метрополиса, является наилучшей в терминах как смещения, так и стандартной ошибки. Оценки, основанные на марковских цепях с динамикой обновления Гейера-Мёллера и Баркера-Хастингса имеют сходное качество, и их статистические свойства несколько лучше, чем у оценки, основанной па марковской цепи рождения и гибели с параметром с -- 0.5. Наш эксперимент подтверждает низкое качество МПП-оценок в случае моделей с высокими значениями параметра взаимодействия, как это раньше уже было отмечено в [4].

Глава 6. Проверка согласия гипотезы "пространствепиой случайности" против альтернатив смешанных регулярно-кластерных размещений

Задача проверки гипотезы о совершенно случайном размещении является классической. Подбор модели размещения точек естественно начать с предположения, что точки распределены равномерно по пространственной области и не взаимодействуют между собой. Эти предположения формально соответствуют свойствам модели, определяющей точечное поле Пуассона.

Обычно статистические критерии для проверки гипотезы о пуассоновости поля строятся с помощью статистик, использующих так называемые сводные (summary) характеристики точечных множеств, основанные на вычислениях расстояний до ближайших соседей, межточечных расстояний и числа подсчета точек в выборочных областях. Было предложено большое число статистических критериев для проверки гипотезы "пространствепиой случайности", п проведены сравнительные исследовапия мощностей нескольких групп статистических критериев.

Типичными альтернативами к "совершенно случайному" размещению являются размещения, обладающие либо кластерными, либо регулярными свойствами, которые визуально представляют хорошо выраженные группы точек в первом случае и относительно упорядоченное расположение точек (например, центры непересекающихся

шаров, плотно заполняющих пространство) во втором. Однако реальные пространственные структуры, например, экологических систем имеют иерархическую организацию и могут характеризоваться различными типами структур в зависимости от пространственной шкалы.

Значительно более сложная ситуация возникает, когда на отдельных подобластях общей пространственной области конфигурации точек имеют место различные свойства на одних и тех же шкалах расстояний. В этом случае мы говорим о пространственной смеси типов размещений. Особенно трудный случай представляет смесь кластерного и регулярного типов. В то же время, этот специальный случай размещения встречается в реальных ситуациях. Например, в разновозрастных древостоях процесс возобновления связан с разрывами в лесном пологе, образующимися в результате падения старого крупного дерева, и появления на этом месте группы молодых деревьев, получивших пространство для своего роста. Эти окна, заполнеппые молодыми деревьями следующего поколения, окружены взрослыми деревьями, расположение которых есть результат длительного процесса изреживания отставших в росте, конкурирующих за ресурсы деревьев этого и следующего поколения.

В работе [7| были описаны модели, которые позволяют создавать модельные конфигурации точек с такими специальными свойствами. Пример решения задачи оценки параметров подходящей модели может быть найден в работе [20].

Цель данной главы состоит в том, чтобы описать критериальную статистику, предложенную в работе [8], которая, как было показано, чувствительна к обоим свойствам пространственной смеси - регулярному и кластерному типу размещения точек. Новая статистика объединяет информацию, которая содержится в совокупности всех функций расстояния до n-того ближайшего соседа. Эта статистика представляет собой квадратичную форму и имеет асимптотически хи-квадрат распределение. Таким образом, критическая область может быть определена без обращения к методу Монте-Карло, в то время как конкурирующие критериальные статистики могут применяться только основываясь на монте-карловскнх вычислениях. Дополнительно, новый тест легко адаптируется к ситуациям, когда необходимо проверять отклонения от "пространственной случайности"для нескольких шкал одновременно.

Критериальная статистика. Пусть X - случайное точечное поле пй'с интенсивностью А. Определим случайную меру Л4(-, г), положив Л4(В, г) равным числу точек в X П В таких, что их числа r-близких соседей равны в точности к, где к = 0, 1, 2, ... для В С IR* and г > 0.

Уточненная теорема Кэмпбелла и условие однородности позволяют выразить математическое ожидание случайной меры М в виде

ЕЛ4(В,г) = Л*(г)|В| = A|B|Fo{x = |хПЬ(0,г)| = fc},

где Р'ц - редуцированная мера Пальма поля X, и Аь(г) есть интенсивность тех точек поля, которые имеют ровно к г-близких соседа.

Функции АЦг) обеспечивают детальное описание точечного поля. Более того, многие популярные сводные функции, например, Л'-фупкция Рипли, могут быть выражены через линейные комбинации функций А*(г). Их общим недостатком, является то, что опи не позволяют различить эффекты, относящиеся к разным свойствам конфигураций. Например, из-за взаимной компенсации отклонений в сторону регулярного и кластерных размещений указанные статистики могут оказаться малочувствительными к отклонениям от модели пуассоновского поля - типичной нулевой гипотезы.

Ниже мы описываем новый подход к задаче проверки гипотезы "пространственной случайности". В работе [8] была предложена критериальная статистика, основанная на отклонениях случайных величин М^ от их математических ожиданий при нулевой гипотезе. Чтобы эти отклонения не компенсировали друг друга статистика критерия была выбрана вальдовского типа, которая декоррелирует и нормирует компоненты, входящие в статистику. Именно, рассмотрим квадратичную форму

где т — (т1,т2, ...,то?)' состоит из М/,(В,т) и их сумм, т.е. ттц = г) где В

- окно наблюдения, а ^ непустое множество индексов, содержащее неотрицательные целые числа и такое, что /„ П /¡2 =0 для любых ¿1 ф г2. Вектор ¡1 = (//ь /12,... ,/4,)' состоит из математических ожиданий наблюденных статистик ш,-, т.е. ^ — Ет*, и Л-1

- матрица, обратная к ковариационной матрице вектора га. Выбор множества индексов /,• может быть произвольным, при условии, что соответствующая ковариационная матрица Е обратима.

Математические ожидания = Ет* и компоненты ковариационной матрицы 2, при условии, что точечное поле X является пуассоновским или биномиальным, находятся по формулам, которые были получены в работе (8]. Для этого была использована конструкция маркированного точечного поля V, ассоциированного с исходным точечным полем Пуассона X, где каждой точке х 6 X назначается марка в (х), которая соответствует числу г-близких соседей точки х. Применение теоремы Мекке-Кэмпбелла дает в конечном итоге явные формулы.

В работе (8) были изучены асимптотические свойства предложенной статистики О1. Мы рассматриваем случай, когда однородное пуассоповское точечное поле с фиксированным параметром интенсивности наблюдается в выборочном окне, которое расширяется регулярным образом до всего пространства К1'. Было показано, что статистика С)2 асимптотически (1К К1*) распределена как ^-распределение с числом степеней свободы равным рангу ковариационной матрицы

\ -----

p = 3

0.0

0.5

1-0

1.5

S5 S ё s о

S» t*

0.0 0.5 1.0 1.5

0-0-.Ó-0-0 К' функция

КА3-фуикция

Х-Х-Х-Х-* LJ- функция.

G- функция

l.t-».*.* 0*2-функцня

Рис. 2: Оценки мощности критериев проверки гипотезы о случайном размещении точек против альтернатив смешанного регулярно-кластерного типа, состоящих из п = 100 точек кластерного поля Матерна с средним числом точек в кластере р, и п — 100 точек поля Штраусса с параметром взаимодействия ß. Радиус кластеров и радиус взаимодействия были равны. Оценки мощности соответствуют ошибке первого рода 5%.

Интерес представляет сравнение мощности критериев, основанных на предложенной нами статистике Q2 и некоторых других популярных статистиках. В качестве альтернативной гипотезы мы взяли пространственную смесь кластерного поля Матерна и точечного поля Штраусса. Кластерное поле Матерна позволяет создавать размещения, точки которых образуют группы, в то время как точечное поле Штраусса хорошо приспособлено для создания размещений, точки которых образуют разреженные паттерны, степенью разрежегггюспг которых можно управлять с помощью параметра взаимодействия между точками. Таким образом, реализации данной модели проявляют кластерные и регулярные свойства одновременно.

В качестве конкурирующих к статистике Q2 мы рассматривали следующие популярные статистики: эмпирический аналог А'-функции Рипли, А'(г) = Е.уу lfllZi - Zj|| < г), статистику Р(г) = Ylitj Нхи г) Л b(x¿, г)|, эмпирическую функцию, связанную с редуцированной третьей моментной мерой, 1{@>(г) = „(nJf)(„-.2)

1(||х; — Xj|i < г)1(||х; — X(i|| < г), и эмпирическую функцию распределения расстояния до ближайшего соседа, называемую G-функцией, G(r) = n"1 J2i Ц11™^!!!1« ~ rjll} ^ г). В качестве статистики критерия в данном сравнительном исследовании был выбран вариант U = maxj=iv_,\W(rj) — И'о(гу)|, где IVo является теоретической описательной функцией, вычисленной для нулевой гипотезы, и W является соответствующей эмпирической функцией, значения которой паходятся на основе эмпирических данных, т.е. координат точек конфигурации. Для оценки мощности критериев мы использовали метод Монте-Карло.

Результаты, представленные па Рис. 2, показывают преимущество статистики Q2 для проверки "пространственной случайности" против альтернатив, соответствующих моделям, объединяющим строго противоположные тенденции, приводящим к точечным конфигурациям с кластерными и регулярными свойствами.

Глава 7. Метод проверки адекватности модели гиббсовского случайного поля

Развитие статистических методов анализа пространственных данных и, в частности, точечных конфигураций сделало возможным привлечение разнообразных достаточно сложных моделей для описания данных, встречающихся в приложениях . Однако среди имеющихся методов отсутствовали процедуры проверки и диагностики адекватности подогнанной (fitted) модели, т.е. модели, параметры которой были оценены по имеющимся данным. В то же время, если обратиться к близкому разделу математической статистики - многомерному анализу, то нельзя не отметить наличие развитых средств проверки качества подгонки, например для общей линейной модели. Таким образом, отсутствие среди арсенала методов пространственной статистики процедур, аналогичных анализу остатков или выявлению выбросов, не позволяет выделить необычные наблюдения, которые искажают свойства изучаемого объекта или системы.

Первые шаги в этом направлении были сделаны в работе [1], где было введено понятие экспоненциального маркирования. В мотивировочной части этой работы мы отмечали, что гиббсовские точечные поля представляют собой модели, которые позволяют описать большое разнообразие точечных конфигураций. Однако, применение этих моделей на практике затруднено, так как получение моментных характеристик сопряжено с большими трудностями. Так, например, две основные характеристики, которые описывают пространственную конфигурацию - интенсивность и парная корреляционная функция в случае гиббсовских моделей не могут быть вычислены аналитически.

В [1] было показано, что в случае специального выбора марок, операция маркирования позволяет получить выражепие для характеристик первого и второго порядка в явном виде. Этот факт может быть использован для построения процедур экспресс-проверки адекватности модели, причем, как в случае алгоритмов статистического моделирования (диагностика сходимости), так и в случае подгонки или отбора моделей из заданного класса. В [1] мы не привели примеров использования предложенного подхода. Этот недостаток был впоследствии устранен в работах других исследователей.

Основания метода диагностики. Укажем те особенности модели, которую мы рассматривали в [1]. Мы ограничились рассмотрением гиббсовских точечных полей с парным взаимодействием, т.е. заданных параметром химической активности а и парным потенциалом Ф(||я — !/||), где х,у 6 К1'. Следовательно, функция локальной энергии, в терминах которой определяется распределение точечного поля, может быть записана как Е(х, х) = а + £»ех\<1} ~ у\I)' х>У е ^ х е Здесь X обозначает множество всех локально конечных конфигураций в К11. Предполагается, что на парный потенциал Ф(-) наложены условия, чтобы обеспечить существование точечного поля X в К1*.

Доказательство утверждений о свойствах момеггтных мер, которые мы собираемся установить, существенным образом опирается па соотношение между мерой Пальма и распределением гиббсовского точечного поля (формула Нгуен-Цессина), обобщенного на случай маркированного гиббсовского точечного поля, а именно, для всех неотрицательных измеримых функций д : К* х1ч Xй верно равенство ЛЕш[д(0,1, Х<!>] = Е[д(0, Х<'>) ехр(-Е(0,1, Хт))]. Здесь символ Е0! обозначает математическое ожидание относительно редуцированной меры Пальма.

Процедура маркирования для точечного поля X, которая превращает исходное точечное поле в маркированное X® = {[х,!]}, соответствует назначению каждой марке положительного значешя по правилу

1(х) = ехр(В(х,х\{х})) = ехр(а + £ Ф(||*-у||)).

»е*\{1}

Такой вид маркирования получил назвапие "экспоненциальный" . Полезность данной конструкция дает

Теорема. [1] Пусть X - маркированное гиббсовское точечное поле с локальной энергией Е, не зависящей от значения марок. Тогда средняя марка Г = Е0!Ь удовлетворяет соотношению I = 1/А.

Следствие. Среднее суммы всех экспоненциальных марок точек в борелевском множестве В С Т&л равна лебеговой мере множества В.

Таким образом, если модель гиббсовского точечного поля хорошо соответствует данным и оценка параметров модели близка к верному значению, мы ожидаем, что сумма марок не должна систематически отклоняться от объема области В. Здесь мы предполагаем, что область В используется как сканирующая тестовая площадка, перемещающаяся по всему исследуемому образцу.

Идея диагностики на основе отклонений правой и левой частей равенства Нгуена-Цессина была развита Бэддли с соавторами, которые ввели понятие меры остатков по аналогии с процессом инноваций в теории точечных процессов.

Средства диагностика, основанные на моментных мерах второго порядка. Мо-ментные меры второго порядка, взвешенные "экспоненциальными" марками могут быть использованы как дополнительные средства диагностики.

В [1| было показано, что экспоненциальное маркирование позволяет получить аналитические выражения для моментных мер второго порядка. Этот результат имеет важное значение, так как упрощает процедуру оценивания и диагностику отклонения от подходящей модели. Кроме того, для некоторых простых моделей эти соотношения являются основой метода оцепивапия (см. [2]).

Глава 8. Метод статистического моделирования Монте-Карло в задачах проверки статистических гипотез для точечных полей

Методы Монте-Карло находят широкое применение в математической статистике, поскольку часто являются едппствепно возможной альтернативой для решения практически интересных задач, когда аналитические результаты относительно поведения вероятностных моделей либо не известны, либо их получение сопряжено со значительными трудностями. Привлекательной стороной методов, основанных па статистическом моделировании (методе Мопте-Карло), является принципиальная возможность их реализации.

В главе 8 рассматриваются методы проверки статистических гипотез при анализе точечных конфигураций. Мы показываем, что существующая практика применения широко используемых методов не вполне удовлетворительна. Глава основана на результатах работ [15] и [26], где предложены новые улучшенные процедуры проверки гипотез.

Обычно для проверки гипотез в задачах апализа точечных конфигураций используются два подхода, один та которых основан на мере отклонений от теоретической (известной или оцененной по модельным реализациям) описательной функции, в то время как второй использует огибающие, представляющие собой границы критических областей. Оба метода относятся к критериям значимости и используют в качестве критериальной статистики одну из возможных описательных функций /г(г) (например, распределение расстояния до ближайшего соседа), оцененную на основе

точечной конфигурации х = {хх,..., х„}. Причина, по которой приходится прибегать к статистическому моделированию при решении указанных задач, состоит в том, что распределение статистики F(r) даже для простых моделей как правило не известно, в то время как метод Монте-Карло позволяет получать оценку распределения для F(r).

В методе отклонений информация о расхождении между наблюдаемой функциональной статистикой F„aS.,(r) и теоретической FTeop(r) трансформируется в скалярную величину, которая сравнивается с распределением таких величин, полученных на основе модельных реализаций. Конструирование критерия в данном случае не вызывает принципиальных трудностей. Более сложная ситуация возникает в случае метода огибающих, в котором значения F(r) инспектируются на интервале расстояний одновременно. Таким образом, мы имеем дело с критерием множественных сравнений и определение вероятности ошибки первого рода представляет значительные трудности.

Улучшенный метод огибающих. В работе [15 ] был предложен улучшенный метод монте-карловских огибающих. Опишем вначале классический метод огибающих. Во-первых, необходимо получить s независимых маркированных точечных конфигураций, являющихся реализациями модели, соответствующей нулевой гипотезе. Затем, выбирается описательная функция F(r) и вычисляются оценки для эмпирической (вычисленной по данным) /\(г) и каждой модельной конфигурации Щг), i = 2,..., s + 1. Далее, для каждого значения расстояния г в выбранном диапазоне значений [rmin, rmax| мы находим fc-тое наибольшее и наименьшее значение F((r) из множества (Fi(r),г = l,...,s + 1}, которые в совокупности формируют 2k/(s + 1) верхний Fup(r) и нижний Flow(r) границы зоны, соответствующей "принятию" нулевой гипотезы, и которая, следовательно, определяет критическую область.

В частном случае наибольшего и наименьшего Fj(r) для каждого г в [rmin, rmiU.] эти значения образуют огибающие, т.е. кривые за пределы которых модельные статистики не выходят, что дает верхнюю и нижнюю огибающую,

Fup(r) = .шах^ Fi(r), F^.(r) = . min^ F;(r).

Построенный так критерий, однако, не отвечает на вопрос, какое число модельных конфигураций s мы должны сгенерировать, чтобы получить критерий заданного размера (т.е. уровня значимости). В литературе такой критерий часто интерпретируют, как имеющий размер 2k/{s + 1), что не является корректным.

Хотя мы не можем контролировать уровень значимости (ошибку первого рода) а, используя критерий огибающих, мы можем оценить его значение, т.е использовать его в выводах a posteriori.

Алгоритм вычисления оценки вероятности ошибки первого рода, когда значение расстояния г не фиксировано, следующий. Для каждой модельной копфигуРаДии маркированных точек мы определяем, находится ли Fi(r) полностью между огибающими, т.е. мы проверяем истинность неравентсва F]ow(r) < Fj(r) < F„p(r), для всех г В Г min,''шах ]. Пусть t - это число тех модельных маркированных конфигураций, для которых данное неравенство истинно. В качестве оценки вероятности ошибки первого рода положим величину А = 1 — t/s, где s - число всех модельных конфигурации точек.

В работе [15] был предложен усовершенствованный метод огибающих, позволяющий получить критерий желаемого размера (т.е. желаемую ошибку первого рода). Мы определяем новый метод огибающих как процедуру построения огибающих, описанных выше, где вероятность ошибки первого рода оценивается после построения огибающих и попользуется в статистических выводах. В том случае, если выбор числа модельных повторностей s дает неприемлемо большую ошибку первого рода, число s должно быть увеличено так, чтобы ошибка первого рода оказалась близка к желаг емому значению. В этом случае усовершенствованный метод огибающих становится строгой статистической процедурой.

В качестве примера анализа точечной конфигурации с количественными марками мы рассмотрели данные, состоящие из координат расположения деревьев и измерений их диаметров [15]. Вопрос, являются ли величины диаметров деревьев независимыми случайными величинами, представляет биологический интерес, так как характеризует взаимоотношения индивидуальных растений в сообществе. Мы псследуем независимость диаметров деревьев лесного участка с помощью описательной функция F(r), соответствующей маркированной моментной мере второго порядка.

Вначале мы используем традиционный подход к построению критерия на основе метода огибающих, при котором число модельных повторностей было невелико s = 99. Результаты представлены на Рис. За).

Прежде всего отметим, что кривая, соответствующая описательной функции Fi (г), оцененной по данным, выходит за границы области, образованной кривыми, полученными по 99 модельным повторностям. Таким образом, традиционный метод огибающих дает оспования отклонить нулевую гипотезу. Далее, вычисление оценки вероятности ошибки первого рода, соответствующей построенным огибающим, дает величину 0.48. Таким образом, заключение, что нулевая гипотеза должна быть отклонена, следует пересмотреть, так как размер критерия представляется слишком большим, чтобы вывод был надежным.

Повторное построение огибающих с числом s = 999 модельных повторностей представлено на Рис. 36). В данном случае оценка вероятности ошибки первого рода

Рис. 3: Метод огибающих для данных из работы [15]. Число модельных повторностей а) в — 99, б) а = 999. Кривая, показанная жирной линией, соответствует эмпирической функции Р(г). Кривые, соответствующие модельным повторностям, показаны серым, огибающие показаны разрывной линией.

составляет приблизительно 0.08, что представляется приемлемой величиной для применения критерия. Однако, теперь эмпирическая функция Д(г), лежит полностью между огибающими, поэтому мы не имеем достаточных оснований для того, чтобы отклонить нулевую гипотезу Я0 на уровне значимости 8%.

Таким образом, мы можем заключить, что применение модифицированного метода огибающих ведет к получению новой информации об анализируемых данных. В качестве объяснения можно предположить, что объем данных слишком мал (134 точки), чтобы надежно обнаружить слабую корреляцию между марками. С экологической точки зрения полученный результат может быть объяснен тем обстоятельством, что лесное насаждение подвергалось рубкам ухода, причем, оставлялись в основном хорошо развитые деревья. Такая процедура ведет к тому, что эффект конкуренции становится мало выраженным, формируя относительно однородное по диаметрам сообщество с небольшими корреляциями в размерах соседних деревьев.

В Приложение вынесено описание разработанного комплекса программ и некоторые листинги программного кода.

Основные результаты и выводы:

1) В работе предложены и изучены модели, описывающие пространственно распределенные системы взаимодействующих объектов, которые применимы к широкому кругу задач, возникающих в популяционной экологии растений.

2) Изученные в работе маркированные гиббсовские точечные поля могут быть использованы как в качестве описания пространственной структуры растительного

сообщества, так и в качестве вероятностных моделей, позволяющих воспроизводить специфические особенности взаимного расположения деревьев с учетом сложных механизмов взаимодействия между конкурирующими деревьями.

3) На многочисленных примерах экспериментальных данных показано, что различные типы размещения деревьев, в том числе смешанные регулярно-кластерные размещения, характерные для разновозрастных древостоев, могут быть описаны с помощью моделей, соответствующих гиббсовским перестройкам пуассоновских случайных полей, и, следовательно, могут быть изучены в рамках наиболее информативного подхода, основанного па анализе функции правдоподобия.

4) В работе введены новые теоретические понятия, такие как иерархический потенциал взаимодействия и показано, что естественная иерархия взаимоотношений растений может быть описана в рамках пространственных моделей с локальным взаимодействием с помощью нового класса многомерпых точечных процессов с потеп-циальной функцией иерархического типа. Предложены модели случайных точечных полей, способные описывать и анализировать пространственную структуру с учетом асимметричного взаимодействия между объектами.

5) Предложен и обоснован новый метод оценивания параметров моделей гибб-совских точечных полей, использующий так называемую функцию оценивания с марковской структурой. Этот метод является практической альтернативой методу максимального правдоподобия, применение которого в контексте зависимых данных затруднено. Изучены свойства оценок параметров вероятностных моделей, получаемых новым методом, и показано, что качество оценок предложенного метода в терминах минимума стандартных ошибок превосходит качество метода (максимального псевдоправдоподобия), используемого в качестве стандартного.

6) Новый теоретический результат получен в области проверки статистических гипотез, заключающийся в том, что доказано, что потеря мощности критериев значимости, описанная в литературе, когда точечный паттерн имеет смешанные регулярно-кластерные свойства, может быть устранена с помощью применения критериальной статистики пирсоцовского типа, которая обобщает классический тест хи-квадрат на случай зависимых данных.

7) Развиты средства диагностики параметрических моделей гиббсовских точечных полей. Эти методы могут быть полезны на предварительной стадии анализа согласия модели и данных. Предложенные методы могут быть использованы как средства диагностики при мониторинге сходимости марковских цепей в практике применения методов Монте-Карло (МСМС).

8) Несоответствие между глобальным характером проверки гипотезы и локальными выводами в задаче проверки согласия модели и пространственных данных устра-

непо рассмотрением проблемы с позиций проверки нескольких гипотез одновременно. Предложен метод контроля вероятности ошибки первого рода для критерия согласия. Разработан улучшенный метод огибающих, сочетающий наглядность графического представления данных и строгость теоретических оснований.

9) Работа очерчивает возможности и перспективы теории статистических выводов относительно параметрических моделей случайных точечных полей, а также демонстрирует связь с прикладными аспектами стохастической геометрии и пространственной статистики. Методы построения и идентификации вероятностно-статистических моделей, предлагаемых в дапной работе, расширяют инструментарий исследователя-эколога, позволяя анализировать различные классы моделей, учитывающих специфические характеристики природных систем. Вычислительные алгоритмы, разработанные для анализа и моделирования больших случайных систем, являются основой получения новых результатов в сложных моделях стохастической геометрии и пространственной статистики.

Список публикаций автора

Публикации в реферируемых изданиях, входящих в список ВАК для публикации результатов диссертации на соискание ученой степени доктора наук, в которых отражено основное содержание диссертации

1. Stoyan, D. Second-order characteristics for stochastic structures connected with Gibbs point processes / D. Stoyan, P. Grabarnik // Mathematische Nachrichten. - 1991. - V.151. - P. 95-100.

2. Stoyan, D. Statistics for the stationary Strauss model by the casp point method / D. Stoyan, P. Grabarnik // Statistics. - 1991. - V. 22. - P. 283-289.

3. Gavrikov, V.L. Trank-top relations in a Siberian pine forest / V.L. Gavrikov, P.Ya. Grabarnik, D. Stoyan // Biomedical Journal. - 1993. - V. 35. - P. 487-498.

4. Diggle, P. On parameter estimation for painvi.se interaction point processes / P. Diggle, T. Fiksel, P. Grabarnik, Y. Ogata, M. Tanemura, D. Stoyan // International Statistical Review. - 1994. - V.62. - P. 99-117.

5. Goulard, M. Parameter estimation for marked Gibbs point processes through the maximum pseudo-likelihood method / M. Goulard, A.Sarkkii. P. Grabarnik // Scandinavian Journal of Statistics. - 1996. - V.23. - P. 365-379.

6. Grabarnik, P. Simulation study of the geometrical properties of a maize crop root system, and its consequences for root length density and root intersection density / P. Grabarnik, P. Loic, G. Bengough // Plant and Soil. 1998. V. 200. P. 157 167.

7. Grabarnik, P. Interacting neighbour point processes: models for clustering / P. Grabarnik. A. Sarkka // Journal of Statistical Computation and Simulation. - 2001. - V. 68. - P. 113-126.

8. Grabarnik, P. Goodness-of-fit test for complete spatial randomness against mixtures of regular and clustered spatial point processes / P. Grabarnik, S.N. Chiu // Biometrika.

- 2002. - V.89. - P. 411-421.

9. Грабарник, П.Я. Статистическое моделирование и анализ данных лесной таксации для задач оценки биоразнообразия / П.Я. Грабарник , В.Э. Смирнов, И.Е. Сизов // Лесоведение. - 2004. - №3. - С. 35-43.

10. Grabarnik, P. Contribution on the paper by A. Baddeley, R. Turner, J. Moller, M. Hazelton "Residual analysis for spatial point processes"/ P. Grabarnik, others // Journal of the Royal Statistical Society, Ser.B. - 2005, - V.G7, - P. 600-601.

11. Grabarnik, P. Modelling the spatial structure of forest stands by multivariate point processes with, hierarchical interactions / P. Grabarnik , A. Sarkka // Ecological Modelling.

- 2009. - V. 220. - P. 1232-1240.

12. Eckel, S. Modelling tree roots in mixed forest stands by inhomogeneous marked Gibbs point processes / S. Eckel, F. Fleischer, P. Grabarnik, M. Kazda, A. Sarkka, V. Schmidt // Biometrical Journal. 2009. V. 51. P. 522 539.

13. Грабарник, П.Я. Анализ горизонтальной структуры древостоя: модельный подход / П.Я. Грабарник // Лесоведение. - 2010. - №2. - С. 77-85.

14. Grabarnik, P. Modelling the spatial and space-time structure of forest stands: How to model asymmetric interaction between neighbouring trees / P. Grabarnik, A. Sarkka // Procedia Environmental Sciences. - V.7. - 2011. - P. 62 -67.

15. Grabarnik, P. Correct testing of mark independence for marked point patterns / P. Grabarnik, M. Myllymaki, D. Stoyan // Ecological Modelling. 2011. V. 22. P. 3888-3894.

16. Грабарник, П.Я. О модели точечных конфигураций, заданной полупараметрическим взаимодействием / П.Я. Грабарник, В.В. Щербаков // Вести. Моск. ун-та. сер.1. Математика. Механика. - 2012. - №2. - С.З -8.

Публикации в сборниках научных трудов, коллективных монографиях; выпусках научных и учебных заведений, а также представленных для публикации и находящихся в подготовке.

17. Грабарник, П.Я. Статистический анализ пространственных структур. Методы, использующие расстояния между точками. Экомодель-4. / П.Я. Грабарник, А.С. Комаров // Материалы по математическому обеспечению ЭВМ. - Пущино: ОНТИ НЦБИ. 1980. - 1-48 с.

18. Грабарник, П.Я. Статистический анализ горизонтальной структуры древо-

стоя / П.Я. Грабарник, А.С. Комаров // Моделирование биогеоценоткческнх процессов. - Ред. В.В. Галицкий. - М.: Наука. 1981. - С. 81-89.

19. Грабарник, П.Я. Марковские модели пространственных точечных процессов с несколькими типами точек / П.Я. Грабарник // Математическое моделирование популяций растений и фитоценозов. - М., Наука. 1992. -С. 85-90.

20. Грабарник, П.Я. Анализ пространственной структуры древостоя: подход с использованием корреляционных мер / П.Я. Грабарник, А.С. Комаров, Е.П. Носова, С.С. Родин// Математическое моделирование популяций растений и фитоценозон. -М., Наука. 1992. - С. 74-84.

21. Grabarnik, P. Some interaction models for clustered point patterns / P. Grabarnik, A. Sarkka.// Dep. Statistics, Gothenburg University, Research report 8. Gothenburg. 1998. - 1-13 p.

22. Grabarnik, P. Some interaction models for clustered point patterns: application to forestry. / P. Grabarnik, A. Sarkka // Proceedings o£ Conference on Stereology, Spatial Statistics and Stochastic Geometry, Ed. V. Benes, J. Janacek, I. Saxl, - Prague. 1998.-P.107-112.

23. Грабарник, П.Я. Моделирование пространственной структуры древостоев. / П.Я. Грабарник //Моделирование динамики органического вещества в лесных экосистемах. А.С. Комаров, О.Г. Чертов и др. - М.: Наука. 2007. -С. 132-146.

24. Grabarnik, P. Contribution to discussion to the paper KModern statistics for spatial point processes» by J. M0ller and R.P. Waagepetersen / P. Grabarnik, A. Sarkka // Scandinavian Journal of Statistics. - 2007. - V.34. P. 691.

25. Bezrukova, M. DLES: A Component-Based Framework for Ecological Modeling / M. Bezrukova, V. Shanin, A. Mikhailov , N. Mikhailova, Y. Khoraskina, P. Grabarnik, A. Komarov // Models of the Ecological Hierarchy: From Molecules to the Ecosphere. Eds F.Jordan and S.E. Jorgensen. Developments in Environmental Modelling Series . V.25. Elsevier Science. - 2012. - P. 331-354.

26. Myllymaki, M. On the power of deviation tests for spatial marked point patterns / M. Myllymaki, P. Grabarnik, H. Seijo, D. Stoyan // arXiv: 1306.1028 [stat.ME], - 2013. - P. 1-26.

Свидетельства о регистрации программ для ЭВМ.

27. Свидетельство о государственной регистрации программы для ЭВМ №2012619311. SPPS - программный комплекс моделирования и анализа точечных структур (Spatial Point Pattern Statistics). Правообладатель: ФГБУН Институг физико-химических и биологических проблем почвоведения РАН (ИФХиБПП РАН). Авторы: Грабарник П.Я. Заявка №2012616906 от 15.08.2012. Зарегистрировано в Реестре программ для ЭВМ 15.10.2012.

Подписано в печать:

05.11.2013

Заказ X» 9032 Тираж - 100 экз. Печать трафаретная. Объем: 2 усл.п.л. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www. autoreferat. ru

Текст работы Грабарник, Павел Яковлевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ ИНСТИТУТ ФИЗИКО-ХИМИЧЕСКИХ И БИОЛОГИЧЕСКИХ ПРОБЛЕМ ПОЧВОВЕДЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК

На правах рукописи 05201 4501 64 С^^-

ГРАБАРНИК ПАВЕЛ ЯКОВЛЕВИЧ

МОДЕЛИРОВАНИЕ И МЕТОДЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ПРОСТРАНСТВЕННОЙ СТРУКТУРЫ ДРЕВОСТОЕВ НА ОСНОВЕ СЛУЧАЙНЫХ ТОЧЕЧНЫХ ПОЛЕЙ

Специальность 05.13.18 — математическое моделирование, численные методы и

комплексы программ

Диссертация на соискание учёной степени доктора физико-математических наук

Научный консультант: доктор биологических наук, профессор

А.С. Комаров

Петрозаводск - 2013

ОГЛАВЛЕНИЕ 2

ВВЕДЕНИЕ а

1 ОБЗОР МЕТОДОВ И МОДЕЛЕЙ СЛУЧАЙНЫХ ТОЧЕЧНЫХ ПОЛЕЙ 24

1.1 Основные понятия и определения....................................................24

1.1.1 Случайная точка. Множество случайных точек............................26

1.1.2 Конечное точечное поле......................................................27

1.1.3 Случайные считающие меры................................................31

1.1.4 Характеризация распределения случайных точечных полей............34

1.1.5 Операции с точечными полями ............................................35

1.1.6 Моменты и другие числовые характеристики точечных полей..........38

1.1.7 Условные распределения, связанные с точечными полями..............43

1.1.8 Функция условной интенсивности (Папангелу)............................46

1.2 Модели случайных точечных полей..................................................47

1.2.1 Точечное поле Пуассона ....................................................47

1.2.2 Модели прореживания точек................................................50

1.2.3 Модели, учитывающие неоднородность распределения ресурсов, и модели возобновления ..........................................................54

1.2.4 Модели, заданные плотностью относительно пуассоновского точечного поля........................................................................57

1.2.5 Марковские точечные поля..................................................67

2 МОДЕЛИ МАРКИРОВАННЫХ ГИББСОВСКИХ ТОЧЕЧНЫХ ПОЛЕЙ 75

2.1 Конечные маркированные гиббсовские точечные поля..........................77

2.2 Марковские точечные поля относительно маркированных соседей............83

2.3 Оценивание параметров маркированного гиббсовского точечного поля с помощью метода максимального псевдо-правдободобия............................85

2.4 Статистические свойства оценок максимального

псевд о-правдоподобия................................................................91

2.5 Гиббсовские модели взаимодействующих дисков ................................94

3 МОДЕЛИРОВАНИЕ КЛАСТЕРНЫХ КОНФИГУРАЦИЙ 100

3.1 Проблема моделирования кластерных конфигураций с помощью гиббсовских полей .........................................100

3.2 Марковские точечные поля относительно динамического соседства......106

3.2.1 Характеризационные результаты для марковских моделей относительно динамического соседства........................110

3.3 Модель точечного поля взаимодействующих соседей...............112

3.4 Марковское свойство и характеризационная теорема..............113

3.4.1 Характеризация точечных полей взаимодействующих соседей с помощью функции взаимодействия.......................117

3.4.2 Связь между точечными полями взаимодействующих соседей и другими моделями................................120

3.4.3 Пространственное марковское свойство точечных полей взаимодействующих соседей..............................121

3.5 Некоторые примеры точечных полей взаимодействующих соседей......122

3.5.1 Точечные поля, когда взаимодействие задано в полупараметрической форме......................................122

3.5.2 Модели с плотностью, принадлежащей к семейству экспоненциальных распределений .............................130

3.6 Компьютерные эксперименты моделирования ВС-полей............132

4 МОДЕЛИРОВАНИЕ НЕСИММЕТРИЧНОГО ВЗАИМОДЕЙСТВИЯ 139

4.1 Моделирование пространственной структуры с учетом асимметрии взаимодействия растений в сообществе..........................139

4.2 Модель с иерархическими взаимодействиями..................143

4.3 Марковское свойство и характеризация......................147

4.4 Алгоритм моделирования гиббсовского поля иерархическими взаимодействиями ........................................149

5 МЕТОДЫ ОЦЕНИВАНИЯ ПАРАМЕТРОВ ГИББСОВСКИХ ТОЧЕЧНЫХ ПОЛЕЙ 152

5.1 Метод Такача-Фикселя...............................154

5.2 Метод, основанный на оценивающей функции с марковской структурой ... 155

5.2.1 Марковская цепь рождения и гибели с непрерывным временем .... 157

5.2.2 Двухчастичная марковская цепь рождения и гибели с непрерывным временем...................................158

5.2.3 Марковские цепи Метрополиса-Хастингса................159

5.3 Обобщение инвариантного во времени метода оценивания...........162

5.4 Сравнение статистистических свойств ИВ-оценок................164

6 ПРОВЕРКА СОГЛАСИЯ ГИПОТЕЗЫ "ПРОСТРАНСТВЕННОЙ СЛУ-ЧАЙНОСТИ"ПРОТИВ АЛЬТЕРНАТИВ СМЕШАННЫХ РЕГУЛЯРНО-КЛАСТЕРНЫХ РАЗМЕЩЕНИЙ 169

6.1 Задача проверки гипотезы о совершенно случайном размещении.......169

6.2 Критериальная статистика.............................170

6.3 Асимптотические свойства статистики (52 ....................177

6.4 Сравнение мощности критерия С}2.........................179

6.4.1 Альтернативные модели ..........................179

6.4.2 Конкурирующие критериальные статистики...............181

6.4.3 Результаты........................•..........184

6.5 Пример и обсуждение................................187

7 МЕТОД ПРОВЕРКИ АДЕКВАТНОСТИ МОДЕЛИ ГИББСОВСКОГО СЛУЧАЙНОГО ПОЛЯ 191

7.1 Основания метода диагностики ..........................193

7.2 Оценка вариабельности...............................197

7.3 Средства диагностики, основанные на моментных мерах второго порядка . . 199

8 МЕТОД СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ МОНТЕ-КАРЛО В ЗАДАЧАХ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ ДЛЯ ТОЧЕЧНЫХ ПОЛЕЙ 205

8.1 Статистические тесты для анализа точечных конфигураций .........209

8.2 Улучшенный метод огибающих ..........................216

8.3 Метод отклонений..................................220

8.4 Примеры проверки гипотезы "независимости марок" .............228

8.5 Обсуждение......................................235

ЗАКЛЮЧЕНИЕ 237

ЛИТЕРАТУРА 240

ПРИЛОЖЕНИЕ 264

ВВЕДЕНИЕ

Теория систем с большим числом взаимодействующих компонент представляет собой естественный аппарат для математического моделирования реальных систем разнообразной природы. К ним относятся сложные физические, химические, биологические, геологические, технические, кибернетические и содио-экономические системы.

Относительно самостоятельным классом задач является моделирование систем пространственно распределенных дискретных объектов. Задачи, связанные со свойствами таких случайных систем, решаются методами стохастической геометрии и теории случайных полей, развитие которых в значительной степени стимулировалось задачами прикладных исследований.

Примерами применения указанных методов являются анализ распределения эпицентров землетрясений в геофизике [126,160,161], изучение пространственного размещения географических объектов [59], анализ пространственной структуры растительных сообществ [67,121], моделирование распределения месторождений полезных ископаемых в геологии при оценке запаса [56], моделирование и анализ нейронных сетей в нейрофизиологии [51], анализ эконометрических систем [23,24,72] и многие другие области исследования.

Общим для указанных задач является то, что, во-первых, случайные события происходят в пространстве и, во-вторых, эти события не являются независимыми. Отметим, что для задач, в которых случайные точки образуют поток событий (на временной оси), существует хорошо разработанная теория случайных точечных процессов, которая, как и теория временных рядов, допускает обобщение на многомерный параметр. Тем не менее, две основные трудности:

1) отсутствие независимости,

2) отсутствие естественной упорядоченности событий

требуют поиска новых подходов и разработки специальных методов, которые позволяли бы строить и проверять согласие моделей и экспериментальных данных.

Интегральная геометрия, основы которой были заложены Крофтоном в XIX веке или ее современный вариант - стохастическая геометрия, восходят к классическим работам по геометрическим вероятностям (см. историческую справку в [12]). В работах Бляшке и его учеников в 30-х годах прошлого столетия интегральная геометрия оформляется как самостоятельная дисциплина. Целью в данном случае является получение геометрически интересных результатов с помощью вероятностных идей [20].

Благодаря работам Девида Кендалла, Крикенберга и Майлза, интегральная геометрия была обогащена введением идей и методов случайных процессов. Французские математики под руководством Матерона развили теорию случайных множеств, привлекая глубокие топологические идеи [16]. Несколько иной подход был предложен в работах шведского математика Олафа Калленберга, разработавшего понятие случайной меры [127], которое обобщает модель случайного поля, чтобы включить возможность описания разнообразных случайных геометрических систем, например, процессы волокон [203].

В качестве примера рассмотрим следующую задачу [25]. Пусть А с Ж4* - выпуклое компактное множество и Ь - случайная линия относительно меры, инвариантной к группе движений. Тогда вероятность, что случайная линия Ь пересечет некоторое фиксированное выпуклое множество В С А, есть

Р{ЬГ)В^Ф}= |<9Б|

\дА\

где | • | - длина и д - граница области.

Этот результат типичен для стохастической геометрии в том смысле, что вероятность пересечения случайного множества X с некоторой фигурой В не зависит от положения фигуры В внутри области А и, более того, не зависит от формы В. Если в качестве фигуры В выбран линейный отрезок, то мы немедленно получим решение классической задачи Бюффона [3], которая считается отправной точкой области геометрических вероятностей.

Имеется много других замечательных результатов, которые выражают вероятности пересечения случайного множества X с фиксированной фигурой В через геометрические

свойства этой фигуры

Р{ХПВ^Щ = и(В),

где и - некоторый геометрический функционал.

Эти результаты могут быть интерпретированы несколькими способами:

1) как свойство функционала и;

2) как основа статистического метода оценки v{B) с помощью случайной выборки ХГ\В;

3) как характеризации распределения случайного множества X, например, для проверки 11 равномерности "распределения множества X.

Нестрого говоря, различные аспекты стохастической геометрии, соответствующие каждой из приведенных выше интерпретаций, образуют предмет более специализированной области, а именно, интегральной геометрии, стереологии, пространственной статистики.

Термин "стохастическая геометрия" был введен в 1969 году на конференции по интегральной геометрии и геометрическим вероятностям (Обервольфах, Германия), чтобы подчеркнуть связь рассматриваемых задач с теорией случайных процессов, в частности с той ее частью, которая относится к случайным полям или'пространственным случайным процессам (см. предисловие Д. Кендалла в [203]). С другой стороны, случайные процессы, реализации которых суть геометрические структуры, являются предметом изучения в рамках стохастической геометрии [203,206].

Значительная часть стохастической геометрии формировалась как решение прикладных задач в различных областях знания. Пространственные данные, то есть наблюдения, где пространственные координаты тесно связаны со случайным механизмом явления, типичны для таких областей как метеорология, геофизика, география, экология, лесоведение и многих других.

Термин "пространственная статистика"получил широкое распространение с выходом в свет монографии английского математика Б. Рипли "Spatial Statistics"(1981), в которой он впервые систематически изложил методы и примеры анализа пространственных данных. В настоящее время под пространственной статистикой понимается методология

анализа пространственных данных трех типов - с непрерывной пространственной вариацией, с дискретной пространственной вариацией и точечных структур (паттернов) [82]. Методы, позволяющие анализировать данные первого типа, часто относят к геостатистике. Этот термин отражает вклад специалистов горной промышленности ЮАР и французских математиков из горного института (L'Ecole des Mines, Fontainebleau) в разработку методов интерполяции пространственных данных. Методы геостатистики широко используются не только в геологии, но и экологии [138], почвоведении и агрохимии [95], лесоведении, дистанционном зондировании [197], океанологии, метеорологии и многих других областях знания.

Методы анализа данных второго типа востребованы и широко применяются в географических науках [59], социо-экономических исследованиях [24,110] санитарно-эпидемиологических работах [73,216] полевых экспериментах эколого-биогеоценотического характера [138] и т.д. Для таких данных типичным является обстоятельство, что точки отбора экспериментального материала дискретны, либо данные агрегируются и характеризуют подобласти, на которые разбита исследуемая территория, например, административные округа.

Наконец, методы анализа точечных структур тесно связаны с стохастической геометрией, которая предлагает математические модели для данных, соответствующих точечным конфигурациям. Примерами таких данных являются карты расположения деревьев в лесу [121,220] местоположения археологических находок, расположение гнездовий птиц и многие другие объекты в географии [79], астрономии [196], биологии [218], медицине [149].

Отметим, что в последние годы интерес к методам пространственной статистики со стороны нематематических дисциплин постоянно растет. Это связано, главным образом, с осознанием важности пространственных взаимоотношений между частями общей сложной системы пространственно распределенных объектов и учета зависимости поведения или состояния этой системы от направленности и напряженности таких взаимодействий. В частности, укажем на появление таких новых дисциплин как пространственная экология (Spatial Ecology) [220], пространственная эконометрия (Spatial Econometry) [24,110] пространственная эпидемиология (Spatial Epidemiology) [73,137].

Несомненным источником идей для пространственной статистики явились теорети-

ческие результаты, наработанные в задачах статистической физики [2,15,21]. Модели, которые используют физики, чтобы описать большие молекулярные системы, оказались достаточно универсальны, чтобы быть полезными для описания пространственных данных различной природы. Идея использовать микроописание системы взаимодействующих объектов, чтобы предсказать ее макроповедение, успешно реализуется во многих науках, являясь основой имитационного и статистического моделирования.

Кроме многих естественно-научных и социо-экономических дисциплин, для которых пространственная статистика поставляет модели и методы анализа экспериментальных данных, методы пространственной статистики и стохастической геометрии используются для цифровой обработки изображений [17,45], распознавания образов [186], математической морфологии [61,184] и других областях интеллектуальной обработки данных.

Вклад пространственной статистики в теоретическую статистику может быть связан с работами эколого-биометрического характера, появившимися в литературе начиная с 50-х годов прошлого столетия, в которых разрабатывались различные методы проверки гипотезы о "пуассоновости" случайного точечного поля. Завершением этого цикла публикаций явилась работа [183], в которой получили теоретическое освещение многочисленные попытки конструирования и применения различных индексов агрегированности и показателей регулярности расположения точек.

Также практические задачи явились стимулом для введения и изучения новых моделей пространственных точечных процессов. Например, кластерные точечные процессы, по-видимому, впервые появились в литературе как попытка описать распределение звезд на небесной сфере [157]. Позднее модельные представления были развиты в классической работе Матерна [148], в которой пространственные процессы использовались для изучения оптимальных выборочных схем полевых экспериментов. Несколько позже появились и получили большое распространение гиббсовские модели, заимствованные из статистической физики, в которых отклонение от модели пуассоновского точечного поля является следствием взаимодействия между точками [68,162,163,181,207].

Теоретические основы для применения статистических методов, базирующихся на моделях пространственных точечных процессов, были заложены в работах Б. Рипли [180,181] и развиты усилиями представителей немецкой математической школы (Фрайберг, Герма-

ния) [74,112,165,166,199].

Важные результаты в области стохастической геометрии и теории случайных пространственных точечных процессов получены в работах М.Бартлетта, П.Диггла, Ю.Бе-сага, Б.Рипли, И. Мекке, Д.Штояна, К.-Х.Ханиша, И. Маттеса, Б. Огаты, Д. Дели, Д. Вери-Джонса, О. Калленберга, Д. Кендалла, Р. Майлза, А. Бэддли, Е.Йенсен, И. Мочано-ва, Е. Мёллера и других. Известна своими работами в области стохастической геометрии группа, возглавляемая проф. Р.В. Амбарцумяном в Армении.

Роль компьютерных вычислений в методах стохастической геометрии и пространственной статистики.

В последние два десятилетия с увеличением мощности компьютеров и их большей доступностью растет интерес к применению компьютерных программ для реализа

Похожие работы

Информатика, вычислительная техника и управление
05.13.00