автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Совокупный медико-экологический анализ результатов геохимического опробования почв и статистики заболеваемости

кандидата технических наук
Бураго, Татьяна Васильевна
город
Владивосток
год
2000
специальность ВАК РФ
05.13.16
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Совокупный медико-экологический анализ результатов геохимического опробования почв и статистики заболеваемости»

Автореферат диссертации по теме "Совокупный медико-экологический анализ результатов геохимического опробования почв и статистики заболеваемости"

ОД

2 О НОЯ ?Г

На прав ах рукописи

БУРАГО Татьяна Васильевна

СОВОКУПНЫЙ МЕДИКО-ЭКОЛОГИЧЕСКИЙ АНАЛИЗ РЕЗУЛЬТАТОВ ГЕОХИМИЧЕСКОГО ОПРОБОВАНИЯ ПОЧВ И СТАТИСТИКИ

ЗАБОЛЕВАЕМОСТИ (НА ПРИМЕРЕ ПРИМОРСКОГО КРАЯ)

05.13.16- применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (техника)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Владивосток 2000

Работа выполнена на кафедре информационных технологий Дальневосточной государственной академии экономики и управления (г. Владивосток).

Научный руков одителъ: доктор физико-математических наук,

профессор А.И.АБАКУМОВ,

Официальные оппоненты:

доктор биологических наук, профессор Е.Я.ФРИСМАН; доктор технических наук, профессор Н.Г.ШКАБАРНЯ

Ведущая организация: Дальневосточный

государственный университет (г. Владивосток).

Защита диссертации состоится ИЙХЬЯ, 2000 г. в^ часов на заседании диссертационного совета Д 003.30.01 в Институте автоматики и процессов управления (ИАПУ) ДВО РАН по адресу: 690041, Владивосток, ул. Радио ,5.

С диссертацией можно ознакомиться в читальном зале библиотеки ИАПУ ДВО РАН: Владивосток, ул. Радио, 5.

Автореферат разослан и-ЮНЛС 2000 г.

Ученый секретарь диссертационного совета, доктор технических наук

Б.И.Коган

риМ 00 ^ Г - 4/?Р) о

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Длительное время многие регионы России, в том числе и территория Приморского края, испытывают интенсивный пресс техносферы. В этих условиях утверждение о том, что экологическая проблематика приобретает все большую актуальность, уже давно не требует специальной аргументации и становится самоочевидным. Качество управленческих, экономических и социальных решений все в большей и большей степени зависит от полноты учета экологических аспектов решаемых проблем. Стратегия принятия экологически выверенных решений с необходимостью должна опираться на информацию о трансформациях и взаимовлияниях физических, химических и биологических процессов в окружающей среде, предоставляемую разнообразными теоретическими исследованиями, мониторинговыми наблюдениями и численными экспериментами. Данное обстоятельство объясняет необходимость и возрастающий интерес к постановке все более сложных задач, связанных с комплексным анализом региональных данных по состоянию окружающей среды и ее воздействию на здоровье человека.

Из всевозможных факторов воздействия, к числу которых относятся химический, радиоактивный, пылевой, биологический и др., наиболее распространенным и экологически опасным является химический. "Изучение химии окружающей среды (естественной и техногенной) с эколого-геохимических позиций - одна из важнейших проблем современности, и большая ошибка не понимать, а тем более не изучать этих связей" (Ю.Г.Покатилов, 1993). Развитие геохимии окружающей среды и медицинской экологии в условиях интенсивного наращивания возможностейкомпыотерных технологий являются факторами, определяющими актуальность математических приложений и компьютерных технологий.

Действительно, с одной стороны, объем фактических материалов, экспериментально выявленных закономерностей и другой эмпирической информации, накопленной в геохимической экологии и смежных областях науки, все в большей

степени требует систематизации. Предметная область на стыке геохимической экологии, биометрики и изучения качества окружающей среды требует приложения и дальнейшего развития математических методов, прежде всего, методов многомерной статистики, и использования компьютерных технологий.

С другой стороны, на фоне традиционного для медицинской статистики и биометрики тяготения к математико-ста-тистическим методам в последнее время в постановке задач медико-экологических исследований ясно обозначилась тенденция перехода от вспомогательных (рабочих) характеристик к жизненно важным и наиболее значимым показателям, которыми, в конечном счете, являются благополучие и здоровье человека. Последнее обстоятельство подчеркивает необходимость дополнения собранной экологической информации медицинской статистикой и проведения совместного анализа факторов различной природы.

В этих условиях одной из центральных проблем становится выявление причинно-следственных связей между здоровьем населения и факторами его определяющими, а также решение многих сопутствующих задач, облегчающих совокупный анализ данных, таких как разработка методики количественной оценки статистически связанных признаков, проведение районирования территории, отработка процедуры картирования медико-экологических признаков и т.п. В настоящее время данный круг вопросов остается недостаточно изученным.

Цели и задачи диссертационной работы. Основной целью работы является формулировка и обоснование общей методики совокупного анализа геохимической и медико-экологической информации, направленного на выявление, моделирование и картографическое представление структуры и силы корреляционных связей, присутствующих в данных; создание карт рисков заболеваний для различных возрастных групп населения Приморского края.

Для достижения этой цели необходимо решить ряд задач, в число которых входят:

- постановка и решение математической задачи геохимического районирования, моделирование и исследование кластерной структуры данных;

- выявление и количественная оценка статистических зависимостей между исследуемыми характеристиками; определение новых информативных признаков;

- моделирование картируемой характеристики с необходимой детализацией и построение карт.

Фактический материал. В данной диссертационной работе объектом исследования является территория Приморского края. Исходная информация состоит из двух самостоятельных массивов данных. Один характеризует исследуемый регион с точки зрения физико-химического состояния, другой - определяет уровень здоровья населения.

Первую группу признаков представляет химический состав почв - одна из наиболее показательных характеристик состояния окружающей среды. Данные этой группы характеризуют исследуемую территорию с точки зрения как природного, так и техногенного загрязнения. Санитарное состояние почвы является одним из важнейших медико-экологических факторов здоровья. Очевидно, в первую очередь следует принимать во внимание состояние почв наиболее заселенных территорий.

Другая группа признаков, также отражающих качество окружающей среды, выражена статистикой заболеваемости населения, проживающего на данной территории. Состояние здоровья населения, безусловно, является непосредственным и наиболее важным показателем экологической благополучности среды обитания.

Методы исследования. Обработка данных основывается на классических алгоритмах многомерной статистики. Основу методики составляют алгоритмы теории распознавания образов, стандартные процедуры проверки статистических гипотез, методы анализа главных компонент, корреляционного и регрессионного анализов, теория канонических переменных и методы геостатистики.

Арсенал используемых компьютерных средств представлен, главным образом, специализированным комплексом программ, специально разработанным автором для целей настоящей работы (язык программирования Visual Basic). Программный комплекс содержит инструментарий многомерного статистического анализа, а также средства предмодельно-го анализа и подготовки данных. Помимо этого, на завершающем этапе работы при отрисовке некоторых карт, использовалась программа Surfer.

Научная новизна. Основные положения диссертации, определяющие научную новизну и выносимые на защиту, заключаются в следующем.

1. Предложен формальный математический подход к проведению районирования территории. Разработан алгоритм кластеризации, учитывающий особенности задачи Данные геохимического опробования почв центрального и южного Приморья подвергнуты кластерному анализу. Представлены карты почвенных кластеров.

2. Установлены статистические зависимости между химическим составом почвы и характером заболеваемости населения, сформированы типовые комплексы экологически значимых элементов.

3. Сформулирована методика картирования медико-экологических показателей, проведено моделирование рисков заболевания и построены карты рисков для различных заболеваний и возрастных групп. Подобному анализу медицинская статистика по Приморскому краю подвергается впервые.

Практическая значимость. Сформулированные и опробованные в данной диссертации алгоритмы помогают систематизировать экологическую информацию, дают возможность провести типизацию почв по физико-химическим признакам и.облегчают проведение районирования территории.

Привлечение методов математической статистики к медико-экологическому анализу позволяет точнее и полнее определить условия, способствующие возникновению и распространению экологически зависимых заболеваний, что, в свою очередь, может оказаться полезным при планировании оздо-

ровительных мероприятий и программ или принятии иных экономико-экологических решений.

Методика, предложенная в диссертации, внедрена в ООО МИФ "Экоцентр" (Владивосток) в рамках выполнения работ по многоцелевому геохимическому картированию на Приморском полигоне (1997-1998). Разработанное программное обеспечение использовалось в связи с проведением геохимического районирования и составлением эколого-геохимической карты Приморского края. Работы финансировались министерством природных ресурсов РФ.

Апробация результатов. Результаты, полученные в диссертации, докладывались на научных семинарах в Институте автоматики и процессов управления ДВО РАН, кафедры информационных технологий Дальневосточной государственной академии экономики и управления, Институте окружающей среды Дальневосточного госуниверситета, 1-й Дальневосточной конференции аспирантов и студентов в Дальневосточном университете (Владивосток, 1997) и международных конференциях: "Сихотэ-Алинь: сохранение и устойчивое развитие уникальной экосистемы" (Владивосток, 1997) и "Рыбохозяй-ствепные исследования мирового океана" (Владивосток, 1999).

Публикации. По теме диссертации автором опубликованы пять работ. Из работ, выполненных в соавторстве, в диссертацию вошли результаты, полученные лично автором, содержащие элементы научной новизны и включаемые в число положений, выносимых на защиту.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключешыи списка литературы. Общий объем работы составляет 191 страницу, содержит 56 иллюстраций и 15 таблиц. Список литературы включает 73 наименования.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Введение содержит общую характеристику работы, обосновывает актуальность исследования, кратко вводитв исследуемую проблему, формулирует цель и задачи диссертационной работы, используемые материалы и методику исследования.

Первая глава диссертации, является методическим обзором и характеризует состояние исследуемой проблемы. В ней рассмотрены принципиальные подходы к задаче медико-экологической оценки качества окружающей среды. Выделены и описаны четыре основные направления: биогеохимическое районирование, использование описательной статистики, эпидемиологический подход, модели и методы геостатистики.

Вторая глава посвящена изложению математического содержания задачи геохимического районирования. Цель главы - придать точный математический смысл этой процедуре. Глава содержит описание и характеристику исследуемых данных, математическую постановку задачи районирования, формулировку и обоснование алгоритма ее решения, а также изложение результатов применения предложенного алгоритма и иллюстрацию его работы для различных сочетаний рабочих параметров.

Объектом исследования является территория Приморского края. И сходная информация состоит из двух самостоятельных массивов данных. Первый характеризует исследуемый регион с точки зрения химического состава почв, второй - содержит статистику заболеваемости населения.

В качестве исходной информации первого типа использовались данные по химическому составу почв юга Приморья. Эта информация собрана в период с 1991 по 1994 год на территории юга Приморского края порядка 100 тысяч кв. км (южнее широты 45°20'). Работы проводились многопрофильной инновационной фирмой "Экоцентр" (г. Владивосток). Данные представляют собой значения концентраций в почве 28 экологически значимых химических элементов. Для последующего выявления зависимости состояния почв и показателей состояния здоровья населения производилась предварительная обработка этих данных: концентрации химических элементов усреднялись в границах административных районов с использованием статистических весов, пропорциональных плотности населения. С этой целью автором была собрана информация о географическом положении и численности населения 559 населенных пунктов Приморского края.

Вторая группа данных представлена статистикой заболеваемости, собранной организационно-статистического отделом департамента здравоохранения Приморского края. Статистика подсчитана на основании учета числа обращений населения в поликлиники края. В составе общего числа обращений отдельно выделены первичные обращения в каждом из учтенных видов заболеваний. Приняты во внимание следующие группы болезней: органов дыхания, кожи и подкожной клетчатки, системы кровообращения, мочеполовых органов, нервной системы и органов чувств, органов пищеварения, новообразования, а также общая заболеваемость. Учет производился отдельно по трем возрастным группам: дети (до 14 лет включительно), подростки (15-17 лет), взрослые (старше 17 лет). Для целей настоящей работы использовались данные за 1991-1994 годы.

Формальным содержанием геохимического районирования является задача кластеризации, достаточно подробно изучаемая в теории распознавания образов. К специфике биогеохимического районирования, влияющей на постановку задачи и на выбор метода ее решения, относится следующее.

1. Сложность и многообразие биогеохимических процессов, протекающих в окружающей среде, сопряжены с действием большого числа факторов различной природы. Их взаимное влияние скрадывает исследуемые закономерности и делает целесообразной статистическую постановку задачи кластеризации.

2. Разделение территорий на группы в процессе районирования, как правило, происходит в отсутствие образцов или "эталонов". Состояние проблемы на сегодняшний день не позволяет составить коллекцию таких образцов. Следовательно, решение следует искать с помощью алгоритмов автоматической классификации (обучения "без учителя").

3. Биогеохимическое районирование, как правило, проводится в условиях, когда число кластеров не может быть заранее определено, поэтому алгоритм кластеризации должен предусматривать автоматический подбор этого параметра.

Для математической постановки задачи принципиальным является введение критерия оптимальности разбиения, а также определение функции для вычисления расстояний в пространстве признаков. В настоящей работе предлагается модификация хорошо известной специалистам процедуры классификации 18СГОАТА. Она предназначена для выделения компактных (обычно, в смысле евклидовой метрики) групп изображающих точек в пространстве признаков. Ее ядром является простой и эффективный алгоритм автоматической классификации - метод "^средних" или правило ближайшего среднего (К.Фукупага, 1979). Особенностью данного алгоритма, затрудняющей его прямое использование, является необходимость априорного определения числа кластеров. Алгоритмическое оценивание числа кластеров принципиально возможно, но связано со значительными усложнениями, утяжеляет всю процедуру и делает ее более громоздкой. В частности для алгоритма ¡БОБАТА требуется предварительное задание ряда параметров, определение которых не столь очевидно и носит эмпирический характер. Таким образом, определение одного неизвестного параметра сводится к оценке нескольких других, причем новая проблема по уровню сложности не намного уступает исходной.

Развиваемый в диссертации подход базируется на методике, вытекающей из приложения теоретико-информационного критерия Акаике к задачам классификации. На возможность его использования в задачах распознавания образов указывали H.Bozdogan, С. Б. С а пп а п.и М.В.Мег1ске1. Критерий Акаике позволяет не только оценивать "качество" классификации при фиксированном числе кластеров, но и оптимальным образом выбирать это число. Он является расширением классического принципа максимума правдоподобия и является несмещенной выборочной оценкой количества информации, представленной в модельной плотности вероятности наблюдаемой случайной величины, о ее истинном распределении (Н.Ака1ке, 1974). Можно показать, что с точностью до постоянного множителя такой оценкой является величина:

А(в) = -2Ц0) + 2/я, (I)

где ¿(0)-логарифмическая функция правдоподобия, 0 - оценка максимального правдоподобия, т - число параметров модели.

Сложность модели (число неизвестных параметров) должно быть соразмерным с объемом выборки. По этой причине в условиях ограниченной выборки целесообразно ограничиться максимально простой моделью. Для целей дальнейшего исследования предположим следующее.

1. Внутрикластерные распределения наблюдаемых величин являются гауссовскими.

2. И скомые кластеры р азличаются значениями внутрикла -стерных средних (г = 1...К,, где К, - число кластеров), но имеют совпадающие ковариационные матрицы.

3. Ковариационные матрицы в.., г = I..К, являются скалярными, т.е. Б., =...=8,К, = <тI Е, где Е - единичная матрица

соответствующей размерности.

4. Принадлежность каждого из наблюдаемых объектов к соответствующему кластеру не является случайной и определяется значениями неизвестного векторного параметра -

..., с^), где равно номеру кластера, которому принадлежи!' /-Й обьект, п - число классифицируемых объектов.

В указанных условиях необходимо вычислить оценки для числа кластеров К, векторов внутрикластерных средних р.,,..., ц^, внутрикла стертой дисперсии с2 и вектора \ = ..., с,п).

Для решения задачи оценивания в диссертации предложен алгоритм, основанный на методе автоматической классификации, известном как алгоритм ближайшего среднего.

Алгоритм ближайшего среднего - один из наиболее простых и надежных методов автоматической классификации. Содержательно он довольно прост" сначала при фиксированных центрах классифицируемые точки разносятся по кластерам, а затем при фиксированном разбиении вычисляются цешры кластеров. Новые центры вновь используются для проведения кластеризации и т.д. Эти действия продолжаются до достижения сходимости (состав кластеров перестает меняться).

В диссертации показано, что, в условиях гауссовости внут-рикластерных распределений и фиксированном числе кластеров, оценки, доставляемые алгоритмом ближайшего среднего для ц15..., М-^и^, ..., ^удовлетворяют необходимым условиям оптимальности критерия Акаике.

После подстановки выражений для оценок параметров модели в определение критерия Акаике и учета предположений о виде модели критерий становится функцией от числа кластеров. Оценка для числа кластеров определяется как решение соответствующей одномерной экстремальной задачи, что не представляет серьезных трудностей. Существует глобальный минимум рассматриваемого критерия по К, позволяющий вычислить оптимальное число кластеров и, следовательно, оценить затем все параметры, определяющие кластерную структуру данных.

В окончательном виде алгоритм представляет собой гибрид правила ближайшего среднего и итерационной процедуры, с автоматической подстройкой параметров. Определенным недостатком данного метода является возможная неединственность решения, что, впрочем, является скорее свойством решаемой задачи, нежели несовершенством алгоритма.

Далее в главе приведены результаты применения этого алгоритма, как к геохимическим, так и к медицинским данным в различных вариациях (по-разному определялась метрика в пространстве признаков, различным образом формировались признаки).

Результаты моделирования кластерной структуры представлены в третьей главе на картограммах распределения почв по элементному составу. Охарактеризованы выделенные почвенные кластеры и по составу и по географическому положению.

Третья глава содержит результаты исследований, общее направление которых определяется постановкой задачи поиска экологически значимых элементов, демонстрирующих статистически весомые корреляционные связи с показателями заболеваемости.

Существует, по меньшей мере, три подхода к данной проблеме: вычисление коэффициентов корреляций, использование канонических переменных и проверка статистической гипотезы о независимости.

Коэффициент корреляции является фактическим стандартом количественной оценки зависимости в работах прикладного характера. В пп. 3.1.1, 3.1.2 зависимости между заболеваемостью и составом почв прослеживались с помощью корреляционных коэффициентов в основном на парных сравнениях признаков типа "концентрация" - "заболеваемость".

Специфика множественных связей, как правило, не исчерпывается лишь парными связями. Содержательно исследуемая проблема формулируется как задача выявления и оценки статистической зависимости между двумя группами признаков, характеризующими одно и то же множество объектов. Задача определения канонических переменных, линейно зависящих от измеряемых величин и обладающих наибольшей корреляцией, впервые была рассмотрена Х.Хотеллингом и в настоящее время хорошо известна в статистике. Канонические корреляции дополняют анализ коэффициентов парной корреляции и позволяют более обосновано провести отбор экологически зависимых типов заболеваний. Результаты корреляционного анализа в терминах канонических переменных также приводятся в п. 3.1.

Некоррелированность случайных величин, как известно, не вполне тождественна их независимости. Кроме того, коэффициент корреляции является специфической оценкой, ориентированной на количественное выражение зависимостей линейного вида. В отсутствие предположений о виде гипотетической взаимосвязи целесообразна прямая постановка задачи проверки гипотезы о независимости методами математической статистики. Такая постановка задачи рассмотрена в п. 3.2, где предлагается предварительная трансформация данных в таблицу сопряженности специального вида. Парой признаков, сводимых в таблицу, являются номера кластеров, отражающих реальную кластерную структуру, предположительно присутствующую в наблюдаемых признаках. Для состав-

ления данной таблицы предлагается использовать алгоритм кластеризации, сформулированный во второй главе диссертации.

Результаты процедуры кластеризации, последовательно примененной к наборам данных различной природы, используются как исходная информация для проверки гипотезы о независимости между этими наборами. Дальнейшее построение статистического критерия проводится стандартным образом.

Химические элементы, наиболее коррелирующие с заболеваемостью, даны в табл. 1 для трех возрастных групп. Элементы разнесены по трем категориям в зависимости от достигаемого уровня значимости: I - не более 0.01; II - не более 0.05; III - не более 0.1. В третьей категории в круглых скобках приведены элементы, находящиеся в непосредственной близости к указанному диапазону. Отсутствие элементов в соответствующем диапазоне отмечено прочерком.

Четвертая глава содержит результаты медико-экологического анализа, связанного с задачей моделирования и картографического отображения рисков заболевания. В диссертации рассматриваются две модели заболеваемости, ориентированные, соответственно, на статистику первичной и общей (суммарной) обращаемости.

Исследование первичной обращаемости предлагается проводить с помощью понятие риска, определяемого как вероятность заболевания в течение года (конкретным видом заболеваний). Риск заболевания моделируется с помощью логистической функции:

_ ехр{ЭтНк] (2)

1к--f-+ Ек' 1}

1 + ехр {QlHk}

где гк - моделируемый риск, Н[ =(1 - вектор,

характеризующий содержания химических элементов в почве, / - число учитываемых химических элементов, к - индекс района, 9 - вектор параметров модели, гк - значения случайной

величины с нулевым средним значением. Компоненты вектора НЛ вычисляются как средневзвешенные концентрации с весами пропорциональными плотности населения.

Таблица 1. Химические элементы с высокой медико-экологической значимостью

Заболевания Возрастная группа

дети подростки взрослые

Органов дыхания I — - -

II _ Ва ЛЪ, Мо

III Сг, РЬ. Яг, 7.г П IV, У, С,а, Ве

Кожи и подкож- I - - _

ной клетчатки II Д'с, Хг, Г Са —

III - - ве, (ЯЪ, М)

Крови и системы I ЛУ, РЬ -

кровообращения II Т\Ъ, В, Со В __

III (Л РЬ, Сг, Си У, Я, Яп, 7.г, П

Мочеполовой I - -

системы II РЬ, Ва С?а. У _

III ЯЬ. Ве, (М) Ах, (1Л. гп) Л/л. ве, (Си. К)

Нервной системы I Сг - _

II Ве Ва -

III Со, (ЯЬ, С а) Мо Л>, V, Г, Мо,ЛЪ, (Со)

Органов пищева- I РЬ, Си, Яг РЬ, Си, 8г Си, РЬ, В, Со, Сг

рения II и, Со, Ва J Со М, Яг, Ва, Се

III Сг, м в, '¿г Сг, №, Ва, В, Ы 2т У

Новообразования I _ - _

II _ - РЬ

III - -

Общая заболе- I - Сг -

ваемость II Бг Яг N1, Си, Яг

III Сг, Р, РЬ, (У) (Р. РЬ, л V, В, (РЬ)

При рассмотрении общей обращаемости под риском удобнее понимать вероятность того, что в течение года человек, проживающий на данной территории, обратится в поликлинику в течение года по поводу того или иного вида заболеваний хотя бы однажды. В этом случае модель принимает вид:

ук=ех р{0гНА} + вь (3)

где ук - наблюдаемое среднее значение числа обращений для к-то района. Собственно риск заболевания определяется следующим равенством:

гк = 1-ехр{-ехр{егЩ}}- (4)

Решение задачи моделирования позволяет оценить значения риска в точках с известными значениями концентраций химических элементов и перейти непосредственно к картированию. В целом процедура выглядит следующим образом.

На этапе предварительной обработки геохимические данные усредняются по регулярной сетке, нормируются на фоновые концентрации и укрупняются до районов. Процедура укрупнения заключается во взвешенном усреднении регул яр и-зованных данных. Весовые коэффициенты выбираются пропорционально плотности населения. Медицинские данные по первичной обращаемости представляются как частоты, выраженные в долях единицы, и интерпретируются как оценки рисков заболевания. Общая обращаемость представляется как оценка среднего числа обращений в поликлиники, приходящегося на одного человека в течение года.

Второй этап заключается в построении логит-модели (2) или пуассоновской регрессионной модели (3)-(4). В качестве объясняющих переменных выступают векторы укрупненных геохимических признаков, в качестве объясняемой переменной поочередно выбирается риск того или иного заболевания.

Оценки параметров модели используются на третьем этапе для оценивания исследуемого риска во всех точках с известными значениями геохимических признаков. Результатом данного этапа является поле значений картируемой характеристики, привязанной к регулярной сети опробования. Таким образом, данные по заболеваемости получают координатную привязку.

Последний этап процедуры является графическим и заключается в построении карты. Цифровая основа карты, полученная на предыдущем этапе, с помощью процедуры крикин-га, преобразуется в непрерывную поверхность, отстраиваемую в виде трехмерной карты или двумерной карты изолиний. На рис. 1 приведены примеры медико-экологических карт, построенных по статистике детской заболеваемости.

Рис. 1. Карты рисков для детской заболеваемости:

1) заболевания органов дыхания,

1-а - первичная обращаемость, логистическая модель,

1 -б - общая обращаемость, регрессионная пуассоновская модель;

2) заболевания мочеполовых органов,

2-а - первичная обращаемость, логистическая модель,

2-6 - общая обращаемость, регрессионная пуассоновская модель.

В заключении формулируются выводы и подводятся итоги проведенного исследования.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

Основные результаты диссертационной работы заключаются в следующем.

1. Задача геохимического районирования исследована с точки зрения ее формального содержания. Диссертация содержит математическую постановку задачи, формулировку и обоснование алгоритма решающего данную задачу. Обоснование алгоритма проведено в смысле проверки выполнимости необходимых условий оптимальности.

2. Продемонстрирована работоспособность предложенного алгоритма на геохимических данных характеризующих почвы Приморского края. Выявлены основные типы (кластеры) почв по элементному составу, представлены их структурные и географические характеристики. Результаты представлены картограммами почвенных кластеров.

3. На примере Приморского края выявлены и количественно оценены статистические зависимости между химическим составом почвы, с одной стороны, интенсивностью и структурой показателей заболеваемости населения, с другой стороны. Сформированы типовые комплексы экологически значимых элементов, выявлены наиболее чувствительные к экологическим условиям типы заболеваний.

4. Проведено моделирование заболеваемости в терминах рисков заболевания; сформулирована методика картирования медико-экологическихпоказателей, которая позволяет решить проблему сопоставимости разнородных данных, и дает возможность установить координатную привязку медицинской статистики на основании совместного анализа разнородных данных, в частности, заболеваемости и результатов опробования почв. Построены карты рисков для различных заболеваний и возрастных групп.

ОПУБЛИКОВАННЫЕ РАБОТЫ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Бураго Т.В.. Выявление и оценка статистический зависимости характеристик среды обитания и состояния здоровья населения. Вестник Дальневосточной академии экономики и управления. 1999. № 2. С. 128-137.

2. Бураго Т.В., Абакумов А.И. Канонический корреляционный анализ состава почв, демографических данных и статистики заболеваемости по Приморскому краю. Рыбохозяй-ствсштые исследования мирового океана. Международная научная конференция. 27-29 сентября, 1999.

3. Бураго Т.В., Абакумов А.И., Шлыков С.А. Компьютерный анализ химического загрязнения почв в Приморском крае. Научныетруды Дальрыбвтуза. 1998. №.10. С. 48-54.

4. Бураго Т.В. Анализ геохимических данных о составе почв: подход с позиций кластерного анализа// 1-я Дальневосточная конференция студентов и аспирантов по математическому моделированию. Владивосток, 25-28 ноября 1997. С. 9.

5. Бураго Т.В., Абакумов А.И., Кику П.Ф. Анализ влияния геохимической среды на здоровье населения Приморского края // Сихотэ-Алинь: сохранение и устойчивое развитие уникальной экосистемы. Международная научно-практическая конференция. Владивосток. 4-8 сентября 1997. С. 81-82.

В работе [3] автору принадлежит разработка алгоритма и проведение кластерного анализа геохимических данных. Личный вклад автора в работу [5] выражается в систематизации геохимического состава почв и получении численных оценок силы статистических связей между величиной концентрации химических элементов и уровнем заболеваемости.

Оглавление автор диссертации — кандидата технических наук Бураго, Татьяна Васильевна

СПИСОК ТАБЛИЦ.

СПИСОК ИЛЛЮСТРАЦИЙ.

ВВЕДЕНИЕ

В.1. Общая характеристика проблемы.

В.2. Постановка задач, решаемых в диссертации.

В.З. Используемые модели и методика исследования.

Глава 1. МЕТОДЫ ОЦЕНКИ МЕДИКО-ЭКОЛОГИЧЕСКОГО СОСТОЯНИЯ ТЕРРИТОРИИ: ПРОБЛЕМЫ И ПОДХОДЫ

1.1. Переменные состояния природной среды и их влияние на здоровье населения [эмпирика геохимической экологии]

1.1.1. Понятие геохимической провинции.

1.1.2. Химический состав почв как показатель экологического здоровья.

1.1.3. Тип геохимической провинции и здоровье населения.

1.2. Интегральные показатели и сводные индексы экологического состояния территории [описательная статистика]

1.2.1. Средние характеристики.

1.2.2. Общая методика построения интегральных оценок.

1.3. Оценки антропогенных нагрузок и рисков, обусловленных состоянием внешней среды [эпидемиологический подход]

1.3.1. Антропогенные нагрузки и оценки качества природной среды.

1.3.2. оценивание риска.

1.4. Статистика пространственно распределенных величин в задачах анализа данных об окружающей среде [модели и методы геостатистики]

1.4.1. Предмет и основные задачи геостатистики.

1.4.2. Основы геостатистических методов.

Глава 2. МАТЕМАТИЧЕСКАЯ ПОСТАНОВКА ЗАДАЧИ ГЕОХИМИЧЕСКОГО РАЙОНИРОВАНИЯ. СИСТЕМАТИЗАЦИЯ И КЛАСТЕРНЫЙ АНАЛИЗ ДАННЫХ

2.1. Предмет исследования и описание данных

2.1.1. Данные по составу почв.

2.1.2. Статистика заболеваемости.

2.2. Математическое содержание задачи районирования

2.2.1. Оптимальная группировка при известном числе кластеров.

2.2.2. Эвристическое определение числа кластеров.

2.2.3. Информационный критерий Акаике.

2.2.4. Критерий Акаике в гауссовской задаче кластеризации.

2.3. Анализ регулярно осредненных данных.

2.3.1. Предварительная обработка и формирование признаков.

2.3.2. Состав признаков и ранжировка кластеров.

2.3.3. Результаты кластеризации.

2.4. Анализ укрупненных данных. Сопоставление и обсуждение результатов кластерного анализа

2.4.1. Состав признаков и ранжировка кластеров.

2.4.2. Результаты кластеризации.

Глава 3. ВЫЯВЛЕНИЕ И ОЦЕНКА ВЗАИМОЗАВИСИМОСТЕЙ ХИМИЧЕСКОГО СОСТАВА ПОЧВ И ЗАБОЛЕВАЕМОСТИ

3.1. Корреляционный анализ

3.1.1. Коэффициенты парной и частной корреляции.

3.1.2. Регрессионные модели. Коэффициент множественной корреляции.

3.1.3. Канонические переменные.

3.2. .Проверка гипотез о наличии корреляции между концентрацией в почве химических элементов и заболеваемостью

3.2.1. Общая характеристика решаемой задачи.

3.2.2. Описание и обоснование методики исследования.

3.2.3. Результаты кластеризации данных и выявление корреляционных связей. Выводы.

Глава 4. МОДЕЛИРОВАНИЕ И КАРТОГРАФИРОВАНИЕ МЕДИКО-ЭКОЛОГИЧЕСКОЙ СТАТИСТИКИ

4.1. Моделирование заболеваемости

4.1.1. Медико-географическая территориальная дифференциация и моделирование.

4.1.2. Моделирование риска заболевания по первичной обращаемости.

4.1.3. Моделирование риска заболевания по общей обращаемости.

4.2. Построение карт риска заболевания.

4.2.1. Методика картирования.

4.2.2. Описание карт.

Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Бураго, Татьяна Васильевна

В.1. ОБЩАЯ ХАРАКТЕРИСТИКА ПРОБЛЕМЫ

Утверждение о том, что экологическая проблематика приобретает все большую актуальность, уже давно не требует специальной аргументации и в последние годы становится самоочевидным. Качество управленческих, экономических и социальных решений все в большей и большей степени зависит от полноты учета экологических аспектов решаемых проблем. Стратегия принятия экологически выверенных решений с необходимостью должна опираться на информацию о трансформациях и взаимовлияниях физических, химических и биологических процессов в окружающей среде, предоставляемую разнообразными теоретическими исследованиями, мониторинговыми наблюдениями и численными экспериментами. Данное обстоятельство объясняет необходимость и возрастающий интерес к постановке все более сложных задач, связанных с анализом пространственных данных по состоянию окружающей среды и ее воздействию на здоровье и благосостояние человека. Характерными особенностями возникающих здесь задач являются: многогранность и сложность изучаемых явлений, приводящие к необходимости обработки больших объемов экспериментальных данных; пространственная и временная распределенность наблюдений; необходимость использования алгоритмов соответствующей сложности, обуславливающая неизбежное появление ресурсоемких вычислительных технологий. Стремительное развитие вычислительной техники является достаточным условием, позволяющим приступить к практическому решению действительно сложных задач обработки информации [Покатилов, 1993; Проблемы., 1999].

Критическое состояние окружающей среды, с одной стороны, и появление высокопроизводительных компьютеров, с другой стороны, объективно явились достаточной предпосылкой активной разработки самостоятельного направления в области прикладной вычислительной математики - геостатистики. Данное направление связано географическими информационными системами (ГИС), интенсивное развитие которых явилось дополнительным научным стимулом к продвижению методов геостатистики [Веселовский и др., 1998].

В рамках геостатистики обрабатываемые данные интерпретируются как значения случайной функции, аргументами которой являются пространственные координаты. Основным содержанием этого направления является проблематика, связанная с выявлением внутренней корреляционной структуры данных и ее использованию для решения задач оценивания, интерполяции и прогноза, основной формой представления результатов - двумерные или трехмерные карты.

Изучение влияния химических элементов или их соединений на окружающую среду главным образом сводится к постановке вопроса о прямых последствиях для здоровья человека. Первостепенное значение приобретают такие вопросы как питание, условия труда и отдыха, качество медицинской помощи и т.п. В то же время, следствием признания всеобщей взаимозависимости процессов, протекающих в окружающей среде, является понимание важности получения и осмысления детальной информации о процессах, происходящих во всех компонентах среды обитания. Возрастающий интерес к комплексному и системному анализу экологической проблематики приводит к повышению значимости исследований, направленных на выявление и количественное оценивание взаимозависимостей явлений, наблюдаемых в биосфере.

Принципиально, существуют четыре методики получения информации для принятия решений о величине и характере воздействия окружающей среды на здоровье человека:

1. сбор первичной информации от лиц, подвергшихся воздействию;

2. отчеты и другая документация, подготовленная медицинским персоналом;

3. статистические исследования, связанные с построением корреляционных моделей, в которых особенности проявления заболеваемости объясняются различиями в условиях проживания;

4. эпидемиологические исследования, включающие, прежде всего, сравнительный анализ состояния здоровья группы лиц, подвергшихся воздействию, на фоне состояния здоровья контрольной группы.

Первые два типа исследований могут быть охарактеризованы как описательная эпидемиология. Они не подразумевают серьезных математических вычислений, в то время как третий и четвертый источники — статистические исследования и аналитическая эпидемиология -так или иначе, связаны с непременным построением математических моделей.

Статистический подход, также, как и описательные методы, не позволяют с полной достоверностью установить причинно-следственные связи между факторами, определяющими воздействие, и заболеваемостью в классической форме «доза — эффект». Тем не менее, они имеют большое значение для выявления и постановки новых задач, для формулировки и дальнейшей проверки новых гипотез.

Настоящая работа представляет собой попытку исследования третьего типа. Ее целью является изучение взаимосвязи между факторами, характеризующими состояние «живой» и «неживой» компонентами окружающей среды. Первая компонента характеризуется на ее высшем организационном уровне - состоянием здоровья населения данной территории, вторая — химическим составом почв. Вопрос о существовании статистических зависимостей между экологическими характеристиками этих двух групп, их выявление и оценка при кажущейся очевидности представляет довольно сложную математическую задачу.

В данной диссертационной работе объектом исследования является территория Приморского края. Исходная информация состоит из двух самостоятельных массивов данных. Один характеризует исследуемый регион с точки зрения химического состава почв, другой -содержит статистику заболеваемости населения.

Первую группу представляет химический состав почв - одна из наиболее показательных характеристик состояния окружающей среды. Данные этой группы характеризуют исследуемую территорию с точки зрения как природного, так и техногенного загрязнения. Очевидно, в первую очередь следует принимать во внимание состояние почв наиболее заселенных территорий.

Экологические оценки, учитывающие концентрации химических элементов в различных средах - и, прежде всего, в почвах, - использовались в ряде работ, например, в монографиях [Ковальский, 1974; Войнар, 1960; Покатилов, 1993] и других работах. Интегрированный количественный показатель, в явном виде использующий концентрации химических элементов в тех или иных средах, в том числе — в почвах, предлагается в [Caer, Ревич, Янин, 1990].

Другая группа признаков, также отражающих качество окружающей среды, выражена статистикой заболеваемости населения, проживающего на данной территории. Состояние здоровья населения, безусловно, является непосредственным и наиболее важным показателем экологической благополучности территории проживания.

Цели данной работы предполагают получение признаков в каждой из указанных групп, демонстрирующих наиболее сильные корреляционные связи. Выявление таких признаков производится методами корреляционного анализа. При этом в качестве новых признаков допускаются всевозможные линейные комбинации исходных характеристик. Найденные признаки и зависимости между ними, моделируемые статистическими методами, используются для расчета и отрисовки соответствующих карт

Обработка данных основывается на классических алгоритмах многомерной статистики. Основу методики составляют алгоритмы теории распознавания образов, стандартные процедуры проверки статистических гипотез, методы анализа главных компонент, корреляционного и регрессионного анализов, теория канонических переменных и методы геостатистики.

Арсенал используемых компьютерных средств представлен, главным образом, специализированным комплексом программ, специально разработанным автором для целей настоящей работы (язык программирования Visual Basic). Программный комплекс содержит инструментарий многомерного статистического анализа, а также средства предмодельного анализа и подготовки данных. Помимо этого, на завершающем этапе работы при отрисовке некоторых карт, использовалась программа Surfer.

Постановка вопроса о зависимости между двумя группами факторов может конкретизироваться различным образом. Вообще говоря, интерпретация зависимости между двумя значимо коррелирующими факторами связано с привлечением хотя бы одного из следующих логических объяснений: один из них благоприятствует другому (условно говоря - является "причиной" или "объяснением");

- существует некий третий фактор, "объясняющий" и первый и второй.

Задача о прямом влиянии загрязнения на здоровье населения допускает классическую для токсикологии постановку, подразумевающую толкование первого типа, когда один из факторов является причиной, а второй - следствием, а сама зависимость выражается формулой «доза — эффект». Однако, химический состав почв, очевидно, не является непосредственной и, тем более, единственной характеристикой, объясняющей состояние здоровья населения. В действительности соотношение между анализируемыми факторами скорее подразумевает объяснение второго типа и характеризуется формулой «эффект I — эффект II».

Выявление и понимание статистической зависимости, присутствующей в медико-экологическом описании, с одной стороны, и физико-химическом, с другой, подразумевает решение следующих задач:

1. Систематизация данных, решение проблемы сопоставимости.

2. Классификация и выявление кластерной структуры данных.

3. Количественная оценка коррелированности (зависимости) между признаками.

4. Выявление главных и второстепенных признаков. Отбор и формирование новых максимально коррелирующих признаков.

5. Географическая привязка значений получаемых признаков и отрисовка карт медико-экологического содержания.

В диссертации рассмотрен указанный круг вопросов. Дальнейшее изложение организовано следующим образом.

Далее во введении сформулированы цели диссертационной работы и указаны основные задачи, требующие в связи с этим своего решения. В заключение дана краткая характеристика математических методов, составляющих основу методики исследования.

Первая глава диссертации, является методическим обзором и характеризует состояние исследуемой проблемы. В ней рассмотрены принципиальные подходы к задаче медико-экологической оценки качества окружающей среды. Выделены и описаны четыре основные направления: биогеохимическое районирование, использование описательной статистики, эпидемиологический подход, модели и методы геостатистики.

Вторая глава содержит анализ математического содержания процедуры районирования. Цель главы - придать этой процедуре точный математический смысл и указать ее особенности. С учетом этих особенностей в главе формулируется математическая задача и предлагается алгоритм для ее решения. Кроме того, вторая глава содержит результаты систематизации данных по Приморскому краю методами кластерного анализа. В ней содержится детальное описание используемых алгоритмов, приведены полученные результаты.

Третья глава содержит результаты применения методов многомерной статистики к анализу множественных связей, присутствующих в данных. Приводятся результаты расчетов коэффициентов парной и частной корреляции, формируются перечни максимально коррелирующих химических элементов и заболеваний, рассматриваются методы проверки статистических гипотез о наличии или отсутствии зависимостей, вычисляются канонические переменные, позволяющие выявить максимальные корреляционные связи между группами признаков.

В завершающей, четвертой, главе формулируется методика построения карт медико-экологического содержания, предлагаемые методы проверяются на реальных данных. В данной главе вводятся понятия рисков заболевания и их оценок, получаемых с помощью медицинской статистики двух типов: первичной и общей обращаемости. Для каждого типа статистики рассмотрена соответствующая математическая модель. Результаты моделирования для различных возрастных групп и различных видов заболеваний представлены медико-экологическими картами

В заключении формулируются выводы и подводятся итоги проведенного исследования.

В.2. ЦЕЛИ И ЗАДАЧИ ДИССЕРТАЦИОННОЙ РАБОТЫ

Основной целью работы является формулировка и обоснование общей методики совокупного анализа геохимической и медико-экологической информации, направленного на выявление, моделирование и картографическое представление структуры и силы корреляционных связей, присутствующих в данных; создание карт рисков заболеваний для различных возрастных групп населения Приморского края.

Компьютерная технология картирования предполагает наличие двух этапов. На первом этапе требуется получить карту в цифровом виде, для чего необходимо уметь оценивать картируемую характеристику в произвольной точке пространства. Результатом первого этапа обычно является цифровая основа карты - массив значений представляющей интерес величины в точках регулярной пространственной решетки.

На втором этапе происходит собственно отрисовка карты, подразумевающая применение того или иного интерполяционного метода, который позволяет восстановить непрерывную характеристику по дискретной цифровой информации и отобразить ее графически.

Сложность сформулированной выше цели, преследуемой в диссертации, обусловлена следующими ее особенностями.

- Очевидно, для построения карты большое значение имеет учет всей доступной информации об исследуемой территории, что особенно важно в условиях высокой степени неопределенности, обусловленной неполнотой информации и высоким удельным весом экспериментальной погрешности, характерных для решаемой задачи. Однако непосредственное использование разнородных данных невозможно из-за несопоставимости базы опробования данных различной природы.

- Статистика заболеваемости не имеет географической привязки, т.е. данным по заболеваемости нельзя сопоставить точку с четко определенными координатами. Отнесение заболеваемости к той или иной административной территории является весьма размытой ссылкой, особенно для протяженных районов.

Координатная привязка медицинской статистки с некоторой долей условности может быть достигнута за счет сопоставления и совместного анализа данных по заболеваемости и другой экологической информации, в частности, результатов опробования почв. Однако возникает вопрос о проработке методики такого анализа.

Второй этап построения карты представляет не только техническую проблему. Уровень детальности, с которой может быть подготовлена цифровая основа карты, в принципе, определяется сетью наиболее детального опробования территории, используемого на первом этапе. В силу дискретности этой сети при отрисовке карты на втором этапе возникают определенные сложности, связанные с выбором методов интерполяции дискретного набора картируемых значений.

Таким образом, сформулированная цель предполагает решение ряда сопутствующих проблем, в число которых входят следующие задачи.

1. Предварительный анализ и подготовка исходных измерений, формальное решение задачи районирования. Круг рассматриваемых вопросов включает регуляризацию, нормировку и обеспечение сопоставимости данных; математическую постановку задачи геохимического районирования и разработку алгоритма ее решения.

В процессе предварительной обработки исходные измерения подготавливаются к основному исследованию. При этом в числе прочих и, прежде всего, должны быть решены проблемы совместимости единиц измерения признаков и сопоставимости измерений (проб).

Специфика отбора проб или проведение иных измерений в экологии делает практически невозможным точечные измерения. Каждое наблюдение подразумевает наличие соответствующей геометрической базы - некоторой области пространства-времени, которой сопоставляется производимое наблюдение. При несовпадении геометрических баз совместно анализируемых наблюдений возникает необходимость предварительного решения проблемы сопоставимости. Решение достигается на пути укрупнения более детальных данных или измельчения менее детальных. Под "укрупнением" здесь понимается вычисление интегральных характеристик (усреднение или свертка) более детализированных измерений в пределах геометрической базы менее детального опробования. Обратный переход является "измельчением" данных. Операция укрупнения, сопровождаемая усреднением, уменьшает влияние случайной составляющей экспериментальной погрешности, но при этом неизбежно сопровождается потерей определенной доли информации. Напротив, измельчение требует новой информации в виде дополнительных измерений.

2. Систематизация и исследование кластерной структуры. Поиск закономерностей присутствующих в исследуемых массивах данных.

Представляется естественным начинать исследование задачи с поиска внутренних закономерностей, присущих исходным данным. Прежде всего, потому, что смысл и содержание решаемой задачи предполагают проведение такого исследования. В случае обнаружения четко проявленной кластерной структуры, можно эффективно сократить размерность решаемой задачи и упростить численные процедуры.

Кроме того, особенности кластерной структуры, обнаруженные в массиве входной информации на первом этапе исследования, помогают организовать дальнейший анализ наиболее рациональным путем.

3. Выявление и количественная оценка статистических зависимостей между используемыми признаками. Определение новых информативных признаков.

Вообще говоря, количественная оценка силы статистической зависимости случайных величин является одной из центральных проблем прикладной статистики. В данном случае выявление экологических показателей, коррелирующих со статистикой заболеваемости, представляет не только самостоятельный интерес. Формирование групп коррелирующих признаков поможет произвести отбор наиболее информативных показателей и формирование новых признаков, позволяющих точнее оценить картируемые характеристики, а также определить статистику заболеваемости как функцию пространственных координат.

Специфика задач, подобных рассматриваемой, заключается в том, что поиск таких зависимостей осложнен высокой размерностью. В этих условиях они не проявляются ясно и отчетливо и, как правило, не могут быть обнаружены прямым непосредственным сравнением двух отдельно взятых признаков. Зависимости носят более комплексный характер и могут быть обнаружены при более гибком и детальном анализе, основанном на предположении о существовании множественных корреляций.

4. Моделирование и вычисление картируемой характеристики с необходимой детализацией, и построение карты.

Содержанием данной задачи является формулировка и апробация методики моделирования и оценивания значений исследуемой характеристики, выбор методов интерполяции и графическое построение карты.

Результаты, полученные при решении задач, указанных в пп. 1-3, помогают сформулировать модель для оценки картируемой характеристики. В качестве объясняемой характеристики выступает статистика заболеваемости, в качестве объясняющих переменных — признаки окружающей среды (в нашем случае - химический состав почв). Разработка модели позволяет получить картируемые характеристики и построить цифровую основу карты. Графическое отображение карты может быть проведена с привлечением ГИС технологий.

В.З. ИСПОЛЬЗУЕМЫЕ МОДЕЛИ И МЕТОДИКА ИССЛЕДОВАНИЯ

Обработка данных, результаты которой приводятся в следующих главах, основывается на классических алгоритмах многомерной статистики. Основу методики составляют алгоритмы кластеризации, стандартные процедуры проверки статистических гипотез, методы анализа главных компонент, теория канонических переменных и методы геостатистики. Кроме того, применение каждого из методов подразумевает наличие соответствующего этапа предварительной обработки данных.

В.3.1. ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ИСХОДНЫХ ДАННЫХ

Процедура получения исходных данных описана в п. 1.1. Прямое применение тех или иных методов обработки непосредственно к исходным данным осложнено рядом обстоятельств.

Измеряемые признаки имеют различные масштабы и диапазоны изменения, что затрудняет их сравнение.

Нерегулярность сета опробования вносит дополнительные сложности в организацию вычислений.

Оба массива информации, и результаты химического анализа, и статистика заболеваемости, представляют собой наблюдения за пространственно распределенными величинами. Однако они относятся к различным объектам исследования. Отдельная геохимическая проба характеризует химический состав почвы в некоторой небольшой по объему пространственной ячейке, в то время как значение статистики заболеваемости характеризует целые административные территории. Совместный анализ столь разнородных данных предполагает проведение дополнительных действий по обработке данных.

Этап предварительной обработки имеет целью устранение отмеченных недостатков и состоит из нескольких или всех (в зависимости от применяемого далее метода) операций следующих типов. а) Ввод, проверка и первичный анализ данных. Исходные измерения просматриваются и проверяются. Устраняются ошибки ввода; проводится логический контроль данных; выявляется физически противоречивые данные. Целесообразным является переход к логарифмам концентраций химических элементов. Формируются исходные файлы. б) Регуляризация (усреднение по регулярной сетке). Усреднение производится в ячейках фиксированного размера. Размер ячейки подбирается эмпирическим путем. Данная операция применяется к геохимическим данным. в) Нормировка. Целесообразно привести все признаки к сопоставимому диапазону значений. В данной диссертации практически опробованы три типа нормировки данных.

На выборочные оценки среднеквадратических отклонений.

На выборочные средние.

На «фоновые» значения, в качестве которых использовались значения предельно допустимых концентраций либо средние содержания (кларки) в почвах. г) Укрупнение данных до районов. Для геохимических данных производилась дальнейшее усреднение с группировкой данных по районам края. При усреднении целесообразно применение весовых коэффициентов пропорциональных численности населения, проживающего в населенных пунктах, расположенных в пределах соответствующей ячейки и относимых к данному району.

Предварительная обработка, очевидно, необходима и оправдана в силу следующих причин.

Усреднение и группировка данных позволяет уменьшить влияние случайной составляющей измерительной погрешности. Усреднение по регулярной сетке является общепринятой операцией. Она значительно упрощает дальнейшую обработку.

Логарифмическое преобразование "нормализует" данные — уменьшает асимметрию и коэффициент эксцесса, приближает распределение используемых данных к нормальному.

Нормировка, по сути дела, является обязательной, поскольку различные признаки имеют разные диапазоны изменения и/или разные размерности.

Укрупнение геохимических данных позволяет привести к виду, сопоставимому с данными по заболеваемости. Переход к единому объекту исследования позволяет проводить совместный анализ данных двух типов.

- Двухэтапная процедура укрупнения позволяет привлечь демографические данные. Учет плотности населения в каждой ячейке, производимый при взвешенном усреднении данных, позволяет оценить совместное действие двух факторов - геохимического и демографического.

Регуляризация и нормировка безусловно необходимы. Обе операции применяются в третьей главе для проведения кластерного анализа. Дополнительно к ним вводится процедура укрупнения геохимических данных. Данная операция определяется в п. 2.3 и используется в третьей и четвертой главах.

В.3.2. МЕТОДЫ ОПИСАНИЯ И АНАЛИЗА КЛАСТЕРНОЙ СТРУКТУРЫ ДАННЫХ

Кластерная структура характеризуется большим числом разнообразных факторов — числом, взаимным расположением, размером, формой границы кластеров и т.п. Выявление кластерной структуры в рамках настоящей диссертации производится в рамках статистической постановки задачи автоматической классификации [Фукунага, 1979]. Дополнительной особенностью является использование теоретико-информационного критерия оптимальности критерия Акаике [Ака&е, 1973]. По существу данный критерий представляет собой выборочную оценку информационного критерия Кульбака-Лейблера.

1. Кластерный анализ

Ядром кластеризирующей процедуры является простой и эффективный алгоритм автоматической классификации, широко известный как метод К средних [Дуда, Харт, 1975] или правило ближайшего среднего [Фукунага, 1979].

Входной информацией для этого алгоритма является набор векторов признаков, подлежащих классификации, а также число кластеров (К), на которое необходимо произвести разбиение данного набора. Алгоритм состоит из следующих шагов.

1. Выбрать тем или иным образом начальную классификацию и определить средние векторы («центры тяжести») в каждом кластере.

2. Переклассифицировать каждый вектор, отнеся его в ближайший кластер. (Расстояние до кластера определяется как расстояние до соответствующего среднего вектора).

3. Если состав каких-либо кластеров изменился, пересчитать средние векторы и вернуться к шагу 2.

Особенностью данного алгоритма, затрудняющей его прямое использование, является необходимость априорного определения числа кластеров К. В задачах, решаемых в данной работе, число К необходимо было адаптивно подстраивать в процессе работы алгоритма кластеризации. Алгоритмическое оценивание числа кластеров утяжеляет всю процедуру и делает ее более громоздкой.

2. Теоретико-информационный критерий

В п. 2.2 подробно описан и использован подход к решению проблемы определения оптимального числа кластеров, основанный на использовании информационного критерия Акаике.[Bozdogan, 1984; Bozdogan, 1987; Carman., Merickel, 1990]. В окончательном виде алгоритм представляет собой гибрид правила ближайшего среднего и итерационной процедуры, с автоматической подстройкой параметров (основным параметром является число кластеров).

В третьей главе приведены результаты применения этого алгоритма, как к геохимическим, так и к медицинским признакам в различных вариациях (по-разному определялась метрика в пространстве признаков, различным образом формировались признаки).

3. Компонентный анализ

Одной из классических методик экономного описания данных является метод главных компонент. Принципиально метод является развитием подхода, связанного с поиском меньшего числа таких новых признаков, являющихся линейными комбинациями старых, использование которых гарантировало бы наиболее полное сохранение информации, присутствующей в исходных данных. Новые признаки, называемые главными компонентами, вычисляются на основе решения задачи на собственные значения выборочной корреляционной матрицы.

Метод главных компонент используется в работе как попытка снизить размерность задачи при классификации данных. Необходимость снижения размерности векторов признаков диктуется, главным образом, малым количеством административных территорий, по которым собрана статистика заболеваемости, с одной стороны, и относительно большим числом признаков, измеряемых на каждой территории, с другой стороны.

1.3.3. МЕТОДЫ ВЫЯВЛЕНИЯ И КОЛИЧЕСТВЕННОЙ ОЦЕНКИ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИ

Вопрос о существовании статистической зависимости между случайными величинами, ее выявление и оценка по эмпирической информации при кажущейся очевидности представляет довольно сложную математическую задачу. Существует довольно разнообразный арсенал методов, направленных на решение указанной задачи. В диссертации рассмотрены следующие подходы.

1. Корреляционный метод.

Метод заключается, прежде всего, в вычислении и анализе оценок коэффициентов парной и частной корреляции. Вычислительная процедура может сопровождаться также поиском функциональных зависимостей между случайными величинами, в частности, построением линейной регрессионной модели и вычислением коэффициента множественной корреляции. Преимуществами данного подхода являются вычислительная простота и наличие статистических критериев, позволяющих судить о значимости получаемой оценки или построить соответствующие доверительные интервалы. К недостатком корреляционного метода, ограничивающих его применимость, прежде всего следует отнести предположение о линейности функциональной зависимости между признаками. Другим ограничительным условием (не всегда явно формулируемым) является условие нормальности — распределение наблюдаемых величин предполагается гауссовским (либо достаточно близким к нему).

В п. 3.1 реализация данного подхода сводится к расчету выборочных оценок парной, частной и множественной корреляции, применению статистических критериев и вычислению соответствующих доверительных интервалов, помогающих оценить значимость получаемых коэффициентов. Собственно построение линейной модели множественной регрессии не производится, поскольку принципиально новой информации дополнительно к рассчитанным корреляционным коэффициентам данная модель, по существу, не содержит. Моделирование зависимости между наблюдаемыми величинами будет произведено в п. 4.1 несколько иными средствами.

2. Проверка статистических гипотез.

Постановка вопроса о существовании зависимости как задачи проверки статистической гипотезы исследуется в третьей главе (п. 3.2). Специфика многомерной задачи проявляется, в частности, в том, что применение стандартных методов, например, критерия хи-квадрат, становится затруднительным из-за небольшого, по сравнению с числом измеряемых признаков, числа наблюдений. Как следствие возникает проблема с выбором разбиения пространства признаков на ячейки, необходимого для вычисления статистики критерия.

Решение данной проблемы достигается в п, 2.2 методами кластерного анализа. Разбиения, получаемые на основе описанного в п. 2.2 алгоритма, используются затем в третьей главе для построения критерия хи-квадрат.

Данная методика, примененная ко всем типам медицинских показателей, позволяет сформировать перечень статистически значимых химических элементов для каждого типа заболеваний в каждой из возрастных групп.

3. Канонические корреляции.

Вычисление канонических корреляций, как известно, является обобщением задачи расчета корреляционных коэффициентов между парой случайных величин или коэффициента множественной корреляции между случайной величиной и случайным вектором. Типовая постановка задачи канонического корреляционного анализа подразумевает наличие двух наборов измеряемых признаков. Основной целью анализа является формирование пар новых признаков максимально коррелирующих между собой (внутри каждой пары), но некоррелированных с признаками, входящими в другие пары. Первая пара признаков представляет, таким образом, две линейные комбинации, определенных каждая на своей группе исходных признаков и демонстрирующих максимальную статистическую связь. Вторая пара отыскивается, исходя из этого же требования, но при дополнительном условии некоррелированности с признаками, составляющими первую пару, и т.д.

Определение канонических переменных и результаты канонического корреляционного анализа приведены в п. 3.1.

1.3.4. МЕТОДЫ КАРТИРОВАНИЯ ПРОСТРАНСТВЕННО РАСПРЕДЕЛЕННОЙ СИСТЕМЫ СЛУЧАЙНЫХ ВЕЛИЧИН

1. Методы и модели регрессионного анализа.

Собственно картирование — отрисовка карты, предполагает предварительное решение задачи оценивания картируемой функции в произвольной точке по измерениям значений этой же функции в других точках. В данном случае, при создании медико-экологических карт, необходимо иметь алгоритм, оценивающий медицинские показатели (заболеваемость или непосредственно связанные с ней характеристики) по описанию данной территории, составленному на основе группы физико-химических признаков. Ситуация типична для постановки задачи регрессионного анализа.

Существует большое количество разнообразных методов и приемов моделирования, решающих указанную задачу. Наиболее разработаны и удобны методы линейного моделирования. Однако по своей сути заболеваемость является качественной характеристикой и относится к бинарным (дихотомическим) показателям. Для моделирования таких величин линейные модели мало пригодны. В классе методов, ориентированных на модели бинарного выбора, наиболее распространены так называемые логат - или пробит-модели. В п. 4.1 логит-модель применяется для моделирования риска (вероятности) заболеваемости по статистике первичной обращаемости. Моделирование рисков по общей (суммарной) обращаемости также возможно. В н. 4.1. для этих целей предлагается регрессионная пуассоновская модель.

23

Результаты моделирования рисков для различных заболеваний и различных возрастных групп отображены на картах.

2. ГИС-технология

Методы графического отображения пространственно распределенных величин составляют главное содержание географических информационных систем (ГИС). Структурно ГИС-технология состоит из трех компонент: базы данных, отображаемых на карте; методики картирования и графического представления данных; средств поиска и отображения информации об объектах, изображенных на карте. Наличие двух последних компонент является специфической особенностью географических информационных систем.

Характерная черта ГИС - богатый набор методов статистической обработки, главной особенностью которых является интерпретация наблюдаемых признаков как системы пространственно распределенных случайных величин. Как наиболее характерные для ГИС-технологии среди этих методов, по-видимому, выделяются процедуры крикинга и кокрикинга.

Процедура крикинга используется в п. 4.2 для построения медико-экологических карт по результатам моделирования.

Заключение диссертация на тему "Совокупный медико-экологический анализ результатов геохимического опробования почв и статистики заболеваемости"

3.2.3. РЕЗУЛЬТАТЫ КЛАСТЕРИЗАЦИИ ДАННЫХ И ВЫЯВЛЕНИЕ КОРРЕЛЯЦИОННЫХ СВЯЗЕЙ. ВЫВОДЫ

Данные по химическому составу почв и показатели заболеваемости для всех возрастных групп были подвергнуты обработке по предложенной методике. Были испробованы различные сочетания химических элементов и показателей заболеваемости. Результаты представлены ниже в графическом и табличном виде.

В качестве примера на рис. 3.1 демонстрируются некоторые из карт, отображающих результаты классификации для отдельных показателей детской заболеваемости и содержания химических элементов в почве. Различным кластерам на этих картах соответствуют различные оттенки серого цвета. В пределах одной карты районы, отнесенные в разные кластеры, закрашены таким образом, что кластерам с более высокими значениями изображаемого признака соответствует более интенсивная закраска. При этом на разных картах кластеры, имеющие одинаковые цвета, не обязательно соответствуют одному и тому же уровню интенсивности.

Представлены следующие виды заболеваний: системы кровообращения, нервной системы, дыхательных органов и органов пищеварения. Эти виды заболеваний показали более сильную степень связи с концентрациями тех или иных химических элементов. Кроме того, на рис. 3.1 даны также результаты кластеризации геохимических данных - представлены карты средневзвешенных концентраций свинца, стронция, хрома, кобальта.

Вторым этапом вычислительной процедуры является применение критерия хи-квадрат Пирсона для проверки гипотезы о независимости разнесения территорий по кластерам. Таблица 3.8 содержит результаты этого этапа. В ней приведены значения реально достигаемых уровней значимости для различных парных сочетаний заболеваний и химических элементов.

ЗАКЛЮЧЕНИЕ

Основные положения диссертации, определяющие научную новизну и выносимые на защиту, заключаются в следующем.

Предложен формальный математический подход к проведению геохимического районирования территории. Задача районирования исследована с точки зрения ее формального содержания. Диссертация содержит математическую постановку задачи и формулировку алгоритма для ее решения. Предложенный алгоритм кластеризации, учитывает особенности задачи. Проведено его обоснование в смысле проверки выполнимости необходимых условий оптимальности.

Продемонстрирована работоспособность предложенного алгоритма на геохимических данных, характеризующих почвы Приморского края. Данные геохимического опробования почв центрального и южного Приморья подвергнуты кластерному анализу. Представлены карты почвенных кластеров. Выявлены основные типы (кластеры) почв по элементному составу, представлены их структурные и географические характеристики. Результаты представлены картограммами почвенных кластеров.

На примере Приморского края выявлены и количественно оценены статистические зависимости между химическим составом почвы, с одной стороны, и интенсивностью и структурой заболеваемости населения, с другой стороны. Сформированы типовые комплексы экологически значимых элементов, выявлены наиболее чувствительные к экологическим условиям типы заболеваний.

Проведено моделирование заболеваемости в терминах рисков заболевания. Задача моделирования рассмотрена применительно к двум типам исходных данных. В одном случае построение модели производится на основе статистики первичной обращаемости населения в поликлиники края. В другой постановке задачи исходной информацией является статистика общей обращаемости.

Сформулирована методика картирования медико-экологических показателей, которая позволяет решить проблему сопоставимости разнородных данных, и дает возможность установить координатную привязку медицинской статистики на основании совместного анализа разнородных данных, в частности, заболеваемости и результатов опробования почв. Построены карты рисков для различных заболеваний и возрастных групп. Подобному анализу медицинская статистика по Приморскому краю подвергается впервые.

Рис. 5.1. Блок-схема процедуры совогупного медико-экологического анализа.

186

Предложенные в главах 2-4 математические методы составляют единую процедуру медико-экологического анализа. Процедура состоит из пяти основных этапов (рис. 5.1); подготовка данных, кластерный анализ, корреляционный анализ, моделирование рисков заболеваемости, картирование.

Сформулированные и опробованные в данной диссертации алгоритмы помогают систематизировать экологическую информацию, дают возможность провести типизацию почв по физико-химическим признакам и облегчают проведение районирования территории.

Привлечение методов математической статистики к медико-экологическому анализу позволяет точнее и полнее определить условия, способствующие возникновению и распространению экологически зависимых заболеваний, что, в свою очередь, может оказаться полезным при планировании оздоровительных мероприятий и программ или принятии иных экономико-экологических решений.

Методика, предложенная в диссертации, внедрена в ООО МИФ "Экоцентр" (Владивосток) в рамках выполнения работ по многоцелевому геохимическому картированию на Приморском полигоне (1997 - 1998). Разработанное программное обеспечение использовалось в связи с проведением геохимического районирования и составлением эколого-геохимической карты Приморского края. Работы финансировались министерством природных ресурсов РФ.

Результаты, полученные в диссертации, докладывались на научных семинарах в Институте автоматики и процессов управления ДВО РАН, кафедры информационных технологий Дальневосточной государственной академии экономики и управления, Институте окружающей среды Дальневосточного госуниверситета, 1-й Дальневосточной конференции аспирантов и студентов в Дальневосточном университете (Владивосток, 1997) и международных конференциях: "Сихотэ-Алинь: сохранение и устойчивое развитие уникальной экосистемы" (Владивосток, 1997) и "Рыбохозяйственные исследования мирового океана" (Владивосток, 1999).

Библиография Бураго, Татьяна Васильевна, диссертация по теме Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)

1. Авцын А.П., А.А.Жаворонков, М.А.Риш, ДС.Строчкова. Микроэлементозы человека. М.: Медицина, 1991. - 496с.

2. Айвазян С.А., И.С.Енюков, Л.Д.Мешалкин. Прикладная статистика: Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. - 472с.

3. Айвазян С.А., И.С.Енюков, Л.Д.Мешалкин. Прикладная статистика: Исследование зависимостей. М.: Финансы и статистика, 1985. - 487с.

4. Айвазян С.А., В.М.Бухштабер, И.С.Енюков, ДДМешалкин. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1985. — 607с.

5. Айвазян С.А., В.С.Мхитарян. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 1022 с.

6. Андерсон Т. Введение в многомерный статистический анализ. — М.: ГИФМЛ, 1963. — 500с.

7. Беус А.А., Л.И.Грабовская, Н.В.Тихонова. Геохимия окружающей среды. М.: Недра, 1976. - 248 с.

8. Веселовский А.В., В.Б.Мещерякова. Применение географической информационной системы при решении вопросов радиационной безопасности. Геоэкол. Инж. Геол. Гидрогеол. Геокриол., 1998, №6,122 -131.

9. Виноградов А.П. Биогеохимические провинции и эндемии. — Докл. АН СССР, т. 18, №4-5, 1938.

10. Виноградов А.П. О генезисе биогеохимических провинций. Труды биогеохим. Лаб. АН СССР, т.11,М.-Л., 1960.

11. Войнар А.И. Биологическая роль микроэлементов в организме животных и человека. — М.: Высшая школа, 1960. 544 с.

12. Гандин. Л.С., Р.Л.Каган. Статистические методы интерполяции метеорологических данных. Л.: Гидрометеоиздат, 1976. 359 с.

13. ГН 2.1.7.020-94. Госэпиднадзор России. М., 1995.

14. Гост 17.4.1.02-83. Охрана природы. Почвы. Классификация химического вещества для контроля загрязнения. Установлено 01 января 1985.

15. Добровольский Г.В., Е.Д.Никитин Экологические функции почвы. М.: Изд-во МГУ, 1986. - 136с.

16. Дубов Р.И., М.С.Тонкопий, В.З.Фурсов, Применение математических методов при оценке точности и изображении результатов геохимических съемок. Алма-Ата: Казгеофизтрест, 1968.

17. Дубров А.М., В.С.Мхитарян, Л.И.Трошин. Многомерные статистические методы. М.: Финансы и статистика, 1998. - 352с.

18. Дуда П., Р.Харт. Распознавание образов и анализ сцен. М.: Мир, 1976. - 512с.

19. Здоровье населения Приморского Края Владивосток: ИМКВЛ СО РАМН, 1997. - 256с.

20. Зимин С.С., И.В.Добрынченко. О значении микроэлементов для здоровья человека. Владивосток: Изд-во Дальневосточного ун-та, 1996. 20 с.

21. Ибрагимов М.Х.-Г,, В.В.Куценко, В.И.Рачков Научные основы методологии количественного анализа экологической опасности при техногенном воздействии на окружающую среду. Экологаческая экспертиза. Обзорн. информ. М.:ВИНИТИ, 1999, №5, 133.

22. Иванов В.В. Экологическая геохимия элементов. Справочник: в 6кн./1Тод ред. Э.К.Буренкова М.: Недра, 1994.

23. Израэль Ю.А. Экология и контроль состояния природной среды. — М.: Гидрометеоиздат, 1984. 560с.

24. Касатиков В.А., С.М.Касатикова, С.В.Сабуров. Накопление тяжелых металлов в почве при внесении осадков городских сточных вод. Агрохимия, 2,1990, с. 92 97.

25. Кендалл М.Дж., А.Стьюарт. Статистические выводы и связи. — М.: Наука, 1973. — 900с.

26. Кендалл М.Дж., А.Стьюарт. Многомерный статистический анализ и временные ряды. М.: Наука, 1976. - 736с.

27. Килипко В.А. Геоинформационная система многоцелевого геохимического картирования (структура, создание, функционирование). Автореферат дисс. на соиск. уч. ст. кх.-м. н., Москва, 1999.

28. Ковальский В.В. Геохимическая экология. М.: Наука, 1974.

29. Ковальский В.В., Андрианова Г.А. Микроэлементы в почвах СССР. М.:Наука, 1970. -178с.

30. Криночкин ДА. Комплексная ресурсно-экологическая оценка территорий на основе многоцелевого геохимического картирования масштаба 1:1000000 (на примере южной части Алтайского края). Автореферат дисс. на соиск. уч. ст. к.г.-м. н., Москва, 1999.

31. Критерии оценки экологической обстановки территорий для выявления зон чрезвычайной экологической ситуации и зон экологического бедствия. Экология России - 1993. Справочник. - М.: Федеральный экологический центр России, 1994.

32. Матерон Ж. Основы прикладной геостатистики. М.: Мир, 1968. - 407 с.

33. Меренюк Г.В. Загрязнение окружающей среды и здоровье населения. — Кишинев: Штиинца, 1984. 144 с.

34. Миграция загрязняющих веществ в почвах и сопредельных средах//Труды II Всесоюзного совещания^ Обнинск, ноябрь, 1978. А.: Гидрометеоиздат, 1980

35. Окружатрщая среда и здоровье, человека М.: Наука, 1979. - 214 с.

36. Покатилов Ю.Г. Биогеохимия микроэлементов и эндемические болезни в Баргузинской котловине (Забайкалье). — Новосибирск: Наука, 1983. — 164 с.

37. Покатилов Ю.Г. Биогеохимия биосферы и медико-биологические проблемы (экологические проблемы химии биосферы). Новосибирск: Наука, 1993. - 168 с.

38. Проблемы окружающей среды и природных ресурсов. Обзорн. информ., 1999, №11,1-136.

39. Проблемы загрязнения окружающей среды и токсикологии/Под ред. Дж.Уэр М.: Мир, 1993.

40. Райх Е.Л. Дискуссионные вопросы в медико-географическом районировании// Современные проблемы природного районирования. М., 1975.

41. Сает Ю.Е., Б.А.Ревич, ЕПАшн. Геохимия окружающей среды. М.: Недра, 1990.

42. САННПиН 42-128-44-38-87, М., 1988.

43. Справочник по прикладной статистике. Б 2-х т./ Под ред. Э.Ллойда и У.Ледермана. М.: Финансы и статистика, 1989. Т. 1 - 510с., т. 2. - 526с.

44. Справочник предельно допустимых концентраций вредных веществ в пищевых продуктах и среде обитания. М.: Госкомсанэпиднадзор, 1993.

45. Ткачев Ю.А., Я.Э.Юдович. Статистическая обработка геохимических данных. Методы и проблемы. Л.: Наука, 1975. 233с.

46. Токсикогенетические и экологические аспекты загрязнения окружающей среды//Сб. науч. тр. Иркутск: Изд-во Иркутского университета, 1982. - 166 с.

47. Ту Дж., Р.Гонсалес. Принципы распознавания образов. М.: Мир, 1978.

48. Фукунага К. Введение в статистическую теорию распознавания образов. — М.: Наука, 1979. 368с.

49. Цемко В.П., И.К.Паламарчук, Г.М.Залуцкая. Процессы рассеяния микроэлементов в почвах. Микроэлементы в окружающей среде. — Киев: Наук. Думка, 1980. — 31 34.

50. Щварц С.С. Теоретические основы глобального экологического прогнозирования. В кн.: Всесторонний анализ окружающей природной среды. Труды II Советско-американского симпозиума. Д.: Гидрометеоиздат, 1976,181-191.

51. Экология и безопасность: Справочник. М.: ВНИИПИ, 1991.

52. Энхольм Э. Окружающая среда и здоровье человека М.: Прогресс, 1980 230 с.

53. Agresti A. Categorical data analysis. New York John Wiley, 1990. - 558p.

54. Akaike H. Information theory and an extension of the maximum likelihood principle. Proc. 2-nd Int. Symp. Information Theory, B.N.Petrov and F.Caski, eds., Akademial Klado, Budapest, 267 281, 1973

55. Akaike H.A. A new look at the statistical model identification. IEEE trans. Autom. Control, AC-19, 716 723,1974.

56. Bozdogan H. Multi-sample cluster analysis as an alternative to multiple comparison procedures. Bull. Inf. Cybernetics, 22, №1/2,95-130,1986.

57. Bozdogan H. Model selection and Aiaike's information criterion (AIC): the general theory and analytical extensions. Psychometrika, 52, №3, 345-370,1987.

58. Bozdogan H., S.L.Sclove Multi-sample cluster analysis using Akaike's information criterion. Ann. Ints. Statist. Math. 36 (1984), part B, 163-180.

59. Carman. C.S., M.B.Merickel. Supervising ISODATA with an information theoretic stopping rule. Pattern Recognition, 23, №1/2,185-197,1990.

60. Cressie N. Statistics for spatial data. New-York: John Wiley & Sons, 1991. 900p.

61. Daniel W.W. Biostatistics: a foundation for analysis in the health sciences. New York, John Wiley & Sons, 1987.

62. Goovaerts P. Geostatistics for natural resources evaluation. Oxford: Oxford University Press, 1997. 483p.

63. Hotelling H. Relations between two sets of variates, Biometrika, 28,321,1936.1.aaks E.H., R.M.Shrivastava. An introduction to applied geostatistics. Oxford: Oxford University Press,1989. 560p.

64. Jennrich R.I. An introduction to computational statistics. Regression analysis. Inglwood Cliffs: Prentice Hall, 1995. - 364p.

65. Matheron G. Principles of geostatistics. Economic Geology, v.58,1963,1246-66.

66. Methods to Assess the Effects of Chemicals on Ecosystems/ Ed. RA.Lienthurst, P.Bourdeau, R.G.Tardiff. - John Wiley & Sons, 1995.

67. Milligan G.W., M.C.Cooper. An examination of procedures for determining the number of clusters in a data set. Psychometrika, 50, №2,159-179,1985.

68. Sakamoto Y., Mishiguro, G.Katigawa. Akaike information criterion statistics. Tokyo: KTK Scientific Publishers, 1986 -290.

69. Shneider B. What is risk and how can it be assessed? Environmental Technology, 1990, vol. 11, pp. 585 -595.1. Акт

70. О внедрении научных результатов диссертации Т.В. Бураго «Совокупный медико-экологический анализ результатов геохимического опробования почв и статистики заболеваемости»