автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Исследование специальных моделей кривых дожития в условиях неполных данных

кандидата физико-математических наук
Коробейников, Антон Иванович
город
Санкт-Петербург
год
2010
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование специальных моделей кривых дожития в условиях неполных данных»

Автореферат диссертации по теме "Исследование специальных моделей кривых дожития в условиях неполных данных"

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

КОРОБЕЙНИКОВ Антон Иванович

Исследование специальных моделей кривых дожития в условиях неполных данных

05.13.18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

2 5 "оя

Санкт-Петербург - 2010

004613605

Работа выполнена на кафедре статистического моделирования матсматико-мехаиического факультета Санкт-Петербургского государственного университета.

Научный руководитель: доктор физико-математических наук,

профессор ЕРМАКОВ Сергей Михайлович

Официальные оппоненты: доктор физико-математических наук,

профессор НЕВЗОРОВ Валерий Борисович (Санкт-Петербургский государственный университет)

кандидат физико-математических наук ГОРМИН Анатолий Андреевич, инженер (Mirantis, Inc.)

Ведущая организация: Санкт-Петербургский государственный элек-

тротехнический университет «ЛЭТИ»

Защита состоится «.

(г _ 2010 г. в XL

часов на заседании

совета Д 212.232.51 по защите докторских и кандидатских диссертаций при Санкт-Петербургском государственном университете, расположенном по адресу: 198504, Санкт-Петербург, Петергоф, Университетский пр., 28,

С диссертацией можно ознакомиться в Научной библиотеке им. М. Горького Санкт-Петербургского государственного университета, расположенной по адресу: 199034, Санкт-Петербург, Университетская наб., 7/9. ^^^

Автореферат разослан « 2.2 »_I 0-2010 г.

Ученый секретарь диссертационного совета,

доктор физ.-мат. наук, проф.

&V

Даугавет И.К.

Общая характеристика работы

Актуальность темы. Анализ данных типа времени жизни является одной из активно развивающихся областей современной прикладной статистики. Данные такого вида возникают не только в медико-биологических задачах, но и во многих других областях, где требуется изучение «времени до наступления некоторого события», например, при анализе демографических, экономических, финансовых, эпидемиологических показателей, в теории надежности и социологии.

Несмотря на бурное развитие в последние годы непараметрических и семипараметрических методов, специальные (параметрические) модели кривых дожития по-прежнему являются основным инструментом для исследования данных типа времени жизни. Этот факт обусловлен, в первую очередь, высокой информативностью параметрических моделей и возможностью их интерпретации экспериментаторами.

В силу ряда объективных причин для анализа данных типа времени жизни требуются специальные статистические методы. Одной из таких причин, отделяющих эту область от других областей прикладной статистики, является наличие так называемого цензурирования: в процессе сбора данных вместо интересуемой случайной величины наблюдается другая, менее информативная. Таким образом, при анализе данных типа времени жизни имеет место проблема неполной информации о выборке. Механизмы цензурирования могут быть достаточно сложными и, вследствие этого, требовать отдельного подхода. Стандартные методы анализа данных, как правило, просто не могут быть адекватно применены к случаю цензурирования.

Задача оценивания параметров и выбора специальной (параметрической) модели кривых дожития рассматривалась в работах многих авторов [2, 5, 8, 13]. Как правило, большинство полученных результатов предполагают на-

личие так называемого случайного правого цензурирования. Однако, такая модель не очень часто встречается при анализе реальных данных [4], и может рассматриваться только как достаточно простая аппроксимация; вопрос адекватности полученных в таком предположении результатов остается открытым. Вместо этой модели в приложениях более подходящей представляется модель интервального цензурирования [11], специальным случаем которой является вышеупомянутое случайное правое цензурирование.

В связи со сложностью этой модели и ее специальной структурой необходимо развитие специальных методов для оценивания параметров и выбора адекватных параметрических моделей (теория для случайного правого цензурирования не применима здесь по крайней мере без серьезной доработки).

Настоящая работа призвана в известной степени заполнить обозначенный пробел и посвящена построению оценок параметров специальных моделей кривых дожития, исследованию асимптотических свойств полученных оценок, а также развитию методологии сравнения различных параметрических моделей в условиях интервального цензурирования.

Целью работы являются:

1. построение оценок параметров для специальных моделей кривых дожития в условиях интервального цензурирования и изучение асимптотических свойств полученных оценок;

2. разработка методологии выбора адекватной параметрической модели посредством модификации информационных критериев типа Акайке на случай интервального цензурирования;

3. разработка численных методов и систем программ, позволяющих производить оценивание параметров в указанных моделях.

Общая методика работы. В работе применяются методы статистического моделирования, теории вероятностей и математической статистики (оценки максимального правдоподобия, законы больших чисел и центральные предельные теоремы, теория эмпирических процессов), функционального анализа (теория Фредгольмовых операторов), линейной алгебры. Программирование осуществлялось в статистическом пакете И..

Научная новизна. В данной работе впервые получены достаточные условия строгой состоятельности оценок типа максимального правдоподобия в условиях интервального цензурирования и исследованы их асимптотические свойства. Помимо этого, были предложены робастные оценки параметров в случае, когда предполагаемая параметрическая модель не точна. Показано, что эти оценки являются оптимальными с точки зрения расстояния Кульбака-Лейблсра между предполагаемой параметрической моделью и истинным распределением данных. При помощи построенных оценок информационные критерии типа Акайке выбора адекватной параметрической модели впервые были распространены на случай интервального цензурирования.

Теоретическая и практическая ценность. В работе математически обоснована применимость (строгая состоятельность, асимптотическое распределение) двух классов оценок к анализу данных в случае интервального цензурирования. Созданы программы, в которых эффективно реализованы разработанные методы оценивания параметров. Методология информационных критериев может быть успешно использована экспериментаторами для подбора адекватной параметрической модели данных.

Апробация работы. Основные результаты диссертации докладывались и обсуждались на семинаре кафедры статистического моделирования мате-матико-механического факультета СПбГУ, а также на конференциях:

• II Всероссийская научно-практическая конференция с международным участием «Высокотехнологичные методы диагностики и лечения заболеваний сердца, крови и эндокринных органов», Федеральный центр сердца им. В.А. Алмазова, г. Санкт-Петербург, 20 - 22 Мая 2008 г.

• 18th Population Approach Group in the Europe (PAGE) Meeting, Saint Petersburg, 23 - 26 June, 2009.

• 6th Saint Petersburg Workshop on Simulation, Saint Petersburg, June 28 -July 4, 2009.

Публикации. По теме диссертации опубликованы работы [AI, А2, A3, A4]. Статья [AI] опубликована в журнале, входящем в перечень ВАК по специальности 05.13.18. Статья [А2] написана в соавторстве, в ней автору принадлежит доказательство теоремы об асимптотических свойствах оценок параметров специальной модели кривой дожития.

Структура и объем диссертации. Диссертация состоит из введения, 5 глав, заключения, списка литературы и 2 глав приложения. Библиография содержит 87 наименований. Общий объем работы 144 страницы.

Содержание работы

Через X обозначена случайная величина с неотрицательным носителем. В приложениях реализациям случайных величин подобного рода часто придают смысл времени до наступления какого-либо события. Само событие обычно называется отказом, а случайная величина X — временем отказа. Мы предполагаем, что распределение X описывается параметрической моделью с функцией распределения где параметр $ принадлежит некоторому метрическому пространству 0.

На практике анализ данных типа «времени жизни» сопряжен с определенным трудностями. Как правило, значение случайной величины X известно лишь с точностью до некоторого интервала, которому она принадлежит. Например, пусть X — время до возникновения рецидива некоторого заболевания. Ввиду невозможности на практике осуществить непрерывный контроль состояния пациента, определить факт возникновения рецидива можно только лишь в определенные моменты наблюдения (тем самым момент возникновения рецидива наблюдается с точностью до промежутка между отдельным наблюдениями за состоянием).

Введем модель цензурирования, задающую наблюдаемую величину У. Пусть К — положительная целочисленная случайная величина. Через Т обозначен набор случайных величин {Т^, 3 = 0... к + 1,к = 1..., +сю}, таких, что 0 = Тк,о < Тк,1 < Тк,2 < ■ • • < Тк,к < Тк,к+1 = +оо. Отметим, что вообще говоря, случайные величины X и (К,Т) могут быть зависимыми. Определим случайную величину У = (Д/<-, Тк, К), где — к-я строка треугольного массива Т, = (Лм(Х), • • ■. Дкл+гРО) и (*) = ^(п^п^Х). Таким образом, У описывает разбиение вещественной полуоси [0, +оо) на К 4- 1 (случайный) подинтервал и определяет интервал, содержащий X.

Описанная модель цензурирования известна как модель интервального цензурирования смешанного типа [10] и характерна для реальных задачах.

Рассмотрим модель повторных наблюдений: пусть Х\,... ,Хп — набор независимых одинаково распределенных случайных величин с одинаковой функцией распределения Наблюдаемые цензурированные случайные величины обозначены через У^,..., Уп с У{ = К^). В диссертации рассматривается задача построения оценок параметра 1? по выборке Ух,..., Уп в случае неизвестного механизма цензурирования (К,Т).

Содержание по главам

Во введении обоснована актуальность диссертационной работы, сформулирована цель и аргументирована научная новизна исследований, показана практическая значимость полученных результатов, представлены выносимые на защиту научные положения и делается обзор существующих результатов.

В первой главе изучаются свойства оценок типа максимального правдоподобия. В первом параграфе вводится модель интервального цензурирования смешанного типа. Во втором параграфе выполняется построение оценок типа максимального правдоподобия. Через <3 обозначено распределение с.в. У и через (¿л — эмпирическое распределение с.в. Уь ..., Уп. (Частная) логарифмическая функцию правдоподобия для 9 вводится как: А-М + 1

'тЛг, (1)

= £ Е ^ 1ое Итй) -

п

1=1 j=l

где функция тпц определяется следующим образом:

£+1

тв (¿к, Iк■, = Е ^- ^(¿М-О!-

1=1

Отметим, что когда X и (К,Т) независимы, имеет место т.н. пешформативное цензурировшше. В таком случае то является логарифмом плотности величины У относительно совместного распределения (К, Тк) и функция 1п в (1) является логарифмом полной функции правдоподобия для параметра в. Всюду далее мы будем опускать определение «частная» для функции 1п.

Оценкой максимального правдоподобия вп назовем такое значение параметра в, что

(2)

В некоторых случаях супремум в (2) может не достигаться, но позволяет

Щ а-Чп = вир вев

сколь угодно точное приближение последовательностью оценок вп. В связи с

этим расширим класс оценок максимального правдоподобия, включив такие последовательности вп, для которых выполняется

sup

вев

то dQn ■

р

тг dQn —»0, п —* оо.

В литературе оценки такого характера носят название приближенных оценок максимального правдоподобия [7]. Свойства именно таких оценок исследуются в первой главе диссертации.

В третьем параграфе исследуется состоятельность оценок 9п. Введем множество 0о точек максимума предельной функции правдоподобия:

0п €©:

modQ}.

то« dQ = sup

в

В диссертации доказана следующая теорема о сходимости оценок вп.

Теорема 1. Пусть Е(К) < оо и Fg(x) непрерывна по в для почти всех х. Предположим, что для любого достаточно малого шара В С 0 и почти всех х < у функция (х,у) supfl6B log [Fo{y) — Fo(x)\ измерима. Тогда для любого е > 0 и компакта К С 0 выполняется

Р (dist (вп, 0О) >£,(?„€ К^ —> 0, н —> оо.

Достаточные условия идентифицируемости модели (т.е. условия того, что 0о = {$}) даны следующей теоремой

Теорема 2. Введем меру ц на Борелевской а-алгебре В подмножеств М:

+оо к

fi(B) = £р(АТ = к) ^Р (Tk,j € В\К = к), В ев. к= 1 j'=l

Пусть для функции распределения F${x) и для любых 61,62 & 0 выполняется

Ffll =Fein~ п.н. => 6>х = в2-

Тогда ©о = {■$}. Более того, в случае компактного 0 в условиях теоремы 1 для оценки Оп имеет место сходимость к $ п.н.

Теоремы 1 и 2 доказаны в предположении о неинформативном механизме цензурирования, то есть независимости с.в. X и (К,Т). Далее в параграфе рассматривается случай информативного цензурирования и обсуждаются его отличия от случая неинформативного цензурирования с точки зрения состоятельности оценок.

В четвертом параграфе рассматривается асимптотическое распределение оценок вп. Действительно, имея состоятельную оценку 9п, возможно применить дельта-метод и стандартные условия регулярности М-оценок [3] для установления достаточных условий асимптотической нормальности. Методы теории эмпирических процессов позволили существенно ослабить эти условия в случае оценивания по выборке с интервальным цензурированием.

Теорема 3. Предположим, что пространство параметров 9 евклидово. Пусть функция (х,у) >-> log [Fg(y) — F<j(a;)] дифференцируема в окрестности 19 для /л х ц-п.в. пар (х,у) с х < у, и градиент, принадлеэ/сит L2(Q). Пусть функция в н-> JmgdQ в точке д допускает разложение по Тейлору до второго члена с невырожденой матрицей вторых производных E,j. &

у/п (вп - ^ N (о, Е/ VW-J dQ

Обозначим, фв = штв- Тогда для состоятельной оценки 0п выполняется:

Обозначим через I(fe /о) расстояние Кулъбака-Лейблера между плотностями fg и /о:

log ^ (IFq, (3)

Je

где Fq — функция распределения, соответствующая плотности /о- В случае оценивания по полным данным известно, что обычные оценки максимального правдоподобия в„ обладают свойством минимизации расстояния Кульбака-Лейблера:

I {к > /о) ™ / , /о), ть > оо. (4)

Это свойство оказывается важным в случае, когда предполагаемая параметрическая модель не точна, так как свойство (4) не зависит от того, найдется ли д £ 9, что /о = Однако, оценки типа максимального правдоподобия (2) при оценивании по выборке с интервальным цензурирование свойством минимизации расстояния между распределениями (4) не обладают.

Во второй главе изучаются оценки, доставляющие минимум расстоянию Кульбака-Лсйблера. В первом параграфе выполняется их построение. Пусть Ёп{х) — непараметрическая оценка [10] функции распределения случайной величины X. Тогда величина /п(/<?, /о), определенная как

Шв, /о) =

1о ё^йРп,

является естественной оценкой расстояния (3).

Оценка 0п вводится как точка минимума величины 1п(/в,/о)-

вп = агётт [п(/в, /0) = а^тах

вев вев

/в{х) ^„(я). (5)

Несложно видеть, что оценки 0п и 0п совпадают при оценивании по полным данным, так как в таком случае является обыкновенной эмпирической функцией распределения для .Л^, ..., Хп.

Следует заметить, что процедура оценивания, вообще говоря, не предполагает точности параметрической модели. В случае, если модель не точна, то 0п по прежнему будет «адекватной» оценкой, доставляя минимум расстоянию Кульбака-Лейблера между предполагаемым параметрическим семейством и истинным распределением величин Х\,..., Хп.

Основной проблемой при изучении асимптотических свойств оценок типа (5) является отсутствие в литературе предельных теорем для оценивания по выборке с интервальным цензурированием линейных функционалов относительно мер вида

с{х)<1Р{х).

Задача оценивания функционалов такого вида рассматривалась в работе [6] лишь для случая интервального цензурирования второго типа (то есть для К = 2). Во втором параграфе эти результаты обобщаются на случай интервального цензурирования смешанного типа. Основной результат заключен в следующей теореме, доказанной в диссертации.

Теорема 4. При наложении некоторых условий регулярности на параметрическое семейство {/#, 9 £ 0} и модель интервального цензурирования смешанного типа (К, Т) оценки функционалов вида

log f0dFn{x)

асимптотически эффективны:

\fn

log fed(Fn{x) - F0(x)) N (о,ст2(0))

Теорема 4 позволяет естественным образом распространить классические результаты о состоятельности и асимптотическом распределении оценок максимального правдоподобия на оценки 9п. Этому вопросу посвящен третий параграф. Теорема о состоятельности 9п выглядит следующим образом

Теорема 5. Пусть выполняются условия теоремы 4 и кроме этого:

1. Для любого достаточно малого шара В С в:

sup log fg(х) dF0(х) < оо;

вев

2. © — компакт и из /е, = fg2 п.н. следует 9\ = $2-Тогда для оценки 9п выполняется:

0„ = argmin /п(/0, fe)-> 0* = argmin /(/0, /<?) п.н.

вев вев

При этом, если найдется ß: /о = п.н., то 9* =

Теорема о асимптотической нормальности оценки вп аналогична теореме 3 и доказывается в четвертом параграфе.

Расстояние Кульбака-Лейблсра (3) можно использовать для сравнения различных параметрических моделей и выбора наилучшей (в смысле минимизации этого расстояния). Такая процедура в литературе носит название информационного критерия Акайкс [1].

В третьей главе производится построение информационных критериев в случае интервального цензурирования. Рассмотрим два семейства моделей Q\ = {gev61 € ©1} и Qi = {дв2,92 € ©г}- Пусть 0„ — некоторые оценки параметров в\, 62, a Fn — оценка функции распределения Fq. Тогда задача сравнения двух параметрических моделей Q\ и Qi с точки зрения расстояния Кульбака-Лейблсра фактически сводится [1] к сравнению величин J д^ц dFn и f gsc2> dFn.

Однако, известно [1], что J <7^0.2) d.Fri является смещенной оценкой величины J dFo- Более того, это смещение зависит от параметрических классов Q 1,2 и способа оценивания 0п. Поэтому без оценивания и коррекции этого смещения использовать для сравнения моделей величины J <^¡1,2) dFn нельзя.

В первом параграфе это смещение оценивается для случая оценивания при помощи ОМКЛ 0п. В частном случае интервального цензурирования первого типа выражение для смещения получается в явном виде.

Во втором параграфе рассматривается случай построения оценок при помощи ОМП 9п. Как и для 0п, явное выражение для смещения оказывается возможным получить только в случае интервального цензурирования первого типа. В остальных случаях для оценки смещения применяется комбинация процедур бутстрсп и складного ножа (jack-knife).

В четвертой главе результаты, полученные в предыдущих главах, проверяются на модельных выборках. Рассмотрены типичные модели, используемые в литературе для анализа данных типа времени жизни: распределения,

связанные с экспоненциальным (Вейбулла, обощенное гамма), модель Гом-перца-Макегама [9], модель ЕхрСов А.Г. Барта [12].

В первом параграфе приводится обзор используемых моделей и механизма цензурирования.

Во втором параграфе исследуются асимптотические свойства оценок вп (состоятельность и скорость сходимости к предельному распределению) при различных механизмах цензурирования, отличающихся величиной «потери информации о выборке». В третьем параграфе аналогичное исследование проводится для оценок вп.

Далее, в четвертом параграфе производится сравнение оценок 9п и 6п. В качестве критерия для сравнения использовались дисперсия оценок и средне-квадратическое отклонение. В частности, здесь были получены следующие результаты: в том случае, когда предполагаемая параметрическая модель {/в, 9 € 6} точна, оценка вп по сравнению с 9п обладает меньшей дисперсией и смещением. Ситуация противоположна, когда предполагаемая параметрическая модель не точна (то есть не существует такого $ £ 9, что /о = /,?)■ В этом случае оценка вп обладает существенно большей дисперсией по сравнению с 9п.

Пятая глава посвящена рассмотрению предложенных оценок на примере анализа реальных данных из стоматологии, кардиологии, фармакологии. При этом производится сравнение с известными, но полученными с игнорированием процесса цензурирования при сборе данных и оценивании, результатами.

В заключении подводятся итоги диссертационного исследования и формулируются основные результаты работы.

В приложение вынесены доказательства некоторых технических теорем из главы 2.

Список литературы

1. Akaike H. Information theory and an extension of the maximum likelihood principle // Second International Symposium on Information Theory / Ed. by B. Petrov, B. Csaki. Academiai Kiado: Budapest, 1973. Pp. 267-281.

2. Andersen P. K., Borgan 0., Gill R. D,, Keiding N. Statistical Models Based on Counting Processes. Springer, 1993. 784 pp.

3. Bickel P. J., Klaassen C. A. J., Ritov Y., Wellner J. A. Efficient and Adaptive Estimation for Scmiparamctric Models. Springer, 1998. 588 pp.

4. Finkelstein D., Wolfe R. A. Isotonic regression for interval-censored survival data using an E-M algorithm // Comm. Statist.: Theory & Methods. 1986. Vol. 15. Pp. 2493-2505.

5. Fleming T. R., Harrington D. P. Counting Processes and Survival Analysis. Wiley-Blackwell, 2005. 448 pp.

6. Geskus R. В., Groeneboom P. Asymptotically optimal estimation of smooth functionals for interval censoring, case 2 // The Annals of Statistics. 1999. Vol. 27, no. 2. Pp. 627-674.

7. Huber P. J. The behavior of Maximum Likelihood Estimates under nonstandard conditions // Proc. 5th Berkeley Sympos. Math. Statist. Probab., Univ. Calif. 1967. Pp. 221-233.

8. Kalbfleisch J. D.. Prentice R. L. The Statistical Analysis of Failure Time Data. Wiley-InterScience, 2002. 462 pp.

9. Marshall A. W., Olkin I. Gompertz and Gompertz-Makeham Distributions // Life Distributions. Springer New York, 2007. Pp. 363-398.

10. Schick A., Yu Q. Consistency Of The GMLE With Mixed Case Interval-Censored Data // Scand. J. Statist. 1998. Vol. 27. Pp. 45-55.

11. Sun J. The Statistical Analysis of Interval-censored Failure Time Data (Statistics for Biology and Health). Springer, 2006. 406 pp.

12. Барт А. Г., Бондаренко Б. Б., Бойко В. И. Математический анализ течения ХГН // Гломерулонефрит. М.: Наука, 1980. С. 213-215.

13. Кокс Д. Р., Оукс Д. Анализ данных типа времени жизни. Москва: Финансы и статистика, 1988. 192 с.

Список публикаций автора

Статьи в журналах, рекомендованных ВАК:

AI. Коробейников Л. И. Сравнение оценок параметров специальной модели кривой дожития для выборки с интервальным цензурированием // Вестник С.-Петербургского университета, сер. 10. 2009. Т. 2. С. 36-47.

Остальные публикации:

А2. Барт А. Г., Коробейников А. И. Об оценке параметров специальной модели кривой дожития // Математические модели. Теория и приложения / Под ред. М. К. Чиркова. 2007. Т. 8. С. 15-25.

A3. Коробейников А. И. Методы и программное обеспечение задач оценивания параметров в специальном случае модели кривых дожития // Математические модели. Теория и приложения / Под ред. М. К. Чиркова. 2009. Т. 10. С. 28-42.

A4. Korobeynikov A. On the Consistency of ML-estimates for the Special Model of Survival Curves with Incomplete Data // Proc. of 6th St. Petersburg Workshop on Simulation / Ed. by S. M. Ermakov, V. B. Melas, A. N. Pepelyshev. 2009. Pp. 1039-1045.

Подписано к печати 19.10.10. Формат 60 х84 1/16. Бумага офсетная. Гарнитура Тайме. Печать цифровал. Печ. л. 1,0. Тираж 100 экз. Заказ 4948. Отпечатано в Отделе оперативной полиграфии Химического факультета СПбГУ 198504, Санкт-Петербург, Старый Петергоф, Университетский пр., 26 Тел.: (812) 428-40-43,428-69-19

Оглавление автор диссертации — кандидата физико-математических наук Коробейников, Антон Иванович

Введение

Глава 1. Оценки типа максимального правдоподобия.

1.1. Модель интервального цензурирования смешанного типа

1.2. Построение оценок.

1.3. Состоятельность оценок.

1.3.1. Асимптотические свойства функции правдоподобия

1.3.2. Сходимость к предельному множеству.

1.3.3. Идентифицируемость.

1.3.4. Строгая состоятельность оценок

1.3.5. Случай информативного цензурирования.

1.4. Асимптотическое распределение оценок.

1.4.1. Условия регулярности типа Крамера.

1.4.2. Слабые условия асимптотической нормальности

Глава 2. Оценки по минимуму расстояния Кульбака-Лейблера

2.1. Построение оценок.

2.2. Оценивание линейных функционалов относительно мер

2.2.1. Используемые обозначения и теоремы.

2.2.2. Вычисление информационных границ в случае интервального цензурирования

2.2.3. ОМП функционалов в случае цензурирования

2.3. Состоятельность оценок.

2.4. Асимптотическое распределение оценок.

2.4.1. Условия типа Крамера.

2.4.2. Слабые условия асимптотической нормальности

2.5. Вычисление непараметрической оценки функции распределения.

2.5.1. Редукция.

2.5.2. • Оптимизация. ЕМ-алгоритм.

Глава 3. Информационные критерии типа Акайке.

3.1. Информационные критерии в случае OMKJI.

3.1.1. Случай интервального цензурирования первого типа

3.2. Информационные критерии в случае ОМП.

3.2.1. Случай интервального цензурирования первого типа

Глава 4. Моделирование

4.1. Модели данных типа времени жизни.

4.1.1. Распределения, связанные с экспоненциальным.

4.1.2. Модель Гомперца-Макегама.

4.1.3. Модель ExpCos А.Г. Барта.

4.2. Асимптотические свойства ОМП.

4.2.1. Распределение Вейбулла.

4.2.2. Обобщенное гамма-распределение.

4.2.3. Модель Гомперца-Макегама.

4.2.4. Модель ExpCos.

4.3. Асимптотические свойства OMKJI.

4.3.1. Сравнение оценок в^, в{п\ вЦк).

4.4. Сравнение ОМП вп и ОМКЛ 0п.

Глава 5. Анализ реальных данных.

5.1. Пример из стоматологии.

5.2. Пример из кардиологии.

5.3. Пример из фармакологии.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Коробейников, Антон Иванович

Актуальность темы. Анализ данных типа времени жизни является одной из активно развивающихся областей современной прикладной статистики. Данные такого вида возникают не только в медико-биологических задачах, но и во многих других областях, где требуется изучение «времени до наступления некоторого события», например, при анализе демографических, экономических, финансовых, эпидемиологических показателей, в теории надежности и социологии.

Несмотря на бурное развитие в последние годы непараметрических и семипараметрических методов, специальные (параметрические) модели кривых дожития по-прежнему являются основным инструментом для исследования данных тина времени жизни. Этот факт обусловлен, в первую очередь, высокой информативностью параметрических моделей и возможностью их интерпретации экспериментаторами.

В силу ряда объективных причин для анализа данных типа времени жизни требуются специальные статистические методы. Одной из таких причин, отделяющих эту область от других областей прикладной статистики, является наличие так называемого цензурирования: в процессе сбора данных вместо интересуемой случайной величины наблюдается другая, менее информативная. Таким образом, при анализе данных типа времени жизни имеет место проблема неполной информации о выборке. Механизмы цензурирования могут быть достаточно сложными и, вследствие этого, требовать отдельного подхода. Стандартные методы анализа данных, как правило, просто не могут быть адекватно применены к случаю цензурирования.

Задача оценивания параметров и выбора специальной (параметрической) модели кривых дожития рассматривалась в работах многих авторов [3, 15, 33, 81]. Как правило, большинство полученных результатов предполагают наличие так называемого случайного правого цензурирования. Однако, такая модель не очень часто встречается при анализе реальных данных [14], и может рассматриваться только как достаточно простая аппроксимация; вопрос адекватности полученных в таком предположении результатов остается открытым. Вместо этой модели в приложениях более подходящей представляется модель интервального цензурирования [61], специальным случаем которой является вышеупомянутое случайное правое цензурирование.

В связи со сложностью этой модели и ее специальной структурой необходимо развитие специальных методов для оценивания параметров и выбора адекватных параметрических моделей (теория для случайного правого цензурирования не применима здесь по крайней мере без серьезной доработки).

Настоящая работа призвана в известной степени заполнить обозначенный пробел и посвящена построению оценок параметров специальных моделей кривых дожития, исследованию асимптотических свойств полученных оценок, а также развитию методологии сравнения различных параметрических моделей в условиях интервального цензурирования.

Целью работы являются:

1. построение оценок параметров для специальных моделей кривых дожития в условиях интервального цензурирования и изучение асимптотических свойств полученных оценок;

2. разработка методологии выбора адекватной параметрической модели посредством модификации информационных критериев типа Акайке на случай интервального цензурирования;

3. разработка численных методов и систем программ, позволяющих производить оценивание параметров в указанных моделях.

Общая методика работы. В работе применяются методы статистического моделирования, теории вероятностей и математической статистики (оценки максимального правдоподобия, законы больших чисел и центральные предельные теоремы, теория эмпирических процессов), функционального анализа (теория Фредгольмовых операторов), линейной алгебры. Программирование осуществлялось в статистическом пакете И.

Научная новизна. В дайной работе впервые получены достаточные условия строгой состоятельности оценок типа максимального правдоподобия в условиях интервального цензурирования и исследованы их асимптотические свойства. Помимо этого, были предложены робастные оценки параметров в случае, -согда предполагаемая параметрическая модель не точна. Показано, что эти оценки являются оптимальными с точки зрения расстояния Кульбака-Лейблера между предполагаемой параметрической моделью и истинным распределением данных. При помощи построенных оценок информационные критерии типа Акайке выбора адекватной параметрической модели впервые были распространены на случай интервального цензурирования.

Теоретическая и практическая ценность. В работе математически обоснована применимость (строгая состоятельность, асимптотическое распределение) двух классов оценок к анализу данных в случае интервального цензурирования. Созданы программы, в которых эффективно реализованы разработанные методы оценивания параметров. Методология информационных критериев может быть успешно использована экспериментаторами для подбора адекватной параметрической модели данных.

Апробация работы. Основные результаты диссертации докладывались и обсуждались на семинаре кафедры статистического моделирования мате-матико-механического факультета СПбГУ, а также на конференциях:

• II Всероссийская научно-практическая конференция с международным участием «Высокотехнологичные методы диагностики и лечения заболеваний сердца, крови и эндокринных органов», Федеральный центр сердца им. В.А. Алмазова, г. Санкт-Петербург, 20 - 22 Мая 2008 г.

• 18th Population Approach Group in the Europe (PAGE) Meeting, Saint Petersburg, 23 - 26 June, 2009.

• 6th Saint Petersburg Workshop on Simulation, Saint Petersburg, June 28 -July 4, 2009.

Публикации. По теме диссертации опубликованы работы [37, 78, 82, 83]. Статья [83] опубликована в журнале, входящем в перечень ВАК по специальности 05.13.18. Статья [78] написана в соавторстве, в ней автору принадлежит доказательство теоремы об асимптотических свойствах оценок параметров специальной модели кривой дожития.

Структура и объем диссертации. Диссертация состоит из введения, 5 глав, заключения, списка литературы и 2 глав приложения. Библиография содержит 87 наименований. Общий объем работы 144 страницы.

Заключение диссертация на тему "Исследование специальных моделей кривых дожития в условиях неполных данных"

Заключение

В диссертационной работе рассмотрена задача построения оценок для специальных (параметрических) моделей кривых дожития в условиях неполных данных. Задачи оценивания такого вида возникают не только в медико-биологических задачах, но и во многих других областях, где требуется изучение «времени до наступления некоторого события», например, при анализе демографических, экономических, финансовых, эпидемиологических показателей, в теории надежности и социологии.

Кратко перечислим основные результаты диссертации.

1. Предложены два класса оценок для параметрических моделей в условиях интервального цензурирования смешанного типа: оценки типа максимального правдоподобия и робастные оценки по минимуму расстояния Кульбака-Лейблера.

2. Получены достаточные условия строгой состоятельности (Теорема 1.3) и асимптотической нормальности (Теорема 1.8) оценок типа максимального правдоподобия для выборки с интервальным цензурированием смешанного типа.

3. Получены достаточные условия строгой состоятельности (Теорема 2.4) и асимптотической нормальности (Теорема 2.8) оценок по минимуму расстояния Кульбака-Лейблера в случае интервального цензурирования смешанного типа.

4. Информационные критерии типа Акайке для сравнения различных параметрических моделей обобщены на случай интервального цензурирования смешанного типа (Глава 3).

5. Разработан программный комплекс, реализующий предложенные способы оценивания параметров.

6. Свойства оценок параметров были проверены при помощи статистического моделирования (Глава 4). Оценки применены для изучения ряда примеров с реальным данными (Глава 5).

Библиография Коробейников, Антон Иванович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Akaike H. 1.formation theory and an extension of the maximum likelihood principle // Second International Symposium on Information Theory / Ed. by B. Petrov, B. Csaki. Academiai Kiado: Budapest, 1973. Pp. 267-281.

2. Alexeyeva N., A. A. Synonymy of power gamma- distributions in the statistical model of "muscles" // Proc. of 6th 5t. Petersburg Workshop on Simulation / Ed. by S. M. Ermakov, V. B. Melas, A. N. Pepelyshev. 2005. Pp. 39-43.

3. Andersen P. К., Богдан 0., Gill R. D., Keiding N. Statistical Models Based on Counting Processes. Springer, 1993. 784 pp.

4. Andreev K. Evolution of the Danish Population from 1835 to 2000. Odense: Odense University Press, 2002.

5. Asmussen S., M0ller J. R. Risk comparisons of premium rules: optimality and a life insurance study // Insurance: Mathematics and Economics. 2003. Vol. 32, no. 3. Pp. 331-344.

6. Bart A. GBart V. A., Steland A., Zaslavskiy M. L. Modeling disease dynamics and survivor functions by sanogenesis curves // Journal of Statistical Planning and Inference. 2005. Vol. 32. Pp. 33-51.

7. Befolkningens bevaegelser 1992. Copenhagen: Danmarks Statistik, 1994.

8. Berk R. H. Limiting Behavior of Posterior Distributions when the Model is Incorrect // The Annals of Mathematical Statistics. 1966. Vol. 37, no. 1. Pp. 51-58.

9. Bickel P. J., Klaassen C. A. J., Ritov Y., Wellner J. A. Efficient and Adaptive Estimation for Semiparametric Models. Springer, 1998. 588 pp.

10. Byrd R. H., Lu P., Nocedal J., Zhu C. A limited memory algorithm for bound constrained optimization // SIAM J. Sci. Comput. 1995. Vol. 16, no. 5. Pp. 1190-1208.

11. Dempster A., Laird N., Rubin D. Maximum likelihood data from incomplete data via the EM algorithm // J. R. Stat. Soc. Ser. B. 1977. no. 39. Pp. 1-38.

12. Efron B. Bootstrap Methods: Another Look at the Jackknife // The Annals of Statistics. 1979. Vol. 7, no. 1. Pp. 1-26.

13. Efron B. N "mparametric estimates of standard error: The jackknife, the bootstrap and other methods // Biometrika. 1981. Vol. 68, no. 3. Pp. 589-0599.

14. Finkelstein D. Wolfe R. A. Isotonic regression for interval-censored survival data using an E-M algorithm // Comm. Statist.: Theory & Methods. 1986. Vol. 15. Pp. 2493-2505.

15. Fleming T. R., Harrington D. P. Counting Processes and Survival Analysis. Wiley-B1 ackwell, 2005. 448 pp.

16. Gentleman R., Geyer C. Maximum likelihood for interval censored data: Consistency and computation // Biometrika. 1994. Vol. 81. Pp. 618-623.

17. Gentleman R., Vandal A. Computational algorithms for censored data problems using intersection graphs //J. Comput. & Graph. Stat. 2001. Vol. 10. Pp. 403-421.

18. Geskus R. B., Groeneboom P. Asymptotically optimal estimation of smooth functionals for interval censoring, case 2 // The Annals of Statistics. 1999. Vol. 27, no. 2. Pp. 627-674.

19. Geskus R. 3., Groeneboorn P. Asymptotically optimal estimation of smooth functionals for interval censoring, part 1 // Statistica Neerlandica. 1996. Vol. 50. Pp. 69-88.

20. Geskus R. B., Groeneboorn P. Asymptotically optimal estimation of smooth functionals for interval censoring, part 2 // Statistica Neerlandica. 1997. Vol. 51. Pp. 201-219.

21. Gompertz B. On the Nature of the Function Expressive of the Law of Human Mortality, and on a New Mode of Determining the Value of Life Contingencies // Philosophical Transactions of the Royal Society of London. 1825. Vol. 115. Pp. 513-583.

22. Grenander V. On the theory of mortality measurement. II. // Skandinavisk Aktuarietidsknft. 1957. Vol. 1956. Pp. 125-153.

23. Groeneboorn P., Wellner J. A. Information bounds and nonparametric maximum likelihood estimation. Basel, Switzerland: Birkhäuser Verlag, 1992.

24. Hjori N. L. On Inference in Parametric Survival Data Models // International Statistical Review / Revue Internationale de Statistique. 1992. Vol. 60, no. 3. Pp. 355-387.

25. Hoffmann-J0rg ens en J. Probability with a View toward Statistics. New York: Chapman and Hall, 1994. Vol. 2.

26. Huang J., Wellner J. A. Asymptotic normality of the NPMLE of linear functionals for interval censored data, case 1 // Statistica Neerlandica. 1995. Vol. 49. Pp. 153-163.

27. Huber C., Solev V., Vonta F. Estimation Of Density For Arbitrarily Censored And Truncated Data // Probability, Statistics and Modelling in Public

28. Health / Ed. by M. Nikulin, D. Commenges, C. Huber. Springer US, 2006. Pp. 246-265.

29. Huber C., Solev V., Vonta F. Interval censored and truncated data: Rate of convergence of NPMLE of the density // Journal of Statistical Planning and Inference. 2009. Vol. 139, no. 5. Pp. 1734 1749.

30. Huber C., Vonta F. A semiparametric model for interval censored and truncated data // Probability and Statistics. 14-1. POMI, Saint Petersburg, 2009. Vol. 363 of Zapiski Nauchnyh Seminarov POMI im. V.A. Steklova RAS. Pp. 139-150.

31. Huber P. J. The behavior of Maximum Likelihood Estimates under nonstandard conditions // Proc. 5th Berkeley Sympos. Math. Statist. Probab., Univ. Calif. 1967. Pp. 221-233.

32. Jongbloed G. The iterative convex minorant algorithm for nonparametric estimation //J. Comput. & Graph. Stat. 1998. Vol. 7. Pp. 301-321.

33. Jordan C. W. Textbook on Life Contingencies. Chicago: Society of Actuaries, 1967.

34. Kalbfleisch J. D., Prentice R. L. The Statistical Analysis of Failure Time Data. Wiley-InterScience, 2002. 462 pp.

35. Kaplan E. L., Meier P. Nonparametric Estimation from Incomplete Observations // Journal of the American Statistical Association. 1958. Vol. 53, no. 282. Pp. 457-481.

36. Konishi S., Kitagawa G. Generalised information criteria in model selection // Biometrika. 1996. Vol. 83, no. 4. Pp. 875-890.

37. Konishi SKitagawa G. Information Criteria and Statistical Modeling. Springer, 2008. 276 pp.

38. Korobeynikov A. On the Consistency of ML-estimates for the Special Model of Survival Curves with Incomplete Data // Proc. of 6th St. Petersburg Workshop on Simulation / Ed. by S. M. Ermakov, V. B. Melas, A. N. Pepelyshev. 2009. Pp. 1039-1045.

39. Kress R. Linear Integral Equations. Springer, 1999. 388 pp.

40. Krupitsky E. M., Verbitskaya E. V., Zvartau E. E. et al. Naltrexone for heroin dependence treatment in St. Petersburg, Russia // Journal of Substance Abuse Treatment. 2004. Vol. 26, no. 4. Pp. 285 294.

41. Kullback S., Leibler R. A. On Information and Sufficiency // The Annals of Mathematical Statistics. 1951. Vol. 22, no. 1. Pp. 79-86.

42. Lawless J. F. Statistical Models and Methods for Lifetime Data. Wiley-Inter-Science, 2003. 664 pp.

43. Le Cam L. On some asymptotic properties of maximum likelihood estimates and related Bayes estimates // University of California publications in statistics. 1953. Vol. 1, no. 11. Pp. 277-239.

44. Maathuis M. Reduction algorithm for the NPMLE for the distribution of bivariate interval-censored data // J. Comput. & Graph. Stat. 2005. Vol. 14. Pp. 352-362.

45. Marshall A. W., Olkin I. Gompertz and Gompertz-Makeham Distributions // Life Distributions. Springer New York, 2007. Pp. 363-398.

46. McLachlan G., Krishnan T. The EM Algorithm and Extensions. Wiley, 1997. 274 pp.

47. Neuhaus G. On Weak Convergence of Stochastic Processes with Multidimensional Time Parameter // The Annals of Mathematical Statistics. 1971. Vol. 42, no. 4. Pp. 1285-1295.

48. Oakes D. An Approximate Likelihood Procedure for Censored Data // Biometrics. 1986. Vol. 42, no. 1. Pp. 177-182.

49. Perlman M. D. On the strong consistency of approximate maximum likelihood estimators // Proc. 6th Berkeley Sympos. Math. Statist. Probab., Univ. Calif. 1972. Pp. 263-281.

50. Pfanzagl J. On the measurability and consistency of minimum contrast estimates // Metrika. 1969. Vol. 14, no. 1. Pp. 249-272.

51. Pfanzagl J. Contributions to a general asymptotic statistical theory (Lecture Notes in statistics). Springer-Verlag, 1982. 315 pp.

52. Prentice R. L. A Log Gamma Model and Its Maximum Likelihood Estimation // Biometrika. 1974. Vol. 61, no. 3. Pp. 539-544.

53. Quenouille M. H. Notes on Bias in Estimation // Biometrika. 1956. Vol. 43, no. 3-4. Pp. 353-360.

54. R Development Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2010. URL: http://www.E-project.org (дата обращения: 01.06.2010).

55. Rockafellar R. Convex analysis. Princeton University Press, 1997. 451 pp.

56. Schick A., Yu Q. Consistency Of The GMLE With Mixed Case Interval-Censored Data // Scand. J. Statist. 1998. Vol. 27. Pp. 45-55.

57. Shader R. I. Antagonists, Inverse Agonists, and Protagonists // Journal of Clinical Psychopharmacology. 2003. Vol. 32, no. 4. Pp. 321-322.

58. Song S. Estimation with Univariate "Mixed Case" Interval Censored Data // Statistica Sinica. 2004. Vol. 14, no. 1. Pp. 269-282.

59. Stacy E. W. A Generalization of the Gamma Distribution // The Annals of Mathematical Statistics. 1962. Vol. 33, no. 3. Pp. 1187-1192.

60. Stute W. Strong consistency of the MLE under random censoring // Metrika. 1992. Vol. 39, no. 1. Pp. 257-267.

61. Stute W., Wang J.-L. The Strong Law under Random Censorship // The Annals of Statistics. 1993. Vol. 21, no. 3. Pp. 1591-1607.

62. Sun J. The Statistical Analysis of Interval-censored Failure Time Data (Statistics for Biology and Health). Springer, 2006. 406 pp.

63. Tierney L., Rossini A. J., Li N., Sevcikova H. snow: Simple Network of Workstations, 2010. R package version 0.3-3. URL: http: //CRAN. R-pro j ect. org/ package=snow (дата обращения: 01.06.2010).

64. Tukey J. Bias and confidence in not quite large samples // The Annals of Mathematical Statistics. 1958. P. 614.

65. Verizon D. J., Moolgavkar S. H. A Method for Computing Profile-Likelihood-Based Confidence Intervals // Journal of the Royal Statistical Society. Series С (Applied Statistics). 1988. Vol. 37, no. 1. Pp. 87-94.

66. Wald A. Note on the Consistency of the Maximum Likelihood Estimate // The Annals of Mathematical Statistics. 1949. Vol. 20. Pp. 595-601.

67. White H. Maximum Likelihood Estimation of Misspecified Models // Econo-metrica. 1982. Vol. 50, no. 1. Pp. 1-25.

68. Yu H. Rmpi: Interface (Wrapper) to MPI (Message-Passing Interface), 2010. R package version 0.5-8. URL: http: //CRAN. R-project. org/package=Rmpi (дата обращения: 01.06.2010).

69. Zhu С., Byrd R. H., Lu P., Nocedal J. Algorithm 778: L-BFGS-B: Fortran subroutines for large-scale bound-constrained optimization // ACM Trans. Math. Softw. 1997. Vol. 23, no. 4. Pp. 550-560.

70. Алексеева Н. П., Бондаренко Б. Б., Конради А. О. Симптомный анализ в исследовании долгосрочного клинического прогноза // Артериальная Гипертензия. 2008. Т. 14, № 1. С. 38-43.

71. Барт А. Г. Анализ медико-биологических систем. Метод частично-обратных функций. СПб.: Изд-во С.-Петерб. ун-та., 2003. 276 с.

72. Барт А. Г., Бондаренко Б. Б., Бойко В. И. Математический анализ течения ХГН // Гломерулонефрит. М.: Наука, 1980. С. 213-215.

73. Барт А. Г., Клочкова (.Алексеева) Н. П. Критические периоды в кривых дожития // Статистические методы в клинических испытаниях / Под ред. А. А.,Жиглявского, В. В. Некруткина. СПб.: Изд-во С.-Петерб. ун-та., 1999.

74. Барт А. Г., Коробейников А. И. Об оценке параметров специальной модели кривой дожития // Математические модели. Теория и приложения / Под ред. М. К. Чиркова. 2007. Т. 8. С. 15-25.

75. Ибрагимов И., Хасъминский Р. Асимптотическая теория оценивания. Москва: Наука, 1979. 527 с.

76. Калинин О. М. О единых математических трактовках в биологической систематике и динамике популяций и о связи диффузии с нелинейными уравнениями // Проблемы кибернетики. 1972. Т. 25. С. 107-117.

77. Кокс Д. Р., Оукс Д. Анализ данных типа времени жизни. Москва: Финансы и статистика, 1988. 192 с.

78. Коробейников А. И. Методы и программное обеспечение задач оценивания параметров в специальном случае -модели кривых дожития / / Математические модели. Теория и приложения / Под ред. М. К. Чиркова. 2009. Т. 10. С. 28-42.

79. Коробейников А. И. Сравнение оценок параметров специальной моделикривой дожития для выборки с интервальным цензурированием // Вестник С.-Петербургского университета, сер. 10. 2009. Т. 2. С. 36-47.

80. Крамер Г. Математические методы статистики. Москва: Наука, 1975. 678 с.