Последовательное различение гипотез в схеме с альтернативными наблюдениями

Кузнецов, Юрий Александрович

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Последовательное различение гипотез в схеме с альтернативными наблюдениями

кандидата физико-математических наук: Кузнецов, Юрий Александрович
город: Москва
год: 2009
специальность ВАК РФ: 05.13.17

Диссертация по информатике, вычислительной технике и управлению на тему «Последовательное различение гипотез в схеме с альтернативными наблюдениями»

Автореферат диссертации по теме "Последовательное различение гипотез в схеме с альтернативными наблюдениями"

003482907

Л

На правах рукописи

КУЗНЕЦОВ ЮРИЙ АЛЕКСАНДРОВИЧ

ПОСЛЕДОВАТЕЛЬНОЕ РАЗЛИЧЕНИЕ ГИПОТЕЗ В СХЕМЕ С АЛЬТЕРНАТИВНЫМИ НАБЛЮДЕНИЯМИ

05.13.17 - теоретические основы информатики

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

МОСКВА 2009

1 2

Работа выполнена на механико-математическом факультете Московского государственного университета им. М.В.Ломоносова

Научный руководитель:

чл.-кор. РАН,

доктор физико-математических наук, профессор А.Н. Ширяев

Официальные оппоненты:

доктор физико-математических наук, профессор В.В. Мазалов доктор физико-математических наук, ст. науч. сотр. Б.С. Дарховский

Ведущая организация:

Институт проблем управления им. В.А. Трапезникова РАН

Защита состоится "_" ноября 2009 г. в_часов на заседании диссертационного совета Д.002.077.01 в Институте проблем передачи информации им. A.A. Харкевича РАН по адресу: 101447, Москва, ГСП-4, Б. Каретный пер., 19, стр. 1.

С диссертацией можно ознакомиться в библиотеке Института проблем передачи информации им. A.A. Харкевича РАН.

Автореферат разослан "_" октября 2009 г.

Ученый секретарь диссертационного совета,

д.ф.-м.н. И.И. Цитович

Общая характеристика работы Актуальность проблемы.

С развитием информационных технологий возросла потребность в эффективной обработке и принятии оптимальных решений относительно производственных, финансовых, экономических и т.п. процессов. Процессы могут быть охарактеризованы своими свойствами, имеющими как количественную, так и качественную природу. Одной из важных задач является различение нескольких утверждений (гипотез) относительно качественных характеристик процессов. Примером такого различения гипотез может быть задача радиолокации о наличии или отсутствии цели на одном из нескольких направлений, задача о нахождении оптимального вложения в финансовые инструменты (акции, опционы, фьючерсы и т.п.), выбор наилучшего лекарственного препарата среди нескольких, задача об оптимальном выборе стратегии производства или инвестиционного проекта. Во всех таких задачах необходимо исследовать качественное поведение имеющегося процесса (есть ли цель или нет в задаче радиолокации, стоит или же нет вкладывать средства в данную ценную бумагу, эффективнее или нет данный медицинский аппарат, чем другой и т.д.).

При решении таких задач первоначально строится модель поведения изучаемого процесса с несколькими качественно разными возможностями развития процесса во времени. Далее выносятся предположения (гипотезы) относительно этих характеристик и производятся наблюдения за процессом. В условиях конечности как времени наблюдений, так и ресурсов, необходимых для проведения дополнительных наблюдений, накладываются ограничения на количество возможных наблюдений.

В работе Неймана и Пирсона1 была решена задача о различении гипотез при фиксированном количестве возможных наблюдений и при заданных ограничениях на ошибки первого и второго типов.

В дальнейшем были проведены исследования задачи о различении гипотез, когда количество наблюдений заранее не фиксировано и могло меняться в зависимости от наблюденных значений процесса. Эта так называемая задача последовательного различения двух гипотез была сформулирована Валь-дом2. Им же была указана процедура, основанная на последовательном критерии отношения вероятностей, которая, как им было показано в совместной работе с Волфовитцем3, оказалась оптимальной в условно вариационной задаче: при заданных ограничениях на вероятности ошибочных решений (вероятности ошибок первого и второго рода) найти процедуру, которая давала бы минимальную длительность наблюдений по обоим гипотезам. Во многих случаях последовательный критерий оказывается более эффективным, чем процедура Неймана-Пирсона с теми же ошибками первого и второго рода. Этой же задаче посвящены работы Блекуэлла и Гирши-ка 4,Ширяева5, Лемана6, Чернова7.

В непрерывном времени задача о различении гипотез также рассматривалась. Точное решение байесовской задачи после-

1 Neyman J., Pearson E.S. On the problem of the most efficient test of statistical hypothesis// Phil. Trans. Ray. Soc., A 231. - 1933. - P.289-337.

2 Wald A. Sequential analysis. - N.Y.: Wiley, 1947.

3 Wald A., Wolfowitz J. , Optimum character of the sequential probability ratio test// Ann. Math. Stat., - 1948. - №19. - P. 326-339.

*Blackwell D.,Girshick M.A. Theory of Games and Statistical Decisions. - N.Y.: Wiley & Sons., 1954.

5Shiryaev A. N. Two problems of sequential analysis// Cybernetics. - 1967. - №3. -P.63-69.

6Lehmann E. L. Testing Statistical Hypotheses. - N.Y.: Wiley, 1959.

7Chemoff H. Sequential Analysis and Optimal Design. PhiliadelphiarSIAM. 1972.

довательного различения двух гипотез о сносе броуновского движения (в дальнейшем изложении - классической задачи) было дано Ширяевым8, из которого следовала и оптимальность вальдовской процедуры в случае броуновского движения.

Естественным обобщением классической является задача (первоначально возникшая из задачи радиолокации для обнаружения цели по нескольким направлениям) различения гипотез, когда наблюдаемых процессов может быть несколько (,многомерная задача). При этом предполагается, что наблюдение в каждый момент времени можно проводить только за одним процессом (по одному направлению).

В литературе уже рассматривалась эта задача для дискретного времени и были получены некоторые результаты относительно функции риска и оптимальной стратегии. Задача была впервые сформулирована и изучалась А.Н. Ширяевым 9, Кай-роли и Далангом10.

Однако задачи, встречающиеся в реальности, включают в себя время как непрерывную величину. До сих пор корректной постановки и решения задачи в непрерывном времени произведено не было.

Цель работы.

Постановка и решение в непрерывном времени задачи о различении гипотез в схеме с возможностью переключения между наблюдаемыми процессами.

8 Ширяев А.Н. Статистический последовательный анализ. - 2-е изд., перераб.-М.:Наука,1976.

9Ширяев А.Н. К теории решающих функций и управлению процессом наблюдения по неполным данным// IVans. Third Prague Conference on Inform. Theory, Statistical Decision Functions and Stochastic Processes, Prague. - 1964. - P.657-681.

10Cairoli R., Dalang Robert C. Sequential Stochastic Optimization. - N.Y.: Wiley, 1996.

Задачи работы.

1. Нахождение алгоритма подсчета функции риска в дискретном времени на конечном промежутке времени.

2. Изучение свойств функции риска и областей продолжения наблюдений и остановки. Обобщение результатов, полученных для классической задачи.

3. Постановка задачи для непрерывного времени. Определение понятия стратегии и функции риска.

4. Нахождение функции риска и оптимального момента остановки и границ областей продолжения наблюдений в непрерывном случае.

5. Изучение сходимости стратегий управления в задаче с дискретным временем к стратегиям управления в непрерывной задаче и исследование свойств связанных с такой задачей сингулярных стохастических дифференциальных уравнений.

Методы исследования.

Изучение функций риска и границ областей продолжения наблюдения в дискретном случае производится с помощью методов дискретного стохастического анализа и теории мартингалов, аппарата эксцессивных функций, рекуррентных уравнений типа уравнения Беллмана. В непрерывном времени получение функций риска и границ областей продолжения наблюдений является так называемой задачей Стефана с подвижными границами. Используются методы теории оптимальной остановки случайного процесса, стохастический анализ случайных процессов.

Научная новизна.

В работе впервые найдены оптимальные правила остановки для задачи о различении гипотез в схеме с альтернативными наблюдениями в непрерывной схеме и получены результаты относительно дискретной постановки, обобщающие резуль-

таты в классической задаче.

Теоретическая и практическая значимость.

Работа относится к области стохастического анализа случайных процессов и носит теоретический характер. Ее результаты могут быть применены в тех областях, где возникают вопросы исследования моделей и алгоритмов извлечения данных (в частности, вопросы о статистическом последовательном различении гипотез).

Научные результаты, выносимые на защиту.

Основные результаты диссертации состоят в следующем :

1.В случае дискретного времени доказано, что функция риска является эксцессивной минорантой функции риска при мгновенной остановке. Получена качественная характеристика структуры областей остановки. Показано, что функция риска в задаче с конечным числом наблюдений есть степень оператора перехода за один шаг.

2. В непрерывной постановке найдены функция риска и оптимальная стратегия наблюдения за процессами.

3. Доказана равномерная сходимость по вероятности управлений в задачах с дискретным временем к процессу управления в задаче с непрерывным временем.

4. Показана равномерная сходимость в среднеквадратиче-ском процессов управления в задачах последовательного различения гипотез с альтернативными наблюдениями в дискретном времени (дискретных схемах) к процессу, являющемуся решением стохастического дифференциального уравнения с сингулярными коэффициентами.

Апробация работы.

Результаты докладывались на Ломоносовских чтениях механико-математического факультета МГУ им. М.В.Ломоносова (МГУ, 2006,2009 г.г.), семинаре "Optimal stopping and stochastic

control" (ИПМИ КарНЦРАН, Петрозаводск, 22-26 августа 2005 г,), на научно-исследовательском семинаре "Стохастический анализ и теория мартингалов" в МГУ им. М.В.Ломоносова и в Математическом институте им. В.А.Стеклова РАН под руководством Ширяева А.Н. в 2005, 2007 гг..

Публикации.

По теме диссертации опубликованы 4 работы. Из них 2 статьи напечатаны в ведущих рецензируемых научных изданиях, входящих в перечень ВАК. Их список приведен в конце автореферата.

Структура и объем работы.

Диссертация состоит из введения, четырех глав, разбитых на параграфы, заключения и списка литературы. Общий объем работы составляет 100 страниц. Список литературы содержит 55 источников, количество рисунков в работе - 7.

Содержание работы

Во Введении обоснована актуальность задачи различения гипотез в схеме с альтернативными наблюдениями, ее связь с задачами теории основ информатики, проведен обзор известных результатов, связанных с темой диссертации, сформулирована цель и методы исследования, а также приведено краткое содержание диссертации.

Первая глава посвящена постановке и исследованию задачи о различении гипотез с альтернативными наблюдениями в дискретном времени.

Задача, рассматриваемая в дискретном времени, выглядит следующим образом. Предполагается, что наблюдения возможны в моменты времени, кратные некоторому параметру Д. В самом начале наблюдений разыгрывается значение некоторой

случайной величины 9, принимающей одно из трех возможных значений в — 0,1,2. Ее значение неизвестно. Пусть имеются два направления - первое и второе. По первому направлению можно наблюдать случайные величины Х\,Хг,Хъ,..., а по второму направлению - случайные величины Yi, Y2, V3,... Распределение этих случайных величин зависит от в. В каждый момент времени можно наблюдать одно из этих двух направлений. За каждое наблюдение берется плата с > 0. В некоторый момент времени т (момент остановки относительно фильтрации, порожденной наблюдаемыми процессами) необходимо остановить наблюдения и сделать вывод d относительно неизвестного параметра в (d = 0, если сделан вывод, что 9 = 0 и d = 1, если сделан вывод о том, что 0 = 1,2). Задача заключается в нахождении функции риска

г = inf Е(а1(0 = 0, d= 1) + 01(6 = 1,2,d = 0) + сг),

(r,d)

где 1(») - индикатор, а, ¡3 - плата за ошибки первого и второго рода соответственно.

Стратегия наблюдений состоит из правила переключения между направлениями, момента остановки и окончательного решения относительно значения неизвестного параметра в. Предполагается известным априорное распределение параметра 9, т.е. считаются заданными вероятности

тг< = Р(0 = »).* = 0.1.2-

Удобно ввести щ({) = Р (9 = г| Ft) - апостериорные вероятности гипотез 9 = i для i = 0,1,2 в момент времени t, где Tt -это (Т-алгебра, порожденная наблюдениями за процессами до момента времени t. Кайроли и Даланг11 показали, что в за-

11 Cairoli R., Dalang Robert С. Sequential Stochastic Optimization. - N.Y.: Wiley, 1996.

даче с дискретным временем оптимальное решение зависит от наблюдений только через апостериорные вероятности гипотез тг<(0, г = 0,1,2.

Также ими было показано, что в дискретной схеме пространство возможных значений апостериорных вероятностей гипотез разбивается на две области: остановки (£>) и продолжения наблюдений (С). Это означает, что если значение (тг! (¿), 7Г2 (¿)) находится в области Д то в этот момент необходимо остановиться и принять решение о значении случайной величины в. Если же (7Г1(£),7Г2^)) находится в области С, то необходимо продолжить наблюдения. В последнем случае нужно определить, какое направление из двух следует наблюдать. Был указан способ, позволяющий оптимально выбрать направление, но он предполагает известным точное значение функции риска.

В третьем разделе доказано

Утверждение 5*. В одношаговой модели оптимальный выбор направления для наблюдения устроен следующим образом: если 7Т\ > 7г2 < 7Гг), то необходимо наблюдать первое (второе) направление.

Для конечного временного интервала, когда возможно максимум п наблюдений, доказан аналог соответствующего утверждения для одномерной схемы:

Теорема 2. Функция риска в случае конечного дискретного временного горизонта [0, Т] есть Т-ая степень оператора перехода ф, примененного к функции риска от мгновенной остановки

р(1Г1,тг2) = (ЯТд) (7Г1, тгг), •нумерация утверждений и теорем такая же, как и в диссертации

где

Ш = ^ + с,В^/(А{о,ц) +с)

и

= (п(У1,У2), тг2(г;1, г>2)), тфь г>2) = Р (0 = , г = 1,2.

В четвертом разделе для бесконечного временного интервала получена характеризация риска, как максимальной с-эксцессивной миноранты (где с-эксцессивная функция- это такая функция ДяьЯг) , что /(7Г1,тг2) > <?/(7Гъ7Г2) ):

Теорема 3. Пусть ь(х,у) максимальная с-эксцессивная миноранта д(х, у), и р(х,у) функция риска. Тогда у(х, у) = = р(х,у), где (х,у) = (щ,П2) известные априорные вероятности.

Вторая глава посвящена различным постановкам задачи в непрерывном времени и подготовке технического аппарата для решения задачи в непрерывном времени.

В непрерывном времени задача первоначально возникла в радиолокации, как проблема обнаружения цели.

Как и ранее, имеется прибор (локатор), который может наблюдать в одном из двух направлений (север,юг). Допускается переключение с одного направления на другое. Требуется различить две гипотезы: Н0- интересующая нас цель присутствует на одном из этих направлений, Щ- цели нет. Одна из возможных постановок задачи состоит в том, чтобы при заданных ограничениях на вероятности ложных тревог минимизировать среднее время до принятия решений (цель есть/цели нет или цель есть на том или другом направлении/цели нет).

Настоящая диссертация посвящена решению формулируемых далее задач последовательного различения гипотез в пред-

положении, что отсутствие цели моделируется броуновским движением (белым шумом в различной интерпретации), её же наличие - броуновским движением со сносом.

При формулировке соответствующей задачи для случая непрерывного времени возникают некоторые проблемы при определении стратегии. Поскольку наблюдения производятся в непрерывном времени, необходимо определить понятие переключения. Самое простое определение стратегии переключения заключается в задании некоторой последовательности моментов остановки Г1, тг,..., г„,... Предполагается, что на каждом интервале [ть наблюдается какое-то направление — первое или второе. В момент Тк происходит переключение с наблюдаемого в данный момент направления на другое. Задача заключается в определении оптимального правила переключений 71,72,..., г„,..., момента остановки т и решающего правила й, минимизирующих функцию риска

Я= Ы Е(а1(0 = Си= 1)+/?1(0 = 1,2,й = 0) + ст).

Это так называемая импульсная постановка (импульсы -это моменты переключения). Недостатком импульсной постановки является то, что в классе импульсных стратегий может не существовать оптимального правила, хотя можно найти импульсное управление, имеющее риск, как угодно близкий к функции риска Л.

Для преодоления этого недостатка можно рассмотреть более общую постановку. В этой более общей постановке расширяется множество возможных управлений. Стратегия определяется уже не моментами переключения, а двумя функциями времени - случайными величинами и Тъ(р). Смысл этих значений следующий: - общее время наблюдения г-го направления в течение промежутка времени [0,*]. При этом

должно быть выполнено условие Ti(i) + T%{t) = t. Кроме того, эти случайные величины T\{t), T2(i) должны быть неупре-ждающими, т.е. являются .Ft-измеримыми. Заметим, что это действительно есть расширение множества импульсных управлений, поскольку любое импульсное управление может быть реализовано как некоторое управление {T\{t), Ti(t)), при этом T*i(£),Тг(£) будут неубывающими функциями со скачками в моменты времени т*.

В общей постановке расширяется и понятие правила выбора направлений для наблюдения : становится возможным одновременное наблюдение обоих направлений. Формально это означает, что точки роста функций T\(t) и T2(i) могут совпадать. При этом суммарное время наблюдения за процессами остается равным t (T\{t) + T2(i) = t). Помимо задания T\(t) и T2(f) необходимо задать моменты остановки г и решающее правило d. В общей постановке найти оптимальную стратегию достаточно сложно, поэтому мы ограничимся только стандартным правилом выбора направления. Стандартное управление (Ti(t), T2(i)^ определяется таким образом, что выполнено следующее условие: если 7Ti(i) > ^(i), то наблюдается первое направление, если 7Ti(i) < 7Г2(i), то наблюдается второе направление. Существование такого управления (в частности, выбор управления в случае 7Tj(i) = рассмотрено в разделе 2 главы 3. В дискретном случае определение стандартного управления такое же, но необходимо рассматривать лишь дискретные моменты времени. Оправданность рассмотрения такого типа управлений для дискретной одношаго-вой модели показана в разделе 3 главы 1.

Таким образом, задача состоит в выборе оптимального момента остановки т и окончательного решения d, минимизиру-

ющих функцию риска

Р (тгъ тг2) = ш£ Е (а1(0 = О, <1 = 1) + /31 {в = 1,2, д, = 0) + сг).

В такой постановке задача сводится к определению т (окончательное решение однозначно определяется после остановки). В дальнейшем для простоты изложения будем считать

Третья глава посвящена нахождению оптимальной стратегии и границ областей продолжения наблюдений в задаче с непрерывным временем. Пусть

(¿) = ъф/щф, Ргф = тг2(г)Ло(0>

где 7Г{(£) = Р (0 = г| , г = 0,1,2. Доказана Теорема 4.

1. В классе марковских стандартных стратегий оптимальное правило остановки определяется как момент первого попадания вектора (£), в некоторую область остановки наблюдений (А и В на рис. 1). Область продол-жвния наблюдений разбивается на область возможных переключений между направлениями (С\ и Сг) и область, где возможно наблюдение лишь одного направления (В1 и Вг).

2. Границы 71 и 72, разделяющие область остановки и область продолжения наблюдений, задаются с помощью кривых ух = 71(^1) и 72 = 72(</51); которые могут быть для каждого Ь = 1 + <рх найдены как решения следующей системы уравнений (в области наблюдения В

(т4)

а = ¡3 = 1.

Функция риска в этой области равна

Р Оь 4>г) = 2с (1п <рг) ^ ++ с2, О + Ц>2 О + Ц>2

где

_ (Ь+71)(Ь+72)-(71+7а)-2с('п71)(Ь-71)(Ь+7г)+2е(1п72)(Ь-7г)(;)+71)

1 72-71 '

2 72-71

5. Граница 72, разделяющая область остановки и область продолжения наблюдений, задается в области С\ с помощью кривой 72 = 72 (фх), которая может быть найдена как решение следующего дифференциального уравнения

Ъ. = (У^ — 21п ) - (1/72 - 21п72)

7г (VI - 7г) (1 + VI + 72)

с начальным условием 72 = 72 (V*)! V* таково, что 71 (у>*) = уЛ Функция риска в этой области равна

( \ о /1 ч 1 + VI - <?2 , СХ

Р — 2с(1пу2) г—-;-+ 7--;-+ с2,

1 + VI + V2 1 + VI + V2

где

С1 = 2С(^-72-2(1 + ^)1П72), С2 = (1 - С1 - 2с(1 + VI - 72) 1п7г) •

При доказательстве этой теоремы первоначально формулировалась так называемая задача Стефана с подвижными границами для функции риска. Делалось предположение о том, что функция риска удовлетворяет некоторой системе уравнений, а потом доказывалось, что найденное решение системы действительно является функцией риска. Система дифференциальных уравнений задачи Стефана для исследуемой проблемы в области В\ выглядит следующим образом:

Рис. 1. Области продолжения наблюдения и остановки

' р'^р ь щЫ/ (1+ч>1+<&)+тсФь =-с,

Р (<Ри 71 (VI)) = Ро (<Ри 71 , < Р{<Р\,Ъ(<Р1)) = Рй{<РъЪ{<Р\))>

р'<р2 (<р1,Ъ Ы) = (РоУм (^'71 (VI)). . Р'чъ (<Ри 72 (VI)) = (Ро)',2 (VI, 72 (VI)). где

А) (VI, <Р2) = ™ (7Г0,1 - 1То) =

= шш ((V?! + 932)/(1 + VI + V2), 1/(1 + VI + V2)) •

Здесь первое дифференциальное уравнение следует из общей теории оптимальной остановки марковских процессов, остальные уравнения в системе - это условия гладкости функции

риска на границах областей продолжения наблюдения (условия гладкого склеивания).

Решения 71(^1) и 72(^1) этой системы могут быть получены следующим образом. Для каждого фиксированного к = 1 + щ относительно некоторых неизвестных А* и В* решается система

Г С(ф(В*) -ф(А*)) = 2,

\ С (Ф {В*) - Ф (А*)) -С (В*- А*) ф {А*) = 2-2 В*-к,

при этом С = 2кс, Ф (тг) = (1 - 2тг) 1п (у^) , <ф (тг) = Ф' (7г) и по полученным А* и В* находятся границы

А* В*

71 Ы = (1 + Щ) > 72 Ы = у—(1 + VI) •

Заметим, что полученная система с А* и В* аналогична системе в классической (одномерной) задаче различения гипотез12 и полностью совпадает с ней при к = 1 = 0). Этот факт является следствием того, что в области, где возможно наблюдение одного направления, задача становится одномерной, а значит, для границ получаются те же уравнения, что и в классической задаче. В разделе 1 главы 3 рассматривается одномерная вспомогательная задача и показывается, что выше определенные как решения системы, точки А* и В* являются границами для области продолжения наблюдений в этой вспомогательной задаче.

При доказательстве теоремы 4, в области возможных переключений между направлениями также формулировалась задача Стефана с подвижными границами для функции риска, имеющая следующий вид:

12Ширяев А.Н. Статистический последовательный анализ. - 2-е изд., перераб,-М.:Наука,197б. С.227-234.

' p'V2{fu щ)ч>\! (1 + Vi + щ) + V2)V2 = -с.

( p'Vl (Vi, Vi) = р'ъ (Vi, Vi),

p(vi,72(vi)) = PO(VI,72(VI)), . PU (VI. 72 (vi)) = (PD)U (VI, 72 Ы).

Po (Vi. V2) = min (7г0,1 - 7г0) = = min + <p2)/( 1 + Vi + V2), 1/(1 + Vi + V2)) •

Решая эту систему, получаем для границы 72 = 72 (vi) (области С{) дифференциальное уравнение, выписанное выше в утверждении теоремы.

Четвертая глава посвящена исследованию сходимости процессов управления в задаче в дискретном времени к процессу управления в непрерывном времени и рассмотрению приложений полученных результатов к теории стохастических дифференциальных уравнений.

В первом разделе рассматривается вопрос сходимости дискретных стандартных схем наблюдения к

непрерывной стандартной схеме наблюдения (Xx,(t), Yx2(t)) (дискретную или непрерывную схему назовем стандартной, если соответствующее управление является стандартным), где

где

- процессы наблюдения в дискретной схеме и

xTl{t)=ie=m)+w±i{t),

Ym = le^T2(t) + W*m

- процессы наблюдения в непрерывной схеме, при этом выбирается стандартное управление (существование такого управления для непрерывной схемы доказано в разделе 2 главы 3). Предполагается, что наблюдения возможны в моменты времени, кратные некоторому параметру Д = п. = 1,2,...

Теорема 5. Процессы наблюдения в дискретной схеме схо^ятся по распределению к процессу наблюдения в непрерывной схеме (-Хт^ф^т,^));

00,

где управления (Т"(^), Г2п(^) и (Т1(г),Т2(£)) предполагаются стандартными.

Кроме того показано, что

= \ [вг + JsgRBsdB, V о

Ym = \{-Bt + J sgn BsdB1

где Bt - процесс броуновского движения относительно некоторой меры Р :

dP = exp (-le.i- ¿1 вт1Т) ехр (-1 - ¿l^T) dP.

Одним из применений факта сходимости дискретных стандартных управлений к стандартному непрерывному управлению является результат, касающийся так называемого процесса диффузионного типа bang-bang. Рассматриваются процессы, похожие на процессы наблюдения в дискретной схеме в

исследуемой задаче

где процесс управления (Т1п(^),Т2'г(0) ~~ стандартный.

В третьем разделе показано, что разность этих процессов — Хув^ - У^п^у где А = 1/п, сходится к некоторому процессу вг- Ьолее точно, доказана

Теорема 6. Процессы в дискретной схеме равномерно в среднеквадратическом сходятся к процессу

где процесс St является решением следующего стохастического дифференциального уравнения

где Внекоторое броуновское движение.

В Заключении сформулированы основные научные результаты, выносимые на защиту.

Работа выполнена под руководством чл.-кор. РАН профессора А.Н.Ширяева, которому автор выражает искреннюю благодарность.

Публикации автора по теме диссертации

1. Кузнецов Ю.А. Различение гипотез в дискретной схеме с альтернативными направлениями//Обозрение прикладной и промышленной математики. - 2006. - Т.13. - Вып.5. - С.821-828.

2. Кузнецов Ю.А. Различение гипотез в непрерывной схеме с альтернативными направлениями//УМН. - 2008. - Т.63. -Вып.2(380). - С.173-174.

3. Кузнецов Ю.А. Различение гипотез в схемах с альтернативными направлениями и процесс типа "bang-bang"//Tpyды VI международных Колмогоровских чтений. - Ярославль.: ЯГ-ПУ, 2008. - С.119-126.

4. Кузнецов Ю.А. Оптимальное правило остановки в задаче различения гипотез в схеме с возможными переключениями //Информационные процессы. - 2009. - Т.9. - №3. - С. 183-198.

Отпечатано в отделе оперативной печати Геологического ф-та МГУ Тираж Ю 0 экз. Заказ №

Оглавление автор диссертации — кандидата физико-математических наук Кузнецов, Юрий Александрович

Введение

Глава 1. Дискретное время

§ 1.1. Постановка задачи. Свойства риска.

§ 1.2. Вероятностная модель.

§ 1.3. Конечный временной интервал.

§ 1.4. Функция риска, как эксцессивная миноранта

Глава 2. Постановка задачи в непрерывном времени

§ 2.1. Импульсная постановка

§ 2.2. Общая постановка.

§ 2.3. Основной результат

§ 2.4. Сведения из стохастического анализа

§ 2.5. "Классическая" задача

§ 2.6. Два подхода к решению

Глава 3. Нахождение оптимальной стратегии

§ 3.1. Границы областей продолжения наблюдений

§ 3.1.1. Область без переключений

§ 3.1.2. Область с переключениями.

§ 3.2. Построение стандартного управления

§ 3.3. Оптимальность

Глава 4. Сходимость

§ 4.1. Сходимость дискретных схем к непрерывным

§ 4.2. Сходимость к процессу У^ : еЩ = —^sgnYtdt + сЩ

Результаты численного моделирования

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Кузнецов, Юрий Александрович

С развитием информационных технологий возросла потребность в эффективной обработке и принятии оптимальных решений относительно производственных, финансовых, экономических и т.п. процессов. Процессы могут быть охарактеризованы своими свойствами, имеющими как количественную, так и качественную природу. Одной из важных задач является различение нескольких утверждений (гипотез) относительно качественных характеристик процессов. Примером такого различения гипотез может быть задача радиолокации о наличии или отсутствии цели на одном из нескольких направлений, задача о нахождении оптимального вложения в финансовые инструменты (акции, опционы, фьючерсы и т.п.), выбор наилучшего лекарственного препарата среди нескольких, задача об оптимальном выборе стратегии производства или инвестиционного проекта. Во всех таких задачах необходимо исследовать качественное поведение имеющегося процесса (есть ли цель или нет в задаче радиолокации, стоит или же нет вкладывать средства в данную ценную бумагу, эффективнее или нет данный медицинский аппарат, чем другой и т.д.).

При решении таких задач первоначально строится модель поведения изучаемого процесса с несколькими качественно разными возможностями развития процесса во времени. Далее выносятся предположения (гипотезы) относительно этих характеристик и производятся наблюдения за процессом. В условиях конечности как времени наблюдений, так и ресурсов, необходимых для проведения дополнительных наблюдений, накладываются ограничения на количество возможных наблюдений.

В работе Неймана и Пирсона [39] была решена задача о различении гипотез при фиксированном количестве возможных наблюдений и при заданных ограничениях па ошибки первого и второго типов.

В дальнейшем были проведены исследования задачи о различении гипотез, когда количество наблюдений заранее не фиксировано и могло меняться в зависимости от наблюденных значений процесса. Эта так называемая задача последовательного различения двух гипотез была сформулирована Вальдом [48].

Им же была указана процедура, основанная на последовательном критерии отношения вероятностей, которая, как им было показано в совместной работе с Волфовитцем [49], оказалась оптимальной в условно вариационной задаче: при заданных ограничениях на вероятности ошибочных решений (вероятности ошибок первого и второго рода) найти процедуру, которая давала бы минимальную длительность наблюдений по обоим гипотезам. Во многих случаях последовательный критерий оказывается более эффективным, чем процедура Неймана-Пирсона с теми же ошибками первого и второго рода. Этой же задаче посвящены работы Блекуэлла и Гиршика [22], Ширяева[46], Лемана [36], Чернова [25].

В непрерывном времени задача о различении гипотез также рассматривалась. Точное решение байесовской задачи последовательного различения двух гипотез о сносе броуновского движения (в дальнейшем изложении - классической задачи) было дано А.Н. Ширяевым [17], из которого следовала и оптимальность вальдовской процедуры в случае броуновского движения.

Естественным обобщением классической является задача (первоначально возникшая из задачи радиолокации для обнаружения цели по нескольким направлениям) различения гипотез, когда наблюдаемых процессов может быть несколько (многомерная задача). При этом предполагается, что наблюдение в каждый момент времени можно проводить только за одним процессом (по одному направлению).

В литературе уже рассматривалась эта задача для дискретного времени и были получены некоторые результаты относительно функции риска и оптимальной стратегии. Задача была впервые сформулирована и изучалась А.Н. Ширяевым[1б], Кайроли и Далангом[23].

Однако задачи, встречающиеся в реальности, включают в себя время как непрерывную величину. До сих пор корректной постановки и решения задачи в непрерывном времени произведено не было. Целью работы является постановка и решение в непрерывном времени задачи о различении гипотез в схеме с возможностью переключения между наблюдаемыми процессами.

Рассмотрение этого случая опирается на решение соответствующей задачи в дискретном случае (глава 1), формулируемой следующим образом.

Предполагается, что наблюдения возможны в моменты времени, кратные некоторому параметру Д. В самом начале наблюдений разыгрывается значение некоторой случайной величины в, принимающей одно из трех возможных значений 9 = 0,1,2. Ее значение неизвестно. Пусть имеются два направления - первое и второе. По первому направлению можно наблюдать случайные величины Х\, Х2, Хз,., а по второму направлению - случайные величины Уг,У2,У3,. Распределение этих случайных величин зависит от в. В каждый момент времени можно наблюдать одно из этих двух направлений. За каждое наблюдение берется плата с > 0. В некоторый момент времени г (момент остановки относительно фильтрации, порожденной наблюдаемыми процессами) необходимо остановить наблюдения и сделать вывод в, относительно неизвестного параметра 9 (с1 = 0, если сделан вывод, что 9 — 0 и в, — 1, если сделан вывод о том, что 9 — 1, 2). Задача заключается в нахождении функции риска г =ЫЕ (а!{9 = 0, й = 1) + /31(0 = 1,2, & = 0) + ст), М) где 1(») - индикатор, а, /3 - плата за ошибки первого и второго рода соответственно.

Стратегия наблюдений состоит из правила переключения между направлениями, момента остановки и окончательного решения относительно значения неизвестного параметра 9. Предполагается известным априорное распределение параметра 9, т.е. считаются заданными вероятности щ = Р(0 = г),г = О,1,2.

Удобно ввести — Р ((9 = г| Т^) - апостериорные вероятности гипотез

9 = 1 для г = 0,1,2 в момент времени £, где ^ - это а-алгебра, порожденная наблюдениями за процессами до момента времени £. Кайроли и Даланг в [23] показали, что в задаче с дискретным временем оптимальное решение зависит от наблюдений только через апостериорные вероятности гипотез , г — 0,1,2.

Также ими было показано, что в дискретной схеме пространство возможных значений апостериорных вероятностей гипотез разбивается на две области: остановки (И) и продолжения наблюдений (С). Это означает, что если значение (тг1(^), 7Г2(£)) находится в области то в этот момент необходимо остановиться и принять решение о значении случайной величины в. Если же (■7Г1(£), 7г2(£)) находится в области С, то необходимо продолжить наблюдения. В последнем случае нужно определить, какое направление из двух следует наблюдать. Был указан способ, позволяющий оптимально выбрать направление, но он предполагает известным точное значение функции риска.

В третьем разделе доказано

Утверждение 5. В одношаговой модели оптимальный выбор направления для наблюдения устроен следующим образом: если 7Гх > 7г2 (7Г1 < 7г2), то необходимо наблюдать первое(второе) направление.

Для конечного временного интервала, когда возможно максимум п наблюдений, доказан аналог соответствующего утверждения для одномерной схемы:

Теорема 2. Функция риска в случае конечного дискретного временного горизонта [0,Т] есть Т-ая степень оператора перехода ф, примененного к функции риска от мгновенной остановки тг1,7г2) = (с}тд) (тгь7г2), где (*,!/) = ы + с, Е%гУ)/(Ат) + с) и

АЫ,у2) = Ы(У1,У2),П2Ы,У2)),

7Гг(^ъ ^2) = Р (0 = ЦГъп), г = 1,2.

В четвертом разделе для бесконечного временного интервала получена характеризация риска, как максимальной с-эксцессивной миноранты (где с-эксцессивная функция- это такая функция /(7Г1,7Г2) , что /(тгх, 7Г2) > <э/(7г1,7г2) ):

Теорема 3. Пусть у(х,у) максимальная с-эксцессивная миноранта д(х,у), и р(х,у) функция риска. Тогда и(х,у) — р(х,у), где (х,у) — — (тгьтгг) известные априорные вероятности. 7

Вторая глава посвящена различным постановкам задачи в непрерывном времени и подготовке технического аппарата для решения задачи в непрерывном времени.

При формулировке соответствующей задачи для случая непрерывного времени возникают некоторые проблемы при определении стратегии. Поскольку наблюдения производятся в непрерывном времени, необходимо определить понятие переключения. Самое простое определение стратегии переключения заключается в задании некоторой последовательности моментов остановки 71,7*2,. •, тп,. Предполагается, что на каждом интервале наблюдается какое-то направление — первое или второе. В момент происходит переключение с наблюдаемого в данный момент направления на другое. Задача заключается в определении оптимального правила переключений т1; 72,. •, тп,., момента остановки г и решающего правила минимизирующих функцию риска

Д= ^ Е (а\(в = 0, с^ = 1) + (31(6 = 1, 2, й = 0) + ст).

Т,Т1,Т2,-,ТП,.,(1)

Это так называемая импульсная постановка (импульсы - это моменты переключения). Недостатком импульсной постановки является то, что в классе импульсных стратегий может не существовать оптимального правила, хотя можно найти импульсное управление, имеющее риск, как угодно близкий к функции риска Я.

Для преодоления этого недостатка можно рассмотреть более общую постановку. В этой более общей постановке расширяется множество возможных управлений. Стратегия определяется уже не моментами переключения, а двумя функциями времени - случайными величинами и Тг(^). Смысл этих значений следующий: Т^Ь) - общее время наблюдения г-го направления в течение промежутка времени [0,£]. При этом должно быть выполнено условие Т^) 4- Т2(£) = Кроме того, эти случайные величины Т*1 (¿), Т^) должны быть неупреждающими, т.е. являются -измеримыми. Заметим, что это действительно есть расширение множества импульсных управлений, поскольку любое импульсное управление может быть реализовано как некоторое управление (Т1(*),Т2(*)), при этом ТхОО.Ггй будут неубывающими ступенчатыми функциями со скачками в моменты времени т/г.

В общей постановке расширяется и понятие правила выбора направлений для наблюдения : становится возможным одновременное наблюдение обоих направлений. Формально это означает, что точки роста функций Т\(Ь) и могут совпадать. При этом суммарное время наблюдения за процессами остается равным £ (Тх(^) + Тг(^) = £). Помимо задания Т\{Ь) и Тг(£) необходимо задать моменты остановки г и решающее правило . В общей постановке найти оптимальную стратегию достаточно сложно, поэтому мы ограничимся только стандартным правилом выбора направления. Стандартное управление (Т\{1), ТЬ^)^ определяется таким образом, что выполнено следующее условие: если > 7Г2(£), то наблюдается первое направление, если тт\{Ь) < 7Г2(£), то наблюдается второе направление. Существование такого управления (в частности, выбор управления в случае 7Гх = 7Г2(£)) рассмотрено в разделе 2 главы 3. В дискретном случае определение стандартного управления такое же, но необходимо рассматривать лишь дискретные моменты времени. Оправданность рассмотрения такого типа управлений для дискретной одношаговой модели показана в разделе 3 главы 1.

Таким образом, задача состоит в выборе оптимального момента остановки т и окончательного решения ^, минимизирующих функцию риска р (тг1,7г2) = т£ Е {а\{в = 0, = 1) + /31(0 = 1,2, й = 0) + сг). т4)

В такой постановке задача сводится к определению т (окончательное решение однозначно определяется после остановки). В дальнейшем для простоты изложения будем считать а = (3 = 1.

Третья глава посвящена нахождению оптимальной стратегии и границ областей продолжения наблюдений в задаче с непрерывным временем. Пусть

Ч>1® = ТГ1(*)/7Го(*), <Р2&) = ^ОО/тГоСО, где = Р (9 = г\ Т^), г — 0,1,2. Доказана

Теорема 4.

1. В классе марковских стандартных стратегий оптимальное правило остановки определяется как момент первого попадания вектора (у^СО» У2СО) где в некоторую область остановки наблюдений (А и I) на рис. 1). Область продолжения наблюдений разбивается на область возможных переключений между направлениями (С\ и С2) и область, где возмоэюно наблюдение лишь одного направления (В\ и В2) •

2. Границы 71 и 72, разделяющие область остановки и область продолжения наблюдений, задаются с помощью кривых 71 = 71(^1) и 72 = 72(^1), которые могут быть для каждого Ъ = 1 + ^1 найдены как решения следующей системы уравнений (в области наблюдения В\)

-»- 71) (^-1)=»- 1.

Функция риска в этой области равна . 6 — С1

Р Ы = 2с (1п С/>2) 7~- + 7-- + 02,

6 + о + (Ь+71)(Ь+72)-(71+72)-2С(1П71)(Ь-71)(Ь+72)+2С(1П72)(6-72)(Ь+71) 1 72-71 ' (¿+71-2) —2с(1п 71) (Ъ-ъ )+2с(1п 72)(Ь-72) 2 72-71

5. Граница 72, разделяющая область остановки и область продолжения наблюдений, задается в области С\ с помощью кривой 72 = 72 ((р\), которая моэюет быть найдена как решение следующего дифференциального уравнения

11 = (У^! - 21пу?1) - (1/72 - 211172) 72 Ы - 72) (1 + VI + 72) с начальным условием 72 (</?*) = 72 (<£>*), где (/?* таково, что 71 ((р*) — </?*. Функция риска в этой области равна \ О (Л \ 1 + VI ~ , С1 рОьЫ = 2с —---+ —---+ С2)

1 + ^1+^2 1 + <Р1 + Ч>1 где

С1 = 2с + с2 = 1+у,11+7а (1 - С1 - 2с(1 + - 72) 1п72) •

Рис.1. Области продолжения наблюдения и остановки

При доказательстве этой теоремы первоначально формулировалась так называемая задача Стефана с подвижными границами для функции риска. Делалось предположение о том, что функция риска удовлетворяет некоторой системе уравнений, а потом доказывалось, что найденное решение системы действительно является функцией риска. Система дифференциальных уравнений задачи Стефана для исследуемой проблемы в области В\ выглядит следующим образом: Р^ОЪЧ>2)Ч>У (1 + Ч>\ + Ч>-1) + (l/2K2V>20b ^Ы = -с,

P0b7i Ol)) — Po Ob7i ОО), < Р Ob72 Ol)) = PO Ob72 Ol)) , р'п 0b7i ОО) = (A))U 0b7i Ol)), , p'V2 Ob 72 Ol)) = (Ро)^2 Ob 72 Ol)), где

Po Оь ¥>2) = min (7Г0,1 - 7г0) = = min (Ol + ¥>2)/(l + Vi + Ф2), 1/(1 + <Pl + <P2)) • Здесь первое дифференциальное уравнение следует из общей теории оптимальной остановки марковских процессов, остальные уравнения в системе - это условия гладкости функции риска на границах областей продолжения наблюдения (условия гладкого склеивания).

Решения 71(921) и 72(^1) этой системы могут быть получены следующим образом. Для каждого фиксированного к = 1 + <¿>1 относительно некоторых неизвестных А* и В* решается система

С(ф (В*) - ф (А*)) = 2,

С (Ф (В*) - Ф (А*)) -С (В*- А*) ф (А*) = 2~2В*~к, при этом С = 2кс, Ф (7г) = (1 — 27г) In (-¡-г^) > Ф (я") = Ф' (тг) и по полученным А* и В* находятся границы

А* .В*

7i Ol) = гА* + Vi)> 72 fai) = (1 + Vi) •

Заметим, что полученная система с А* и В* аналогична системе в классической (одномерной) задаче различения гипотез (см. А.Н. Ширяев [17]) и полностью совпадает с ней при к = 1 (vi = 0). Этот факт является следствием того, что в области, где возможно наблюдение одного направления, задача становится одномерной, а значит, для границ получаются те же уравнения, что и в классической задаче. В разделе 1 главы 3 рассматривается одномерная вспомогательная задача и показывается, что выше определенные как решения системы, точки А* и В* являются границами для области продолжения наблюдений в этой вспомогательной задаче.

При доказательстве теоремы 4, в области возможных переключений между направлениями также формулировалась задача Стефана с подвижными границами для функции риска, имеющая следующий вид:

Р'^Ъ^Ы/ (1 + Vi + 4>г) + (1/2)^2fab V2V2 = -с» р'ъ fab Vi) =

Р fab 72 (vi)) = PO fab 72 fai)), k p'w fab 72 faO) = ы;2 fab 72 fao), где

Po fab V2) = min (7Г0, 1 - 7T0) = = min (Ol + ip2)/(1 + Vi + <P2), 1/(1 + Vi + V2)).

Решая эту систему, получаем для границы 72 = 72 (<£>1) (области С\) дифференциальное уравнение, вынисанное выше в утверждении теоремы.

Четвертая глава посвящена исследованию сходимости процессов управления в задаче в дискретном времени к процессу управления в непрерывном времени и рассмотрению приложений полученных результатов к теории стохастических дифференциальных уравнений.

В первом разделе рассматривается вопрос сходимости дискретных стандартных схем наблюдения ^"т^)) к непрерывной стандартной схеме наблюдения (Хтх(ф Ут2(*)) (дискретную или непрерывную схему назовем стандартной, если соответствующее управление является стандартным), где И^

У- = 10=2Т2П(*) + IV* ад

- процессы наблюдения в дискретной схеме и ад

- процессы наблюдения в непрерывной схеме, при этом выбирается стандартное управление (существование такого управления для непрерывной схемы доказано в разделе 2 главы 3). Предполагается, что наблюдения возможны в моменты времени, кратные некоторому параметру Д = п — 1,2,.

Теорема 5. Процессы наблюдения в дискретной схеме ^т^(г)) схо~ дятся по распределению к процессу наблюдения в непрерывной схеме

ХТ1(1),Ут2(1)) •' (ХтлььУтм) е [0,71 ,п оо, где управления Т2П(^)) и (Тх(^),Т2(£)) предполагаются стандартными.

Кроме того показано, что 1 ^ Вг+ / 8ёаВд(1В3

V о / X у -1 - 2

-£* + / sgn £ясШа где Bt - процесс броуновского движения относительно некоторой меры Р : dP = ехр (-10=1 W* - \1в=хТ) ехр (-19ss2W$ - \lв=2Т) dP.

Одним из применений факта сходимости дискретных стандартных управлений к стандартному непрерывному управлению является результат, касающийся так называемого процесса диффузионного типа bang-bang. Рассматриваются процессы, похожие на процессы наблюдения в дискретной схеме в исследуемой задаче

Х^пщ ~ Ti(t) + где процесс управления Tgit)) - стандартный.

В третьем разделе показано, что разность этих процессов S^ — —

Утп^)> гДе Д = l/n > сходится к некоторому процессу St. Более точно, доказана Теорема 6. Процессы Sв дискретной схеме равномерно в среднеквадра-тическом сходятся к процессу St:

Е ( sup (Sf - St) ) 0, n -> оо,

0<i<T / где процесс St является решением следующего стохастического дифференциального уравнения dSt = -^sgn Stdt + dBt, z где Bt - некоторое броуновское движение.

Основные результаты работы опубликованы в [52],[53],[55].

Заключение диссертация на тему "Последовательное различение гипотез в схеме с альтернативными наблюдениями"

Заключение

В диссертации была в строгой формулировке поставлена задача о различении гипотез в непрерывной схеме с альтернативными наблюдениями. Получены новые результаты об оптимальной стратегии в рассматриваемой задаче, найдена функция риска и границы областей продолжения наблюдений. Были получены стохастические дифференциальные уравнения и системы алгебраических уравнений, которым должны удовлетворять границы областей продолжения наблюдений. Все эти системы уравнений могут быть решены численно и в дальнейшем использоваться на практике.

В дискретном времени так же были получены результаты относительно оптимальной стратегии, структуры областей продолжения наблюдений и характеристик функции риска (как эксцессивной миноранты функции риска от мгновенной остановки).

При исследовании связи между дискретной и непрерывной постановками, была доказана равномерная по времени (на каждом конечном временном интервале) сходимость по вероятности стандартных управлений в дискретных схемах к стандартному управлению в непрерывной схеме. Полученные результаты означают, что можно аппроксимировать непрерывное управление дискретным. Кроме того, важно отметить одно применение используемых методов при исследовании задачи существования решения стохастического дифференциального уравнения. А именно, было показано, что процессы управления в дискретной схеме сходятся к процессу, являющемуся решением некоторого стохастического дифференциального уравнения с сингулярными коэффициентами. Само существование сильного решения данного уравнения требует отдельного доказательства. Однако, в диссертации это решение построено в явном виде, как предел дискретных процессов (стандартных управлений в дискретной схеме).

Работа выполнена на механико-математическом факультете МГУ им. М.В. Ломоносова. Автор выражает глубокую признательность своему научному руководителю - профессору А.Н. Ширяеву за постановку задачи и постоянный интерес к работе.

Библиография Кузнецов, Юрий Александрович, диссертация по теме Теоретические основы информатики

1. Гирсанов И. В. О преобразовании одного класса случайных процессов с помощью абсолютно непрерывной замены меры // Теория вероятностей и ее применения. - 1960. - Т.5. - Вып.З. - С.314-330.

2. Гихман И.И., Скороход A.B. Стохастические дифференциальные уравнения. Киев: Наукова думка, 1968.

3. Григелионис Б.И., Ширяев А.И. О задаче Стефана и оптимальных правилах остановки марковских процессов // Теория вероятностей и ее применения. 1966. - Т.П. - Вып.4. - С.612-631.

4. Дуб Дж.Л. Вероятностные процессы. М.: ИЛ, 1956.

5. Дынкин Е.Б. Марковские поцессы. М.: Физматгиз, 1963.

6. Звонкин А.К. Преобразование фазового пространства диффузионного процесса, уничтожащее снос// Математический сборник. 1974. - Т.93(135). -№1. - С.129-149.

7. Ито К., Маккин Г. Диффузионные процессы и их траектории. М.: Мир, 1968.

8. Кельберт М.Я. О сходимости дискретных схем к непрерывным в некоторых задачах последовательного анализа.//Теория вероятностей и ее применения. 1976. - Т.21 - Вып.З. - С.620-628.

9. Колмогоров А.Н. Теория вероятностей и математическая статистика. Избранные труды. Т.2. - М.: Наука, 1986.

10. Колмогоров А.H., Прохоров Ю.В., Ширяев А.Н. Вероятностно-статистические методы обнаружения спонтанно возникающих эффектов// Труды МИАН СССР. 1988. - Т. 182. - С.4-23.

11. Крылов Н.В. Управляемые процессы диффузионного типа. М.: Наука, 1977.

12. Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов. М.: Наука, 1974.

13. Липцер Р.Ш., Ширяев А.Н. Теория мартингалов. М.: Наука, 1986.

14. Михалевич B.C. Байесовский выбор из двух гипотез о среднем значении нормального процесса// Вестник Киевского университета. 1958. - Т.1. -№1. - С.101-104.

15. Шепп Л.А., Ширяев А.Н. Новый взгляд на расчеты "Русского опциона"// Теория вероятностей и ее применения. 1994. - Т.39. - Вып.1. - С.130-149.

16. Ширяев А.Н. Статистический последовательный анализ. 2-е изд., пере-раб. - М.:Наука, 1976.

17. Ширяев А.Н. Стохастические проблемы финансовой математики // Обозрение прикладной и промышленной математики. 1994. - Т.1. - Вып.5. -С.780-820.

18. Ширяев А.Н., Кабанов Ю.М., Крамков Д.О., Мельников А.В. К теории расчетов опционов Евпропейского и Американского типов. ГДискретное время // Теория вероятностей и ее применения. 1994. - Т. 39. - Вып.1. -С.21-79.

19. Ширяев А.Н., Кабанов Ю.М., Крамков Д. О., Мельников А. В. К теории расчетов опционов Евпропейского и Американского типов.1.. Непрерывное время // Теория вероятностей и ее применения. 1994. -Т.39. - Вып.1. - С.80-129.

20. Arrow K.J., Blackwell D., Girshick M.A. Bayes and minimax solutions of sequential decision problems// Econometrica. 1949. - Vol.17. - №3-4. - P.213-244.

21. Blackwell D., Girshick M.A. Theory of Games and Statistical Decisions. -N.Y.: Wiley, 1954.

22. Cairoli R., Dalang Robert C. Sequential Stochastic Optimization. N.Y.:Wiley, 1996.

23. Chernoff H. Sequential tests for the mean of a normal distribution// Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability. Berkeley:Univ.of California Press. - 1961. -Vol.1. - P.79-91.

24. Chernoff H. Sequential Analysis and Optimal Design. Philadelphia, PA: SI AM, 1972.

25. Cherny A.S., Shiryaev A.N., Yor M. Limit behaviour of the "horizontal-vertical" random walk and some extensions of the Donsker-Prokhorov invariance principle// Теория вероятностей и ее применения. 2002. - Т.47. - Вып.З. -С.498-517.

26. Chow Y.S., Robbins Н., Siegmund D. Great Expectations: The Theory of Optimal Stopping. Boston: Houghton Mifflin Сотр., 1971.

27. Dvoretzky A., Kiefer J., Wolfowitz J. Sequential decision problems for processes with continuous time parameter, testing hypotheses// Ann. Math. Stat. 1953. - Vol.24. - №2. - P.254-264.

28. Ghomrasni R., Peskir G. Local time-space calculus and extensions of Ito's formula//Proc. High dimensional probability III (Sandbjerg,2002), Progr.Probab. Vol.55. - Basel:Birkhauser,2003. - P. 177-192.

29. Ikeda N., Watanabe S. Stochastic Differential Equations and Diffusion Processes. 2nd ed. - Amsterdam: North-Holland, 1989.

30. Ito K. Stochastic integral// Proc. Imp. Acad. Tokyo. 1944. - Vol.20. - №8. -P.519-524.

31. Ito K. On a stochastic integral equation // Proc. Imp. Acad. Tokyo. 1946. -Vol.22. - №2. - P.32-35.

32. Ito K. On stochastic differential equations // Memoirs of the American Mathematical Society. 1951. - Vol.4. - P.l-89.

33. Jacod J. Calcul stochastique et problèmes de martingales // Lecture Notes in Mathematics. Vol.714. - P.l-539. - Berlin:Springer-Verlag, 1979.

34. Karatzas I. On the pricing of American options// Applied Mathematics and Optimization. 1988. - Vol.17. - №1. - P.37-60.

35. Lehmann E. L. Testing Statistical Hypotheses. N.Y.: Wiley, 1959.

36. Mandelbaum A. Continuous multi-armed bandits and multiparameter processes//Ann.Probab. 1987. - Vol.15. - №4. - P.1527-1556.

37. Mandelbaum A., Shepp L. A. and Vanderbei R. J. Optimal switching between a pair of Brownian motions// Ann. Probab. 1990. - Vol.18. - №3. - P. 1010-1033.

38. Neyman J., Pearson E.S. On the problem of the most efficient tests of statistical hypotheses// Phil. Trans. Roy. Soc. London. Ser. A. 1933. - Vol.231.- P.289-337.

39. Peskir G. A change-of-variable formula with local time on curves //J. Theoret. Probab. 2005. - Vol.18. - №3. - P.499-535.

40. Peskir G. On the American option problem// Math. Finance. 2005. - Vol.15.- №1. -P.169-181.

41. Peskir G., Shiryaev A. N. Optimal stopping and free-boundary problems. Lectures in Mathematics, ETH Zurich: Birkhauser, 2006.

42. Peskir G. Principle of smooth fit and diffusions with angles. Research Report No. 7 (2006), Probab. Statist. Group Manchester//Sto-chastics. 2007. - Vol.79. - №3-4. - P.293-302.44