автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Методы эмпирического прогнозирования, основанные на устойчивых разбиениях и коллективных решениях

доктора физико-математических наук
Сенько, Олег Валентинович
город
Москва
год
2006
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Методы эмпирического прогнозирования, основанные на устойчивых разбиениях и коллективных решениях»

Автореферат диссертации по теме "Методы эмпирического прогнозирования, основанные на устойчивых разбиениях и коллективных решениях"

Российская академия наук II IИI III I lili 11|||| III

Вычислительный центр имени А А Дородницына |||(||||| ||||| I ill I I

ООЗОВ2В4Е

I

На правах рукописи

СЕНЬКО ОЛЕГ ВАЛЕНТИНОВИЧ

МЕТОДЫ ЭМПИРИЧЕСКОГО ПРОГНОЗИРОВАНИЯ, ОСНОВАННЫЕ НА УСТОЙЧИВЫХ РАЗБИЕНИЯХ И КОЛЛЕКТИВНЫХ РЕШЕНИЯХ

05 13 17 - теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора физико-математических наук

Москва 2007

Работа выполнена в Вычислительном центре им А А Дородницына Российской академии наук

Официальные оппоненты доктор физико-математических наук,

чл -корр РАН Матросов Виктор Леонидович

доктор технических наук, профессор Синицын Игорь Николаевич

доктор физико-математических наук, профессор Чуличков Алексей Иванович

Ведущая организация Московский физико-технический институт

/У /у С 9

Защита диссертации состоится «' » Я 2007 г в ' ' часов на заседании

диссертационного совета Д002 017 02 в Вычислительном центре им А А Дородницына Российской академии наук по адресу 119 333, г Москва, ул Вавилова д 40

С диссертацией можно ознакомиться в библиотеке ВЦ РАН

Автореферат разослан «/¿У » 2007 г

Ученый секретарь диссертационного совета д ф -м н

В В Рязанов

Актуальность темы

Методы прогнозирования, в основе которых лежит анализ структуры доступной эмпирической информации, получили значительное распространение в различных областях прикладных исследований Методы такого рода далее будут называться методами эмпирического прогнозирования Особенно интенсивно эмпирическое прогнозирование используется в слабоформализованных областях, где моделирование, основанное на априори известных физических законах, невозможно или малоэффективно К таким областям могут быть отнесены медицинские и биометрические исследования, исследования, связанные с различными задачами, возникающими в бизнесе, экономике, социологии, геологии, экологии, технике, сельском хозяйстве

В зависимости от типа прогнозируемой величины могут быть выделены три группы наиболее широко используемых методов эмпирического прогнозирования

К первой группе отнесем разнообразные методы регрессионного анализа, которые предназначены в основном для прогнозирования непрерывных скалярных величин по известным векторам прогностических (независимых) переменных

Вторую группу, которая в настоящее время, по-видимому, лидирует по числу приложений, образуют методы распознавания образов Методы распознавания предназначены для отнесения объектов к конечному числу априори фиксированных классов по известным описаниям, которые обычно представляют собой вектора значений переменных (признаков)

Можно выделить также третью группу методов, предназначенных для оценки по вектору прогностических переменных вероятности безотказной работы объектов в течение произвольного интервала времени, прошедшего с начала функционирования Фактически векторам прогностических переменных ставятся в соответствие монотонно невозрастающие функции, заданные на некотором интервале временной оси

В основе всех вышеупомянутых методов лежит процедура обучения, заключающаяся в настройке параметров прогнозирующего алгоритма по имеющемуся в распоряжении исследователей массиву эмпирических данных, который мы далее будем называть обучающей выборкой

Естественно, что одной из центральных проблем, связанных с правомерностью использования эмпирического прогнозирования, является сохранение точности прогноза на новых аналогичных по типу и условиям

получения объектах, но не содержащихся в обучающей выборке Данное свойство прогнозирующих алгоритмов принято называть обобщающей или экстраполирующей способностью

В связи с обширностью сферы применимости эмпирического прогнозирования и важностью связанных с ним практических является актуальной задача разработки новых методов, одновременно обладающих высокими возможностями по аппроксимации зависимостей на обучающей информации и высокой экстраполирующей способностью

Может быть выделен ряд основных направлений исследований, связанных с разработкой методов улучшения обобщающей способности В их число входит разработка методов повышения точности прогноза или распознавания на известной обучающей информации Повышение может быть достигнуто путем использования мультипараметрических моделей с широкими возможностями аппроксимации В качестве примера могут быть приведены алгоритмы распознавания из модели вычисления оценок, модели с потенциальными функциями, модели опорных векторов, многослойного перцептрона, методы, основанные на аппроксимации сплайнами Одним из путей повышения аппроксимационных возможностей параметризованных моделей является использование их алгебраических замыканий относительно операций над матрицами оценок Однако при ограниченном объеме обучающей информации и высокой размерности данных чрезмерное увеличение аппроксимационных возможностей используемых методов приводит к потере устойчивости получаемых решений

Достаточно распространенным подходом к повышению точности распознавания является использование коллективных решений При этом такие решения могут строиться как по набору заранее обученных алгоритмов из разных моделей, так и по наборам элементов (закономерностей), которые ищутся в рамках одной модели Существуют также целый ряд методов принятия коллективных решений наборами заранее обученных алгоритмов Наряду с простейшими голосованием по большинству и классификацией по максимальным величинам суммарных оценок к их числу могут быть отнесены различные методы логической и алгебраической коррекции В качестве примеров моделей распознавания, основанных на голосовании по наборам закономерностей, могут быть названы тестовый алгоритм, алгоритмы типа Кора и Лорег, метод комитетов Вместе с тем описанные в литературе методы голосования носят в основном эвристический характер и не включают в себя статистически обоснованных процедур взвешивания различных элементов

Повышения точности эмпирического прогнозирования может быть достигнуто путем уменьшения или исключения влияния на обучение объектов, которые по разным причинам значительно отклоняются от закономерностей, связанных с задачей прогнозирования К настоящему времени предложено большое число устойчивых к выпадающим объектам методов для прогнозирования непрерывных переменных В меньшей степени задача рассматривалась также в теории распознавания Однако слабо изученным остается количественное влияние выпадающих объектов на точность эмпирического прогнозирования с учетом степени их отклонения от основных закономерностей и распределения в пространстве прогностических переменных

С задачей собственно эмпирического прогнозирования связана задача оценки влияния на прогнозируемую величину отдельных прогностических переменных или групп переменных Данная задача представляет самостоятельный интерес для эксперта Важность ее обуславливается также необходимостью предварительного отбора переменных Широкий спектр методов был разработан в рамках теории математической статистики К их числу следует отнести одномерные и многомерные статистические тесты, методы корреляционного, регрессионного, дисперсионного и

ковариационного анализов Однако методы корреляционного и линейного регрессионного анализа требуют предположений о линейном характере зависимостей, дисперсионный анализ применим только в случае категориальных или порядковых прогностических переменных с ограниченным числом возможных значений В связи с этим следует признать актуальной задачу разработки новых универсальных статистически достоверных методов исследования зависимостей Основные цели работы

Наиболее значимой целью работы является создание математически обоснованных подходов к повышению обобщающей способности и разработка на их основе новых методов распознавания и других методов эмпирического прогнозирования Данная цель включает в себя также тестирование разработанных методов на достаточно представительных наборах практических или искусственно сгенерированных задач и выявление условий их наиболее эффективного функционирования Целью исследования также является разработка универсальных методов, позволяющих оценивать влияние на прогнозируемую величину отдельных прогностических переменных или групп переменных

Научная новизна исследования

Рассматривался подход к повышению обобщающей способности методов эмпирического прогнозирования, основанный на минимизации обобщенной ошибки прогнозирования, представляющей собой усреднение ошибки не только по пространству всевозможных объектов, для которых осуществляется прогноз, но и по пространству всевозможных обучающих выборок Обобщенная ошибка может быть представлена в виде суммы трех составляющих неустранимой шумовой составляющей, составляющей смещения и составляющей нестабильности Составляющая смещения представляет собой среднеквадратичное отклонение математического ожидания прогнозирующей функции по пространству обучающих выборок (ПОВ) от условных математических ожиданий в точках пространства прогностических переменных Составляющая нестабильности представляет собой усредненное по ПОВ среднеквадратичное отклонение прогнозирующих функций от усредненных по ПОВ значений Неустранимая шумовая составляющая представляет собой среднеквадратичное отклонение прогнозируемой величины от условных математических ожиданий в точках пространства прогностических переменных Повышение обобщающей способности методов эмпирического прогнозирования может достигаться путем снижения составляющих смещения и нестабильности

В качестве средств снижения составляющих смещения и нестабильности рассматривались коллективные методы На первом шаге рассматривалась задача прогнозирования скалярных переменных Было показано, что использование в качестве прогнозируемых значений среднеарифметических значений по наборам прогностических алгоритмов приводит к коллективному методу, для которого составляющие смещения, нестабильности и, как результат, вся обобщенная ошибка не превышают средние значения этих параметров по наборам При этом может достигаться значительное снижение составляющей смещения, зависящее от величины взаимных различий алгоритмов коллектива Откуда может быть сделан вывод об эффективности наборов относительно слабо коррелирующих друг с другом алгоритмов с низкими значениями составляющей нестабильности В частности могут быть использованы наборы алгоритмов, осуществляющих прогноз по подмножествам переменных с размерностью меньшей размерности исходной задачи Данный вывод был убедительно подтвержден для коллективов алгоритмов множественной линейной регрессии с помощью Монте-Карло экспериментов Было показано, что

аналоги результатов, касающихся поведения составляющих обобщенной ошибки для метода среднеарифметических значений, справедливы также для задач прогнозирования векторных величин и функциональных зависимостей

Была разработана процедура построения прогнозирующих функций путем взвешенного голосования по системам подобластей в многомерном признаковом пространстве (базовым множествам) Весовые коэффициенты при голосовании вычисляются путем максимизации функционала правдоподобия специального вида Данную процедуру построения прогнозирующих функций далее будет называться методом прогнозирования статистически взвешенным голосованием (ПСВГ)

В методе ПСВГ используется независимое включение в функционал правдоподобия сомножителей, соответствующих отдельным базовым множествам При этом не предполагается учет меры их взаимного пересечения, что в реальности может привести к существенному завышению вклада множеств, в значительной степени дублирующих друг друга В связи с этим была предложена процедура построения оптимальных коллективных решений, основанная на минимизации оценок локального функционала потерь и принимающая во внимание степень коррелированности вошедших в коллектив элементов

Метод ПСВГ был использован при построении ряда алгоритмов распознавания В первую очередь здесь следует упомянуть метод статистически взвешенных синдромов, в котором в качестве базовых множеств выступают "синдромы" подобласти в пространстве прогностических признаков, внутри которых содержание объектов одного из классов значительно отличается от его содержания в смежных областях При этом граничные точки, формирующие "синдромы", ищутся с помощью метода оптимальных разбиений интервалов допустимых значений отдельных признаков Отбор закономерностей производится по величине функционала, характеризующего степень разделения классов, при возможном использовании также функционала, характеризующего стабильность границ Метод СВС был достаточно успешно использован при решении целого ряда практических задач[4,7,31,33,] Вместе с тем в нем используются только одномерные модели оптимальных разбиений, а в голосование участвуют только лишь закономерности, выделенные с помощью границ, параллельных координатным осям Для преодоления этих ограничений были предложены метод двумерных линейных разделителей (ДЛР) и метод мультимодельного голосования с

пропорциональной коррекцией (МГПК), использующие для вычисления оценок за классы процедуру ПСВГ

В методе ДЛР базовые множества формируются путем дихотомических разбиений двумерных областей допустимых значений пар признаков При этом разбиения производятся с помощью прямых с произвольной ориентацией относительно координатных осей, а элементы разбиения включаются в систему базовых множеств при превышении порогового значения функционала, характеризующего степень разделения классов

В методе МГПК совместно используются базовые множества, полученные с помощью

а) одномерных разбиений,

б) двумерных разбиений с границами, параллельными координатным

осям,

в) двумерных разбиений, производимых с помощью прямых с произвольной ориентацией относительно координатных осей

Также как и в методах ДЛР и МГПК в систему базовых множеств включаются элементы разбиений, для которых величина функционала, характеризующего степень разбиения, превышает пороговые значения Для снижения эффекта перенастройки величины пороговых значений варьируются в зависимости от сложности используемой модели разбиений В работе произведен сравнительный анализ трех методов Исследования показали, что метод МГПК в среднем обеспечивает высокую точность на более широком круге задач

В диссертации также представлен ряд исследования по оценке влияния выпадающих объектов на экстраполирующую способность множественной линейной регрессии и линейного дискриминанта Фишера Исследования проводились на искусственно сгенерированных выборках данных с различным характером отклонения распределения выпадающих объектов от распределения В ходе исследований были предложены новые процедуры выявления выпадающих объектов и проведена оценка их эффективности

Исследована задача оценки статистической достоверности зависимости прогнозируемой величины от группы прогностических переменных, выявленной с помощью методов эмпирического прогнозирования В качестве средства оценки достоверности рассматривается перестановочный тест, не требующий предположений о характере шумовой составляющей и ограничений на размер выборок

Предложен новый метод исследования влияния отдельных прогностических переменных, а также пар переменных на прогнозируемую величину Метод основан на построении оптимальных разбиений областей допустимых значений прогностических переменных в рамках моделей различного уровня сложности Для верификации выявленных таким образом закономерностей используется перестановочный тест и его модификации Эксперименты, проведенные на искусственно сгенерированных выборках, продемонстрировали возможности метода по выявлению закономерностей, предусмотренных сценарием генерации данных, а также низкую вероятность включения в выходной набор ложных и частично ложных закономерностей Важным преимуществом разработанного метода построения оптимальных статистически достоверных разбиений является возможность использования его в задачах со смешанным типом скалярных прогностических переменных, включая непрерывные, порядковые и категориальные переменные Метод допускает также и самую разнообразную природу прогнозируемых величин скалярные переменные, векторные переменные, а также кривые выживаемости

Практическая ценность. Практическая ценность работы определяется прямой возможностью использования разработанных и программно реализованных алгоритмов эмпирического прогнозирования и анализа данных в прикладных исследованиях

Методы исследований. В работе использованы методы математической теории распознавания образов, методы математической статистики, методы комбинаторного анализа

Основные результаты диссертации, выносимые на защиту

1) Совокупность теоретических и экспериментальных результатов, устанавливающих взаимосвязь составляющих смещения и нестабильности для метода среднеарифметических значений по коллективу прогностических алгоритмов со средними значениями данных составляющих по алгоритмам коллектива Взаимосвязь установлена для задач прогнозирования как скалярных, так и векторных величин, а также функциональных зависимостей

2) Процедура построения прогнозирующих функций путем взвешенного голосования по системам подобластей в многомерном признаковом пространстве (базовым множествам), в которой весовые коэффициенты при голосовании вычисляются путем максимизации функционала правдоподобия специального вида

3) Процедура построения оптимальных коллективных решений, основанная на минимизации оценок локального функционала потерь и принимающая во внимание степень коррелированности вошедших в коллектив элементов

4) Методы распознавания, основанные на взвешенном голосовании по системам подобластей признакового пространства

5) Методы выявления в данных объектов, выпадающих из основных закономерностей, основанные на использовании искажений регрессионных функций или разделяющих поверхностей

6) Совокупность результатов, обосновывающих использование перестановочных тестов в качестве средства оценки достоверности результатов эмпирического прогнозирования

7) Метод анализа данных, основанный на построении оптимальных разбиений пространства прогностических переменных в рамках заранее фиксированных моделей различного уровня сложности и использующий для верификации перестановочные тесты

8) Результаты применения разработанных методов распознавания данных для решения задач медицинской диагностики и прогнозирования

Апробация работы

Основные результаты работы докладывались и обсуждались на Всероссийских конференциях "Математические методы распознавания образов" ( 6-ая Москва, 1993 г, 7-ая Пущино, 1995 г , 8-ая Москва, 1997 г, 9-ая Москва, 1999 г, 10-ая Москва, 2001 г, 11-ая Москва, 2003 г, 12-ая Москва, 2005 г), на Международной конференции "Математические методы интеллектуализации обработки информации" (Алушта, 1996 г), "Распознавание образов и обработка информации" (Минск, 2003 г), COMPSTAT 2000 (Утрехт, Нидерланды, 2000), 2nd Conference «Computer Science and Information Technologies - CSIT-99» (Ереван, Армения, 1999 г), на международных конференциях «Распознавание образов и анализ изображений новые информационные технологии» (РОАИ-3-98, Нижний Новгород, 1996, РОАИ-5-2000, Самара, 2000г, РОАИ-6-2002 Великий Новгород, 2002г, РОАИ-7-2004, Санкт-Петербург, 2004), на 18-ом международном семинаре по статистическому моделированию (Левен, Бельгия, 2003), International conference on systems and signals in intelligent technologies (Минск, 1998 г), на 14-ом международном семинаре по статистическому моделированию ( Грац, Австрия, 1999г), Международная

научно-практической конференция «KDS-2001»(CaHKT Петербург, 2001), Fourth International Conference «Pattern Récognition and Information Processing-PRIP'97» (Минск, 1997 г ), на 6-ом открытом германо-российском семинаре "Pattern Récognition and Image Understanding" (Новосибирск, 2003), на 14-ой международной конференции по распознаванию образов (Брисбен, Australia, 1998), Haï международной конференции Математическая биология и биоинформатика (Пущино, 2006) Публикации

По теме диссертации опубликовано 53 работы Структура и объём работы

Диссертация состоит из введения, восьми глав и списка литературы Объем основного текста работы - 229 страниц, работа содержит 14 рисунков, список литературы включает 139 наименований Краткое содержание работы

Во введении обсуждается мотивация работы, формулируются основные цели и задачи В первой главе дается обзор описанных в литературе методов повышения точности эмпирического прогнозирования

Во второй главе рассматривается подход, в котором задача повышения точности эмпирического прогнозирования скалярных переменных рассматривается как задача снижения обобщенной ошибки В разделе 2 1 рассматривается задача прогнозирования скалярной величины Y по векторам прогностических переменных Х^, .. ,Хр Под интегральной

ошибкой Ар. в данном случае понимается величина квадрата отклонения прогноза от реальных значений, усредненная по пространству объектов (QpEj.Pj), для которых осуществляется прогноз, а также по пространству всевозможных обучающих выборок, размер которых совпадает с размером реальной обучающей выборки (Q 2,2 2, Р2 )

AF= | J {h[x(ù)x),со2]~Г(оЛ)}2Р,{dcox)V2(dco2)

2 П

Показано, что обобщенная ошибка при прогнозировании скалярных переменных представима в виде суммы трех составляющих неустранимая

шумовая составляющая - Ajy = j* {F-M[F | ,

составляющая нестабильности -

-Д,= 1 | {А[хЦ),<а2]-А[хЦ)]}2Р1(^)Р2(</йд2),

П о

2 1

составляющая смещения - Ав = J {М[71 )]—)]}2Р1 (¿/й^)

П

1

Здесь Л(х) = ^/г (х,гУ2)Р2(с/й)2) Повышение точности прогноза может быть

достигнуто путем уменьшения составляющих смещения и нестабильности В качестве средства улучшения качества прогноза рассмотрен подход, основанный на коллективных решениях Предположим, что для решения задачи эмпирического моделирования используется набор различных методов эмпирического моделирования П = {П1, Пусть

И = {/¡[х, П1 ], ,/г[х, - соответствующий набор оптимальных

прогнозирующих функций Доказано, что составляющие смещения и нестабильности для коллективного метода среднеарифметических значений,

использующего для прогноза функцию ка[\,§,1г] = — /г[х,5,П;], не

превышают средней величины составляющей нестабильности по совокупности методов П Поскольку величина неустранимой шумовой компоненты является характеристикой, не зависящей от алгоритма прогнозирования, то обобщенная ошибка метода среднеарифметических значений также не превышает средней обобщенной ошибки по совокупности методов П Доказано, что величина снижения составляющей смещения определяется функцией

К(х) = 1----, заданной в пространстве

1 + {М(У|х)-1£ Аг(х)}2/ОД

г = 1

прогностических переменных Здесь D(\) = {ЛДх) /г;(х)}2-

г=1 1=1

дисперсия прогнозов в точке х, усредненных также по пространству

(П2,Е2,Р2) на совокупности методов П Очевидно, что снижение К

оказывается довольно значительным в случае, если квадрат дисперсии L

D(x) > {М(У | х) - ^ ЛДх)}2 и даже в случае, если D(x) сравним с i= 1

L

расстоянием {М(У | х) -J-^T^ /г; (х)}2 В результате следует сделать сделан

¡=1

вывод об эффективности наборов относительно слабо коррелирующих друг с другом алгоритмов с низкими значениями составляющей нестабильности В частности могут быть использованы наборы алгоритмов, осуществляющих прогноз по подмножествам переменных с размерностью существенно меньшей размерности исходной задачи Высокие прогностические возможности метода среднеарифметических значений для подобных наборов были подтверждены с помощью экспериментов на искусственно сгенерированных таблицах В частности, эффективность метода среднеарифметических, примененного к коллективу линейных регрессий, использующих непересекающиеся и идентичные по методике генерации подмножества переменных, сравнивалась с эффективностью стандартного (использующего МНК оценки) метода линейной регрессии по всему набору переменных Было показано, что значения составляющих смещения и нестабильности коллективного метода ниже соответствующих значений для каждого из алгоритмов коллектива При этом более значительным оказалось снижение компоненты смещения Следует отметить значительное повышение общей точности коллективного метода по отношению к точности стандартной линейной регрессии по всему набору переменных При этом данное повышение достигается почти полностью за счет снижения составляющей нестабильности Также с помощью искусственно сгенерированных таблиц проведены исследования по сравнению эффективности метода взвешенных парных регрессий, основанного на взвешенном голосовании по множеству линейных регрессий по парам прогностических переменных, со стандартным методом множественной линейной регрессии

Исследования показали более высокую эффективность метода взвешенных парных регрессий для задач, в которых прогностические переменные и прогнозируемая величина являются линейными стохастическими функциями пары линейных переменных В главе 2 также представлены теоретические результаты, обобщающие свойства составляющих смещения и нестабильности в задачах прогнозирования скалярных переменных на случаи прогнозирования векторных переменных конечной размерности и заданных на отрезках функциональных зависимостей

В главе 3 рассмотрены методы эмпирического прогнозирования с помощью взвешенного голосования по системе областей пространства прогностических переменных При прогнозировании используется обучающая выборка = {(>'1,х1), ,(ут,хт)}, где {у^ ,ут}- значения

переменной У, а (Х|, ,хт}- соответствующие им вектора значений

прогностических переменных В разделе 3 1 рассмотрен метод построения оптимальной процедуры взвешенного голосования, основанный на максимизации функционала правдоподобия специального вида Метод основан на независимом учете вкладов различных элементов голосования

(элементов ¿0) Через обозначим минимальную алгебру, содержащую

<20, а через обозначим множество элементов , которые не могут быть

представлены в виде объединения других элементов В качестве

прогнозируемого значения переменной У в точке х используется оценка

~ О

условного математического ожидания М(У 1, где д элемент , содержащий точку х При построении функционала правдоподобия используется функция ¿¡и (х), задаваемая так, что = М(У | д), где

~ 2

д е <20' содержащий точку хе д Предполагается, что д принадлежит пересечению множеств , <2Р из (?0 Через У[ обозначим среднее

значение прогнозируемой функции У на объектах обучающей выборки с векторами значений прогностических переменных, принадлежащих базовому множеству • Мы будем аппроксимировать плотность

распределения [V) величины У1 и распределения {¿и) функции (х) внутри базового множества ()1, используя нормальный закон

2

= М(У|ф] =-1—

[2я-Б(Щ)]2 ¿ЩгЩ,)

1=1, ,р

Функцию "правдоподобия" Ь определим как произведение плотностей вероятностей /¡У(У;) и Неизвестные условные математические

ожидания М(У ), ,М(У | ()р) будем рассматривать как

неизвестные параметры .. > , соответственно Тогда функцию правдоподобия Ь можно записать в виде

1=1

Точка максимума функционала Ь(г0, ,гр) совпадает с точкой минимума функционала

¿/2Д(Г|ф I а)

В качестве оценок условных математических ожиданий М(У |<7),М(У| 2}), ,М(У| £)р) будем рассматривать значения параметров

, , доставляющие минимум функционалу Ь'(г0, ,

Показано, что Ь'(г0, ,гр) достигает минимума при -

г=1

Данную величину мы и будем считать значением в произвольной точке х е г/ искомой функции ф{\), описывающей зависимость У от переменных Х^, ,Хп с помощью системы базовых множеств В качестве веса г -го базового множества выступает параметр

и', =------, который определен, очевидно, при В(У I О,) > О

г т^+хтх^у р '

Параметр к, =—^ ^ представляет собой отношением

детерминированности относительно разбиения ¿>о компоненты вариации прогнозируемой функции У к общей вариации У внутри базового множества £5, и может рассматриваться в качестве меры

детерминированности функции У внутри Следует отметить, что

получаемая на выходе рассмотренной процедуры статистически взвешенного голосования функция ф{\) обладает свойством высокой коррелированности с прогнозируемой величиной Однако ее использование при решении конкретных задач эмпирического прогнозирования требует дополнительных преобразований В разделах 3 12 и 3 1.3 рассмотрены способы использования процедуры взвешенного голосования для прогнозирования скалярных непрерывных переменных и для оценивания кривых выживаемости Использованию процедуры статистически взвешенного голосования для решения задач распознавания посвящена глава 4

Рассмотренный в 3 1 метод взвешенного голосования, максимизирующий функцию правдоподобия, основан на независимом вычислении вклада каждого из базовых множеств и, следовательно, не предполагает учета степени взаимного пересечения множеств из системы Между тем, отсутствие такого учета может привести к существенному завышению вклада дублирующих друг друга базовых множеств В разделе

(3 2) предлагается вариант организации голосования, учитывающий взаимопересечение базовых множеств Предположим, что точка х'

~ 2

принадлежит элементу ^ из (?0 , который является пересечением множеств

1 у"' 1 х" ^

,др из <20 Пусть Уг = —аДх^), где аДх)

т у=1 т у=1

индикаторная функция базового множества <2, В качестве прогнозируемого значения У в точке х' предлагается использовать взвешенную статистику

Т(х') ^

Ях'^-^тту, = )=\с1т1 Взвешивающие

1=1 ¡=1

коэффициенты с^, ,ср оцениваются путем минимизации оценки

функционала локальных потерь

ДЯх'Л^] = Г| 4 -?(х')\ ?{с!со), В качестве оценки Ц?(х'

предлагается использовать функционал х, представляющий собой полусумму верхней и нижней оценки £\Т( х),^и, </'] по множеству всевозможных вероятностных распределений Для получения таких оценок в свою очередь используется полученная в разделе 3 2 2 верхняя оценка вероятности принадлежности функции £и (х) интервалу фиксированной длины при условии х е д, сформулированная в теореме 3 Пусть О(х') —

Р

дисперсия функции Е(х,х') = ^ГсД£Дх)-М(Г | <2г)]аДх], Ои(х'),

1=1

ОДх') — дисперсии функций ^(х!) и ^¡(х'), соответственно, р2 — параметры, принимающие значения из интервала (0,1)

Теорема 3. Справедливо неравенство

£ {4 (х) е С0(<?) | х е 0}Р(9) > р2 (2Р/ -1), где

С0 (д) отрезок [Ях')(1 -31Л-5иг 5Х + 51{) + 5иг+52]

Оценка £\7( х'), ] зависит от параметров распределения прогнозируемых

объектов и параметров которые подбираются из условия ее

минимизации с использованием принципов самосогласования

В главе 4 рассмотрен ряд алгоритмов распознавания, в которых в качестве оценок за классы К^, ,К^ для некоторого распознаваемого

объекта выступают рассчитанные с помощью предложенной в разделе 3 1 процедуры статистически взвешенного голосования оценки значений индикаторных функций классов В качестве базовых множеств используются подобласти в пространстве прогностических признаков, внутри которых содержание объектов одного из классов значительно отличается от его содержания в смежных областях В разделе 41 рассмотрен наиболее ранний по времени разработки метод «Статистически взвешенные синдромы», который был разработан в 1993 1995 гг в ходе совместной работы автора с группой сотрудников Института биохимической физики им Н М Эмануэля РАН [4,7,31,33] В данном методе используются одномерные и двумерные базовые множества («синдромы»), задаваемые с помощью конъюнкций неравенств над формирующими их переменными Одномерные «синдромы» в методе СВС ищутся для каждого из классов по исходной обучающей выборке с помощью стабильных одномерных разбиений областей допустимых значений каждого из признаков Поиск производится путем максимизации функционала, характеризующего степень отделения объектов анализируемого класса от остальных объектов обучающей выборки Соответствующие двумерные синдромы задаются как всевозможные пересечения одномерных синдромов Использование в методе СВС параметра, характеризующего стабильность границ, позволяет осуществлять автоматический выбор между моделями разбиений различного уровня сложности Для оптимизации используемого для распознавания набора признаков используется пошаговая процедура

Метод СВС основан на использовании в качестве базовых множеств только тех областей признакового пространства, которые задаются с

помощью одиночных признаков и граничных точек или с помощью парных сочетаний признаков и границ, параллельных координатным осям Однако последнее ограничение может приводить к существенному снижению точности в задачах, где учет взаимодействия признаков является существенным для оптимального разделения

В связи с этим был предложен описываемый в разделе 4 2 метод «Двумерные линейные разделители», в котором также как и в СВС в качестве оценок за классы К^, ,KL для некоторого распознаваемого

объекта S выступают рассчитанные с помощью процедуры статистически взвешенного голосования оценки значений индикаторных функций классов at(S), ,aL(S) Однако в качестве базовых множеств используются подобласти признакового пространства, получаемые путем оптимальных разбиений двумерных областей допустимых значений пар признаков с помощью линейных границ с произвольной ориентацией относительно координатных осей

Проведенные на реальных данных эксперименты показали, что использование метода двумерных линейных разделителей позволяет достичь высокой точности распознавания для отдельных задач Вместе с тем для многих задач его эффективность оказалась заметно хуже эффективности других методов, включая СВС Снижение точности распознавания ДЛР по отношению к СВС вероятно связано с тем, что во многих случаях совместное влияние признаков на принадлежность объектов классам адекватно описывается с помощью границ, параллельных координатным осям При этом увеличение неустойчивости поиска закономерностей, вызванное использованием более сложных моделей с линейным разделением, приводит к отклонениям от оптимальных границ Однако использование более сложных моделей является оправданным в случае, если учет взаимодействия признаков является объективно существенным для оптимального разделения классов В связи с этим был предложен представленный в разделе 4 3 метод «Мультимодельное голосование с пропорциональной коррекцией», в котором поиск закономерностей производится в рамках моделей разбиений различными уровнями сложности, включая одномерные модели с одной и двумя граничными точками, двумерную модель, задаваемую с помощью одиночных граничных точек для каждой из двух формирующих переменных, двумерную модель, задаваемую с помощью линейных границ с произвольной ориентацией относительно координатных осей В окончательную систему включаются

все базовые множества, являющиеся элементами разбиений, для которых превышает заранее задаваемое пользователем пороговую величину значение

функционала качества Функционал (7?,

описывает качество оптимальной дихотомии, задаваемой разбиением Я Предположим, что разбиение Я индуцирует разбиение обучающей выборки

на подвыборки 51,,. Функционал определяется

как максимальное значение по множеству дихотомий {(5^,^), где = 50\§1 , I е ~ {1, .,д}

Р^К,^,К1) = г1сотшгх[(у'-у'о)2тг+(у1с1-у10)2та] Здесь у[,у1С1 доля I е I

ч

объектов класса К^ в подвыборке , та число объектов в выборке ,

коэффициент 7]сот характеризует сложность используемой модели

В разделе 4 4 представлены результаты сравнительного исследования эффективности представленных в разделах 4 14 3 методов на совокупности задач с различными размерностями и объемами данных, взятых из разных областей прикладных исследований В ходе исследований производилось сравнение со стандартным статистическим методом к ближайших соседей, а также с моделью опорных векторов

В главе 5 представлены результаты экспериментальных исследований по оценке по оценке эффективности процедур идентификации в выборках данных объектов, выпадающих из основного распределения, а также по оценке влияния исключения выпадающих объектов из обучения на точность результирующих алгоритмов эмпирического прогнозирования Исследования проводились на представительных сериях выборок искусственно сгенерированных с использованием датчиков случайных чисел Рассматривались задача прогнозирования непрерывных переменных с помощью множественной линейной регрессии и задача распознавания объектов из двух непересекающихся классов с помощью линейного дискриминанта Фишера

Результаты исследования влияния выпадающих объектов на эффективность аппроксимации линейных зависимостей представлены в разделе 5 2 Исследования проводились с помощью искусственно

сгенерированных выборок При этом рассматривались два типа сценариев локализации выпадающих объектов в пространстве прогностических переменных (пространство X ) В первом случае распределение выпадающих объектов в пространстве X совпадало с распределением объектов из основной группы Во втором случае выпадающие объекты локализовались в относительно небольшой подобласти из области распределения объектов основной группы

Для идентификации объектов, выпадающих их линейных зависимостей, были использованы процедуры поиска выпадающих объектов R и RJ В обеих этих процедурах на каждом шаге по текущей обучающей выборке S' = Ц = {ух,Xj), ,бщ = (ущ, \щ )} строится соответствующая

оптимальная регрессионная поверхность h(x,Sl) В процедуре R для

идентификации объекта Sj 6 S{ как выпадающего из общей

" t ~t 7

закономерности используется величина невязки R{s^, S ) = - h(Xj, S )] , то время как в процедуре RI для идентификации ^ наряду с R(Sj,Sl)

используется также величина искажения линейной регрессионной функции D(sjyS'), связанная с ^

Эксперименты показали, что идентификация выпадающих объектов и исключение их из обучения позволяет увеличить точность прогноза для задач, в которых

а) распределение выпадающих объектов в пространстве прогностических переменных совпадает с распределением объектов основной группы,

б) величина отклонения прогнозируемой величины от основной зависимости для выпадающих объектов более чем в три раза превышает стандартное отклонение шумовой составляющей для основной группы Результаты исследования влияния выпадающих объектов на точность решения задачи распознавания с помощью Линейного дискриминанта Фишера представлены в разделе 5 3 В ходе исследований оценивалась также эффективность процедуры идентификации выпадающих объектов, основанной на использовании величины искажения ими разделяющей поверхности Исследования проводились на искусственно сгенерированных выборках Полученные результаты подтвердили заметное влияние выпадающих объектов на точность решения задач распознавания, а также

продемонстрировали эффективность предложенной процедуры идентификации

Глава 6 посвящена основанному на перестановочном тесте способу верификации закономерностей, выявленных по обучающей выборке $0 Рассматриваемый способ может быть использован при различных типах прогнозируемых переменных бинарные и непрерывные векторные или скалярные переменные, кривые выживаемости и др Предполагается, что

обучающая выборка представима в виде $п = {(у®,х®) ,(у° ,х° )}, где у^-

и 11 т т J

„ О

часть описания, соответствующая прогнозируемой переменной г , х^ -

вектор прогностических переменных

Используется вариант перестановочного теста, предназначенный для проверки нулевой гипотезы Н^ о независимости прогнозируемой

переменной У от потенциальных прогностических переменных Х^, ,Хп Пусть Т(Б) - статистика, характеризующая степень зависимости У от переменных Х^, ,Хп В качестве статистики используется обычно

максимальное значение функционала, характеризующего качество аппроксимации прогнозируемой величины В качестве р — значений

рассматривается условная вероятность Рг{Г(5) > Т(Бп) |Н , где

О о и

IVр ) множество всех возможных выборок, совпадающих по числу

объектов с , для которых эмпирические распределения частей описания у и частей описания х совпадают с соответствующими распределениями

- для В разделе 6 2 доказано справедливость равенства

Рг{Г(£)>Г(£0)|Но,Жр(£0)}= 1 0 , где Ы[[Г(§0)] является числом перестановок, генерирующих выборки, для которых справедливо

неравенство > ) Прямой расчет отношения --—

О т\

чрезвычайно трудоемок, что делает его невозможным для подавляющего

числа прикладных задач Однако достаточно легко осуществима Монте-

20

Карло оценка отношения, основанная на генерации представительного множества перестановок с помощью датчика случайных чисел

Вместе с тем точная оценка отношения хотя бы для отдельных типов задач представляет несомненный интерес, связанный с двумя обстоятельствами Во-первых, оценка значимости ограничена сверху общим числом сгенерированных случайных перестановок Так, для того, чтобы адекватно оценить р—значение равное а требуется сгенерировать общее число перестановок значительно превышающее 101а Во-вторых, оценки, полученные на случайных перестановках, могут заметно отклоняться от истинных р-значений. Данные отклонения могут быть чисто случайными и могут быть уменьшены простым увеличением числа перестановок Однако нельзя исключить также и возникновение систематических отклонений, связанных с реальной "псевдослучайностью" существующих компьютерных генераторов случайных чисел В связи с указанными проблемами большой интерес представляет расчет истинных

р-значений (точного распределения статистики Т{8)), по крайней мере, для отдельных типов задач

В связи с этим в подразделе 6 3 была поставлена задача восстановление точного распределения оптимальных значений интегрального функционала качества разбиения ^ (50,8,), используемого для изучения зависимости принадлежности объектов к двум непересекающимся классам К1 и К2 от потенциальной прогностической переменной X с помощь метода оптимальных разбиений в рамках простейшей одномерной модели с одной граничной точкой Данная задача может трактоваться как задача изучения зависимости бинарной индикаторной функции £ , принимающей значение 1 на объектах класса К^ и значение 0 на объектах класса К2 Метод разбиений заключается в поиске такого значения порогового значения 8, чтобы распределения объектов классов К^ и К2 в подвыборках ^ с X < 8 и

с X > 8 различались бы максимальным образом

В разделе 6 4 были получены теоретические результаты, позволившие в значительной степени сократить объем необходимых вычислений Метод основывается на введении отношения порядка на множестве бинарных векторов с фиксированными количествами нулей и единиц Предполагаться, что значения переменной X на всех объектах 50 различны Объекты пронумерованы в порядке возрастания соответствующих значений

переменной X Все разбиения с граничными точками между двумя соседними объектами с номерами у и у 4-1 будем считать

тождественными и обозначать (у,у+1) Мы также будем называть группу объектов из 50 предпочтительной по классу К, если доля объектов К в ней превышает долю объектов К в

Предположим, что максимум функционала достигается для

некоторого разбиения с граничной точкой +1). такого, что группа

объектов с < является предпочтительной по классу В этом случае мы будем говорить, что точка максимума (у^, у^+1) является точкой максимума левого типа по классу К^ В том случае, если группа объектов с г1 < у0 является предпочтительной по классу К2, мы будем говорить, что точка максимума (у , у +1) является точкой максимума правого типа по классу К)

Мы будем говорить, что объект из класса К1 находится в у-ой позиции, если г1(5")>г1(^)>г1(5").где 5", е К2 и I2(Л") = у, 12 (5") = У + 1 Вектором позиций по классу К2 или просто вектором позиций будем называть целочисленный вектор размерности ^+1, причем у-ая

компонента равна числу объектов класса К} в последовательности Т в у-ой позиции.

Определение 2. Мы будем говорить, что последовательность Т" превышает последовательность Т' (Т" > Т'), если

а) существует целое /0 такое, что Ь^,,^] > Ь

б) для любого /0 < / < N2 +1 соответствующие компоненты вектора позиций равны

те. Ьг[/ ] = ЬГ[/ 1

Перенос объектов класса К1 из позиции с номером V в позицию с номером I" где /',/"</и /'</" будем называть переносом в интервале (0,1) слева направо

Пусть Т некоторая последовательность Мы будем говорить, что последовательность Г' является максимальной для последовательности Т по позиции/, если V/'< / Нг[/'] = 0, и V/' > I ЬГ[/'] = ЬГ[/] Справедлива следующая теорема.

г

Теорема 3. Пусть последовательность Т0 , может быть получена из Т0 путем ряда переносов слева направо в интервале (0,1) Тогда реализуется только один из двух вариантов

а) точка О0>./0 +1) является точкой максимума левого типа по классу Кл на последовательности Г0',

б) по крайней мере, одна из точек из множества {(у^уд+1)|объект с номером принадлежит классу К^ и < -1}, является точкой

максимума правого типа со значением функционала Р, превышающим

/

значение, достигнутое в точке О0>У0 +1) на последовательностях Г0 и Г0

Полученные результаты позволяют предложить алгоритм, вычисляющий распределение значений функционала Р при гипотезе о

равновероятности всех последовательностей, которые могут быть получены с помощью перестановок объектов На каждом шаге алгоритм генерирует последовательности в порядке их возрастания

Очевидно, что искомое распределение оптимальных значений функционала может быть найдено, если это оптимальное значение вычислять на каждом шаге Однако использование теоремы 3 позволяет существенно сократить объемы вычислений

Действительно Пусть точка (7 , у +1) является точкой максимума левого типа по классу К^ на последовательности Т0 с оптимальным значением функционала равным _/~0

Пусть /0=г2(у0+1) Через Т™ обозначим последовательность

максимальную для последовательности Т0 по позиции /0 Для произвольной последовательности Т, удовлетворяющей набору условий (а),

(б), (в) точка (у ,./ +1) является точкой максимума левого типа со значением функционала равным Условия (а), (б), (в) записываются в

следующем виде

а) Т0 Т,'п или Т=Т,т,

'о о

б) последовательность Т может быть получена из последовательности Т^ путем ряда переносов слева направо в интервале (0,/0),

в) (Г , у') < /0 для (0<Г < 10)и / = 12-(/').

Поскольку последовательности генерируются в порядке возрастания их

,, 'т' т>т

векторов позиции, то для всех последовательностей от до 1 ] не

требуется поиска оптимальных значений функционала Г в случае, если

выполнены условия (б) и (в)

Проверка условия (в) достаточно очевидна Для каждого числа (О <Г <10) можно заранее найти суммарное число объектов класса

К], которое должно быть перенесено из позиций последовательности Т0 с номером из интервала 0 < I < V в позиции с номером 1, удовлетворяющим неравенствам (7'</</0), для того, чтобы было нарушено неравенство /0 Для произвольной последовательности

Г, удовлетворяющей условию (а), для того чтобы убедится в выполнении условия (в) необходимо и достаточно, чтобы для произвольного числа из интервала (0 </'</0) было выполнено неравенство

1=1'+1

Для проверки условия (б) может быть использована следующая теорема Теорема 4. Последовательность Т может быть получена из последовательности Т0 путем ряда переносов слева направо в интервале

(0,/0) в том и только в том случае, если V/'6 {1, -1} выполнено

неравенство [г])>ЬГ [/']-ЬГ[/']

т^ * о о

1=1 +1

Алгоритм расчет кривых распределения максимумов функционала F был реализован программно Полученные результаты, представленные в диссертации, продемонстрировали отсутствие практически значимых различий между точными значениями и оценками, полученными с помощью генераторов случайных чисел

В главе 7 в качестве средства исследования зависимости переменной У от потенциальных прогностических переменных Хх, ,Хр рассматривается

метод построения оптимальных разбиений пространства прогностических переменных Предполагается наличие обучающей выборки,

представляющей собой набор 50 = {(у1,х1), ,(у„,,хт)}, где у1; ,ут являются значениями У, измеренными при значениях векторов прогностических переменных х15 ,\т Метод основан на построении

оптимальных разбиений по выборке 50 интервалов допустимых значений

одиночных переменных или совместных областей допустимых значений групп переменных в рамках априори заданных моделей Причем разбиение считается оптимальным, если оно индуцирует разбиение 50 на несколько групп с возможно минимальными расстояниями по частям описания у между объектами внутри одной и той же группы и возможно максимальными расстояниями между объектами из разных групп Данные различия между группами и внутри групп описываются с помощью специального функционала, который мы далее будем называть функционалом качества разбиений Задача при этом сводится к поиску разбиений из рассматриваемых моделей, на которых достигается максимум функционала качества

Функционал качества. Усредненное значение У по множеству значений у = {у}, ,уш} будем обозначать как у(у) Предположим, что Я -

разбиение обучающей выборки на подвыборки ^, Тогда

интегральный функционал качества определяется как сумма

г=1

где т1 - число объектов в подвыборке

Наряду с интегральным функционалом качества может быть использован также локальный функционал качества, в котором оценка проводится по подвыборке максимально отличающейся от исходной обучающей выборки

(£0, Л) = гетах {р[у(5,), у(50)]тг}

В то время как интегральный функционала качества не позволяет выделять отдельные элементы разбиения, и с его помощью могут быть построены оптимальные разбиения только с числом элементов равным числу элементов в используемой модели, локальный функционал основан на выделении наилучшего элемента разбиения и позволяет также производить разбиение признакового пространства на две подобласти Причем одной из двух подобластей является элемент разбиения, на котором как раз достигает максимума (5'0, /?), а вторая подобласть представляет собой объединение всех остальных д-\ элемента

Модели разбиений. Под моделью разбиения мы понимаем множество разбиений с числом элементов, не превышающим некоторое заранее фиксированное число, которые строятся с помощью априори заданного алгоритма

Модель I включает все разбиения интервалов допустимых значений одиночных переменных с числом элементов (подобластей) не более двух, которые разделены с помощью одной граничной точки Модель II включает все разбиения интервалов допустимых значений одиночных переменных с числом элементов не более трех, которые разделены с помощью не более двух граничных точек Модель III включает все разбиения области допустимых значений пары переменных с числом элементов не более четырех Причем при построении разбиения используется не более одной граничной точки для каждой из двух переменных

Построение оптимальных разбиений. Поиск оптимальных разбиений производится в рамках выбранной модели путем оптимизации одного из

двух описанных выше функционалов Использование интегрального функционала приводит к разбиению

пространства прогностических переменных на число областей, равное числу элементов в используемой модели Использование локального функционала приводит к дихотомическому разбиению

Оптимизация производится путем перебора всевозможных потенциальных граничных точек Предположим, что переменная Xt на обучающей выборке принимала значения из монотонно возрастающей последовательности точек {а\, ,ат } Тогда в качестве потенциальных

граничных точек при разбиении интервала допустимых значение

ii 1 , 1

- V г и' а\+а2 и» Лт. т,-н переменной Ät используются точки = —--, ,от ) =-—}

Поиск оптимальных разбиений в рамках одномерной модели I производится путем последовательного перебора точек {¿>|, ,b'm ^} Поиск оптимальных

разбиений в рамках одномерной модели II производится путем последовательного перебора пар точек

{(b^b^), ,ф\,Ь1т i), ,(bl)n ^,b'm ^)} Поиск оптимальных разбиений в

рамках двумерной модели III для совместной области распределений переменных Х{, X. производится путем последовательного перебора пар

точек {(¿>j ,b[ ), ,b'm t), ,Фт ! t)} Для повышения скорости

поиска на каждом шаге производится не полный пересчет оптимизируемого функционала, а только коррекция значения найденного на предыдущем шаге

Верификация полученных результатов Статистическая верификация построенных оптимальньк разбиений может производиться с помощью стандартных статистических тестов Однако такой подход возможен только в том случае, если объем исходной информации достаточен для формирования двух выборок При этом первая из выборок используется для поиска закономерностей, а вторая для вычисления статистики используемого для верификации критерия В противном случае для верификации используется перестановочный тест [20]

Методы формирования оптимального набора закономерностей.

Наиболее простым и естественным методом формирования оптимального набора логических закономерностей является внесение в окончательный список тех закономерности, для которых оценка статистической значимости была не хуже, чем р< ¡3, где ¡3 - заданное пороговое значение Далее этот метод мы будем называть методом пороговой значимости (ПЗ) для тестирования разработанных методов выявления закономерностей была разработана программная система «Полигон», позволяющая производить генерацию выборок в соответствии с априори заданными закономерностями При этом система допускает возможность генерации данных в соответствии с закономерностями, которые могут быть описаны с помощью моделей 1,11,

При исследованиях использовался сценарий, при котором в качестве прогнозируемой величины рассматривалась обозначаемая далее через а бинарная индикаторная функция двух равновероятных непересекающихся классов К1 и К2 Сценарий предусматривает генерацию таблиц с 16 столбцами, содержащих значения переменных, для которых исследовалось их влияние на прогнозируемую величину Из них 8 первых переменных Хх, -,Х% были независимы, равномерно распределены на отрезке [0,1] и имитировали не связанную ни с какими закономерностями "шумовую" составляющую в векторе возможных прогностических переменных Последующие 8 переменные генерировались в соответствии с логическими закономерностями, являющимися элементами разбиений из моделей 1,11, III Причем для каждой из моделей задавалось по две закономерности, отличающихся друг от друга по «степени выраженности» Под «степенью выраженности» закономерности q по классу AT, здесь нами понимается

коэффициент K(q) =-———- где v, - доля объектов класса

К1 в закономерности д, у2 - доля объектов класса К1 в Я\д, где через Я обозначена область допустимых значений векторов независимых переменных Первая из двух закономерностей, соответствующих некоторой модели, имела «степень выраженности» по каждому из классов аг =к 1 0, а вторая имела «степень выраженности» по каждому из классов к « 2 0 Оценка эффективности метода поиска закономерности производилась путем подсчета

III

а) числа (доли) правильно идентифицированных закономерностей каждого из предусмотренных сценарием типов,

б) числа (доли) выявленных "закономерностей", которые на самом деле не предусматривались сценарием генерации выборок

Выявленные, но на самом деле не предусмотренные сценарием "закономерности", мы будем подразделять на полностью ложные и частично ложные Под полностью ложной мы будем понимать "закономерность", формируемую только переменными, никак не связанными с прогнозируемой величиной (в нашем случае вероятностью принадлежностью классам) Мы будем называть выявленную "закономерность" частично ложной, если ее появление может быть частично объяснено исходя из закономерностей, предусмотренных сценарием Так закономерность, выявленную с помощью метода оптимальных разбиений в рамках модели III, мы будем называть частично ложной, если одна из формирующих ее переменных никак не связана с прогнозируемой величиной, а другая участвует в формировании некоторой закономерности, задаваемой сценарием Закономерность, выявленную с помощью метода оптимальных разбиений в рамках модели II, мы будем называть частично ложной, если формирующая ее переменная по сценарию соответствует другой модели разбиения

Эксперименты продемонстрировали, что метод ПЗ демонстрирует хорошие возможности по выявлению предусмотренных сценарием закономерностей Вместе с тем оказалось, что использование метода ПЗ приводит к включению в окончательный оптимальный набор чрезвычайно большого числа частично ложных закономерностей, выявленных в моделях разбиений II и III

В связи с этим для формирования окончательного набора закономерностей были предложены также метод максимальной значимости (МЗ) и условной значимости (УЗ) [44] Методы МЗ и УЗ отличаются от метода ПЗ процедурой включения в выходной набор закономерностей, выявленных с помощью более сложных моделей II и III Метод МЗ предполагает включение в выходной набор более сложных закономерности, если их значимость, оцениваемая с помощью перестановочного теста, превышает статистическую значимость закономерностей, найденных с помощью простейшей модели I для тех же самых переменных Метод УЗ основан на использовании модифицированного перестановочного теста, проверяющего нулевую гипотезу о статистической независимости Y о переменных X внутри подобластей признакового пространства, соответствующих закономерностям, найденным для тех же самых

переменных с помощью простейшей модели I Использование методов МЗ и УЗ позволяет избежать включения в выходное множество более сложных закономерностей, которые реально не существуют в данных Эксперименты по тестированию продемонстрировали высокие возможности метода УЗ по выявлению предусмотренных сценарием закономерностей вместе с очень низкой долей попадания в выходной набор как полностью ложных, так и частично ложных закономерностей

В главе 8 рассматриваются вопросы практического применения методов, описываемых в главах 4 и 5, представлено краткое описание программной системы "РАЗБИЕНИЯ", содержащей вариант метода оптимальных достоверных разбиений В главе представлены примеры решения задач медицинской диагностики и прогнозирования, включая задачу прогноза исходов психогенных расстройств, задачу прогноза результатов лечения остеосаркомы и задачу прогноз динамики депрессивных синдромов в остром периоде сотрясения головного мозга [1, 3,13].

Список публикаций

[1] Доровских И В , Сенько О В , Кузнецова А В и соавт Прогноз динамики депрессивных синдромов в остром периоде сотрясения головного мозга по показателям первичного обследования (с использованием логико-статистических методов)

// Социальная и клиническая психиатрия -2003 -Т 13, №4 -С 18-23 (Участие автора в построении прогностической модели динамики депрессивных синдромов)

[2] Журавлев ЮИ Рязанов В В Сенько О В РАСПОЗНАВАНИЕ Математические методы Программная система Применения - Москва Фазис, 2006 (Автором сделан обзор существующих методов распознавания в рамках статистического подхода )

[3] А С Заковряшин, С Е Заковряшина, И В Доровских, О В Сенько, А В Кузнецова, А А Козлов Прогнозирование отдаленных последствий психогенных расстройств у военнослужащих в остром периоде боевой психической травмы (с использованием логико-статистических методов) // Неврология и психиатрия им С С Корсакова 2006 , т 106, № 3 , с 31-38 (Участие автора в построении прогностической модели отдаленных последствий боевой психической травмы)

[4] Ившина А В , Кузнецов В А , Кузнецова А В , Мачак Г Н , Сенько О В Фенотип лимфоцитов крови в определении объема опухоли и степени ее васкуляризации при остеогенной саркоме Подход, основанный на

распознавании нечетких систем // Иммунология 1995 N 6 С 56-64 (Участие автора в построении модели диагностики степени васкуляризации опухоли )

[5] Катериночкина Н Н, Сенько О В Использование параллельных методов для решения комбинаторных задач в распознавании Труды 5-й международной конференции «Распознавание образов и анализ изображений новые информационные технологии» (РОАИ-5-2000) ИПО Самарского государственного аэрокосмического университета имени академика С П Королева, г Самара 2000 С

[6] Кузнецова А В , Федотова Т А , Сенько О В Логико-статистический алгоритм распознавания стафилококкового и кандидозного дисбактериоза у часто болеющих детей до 6 лет по клинико-иммунологическим показателям XIV Российская научная конференция "Факторы клеточного и гуморального иммунитета при различных физиологических и патологических состояниях", РФ, Челябинск, 2000, стр 61-62

[7] Кузнецов В А , Сенько О В , Кузнецова А В и др // Распознавание нечетких систем по методу статистически взвешенных синдромов и его применение для иммуногематологической нормы и хронической патологии // Химическая физика, 1996, т 15 №1 С 81-100 (Участие автора в разработке представленного метода «Статистически взвешенные синдромы»)

[8] Кузнецов В А , Сенько О В , Кузнецова А В , Семенова Л П , Алещенко А В , Гладышева Т Б , Ившина А В Распознавание нечетких систем высокой размерности по методу статистически взвешенных синдромов и его применение для иммуногематологической диагностики вирусной хронической патологии // Тезисы докладов 7-ой Всероссийской конференции "Математические методы распознавания образов" ( ММРО 7), Пущино, 1995 , с 89

[9] Кузнецов В А , Ившина А В , Кузнецова А В , Сенько О В Анализ фенотипа лимфоцитов крови в прогнозировании метастазирования у больных остеосаркомой Подход, основанный на распознавании нечетких систем //Иммунология 1995 N5 С 52-58 (Участие автора в построении модели прогноза метастазирования )

[10] Кузнецова АВ, Мамаев ВБ, Сенько О В Логико-статистическое прогнозирование биологического возраста по данным биоактивных точек // Доклады 12-ой Всероссийской конференции "Математические методы распознавания образов" (ММР012), Москва, 2005, С 356-359

[11] Лисенков АН Сенько О В, Воскобойников В В Прогнозирование

рисков развития рецидивов у больных оперированных больных эутиреоидным зобом // Доклады 9-й Всероссийской конференции "Математические методы распознавания образов" (ММРО 9), Москва, 1999,С 215-217

[12] Мачак ГН Кузнецова А В Сенько О В Использование методов распознавания для прогноза результатов лечения остеогенной саркомы // Тезисы докладов 8-й Всероссийской конференции "Математические методы распознавания образов" (ММРО 8), Москва, 1997, С 192-193

[13] Мачак ГН, Лукьянченко АБ, Долгушин БИ, Кочергина Н В ,Вирашке Э Р , Сенько О В , Кузнецова А В Критерий эффективности предоперационной химиотерапии остеосаркомы Роль лучевых методов //Вопросы онкологии 2005, № 3 (Участие автора в построении модели прогнозирования)

[14] Реброва ОЮ, Сенько ОВ, Кузнецова А В Использование логико-статистического анализа в задаче дифференциальной диагностики типов инсульта // Научно-техническая информация Серия 2 Информационные процессы и системы 2003, N 7, С 15-21

[15] Рязанов В В Сенько О В О некоторых моделях голосования и методах их оптимизации Распознавание, классификация, прогноз (Математические методы и их применение) // М Наука, 1990, вып 3 , С 106-145 (Автором описан алгоритм взвешенного голосования по коллективу алгоритмов модели ABO)

[16] Сенько О В Оценка апостериорных вероятностей принадлежности объектов классам при процедуре голосования // Ж вычисл матем и матем физ , 1992 , т 32, N4, С 635-644,

[17] Сенько О В Преобразование непрерывных признаков в дискретную форму, основанное на оптимизации функционала точности аппроксимации // Proceedings of the Fourth International Conference Pattern Recognition and Image Processing (PRIP' 97), С 18-20, 1997

[18] Сенько OB Об одном методе выбора оптимальной модели аппроксимации // Доклады 9-ой Всероссийской конференции "Математические методы распознавания образов", 1999, С 103-104

[19] Сенько О В Использование процедуры взвешенного голосования по системе базовых множеств в задачах прогнозирования // Ж вычисл матем и матем физ 1995, т 35, N9 С 249-257

[20] Сенько О В Перестановочный тест в методе оптимальных разбиений // Ж вычисл матем и матем физ , 2003, т 43, N9, С 1438-1447

[21] Сенько OB Использование коллективных методов для повышения обобщающей способности прогнозирования //Доклады академии наук, 2006, Том 411, №6, С 1-3

[22] Сенько О В, Кузнецова А В Метод построения оптимальных по сложности разбиений многомерного признакового пространства // Тезисы докладов 8-ой Всероссийской конференции "Математические методы распознавания образов", 1997, С 104-105

[23] Сенько О В, Кузнецова А В Метод предварительной селекции признаков// Доклады 11-й Всероссийской конференции "Математические методы распознавания образов", Пущино, 2003, С 171-172

[24] О В Сенько, А В Кузнецова, Метод анализа данных, основанный на построении оптимальных разбиений Труды Международной научно-практической конференции KDS-2001, 2001, т 2, С 573-579

[25] Сенько О В , Кузнецова А В Метод оценки кривых выживаемости, основанный на процедуре голосования Труды 4-ой Всероссийской с международным участием конференции «Распознавание образов и анализ изображений новые информационные технологии», 1998, Новосибирск, С 183-185

[26]Сенько О В , Кузнецова А В , Алгоритмы распознавания, основанные на голосовании по системам закономерностей различных типов // Доклады 12-ой Всероссийской конференции "Математические методы распознавания образов" (ММРО 12), Москва, 2005, С 200-203

[27] Таукумова JI А , Рязанов В В , Сенько О В Прогноз влияния суммарной базисной терапии на исходы ревматоидного артрита Труды 5-й международной конференции «Распознавание образов и анализ изображений новые информационные технологии» (РОАИ-5-2000) ИПО Самарского государственного аэрокосмического университета имени академика СП Королева, г Самара 2000 С 613-614

[28] Bogomolov V Р , Katennochkina N N , Lann S В , Ryasanov V V , Senko О V , Vinogradov A P , Voronchihin V A and Zhuravlev Yu I Program system LOREG - the pattern recognition algorithms that based on voting over sets of logical regularities Proceeding of the 3rd IMACS / IEEE International MultiConference Circuits, Systems, Communications and Computers (CSCC'99), Athens, GREECE July 4-8, 1999 Pp 284-288

[29] Dokukin A A Senko О V About new pattern recognition который method for the universal program system Recognition Proceedings of the International Conference I Tech-2004, Varna (Bulgaria), 14-24 June 2004,pp 54-58

[30] Ivshina A V , George J , Senko О V , Mow В , Putti T С , Smeds J , Nordgen H , Bergh J , Liu E T-B , Kuznetsov V A , Miller L D Genetic reclassification of histologic grade delineates new clinical subtypes of breast cancer Cancer Res , 66 10292-10301 (Участие автора в разработке математической модели диагностики тяжести рака груди )

[31] Jackson AN, Kuznetsov VA, Sen'ko OV, Donnel, Ivshina AV, Alexandraff F V , Kuznetsova A V , Clinton, Prescott, James К Prognosis of the BCG-treatment of patients with bladder cancer by urine immune molecules based on the statistical weighted síndrome

// Тезисы докладов 7-ой Всероссийской конференции "Математические методы распознавания образов " (ММРО 7), Пущино, 1995, С 111

[32] А М Jackson, А V Ivshina, О Senko, A Kuznetsova, A Sundan, М A O'Donnel, S Clinton, А В Alexandroff, Р J Selby, К James and VA Kuznetsov (1998)Prognosis of Intravesical Baccilus Calmette -Guernn Therapy for Superficial Bladder Cancer by Immunological Urinary Measurements Statistically Weighted Syndromes Analysis // Journal of Urology v 159, pp 1054-1063 (Участие автора в разработке и реализации прогностической модели и оценке достоверности результатов)

[33] Katennochkina N N , Ryasanov V V , Senko О V , Vinogradov А Р , Voronchihin V A and Zhuravlev Yu I Discrete approach for automatic knowledge extraction and knowledge basedclassification algorithms IFAS Symposium on Manufacturing, Modeling, Management and Control Preprints. University ofPatras, Rio Patras, Greece 2000 P 95-97

[34]Kuznetsov, VA, Ivshina, AV, Senko, OV, Kuznetsova, AV (1996 a) Syndrome approach for computer recognition of fuzzy systems and its application to immunological diagnostics and prognosis of human cancer IIMathematical Computer Modelling, Vol 23, N 6, pp 95-119 (Участие автора в разработке и реализации описываемого программного комплекса распознавания, а также в решении прикладных задач медицинской диагностики и прогнозирования)

[35] Kuznetsova А V , Sen'ko О V , Matchak G N , Vakhotsky V V , Zabotma Т N, Korotkova О V The Prognosis of Survivance in Solid Tumor Patients Based on Optimal Partitions of Immunological Parameters Ranges //J Theor Med , 2000, Vol 2, pp 317-327 (Участие автора в разработке и реализации описываемого программного комплекса распознавания, а также в решении прикладных задач)

[36] G М Makeev, О V Sen'ko, М I Kumskov Evaluation of Models for the Prediction of Biological Properties of Flexible Molecules // Pattern Recognition and Image Analysis Advances in Mathematical Theory and Applications, -1999,

Vol 9, No 1, pp 78-80 (Участие автора состоит в разработке концепции оценки достоверности моделей прогнозирования биологических свойств химических соединений)

[37] Ryazanov V V , Senko О V , and Zhuravlev Yu I Methods of recognition and prediction based on voting procedures // Pattern Recognition and Image Analysis Advances in Mathematical Theory and Applications,-1999, Vol 9, No 4, pp713—718 (Автором предложен вариант процедуры статистически взвешенного голосования)

[38] Ryazanov V V , Sen'ko О V , Zhuravlev Yu I, Mathematical Methods for Pattern Recognition Logical, Optimization, Algebraic Approaches Proceedings of the 14th International Conference on Pattern Recognition Brisbane, Australia, August 1998, pp 831-834

[39] О V Sen'ko "A Prediction Algonthm Based on the Procedure of Weighted Voting Using a System of Hyperparallelepipeds m a Multidimensional Feature Space" // Pattern Recognition and Image Analysis Advances in Mathematical Theory and Applications, -1993, vol 3, no 3, pp 283-284

[40] О V Sen'ko A Method for Estimating Adequacy of Approximation Models // Pattern Recognition and Image Analysis Advances in Mathematical Theory and Applications, -2001, Vol 11,No l,pp85-86

[41] Sen'ko О V The Method of Dependencies Description with the Help of Optimal Multistage Partitioning Proceedings of the Conference CSIT , 2001,Yerevan, Armenia, pp 167-169,

[42] Senko Oleg V The Use of Collective Method for Improvement of Regression Modeling Stability InterStat Statistics on the Internet (Интернет издание) http //statiournals net/. June, 2004

[43] Sen'ko О V , Kuznetsova A V (1998) The use of partitions constructions for stochastic dependencies approximation Proceedings of the International conference on systems and signals in intelligent technologies Minsk (Belarus), pp 291-297

[44] Oleg V Senko and Anna V Kuznetsova The Optimal Valid Partitioning Procedures InterStat Statistics on the Internet (Интернет издание)

http //statiournals net/. April, 2006

[45] Sen'ko О V , Kuznetsova A V , Echin A The method of data analysis based on partitioning // Proc in Comput Statistics Short Commun and Posters COMPSTAT, 2000, p 259-260

[46] Senko О V , Kuznetsova A V , Kropotov D A (2003) The Methods of Dependencies Description with the Help of Optimal Multistage Partitioning Proceedings of the 18th International Workshop on Statistical Modelling Leuven,

Belgium, 2003, pp 397-401

[47JO V Sen'ko, A V Kuznetsova A Voting Based Method for Estimating Survival Curves // Pattern Recognition and Image Analysis Advances in Mathematical Theory and Applications, -1999, Vol 9, No 2, pp 381-382 (Автором предложена концепция метода прогноза кривых выживаемости, основанная на голосовании по системам закономерностей )

[48] Senko О V , Kuznetsova А V The method of statistical validation of pattern recognition results based on random tables generation // Pattern Recognition and Image Analysis Advances in Mathematical Theory and Applications,--1998, Vol 8, N2, pp 1-2 ( Автором предложена концепция метода оценки достоверности результатов распознавания, основанная на генерации случайных таблиц )

[49] О V Sen'ko, D A Kropotov, А V Kuznetsova, and G N Matchak Application of the Optimal Partitioning Method to Higher Dimensional Problems of Survival Analysis // Pattern Recognition and Image Analysis Advances in Mathematical Theory and Applications,-2003, vl3, No 2, pp 343-344 ( Автором предложена концепция метода анализа выживаемости, основанная на оптимальных достоверных разбиениях)

[50] Sen'ko О V , Kuznetsova А V , Strelmkov А N , Mamaev V В The Use of Pattern Recognition in Investigation of Electro Puncture Diagnostics for Evaluating of Nervous and Psychic States Proceedings of 7-th International Conference on Pattern Recognition and Image Analysis New Information Technologies, 2004, St Peterburg, v III, pp 886-889

[51 ] Senko О V , Vetrov D P The Recognition Capability Improving Based On Outliers Identification Proceedings of the conference PRIP'2003, Minsk, Belarus, 2003, pp 31-34

[52] Zhuravlev Yu, Ryazanov V, Senko О, Biryukov A, Vetrov D, Dokukm A, Kropotov D The Program System for Intellectual Data Analysis, Recognition and Forecasting WSEAS Transactions on Information Science and Applications, 2(1), 2005 pp 55—59

[53] YI Zhuravlev, A V Kuznetsova, V V Ryazanov, О V Senko, D A Kropotov, V В Mamayev, A N Strelmkov Medical applications of pattern recognition methods Доклады I международной конференции Математическая биология и биоинформатика, 2006, С 207-208

Сенько Олег Валентинович

Методы эмпирического прогнозирования, основанные на устойчивых разбиениях и коллективных решениях

Подписано в печать 15 03 2007

Формат бумаги 60x84 1/16 Уч -изд л 2 Уел -печ л 1,25 Тираж 100 экз Заказ 10

Отпечатано на ротапринтах в Вычислительном центре им А А Дородницына Российской академии наук 119333, Москва, ул Вавилова, 40

Оглавление автор диссертации — доктора физико-математических наук Сенько, Олег Валентинович

Введение.

Глава 1. Существующие подходы к повышению обобщающей способности алгоритмов эмпирического прогнозирования

1.1 Введение.

1.2. Методы, основанные на повышении аппроксимирующей способности на обучающей информации.

1.3. Методы, основанные на подборе модели, оптимальной по уровню сложности.

1.4.Робастные процедуры.

1.5. Методы регуляризации.

1.6. Коллективные методы

1.6.1 Методы коллективной коррекции для групп алгоритмов.

1.6.2 Методы голосования по множествам закономерностей.

Глава 2. Методы повышения точности эмпирического прогнозирования, основанные на минимизации обобщённой ошибки

2.1. Функционал обобщённой ошибки в задачах прогнозирования скалярных величин и его составные элементы.

2.2. Способы снижения составляющей нестабильности.

2.3. Коллективные методы прогнозирования непрерывных величин, использующие взвешенное голосование

2.3.1. Введение.

2.3.2. Метод взвешенных средних, минимизирующий компоненту нестабильности.

2.3.3. Метод взвешенных парных регрессий.

2.4. Использование Монте-Карло экспериментов для оценки эффективности коллективных методов

2.4.1 Сценарии экспериментов.

2.4.2 Результаты экспериментов для метода среднеарифметических.

2.4.3 Результаты экспериментов для метода взвешенных парных регрессий.

2.5 Методы оценивание составляющей нестабильности.

2.6 Обобщенная ошибка и методы её снижения в задачах с нескалярными прогнозируемыми величинами.

2.6 .1. Случай векторной прогнозируемой величины конечной размерности.

2.6.2. Случай прогнозирования функциональных зависимостей.

Глава 3. Процедуры эмпирического прогнозирования, основанные на взвешенном голосовании по системам базовых множеств в пространстве прогностических переменных.

3.1 Процедура статистически взвешенного голосования

3.1.1 Введение.

3.1.1 Максимизации функционала правдоподобия специального вида.

3.1.2. Использование процедуры статистически взвешенного голосования для прогнозирования скалярных непрерывных переменных.

3.1.3 Использование процедуры взвешенного голосования для оценки кривых вероятности отказов.

3.2 Процедура взвешенного голосования, основанная на интервальных оценках функционала локальных потерь

3.2.1 Введение.

3.2.2. Неравенства для распределений функций

3.2.3 Метод оценивания весовых коэффициентов, основанный на оптимизации функционала La[<F(x'),%и].

Глава 4. Методы распознавания, основанные на голосовании по системам подобластей признакового пространства

4.1. Метод Статистически Взвешенных Синдромов

4.1.1 Введение.

4.1.1. Методы построения синдромов.

4.1.2. Выбор модели разбиений оптимального уровня сложности.

4.1.3. Процедура вычисления оценок за классы в методе СВС.

4.1.4. Отбор признаков.

4.1.5. Решающее правило.

4.2. Метод двумерных линейных разделителей.

4.3. Алгоритм мультимодельного голосования с пропорциональной коррекцией.

4.4. Исследование эффективности предложенных алгоритмов

4.4.1. Задачи.

4.4.2. Результаты экспериментов.

Глава 5. Методы повышения стабильности процедур обучения, основанные на идентификации выпадающих наблюдений

5.1. Введение.

5.2. Монте-Карло исследования влияния выпадающих объектов на точность множественной линейной регрессии.

5.2.1 Используемые процедуры поиска выпадающих объектов.

5.2.2. Сценарии экспериментов.

5.2.3. Результаты экспериментов.

5.3. Влияние выпадающих объектов на точность распознавания.

Глава 6. Метод оценки статистической достоверности результатов эмпирического прогнозирования, основанный на перестановочном тесте

6.1 Ведение.

6.2. Перестановочный тест.

6.3. Примеры использования перестановочного теста.

6.3.1. Прогноз результатов BCG терапии рака мочевого пузыря.

6.3.2. Прогноз биологических свойств химических соединений по их молекулярной структуре.

6.4 Точный расчёт распределения статистики перестановочного теста (опримизируемого функционала качества разбиений) при исследований зависимости бинарной величины от непрерывной прогностической переменной

6.4.1.Введени е.

6.4.2 Свойства оптимизируемого функционала качества.

6.4.3 Алгоритм расчета распределения оптимальных значений функционала качества на множестве всевозможных перестановок.

6.4.4.Численные эксперименты.

Глава 7. Метод анализа данных, основанный на достоверных оптимальных разбиениях пространств прогностических переменных

7.1 Введение.

7.2. Метод оптимальных разбиений.

7.3. Оценки эффективности методов анализа данных, основанных на оптимальных разбиениях

7.3.1 Введение.

7.3.2. Сценарий генерации выборок.

7.3.3. Методика оценивания эффективности алгоритмов поиска закономерностей.

7.3.4. Результаты тестирования метода ПЗ.

7.3.5. Метод максимальной значимости и результаты его тестирования.

7.3.6.Метод условных значимостей.

7.3.7. Исследование зависимости эффективности поиска закономерностей от объёма обучающей информации.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Сенько, Олег Валентинович

8.2. Программные средства.

8.2.1. Введение.190

8.2.2. Программная система «РАЗБИЕНИЯ».191

8.3. Примеры решённых задач

8.3.1 Прогнозирование исходов психогенных расстройств.195

8.3.2 Прогноз результатов лечения остеогенной саркомы

8.3.2.1 Постановка задачи.199

8.3.2.2. Прогнозирование гистологического ответа в ходе предоперационной химиотерапии.201

8.3.2.3. Прогнозирование отдалённых результатов лечения.203

8.3.3 Прогноз динамики депрессивных синдромов в остром периоде сотрясения головного мозга.204

Приложение 1.208

Приложение 2.209

Приложение 3.209

Список литературы .210

Введение

Актуальность темы. Методы прогнозирования, в основе которых лежат анализ внутренней структуры и эмпирической информации, получили значительное распространение в различных областях прикладных исследований. Методы такого рода далее будут называться методами эмпирического прогнозирования. Особенно интенсивно эмпирическое прогнозирование используется в слабоформализованных областях, где моделирование, основанное на априори известных и описывающих суть изучаемых явлений физических законах, невозможно или малоэффективно. К таким областям могут быть отнесены медицинские и биометрические исследования, различные задачи, возникающие в бизнесе, экономике, социологии, геологии, экологии, технике, сельском хозяйстве.

В зависимости от типа прогнозируемой величины могут быть выделены три группы наиболее широко используемых методов эмпирического прогнозирования.

К первой группе отнесем разнообразные методы регрессионного анализа, которые предназначены в основном для прогнозирования непрерывных скалярных величин по известным векторам прогностических (независимых) переменных.

Ко второй группе, которая в настоящее время, по-видимому, лидирует по числу приложений, отнесем методы распознавания образов. Методы распознавания предназначены для отнесения объектов к конечному числу априори фиксированных классов по известным описаниям, которые обычно представляют собой вектора значений переменных (признаков).

Можно выделить также третью группу методов, предназначенных для оценки по вектору прогностических переменных вероятности безотказной работы объектов в течение произвольного интервала времени, прошедшего с начала функционирования. Фактически векторам прогностических переменных ставятся в соответствие монотонно невозрастающие функции, заданные на некотором интервале временной оси.

В основе всех вышеупомянутых методов лежит процедура обучения, заключающаяся в настройке параметров прогнозирующего алгоритма по имеющемуся в распоряжении исследователей массиву эмпирических данных, который мы далее будем называть обучающей выборкой.

Естественно, что одной из центральных проблем, связанных с правомерностью использования эмпирического прогнозирования, является сохранение точности прогноза на новых аналогичных по типу и условиям получения объектах, но не содержащихся в обучающей выборке. Данное свойство прогнозирующих алгоритмов принято называть обобщающей или экстраполирующей способностью.

Может быть выделен ряд основных направлений исследований, связанных с разработкой методов улучшения обобщающей способности. В их число входит разработка методов повышения точности прогноза или распознавания на известной обучающей информации. Повышение точности может быть достигнуто путём использования высокопараметризованных моделей с широкими возможностями аппроксимации. В качестве примера могут быть приведены алгоритмы распознавания из модели вычисления оценок[5,23, 25] , модели с потенциальными функциями[3], модели опорных векторов[84], многослойного перцептрона[4,68], методы, основанные на аппроксимации сплайнами. Одним из путей повышения аппроксимационных возможностей параметризованных моделей является использование их алгебраических замыканий относительно операций над матрицами оценок[24]. Однако при ограниченном объёме обучающей информации и высокой размерности данных чрезмерное увеличение аппроксимационных возможностей используемых методов приводит к потере устойчивости получаемых решений и к реальному снижению прогнозирующей способности на новой информации, которая не использовалась при обучении[12, 11].

Достаточно распространённым подходом к повышению точности распознавания является использование коллективных решений. При этом такие решения могут строиться как по набору заранее обученных алгоритмов из разных моделей, так и по наборам элементов (закономерностей), которые строятся в рамках одной модели. Существуют также целый ряд методов принятия коллективных решений наборами заранее обученных алгоритмов. Наряду с простейшими голосованием по большинству и классификацией по максимальным величинам суммарных оценок к их числу могут быть отнесены различные методы логической [30] и алгебраической коррекции. В качестве примеров моделей распознавания, основанных на голосовании по наборам закономерностей, могут быть названы тестовый алгоритм, алгоритмы типа Кора и Jloper[6,75,110], метод комитетов[42]. Вместе с тем описанные в литературе методы голосования носят в основном эвристический характер и не включают в себя статистически обоснованных процедур взвешивания различных элементов.

Повышения точности эмпирического прогнозирования может быть достигнуто путём уменьшения или исключения влияния на обучение объектов, которые по разным причинам значительно отклоняются от закономерностей, связанных с задачей прогнозирования. К настоящему времени предложено большое число устойчивых к выпадающим объектам методов для прогнозирования непрерывных переменных [72,70,7]. В меньшей степени задача рассматривалась также в теории распознавания [70]. Однако слабо изученным остаётся количественное влияние выпадающих объектов на точность эмпирического прогнозирования с учётом степени их отклонения от основных закономерностей и распределения в пространстве прогностических переменных.

С задачей собственно эмпирического прогнозирования связана не менее важная задача оценки влияния на прогнозируемую величину отдельных прогностических переменных или групп переменных. Широкий спектр методов для решения данной задачи был разработан в рамках теории математической статистики. К их числу следует отнести одномерные и многомерные статистические тесты, методы корреляционного, регрессионного, дисперсионного и ковариационного анализов. Однако методы корреляционного и линейного регрессионного анализа требуют предположений о линейном характере зависимостей, дисперсионный анализ применим только в случае категориальных или порядковых прогностических переменных с ограниченным числом возможных значений. Основные цели работы. Наиболее значимой целью работы является новых методов распознавания и других методов эмпирического прогнозирования, обладающих высокой обобщающей способностью. Данная цель включает в себя также тестирование разработанных методов на достаточно представительных наборах практических или искусственно сгенерированных задач и выявление условий их наиболее эффективного функционирования. Целью исследования также является разработка универсальных методов, позволяющих оценивать влияние на прогнозируемую величину отдельных прогностических переменных или групп переменных.

Научная новизна исследования. Рассматривался подход к повышению обобщающей способности методов эмпирического прогнозирования, основанный на минимизации обобщённой ошибки прогнозирования, представляющей собой усреднение ошибки не только по пространству всевозможных объектов, для которых осуществляется прогноз, но и по пространству всевозможных обучающих выборок. Обобщённая ошибка может быть представлена в виде суммы трёх составляющих: неустранимой шумовой составляющей, составляющей смещения и составляющей нестабильности. Составляющая смещения представляет собой среднеквадратичное отклонение математического ожидания прогнозирующей функции по пространству обучающих выборок (ПОВ) от условных математических ожиданий в точках пространства прогностических переменных. Составляющая нестабильности представляет собой усредненное по среднеквадратичное отклонение прогнозирующих функций от их, усредненных по ПОВ значений.

Неустраняемая шумовая составляющая представляет собой среднеквадратичное отклонение прогнозируемой величины от условных математических ожиданий в точках пространства прогностических переменных. Повышение обобщающей способности методов эмпирического прогнозирования может достигаться путём снижения составляющих смещения и нестабильности.

В качестве средств снижения составляющих смещения и нестабильности рассматривались коллективные методы. На первом шаге рассматривалась задача прогнозирования скалярных переменных. Было показано, что использование в качестве прогнозируемых значений среднеарифметических значений по наборам прогностических алгоритмов приводит к коллективному методу, для которого составляющие смещения, нестабильности и, как результат, вся обобщённая ошибка не превышают средние значения этих параметров по наборам. При этом может достигаться значительное снижение составляющей смещения, зависящее от величины взаимных различий алгоритмов коллектива. Откуда может быть сделан вывод об эффективности наборов относительно слабо коррелирующих друг с другом алгоритмов с низкими значениями составляющей нестабильности. В частности могут быть использованы наборы алгоритмов, осуществляющих прогноз по подмножествам переменных с размерностью существенно меньшей размерности исходной задачи. Данный вывод был убедительно подтверждён для коллективов алгоритмов множественной линейной регрессии с помощью Монте-Карло экспериментов. Было показано, что аналоги результатов, касающихся поведения составляющих обобщённой ошибки для метода среднеарифметических значений, справедливы также для задач прогнозирования векторных величин и функциональных зависимостей.

Была разработана процедура построения прогнозирующих функций путём взвешенного голосования по системам подобластей в многомерном признаковом пространстве (базовых множеств). Весовые коэффициенты при голосовании вычисляются путём максимизации функционала правдоподобия специального вида. Данную процедуру построения прогнозирующих функций далее будет называться методом прогнозирования статистически взвешенным голосованием (ПСВГ).

Недостатком метода ПСВГ является независимое включение в используемый функционал правдоподобия сомножителей, соответствующих отдельным базовым множествам. При этом не предполагается учёт меры их взаимного пересечения, что в реальности может привести к существенному завышению вклада множеств, в значительной степени дублирующих друг друга. В связи с этим была предложена процедура построения оптимальных коллективных решений, основанная на минимизации оценок локального функционала потерь и принимающая во внимание степень коррелированности вошедших в коллектив элементов.

Метод ПСВГ был использован при построении ряда алгоритмов распознавания. В первую очередь здесь следует упомянуть разработанный автором совместно с группой сотрудников Института биохимической физики им. Н.М.Эмануэля РАН метод «Статистически взвешенные синдромы» [35,97], в котором в качестве базовых множеств выступают двумерные и одномерные частичные логические закономерности. При этом граничные точки, формирующие логические закономерности ищутся с помощью метода оптимальных разбиений интервалов допустимых значений отдельных признаков. Отбор закономерностей производится по величине функционала, характеризующего степень разделения классов, при возможном использовании также функционала, характеризующего стабильность границ. Метод СВС был достаточно успешно использован при решении целого ряда практических задач [29,31,35,36,92]. Вместе с тем в нём используются только одномерные модели оптимальных разбиений, а в голосовании участвуют только закономерности, выделенные с помощью границ, параллельных координатным осям. Для преодоления этих ограничений были предложены метод двумерных линейных разделителей (ДЛР) [86] и метод мультимодельного голосования с пропорциональной коррекцией (МГПК), [66] использующие для вычисления оценок за классы процедуру ПСВГ.

В методе ДЛР базовые множества формируются путём дихотомических разбиений двумерных областей допустимых значений пар признаков. При этом разбиения производятся с помощью прямых с произвольной ориентацией относительно координатных осей, а элементы разбиения включаются в систему базовых множеств при превышении порогового значения функционала, характеризующего степень разделения классов.

В методе МГПК совместно используются базовые множества, полученные с помощью а) одномерных разбиений; б) двумерных разбиений с границами, параллельными координатным осям; в) двумерных разбиений, производимых с помощью прямых с произвольной ориентацией относительно координатных осей.

Также как и в методах ДЛР и МГПК в систему базовых множеств включаются элементы разбиений, для которых величина функционала, характеризующего степень разбиения, превышает пороговые значения. Для снижения эффекта перенастройки величины пороговых значений варьируются в зависимости от сложности используемой модели разбиений. В работе произведён сравнительный анализ трёх методов. Исследования показали, что метод МГПК в среднем обеспечивает высокую точность на широком круге задач.

В диссертации также представлен ряд исследования по оценке влияния выпадающих объектов на экстраполирующую способность множественной линейной регрессии и линейного дискриминанта Фишера. Исследования проводились на искусственно сгенерированных выборках данных с различным характером отклонения распределения выпадающих объектов от распределения. В ходе исследований были предложены новые процедуры выявления выпадающих объектов и проведена оценка их эффективности.

В диссертации также исследуется задача оценки статистической достоверности зависимости прогнозируемой величины от группы прогностических переменных, выявленной с помощью методов эмпирического прогнозирования. В качестве средства оценки достоверности рассматривается перестановочный тест, не требующий предположений о характере шумовой составляющей и ограничений на размер выборок.

Предложен новый метод исследования влияния отдельных прогностических переменных, а также пар переменных на прогнозируемую величину. Метод основан на построении оптимальных разбиений областей допустимых значений прогностических переменных в рамках моделей различного уровня сложности. Для верификации выявленных таким образом закономерностей используется перестановочный тест и его модификации. Эксперименты, проведённые на искусственно сгенерированных выборках, продемонстрировали возможности метода по выявлению закономерностей, предусмотренных сценарием генерации данных, а также низкую вероятность включения в выходной набор ложных и частично ложных закономерностей. Важным преимуществом разработанного метода построения оптимальных статистически достоверных разбиений является возможность использования его в задачах со смешанным типом скалярных прогностических переменных, включая непрерывные, порядковые и категориальные переменные. Метод допускает также и самую разнообразную природу прогнозируемых величин. В качестве прогнозируемых переменных, наряду со скалярными переменными, могут выступать также и векторные величины, а также кривые выживаемости.

1) Совокупность теоретических и экспериментальных результатов, устанавливающих взаимосвязь составляющих смещения и нестабильности для метода среднеарифметических значений по коллективу прогностических алгоритмов со средними значениями данных составляющих по алгоритмам коллектива. Взаимосвязь установлена для задач прогнозирования как скалярных, так и векторных величин, а также функциональных зависимостей.

2) Процедура построения прогнозирующих функций путём взвешенного голосования по системам подобластей в многомерном признаковом пространстве (базовым множествам), в которой весовые коэффициенты при голосовании вычисляются путём максимизации функционала правдоподобия специального вида.

3) Процедура построения оптимальных коллективных решений, основанная на минимизации оценок локального функционала потерь и принимающая во внимание степень коррелированности вошедших в коллектив элементов.

4) Методы распознавания, основанные на взвешенном голосовании по системам подобластей признакового пространства.

5) Методы выявления в данных объектов, выпадающих из основных закономерностей, основанные на использовании искажений регрессионных функций или разделяющих поверхностей.

6) Совокупность результатов, обосновывающих использование перестановочных тестов в качестве средства оценки достоверности результатов эмпирического прогнозирования.

7) Метод анализа данных, основанный на построении оптимальных разбиений пространства прогностических переменных в рамках заранее фиксированных моделей различного уровня сложности и использующий для верификации перестановочные тесты.

8) Результаты применения разработанных методов распознавания данных для решения задач медицинской диагностики и прогнозирования.

Методы исследований. В работе использованы методы математической теории распознавания образов, а также методы математической статистики. Практическая значимость. Разработанные метод поиска закономерностей с помощью оптимальных статистически достоверных разбиений (см. Гл. 7), метод распознавания "Статистически взвешенные синдромы" (см. Гл. 4), а также методика верификации, основанная на перестановочном тесте были реализованы в рамках программной системы РАЗБИЕНИЯ. Метод "Статистически взвешенные синдромы" вошёл в состав программной системы "РАСПОЗНАВАНИЕ". Разработанные методы успешно использовались для решения прикладных задач в сотрудничестве с Институтом Биохимической Физики им. Н.М.Эммануэля РАН, Научно-исследовательским институтом неврологии РАМН, Российским онкологическим научным им Н.Н.Блохина РАМН, 1586 Окружного военного клинического госпиталя МВО РФ, Институтом органической химии РАН, Эдинбургским университетом (Великобритания) и др. При этом метод оптимальных разбиений, описанный в Главе 7, использовался для детального изучения влияния потенциальных прогностических показателей на зависимую величину с целью выявления оптимального набора. Метод «Статистически Взвешенные Синдромы», описанный в Главе 4, использовался для решения собственно диагностических или прогностических задач. Для статистической верификации полученных решений использовалась представленная в Главе 6 методика, основанная на перестановочном тесте. Результаты большинства исследований опубликованы в научной периодике или представлены на конференциях соответствующей тематики.

Апробация работы. Основные результаты работы докладывались и обсуждались на Всероссийских конференциях "Математические методы распознавания образов" (6-ая Москва, 1993 г., 7-ая Москва, 1995 г., 8-ая Москва, 1997г., 9-ая Москва, 1999 г., 10-ая Москва, 2001 г., 11-ая Москва, 12-ая Москва, 2003 г.); на международной конференции "Математические методы интеллектуализации обработки информации" (Алушта, 1996 г.), "Распознавание образов и обработка информации" (Минск, 2003 г.); COMPSTAT 2000 (Утрехт, j

Нидерланды, 2000); 2 Conference «Computer Science and Information Technologies - CSIT-99» ( Ереван, Армения, 1999 г.); на международных конференциях «Распознавание образов и анализ изображений: новые информационные технологии» (РОАИ-3-98, Нижний Новгород, 1996, РОАИ-5-2000, Самара, 2000г.; РОАИ-6-2002 Великий Новгород, 2002г.; РОАИ-7-2004,

Санкт-Петербург, 2004); на 18-ом международном семинаре по статистическому моделированию (Лёвен, Бельгия, 2003), International conference on systems and signals in intelligent technologies (Минск, 1998 г.), на 14-ом международном семинаре по статистическому моделированию ( Грац, Австрия, 1999г.); Международная научно-практической конференция «KDS-2001»(Санкт Петербург, 2001); Fourth International Conference «Pattern Recognition and Information Processing-PRIP'97>> (Минск, 1997 г.); на 6-ом открытом германо-российском семинаре "Pattern Recognition and Image Understanding" (Новосибирск, 2003), на 14-ой международной конференции по распознаванию образов (Брисбен, Australia, 1998)

Заключение диссертация на тему "Методы эмпирического прогнозирования, основанные на устойчивых разбиениях и коллективных решениях"

Выводы

1) В главе характеризуются особенности использования методов распознавания для решения задач диагностики и прогнозирования в медицине.

2) Описаны программные пакетные реализации методов распознавания и анализа данных, представленных в главах 4 и 8.

3) Приведены примеры успешно решённых практических задач.

7.3.8 Заключение

Результаты экспериментов на искусственно сгенерированных данных, представленные в пунктах 7.3.5 и 7.3.6 , продемонстрировали высокую эффективность метода условной значимости как с точки зрения высокой доли правильно идентифицированных предусмотренных сценарием закономерностей, так и с точки зрения незначительного числа попавших в выходной набор ложных и частично ложных закономерностей. Таким образом, именно данная модификация может быть предложена для практического использования. Вместе с тем серьёзным недостатком рассмотренного подхода является необходимость большого объёма вычислений при использовании перестановочного теста. Так обработка таблицы данных, содержащей 170 строк (объектов) и 16 столбцов (признаков) потребовало 14 минут работы процессора Pentium (R) 4 CPU 2.60GHz. Одним из возможных путей повышения быстродействия является использование параллельных методов. Следует отметить, что исходная задача поиска закономерностей легко разбивается на набор подзадач, которые могут выполняться независимо. Например, наиболее трудоёмкие процедуры поиска и верификации двумерных закономерностей для непересекающихся подмножеств пар признаков могут производиться совершенно независимо.

Другим возможным способом повышения быстродействия является досрочное прекращение процесса верификации с помощью перестановочного теста, если накопленные результаты свидетельствуют об очень небольшой вероятности достижимости априори заданного порога значимости.

Библиография Сенько, Олег Валентинович, диссертация по теме Теоретические основы информатики

1. Айвазян С.А., Енюков ЙС., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М.: Финансы и статистика, 1985.

2. Айвазян С.А., Бухштабер В.М., Енюков С.А., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989.

3. Айзерман М.А., Браверманн Э.М., Розоноэр Л.И. Метод потенциальных функций в теории обучения машин. М.: Наука, 1970. 384 с.

4. Амосов, Т.Н. Байдык, А.Д. Гольцев и др . НЕЙРОКОМПЬЮТЕРЫ и интеллектуальные роботы. К.: Наук, думка, 1991. 271 с.

5. Баскакова Л.В., Журавлев Ю.И. Модель распознающих алгоритмов с представительными наборами и системами опорных множеств //Журн. вычисл. матем. и матем. физики. 1971. Т.21, № 5. С.1264-1275.

6. М.В.Болдин, Г.И.Симонова, Ю.Н.Тюрин Знаковый статистический анализ линейных моделей. М.: Наука, 1997

7. Бонгард М.М. Проблема узнавания. -М.: Наука, 1967, 320 с.

8. А.А.Боровков. Математическая статистика. Оценка параметров. Проверка гипотез. М.: Наука, Главная редакция физико-математической литературы,, 1984,816 с.

9. Вайнцвайг М.Н. Алгоритм обучения распознаванию образов "Кора" // Алгоритмы обучения распознаванию образов. М.: Сов.радио, 1973.

10. В.Н. Вапник, Т.Г. Глазкова, В.А.Кощеев, А.И. Михальский, А.Я. Червоненкис. Алгоритмы и программы восстановления зависимостей. Москва: Наука, 1984

11. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов (статистические проблемы обучения). -М.:Наука, 1974.-415 с.

12. Витушко М.А., Гуров Н.Д., Переверзев-Орлов B.C. Синдромное прогнозирование изменчивости // Сб. докладов 10-й Всероссийской конференции "Математические методы распознавания образов" (ММРО-Ю), Звенигород, 2001, с. 28-30.

13. Воронцов К.В. Оптимизационные методы линейной и монотонной коррекции в алгебраическом подходе к проблеме распознавания// ЖВМ и МФ. -2000-Т.40.№1, с.166-176.

14. Л.Деврой, Л.Дьёрфи. Непараметрические методы оценивания плотности. Lx-подход. -Москва: Мир, 1988.

15. С.И. Гуров. Оценка надёжности классифицирующих алгоритмов. -Москва: Издательский отдел факультета Вычислительной математики и кибернетики МГУ им. М.В. Ломоносова, 2002.

16. А.Н.Дмитриев, Ю.И.Журавлев, Ф.П.Кренделев, О математических принципах классификации предметов и явлений. Сб. "Дискретный анализ". Вып. 7. Новосибирск, ИМ СО АН СССР. 1966. С. 3-11.

17. Дмитриев А.Н., Журавлёв Ю.И., Кренделев Ф.И. Об одном принципе классификации и прогноза геологических объектов и явлений. Известия Сиб. Отд. АН СССР, Геология и геофизика, 5,1968, 50-64.

18. Дюкова Е.В. Асимптотически оптимальные тестовые алгоритмы в задачах распознавания// Проблемы кибернетики. М.: Наука, 1982. Вып. 39. С. 165-199.

19. Дюкова Е.В. Алгоритмы распознавания типа "Кора": сложность реализации и метрические свойства// Распознавание, классификация, прогноз (матем. методы и их применение). М.: Наука, 1989. Вып.2. С. 99-125.

20. Ю.Б. Котов. Новые математические подходы к задачам медицинской диагностики. -Москва: Издательство «Едиториал УРСС», 2004.

21. Журавлёв Ю.И., Камилов М.М., Туляганов Ш.Е. Алгоритмы вычисления оценок и их применение. «ФАН», Ташкент, 1974.

22. Журавлёв Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации , сб. «Проблемы кибернетики», М.: Наука, 1978, вып. 33, с. 5-68.

23. Журавлев Ю.И., Никифоров В.В. Алгоритмы распознавания, основанные на вычислении оценок // Кибернетика. 1971. №3. С. 1-11.

24. Ю.И. Журавлев. Корректные алгебры над множествами не кор ректных (эвристических) алгоритмов. I. // Кибернетика. 1977. N4. С. 5-17. , II. Кибернетика, N4,1977, III. // Кибернетика. 1978. N2. С. 35-43.

25. Журавлев Ю.И, ИЗБРАННЫЕ НАУЧНЫЕ ТРУДЫ. М.: Издательство Магистр, 1998. - 420 с.

26. Журавлёв Ю.И. Рязанов В.В. Сенько О.В. РАСПОЗНАВАНИЕ. Математические методы. Программная система. Применения. -Москва: Фазис, 2006.

27. Зуев Ю.А. Метод повышения надежности классификации при наличии нескольких классификаторов, основанный на принципе монотонности// Ж. вычисл. матем. и матем. физ,1981, Т.21, № 1, С.157-167

28. Краснопрошин В.В. Об оптимальном корректоре совокупности алгоритмов распознавания// Ж. вычисл. матем. и матем. физ., 1979. Т.19. №1. С. 204-215.

29. Кузнецов В.А., Сенько О.В., Кузнецова А.В. и др. // Распознавание нечетких систем по методу статистически взвешенных синдромов и его применение для иммуногематологической нормы и хронической патологии. // Химическая физика, 1996, т.15 . №1. С. 81-100.

30. Кузнецов В.А., Ившина А.В., Кузнецова А.В., Сенько О.В. Анализ фенотипа лимфоцитов крови в прогнозировании метастазирования у больных остеосаркомой. Подход, основанный на распознавании нечетких систем. // Иммунология. 1995. N 5. С.52-58.

31. Кузнецова А.В. Диагностика и прогнозирование опухолевого роста по иммунологическим данным с помощью методов синдромного распознавания. Автореф. дис. канд. биол. наук. М., 1995. 23 с.

32. Кузнецова А.В., Мамаев В.Б., Сенько О.В. Логико статистическое прогнозирование биологического возраста по данным биоактивных точек. Математические методы распознавания образов (ММРО 12), Москва, 2005, с. 356-359.

33. Лисенков А.Н. Сенько О.В, Воскобойников В.В. Прогнозирование рисков развития рецидивов у больных оперированных больных эутиреоидным зобом. Математические методы распознавания образов (ММРО 9) с.215-217

34. Мазуров Вл.Д. Комитеты систем неравенств и задача распознавания // Кибернетика. 1971. №3. С. 140-146.

35. Мачак Г.Н. Кузнецова А.В. Сенько О.В. Использование методов распознавания для прогноза результатов лечения остеогенной саркомы. //Тезисы докладов 8 ой всероссийской конференции ММРО 8, с. 192-193

36. Мачак Г.Н., Лукьянченко А.Б., Долгушин Б.И., Кочергина Н.В.,Вирашке Э.Р., Сенько О.В., Кузнецова А.В. Критерий эффективности предоперационной химиотерапии остеосаркомы. Роль лучевых методов. Вопросы онкологии 2005, № 3

37. Матросов В.Л. Синтез оптимальных алгоритмов в алгебраических замыканиях моделей алгоритмов распознавания// Распознавание, классификация, прогноз: Матем. методы и их применение. М.: Наука, 1988. Вып.1, С.229-279.

38. С.Р.Рао. Линейные статистические методы .М. «Наука», 1968

39. Раудис Ш. О количестве априорной информации при построении алгоритма классификации. Изв. АН СССР. Техн. кибернетика. М., 1972. N.4. с.168-174.

40. Реброва О.Ю., Сенько О.В., Кузнецова А.В. Использование логико-статистического анализа в задаче дифференциальной диагностики типов инсульта. // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2003, N 7, с. 15-21.

41. Рудаков К.В. Универсальные и локальные ограничения в проблеме коррекции эвристических алгоритмов //Кибернетика, 1987, № 2,с.30 35.

42. Рудаков К.В. Полнота и универсальные ограничения в проблеме коррекции эвристических алгоритмов классификации. //Кибернетика, 1987, № 3,с.Ю6 109.

43. Рудаков К.В. Об алгебраической теории универсальных и локальных ограничений для задач классификации // Распознавание, классификация, прогноз: Матем. методы и их применение. М.: Наука, 1988. Вып.1, С.176-200.

44. Рязанов В.В. Сенько О.В. О некоторых моделях голосования и методах их оптимизации. Распознавание, классификация, прогноз (Математические методы и их применение)./М.: Наука, 1990, вып.З., с. 106-145.

45. Рязанов В.В. Оптимизация алгоритмов вычисления оценок по параметрам, характеризующим представительность эталонных строк./Ж. вычисл. матем. и матем. физ, т. 16, №6,1976.

46. Сенько О.В. Алгоритмы распознавания, основанные на принципах принятия коллективных решений.//Автореферат диссертации канд.физ- мат наук, 01.01.09. Москва, 1990,15 с.

47. Сенько О.В. Алгоритмы распознавания, основанные на принципах принятия коллективных решений.//Диссертация канд.физ- мат наук, 01.01.09. Москва, 1990,71 с.

48. Сенько О.В. Оценка апостериорных вероятностей принадлежности объектов классам при процедуре голосования.// Ж. вычисл. матем. и матем. физ, т.32, с. 635-644, 1992.

49. О.В. Сенько. Об одном методе выбора оптимальной моделиаппроксимации // Доклады 9-ой Всероссийской конференции "Математические методы распознавания образов", 1999, С. 103-104

50. Сенько О.В. Использование процедуры взвешенного голосования по системе базовых множеств в задачах прогнозирования //Ж. вычисл. матем. и матем. физ, 1995, т. 35, с. 249-257.

51. Сенько О.В. Перестановочный тест в методе оптимальных разбиений. //Ж. выч. матем. и матем. физ. N9,2003, с.1438-1447.

52. Сенько О.В. Использование коллективных методов для повышения обобщающей способности прогнозирования. //Доклады академии наук, 2006, Том 411, №6, с. 1-3.

53. Сенько О.В., Кузнецова А.В. Метод построения оптимальных по сложности разбиений многомерного признакового пространства. // Тезисы докладов 8-ой Всероссийской конференции "Математические методы распознавания образов", 1997, С.104-105

54. Сенько О.В., Кузнецова А.В. Метод предварительной селекции признаков.// Доклады 11-й Всероссийской конференции "Математические методы распознавания образов.", Пущино, 2003, с. 171-172.

55. О.В. Сенько, А.В. Кузнецова, Метод анализа данных, основанный на построении оптимальных разбиений. Труды Международной научно-практической конференции KDS-2001. Том 2, с. 573-579

56. Сенько О.В., Кузнецова А.В., Алгоритмы распознавания, основанные на голосовании по системам закономерностей различных типов // Доклады 12-ой Всероссийской конференции "Математические методы распознавания образов" (ММРО 12), Москва, 2005, С. 200-203.

57. Ф.Уоссермен, Нейрокомпьютерная техника, М.,Мир, 1992.

58. Ширяев А.Н. Вероятность. М.: Наука, 1989.

59. А.М.Шурыгин "Прикладная стохастика: робастность, оценивание, прогноз". Москва, "Финансы и статистика", 2000.

60. Чегис И.А., Яблонский. Логические способы контроля электрических схем. Труды Матем. ин -та им. В.А. Стеклова АН СССР, 51, 1958, 270-360.

61. Хьюбер П. Робастность в статистике. М.: Мир, 1984.

62. Хардле В. Прикладная непараметрическая регрессия. М.: Мир, 1993.

63. Abdolell М., LeBlanc М., Stephens D., Harrison R.V. Binary partitioning forcontinuous longitudinal data: categorizing a prognostic variable. // Statistics in Medicine.2002,21:3395-3409

64. L. Breiman Bagging predictors. Machine learning, 24,123-140,1996.

65. L.Breiman. Random forests random features. Technical report 567. Statistics department. University of California, Berkley, September 1999. //www.boosting.org

66. L.Breiman Bias, variance and arcing classifiers. Technical report 460. Statistics department. University of California, Berkley, April 1996. //www.boosting.org

67. C. Chatfield Model Selection, Data Mining and Model Uncertainty. Proceedings of the 18th International Workshop on Statistical Modelling Leuven, Belgium, 2003, pp. 79-84.

68. Cox D.R. Regression models and life tables.//J.R. Statist. Soc., B. p. 34-187

69. C.E.McCulloch "An Introduction to Generalized Linear Mixed Models", Proceedings of the 14th IWSM, Graz, Austria,July, 1999, p.39=56.

70. Chitchian, R., Safaryan, I. A Nonparametric Approach to Bivariate Dependence Models Comparison. Computer Science and Information Technologies. Proceedings of the conference. Erevan, Armenia, 2001.

71. Christopher J.C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition, Appeared in: Data Mining and Knowledge Discovery 2, 121-167, 1998.

72. A.C.Davidson "The Bootstrap: A Tutorial", Proceedings of the 14th IWSM, Graz, Austria, July, 1999, р.10=18.

73. Dokukin A.A. Senko O.V. About new pattern recognition который method for the universal program system Recognition. Proceedings of the International Conference I.Tech-2004,, Varna (Bulgaria), 14-24 June 2004,pp. 54-58.

74. Efron,B. Bootstrap methods: another look at the jackknife. Ann. Statist., 7, 126,1979.

75. Friedman, J.H. (1991), "Multivariate adaptive regression splines", Annals of Statistics, 19, p. 1-141.

76. Y. Freund, R.E. Schapire. Experiments with New Boosting Algorithm.// Machine Learning:Proceedings of the Thirteenth International Conference, Bari, Italy, 1996.

77. Hadi, A.S., Simonoff, J.S., 1993. Procedures for thei dentification of multiple outliers in linear models. J. Amer. Statist. Assoc. 88,1264-1272.

78. Kaplan E.L, Meier P. Nonparametric estimation from incomplete observations //J.Amer.Stat.Assoc. 1958, v.53, P.457-481.

79. M.Kearns, Mansour Y, Ng A.Y, Ron D, An Experimental and Theoretical Comparison of Models Selection Methods. Machine Learning, 27,7- 50.(1997)

80. L.I. Kuncheva Combining Pattern Classifiers. Methods and Algorithms. /Wiley Interscience, New Jersey, 2004

81. Kuznetsova A.V., Sen'ko O.V., MatchakG.N., Vakhotsky V.V., ZabotinaT.N., Korotkova O.V. The Prognosis of Survivance in Solid Tumor Patients Based on Optimal Partitions of Immunological Parameters Ranges //J. Theor. Med., 2000, Vol. 2, pp.317-327.

82. Lbov G.S., Starceva N.G. About statistical robustness of decision functions in pattern recognition problems. //Pattern Recognition and Image Analysis, 1994, Vol. 2, № 3, p.97 106.

83. Lbov G.S., Starceva N.G. LASTAN A system for Logical Analysis of Statistical Observation Functions in Pattern Recognition problems. //Pattern Recognition and Image Analysis, 1994, Vol. 2, № 1, p.57 61.

84. David J.C. MacKay. Information Theory, Inference and Learning Algorithms. Copyright Cambridge University Press 2003. http://www.cambridge.org/0521642981

85. Makeev, G.M., Kumskov, M.I., Svitanko, I.V., and Zyryanov, I.L., Recognition of Spatial Molecular Shapes of Biologically Active Substances for Classification of Their Properties. //Pattern Recognition and Image Anal., 1996, vol. 6, no. 4, pp. 795 808.

86. G.M.Makeev, O.V.Sen'ko, M.I.Kumskov. Evaluation of Models for the Prediction of Biological Properties of Flexible Molecules. //Pattern Recognition and Image Analysis, Vol. 9, No.l, 1999, pp.78-80.

87. C.E.McCulloch "An Introduction to Generalized Linear Mixed Models", Proceedings of the 14th IWSM, Graz, Austria, July, 1999, p.39=56.

88. Perrone M.P. Improving regression estimates: averaging methods for variance reduction with extension to general convex measure optimization. PhD thesis, Brown University, 1993.

89. Rissanen J.(1986) Stochastic complexity and modeling. Annals of Statistics, 14,1080-1100.

90. Rousseeuw,P.J., 1984. Least median of squares regression. J. Amer. Statist. Assoc. 79, 871-881

91. V.V.Ryazanov, Recognition Algorithms Based on Local Optimality Criteria , Pattern Recognition and Image Analysis. 1994. Vol.4, no.2. pp. 98-109.

92. Ryazanov V.V. About some approach for automatic knowledge extraction from precendent data // Proceedings of the 7th international conference "Pattern recognition and image processing", Minsk, May 21-23, 2003, vol. 2, pp. 35-40.

93. V.V.Ryazanov, O.V. Senko, and Yu. I. Zhuravlev. Methods of recognition and prediction based on voting procedures.// Pattern Recognition and Image Analysis, Vol. 9, No. 4,1999, p.713—718.

94. O.V. Sen'ko "A Prediction Algorithm Based on the Procedure of Weighted Voting Using a System of Hyperparallelepipeds in a Multidimensional Feature Space" I I Pattern Recognition and Image Analysis, 1993, vol.3, no. 3, pp.283-284.

95. O.V. Sen'ko. A Method for Estimating Adequacy of Approximation Models. Pattern Recognition and Image Analysis, Vol. 11, No. 1,2001, pp.85-86.

96. Sen'ko O.V. The Method of Dependencies Description with the Help of Optimal Multistage Partitioning. Proceedings of the Conference CSIT, Yerevan, Armenia, pp.167-169,2001

97. Senko Oleg V.The Use of Collective Method for Improvement of Regression Modeling Stability. InterStat. Statistics on the Internet (Интернет издание) http://statiournals.net/, June,2004.

98. Oleg V.Senko and Anna V. Kuznetsova The Optimal Valid Partitioning Procedures . Statistics on the Internet httyJ/statiournals. net/. April, 2006

99. Sen'ko O.V., Kuznetsova A.V. (1998). The use of partitions constructions for stochastic dependencies approximation. Proceedings of the International conference on systems and signals in intelligent technologies. Minsk (Belarus), pp. 291-297.

100. O.V. Senko, A.V. Kuznetsova. The Use of Partitioning for Analysis of Biomedical Data. Proceedings of 14th International Workshop on Statistical

101. Modelling, Graz, Austria, 1999, pp.656-659,

102. Sen'ko O.V., Kuznetsova A.V., Echin A. The method of data analysis based on partitioning. // Proc. in Comput. Statistics. Short Commun. and Posters. COMPSTAT, 2000, p.259-260.

103. Senko O.V Kuznetsova A.V. The use of partitioning for analysis of biomedical data. // 20th Annual Conference of the International Society for Clinical Biostatistics, Abstracts Volume , Heidelberg, Germany, 1999, p. 406.

104. Senko O.V., Kuznetsova A.V., Kropotov D.A. (2003). The Methods of Dependencies Description with the Help of Optimal Multistage Partitioning. Proceedings of the 18th International Workshop on Statistical Modelling, Leuven, Belgium, 2003, pp. 397-401.

105. O.V. Sen'ko, A.V. Kuznetsova. A Voting Based Method for Estimating Survival Curves. // Pattern Recognition and Image Analysis, Vol. 9, No. 2, 1999, pp.381-382.

106. Senko O.V., Kuznetsova A.V. The method of statistical validation of pattern recognition results based on random tables generation.//Pattern recognition and image analysis. Vol.8, N2,1998, pp.1-2.

107. O.V. Sen'ko, D.A.Kropotov, A.V. Kuznetsova, and G.N.Matchak. Application of the Optimal Partitioning Method to Higher Dimensional Problems of Survival Analysis. Pattern Recognition and Image Analysis, vl3, No. 2, 2003, pp. 343-344.

108. Sen'ko O.V., Kuznetsova A.V., Strelnikov A.N., Mamaev V.B. The Use of Pattern Recognition in Investigation of Electro Puncture Diagnostics for

109. Evaluating of Nervous and Psychic States. Proceedings of 7-th International Conference on Pattern Recognition and Image Analysis: New Information Technologies, 2004, St. Peterburg, v. Ill, pp.886-889.

110. Senko O.V.,Vetrov D.P. The Recognition Capability Improving Based On Outliers Identification. Proceedings of the conference PRIP '2003, Minsk, Belarus, 2003, pp. 31-34.

111. Swallow, W., Kianifard, F., 1996. Using robust scale estimates in detecting multiple outliers in linear regression. Biometrics 52, 545-556.

112. V. Tresp. Committee Machines, in: Handbook for Neural Network Signal Processing, Yu Hen Hu and Jeng-Neng Hwang (eds.), CRC Press, 2001.

113. J. W.Wisnowski, D. C. Montgomery, J. R. Simpson A Comparative Analysis of multiple outlier detection procedures in the linear regression model. // Computational Statistics & Data Analysis. Vol.36, pp.351-382

114. J.Uffink. Can the maximum entropy principle be explained as consistency requirements// in History and Philosophy of Modern Physics, 26B,(1995),223-261

115. Recognition and Image Understanding", Novosibirsk, p.255-258

116. Zhuravlev Yu, Ryazanov V, Senko 0, Biryukov A, Vetrov D, Dokukin A, Kropotov D. The Program System for Intellectual Data Analysis, Recognition and Forecasting. WSEAS Transactions on Information Science and Applications, 2(1), 2005. pp.55-59.