автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Групповая классификация на основе байесовских моделей
Автореферат диссертации по теме "Групповая классификация на основе байесовских моделей"
На правах рукописи
Бабушкина Елена Вадимовна
ГРУППОВАЯ КЛАССИФИКАЦИЯ НА ОСНОВЕ БАЙЕСОВСКИХ МОДЕЛЕЙ
05.13.18 - математическое моделирование, численные методы и комплексы программ
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук
Пермь - 2006
Работа выполнена на кафедре Высшей математики Пермского государственного университета.
Научный руководитель: Доктор физико-математических наук, профессор
Ракип Ахметович Абусев
Официальные оппоиевты: Доктор физико-математических наук, профессор
Юрий Николаевич Благовещенский
Кандидат физико-математических наук, доцент Елена Григорьевна Цылова
Ведущая организация: Центральный экономико-математический институт Российской Академии наук, г. Москва
Защита состоится 13 апреля 2006 года в 15-15 часов на заседании диссертационного совета Д212.189.09 в Пермском государственном университете по адресу 614990, г.Пермь, ул.Букирева, д.15, зал заседаний Ученого совета ПГУ.
С диссертацией можно ознакомиться в библиотеке Пермского государственного университета.
Автореферат разослан
Ученый секретарь диссертационного совета
ЛутмановС.В.
Л с об А
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. В последние десятилетия получила довольно широкое развитие теория, связанная с разработкой методов распознавания образов. Предметом изучения этой теории являются способы решения трудноформализуемых и противоречивых задач классификации, оптимизации, принятия решения, которые часто возникают при моделировании сложных систем в экономике, медицине, технике. Процедуры распознавания эффективно используются при проектировании экспертных систем в различных областях знания. Особое место здесь занимают задачи, связанные с решением проблемы обучения распознаванию образов, которая является одной из центральных в области создания искусственного интеллекта.
Отдельным важным приложением теории и методов распознавания является классификация объектов по измерениям их характеристик. Классическая постановка этой задачи заключается в построении решающего правила, относящего один заданный объект к одной из М генеральных совокупностейа>,,а>2,...,©„ , называемых классами. Такая задача носит название задачи поточечной классификации. Теоретические основы ее решения изложены в работах С.А.Айвазяна, Ю.Н.Благовещенского, Л.ДМешалкина, Ю.И.Журавлева, В.Н.Вапника, В.Д.Мазурова, Г.С.Лбова, Т.Андерсона, С.Рао, К.Фукунаги. Разработанные и исследованные в этих работах методы классификации различаются способами описания классов и правилами классификации.
Обобщением классической задачи классификации является задача групповой классификации. В этом случае необходимо классифицировать группу, состоящую из п0 > 1 объектов, для которой априори известно, что она извлечена из одного из классов ( = 1,2,...,Л/. Для решения такой задачи требуется разработка и реализация принципиально новых методов. Это связано с тем, что использование именно групповых классификаторов позволяет уменьшить число ошибочных выводов, получаемых при отнесении группы к тому или иному классу, в сравнении с применением к этой же группе известного метода голосования. Кроме того, важной особенностью группового подхода к решению задачи распознавания образов является возможность увеличения статистической информации за счет привлечения группы классифицируемых объектов при построении решающих правил классификации.
На сегодняшний день можно выделить две тенденции в развитии исследований, связанных с групповой классификацией: первая - принятие решения по целой группе независимых наблюдений; вторая - классификация последовательных во времени зависимых наблюдений. Первая тенденция возникла в связи с контролем качества продукции, когда нет возможности (или это требует существенных затрат) проверить каждое изделие и решение о годности всей партии принимается по результатам проверки определенной части этой партии. Вторая тенденция соответствует часто встречаемой в жизни ситуации, когда результаты наблюдений, сделанных в некоторый момент времени, зависят от результатов ранее произведенных наблюдений (например данные метрологии, биофизические данные, т.д.).
В случае независимости наблюдений задача групповой классификации впервые была формализована Л.По1 и получила дальнейшее развитие в работах Р.А.Абусева,
' Pau L.F Contrôle de qualité statistique// Convention 290939 - Paris Bureau National de
Métrologie, 1976 -P 46-53
Я П Лумельского2. Результаты, связанные с построением групповых классификаторов в случае зависимых наблюдений содержатся в работах С.Азена, Л Аффифи,3 М.Кшишки4, В.Клигиса.
Вместе с тем можно выделить класс моделей наблюдений, для которых задача групповой классификации либо вообще не ставилась, либо вопросы, связанные с групповой классификацией на основе этих моделей были рассмотрены лишь частично. К числу таких моделей можно отнести некоторые байесовские модели.
Под байесовскими моделями понимаются модели, включающие в себя функцию, описывающую распределение объектов в исследуемой совокупности, которое принадлежит некоторому параметрическому семейству и априорное распределение вероятностей анализируемых неизвестных параметров.
Особый интерес представляют модели, в которых параметрическое семейство обладает достаточными статистиками. В последнее время широкую популярность приобрели базы данных, в которых содержится большое количество статистической информации, относящейся к одной и той же исследуемой совокупности (когда физические эксперименты проводятся на одном и том же объекте). Хранение таких данных требует больших объемов памяти. Если для параметра вероятностной модели наблюдений существует достаточная статистика, то появляется возможность значительно сжать объем информации за счет хранения значений только этой статистики. В связи с этим, возникает проблема разработки новых методов, позволяющих принимать решения на основе обобщенных данных.
Разработке и исследованию методов групповой классификации многомерных наблюдений в случае байесовских моделей и посвящена настоящая работа.
Цель и задачи работы. Цель работы состоит в построении и изучении групповых классификаторов в случае, когда выборки наблюдений описываются байесовскими моделями. В работе рассматриваются следующие модели:
1) байесовские модели выборок независимых ¿-мерных нормальных векторов и векторов, извлеченных из многомерных Т-распределений Стьюдента;
2) байесовская модель вектора достаточных статистик нормального распределения;
3) байесовская модель марковской последовательности гауссовых векторов;
4) байесовская модель выборки симметричных квадратных матриц, имеющих распределение Уишарта.
Для осуществления этой цели необходимо решить следующие задачи: 1) провести статистическое оценивание параметрической функции, входящей в состав байесовской модели; 2) построить решающие правила классификации; 3) исследовать построенные статистические оценки и разработанные классификаторы с использованием аналитических методов и методов статистического моделирования.
Положения, выносимые на защиту. К защите представляются:
1. Соотношения, определяющие статистически состоятельные байесовские оценки плотности распределения достаточных статистик нормального закона, плот-
2 Абусев Р А Лумельский ЯП. Статистическая групповая классификация Учебное пособие для вузов. - Пермь -1987 -92 с
3 Azen S Р, Affifi A A Asymptotic and small sample behaviour of estimated Bayes rules for classifying time dependent observations // Biometrics -1972 - Vol 28 -№4 -P 47-56
*Krsysko M The discriminant analysis of multivariate autoregressive process // Статистические проблемы управления -Вильнюс, 1982-Вып59 -С9-23
ности распределения марковской последовательности многомерных нормальных векторов, функций правдоподобия выборок, извлеченных из хг -распределения и распределения Уишарта.
2. Точные аналитические выражения для квадратических погрешностей байесовских оценок плотностей распределения выборок, извлеченных из одномерной нормальной совокупности и совокупности, имеющей х2 -распределение.
3. Асимптотически оптимальные групповые классификаторы, построенные с использованием байесовских оценок в случае нормального распределения, распределения Уишарта, а также в случае многомерного Т-распределения Стьюдента.
4. Точные аналитические выражения, определяющие верхнюю и нижнюю границы суммарной вероятности ошибок классификации для оптимального байесовского решающего правила в случае многомерного Т-распределения Стьюдента.
5. Численные эксперименты с использованием методов статистического моделирования, направленные на исследование построенных решающих правил классификации.
Научная новизна. Изложенные в диссертации результаты являются новыми и имеют как теоретическое, так и практическое значение. В работе впервые:
- получены байесовские оценки для плотности распределения достаточных статистик ¿-мерного нормального распределения, для функции правдоподобия выборки, извлеченной из совокупности, объекты в которой имеют распределение Уишарта; решена задача статистического байесовского оценивания марковской последовательности ¿-мерных гауссовых векторов; найдены аналитические выражения для квадратических погрешностей байесовских оценок в случае одномерного нормального и
X1 -распределения;
- выписаны асимптотически оптимальные групповые классификаторы, основанные на построенных в работе байесовских оценках;
- в случае многомерного Т-распределения получены аналитические выражения верхней и нижней границы суммарной вероятности ошибок для оптимального байесовского решающего правила; численно исследована зависимость вероятности ошибки классификации выборки от параметров модели при использовании различных групповых классификаторов в случае нормальных классов и классов, объекты в которых имеют Т-распределение Стьюдента.
Методика исследования. Достоверность результатов. При проведении исследований в работе были использованы методы теории вероятностей и математической статистики, многомерного статистического анализа, линейной алгебры, теории распознавания образов, а также математического моделирования с применением средств вычислительной техники. Достоверность выводов подтверждается использованием аппарата статистического моделирования, численных методов, применением систем аналитических вычислений, сравнением результатов, полученных в работе посредством имитационного моделирования с известными теоретическими результатами.
Практическая значимость работы. Результаты, полученные в работе, являются вкладом в теорию групповой классификации. Полученные в работе методы могут быть положены в основу конкретных эффективных алгоритмов распознавания при решении практических задач техники, экономики, медицины.
Материалы диссертации вошли в курсы лекций и лабораторных практикумов
для бакалавров и магистров механико-математического факультета Пермского государственного университета, обучающихся по направлению «Прикладная математика и информатика» (специализация «Математическое моделирование в экономике»).
Значимость работы подтверждается поддержкой проведенных исследований грантами РФФИ: №95-01-00015 «Разработка методов группового распознавания»; №98-01-00360 «Разработка асимптотически оптимальных решающих правил группового распознавания»; № 01-01-00494 «Построение математических моделей задач распознавания групп объектов из некоторых параметрических семейств» (руководитель проф. Р.А.Абусев); № 04-01-00481 «Процедуры группового выбора и математические методы распознавания образов» (руководители проф. Р.А.Абусев, проф. В.В.Маланин).
Апробация работы. Основные положения и результаты работы докладывались и обсуждались на следующих семинарах и конференциях: IV Всесоюзной научно-технической конференции «Применение многомерного статистического анализа в экономике и оценке качества продукции» (Тарту, 1989); Всесоюзной научно-практической конференции с международным участием стран членов СЭВ «Применение статистических методов в производстве и управлении» (Пермь, 1990); Республиканской научной школе-семинаре «Компьютерный анализ данных и моделирование» (Минск, 1992); V научной конференции стран СНГ «Применение многомерного статистического анализа в экономике и оценке качества продукции» (Москва, 1993); Межрегиональной научно-технической конференции «Математическое моделирование систем и процессов» (Пермь, 1994); Научных семинарах кафедры теории вероятностей и математической статистики Пермского госуниверситета, руководитель проф. Я.П.Лумельский (Пермь, 1992-1994); XVII Международном семинаре по проблемам устойчивости стохастических моделей (XVII Seminar on Stability Problems of Stochastic Models, Казань, 1995); Всероссийской научной конференции с международным участием "Математические методы распознавания образов - 8" (Пущино, 1995); Всероссийской конференции "Математические методы распознавания образов-10" (Москва, 2001); VII Международной конференции «Распознавшие образов и анализ изображений: новые информационные технологии» (Санкт-Петербург, 2004); Научном семинаре ЦЭМИ РАН, руководители проф. С.А.Айвазян, проф. Ю.Н.Благовещенский, (Москва, 2005).
Публикации. По теме диссертации опубликовано 19 работ. Личный вклад в получении научных результатов. Все результаты, изложенные в работах [9, 13] получены лично автором. В работах [5, 10, 11, 17] автор диссертации участвовал в постановке задач, разработке и тестировании программного обеспечения, получал и оценивал результаты расчетов. В работах [1-4, 6-8, 12, 14-16, 18, 19] выполненных в соавторстве с научным руководителем, диссертант принимал участие в доказательстве теорем, проводил расчеты и изложение результатов
Объем и структура работы. Диссертация изложена на 150 страницах, включает 15 таблиц, 10 рисунков, библиографический список (104 литературных источника), состоит из списка обозначений, введения, четырех разделов и заключения.
СОДЕРЖАНИЕ РАБОТЫ Диссертационная работа состоит из следующих основных разделов: Список обозначений. Введение.
1. Математическое предисловие
2. Оценивание плотностей распределений в рамках байесовских моделей
3. Решающие правила групповой классификации
4. Исследование качества статистических оценок и решающих правил Заключение.
Библиографический список.
Во введении обоснована актуальность темы диссертации, сформулированы цель и задачи исследования, показана научная новизна и практическая значимость работы, проводится анализ работ, в которых ставилась и решалась задача групповой классификации.
Первый раздел представляет собой математическое введение в проблематику работы.
Подразделы 2.1, 2.2 и 2.3 содержат постановку задачи групповой классификации. Здесь приводится вид оптимального байесовского решающего правила и статистического группового классификатора.
Рассматривается совокупность объектов П, которую по определенным критериям можно разбить на конечное число М классов (совокупностей) й)„со2,...,й)и . Каждый объект из класса е>, представляется ¿-мерным вектором наблюдений X] = (Х®*, ,Х^)Т, к > 1 . Априорную вероятность класса (вероятность того, что объект, извлеченный из совокупности П, принадлежит классу т,) обозначим
(м \ через д,=Р(ч>,) £<?,=1 -Ы ;
Пусть лт является реализацией выборки я' = (Х0|,Ха2, ,Х0ло) , которая целиком принадлежит одному из (опа>1,...,соИ и характеризуется плотностью распределения /(жоо I е>,), I = 1,2,..., А/. На основании имеющейся информации о классах ставится задача групповой классификации: построить решающее правило, позволяющее наилучшим образом отнести к одному из о,, / = 12, ,М ■
Если плотности /(я'оо |®,) и вероятности , / = 1,2, М полностью известны, задачу построения наилучшего классификатора в смысле минимума среднего числа потерь, возникающих при классификации
Л = £1;<?,с010о0, (1)
1=1
можно решить однозначно. Таким классификатором является байесовский групповой классификатор3
м м
ЯооС<и7> еслисОЮДлооК)<£<?|Ф'1')/(Яоо1<и/) для всех г*у, г = 1Д (2)
¡Г /
Здесь с(] |;) задается априори и представляет собой цену ошибочного отнесения
3 Абусев РА Групповая классификация Решающие правила и их характеристики. - Пермь, 1992. — 218 с ]
группы лж из класса <о, к классу ео , / * /. а ар - вероятность такой ошибки При этом ау, определяется методом классификации и является основной характеристикой его качества.
Геометрически построение правила классификации (2) может быть интерпретировано как построение «наилучшего» разбиения пространства Е всевозможных групп объема л0 на подпространства ЕЬЕ2, ,ЕМ такие, что Е, П= 0 при и м
Уе, = Е . В этом случае классификация группы жж состоит в проверке принадлеж-/=1
ности ее к одному из подпространств Е,, г = 1,2, ,М .
Если предположить, что 1;) = 1, /,/ = 1,2,...,М , / */, то из (2) следует классификатор
^оо с: Г»,, если ?,/(»<» |®у) 2 д,/(*оо 1®г) ^
для всех г*}, г = 1,2, ,М,
который минимизирует суммарную вероятность ошибок
м [ м 1
рщ =1?'Ш/<*00. '"У- (4)
Существует два подхода к построению правил групповой классификации. Первый из них состоит в том, что в качестве /{лт | о,) в (3) используется функция правдоподобия выборки
Д*01.»ю. -.*<ч К^П^О/1®/)' , = 1'2' •А/> (5)
ы
где g(\0| |й>,) - плотность распределения вектора Хо; в классе а,.
Второй подход учитывает то, что параметрическое семейство распределений обладает достаточной статистикой Т = Т(Х|,Х2, ,Х„). В этом случае в качестве условного распределения выборки п' рассматривают условную плотность распределения (10) достаточной статистики Т0 = Т(Х01,Х02,.. ,Х0ло).
Применение оптимальных правил классификации на практике чаще всего невозможно в силу отсутствия полной информации о со,,а>2,...,<ом . Реально мы имеем дело с совокупностями, описанными лишь частично. Информация о классах может быть представлена в виде конечных «наборов» их представителей я, =^|1,Х12,...,ХИ<), (= 1,2,...,А/, которые называются обучающими выборками. Их
реализации будем обозначать яг,0 =- (х,,,х,2,...,хш ). В этом случае возникает задача
построения статистических решающих правил групповой классификации. Дж.Райзин6 доказал, что для построения статистически содержательных методов классификации достаточно вместо неизвестных предполагаемых теоретических условных плотностей
6 Rayzin G Bayes risk consistency of classification procedures using density estimation // Sankhia The Indian Journal ofStatistics -1996 - Ser A - V 28 - P 261-275
распределений выборки в (3) подставить их состоятельные оценки. Тогда правило классификации принимает вид
Лоо сг«,, если 9г/(хт \о>,)<*,/(*оо I ) ^
для всех г * ¡, г = 1,2,., М,
где /(ягда | т,) - состоятельная оценка для /(тгт I®,).
В подразделе 1.4 приводятся сведения о вероятностных распределениях, которые используются в работе.
В подраделе 1.5 обсуждается байесовский подход к статистическому оцениванию и приводится перечень рассматриваемых в диссертационной работе байесовских моделей.
Второй раздел посвящен построению оценок для параметрических функций выборок в рамках байесовских моделей [2,3,4,7,8,14,15,16].
В подразделе 2.1 описывается метод восстановления вероятностной модели объектов совокупности с использованием байесовского подхода. Здесь обсуждается структура байесовских моделей и вводится понятие байесовской оценки относительно априорного распределения неизвестного параметра исследуемой модели. Рассматриваются походы к выбору априорного распределения неизвестного параметра.
Основу байесовского подхода составляет математическая модель, включающая в себя две компоненты
где С(»|в) - известная с точностью до параметра Ое® функция, которая описывает распределение объектов в исследуемой совокупности £1, <1в - мера, относительно которой параметр имеет распределение с плотностью ¡^¡{в). В дальнейшем такую модель будем называть байесовской моделью.
Пусть п = (Х],Х2, -,Х„) - независимая повторная выборка наблюдений над случайной величиной X , которая имеет распределение, задаваемое функцией | в) с неизвестным параметром ве&. Обозначим через g(x[в) плотность распределения, соответствующую Св(х). Необходимо оценить на основе некоторой реализа-
ции выборки я с учетом заданной априорной плотности Ьа(в) (в дальнейшем будет использоваться обозначение И{в)). Оценку для | в) будем искать в виде функции 1 л,, х2,.., х„), которая доставляет минимум априорному байесовскому риску
«¿(5)= ,*„)]2£(*,, ,*2 ,
где Цхьх2, ,х„\в) - функция правдоподобия выборки я,
а Еи+] — пространство
выборок объема (л+1).
Наилучшая оценка, минимизирующая , находится по формуле7
1 Вапник В.Н. Восстановление зависимостей по эмпирическим данным. - М • Наука, 1979 - 448
с.
В подразделе 2.2 приводятся результаты оценивания параметрической функции в байесовской модели выборки я' = (Х01,. , Х0„_), извлеченной из многомерной нормальной совокупности с двумя неизвестным параметрами |1, £.
Доказано утверждение определяющее точное аналитическое выражение байесовской оценки для плотности совместного распределения достаточных статистик
У0=х0=—£хо/ И 2„ = И080=2(Х0/-Х0ХХ0,-Х0)7" "о /=] /«1
в рамках модели
Жуоа>1М,£)=
4
■пи
АСц,Е)<4иЕ = ф<2:/|£|(**1>/2
ехр
(Уо-лГзг'&ц-Й + Ф!
(И
(7)
Теорема 2.4. Байесовская (уценка для плотности совместного распределения достаточных статистик У0, Z0 к-мерного нормального распределения с неизвестными параметрами ц, 21 в рамках модели (7), построенная по независимой повторной выборке я = {(У„ / = 1,2, ,п}, выражена через достаточные статистики , оп+| и имеет вид
(8)
(Уо-^ХУо-У„+))Г
п0 и
,(»„-1-2 >/г
(ЛЯо+Яо-О/г
где
М'
= (л+1)в„+1 + — + г„). (я+1)В„+| = лв„+—г(Уо-у„ХУо- у,/ "о /.1 л+|
яУ„+У(
5г.,
(9)
В подразделе 2.3 решается задача оценивания распределения многомерной нормальной последовательности марковского типа. Рассматривается байесовская модель вида
ь/цд:
14
(4+1)/2
Здесь
=
£ р~£.
£
рЪ
рЪ £
И<1.
На основании взаимнообратного преобразования:8 Уд,
Х()2 + ®мХ|
11л01'
ки = г„ = -гп>А%х=-р\ последовательность л'=(х01.х02, л«.)
взаимозависимых векторов преобразуется в последовательности независимых векторов 5 = (у01,У02, Лоц) и задача построения байесовской оценки для
8(^оа I Сх.^-х) сводится к задаче оценивания функции правдоподобия в модели
"о
£<У01.У(Н. .Уоио = 1
ы
лошадка=ФЖ/|£|'*+|)/2
В работе доказывается теорема, определяющая вид байесовской оценки для ДУоьУо2> >У0ц, •
В подразделе 2.4 содержатся результаты байесовского оценивания функций правдоподобия выборок (5), извлеченных из совокупностей, наблюдения в которых имеют х1 -распределение и распределение Уишарта. Доказаны соответствующие теоремы. Здесь же приводится известный результат, определяющий аналитическое выражение байесовской оценки для функции правдоподобия выборки в случае многомерного Т-распределения Стьюдента9.
Подраздел 2.5 посвящен решению вопроса, связанного с вычислением квадра-тических погрешностей байесовских оценок для плотностей распределений выборок.
Квадратическая погрешность статистической оценки - это интегральная характеристика ее качества. Так если ё„(х) является оценкой плотности распределения | в), построенной по независимой повторной выборке объема л, то ее квадратическая погрешность определяется выражением
г = м
В диссертационной работе найдены точные аналитические выражения для квадрати-ческих погрешностей байесовской оценки функции правдоподобия выборки, извлеченной из одномерной нормальной совокупности10, а также байесовской оценки плот-
* Клигис ВЙ Групповая классификация многомерных марковских последовательностей //Сгатистические проблемы управления - Вильнюс, 1981 -Вып 50 - С 57-74
9 Абусев РА. Статистическое байесовское оценивание в случае многомерного Т-распределения // Статистические методы оценивания и проверки гипотез Межвуз сб науч тр - Пермь, 1998 -С.4-17
10 Выражение, определяющее байесовскую оценку, см в работе [Абусев РА Групповая классификация Решающие правила и их характеристики. - Пермь, 1992 -218 с]
нос га / - распределения. В частности доказывается следующее утверждение:
Теорема 2.9. Квадратическая погрешность байесовской оценки для функции правдоподобия выборки к', извлеченной из нормальной совокупности с параметрами
ц, а равна
4
(10)
(„^w^^f1)
Соотношение (10) дает возможность исследовать качество приближения байесовской оценки к оцениваемой Функции правдоподобия выборки в зависимости от объемов выборок (обучающей и классифицируемой) и дисперсии наблюдений в исследуемой совокупности.
В третьем разделе работы строятся решающие правила групповой классификации и аналитическими методами исследуются их свойства. В работах [1,6, 8,9,12,14, 16, 18,19] опубликованы основные результаты данного раздела.
В подразделах 3.1 и 3.2 приводятся как известные результаты, связанные с построением и исследованием некоторых оптимальных байесовских решающих правил, так и строятся статистические групповые классификаторы на основе (6) с использованием найденных в работе байесовских оценок.
В работе задача построения статистических решающих правил групповой классификации решена: в случае многомерных нормальных моделей (в условиях независимости наблюдений и в условиях, когда объекты представляют собой последова-течьности зависимых наблюдений); в случае моделей Уишарта; моделей Т-распределения Стьюдента.
В частности с использованием оценки (8) построено решающее правило групповой классификации
жж с <Ву, если /
D<" + S„ +
"T(Xo-Y<"XXo-Y„"V
я+
(и+Ряц-1
□^„^(Хо-У^ХХо-УWf п+1
для мех г ф j, r-\X М,
яяь-1
(П)
где
и вычисляются по формулам (9) на основе обучающих выборок я, =|у/(,),г{'))1 = Ья}, представляющих совокупности / = 1,2,
Правило (11) позволяет использовать в обучении классификации информацию в виде вычисленных значений достаточных статистик нормального закона, что позволяет работать с предварительно сжатыми (путем первичной обработки') базами данных большого объема.
В данном подразделе также решается задача вычисления границ для байесовского риска (1) оптимального решающего правила (2) в случае двух классов, имеющих многомерное Т-распределение Стьюдента с параметрами ц,= 1,2 и »'степенями
свободы. Найдены аналитические выражения для верхней (Р2(у) ) и нижней (Р\(у))
4v
границ суммарной вероятности ошибочной классификации ппи условии = Е2 ■= £,
и0 =1 :
j\ + (12) Здесь
д2 =d»i-P2)rs-'(P,-i»2) (13)
— расстояние Махаланобиса между центрами классов щ и ю2 (векторами сдвига ц, и ц2 ).
В подразделе 3.3 доказана состоятельность байесовских оценок и асимптотическая оптимальность построенных в работе статистических решающих правил.
Четвертый раздел работы в основном посвящен исследованию решающих правил групповой классификации в случае двух нормальных классов и двух классов, объекты которых имеют многомерное Т-распределение Стьюдента. В связи с этим проводятся численные эксперименты с использованием методов статистического и имитационного моделирования. Основные результаты данного раздела опубликованы в работах [5,10, И, 13,17]
Подраздел 4.1 содержит краткую информацию о методах Монте-Карло. Здесь приводятся основные формулы и алгоритмы, позволяющие генерировать вектора с заданными законами распределений.
Подраздел 4.2 посвящен описанию численных экспериментов, направленных на всестороннее исследование суммарной вероятности ошибок, которые возникают при использовании различных решающих правил (в том числе и ранее построенных) для классификации групп независимых наблюдений в случае многомерного нормального распределения и Т-распределения Стьюдента. Для тестирования классификаторов было создано специальное Delphi-приложение, позволяющее генерировать выборки векторов заданного объема с заданными законами распределений (многомерное нормальное и многомерное Т-распределение Стьюдента), оценивать параметры распределений, многократно повторять процедуру групповой классификации на основании разработанных решающих правил.
Классификация проводилась в два класса при условии, что s, « е2 = £, =q2 =1/2, п,=и2=л. В случае нормальных моделей сравнивались классификаторы: Optimal - оптимальное решающее правило групповой классификации; Bayes 1, Unbiased, Maxlike - классификаторы, основанные на байесовской, несмещенной оценках и оценке максимального правдоподобия для функции правдоподобия выборки (5) соответственно." Bayes2 - классификатор, представленный правилом (11)
В случае, когда объекты р классах имеют многомерное распределение Стьюдента, тестировались классификаторы OptimalT - оптимальное решающее байесовское правило групповой классификации (2) и BayesT - правило групповой классификации,
" Абусев Р.А Групповая классификация Решающие правила и их характеристики - Пермь, 1992 -218с
основанное на байесовской оценке функции правдоподобия выборки |2.
Обозначим через й,, / = 1,2 относительную частоту ошибочных классификаций
выборок объема л0 в серии тестов, состоящей из I -кратного применения групповых
классификаторов:
^ = }га«ф| | /(тро 1*2):> 7(*оо 1*])^ ^ _ ¡ Я*00 \лх)>}(711я\кг)\
Здесь Соп/[л | в\ - число выборок объема л0, принадлежащих множеству А и удовлетворяющих выражению В.
Заметим, что ^ и являются оценками вероятностей ошибок классификации первого и второго рода соответственно. Согласно (4), оценка суммарной вероятности ошибочной классификации в случае двух классов, полученная на основании многократного применения одного и того же классифицирующего правила к выборкам одного и того же объема, равна
Необходимое число имитаций работы классификаторов оценивалось на основании следствия из интегральной теоремы Лапласа. Так с надежностью 0.99 можно утверждать, что для получения оценки с точностью г = 0.005 достаточно провести ЛИ>6500 имитаций процедуры групповой классификации.
В результате проведенных экспериментов были построены сводные таблицы, иллюстрирующие зависимость вероятностей ошибочной классификации от д (13) и объемов выборок. В частности получены следующие результаты:
при А =0.5
Обкм обучения «o=l "о=2 «о =5 «o=10
Bayesl Мах-like Bayesl Max-Hfcc Bayesl Bayes 2 Max lilce Bayesl Bayes 2 Maxlike
30 0.41 0.43 0.3S 0 37 0.31 030 0.30 0.24 0.23 0.25
40 0.41 0 43 0.37 0 37 031 0.30 0.31 0.24 023 023
50 040 041 0 37 038 0.30 030 0.30 023 0 22 0 21
100 0.40 041 0.37 0.36 0.29 0.30 0.30 0 23 0 22 023
200 040 040 0 36 0 36 0.29 0.29 0 30 022 022 0 23
Optimal 0 40 0 36 0.29 022
при Д =1.5
Объем обучения «0=1 «0=2 Ло=5 «0=10
Bayesl Мах-bke Bayesl Max-hke Bayesl Bayes2 Max Uke Bayesl Bayes2 Maxlike
30 0.24 0.23 0 16 0.15 0 07 006 006 002 0.02 0 02
40 024 0.23 0 16 0.15 006 0.06 0.06 002 0 01 002
50 0 24 0.23 0 15 0.15 0.06 006 006 0.01 0.01 001
100 0.23 0 23 0 15 015 0.05 0.05 0 05 001 0 01 001
200 0 23 0 23 0 15 0 15 0 05 0 05 0 05 001 0 01 001
1 Optimal 0 23 015 0 05 0 01
12 Выражение определяющее байесовскую оценку, см в работе [Абусев P.A. Статистическое байесовское оценивание в случае многомерного Т-распределеиия // Статистические методы оценивания и проверки гипотез Межвуз сб научтр -Пермь, 1998 -С4-17]
Анализ таблиц позволяет сделать следующие выводы:
- результат классификации, полученной с помощью правил, основанных на байесовских оценках не хуже, чем результаты, полученные с использованием ранее построенных классификаторов, а в некоторых отдельных случаях (малое расстояние Махаланобиса) более устойчивы;
- сравнение классификаторов Bayes 1 и Bayes2 показывает, что эти правила обеспечивают одинаковое качество классификации. Оба классификатора имеют равные значения оценок суммарной вероятности ошибок при Л > 1. Таким образом, для проведения классификации обучение можно осуществлять на немногих данных (в данном случае на значениях достаточных статистик) и оно является одинаково эффективным
с обучением, основанным на всех наблюденных значениях.
- с увеличением объемов классифицируемых выборок уменьшается вероятность ошибочной
классификации, что позволяет вполне обоснованно использовать групповой подход в принятии решений относительно классифицируемой группы.
Экспериментально удалось подтвердить, что величина суммарной вероятности ошибок для классификатора Optimal в случае двух классов может использоваться в качестве приближенного значения суммарной вероятности ошибок, получаемых в результате применения правила OptimalT.
На рисунке 1 приводятся графики зависимостей суммарных вероятностей ошибок классификации для обоих правил и границ Pjiy) и , определенных в (12), от расстояния Махаланобиса.
В подразделе 4.3 с учетом формулы (10) и выражения для квадратической погрешности несмещенной оценки функции правдоподобия выборки (5), извлеченной из одномерной нормальной совокупности13 проводится сравнение байесовской и несмещенной оценок. Результаты представлены в виде графиков зависимостей значений квадратических погрешностей от объема выборок, на основе которых строятся эти оценки:
Рис 1
" Абусев РА. Групповая классификация Решающие правила и их характеристики - Пермь, 1992 -218 с
ЯВДДО , ф * 4 ¿«л
Рис 3
На рисунке 2 представлены графики зависимостей квадратических погрешностей от объема обучающих выборок в случае, когда дисперсия наблюдений в совокупности равна а2 = 1, на рисунке 3 - а2 = 4 . Маркер [Г] отмечает график квадрати-ческой погрешности байесовской оценки, маркер [3]- график квадратической погрешности несмещенной оценки. Проведенные исследования позволяют сделать следующие выводы:
- при малых значениях дисперсии наблюдений значение квадратической погрешности байесовской оценки больше, чем несмещенной. Это особенно заметно при ограниченном объеме обучающей и малом объеме классифицируемой выборок;
- увеличение дисперсии приводит к улучшению качества приближения байесовской оценки к аппроксимируемой функции правдоподобия выборки;
- аналитически установлено, что несмещенная оценка дает лучшее по сравнению с байесовской приближение к оцениваемой функции, если дисперсия наблюдений в совокупности удовлетворяет условию:
8(10 + 1)
в противном случае квадратическая погрешность байесовской оценки при прочих равных условиях (одинаковые значения « и ц) меньше, чем квадратическая погрешность несмещенной оценки.
- при большом объеме обучающей выборки даже при малых значениях дисперсии наблюдений в совокупности обе оценки мало различаются в смысле значений их квадратических погрешностей.
В заключении подводится итог проведенным в работе исследованиям.
Проблема групповой классификации многомерных наблюдений является актуальной в контроле качества продукции, в технической и медицинской диагностике, в исследованиях, связанных с экологией, экономикой. В настоящей работе эта проблема решалась с использованием байесовских моделей выборок. В связи с этим были получены следующие основные результаты:
1. В случае многомерных нормальных совокупностей построен статистический
групповой классификатор, позволяющий обучаться на основании информации, которая представлена в виде значений достаточных статистик. В связи с этим получено точное выражение байесовской оценки плотности распределения достаточных статистик нормального закона.
2. Построены статистические решающие правила групповой классификации, основанные на байесовских оценках функций правдоподобия классифицируемых выборок в случае многомерного Т-распределения Стьюдента и распределения Уишарта.
3. Получены точные аналитические выражения для вычисления квадратических погрешностей байесовских оценок функций правдоподобия выборок в случае одномерного нормального и ^ - распределения. Проведено сравнение байесовской и несмещенной оценок для функции правдоподобия выборки, извлеченной из нормальной совокупности.
4. Получены точные аналитические выражения для верхней и нижней границ вероятности ошибочной классификации в случае многомерного Т-распределения Стьюдента.
5. Построено решающее правило групповой классификации, позволяющее классифицировать последовательности гауссовых векторов марковского типа в ситуации, когда взаимная зависимость векторов выражается через скаляр.
6. Методом статистического моделирования в случае нормальных классов и классов, объекты в которых имеют Т-распределения Стьюдента, для различных групповых классификаторов изучена зависимость суммарной вероятности ошибок классификации от параметров распределения объектов в совокупностях, объемов обучающих и классифицируемых выборок. Создано программное обеспечение, позволяющее моделировать данные и на основе модельных данных исследовать методы групповой классификации
Основные положения диссертации опубликованы в работах:
1. Абусев P.A., Бабушкина Е.В. (Кичанова ЕВ) О групповой классификации с помощью байесовских оценок для функции правдоподобия распределения хи-квадрат и Уишарта // Тез.докл. Всес. н.-т. конф. "Применение многомерного статистического анализа в экономике и оценке качества продукции". - Тарту, 1989. - 4.1. - С.63-64.
2. Абусев P.A., Бабушкина Е.В. (Кичанова Е.В.) Байесовские оценки и групповая классификация в случае распределений хи-квадрат и Уишарта//Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. -Пермь, 1990. - С.11-18.
3 Абусев P.A., Бабушкина ЕВ. (Кичанова ЕВ) Вычисление квадратической погрешности байесовской оценки плотности распределения выборки из нормальной совокупности И Материалы УП Всес. семинара "Непараметрические и робастные статистические методы в кибернетике и информатике". - Томск, 1990. - С.9-15.
4. Абусев P.A., Бабушкина Е.В. (Мазанова Е.В.) Об эмпирическом байесовском оценивании в пространстве достаточных статистик // Тезлокл. Всес. конф. с межд. участ. "Применение статистических методов в производстве и управлении". - Пермь. -1990.-Ч.2.- С.319-320.
5. Абусев P.A., Бабушкина ЕВ (Мазанова Е.В.) О статистических байесовских методах групповой классификации //Тез.докл. Всес. н.-т. симпозиума с межд. участ. "Теория и практика классификации и систематики в народном хозяйстве". - Пущино, 1990.-С.52.
6. Абусев PA , Бабушкина Е.В. (Мазанова ЕВ) Статистическая групповая классификация зависимых векторов с помощью байесовских оценок плотностей //Тез.докл. IV Всес. школы-семинара "Программно-алгоритмическое обеспечение многомерного статистического анализа". - Цахкадзор, 1991. - С.9.
7. Абусев РА., Бабушкина Е.В. (Мазанова Е.В.) Байесовские оценки плотности распределения достаточных статистик нормального распределения и их статистические свойства // Статистические методы оценивания и проверки гипотез: Межвуз. сб. на-уч.тр.-Пермь.- 1991.-С.6-13.
8. Абусев РА., Бабушкина Е.В (Мазанова Е.В.) Байесовское оценивание и групповая классификация многомерных зависимых наблюдений // Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. - Пермь, 1993. - С.33-41.
9. Мазанова Е.В., Бабушкина Е.В. (Мазанова Е.В.) Об одной модели решения задачи групповой классификации // Тез.докл. Межрег. н.-т. конф. молодых ученых. -Пермь, 1993. - С.65-67.
10. Абусев Р.А., Бабушкина Е.В. (Мазанова Е.В.) Статистическая поточечная и групповая классификация в случае нормальных совокупностей //Тез.докл. Всеросс. научн. конф. с межд. участ. «Математические методы распознавания образов-8». - Пущине,- 1995. - С.3-5.
11. Абусев Р.А., Бабушкина Е.В., Денисова C.JI., Ившин В.В. О программном обеспечении задач групповой классификации // Труды IV конференции РОАИ. - Новосибирск, 1998. - 4.1. - С.5-8.
12. Абусев Р.А., Бабушкина Е.В. Вычисление некоторых качественных характеристик оценок и решающих правил в случае многомерных Т-распределений // Труды VI Межд. школы-семинара «Многомерный статистический анализ и эконометрика». -Цехкадзор, 2004. - С.7.
13. Babushkina E.V. (Mazanova E.V.) The comparison of various estimates for one-dimensional normal distribution density // Abstracts of XVII Seminar on Stability Problems of Stochastic Models. - Kazan. -1995.- P.25.
14. Abusev HA., Babushkina E. V. (Mazanova E. V.) Bayes Estimates and Classification Problem for Chi-Squared and Wishart's Distributions//Journal of Mathematical sciences. -
1995. - V.75. - № 1. - P.I383-1387.
15. Abusev R.A., Babushkina E.V. (Mazanova E.V.) Bayes estimators for densities of sufficient statistics for the Normal distribution // Journal of Mathematical sciences. - 1995. -V.75. 2.- P. 1494-1499.
16. Abusev R.A., Babushkina E. V. (Mazanova E. V.) Bayes Estimation and group Classification for Multivariate Dependent Observations // Journal of Mathematical sciences. -
1996. - V.8. - № 4. - P.2773-2779.
17. Abusev R.A., Babushkina E. V., Denisova S.L., Ivshin V. V., Kameneva S. V. Software for group classifications problems // Proc. of 4th International Conference on Pattern Recognition and Image Analysis: New Information Technologies. - 1999. - V.l. - P.5-6.
18. Babushkina E. V., Abusev R.A. On computation of the risk function in classification of multivariate Student populations // Proc. of 7th Internationa] Conference on Pattern Recognition and Image Analysis: New Information Technologies.- St.-Petersburg, 2004. - V.l. -P.20-23.
19 Babushkina E. V., Abusev R.A. Computational formulas for the error probability in recognition of object with multivariate Student's distribution H Pattern Recognition and Image Analysis. - 2005. - V.15. - № 3. - P. 557-559.
Подписано в печать 10.03.2006 г Формат 60x84/16. Уел печ.л 1. Печать офсетная. Тираж 100 экз. Заказ № 349 Отпечатано на ризографе ООО «Учебный центр «Информатика» 614990 г. Пермь, ул. Букирева, 15
ЛС®6АL
Ц2 - 5 3 8 5
i
Оглавление автор диссертации — кандидата физико-математических наук Бабушкина, Елена Вадимовна
СПИСОК ОБОЗНАЧЕНИЙ.
ВВЕДЕНИЕ.
1. МАТЕМАТИЧЕСКОЕ ПРЕДИСЛОВИЕ.
Vfc 1.1. Постановка задачи групповой классификации. уф 1.2. Критерий отношения правдоподобия.
1.3. Статистические правила групповой классификации.
1.4. Краткие сведения о некоторых вероятностных моделях, используемых в работе.
1.4.1. Многомерное нормальное распределение [ N(\i, £) ].
1.4.2. Распределение Уишарта [ W(T,, п) ].
Ф 1.4.3. Распределение выборочных характеристик нормального закона [ NW(\i, S, п) ].
1.4.4. Многомерное Т-распределение Стьюдента [ T(v, ц, £) ].
1.4.5. Нормальные модели последовательностей зависимых наблюдений [iV(nx»^x)].
1.5. Байесовский подход к статистическому оцениванию.
2. ОЦЕНИВАНИЕ ПЛОТНОСТЕЙ РАСПРЕДЕЛЕНИЙ ВЫБОРОК В РАМКАХ БАЙЕСОВСКИХ МОДЕЛЕЙ.
2.1. Восстановление зависимостей по эмпирическим дан® ным.
2.1.1. Структура байесовских оценок.
2.1.2. Байесовские оценки при квадратичной функции потерь.
2.1.3. Восстановление плотностей распределений в байесовских моделях.
2.1.4. Выбор априорного распределения неизвестных параметров в байесовской модели.
Ф 2.2. Построение байесовских оценок плотностей распределений вы, 4 борок в рамках нормальных моделей.
2.3. Байесовское оценивание плотности распределения нормальной последовательности марковского типа.
2.4. Оценивание параметрических функций в байесовских моделях Уишарта и многомерного Т-распределения Стьюдента.
2.4.1. Модели Уишарта.
2.4.2. Модель Т-распределения Стьюдента.
2.5. Квадратические погрешности байесовских оценок.
3. РЕШАЮЩИЕ ПРАВИЛА ГРУППОВОЙ КЛАССИФИКАЦИИ.
3.1. Групповые классификаторы в случае нормальных классов.
3.1.1. Классификация в условиях независимости наблюдений.
3.1.2. Классификация последовательности зависимых наблюдений
3.2. Классификация в случае распределения Уишарта и Т-распределения Стьюдента.
3.2.1. Групповая классификация независимых матриц, имеющих распределение Уишарта.
3.2.2. Вычисление верхней и нижней границы для вероятности ошибочной классификации в случае двух Т-распределений Стьюдента.
3.2.3. Статистическая групповая классификация в случае Т-распределения Стьюдента.
3.3. Асимптотические свойства статистических групповых классификаторов.
4. СРАВНИТЕЛЬНЫЕ ХАРАКТЕРИСТИКИ СТАТИСТИЧЕСКИХ ОЦЕНОК И РЕШАЮЩИХ ПРАВИЛ КЛАССИФИКАЦИИ.
4.1. Методы статистического моделирования.
4.1.1. Методы Монте-Карло.
4.1.2. Моделирование стандартного нормального распределения.
4.1.3. Моделирование невырожденного многомерного нормального распределения.
4.1.4. Генерация случайных величин, имеющих % -распределение.
4.1.5. Моделирование многомерного Т-распределения.
4.2. Оценка суммарной вероятности ошибок классификации методом статистического моделирования.
4.2.1. Цель экспериментов.
4.2.2. Условия экспериментов.
4.2.3. Результаты проведенных экспериментов.
4.3. Исследование статистических оценок для вероятностной модели выборки, извлеченной из нормальной совокупности.
4.3.1. Исследование байесовской оценки.
4.3.2. Сравнение байесовской и несмещенной оценки для функции правдоподобия выборки, извлеченной из нормальной совокупности.
Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Бабушкина, Елена Вадимовна
Актуальность проблемы
В последние десятилетия получила довольно широкое развитие теория, связанная с разработкой методов распознавания образов. Предметом изучения этой теории являются способы решения трудноформализуемых и противоречивых задач классификации, оптимизации, принятия решения, которые часто возникают при моделировании сложных систем в экономике, медицине, технике. Процедуры распознавания эффективно используются при проектировании экспертных систем в различных областях знания. Особое место здесь занимают задачи, связанные с решением проблемы обучения распознаванию образов, которая является одной из центральных в области создания искусственного интеллекта.
Отдельным важным приложением теории и методов распознавания является классификация объектов по измерениям их характеристик. Большой вклад в развитие теории классификации внесли С.А.Айвазян, Ю.Н.Благовещенский, Л.Д.Мешалкин, Ю.И.Журавлев, Н .Г.Загоруйко, В.Н.Вапник, Ш.Ю.Раудис, В.Д.Мазуров, Г.С.Лбов, Т.Андерсон, С.Рао, К.Фукунага. На сегодняшний день существует много прекрасных руководств по теории классификации [20], [21], [22], [24], [28], [29], [30], [33], [37], [40], [42], [43], [44], [58], [59], [70], [84], [86], [101]. Все они различаются способами описания классов и решающими правилами.
Традиционные методы классификации дают правила отнесения одного вектора наблюдений к одному из М заданных классов. Такая задача носит название поточечной классификации. Задача поточечной классификации впервые была поставлена и исследована в работе А.Вальда [104] в 1944 году и с появлением монографии Т.Андерсона [24] нашла довольно широкий круг применений.
Обобщением классической задачи поточечной классификации является задача групповой классификации. В этом случае необходимо классифицировать группу, состоящую из щ>\ объектов, для которой априори известно, что она извлечена из одного из классов. Задачи групповой классификации возникают, в частности, в медицинской и технической диагностике, в типологии совокупностей по hq векторным наблюдениям. В последнее время появляются работы, связанные с применением алгоритмов групповой классификации при решении задач распознавания сигналов, которые представляют собой развивающиеся во времени случайные процессы. Для решения таких задач требуется разработка и реализация принципиально новых методов. Это связано с тем, что использование именно групповых классификаторов позволяет уменьшить число ошибочных выводов, получаемых при отнесении группы к тому или иному классу, в сравнении с применением к этой же группе известного метода голосования. Кроме того, важной особенностью группового подхода к решению задачи распознавания образов является возможность увеличения статистической информации за счет привлечения группы классифицируемых объектов при построении решающих правил классификации.
Можно выделить две тенденции в развитии исследований, связанных с групповой классификацией: первая - принятие решения по целой группе независимых наблюдений; вторая - классификация последовательных во времени зависимых наблюдений. Первая тенденция возникла в связи с контролем качества продукции, когда нет возможности (или это требует существенных затрат) проверить каждое изделие и решение о годности всей партии принимается по результатам проверки определенной доли продукции. Вторая тенденция соответствует часто встречаемой в жизни ситуации, когда результаты наблюдений, сделанных в некоторый момент времени, зависят от результатов ранее произведенных наблюдений (например последовательный контроль качества изделий, данные метрологии, биофизические данные и т.д.).
Приведем несколько задач, где успешно используются методы групповой классификации.
Плохое состояние экологической обстановки вызывает многие заболевания, которые носят название экопатологии. Пусть на некоторой территории имеется М различных экопатологий с А: медицинскими диагностическими показателями. На конкретной территории отбирается случайным образом группа «о больных, работающих на одном предприятии. Требуется определить тип экопатологии, к которой относятся сотрудники данного предприятия. При nQ = 1 речь идет об отнесении конкретного больного к одному из типов экопатологий, а при п$>\ появляется возможность более обоснованно судить о влиянии ухудшившейся экологической обстановки на здоровье работников предприятия.
Анализ электрокардиограмм позволяет оценить состояние сердечнососудистой системы, знание которого важно при лечении больных болезнями сердца, а также при оценке работоспособности здоровых людей. Анализ электрокардиограмм по их графическим записям делает врач-интерпретатор, на что он тратит много времени, при этом нередко возникают субъективные ошибки. Устранение указанных недостатков возможно путем автоматизации анализа кардиограмм с применением алгоритмов групповой классификации. В этом случае речь идет о классификации последовательности п$ зависимых векторов, соответствующих щ QRS комплексам кардиограммы. Компонентами каждого вектора являются измерения величин амплитуд графиков кардиограмм в нескольких равномерно отдаленных друг от друга точках. Первый вектор представляет первый QRS комплекс, второй - второй QRS комплекс, третий - третий и т.д. Таким образом, на основании последовательных векторов измерений можно быстро и надежно диагностировать проблему.
Задача групповой классификации впервые была формализована в работе Л.По [98] и получила дальнейшее развитие в работе Дж.Киттлера [92]. В этих работах исследуется классификация в два класса <х>\ и а>2 - годных и дефектных изделий. При этом ^-мерные наблюдения предполагаются независимыми, что соответствует специфике контроля качества продукции.
Большое внимание исследованию задачи групповой классификации независимых многомерных наблюдений уделяется в работах Р.А.Абусева и Я.П.Лумельского. В них формулируется и решается задача как в параметрической, так и в непараметрической постановке, исследуется суммарная вероятность ошибок, возникающих при групповой классификации. В [3], [12] построены состоятельные непараметрические оценки для верхней и нижней границы суммарной вероятности ошибок классификации в случае двух нормально распределенных совокупностей. В работах [6], [13], [51] решается задача групповой классификации в статистической постановке: строятся асимптотически оптимальные решающие правила, основанные на несмещенных оценках, оценках максимального правдоподобия и байесовских оценках функций правдоподобия выборок, извлеченных из нормальных совокупностей; исследуются их асимптотические свойства. Работа [14] носит обзорный характер и посвящена анализу работ, связанных с построением асимптотически оптимальных решающих правил группового выбора в случае многомерного нормального распределения и распределения Уишарта. В [1] проводится сравнение применения методов поточечной (метод голосования) и групповой классификации для отнесения группы, состоящей из щ наблюдений к одному из двух классов; доказывается эффективность применения группового подхода к решению задачи классификации выборочной совокупности.
Работа В.М.Кондакова [49] посвящена построению статистического группового классификатора на основе байесовской оценки плотности матричного нормального распределения. В работе предложен конструктивный подход, который позволяет рассматривать группу, состоящую из щ к-мерных векторов, как один объект в (hq у. к) - мерном пространстве, что позволяет перейти к классической задаче поточечной классификации.
Групповая классификации зависимых наблюдений близка проблеме классификации случайных процессов. Первая работа в этой области связана с классификацией временных рядов и принадлежит С.Азену и А.Аффифи [81]. В ней рассматривается случай двух классов гауссовых последовательностей авторегрессии первого порядка с общей ковариационной матрицей. В [84] исследована задача классификации 2Аг-мерных нормальных векторов на два класса, которые определяются векторами наблюдений Xt в различные моменты времени t\ и Совместное распределение Xtx и Xtl описывается нормальным законом. Зависимость наблюдений здесь выражается через скаляр р. Исследованы ситуации, когда не все параметры классов со\ и со2 известны, приводятся границы для вероятностей ошибочной классификации.
В работе Э.К.Шпилевского [74] развиваются рекуррентные методы случайных процессов, описываемых разностными уравнениями типа AR(p). Здесь рассматривается М альтернативных гипотез Н\, /^2 »•••> Нм» соответствующих классам (щ>а)2>—>еоМ- Задача динамической классификации, решаемая в этой работе, состоит в принятии гипотезы Hi в текущем времени по наблюдениям реализаций Zq = {zq,zi,.,zn} дискретного или непрерывного во времени случайного процесса {Xt,Zt,0 <t < Т) . В работе исследованы вероятности ошибочного распознавания в зависимости от времени классификации и времени обучения в случае, когда параметры системы неизвестны. Обобщение результатов Э.К.Шпилевского на случай многомерных последовательностей AR(p) получено в работах М.Кршишко [93], [94].
Работы В.Клигиса [47], [48] посвящены решению задачи классификации многомерных зависимых последовательностей марковского типа. Здесь приводится постановка задачи построения группового классификатора для зависимых многомерных наблюдений; построены оптимальные и статистические решающие правила, основанные на оценках максимального правдоподобия, найдены аналитические выражения для суммарных вероятностей ошибок классификации; проведено сравнение качества различных классификаторов на моделированных данных.
Вместе с тем можно выделить класс моделей наблюдений, для которых задача групповой классификации либо вообще не ставилась, либо вопросы, связанные с групповой классификацией на основе этих моделей были рассмотрены лишь частично. К числу, таких моделей можно отнести некоторые байесовские модели.
Под байесовскими моделями понимаются математические модели, которые включают в себя функцию, описывающую распределение объектов в исследуемой совокупности, которое принадлежит некоторому параметрическому семейству и априорное распределение вероятностей анализируемых неизвестных параметров.
Особый интерес представляют модели, в которых параметрическое семейство обладает достаточными статистиками. В последнее время широкую популярность приобрели базы данных, в которых содержится большое количество статистической информации, относящейся к одной и той же исследуемой совокупности (когда физические эксперименты проводятся на одном и том же объекте). Хранение таких данных требует больших объемов памяти. Если для параметров вероятностной модели совокупности существуют достаточные статистики, то появляется возможность значительно сжать объем информации за счет хранения вычисленных значений этих статистик. В связи с этим возникает проблема разработки методов, позволяющих принимать решения на основе обобщенных данных.
Разработке и исследованию методов групповой классификации многомерных наблюдений в случае байесовских моделей и посвящена настоящая работа.
Цель работы
Цель работы состоит в построении и изучении групповых классификаторов в случае, когда выборки наблюдений описываются байесовскими моделями. В работе рассматриваются следующие модели:
1) байесовские модели выборок независимых ^-мерных нормальных векторов и векторов, извлеченных из многомерных Т-распределений Стьюдента;
2) байесовская модель вектора достаточных статистик нормального распределения;
3) байесовская модель марковской последовательности Аг-мерных гауссовых векторов;
4) байесовская модель выборки симметричных квадратных матриц, имеющих распределение Уишарта.
Для осуществления цели работы необходимо решить следующие задачи: 1) провести статистическое оценивание параметрической функции, входящей в состав байесовской модели; 2) построить решающие правила групповой классификации; 3) исследовать построенные статистические оценки и разработанные классификаторы, используя аналитические методы и методы статистического моделирования.
Научная новизна результатов
Впервые исследуется новая область приложения байесовских моделей и получены следующие основные результаты:
- в рамках соответствующих байесовских моделей построены статистические оценки для плотности распределения достаточных статистик к-мерного нормального распределения, для функции правдоподобия выборки, извлеченной из совокупности, объекты в которой имеют распределение Уишарта; решена задача статистического байесовского оценивания марковской последовательности ^-мерных гауссовых векторов; найдены аналитические выражения для квадратических погрешностей байесовских оценок в случае одномерного нормального и х^ -распределения;
- выписаны асимптотически оптимальные групповые классификаторы, основанные на байесовских моделях;
- в случае многомерного Т-распределения получены аналитические выражения верхней и нижней границы суммарной вероятности ошибок для оптимального байесовского решающего правила; численно исследована зависимость вероятности ошибки классификации выборки от параметров модели при использовании различных групповых классификаторов в случае нормальных классов и классов, объекты в которых имеют Т-распределение Стьюдента.
Научная и практическая значимость работы
Результаты, полученные в работе, являются вкладом в теорию групповой классификации. Разработанные в работе методы могут быть положены в основу конкретных эффективных алгоритмов распознавания при решении практических задач техники, экономики, медицины.
Материалы диссертации вошли в курсы лекций и лабораторных практикумов для бакалавров и магистров механико-математического факультета Пермского государственного университета, обучающихся по направлению «Прикладная математика и информатика» (специализация «Математическое моделирование в экономике»).
Значимость работы подтверждается поддержкой исследований грантами РФФИ: №95-01-00015 «Разработка методов группового распознавания»; №98-01-00360 «Разработка асимптотически оптимальных решающих правил группового распознавания»; № 01-01-00494 «Построение математических моделей задач распознавания групп объектов из некоторых параметрических семейств» (руководитель проф. Р.А.Абусев );№ 04-01-00481 «Процедуры группового выбора и математические методы распознавания образов» (руководители проф. Р.А.Абусев , проф. В.В.Маланин).
Положения, выносимые на защиту
1. Соотношения, определяющие статистически состоятельные байесовские оценки плотности распределения достаточных статистик нормального закона, плотности распределения марковской последовательности многомерных нормальных векторов, функций правдоподобия выборок, извлеченных из хг -распределения и распределения Уишарта.
2. Точные аналитические выражения для квадратических погрешностей байесовских оценок плотностей распределения выборок, извлеченных 2 из одномерной нормальной совокупности и совокупности, имеющеи % распределение.
3. Асимптотически оптимальные групповые классификаторы, построенные на основе байесовских моделей в случае нормального распределения, распределения Уишарта, а также в случае многомерного Т-распределения Стьюдента.
4. Точные аналитические выражения, определяющие верхнюю и нижнюю границы суммарной вероятности ошибок классификации для оптимального байесовского решающего правила в случае многомерного Т-распределения Стьюдента.
5. Численные эксперименты с использованием методов статистического моделирования, направленные на исследование построенных решающих правил классификации.
Методика исследования. Достоверность результатов
При проведении исследований в работе был использован аппарат математического анализа, теории вероятностей, математической статистики, многомерного статистического анализа, линейной алгебры, а также методы математического и имитационного моделирования с применением средств вычислительной техники. Достоверность выводов подтверждается хорошим согласованием полученных в работе результатов имитационных экспериментов с теоретическими результатами для некоторых оптимальных решающих правил классификации.
Публикации и апробация работы
Изложенный в диссертации материал достаточно полно отражен в работах [8], [10], [11], [15], [16], [17], [53], [77], [78], [79], [82], [83], [96]. Работы [53], [96] выполнены лично автором. Работа [8] выполнялась в коллективе соавторов. В ней диссертант принимал участие в постановках задач, разработке и тестировании программного обеспечения, получал и оценивал результаты расчетов. Остальные работы выполнены в соавторстве с научным руководителем. При их выполнении автор диссертации принимал участие в доказательстве теорем, проводил расчеты и изложение результатов.
Основные положения и результаты работы докладывались и обсуждались на следующих семинарах и конференциях: IV Всесоюзной научно-технической конференции «Применение многомерного статистического анализа в экономике и оценке качества продукции» (Тарту, 1989); Всесоюзной научно-практической конференции с международным участием стран членов СЭВ «Применение статистических методов в производстве и управлении» (Пермь, 1990); Республиканской научной школе-семинаре «Компьютерный анализ данных и моделирование» (Минск, 1992); V научной конференции стран СНГ «Применение многомерного статистического анализа в экономике и оценке качества продукции» (Москва, 1993); Межрегиональной научно-технической конференции «Математическое моделирование систем и процессов» (Пермь, 1994); Научных семинарах кафедры теории вероятностей и математической статистики Пермского госуниверситета, руководитель проф. Я.П.Лумельский (Пермь, 1992 - 1994); XVII Международном семинаре по проблемам устойчивости стохастических моделей (XVII Seminar on Stability Problems of Stochastic Models, Казань, 1995); Всероссийской научной конференции с международным участием "Математические методы распознавания образов-8" (Пущино, 1995); Всероссийской конференции "Математические методы распознавания образов-10" (Москва, 2001); VII Международной конференции «Распознавание образов и анализ изображений: новые информационные технологии» (Санкт-Петербург, 2004); Научном семинаре ЦЭМИ РАН, руководители проф. С.А.Айвазян, проф. Ю.Н.Благовещенский (Москва, 2005).
Структура и объем диссертации
Диссертация изложена на 150 страницах, включает 15 таблиц, 10 рисунков, библиографический список (104 литературных источника), состоит из списка обозначений, введения, четырех разделов и заключения.
Краткое содержание работы
Во введении обоснована актуальность темы диссертации, сформулированы цель и задачи исследования, показана научная новизна и практичеекая значимость работы. Здесь же приводится анализ работ, в которых ставилась и решалась задача групповой классификации.
Первый раздел представляет собой математическое предисловие, подразделы 1.1, 1.2 и 1.3 которого содержат постановку задачи групповой классификации. Здесь приводится вид оптимального байесовского и статистического групповых классификаторов, формулируются основные этапы решения задачи групповой классификации.
В подразделе 1.4 приводятся сведения о вероятностных распределениях, которые используются в диссертационной работе.
В подраделе 1.5 обсуждается байесовский подход к статистическому оцениванию и приводится перечень рассматриваемых в настоящей работе байесовских моделей.
Второй раздел посвящен построению оценок (байесовских оценок) для параметрических функций выборок в рамках байесовских моделей. Материалы данного раздела написаны на основании работ [10], [11], [16], [77], [78], [79].
В подразделе 2.1 описывается метод восстановления вероятностной модели объектов в совокупности с использованием байесовского подхода. Здесь обсуждается структура байесовских моделей и вводится понятие байесовской оценки относительно априорного распределения неизвестного параметра модели. Рассматриваются подходы к выбору априорного распределения неизвестного параметра.
В подразделе 2.2 приводятся результаты байесовского оценивания функции правдоподобия выборки я' = (Х01,.,Хо„0)5 извлеченной из многомерной нормальной совокупности с двумя неизвестным параметрами. Сформулировано и доказано утверждение, определяющее точное аналитическое выражение байесовской оценки для плотности совместного распределения достаточных статистик нормального распределения.
В подразделе 2.3 решается задача оценивания многомерной нормальной последовательности марковского типа.
В подразделе 2.4 доказываются утверждения, определяющие вид байесовских оценок для функций правдоподобия выборок, извлеченных из совокупностей, имеющих х ~ распределение и распределение Уишарта. Кроме того, в этой части работы приводится известный результат, определяющий аналитическое выражение байесовской оценки функции правдоподобия выборки в случае многомерного Т-распределения Стьюдента.
Подраздел 2.5 посвящен исследованию байесовских оценок. В работе найдены аналитические выражения для квадратических погрешностей байесовских оценок в случае одномерного нормального и х2 -распределения. Доказаны соответствующие теоремы.
В третьем разделе работы строятся решающие правила групповой классификации и аналитически исследуются их свойства. Работы [15], [17], [53], [82], [83], [77], [78] составляют основу данного раздела.
В подразделах 3.1 и 3.2 сначала приводятся известные результаты, связанные с построением некоторых оптимальных байесовских решающих правил, а затем строятся статистические групповые классификаторы для случая многомерных нормальных моделей наблюдений в классах, моделей Уишарта и Т-распределения Стьюдента. В этой части работы также найдены выражения для верхней и нижней границ риска классификации в случае двух классов, объекты в которых независимы и имеют многомерное Т-распределение Стьюдента.
В подразделе 3.3 доказывается состоятельность байесовских оценок и асимптотическая оптимальность статистических решающих правил групповой классификации.
Четвертый раздел в основном посвящен исследованию и сравнению различных групповых классификаторов. Основные результаты данного раздела опубликованы в работах [8], [15], [17].
Подраздел 4.1 содержит краткую информацию о методах Монте-Карло. Здесь приводятся основные формулы и алгоритмы, позволяющие моделировать векторы с заданными законами распределения.
Подраздел 4.2 посвящен описанию численных экспериментов, направленных на всестороннее исследование суммарной вероятности ошибок, возникающих при использовании различных классификаторов (в том числе и ранее построенных) для групп независимых наблюдений в случае многомерного нормального распределения и Т-распределения Стьюдента. Здесь же приводятся результаты проведенных экспериментов.
В подразделе 4.3 на основании значений квадратических погрешностей проводится сравнение байесовской и несмещенной оценок функции правдоподобия выборки, извлеченной из одномерной нормальной совокупности [96]. Результаты исследований представляются в виде графиков зависимостей значений квадратических погрешностей от объема выборок, используемых при построении оценок.
В заключении подводится итог проведенным в работе исследованиям, формулируются основные решенные проблемы.
Заключение диссертация на тему "Групповая классификация на основе байесовских моделей"
ЗАКЛЮЧЕНИЕ
Проблема групповой классификации многомерных наблюдений является актуальной в контроле качества продукции, в технической и медицинской диагностике, в исследованиях, связанных с экологией, экономикой, в других областях, где требуется принятие быстрого и надежного решения. Задача групповой классификации является обобщением классической задачи поточечной классификации и требует для своего решения разработки методов, которые рассматривают классифицируемую выборку как единое целое. В настоящей работе эта проблема решалась с использованием байесовских моделей выборок. В связи с этим были получены следующие основные результаты:
1. В случае многомерных нормальных совокупностей построен статистический групповой классификатор, обучающийся на основании информации, которая представлена в виде значений достаточных статистик. В связи с этим получено точное выражение байесовской оценки плотности распределения достаточных статистик нормального закона.
2. Построены статистические решающие правила групповой классификации, основанные на байесовских моделях классифицируемых выборок в случае многомерного Т-распределения Стьюдента и распределения Уишарта, а также решающее правило групповой классификации, основанное на байесовской модели последовательности гауссовых векторов марковского типа.
3. Найдены аналитические выражения квадратических погрешностей байесовских оценок функций правдоподобия выборок в случае одномерного нормального и % - распределения. Проведено сравнение байесовской и несмещенной оценок для функции правдоподобия выборки, извлеченной из нормальной совокупности.
4. Получены точные аналитические выражения для верхней и нижней границ вероятности ошибочной классификации в случае многомерного Т-распределения Стьюдента.
5. С помощью созданного комплекса программ методом статистического моделирования в случае нормальных классов и классов, объекты в которых имеют Т-распределения Стьюдента, исследована зависимость суммарной вероятности ошибок классификации от параметров распределения объектов в совокупностях, объемов обучающих и классифицируемых выборок.
6. Определены условия, при которых классификаторы, основанные на байесовских моделях, имеют преимущество перед другими алгоритмами групповой классификации.
Библиография Бабушкина, Елена Вадимовна, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Абусев Р.А. О сравнении поточечной и групповой классификации в случае многомерного распределения / Р.А.Абусев // Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. Пермь, 1982. - С.3-9.
2. Абусев Р.А. К задаче классификации групп многомерных нормальных наблюдений / Р.А.Абусев II Прикладная статистика: Учен. зап. по статистике. М.: Наука., 1983. - Т.45. - С.371-375.
3. Абусев Р.А. Построение границ для вероятности ошибок при групповой классификации. Статистическая обработка экспериментальных данных / Р.А.Абусев. Новосибирск. НЭТИ, 1986. - С.58-63.
4. Абусев Р.А. Байесовские оценки для плотности распределения выборки из нормальных распределений и их статистические свойства / Р.А.Абусев', Пермский госуниверситет. Пермь, 1988. - Деп. в ВИНИТИ 04.08.88 - № 6250-В88.
5. Абусев Р.А. Групповая классификация. Решающие правила и их характеристики / Р.А.Абусев. Пермь. 1992. - 218 с.
6. Абусев Р.А. Статистическое байесовское оценивание в случае многомерного Т-распределения / Р.А.Абусев II Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. Пермь, 1998. - С.4-17.
7. Абусев Р.А. О программном обеспечении задач групповой классификации / Р.А.Абусев, Е.В.Бабушкина, С.Л.Денисова, С.В.Каменева, В.В.Ившин II Труды IV конференции РОАИ. Новосибирск, 1998. - 4.1. - С.5-8.
8. Абусев Р.А. Об одном способе вычисления функции риска при распознавании групп из многомерных распределений Стьюдента/ Р.А.Абусев, Н.В.Жекина II Статистические методы оценивания и проверки гипотез: Меж-вуз. сб. науч.тр. Пермь, 2005. - С. 12-19.
9. Абусев Р.А. Байесовские оценки и групповая классификация в случае распределений хи-квадрат и Уишарта/ Р.А.Абусев, Е.В.Кичанова (Е.В.Бабушкина) // Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. Пермь, 1990. - С. 11-18.
10. Абусев Р.А. Статистическая групповая классификация: Учеб. пособие для вузов / Р.А.Абусев, Я.П.Лумелъский. Пермь, 1987. - 92 с.
11. Абусев Р.А. Статистические модели классификации многомерных наблюдений / Р.А.Абусев, Я.П.Лумелъский II Обозрение прикладной и промышленной математики. Москва. Науч.изд-во ТВП, 1996. - Т.З. - Вып.1 -С.7-30.
12. Абусев Р.А. Статистическая поточечная и групповая классификация в случае нормальных совокупностей / Р. А Абусев, Е.В.Мазанова (Е.В.Бабушкина) II Тез. докл. конф. с межд. уч. «Математические методы распознавания образов»-8. Москва, 1995. - С.3-5.
13. Аврамчук Е.Ф. Технология системного моделирования/ Е.Ф.Аврамчук, А.А.Вавилов, С.В.Емельянов и др. — М.: Машиностроение, 1988.-520 с.
14. Айвазян С. А. Классификация многомерных наблюдений / С.А.Айвазян, З.И.Бежаева, О.В.Староверов. -М.: Статистика, 1974. 240 с.
15. Айвазян С.А. Прикладная статистика и основы эконометрики/ С.А.Айвазян, В.С.Мхитарян. -М.: Юнити, 1998. 1022 с.
16. Айвазян С.А. Прикладная статистика: Классификация и снижение размерности / С.А.Айвазян, В.М.Бухштабер, И.С.Енюков, Л.Д.Мешалкин. М.: Финансы и статистика, 1989. - 608 с.
17. Айвазян С.А. Прикладная статистика: Основы моделирования и первичная обработка данных/ С.А.Айвазян, И.С.Енюков, Л.Д.Мешалкин. М.: Финансы и статистика, 1983. - 471 с.
18. Андерсон Т. Введение в многомерный статистический анализ/ Т.Андерсон. М.:Физматгиз, 1963. - 500с.
19. Ашихмин В.Н. Введение в математическое моделирование/ В.Н.Ашихмин, М.Б.Гитман, И.Э.Келлер и др. М.: Логос, 2004. - 440 с.
20. Бартенев В.Г. Применение распределения Уишарта для анализа эффективности адаптивных систем селекции движущихся целей / В.Г.Батенев II Радиотехника и электроника. 1981. - Т.26. - № 2. -С.356-364.
21. Белман Р. Введение в теорию матриц / Р.Белман. — М: Наука, 1976.351 с.
22. Беляев Ю.К. Алгоритм классификации многомерных дискретных данных/Ю.К.Беляев, В.А.Малышев, С.С.Филимонов II Изв. АН СССР. Техническая кибернетика. — 1972. -№6. — С.132-139.
23. Благовещенский Ю.Н. Общие вопросы статистических методов классификации. Статистические методы классификации / Ю.Н.Благовещенский, Л.Д.Мешалкин. М.: Изд-во МГУ, 1969. - Вып.1. - С.7.
24. Боровков А.А. О задаче распознавания образов / А.А.Боровков II Теория вероятностей и ее применение, 1971. -№1 С. 132-140.
25. Боровков А.А. Математическая статистика: Оценивание параметров. Проверка гипотез / А.А.Боровков. М.: Наука, 1984. - 427 с.
26. Бусленко В.Н. Автоматизация имитационного моделирования сложных систем / В.Н.Бусленко. М.: Наука, 1977. - 240 с.
27. Вапник В.Н. Восстановление зависимостей по эмпирическим данным / В.Н.Вапник. М.: Наука, 1979. - 448 с.
28. Вапник В.Н. Теория распознавания образов. Статистические проблемы обучения / В.Н.Вапник В.Н., С.А.Червоненкис. М.: Наука, 1974. -415 с.
29. Градштейн КС. Таблицы интегралов, сумм, рядов и произведений / И.С.Градштейн, И.М.Рыжик. -М.: ГИФМЛ, 1962. 1100 с.
30. Гулд X. Компьютерное моделирование в физике/ Х.Гулд, Я.Тобочник. М.: Мир, 1990. - 4.2. - 400 с.
31. Девингталь Ю.В. Кодирование объектов при использовании разделяющей гиперплоскости для их классификации / Ю.В.Девингталъ II Изв. АН СССР. Техническая кибернетика. 1971. -№3. - С. 162-173.
32. Деев А.Д. Представление статистик дискриминантного анализа и асимптотическое разложение при размерностях пространства сравнимых с объемом выборки / АД Деев// Докл. АН СССР. 1970. - Вып. 195. - № 4. -С.759-762.
33. Де Гроот М. Оптимальные статистические решения / МДе Гроот. -М.: Мир, 1974.-492 с.
34. Енюков И.С. Методы, алгоритмы, программы многомерного статистического анализа / И.С.Енюков. М.: Финансы и статистика, 1986. - 232 с.
35. Ермаков С.М., Михайлов Г.А. Курс статистического моделирования / С.М.Ермаков, Г.А.Михайлов. -М.: Наука, 1976. 320 с.
36. Журавлев Ю.И. Математические модели в задачах распознавания и классификации / Ю.И.Журавлев. М: Наука, 1978. - 119 с.
37. Журавлев Ю.И. Алгоритмы вычисления оценок и их применение / Ю.И.Журавлев, М.М.Камилов. Ташкент, 1974. - 190 с.
38. Загоруйко Н.Г. Методы распознавания и их применение / Н.Г.Загоруйко. М.: Советское радио, 1972. - 206 с.
39. Закс Ш. Теория статистических выводов / Ш.Закс. М.: Мир, 1975. -776 с.
40. Клейнен Дж. Статистические методы в имитационном моделировании /Дж. Клейнен. -М.: Статистика, 1978. 335 с.
41. Клигис В.И. Групповая классификация многомерных марковских последовательностей / В.И.Клигис // Статистические проблемы управления. -Вильнюс, 1981.-Вып. 50.-С. 57-74.
42. Клигис В.И. Методы и алгоритмы групповой классификации многомерных зависимых наблюдений: Дис. . канд. техн. наук: 05.13.01 / В.И.Клигис.-Вильнюс, 1987.-121 с.-Библиогр.: С. 111-121.
43. Кондаков В.М. Об одной байесовской оценке плотности матричного нормального распределения / В.М.Кондаков II Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. Пермь, 1993. - С.64-69.
44. Крамер Г. Математические методы статистики / Г.Крамер. М.: Мир, 1975.-648 с.
45. Лумелъский Я.П. Об одном способе построения асимптотически оптимальных классификационных тестов в случае многомерного распределения/ Я.П.Лумельский II Изв. АН СССР. Техническая кибернетика. 1972. -№2.-С. 163-168.
46. Лумелъский Я.П. Квадратическая погрешность несмещенной оценки плотности нормального распределения / Я.П.Лумельский, И.В.Медведева II Статистические методы оценивания и проверки гипотез: Межвуз. сб. науч.тр. Пермь, 1980. - С. 91-97.
47. Максимей И.В. Имитационное моделирование на ЭВМ / И.В.Максимей. М.: Радио и связь, 1988. - 232 с.
48. Мания Г.М. Квадратическая погрешность оценки плотности многомерного нормального распределения по данным выборки / Г.М.Мания II Со-общ. АН ГрССР. 1968. - Т. 52. - №1. - С. 27-34.
49. Медведков И.А. Метод вычисления вероятности ошибки распознавания / И.А.Медведков, Л.В.Попов II Изв. АН СССР. Техническая кибернетика.- 1981.-№ 3.-С. 177-182.
50. Мешалкж Л.Д. Ошибки классификации многомерных наблюдений / Л.Д.Мешалкин, В.М.Сердобольский II Теория вероятностей и ее применение. -1978. Т.23. - № 4. - С. 772-781.
51. Орлов А.И Некоторые вероятностные вопросы теории классификации. Прикладная статистика /А.И.Орлов. -М.: Наука, 1983. 166 с.
52. Патрик Э.А. Основы теории распознавания образов / Э.А.Патрик. -М.: Советское радио, 1980. 408 с.
53. Пенская М.Я. Квадратическая погрешность несмещенных оценок для многомерного нормального распределения / М.Я.Пенская\ Пермский госуниверситет. -Пермь, 1981. Деп. в ВИНИТИ 15.07.81. -№ 3746.
54. Плохотников К.Э. Математическое моделирование и вычислительный эксперимент. Методология и практика / К. Э.Плохотников. — М.: УРОС, 2003.-280 с.
55. Полляк Ю.Г. Вероятностное моделирование на ЭВМ / Ю.Г.Полляк. -М.: Наука, 1971.-399 с.
56. Прохоров Ю.В. Теория вероятностей. Основные понятия. Предельные теоремы. Случайные процессы / Ю.В.Прохоров, Ю.А.Розанов. М.: Наука, 1987.-400 с.
57. Раудис Ш.Ю. О количестве априорной информации при построении алгоритма классификации / Ш.Ю.Раудис II Изв. АН СССР. Техническая кибернетика. 1972. - № 4. - С. 168-174.
58. Раудис Ш.Ю. Влияние объема выборки на точность выбора модели в задаче распознавания образов / Ш.Ю.Раудис // Статистические проблемы управления. Вильнюс, 1981. - Вып. 50. - С. 9-44.
59. Самарский А.А. Математическое моделирование: Идеи. Методы. Примеры I А.А.Самарский, А.П.Михайлов. М.: Физматлит, 2005. - 320 с.
60. Соболь ИМ. Численные методы Монте-Карло / ИМ. Соболь. М.: Наука, 1973.-312 с.
61. Советов Б.Я. Моделирование систем / Б.Я. Советов, С.А.Яковлев. -М.: Высшая школа, 1998. 319 с.
62. Тарасевич Ю.Ю. Математическое и компьютерное моделирование /
63. Ю.Ю. Тарасевич. М.: УРОС, 2003. - 144 с.
64. Фукунага К. Введение в статистическую теорию распознавания образов / КМ. Фукунага. М.: Наука, 1979. - 367 с.
65. Хастингс Н. Справочник по статистическим распределениям/ Н.Хастинг, Дж.Пикок. М: Статистика, 1980. - 95 с.
66. Ченцов Н.Н. Статистические решающие правила и оптимальные выводы I Н.Н. Ченцов. М.: Наука, 1972. - 520 с.
67. Шеннон Р. Имитационное моделирование систем — искусство и наука /Р.Шеннон. -М.: Мир, 1978.-418 с.
68. Шпилевский Э.К Динамическая классификация стохастических процессов и систем в дискретном времени / Э.КШпилевский II Автоматика и телемеханика. 1980 - №12. - С.45-54.
69. Abusev R.A. On estimation of the probabilities of linear unequalities and statistical classification / R.A.Abusev II Proc. of the XI International conference "CDAM".-Minsk, 2001.-P. 17-23.
70. Abusev R.A. Mathematical Models on Group classification Problems / R.A.Abusev II Pattern Recognition and Image Analysis. 1994. - Vol.4. - № 1. -P.l-10.
71. Abusev R.A. Bayes estimates and classification problem for chi-square and Wishart's distributions/ RA.Abusev, E.V.Mazanova (E.V.Babushkina) II Journal of Mathematical Sciences. 1995. - Vol.75. -№1. -P.1383-1386.
72. Abusev R.A. Bayes estimators for densities of sufficient statistics for the Normal distribution and their statistical properties / R.A.Abusev E.V.Mazanova, (E.V.Babushkina) //Journal of Mathematical Sciences. 1995. - Vol.75. - №2. -P. 1494-1497.
73. Abusev R.A. Bayes estimation and group classification for multivariate dependent observations / RA.Abusev, E. V.Mazanova (E. V.Babushkina) II Journal of Mathematical Sciences. 1996. - Vol.81. - № 4. - P.2773-2779.
74. Anderson T.W. Classification into two multivariate normal distribution with different covarience matrics / T. W.Anderson, R.R.Bahadur II Ann. of math, stat. 1962. - Vol. 33. - №2. - P. 420.
75. Azen S.P. Asymptotic and small sample behaviour of estimated Bayes rules for classifying time dependent observations/ S.P.Azen, A.A.Affifill Biometrics. 1972. - Vol.28. - № 4. - P.47-56.
76. Babushkina E.V. Computational formulas for the error probability in recognition of object with multivariate Student's distribution / E.V.Babushkina, R.A Abusev II Pattern Recognition and Image Analysis. 2005. - Vol.15 - №3. -P. 557-559.
77. Bandyopadhyay S. Probability inequalities involving estimates of probability of correct classification using dependent sample / S. Bandyopadhyay 11 Sankhya: The Indian journal of statistics. 1977. - Vol.39. - Ser.B. - Pt.2. -P.145-150.
78. Click N. Additive Estimators for Probabilities of correct Classification / N.Click // Pattern Recognition and Image Analysis. 1978. - Vol.1. - № 3. -P.211-222.
79. Diday E. Classification automatique Sequentielle pour grands Tableaux/ E.Diday//Rev. Fr. Int. Rech. Oper. 9-e annee amars. 1975. - B.l. -P.29-61.
80. Girshick M.A. Bayes and minimax estimates for quadratic loss function / M.A. Girshick., L. G.Savage II Proc. of Second Berkeley symp. math. stat. prob.-1951.-V.l.-P.53-74.
81. Gupta S. Probability inequalities and error in classification / S.Gupta // Ann. of math. stat. 1974. - Vol.36. -№ 4. -P.l 17.
82. Iwase Kosei Uniformly minimum variance unbiased estimation for the inverse gaussian distribution / Iwase Kosei, Seto Noriaki II Amer. stat. assoc. -1983.-Vol.78. № 383. -P.660.
83. Jeffreys H. Theory of probability/H.Jeffreys //London: Oxford University Press., 1961. 120 p.
84. Kanal L. Pattern in pattern recognition: 1968-19741 L.Kanal И IEEE Transaction on Information Theory. 1974. - Vol. IT-20. - № 6. - P.697-722.
85. Kittler G. Small sample properties of a pattern recognition system in lot acceptance sampling / G.Kittler, L.F.Pau II Proc. 4th Int.conf. in pattern recognition. Kyoto, 1978. - P.249-257.
86. Krzysko M. Predictive discrimination / M.Krzysko // Multivariate Analisis: Proceedings of International Symposium. Dayton, 1965. -P.149-163.
87. Krsysko M. The discriminant analysis of multivariate autoregressive process / M.Krzysko II Статистические проблемы управления. Вильнюс, 1982.- Вып.59. С.9-23.
88. Lachenbruch Р.А. Estimation of error rates in discriminant analysis/ P.A.Lachenbruch., M.R.Mickey II Technometrics. 1968. - Vol. 10. - P. 1 -11.
89. Mazanova E. V. (Babushkina E. V.) The comparision of various estimates for one-dimensional normal distribution density / E.V.Mazanova II Abstract of XVII Seminar on Stability Problems of Stochastic Models. Kazan, 1995. - P.25.
90. Parzen E. On Estimation of Probability Density Function and Model / E.Parzen И Ann. Ins. Stat. Math. 1962. - V.33. - № 3. - P.1065-1076.
91. Pau L.F. Controle de qualite statistique I L.F.Pau И Convention 290939.- Paris. Bureau National de Metrologic, 1976. P.46-53.
92. Rayzin G. Bayes Kisk consistency of classification procedures using density estimation / G.Rayzin. Sankhia: The Indian Journal of Statistics. 1966. -Ser.A. - V.28. - P.261- 275.
93. Robert C.P. The Bayesian choice. A decision-theoretic motivation/
94. C.P.Robert. Berlin: Springer, 1996. - 436 p.
95. Rubin I. Optimal Classification into Groups: an Approach for solving taxonomy Problem / I.Rubin II Int. Theor. Biol. 1967. - Vol.15. - P. 103-114.
96. John S. Error in discrimination / S.John И Ann. of Math. Stat. — 1961. — Vol.32. — P.1125 -1144.
97. Voinov V.G. Unbiased estimators and their application/ V.G.Voinov, M.S.Nikulin II Multivariate case. Mathematics and its applications. Dordrecht: Kluwer, 1996. - 262 p.
98. Wald A. On a individual Problem arising in the Classification of an individual Problem into one of two Groups/ A. Wald. II Ann. of Math. Stat. 1944. -Vol.15.-P.145-162.
-
Похожие работы
- Разработка и исследование методов байесовского оценивания параметров распределений и оптимального группирования данных
- Решающие правила групповой классификации и оценки их характеристик
- Разработка модели и алгоритмов обнаружения вторжений на основе динамических байесовских сетей
- Алгебраические байесовские сети: вычислительная сложность алгоритмов логико-вероятностного вывода в условиях неопределённости
- Модели и алгоритмы интеллектуального анализа образовательных данных для поддержки принятия решений
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность