автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Модели и алгоритмы анализа сверхкоротких гранулярных временных рядов на основе байесовских сетей доверия

кандидата физико-математических наук
Суворова, Алёна Владимировна
город
Санкт-Петербург
год
2013
специальность ВАК РФ
05.13.17
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Модели и алгоритмы анализа сверхкоротких гранулярных временных рядов на основе байесовских сетей доверия»

Автореферат диссертации по теме "Модели и алгоритмы анализа сверхкоротких гранулярных временных рядов на основе байесовских сетей доверия"

На правах рукописи

¡у]

СУВОРОВА Алёна Владимировна

МОДЕЛИ И АЛГОРИТМЫ АНАЛИЗА СВЕРХКОРОТКИХ ГРАНУЛЯРНЫХ ВРЕМЕННЫХ РЯДОВ НА ОСНОВЕ БАЙЕСОВСКИХ СЕТЕЙ ДОВЕРИЯ

05.13.17 — Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

г я ноя 2013

00554и>о^

Санкт-Петербург 2013

005540134

Работа выполнена на кафедре информатики федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Санкт-Петербургский государственный университет» и в лаборатории теоретических и междисциплинарных проблем информатики федерального государственного бюджетного учреждения науки Санкт-Петербургского института информатики и автоматизации Российской академии наук.

Научный руководитель ТУЛУПЬЕВ Александр Львович,

доктор физико-математических наук, доцент, профессор кафедры информатики Санкт-Петербургского государственного университета, заведующий лабораторией теоретических и междисциплинарных проблем информатики Санкт-Петербургского института информатики и автоматизации Российской академии наук

Официальные оппоненты ШАТСКИХ Сергей Яковлевич,

доктор физико-математических наук, профессор, заведующий кафедрой теории вероятностей и математической статистики федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Самарский государственный университет»

ЯРУШКИНА Надежда Глебовна,

доктор технических наук, профессор, проректор по научной работе, заведующий кафедрой «Информационные системы» федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Ульяновский государственный технический университет»

Ведущая организация федеральное государственное бюджетное образо-

вательное учреждение высшего профессионального образования «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»

Защита состоится «13» декабря 2013 г. в 10:00 на заседании диссертационного совета Д 212.215.07, созданном при федеральном государственном бюджетном учреждении высшего профессионального образования «Самарский государственный аэрокосмический университет имени академика С.П. Королева (национальный исследовательский университет)» (СГАУ), по адресу: 443086, Самара, Московское шоссе, 34.

С диссертацией можно ознакомиться в библиотеке СГАУ.

Автореферат разослан «11» ноября 2013 г.

Ученый секретарь

диссертационного совета

доктор технических наук, профессор

Белоконов И.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Проблема анализа данных и знаний, характеризующихся неопределенностью, является одной из областей искусственного интеллекта, в частности, вопросы обработки и представления неопределенности рассматривали J. Halpern, A. Dempster, D. Dubois, J. Pearl, H. Prade, G. Shafer, L. Zadeh, Д.А. Поспелов, Л.В. Уткин, A.B. Язенин Н.Г. Ярушкина и др. Одной из подобных задач является разработка моделей и методов для обеспечения поддержки принятия решений в условиях, когда для получения данных невозможно организовать классические формы длительного наблюдения и многофакторного измерения параметров процесса, но имеются сведения, полученные от экспертов, предположения о классах и семействах таких процессов, а также ограниченное число измеряемых особенностей такого процесса. В частности, такие данные возникают при изучении поведения посредством опросов участников или экспертов. Аналогичные задачи возникают в системах управления и принятия решений, например, при оценке степени удовлетворенности той или иной предоставляемой государственной услугой. В целом, можно сказать, что поставленные вопросы относятся к более широкой, комплексной области исследований, посвященной анализу и моделированию поведения в контексте интеллектуальных систем принятия решений, изучением которой занимаются Г.С. Осипов, О.П. Кузнецов, B.JL Стефанюк и др.

Указанная проблема является междисциплинарной, для ее решения требуется привлечение и адаптация ряда методов и моделей искусственного интеллекта и мягких вычислений вместе с методами и моделями классической математики (нечеткие системы и ряды, вероятностные графические модели, в т.ч. байесовские сети, методы построения сводных показателей в условиях дефицита информации (подход Н.В. Хованова), модели гранулярных знаний и др.), причем развиваемые методы и модели должны быть нацелены на дальнейшее использование в комплексах программ, автоматизирующих/поддерживающих принятие решений или мониторинг показателей в соответствующих предметных областях.

Междисциплинарность тематики обусловлена также тем, что во многих случаях при изучении поведения (или процесса) кроме данных об эпизодах поведения становятся известными также дополнительные сведения. В случае социально-значимого поведения это психологические, демографические, социальные характеристики, позволяющие конкретизировать значения параметров процесса. Кроме того, часто существуют дополнительные обоснованные предположения о характере процесса, о связях между параметрами. Включение такого рода теоретических предположений позволяет построить более полную модель. Как следствие, необходимо предложить модели и алгоритмы, позволяющие анализировать данные, полученные при исследовании указанных процессов, в частности, при изучении социально-значимого поведения.

Степень разработанности темы. В работах А.Е. Пащенко, Т.В. Тулупье-вой предложен подход, позволяющий получать количественные данные об эпизодах поведения (другими словами, элементов временного ряда) в условиях невозможности длительного наблюдения или измерения параметров. Проведено полевое исследование для сбора статистических данных и апробации разработанного опросного инструментария, выявлены психологические характеристики респондентов, ассоциированные с рискованным поведением. Проведена форма-

лизация и классификация ответов респондентов об эпизодах поведения, предложены подходы к оценке параметров рискованного поведения по исходным данным частного вида. Предложено рассмотрение модели поведения в виде случайного процесса определенного класса. Однако, в такую модель очень сложно добавлять новые факторы, новые предположения о предметной области потребуют полного пересчета компонентов модели.

Исследуемая задача близка к задачам, возникающим при анализе временных рядов. Однако, несмотря на удобство использования методологии моделирования и анализа временных рядов, в частности, методологии анализа нечетких временных рядов, разрабатываемой Н.Г. Ярушкиной, С.М. Ковалевым и др., применение этих подходов к решению задачи, связанной с моделированием социально-значимого поведения, сталкивается с рядом ограничений. В частности, такие модели характеризуются невысоким качеством при моделировании коротких временных рядов (причем короткими считаются ряды с числом наблюдений меньше 40). Предлагаемые в диссертационном исследовании модели и алгоритмы анализа направлены на преодоление подобных ограничений за счет адаптации и совместного использования методов искусственного интеллекта и классической математики для обработки данных, характеризующихся неопределенностью.

Объект диссертационного исследования— интеллектуальные (на основе байесовских сетей доверия) модели поведения респондентов на основе неточных данных об ограниченном числе его измеряемых особенностей. Предмет исследования — модель временного ряда эпизодов поведения, рассматриваемого как пуассоновский процесс, на основе байесовских сетей доверия как средства представления и обработки данных и знаний с неопределенностью и методы оценки параметров такой модели.

Цель диссертационного исследования — разработка и развитие моделей на основе байесовских сетей доверия, методов и алгоритмов анализа временных рядов эпизодов поведения, представленного пуассоновским процессом, в условиях неполной, неточной, нечеткой и нечисловой информации особого вида, характеризующейся гранулярностью, для оценки параметров таких моделей. Такая информация включает в себя различные комбинации ограниченного числа сведений об эпизодах поведения (последние эпизоды, минимальный и максимальный интервалы).

Достижение цели осуществляется за счет последовательного решения следующих задач:

1) формализация особенностей последнего элемента ряда, представленного пуассоновским и гамма-пуассоновским процессом, для корректного построения моделей, основанных на данных об этом элементе, а также разработка подходов к обработке этих особенностей;

2) разработка методов оценки параметров ряда эпизодов поведения, представленного пуассоновским процессом, на основе гранулярных данных о рекордных интервалах между последовательными эпизодами;

3) построение обобщенной модели временного ряда эпизодов поведения, представленного пуассоновским процессом, по неполной и неточной информации об ограниченном числе его элементов на основе байесовской се-

ти доверия, как теоретического аппарата для представления и обработки данных и знаний с неопределенностью;

4) формализация разработанных методов в виде алгоритмов расчета оценок параметров таких рядов;

5) реализация указанных алгоритмов в прототипе комплекса программ для вычислительных экспериментов и решения практических задач. Теоретическая и практическая значимость работы. Полученные результаты предлагают подходы к обработке данных особого типа, часто встречающихся при анализе социально-значимого поведения на основе результатов опроса или интервью. Такие данные являются неполными, выражены на естественном языке и характеризуются неопределенностью. В частности, в качестве одного из применений построенных моделей можно выделить использование разработанного комплекса программ для сопровождения, в первую очередь, эпидемиологических и социально-эпидемиологических исследований, направленных на моделирование, анализ и мониторинг рискованного поведения и изучение численных характеристик указанного поведения (таких как интенсивность и риск, связанный с рассматриваемым поведением). Таким образом, разработанный комплекс программ может являться составной частью комплексной системы для поддержки принятия решений в области здравоохранения. Кроме того, на основе полученных результатов А.Е. Пащенко разрабатывается подход к вычислению относительных оценок интенсивности, что необходимо, в частности, при сравнении групп респондентов.

Теоретическая часть работы относится к таким направлениям, как исследование и разработка средств представления знаний (содержащихся в естественноязыковых высказываниях), разработка методов анализа данных, разработка теоретических основ создания программных систем для новых информационных технологий (в части синтеза в условиях информационного дефицита различных показателей интенсивности рискованного поведения). Результаты работы вносят вклад в теоретическую основу, а также в основу для проведения вычислительных экспериментов для исследования и моделирования поведения респондентов.

Кроме того, полученные теоретические результаты могут использоваться в учебном процессе для студентов, специализирующихся в информатике, особенно в таких междисциплинарных направлениях, как прикладная информатика в гуманитарной сфере. Так, частично, результаты диссертационного исследования были включены в программы спецкурсов «СУБД, интерфейсы и интеллектуальные модели в комплексах программ» и «Комплекс средств и языков для хранения, обработки и анализа данных» математико-механического факультета СПбГУ.

Методология и методы исследования. Работа носит теоретический характер. Работа опирается на методологию дедуктивного и индуктивного обоснования утверждений в отношении специальным образом формализованных объектов и сведения новых нерешенных задач к известным задачам, уже получившим решение. Используются методы теории вероятностей, математической статистики, гранулярных вычислений. Основным инструментом моделирования поведения респондентов для последующей разработки подходов к оцениванию их характеристик выступает теория случайных последовательностей вместе с методами теории вероятностных графических моделей, и, более узко, методов теории

байесовских сетей доверия. В программно-технологической части используются принципы структурного и объектно-ориентированного программирования, 1ауа-технологии, а также среда ОеМе&8М1ЬЕ для представления байесовской сети доверия и построения апостериорных вероятностных распределений.

Научная новизна. Все результаты, представленные в диссертации, являются новыми.

Разработаны методы и алгоритмы оценки параметров временного ряда эпизодов поведения на основе данных о последних элементах ряда (последних эпизодах поведения) и рекордных интервалах между последовательными эпизодами. Предложена модель на основе байесовской сети доверия для оценки параметров поведения респондентов. Методы формализованы в виде алгоритмов расчета оценок параметров таких рядов.

Разработаны компоненты прототипа комплекса программ, реализующие указанные алгоритмы расчета параметров сверхкороткого временного ряда на основе гранулярных данных и знаний.

Таким образом, в диссертации предложены новые модели и методы для обеспечения поддержки принятия решений в условиях, когда для получения данных о поведении невозможно организовать длительное наблюдение, но имеются сведения с неопределенностью, полученные от экспертов, предположения о классах и семействах процессов, а также ограниченное число измеряемых особенностей такого процесса (сверхкороткого временного ряда).

Степень достоверности и апробация результатов. Достоверность и обоснованность результатов работы обеспечены строгими математическими доказательствами и корректным использованием методов соответствующих математических дисциплин.

Результаты диссертационного исследования были представлены на 20 научных мероприятиях: 1) Научно-практическая конференция студентов, аспирантов, молодых ученых и специалистов «Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте» (Коломна, 2009); 2) Международная научно-практическая конференция «Моделирование и анализ массовых событий в экономике и социуме» (Санкт-Петербург, 2010); 3) Научная сессия НИЯУ МИФИ-2010 (Москва, 2010);

4) У1-Й Международная научно-техническая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2011);

5) Научная сессия НИЯУ МИФИ-2011 (Москва, 2011); 6) VII Санкт-Петербургская межрегиональная конференция «Информационная безопасность регионов России (ИБРР-2011)» (Санкт-Петербург, 2011); 7) VI Международная научно-практическая конференция молодых специалистов, аспирантов и студентов «Математическое и компьютерное моделирование естественнонаучных и социальных проблем» (Пенза, 2012); 8) XV Международная конференция по мягким вычислениям и измерениям (5СМ-2012) (Санкт-Петербург, 2012); 9) 1-й Международный симпозиум «Гибридные и синергетические интеллектуальные системы: теория и практика» (Калининград, 2012); 10) 5-я российская мульти-конференция по проблемам управления «Информационные технологии в управлении (ИТУ-2012)» (Санкт-Петербург, 2012); 11) Тринадцатая национальная конференция по искусственному интеллекту с международным участием (КИИ-2012) (Белгород, 2012); 12) Всероссийская научная конференция по проблемам

информатики СПИСОК-2012 (Санкт-Петербург, 2012); 13) Научная сессия НИЯУ МИФИ-2012 (Москва, 2012); 14) XIII Санкт-Петербургская международная конференция «Региональная информатика-2012 (РИ-2012)» (Санкт-Петербург, 2012); 15) Международная (44-я Всероссийская) молодежная школа-конференция «Современные проблемы математики» (Екатеринбург, 2013); 16) Вторая Международная научно-практическая конференция «Социальный компьютинг, технологии развития, социально-гуманитарные эффекты (ISC-13)» (Москва, 2013); 17)УП-й Международная научно-техническая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2013); 18) Научная сессия НИЯУ МИФИ-2013 (Москва, 2013); 19) Всероссийская научная конференция по проблемам информатики СПИСОК-2013 (Санкт-Петербург, 2013); 20) VIII Санкт-Петербургская межрегиональная конференция «Информационная безопасность регионов России (ИБРР-2013)» (Санкт-Петербург, 2013).

Кроме того, результаты диссертационного исследования докладывались на Санкт-Петербургском городском научном семинаре «Информатика и компьютерные технологии» в феврале 2013 года.

Исследования по тематике выполнялись в рамках проектов, поддержанных следующими грантами: 1) грант РФФИ на 2009-2011 гг., проект № 09-01-00861-а «Методология построения интеллектуальных систем поддержки принятия решений на основе баз фрагментов знаний с вероятностной неопределенностью»; 2) грант РФФИ на 2012-2014 гг., проект № 12-01-00945-а «Развитие теории алгебраических байесовских сетей и родственных им логико-вероятностных графических моделей систем знаний с неопределенностью»; 3) субгрант на 2012— 2013 гг. № М13А11589 (А06995) гранта NIH № 5 R01AA017389-04 «Alcohol and HIV Risk Reduction in St. Petersburg, R.F.»; 4) грант Комитета по науке и высшей школе Правительства Санкт-Петербурга для молодых ученых и кандидатов наук на 2012 г. «Модели и алгоритмы анализа сверхкоротких неточных временных рядов на основе гранулярных данных и знаний»; 5) грант РФФИ на 2012 г., проект № 12-01-16031-моб_з_рос «Научный проект "Вероятностно-нечеткостная модель социально-значимого поведения в случае неточных данных о его эпизодах, предшествующих интервью" для представления на научном мероприятии 1-й Международный симпозиум "Гибридные и синергетические интеллектуальные системы: теория и практика (ГИСИС'2012)"». Соискатель является руководителем проектов № 4-5. Также соискатель является победителем конкурсов на получение стипендии Президента Российской Федерации (пр. 970 от 23.11.2012 и пр. 1140 от 11.10.2013).

Публикации. По теме диссертации автором опубликована 41 научная работа (включая 4 единоличных), из них 12 статей (3 — единоличных) в журналах из Перечня рецензируемых научных журналов и изданий для опубликования основных научных результатов диссертаций, рекомендованного ВАК, включая 1 статью в журнале, входящем в базу данных цитирования Web of Science, 10 свидетельств о регистрации программы для ЭВМ и баз данных (5 — в РОСПАТЕНТе, 5 — в ОФЕРНиО / ЦИТиСе). Кроме того, материалы диссертационного исследования нашли отражение в 12 тезисах докладов на научных конференциях и в 3 научных отчетах, прошедших регистрацию в ЦИТиС.

Личный вклад A.B. Суворовой в основных публикациях с соавторами характеризуется следующим образом: в [1] предложена модель рискованного поведения, учитывающая особенности последнего интервала между эпизодами, проведено исследование модели; в [2] формализовано описание особенностей исходных данных; в [3] преобразована к более удобной форме разработанная ранее математическая модель; в [4] проведены вычислительные эксперименты и обобщены их результаты; в [5] предложено формальное обоснование подхода к обработке систематической ошибки при анализе данных о последнем эпизоде; в [6] проведено тестирование модели на статистических данных; в [7] специфицирована байесовская сеть доверия, моделирующая поведения; в [8] проведена коррекция модели с учетом дополнительных предположений и включением новых исходных данных; в [11] проведено тестирование модели на статистических данных и обобщены его результаты.

Более подробное описание личного вклада A.B. Суворовой в совместных

публикациях приведено в тексте диссертации. -------

Структура диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы и списка иллюстраций. Работа изложена на 168 страницах машинописного текста, включающих 37 рисунков и библиографию, содержащую 271 наименование.

Положения, выносимые на защиту:

1) формализация особенностей последнего элемента ряда, представленного пуассоновским и гамма-пуассоновским процессом, для корректного построения моделей, основанных на данных об этом элементе, а также подходы к обработке этих особенностей;

2) методы оценки параметров ряда эпизодов поведения, представленного пуассоновским процессом, на основе гранулярных данных о рекордных интервалах между последовательными эпизодами;

3) обобщенная модель временного ряда эпизодов поведения, представленного пуассоновским процессом, по неполной и неточной информации об ограниченном числе его элементов на основе байесовской сети доверия;

4) формальное описание методов расчета оценок параметров таких рядов в виде алгоритмов;

5) реализация указанных алгоритмов расчета параметров сверхкороткого временного ряда на основе гранулярных данных и знаний в компонентах прототипа комплекса программ.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность диссертационного исследования, изложена его цель, описана научная новизна, методология и методы исследования, его теоретическая и практическая значимость, перечислены полученные результаты, сформулированы основные положения, выносимые на защиту, а также приведена структура диссертации.

В первой главе обоснованы цель и задачи исследования на основании анализа современного состояния исследований в области моделирования поведения индивидов. Первый параграф является обзором возможных подходов к построению моделей социально-значимого поведения по сверхмалой неполной совокупности наблюдений и оценке параметров таких моделей. Рассмотрены такие ме-

8

тоды как агентное моделирование, статистический подход, включая методы анализа малой выборки, методология временных рядов и их приложения к решению указанной задачи. Выявлены преимущества использования моделей в рамках теории вероятностных графических моделей.

Во втором параграфе предложено описание средств представления и обработки неопределенности, возникающей при использовании неполных, неточных и нечисловых данных, выраженных на естественном языке. Рассмотрен вероятностный подход, байесовский подход, теория Демпстера-Шефера, теория нечетких множеств.

Третий параграф посвящен описанию подходов к оценке параметров социально-значимого поведения, используемых в науках социо-гуманитарного цикла, например, в психологии, эпидемиологии, здравоохранении. Рассмотрены достоинства и недостатки применяемого инструментария, описаны особенности полученных таким образом данных.

Вторая глава содержит материалы, необходимые для дальнейшего изложения. Приведен подход, предложенный А.Е. Пащенко, Т.В. Тулупьевой, позволяющий получать количественные данные об эпизодах поведения (другими словами, элементов процесса) в условиях невозможности длительного наблюдения или измерения параметров.

Серия эпизодов рассматривается как пуассоновский случайный процесс с основным уравнением

= = (1)

где /0 — начальный момент времени, V — число последовательных событий, которые вспомнил респондент, а т — тот период времени, за который эти эпизоды произошли, А, — интенсивность.

Методом максимального правдоподобия на основе данных об эпизодах по. V

лучена оценка интенсивности к = —.

х

В диссертации также используются обозначения и методы теории рекордов, применяемые в качестве основы для разработки методов оценки параметров поведения при анализе сведений о максимальном и минимальном интервалах между последовательными элементами ряда наблюдении или между эпизодами поведения. Так, получены вероятностные распределения случайных величин, соответствующих указанным длинам максимального и минимального интервалов. В частности, в случае пуассоновской модели совместная функция плотности распределения имеет вид:

/_ ^у)=фу^'Цх+у] - Т2' (2)

если -°о < * < у < , и /тш тах (х,у) = 0 в остальных случаях.

Описан метод рандомизации неопределенности, возникающей при использовании неполных, неточных и нечисловых данных, основанный на идее, изложенной в работах Н.В. Хованова. Рассматривается конечное множество всех возможных значений некоторых показателей. На основе нечисловой и интер-

вальной информации строится множество всех допустимых значений показателей. Для моделирования неопределенности выбора конкретного значения из множества допустимых значений осуществляется рандомизация этого выбора: значение выбирается случайным образом, причем для каждого значения определена вероятностью такого выбора. Таким образом, набор показателей рассматривается как случайные величины, а в качестве оценки берется математическое ожидание этой величины.

Кроме того, в главе определены основные понятия теории байесовских сетей доверия, на основе которой в работе строится модель сверхкороткого временного ряда. Описаны свойства байесовских сетей доверия и принципы вероятностного вывода на них.

В третьей главе сформулированы и доказаны теоретические результаты диссертационного исследования. В качестве основного средства моделирования сверхкороткого неточного временного ряда выбраны вероятностные графические модели, что позволяет воспользоваться уже существующим мощным алгоритмическим аппаратом теории байесовских сетей доверия и свободно распространяемым программным инструментарием для получения необходимых оценок. Для полного задания такой модели необходимо выполнить ряд предварительных шагов.

В первом параграфе рассмотрена одна из особенностей исходных данных: интервал между последним эпизодом поведения и моментом интервью не является интервалом между эпизодами поведения. Предложены два метода, учитывающие указанную особенность.

Первый подход базируется на введении дополнительной случайной величины, соответствующей прерыванию интервала между последним эпизодом и моментом интервью, и на предположении, что эта случайная величина имеет равномерное распределение. Тогда в случае пуассоновского процесса случайная величина ттой — длина интервала между последним эпизодом и моментом ин-

°° Хе^*

тервью — имеет плотность распределения вида р(() = Г-ск.

1 х

Утверждение 1. Плотность распределения случайной величины Ттос1 представляется следующим образом:

р(0 = -Ху-Х 1п(X/) + Х^(~1)[+]!\')к . (3)

к=1 К'К-

где у —это постоянная Эйлера, у ~ 0,5772156649, X—интенсивность поведения, представленного пуассоновским процессом, I — длина интервала.

На основе (3) предложен метод оценки параметра X — интенсивности поведения респондентов— по данным о его последних эпизодах. Вычисление оценки сведено к решению уравнения ^(X) = 0, где (т0,х],х2 — наблюдаемые длины интервалов между последними эпизодами)

F(A.) = 3-*(TI+TJ)-

/

-1л

du

Утверждение 2. Уравнение F (Я.) = 0 имеет единственное решение.

Дальнейшие вычисления оценки параметра X выполняются численными методами с использованием (3).

Второй подход к обработке особенности интервала между последним эпизодом и моментом интервью основан на наблюдении, что чем длиннее интервал между эпизодами, тем более вероятно, что момент интервью попадет в этот (более длинный) интервал. В качестве модели поведения в данном случае рассматривается обобщенный пуассоновский процесс с параметром X, Х~ g(X;а,а).

С учетом всех перечисленных особенностей была предложена модель, согласно которой случайная величина Tmod — длина интервала между последним эпизодом и моментом интервью — имеет плотность распределения следующего вида:

f(t\a,e) = Ktl Xe~'xg(X; a,a)dX = t/a , (5)

J0 о (1+f/a)

где t — длина интервала между последним эпизодом и моментом интервью, X— интенсивность, К— нормирующая константа, a, a — параметры, характеризующие эту интенсивность.

Теорема 1. Распределение случайной величины Tmod принадлежит к классу бета-простых (beta-prime) распределений ВР(л:;2,а —1), плотность которого выражается формулой

тэр/ . м ^-'(l+ *)-"-* 1

BP(jc ;a,b)--=---г,

В (a,b) B(a,Z>)(l + x)a+A

где В(а,Ь) —бета-функция.

Во втором параграфе предложены методы оценки параметров временного ряда по данным о минимальном и максимальном интервалах между его последовательными членами. Разработанный алгоритм основан на методах теории ре*

+ п *

кордов, и оценкой интенсивности является X = —, где п максимизирует

плотность f(tmmJm3x\n) (см. (2)), где imin и /тах — наблюдаемые значения

соответственно минимального и максимального интервалов между эпизодами.

В третьем параграфе разработанные методы оценки модифицированы с учетом гранулярности исходных данных о нескольких последних, минимальном и максимальном интервалах между элементами временного ряда. В рассматриваемом случае исходная величина принимает не одно значение, а некоторый

т 93

Нтт.тах^'Ч ~

дхдудг

(6)

диапазон значений (гранулу). Оценки параметров вычисляются для гранул в целом. При изучении социально-значимого поведения такие особенности исходных данных обусловлены их представлением на естественном языке: значение «неделя» в реальности представляет собой диапазон «от шести до девяти дней». Модификация методов осуществляется за счет представления вычисляемой оценки параметров как случайной величины и вычисления ее математического ожидания, которое и предложено в качестве обобщенной оценки.

В четвертом параграфе описана более полная модель, учитывающая весь объём данных о поведении (как последние эпизоды, так и рекордные интервалы).

Оценка интенсивности вычисляется методом максимального правдоподобия. Для этого строится функция правдоподобия Ц тт тах (к) как функция плотности совместного распределения случайных величин, соответствующих рекордным интервалам между эпизодами и длине последнего интервала.

Теорема 2. Функция правдоподобия А,т1п,тах 1шеет следующий вид:

- п(*':у)

где /"п(и,у;X) — совместная плотность распределения порядковых статистик, /"¡"„ (х, у; X) — соответствующая функция распределения, (I — г) — (и — 2) -кратная свёртка функций распределения вида

1_еЧ"-'0 ,

Ниу(х\К) = -— , множество С1(х,у) = {0 < и < х,и < V < у,х < у], Т0 —

1 _ ек\и

длина последнего наблюдаемого интервала, Ттт и Ттах — длины соответственно минимального и максимального интервалов за период наблюдения [0, /].

Формула (6) для ее применения к решению практических задач требует дальнейшего исследования и разработки (или адаптации) методов для численной оценки входящих в нее выражений, а также исследования аспектов сходимости ряда. Кроме того, в такую модель очень сложно добавлять новые факторы, новые предположения о предметной области требуют повторения всех шагов процедуры вывода формулы для оценки параметров модели. В то время как модель, построенная на основе байесовской сети доверия, позволяет избежать указанных ограничений.

В пятом параграфе на основе (1)—(6) построено совместное распределение вероятностей случайных величин в условиях пуассоновского процесса:

в(х 0'-'Хб) = Р(гтЫ =Х0>г1 = Х1>Ь = *2>Ттт =*3>Ттах = Х4 Д = >П = ) • (7)

Разработана модель М = (<3(У,П), Р) в виде байесовской сети доверия, структура которой представлена графом в(У,Ь), где К = ], ^ 2, Г23, Гтш, Гтах Д, и} —

множество вершин, Ь = {(м,у) :и,уе V] — множество направленных связей

между вершинами. На рисунке 1 представлены случайные элементы, входящие в модель, и связи между ними.

РШ

P(to,9-)

PVnW

max

Р('тж\К 'rain)

Д'гД) РОпи^,")

Рисунок 1. Модель социально-значимого поведения, основанная на данных об эпизодах поведения.

Для полной спецификации модели в рамках теории байесовских сетей выполнена дискретизация исходных данных и определены тензоры условных вероятностей

/5 =1,...,^, где кв — число дизъюнктных промежутков при дискретизации случайных величин; 5 = 0,...,4; у = 1,...,2; г = \,...,т , где т —число дизъюнктных промежутков при дискретизации величины X:

р( |Л(<)) = (Л« (Л« +1), $ = [а;Ь);

-Х0)Т .

п\

Теорема 3. (о корректности представления). Модель М =(G(V,L),Р) на основе байесовской сети доверия задает дискретизированное совместное вероятностное распределение Q (5).

Четвертая глава содержит описание разработанных алгоритмов, а также описание основных моментов реализации указанных моделей и алгоритмов в прототипе комплекса программ для проведения вычислительных экспериментов и решения практических задач. Представлена структура разработанного прототипа комплекса программ. Весь проект, разработанный в IDE NetBeans, разделен на несколько пакетов, каждый из которых объединяет классы, обеспечивающие определенную смысловую часть функциональности программы (вычислительные процедуры, работу с базой данных, рисование различных графиков и рисунков, представление графического пользовательского интерфейса).

Приведено описание компоненты комплекса программ, вычисляющей согласно (3—4) оценку интенсивности поведения численными методами.

Отдельный блок на основе программного обеспечения GeNIe&SMILE реализует представление модели в виде байесовской сети доверия и позволяет осуществлять оценку ее параметров после поступлении данных. Приведено функциональное описание прототипа комплекса программ, представленное в виде руководства пользователя. Разработанный прототип содержит более 11000 строк кода.

Кроме того, приведено описание результатов апробации построенных моделей на имеющихся статистических данных.

В заключении сформулированы основные результаты и выводы по диссертационной работе.

ЗАКЛЮЧЕНИЕ Основные результаты диссертационного исследования:

1) формализованы особенности последнего элемента ряда (последнего интервала между эпизодами поведения), представленного пуассоновским и гам-ма-пуассоновским процессом, для корректного построения моделей, основанных на данных об этом элементе, а также подходы к обработке этих особенностей;

2) разработаны методы оценки параметров ряда эпизодов поведения, представленного пуассоновским процессом, на основе гранулярных данных о рекордных интервалах между последовательными эпизодами;

3) построена обобщенная модель временного ряда эпизодов поведения, представленного пуассоновским процессом, по неполной и неточной информации об ограниченном числе его элементов на основе байесовской сети доверия;

4) формализованы в виде алгоритмов методы расчета оценок параметров таких рядов;

5) разработаны компоненты прототипа комплекса программ, реализующие указанные алгоритмы расчета параметров сверхкороткого временного ряда на основе гранулярных данных и знаний.

Одним из возможных путей развития построенной модели является ее расширение для вычисления относительных характеристик интересующих исследователя параметров, а также для учета дополнительных сведений экспертов о характере поведения.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи, опубликованные в журналах из Перечня рецензируемых научных журналов и изданий для опубликования основных научных результатов диссертаций

1. Tulupyev, A. Beta prime regression with application to risky behavior frequency screening [Text] / A. Tulupyev, A. Suvorova, J. Sousa, D. Zelterman // Statistics in Medicine. 2013. Vol. 32, Issue 23. P. 4044-4056. DOI: 10.1002/sim.5820. (Web of Science)

2. Суворова, A.B. Анализ гранулярных данных и знаний в задачах исследования социально значимых видов поведения [Текст] / A.B. Суворова, A.JI. Тулупьев, А.Е. Пащенко, Т.В. Тулупьева, Т.В. Красносельских // Компьютерные инструменты в образовании. 2010. №4. С. 30-38.

3. Зельтерман Д. Обработка систематической ошибки, связанной с длиной временных интервалов между интервью и последним эпизодом в гамма-пуассоновской модели поведения [Текст] / Зельтерман Д., Тулупьев A.JL, Суворова A.B., Пащенко А.Е., Мусина В.Ф., Тулупьева Т.В., Красносельских Т.В., Гро Л., Хаймер Р. // Труды СПИ-ИРАН. 2011. Вып. 16. С. 160-185.

4. Зельтерман Д. Диагностика регрессионных уравнений в анализе интенсивности рискованного поведения по его последним эпизодам [Текст] / Зельтерман Д., Суворова A.B., Пащенко А.Е., Мусина В.Ф., Тулупьев A.JL, Тулупьева Т.В., Гро JI.E., Хаймер Р. //Труды СПИИРАН. 2011. Вып. 17. С. 33-46.

5. Суворова A.B. Моделирование социально-значимого поведения респондентов: аналитическая и численная оценки интенсивности в окрестности интервью при информационном дефиците [Текст] / Суворова A.B., Лавренов A.B., Тулупьева Т.В., Тулупьев А.Л., Пащенко А.Е. //Труды СПИИРАН. 2012. Вып. 1 (20). С. 101-115.

6. Суворова A.B. Обобщенная линейная регрессионная модель для прогноза временного интервала между последним эпизодом рискованного поведения и моментом интервью на основе социально-демографических и психологических особенностей [Текст] / Суворова A.B., Тулупьева Т.В., Тулупьев А.Л. // Труды СПИИРАН. 2012. Вып. 2 (21). С. 80-94.

7. Суворова A.B. Вероятностные графические модели социально-значимого поведения индивида, учитывающие неполноту информации [Текст] / Суворова A.B., Тулупьева Т.В., Тулупьев А.Л., Сироткин A.B., Пащенко А.Е. // Труды СПИИРАН. 2012. Вып. 3 (22). С. 101-112.

8. Степанов Д.В. Функция правдоподобия с гетерогенными аргументами в идентификации пуассоновской модели рискованного поведения в случае информационного дефицита [Текст] / Степанов Д.В., Мусина В.Ф., Суворова A.B., Тулупьев А.Л., Сироткин A.B., Тулупьева Т.В. // Труды СПИИРАН. 2012. Вып. 4(23). С. 157-184.

9. Суворова A.B. Подходы к представлению и обработке неопределенности данных и знаний о поведении индивидов [Текст] / Суворова A.B. // Труды СПИИРАН. 2012. Вып. 4(23). С. 206-222.

10. Суворова A.B. Гибридные модели оценки параметров социально-значимого поведения по сверхмалой неполной совокупности наблюдений [Текст] / Суворова A.B. // Труды СПИИРАН. 2013. Вып. 1(24). С. 116-134.

П.Суворова A.B. Автоматизированный инструментарий для опроса респондентов об эпизодах рискованного поведения: первичный анализ результатов применения [Текст] / Суворова A.B., Мусина В.Ф., Тулупьева Т.В., Тулупьев А.Л., Красносельских Т.В., Фильченков A.A., Азаров A.A., Абдала Н. // Труды СПИИРАН. 2013. Вып. 3(26). С. 175-193.

12. Суворова A.B. Моделирование социально-значимого поведения по сверхмалой неполной совокупности наблюдений [Текст] / Суворова A.B. // Информационно-измерительные и управляющие системы. 2013. №9, т. 11. С. 34—38.

Научные статьи и доклады, опубликованные в других изданиях

13. Пащенко А.Е. Сравнение параметров угрозообразующего поведения в разных группах на основе неполных и неточных данных [Текст] / Пащенко А.Е., Тулупьев А.Л., Суворова A.B., Тулупьева Т.В. // Труды СПИИРАН. 2009. Вып. 9. СПб.: Наука, 2009. С. 252-261.

14. Суворова A.B. Построение доверительных интервалов оценок интенсивности рискованного поведения на основе неравенства Чебышева [Текст] / Суворова A.B., Пащенко А.Е., Тулупьева Т.В. Тулупьев А.Л. // Труды СПИИРАН. 2009. Вып. 10. СПб.: Наука, 2009. С. 107-120.

15. Пащенко А.Е. Вероятностные распределения порядковых статистик в анализе сверхкоротких нечетких и неполных временных рядов [Текст] / Пащенко А.Е., Суворова A.B., Тулупьева Т.В. Тулупьев А.Л. // Труды СПИИРАН. 2009. Вып. 10. СПб.: Наука, 2009. С. 184-207.

16. Суворова A.B. Оценка характеристик сверхкороткого временного ряда по гранулярным данным о рекордных интервалах между событиями [Текст] / Суворова A.B., Пащенко А.Е., Тулупьева Т.В. // Труды СПИИРАН. 2010. Вып. 12. С. 170-181.

17. Лавренов A.B. Особенности обработки данных и знаний об эпизодах социально-значимого поведения в окрестности интервью [Текст] / Лавренов A.B., Суворова A.B., Пащенко А.Е., Тулупьев А.Л. // Труды СПИИРАН. 2010. Вып. 15. С. 246-262.

18. Пащенко А.Е. Программный комплекс для экспертного оценивания интенсивности поведения респондента в условиях дефицита информации [Текст] / Пащенко А.Е., Суворова A.B. // Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте. Научно-практическая конференция студентов, аспирантов, молодых ученых и специалистов (Коломна, 26-27 мая 2009 г.). Научные доклады. В 2-х т. Т. 2. М.: Физматлит, 2009. С. 220-241.

19. Пащенко А.Е. Интеллектуальная система для экспертного оценивания интенсивности рискованного поведения в условиях информационного дефицита [Текст] / Пащенко

A.Е., Тулупьева Т.В., Суворова A.B., Тулупьев А.Л. // Региональная информатика-2008 (РИ-2008). XI Санкт-Петербургская международная конференция. Санкт-Петербург, 22-24 октября, 2008 г.: Материалы конференции / СПОИСУ. СПб., 2009. С. 285-291.

20. Тулупьев А.Л. Косвенные оценки и сравнение параметров угрообразующего поведения в разных группах по неполным и неточным данным [Текст] / Тулупьев А.Л., Суворова A.B., Тулупьева Т.В., Пащенко А.Е. // Международная конференция по мягким вычислениям и измерениям. Сборник докладов. 2009. Т. 2. СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2009. С. 110-114.

21. Суворова A.B. Косвенные измерения интенсивности и моделирование социально-значимого поведения по неполным данным [Текст] / Суворова A.B., Пащенко А.Е., Тулупьев А.Л., Тулупьева Т.В., Красносельских Т.В. // Сборник трудов международной научно-практической конференции «Моделирование и анализ массовых событий в экономике и социуме» (Санкт-Петербург, 25 ноября 2010 г.). СПб.: Изд-во «ЛЕМА», 2010. С. 160-163.

22. Зельтерман Д. Оценка интенсивности социально-значимого поведения по смещенной выборке длин интервалов между наблюдением и последним эпизодом в условиях дефицита информации [Текст] / Зельтерман Д., Суворова A.B., Пащенко А.Е., Мусина

B.Ф., Тулупьев А.Л., Тулупьева Т.В., Гро Л., Хаймер Р. // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов VI-й Международной научно-технической конференции (Коломна, 16-19 мая 2011 г.). В 2-х т. Т. 2. М.: Физматлит, 2011. С. 980-991.

23. Суворова A.B. Построение математической модели социально-значимого поведения по данным о последних эпизодах [Текст] / Суворова A.B., Пащенко А.Е. // VI Международная научно-практическая конференция молодых специалистов, аспирантов и студентов «Математическое и компьютерное моделирование естественнонаучных и социальных проблем» (22-23 мая 2012 г. Пенза). Сборник статей. Пенза: Приволжский дом знаний, 2012. С. 114-117.

24. Суворова A.B. Эвристическая оценка интенсивности поведения по рекордным интервалам между эпизодами: обработка неточности ответов респондентов [Текст] / Суворова A.B., Тулупьев А.Л., Тулупьева Т.В., Пащенко А.Е. // XV Международная конференция по мягким вычислениям и измерениям. SCM-2012. (25-27 июня 2012 г. Санкт-Петербург). Сборник докладов. 2012. Т. 2. СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2012. С. 101-104.

25. Лавренов A.B. Вероятностно-нечеткостная модель социально-значимого поведения в случае неточных данных об его эпизодах, предшествующих интервью [Текст] / Лавренов A.B., Суворова A.B., Пащенко А.Е., Тулупьева Т.В., Тулупьев А.Л. // Гибридные и синергетические интеллектуальные системы: теория и практика. Материалы 1-го международного симпозиума. Т. 2. Калининград: Изд-во БФУ им. И.Канта, 2012.

C. 19-29.

26. Суворова A.B. Методика мониторинга угрозообразующего поведения для управления социально-эпидемиологическими рисками в условиях неполноты информации [Текст] / Суворова A.B., Пащенко А.Е., Тулупьева Т.В. // Информационные технологии в управлении (ИТУ-2012). Материалы конференции. СПб.: ОАО «Концерн «ЦНИИ «Электроприбор», 2012. С. 119-123.

27. Суворова A.B. Применение байесовских сетей доверия для моделирования угрозообразующего поведения индивида по неполным и неточным данным [Текст] / Суворова A.B., Тулупьева Т.В., Тулупьев A.JL, Сироткин A.B. // Тринадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2012 (16-20 октября 2012 г., г. Белгород). Труды конференции. Т. 3. Белгород: Изд-во БГТУ, 2012. С. 292-299.

28. Суворова A.B. Оценка интенсивности поведения для моделирования деятельности индивидов в социальных сетях [Текст] / Суворова A.B., Пащенко А.Е., Тулупьев A.JL, Тулупьева Т.В., Лавренов A.B. // Список-2012: Материалы всероссийской научной конференции по проблемам информатики (25-27 апреля 2012 г., Санкт-Петербург). СПб.: ВВМ, 2012. С. 385-391.

29. Суворова A.B. Представление пуассоновской модели социально-значимого поведения в виде байесовской сети доверия [Текст] / Суворова A.B. // Современные проблемы математики. Тезисы Международной (44-я Всероссийской) молодежной школы-конференции . Екатеринбург: Институт математики и механики УрО РАН, 2013. С. 333-335.

30. Суворова A.B. Особенности моделирования угрозообразующего поведения по неполным данным о его эпизодах. [Текст] / Суворова A.B., Тулупьева Т.В., Тулупьев A.JL, Пащенко А.Е., Сироткин A.B. // Материалы Второй Международной научно-практической конференции «Социальный компьютинг, технологии развития, социально-гуманитарные эффекты» (ISC-13): сборник статей и тезисов. М.: Изд-во, 2013. С. 198-206.

31. Суворова A.B. Построение вероятностных графических моделей социально-значимого поведения с учетом особенностей гранулярных данных о рекордных интервалах между его эпизодами [Текст] / Суворова A.B., Тулупьева Т.В., Сироткин A.B. // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов VII-й Международной научно-технической конференции (Коломна, 20-22 мая 2013 г.). М.: Физматлит. Т.З. С. 1376-1385.

Зарегистрированные программы для ЭВМ

32. Тулупьев А.Л. Программа для расчёта нечётких оценок интенсивности угрозообразующего поведения и риска, с ним связанного, Fuzzy Risk-&-Rate Calculator (F.R.-&-R.C.) [Текст] / Тулупьев А.Л., Пащенко А.Е., Суворова A.B.: свид. о гос. per. прогр. для ЭВМ. —№ 2009614649 от31.08.2009. Роспатент.

33. Тулупьев А.Л. Программа для учёта неточных сведений об угрозообразующем поведении Fuzzy Data Register for Risky Behavior, Version 1 (F.D.R.R.B. v. 1) [Текст] / Тулупьев А.Л., Суворова A.B., Пащенко A.E.: свид. о гос. per. прогр. для ЭВМ. № 2010613161 от 14.05.2010. Роспатент.

34. Тулупьев А.Л. База данных неточных ответов респондентов об участии в угрозообразующем поведении Fuzzy Answers on Risky Behavior Data Base, Version 1 (F.A.R.B./DB v. 1) [Текст] / Тулупьев А.Л., Суворова A.B., Пащенко A.E.: свид. о гос. per. прогр. для ЭВМ. № 2010620275 от 14.05.2010. Роспатент.

35. Тулупьев А.Л. Программа для расчёта нечётких оценок интенсивности угрозообразующего поведения и риска, с ним связанного, Fuzzy Risk-&-Rate Calculator, Version 2(F.R.-&-R.C. v.2) [Текст] / Тулупьев А.Л., Суворова A.B., Пащенко А.Е.: свид. о гос. per. прогр. для ЭВМ. № 2010614267 от 30.06.2010. Роспатент.

36. Тулупьев А.Л. Программа для идентификации параметров интенсивности и риска в условиях неопределенности на основе рекордных порядковых статистик в моделях угрозообразующего поведения Record-Based Uncertain Risk-&-Rate Calculator

(R.B.U.R.-&-R.C.) [Текст] / Тулупьев A.JL, Суворова A.B., Пащенко А.Е.: свид. о гос. per. прогр. для ЭВМ. № 2010614266 от 30.06.2010. Роспатент.

37. Тулупьев A.JI. Интеллектуальная система для поддержки принятия решений экспертов по оценке интенсивности поведения респондентов на основе неполных и неточных сведений о его последних эпизодах [Текст] / Тулупьев A.JL, Суворова A.B., Пащенко А.Е.: свид. об отраслевой регистрации разработки, отвечающей требованиям новизны, приоритетности и научности, (ОФАП Госкоорцентр Минобрауки РФ). № 12176 от 20.01.2009.

38. Тулупьев A.JL JSP-сервер удаленного доступа к системе для оценки интенсивности поведения респондента на основе неточных и неполных сведений о его последних эпизодах [Текст] / Тулупьев A.JL, Суворова A.B., Пащенко А.Е.: свид. о регистрации электронного ресурса, отвечающего требованиям новизны и приоритетности, (ОФЭРНиО ИИО ГАН РАО). № 15762 от 20.05.2010.

39. Тулупьев A.JL Базы данных для хранения оценок интенсивности и сведений о последних эпизодах поведения респондентов [Текст] / Тулупьев A.JL, Суворова A.B., Пащенко А.Е.: свид. о регистрации электронного ресурса, отвечающего требованиям новизны и приоритетности, (ОФЭРНиО ИИО ГАН РАО). № 15763 от 20.05.2010.

40. Тулупьев A.JL Автоматизированное рабочее место эксперта для внесения сведений о поведении респондентов и расчета оценок его интенсивности (с локальным доступом к базе данных) [Текст] / Тулупьев А.Л., Суворова A.B., Пащенко А.Е.: свид. о регистрации электронного ресурса, отвечающего требованиям новизны и приоритетности, (ОФЭРНиО ИИО TAH РАО). № 15764 от 20.05.2010.

41. Тулупьев А.Л. Интеллектуальная система для поддержки принятия решений экспертов по оценке поведения респондентов на основе сведений о максимальном и минимальном интервалах между эпизодами указанного поведения [Текст] / Тулупьев А.Л., Суворова A.B., Пащенко А.Е.: свид. о регистрации электронного ресурса, отвечающего требованиям новизны и приоритетности, (ОФЭРНиО ИИО ГАН РАО). № 15765 от 20.05.2010.

Подписано в печать 11.11.2013 г. Формат А5. Цифровая печать. Заказ 15/108. Объем 1 п.л. Тираж 100 экз. Отпечатано в ЦОП «Копировальный центр «Васипеосгровский» 199000, Россия, г. Санкт-Петербург, В.О., 6-я линия, д. 29. тел. (812) 702-80-90, факс: 328-61-84 e-mail: vs@copy.spb.ru

Текст работы Суворова, Алёна Владимировна, диссертация по теме Теоретические основы информатики

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский государственный университет»

Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук

На правах рукописи

СУВОРОВА Алёна Владимировна

Модели и алгоритмы анализа сверхкоротких гранулярных временных рядов на основе байесовских сетей доверия

05.13.17 - Теоретические основы информатики

ДИССЕРТАЦИЯ на соискание ученой степени кандидата физико-математических наук

Научный руководитель: доктор физико-математических наук, доцент ТУЛУПЬЕВ Александр Львович

Санкт-Петербург 2013

Оглавление

Оглавление...............................................................................................................2

Введение...................................................................................................................4

Глава 1. Современное состояние проблемы.......................................................14

Введение...................................................................................................................................14

§1.1. Подходы к построению моделей социально-значимого поведения.........................14

§ 1.2. Подходы к представлению и обработке неопределенности данных и знаний о поведении индивидов..............................................................................................................23

§ 1.3. Источники исходных данных при моделировании поведения респондента...........36

Выводы по главе......................................................................................................................39

Глава 2. Основные понятия и используемые методы........................................41

Введение...................................................................................................................................41

§ 2.1. Оценка интенсивности на основе данных о последних эпизодах.............................41

§ 2.2. Анализ и синтез показателей при информационном дефиците................................46

§ 2.3. Вероятностные распределения порядковых статистик..............................................47

§ 2.4. Основы теории байесовских сетей доверия................................................................51

Выводы по главе......................................................................................................................54

Глава 3. Модели и алгоритмы анализа поведения респондента на основе

байесовской сети доверия.....................................................................................56

Введение...................................................................................................................................56

§ 3.1. Особенность обработки данных об интервале в окрестности интервью.................57

§ 3.2. Оценка параметров поведения по данным о рекордных интервалах.......................69

§ 3.3. Обработка особенностей исходных данных...............................................................78

§ 3.4. Обобщенная модель поведения респондентов...........................................................81

§ 3.5. Модель на основе байесовской сети доверия.............................................................88

Выводы по главе......................................................................................................................96

Глава 4. Компоненты прототипа комплекса программ.....................................98

Введение...................................................................................................................................98

§ 4.1. Структура базы данных.................................................................................................98

§ 4.2. Структура объектно-ориентированной библиотеки для расчета оценок параметров поведения респондентов.......................................................................................................100

§ 4.3. Представление байесовской сети доверия в прототипе комплекса программ.....103

§ 4.4. Компонента прототипа комплекса программ для приближенного вычисления интенсивности........................................................................................................................106

§ 4.5. Апробация моделей на статистических данных.......................................................107

Выводы по главе....................................................................................................................119

Заключение...........................................................................................................121

Список литературы..............................................................................................122

Список иллюстраций...........................................................................................147

Список таблиц......................................................................................................149

Приложение А. Диаграмма классов...................................................................150

Приложение Б. Описание структуры таблиц реляционной базы данных.....153

Приложение В. Свидетельства о регистрации программ для ЭВМ...............159

Введение

Проблема анализа данных и знаний, характеризующихся неопределенностью, является одной из областей искусственного интеллекта, в частности, вопросы обработки и представления неопределенности рассматривали J. Halpern, A. Dempster, D. Dubois, J. Pearl, H. Prade, G. Shafer, L. Zadeh, Д.А. Поспелов, JI.В. Уткин, A.B. Язенин, Н.Г. Ярушкина и др. Одной из подобных задач является разработка моделей и методов для обеспечения поддержки принятия решений в условиях, когда для получения данных невозможно организовать классические формы длительного наблюдения и многофакторного измерения параметров процесса, но имеются сведения, полученные от экспертов, предположения о классах и семействах таких процессов, а также ограниченное число измеряемых особенностей такого процесса [88, 93, 99, 128, 129]. В частности, такие данные возникают при изучении поведения посредством опросов участников или экспертов. Аналогичные задачи возникают в системе управления и принятия решений, например для оценки степени удовлетворенности той или иной предоставляемой государственной услугой. В целом, можно сказать, что поставленные вопросы относятся к более широкой, комплексной области исследований, посвященной анализу и моделированию поведения в контексте интеллектуальных систем принятия решений, изучением которой занимаются Г.С. Осипов, О.П. Кузнецов, B.JI. Сте-фанюк и др. [14, 40, 53, 72]

Указанная проблема является междисциплинарной, для ее решения требуется привлечение и адаптация ряда методов и моделей искусственного интеллекта и мягких вычислений вместе с методами и моделями классической математики (нечеткие системы и ряды, вероятностные графические модели, в т.ч. байесовские сети, методы построения сводных показателей в условиях дефицита информации (подход Н.В. Хованова), модели гранулярных знаний и др.), причем развиваемые методы и модели должны быть наце-

лены на дальнейшее использование в комплексах программ, автоматизирующих/поддерживающих принятие решений или мониторинг показателей в соответствующих предметных областях.

Междисциплинарность тематики обусловлена также тем, что во многих случаях при изучении поведения (или процесса) кроме данных об эпизодах поведения становятся известными также дополнительные сведения — в случае социально-значимого поведения это психологические, демографические, социальные характеристики, позволяющие лучше его описать. Кроме того, часто существуют дополнительные обоснованные предположения о характере процесса, о связях между параметрами. Включение таких теоретических предположений позволяет построить более полную модель. Как следствие, необходимо предложить модели и алгоритмы, позволяющие анализировать данные, полученные при исследовании указанных процессов, в частности, при изучении социально-значимого поведения.

Степень разработанности темы. В работах А.Е. Пащенко, Т.В. Тулу-пьевой [54, 57, 58, 60, 128-131, 133, 135, 136] предложен подход, позволяющий получать количественные данные об эпизодах поведения (другими словами, элементов временного ряда) в условиях невозможности длительного наблюдения или измерения параметров. Проведено полевое исследование для сбора статистических данных и апробации разработанного опросного инструментария, выявлены психологические характеристики респондентов, ассоциированные с рискованным поведением. Проведена формализация и классификация ответов респондентов об эпизодах поведения, предложены подходы к оценке параметров рискованного поведения по исходным данным частного вида. Предложено рассмотрение модели поведения в виде случайного процесса определенного класса. Однако, в такую модель очень сложно добавлять новые факторы, новые предположения о предметной области потребуют полного пересчета компонентов модели.

Исследуемая задача близка к задачам, возникающим при анализе временных рядов. Однако, несмотря на удобство использования методологии

моделирования и анализа временных рядов, в частности, методологии анализа нечетких временных рядов, разрабатываемой Н.Г. Ярушкиной, С.М. Ковалевым и др. [6, 35, 52, 106, 150], применение этих подходов к решению задачи, связанной с моделированием поведения, сталкивается с рядом ограничений. В частности, такие модели характеризуются невысоким качеством при моделировании коротких временных рядов (причем короткими считаются ряды с числом наблюдений меньше 40). Предлагаемые в диссертационном исследовании модели и алгоритмы анализа направлены на преодоление подобных ограничений за счет адаптации и совместного использования методов искусственного интеллекта и классической математики для обработки данных, характеризующихся неопределенностью.

Объект диссертационного исследования — интеллектуальные модели поведения респондентов на основе неточных данных об ограниченном числе его измеряемых особенностей. Предмет исследования — модель временного ряда эпизодов поведения, рассматриваемого как пуассоновский процесс, на основе байесовских сетей доверия как средства представления и обработки данных и знаний с неопределенностью и методы оценки параметров такой модели.

Цель диссертационного исследования — разработка и развитие моделей на основе байесовских сетей доверия, методов и алгоритмов анализа временных рядов эпизодов поведения, представленного пуассоновским процессом, в условиях неполной, неточной, нечеткой и нечисловой информации особого вида, характеризующейся гранулярностью, для оценки параметров таких моделей. Такая информация включает в себя различные комбинации ограниченного числа сведений об эпизодах поведения (последние эпизоды, минимальный и максимальный интервалы).

Достижение цели осуществляется за счет последовательного решения следующих задач:

1) формализация особенностей последнего элемента ряда, представленного пуассоновским и гамма-пуассоновским процессом, для

корректного построения моделей, основанных на данных об этом элементе, а также разработка подходов к обработке этих особенностей;

2) разработка методов оценки параметров ряда эпизодов поведения, представленного пуассоновским процессом, на основе гранулярных данных о рекордных интервалах между последовательными эпизодами;

3) построение обобщенной модели временного ряда эпизодов поведения, представленного пуассоновским процессом, по неполной и неточной информации об ограниченном числе его элементов на основе байесовской сети доверия, как теоретического аппарата для представления и обработки данных и знаний с неопределенностью;

4) формализация разработанных методов в виде алгоритмов расчета оценок параметров таких рядов;

5) реализация указанных алгоритмов в прототипе комплекса программ для вычислительных экспериментов и решения практических задач.

Теоретическая и практическая значимость работы. Полученные результаты предлагают подходы к обработке данных особого типа, часто встречающихся при анализе социально-значимого поведения на основе результатов опроса или интервью. Такие данные являются неполными, выражены на естественном языке и характеризуются неопределенностью. В частности, в качестве одного из применений построенных моделей можно выделить использование разработанного комплекса программ для сопровождения, в первую очередь, эпидемиологических и социально-эпидемиологических исследований, направленных на моделирование, анализ и мониторинг рискованного поведения и изучение параметров указанного поведения, таких как интенсивность и риск, связанный с рассматриваемым поведением, и таким образом являться составной частью комплексной системы для поддержки принятия решений в области здравоохранения.

Работа в своей теоретической части относится к таким направлениям, как исследование и разработка средств представления знаний (содержащихся в естественно-языковых высказываниях), разработка методов анализа данных, разработка теоретических основ создания программных систем для новых информационных технологий (в части синтеза в условиях информационного дефицита различных показателей интенсивности рискованного поведения). Результаты работы вносят вклад в теоретическую основу, а также в основу для проведения вычислительных экспериментов для исследования и моделирования поведения.

Кроме того, полученные теоретические результаты могут использоваться в учебном процессе для студентов, специализирующихся в информатике, особенно таких междисциплинарных направлениях, как прикладная информатика в гуманитарной сфере. Так, частично, результаты были включены в программы спецкурсов «СУБД, интерфейсы и интеллектуальные модели в комплексах программ» и «Комплекс средств и языков для хранения, обработки и анализа данных» математико-механического факультета СПбГУ.

Методология и методы исследования. Работа носит теоретический характер. Работа опирается на методологию дедуктивного и индуктивного обоснования утверждений в отношении специальным образом формализованных объектов и сведения новых нерешенных задач к известным задачам, уже получившим решение. Используются объекты и методы теории вероятностей, математической статистики, гранулярных вычислений. Основным инструментом моделирования поведения респондентов для последующей разработки подходов к оцениванию их характеристик выступает теория случайных последовательностей вместе с методами теории вероятностных графических моделей, и, более узко, методов теории байесовских сетей доверия. В программно-технологической части используются принципы структурного и объектно-ориентированного программирования, 1ауа-технологии, а также среда ОеМе&8М1ЬЕ для представления байесовской сети доверия и построения апостериорных вероятностных распределений.

Научная новизна. Все результаты, полученные соискателем, являются новыми.

Разработаны методы и алгоритмы оценки параметров временного ряда эпизодов поведения на основе данных о последних элементах ряда (последних эпизодах поведения) и рекордных интервалах между последовательными эпизодами. Предложена модель на основе байесовской сети доверия для оценки параметров поведения. Методы формализованы в виде алгоритмов расчета оценок параметров таких рядов.

Разработаны компоненты прототипа комплекса программ, реализующие указанные алгоритмы расчета параметров сверхкороткого временного ряда на основе гранулярных данных и знаний.

Таким образом, в диссертации предложены модели и методы для обеспечения поддержки принятия решений в условиях, когда для получения данных о поведении невозможно организовать длительное наблюдение, но имеются сведения с неопределенностью, полученные от экспертов, предположения о классах и семействах процессов, а также ограниченное число измеряемых особенностей такого процесса (сверхкороткий временной ряд).

Степень достоверности и апробация результатов. Достоверность и обоснованность результатов работы обеспечены строгими математическими доказательствами и корректным использованием методов соответствующих математических дисциплин.

Результаты диссертационного исследования были представлены на 20 научных мероприятиях:

1) Научно-практическая конференция студентов, аспирантов, молодых ученых и специалистов «Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте» (Коломна, 2009);

2) Международная научно-практическая конференция «Моделирование и анализ массовых событий в экономике и социуме» (Санкт-Петербург, 2010); 3) Научная сессия НИЯУ МИФИ-2010 (Москва, 2010);

4) У1-й Международная научно-техническая конференция «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2011);

5) Научная сессия НИЛУ МИФИ-2011 (Москва, 2011);

6) VII Санкт-Петербургская межрегиональная конференция «Информационная безопасность регионов России (ИБРР-2011)» (Санкт-Петербург, 2011);

7) VI Международная научно-практическая конференция молодых специалистов, аспирантов и студентов «Математическое и компьютерное моделирование естественнонаучных и социальных проблем» (Пенза, 2012);

8) XV Международная конференция по мягким вычислениям и измерениям (БСМ-2012) (Санкт-Петербург, 2012);

9) 1-й Международный симпозиум «Гибридные и синергетические интеллектуальные системы: теория и практика» (Калининград, 2012);

10) 5-я Российская мультиконференция по проблемам управления «Информационные технологии в управлении (ИТУ-2012)» (Санкт-Петербург, 2012);

11) Тринадцатая национальная конференция по искусственному интеллекту с международным участием (КИИ-2012) (Белгород, 2012);

12) Всероссийская научная конференция по проблемам информатики СПИСОК-2012 (Санкт-Пе�