автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Вероятностные графические модели и алгоритмы обработки нечисловой, неточной и неполной информации для оценки кумулятивного риска

кандидата технических наук
Пащенко, Антон Евгеньевич
город
Санкт-Петербург
год
2013
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Вероятностные графические модели и алгоритмы обработки нечисловой, неточной и неполной информации для оценки кумулятивного риска»

Автореферат диссертации по теме "Вероятностные графические модели и алгоритмы обработки нечисловой, неточной и неполной информации для оценки кумулятивного риска"

На правах рукописи ПАЩЕНКО Антон Евгеньевич

ВЕРОЯТНОСТНЫЕ ГРАФИЧЕСКИЕ МОДЕЛИ И АЛГОРИТМЫ " ОБРАБОТКИ НЕЧИСЛОВОЙ, НЕТОЧНОЙ И НЕПОЛНОЙ ИНФОРМАЦИИ ДЛЯ ОЦЕНКИ КУМУЛЯТИВНОГО РИСКА

05.13.01 - Системный анализ, управление и обработка информации

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

1 г ДЕК 2013

Санкт-Петербург 2013

005543540

005543540

Работа выполнена в лаборатории теоретических и междисциплинарных проблем информатики Федерального государственного бюджетного учреждения науки Санкт-Петербургского института информатики и автоматизации Российской академии наук.

Научный руководитель ТУЛУПЬЕВ Александр Львович,

доктор физико-математических наук, доцент, заведующий лабораторией теоретических и междисциплинарных проблем информатики, Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский институт информатики и автоматизации Российской академии наук»

Официальные оппоненты СОКОЛОВА Светлана Павловна,

доктор технических наук, профессор, профессор кафедры бизнес-информатики, экономический факультет, Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Санкт-Петербургский государственный университет аэрокосмического приборостроения»

МАКАРОВ Антон Александрович,

доктор физико-математических наук, доцент кафедры параллельных алгоритмов, математико-механичес-кий факультет, Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Санкт-Петербургский государственный университет»

Ведущая организация Федеральное государственное бюджетное образова-

тельное учреждение высшего профессионального образования «Санкт-Петербургский государственный технологический институт (технический университет)»

Защита диссертации состоится «27» декабря 2013 г. в 14:30 часов на заседании диссертационного совета Д 002.199.01 при Федеральном государственном бюджетном учреждении науки Санкт-Петербургском институте информатики и автоматизации Российской академии наук по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.

С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Санкт-Петербургского института информатики и автоматизации Российской академии наук.

Автореферат разослан «27» ноября 2013 г.

Ученый секретарь

диссертационного совета Д.002.199.01, кандидат технических наук ¿У^ Ф.Г. Нестерук

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследований. В настоящее время междисциплинарные многосторонние проблемы получения и обработки информации с различными видами и степенями неполноты, несовершенства и недоопреде-ленности для последующего построения с помощью компьютерных технологий оценок показателей существенных для предметной области процессов являются одними из самых значимых, наличествуют и остаются нерешенными в широком спектре отраслей научных исследований, в том числе таких, как общественное здоровье (public health), эпидемиология, анализ социальных сетей, психология поведения, психология труда, маркетинг и информационная безопасность.

Общий принцип решения таких проблем — построение (зачастую с использованием гибридного подхода), исследование и обработка данных и знаний с неопределенностью с помощью комбинированных методов теории вероятности, статистического анализа данных, компьютерного моделирования, искусственного интеллекта. Существующие способы построения агрегированных показателей, характеристик и индексов на основе рандомизации, необходимой для учета неопределенности доступной информации, с последующим исследованием их свойств методами теории вероятности и математической статистики нуждаются в уточнении и адаптации практически в случае каждого конкретного класса задач предметной области при всех возможных сочетаниях элементов исходной информации.

Не является исключением из этого вывода и задача оценивания показателей скрытых от непосредственного наблюдения процессов (например, таких показателей как кумулятивный риск и относительная частота), о которых доступны в различных сочетаниях лишь сведения об интервалах между небольшим числом последних событий и моментом их регистрации, наблюдения, опроса, а также сведения о некоторых видах интервалов (между последовательными событиями), связанных с особыми порядковыми статистиками: максимальной, минимальной, медианной или другими. Причем такие сведения отличаются нечеткостью, либо, скорее, гранулярностью, поскольку содержатся в совокупности высказываний на естественном языке.

Настоящая диссертационная работа концентрируется на оценке (при указанных видах информационного дефицита) показателей процессов, события которых распределены согласно пуассоновской модели случайного процесса. В классическом подходе ключевым искомым показателем такого процесса вполне обоснованно выступает его интенсивность. Однако интерес представляют также такие производные показатели, как кумулятивный риск, ассоциированный с этим процессом, а также относительные показатели частоты событий процесса и кумулятивного риска в заданный интервал времени.

Вместе с тем, такие задачи как получение, анализ и обработка описанных выше сведений, усовершенствование инструментария для приобретения информации, представление гранулярности исходных элементов информации, учет влияния этой гранулярности на агрегированную оценку показателей, а также разработка метода, основанного на синтезе случайных элементов, обработки неопределенности исходной информации за счет рандомизации этой неопределенности, решены именно в работах соискателя и обусловили, таким образом, теоретическую составляющую актуальности темы данного исследования.

Практический же аспект актуальности темы диссертации состоит в том, что полученные результаты будут непосредственно востребованы в подготовке и организации процедуры и в самой процедуре получения и обработки информации, в том числе и экспертной информации, приобретаемой в ходе интервью и опросов респондентов по поводу их рискованного, угрозообразующе-го или просто значимого поведения, а также в ходе интервьюирования экспертов-исследователей указанных видов поведения. Важным частным случаем, а также ключевыми мотивирующим и иллюстрирующим примером такого поведения в настоящей работе выступает поведение респондентов, ассоциированное с риском приобретения и (или) передачи ВИЧ-инфекции, акцентирующим собой непосредственную практическую значимость и актуальность настоящего диссертационного исследования.

Степень разработанности. Исследование нечетких временных рядов является смежной, наиболее близкой областью по отношению к тематике настоящей диссертации. Подходы к исследованию таких рядов развиваются Н.Г. Ярушкиной, С.М. Ковалевым. Но при этом существует ряд принципиальных отличий, заключающихся в неприспособленности методов анализа нечетких временных рядов к сверхкоротким временным рядам, а также к добавлению к классической модели дополнительных элементов информации и учету их влияния на классическую модель и формирующиеся на ее основе оценки. Следует отметить, что обрабатываемые (получаемые) данные и знания обладают неопределенностью, причем эта неопределенность может быть представлена с помощью вероятностных моделей, а в такой постановке изучаемая проблема близка к тематике, посвященной приложениям логико-вероятностных моделей к задачам теории надежности структурных сложных систем, рассматриваемых, в частности, в работах И.А. Рябинина, Е.Д. Соло-женцева, A.C. Можаева. Кроме того, вопросам обработки и представления неопределенности данных и знаний посвящены работы таких зарубежных и российских авторов, как J. Fagin, К. Korb, L. Zadeh, Д.А. Поспелов, В.Б. Тарасов, В.Н. Вагин, А.С.Нариньяни и др. Рассматриваемая проблема относится, в том числе и к задачам разработки интеллектуальных систем принятия решений, решаемым в работах Н. Н. Моисеева, Г.В. Рыбиной, Г.С. Осипова, B.J1. Стефанюка. Предлагаемые алгоритмы используют адаптированные к предметной области принципы, близкие к тем, на которых основаны метод синтеза агрегированных показателей в условиях дефицита информации (Н.В. Хованова), теория количественной важности критериев в многокритериальных задачах принятия решений (В.В. Подиновский), а также используют аппарат вероятностных графических моделей (J. Pearl, В.И. Городецкий).

Кроме того, ряд исследований по близким тематикам ведется в лаборатории, где выполнялась диссертация. В работах Суворовой A.B. предложена модель, учитывающая особенности обработки информации об интервалах между последним эпизодом и моментом интервью; для данной модели предложен подход к обработке особой систематической ошибки (length bias) при анализе данных о последнем эпизоде; разработана и специфицирована байесовская сеть доверия, позволяющая формировать апостериорную оценку распределения случайного элемента, характеризующего абсолютную интенсивность исследуемого процесса. В работах Т.В. Тулупьевой сведения о последних эпизодах и рекордных интервалах использовались в прикладных задачах

психологических исследований, нацеленных на выявление норм интенсивности различного вида поведения, связей показателей поведения как процесса со степенью выраженности психологических особенностей личности. В работах А.А. Азарова модель используется в задаче анализа поведения пользователей с точки зрения реализации угроз при социоинженерных атаках.

Объект диссертационного исследования — представление и обработка информации с различными видами и степенями неполноты, несовершенства и недоопределенности о скрытых от непосредственного наблюдения процессах, ассоциированных с риском.

Предмет исследования — с одной стороны, модели для представления исходной информации, отличающейся гранулярностью, о небольшом числе последних событий пуассоновского процесса, а также об особых показателях, связанных с порядковыми статистиками: максимальной и минимальной; а с другой стороны, метод оценивания, базирующиеся на указанных моделях, агрегированных показателей процессов: абсолютной величины кумулятивного риска, относительных-частот и относительного кумулятивного риска в заданный интервал времени.

Цель исследования. Повысить оперативность расчета агрегированных оценок показателей скрытых от непосредственного наблюдения процессов (абсолютной величины кумулятивного риска, относительных частот и относительного кумулятивного риска в заданный интервал времени) за счет применения менее времязатратных методов получения информации и автоматизации ее обработки, используя особым образом построенные случайные элементы и байесовские сети доверия (как вид вероятностных графических моделей). При этом предполагается, что такая информация отличается гранулярностью и различными сочетаниями элементов о моменте регистрации, о небольшом числе последних эпизодов, интервалов, точек, а также некоторых видов интервалов, связанных с особыми порядковыми статистиками.

Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:

1. Разработка инструментария для получения информации о процессе, скрытом от непосредственного наблюдения и ассоциированном с риском, в условиях ее дефицита (доступность различных сочетаний сведений в вербальной форме о небольшом числе последних событий процесса и рекордных интервалах между последовательными событиями);

2. Разработка теоретико-вероятностной модели, позволяющей, с одной стороны, агрегировать вербальные оценки показателей скрытых от непосредственного наблюдения процессов, ассоциированных с риском, а с другой стороны, обрабатывать неопределенность, присущую таким оценкам;

3. Разработка на основе предложенной модели метода и алгоритмов для формирования оценок интенсивности процессов, ассоциированных с риском, и характеристик разброса таких оценок, обусловленного информационным дефицитом;

4. Обеспечение учета гранулярности как исходной информации, так и ожидаемых результатов ее обработки в моделях на основе байесовских сетей доверия для формирования гранулярных оценок показателей

(абсолютного кумулятивных риска, относительной частоты, относительного кумулятивного риска);

5. Реализация на основе компьютерных технологий полученных методов, моделей и алгоритмов визуализации и анализа различных сочетаний описанных выше элементов информации для автоматизации расчета на их основе агрегированных оценок искомых показателей процессов, ассоциированных с риском.

Научная новизна. Предложен новый инструментарий для опроса респондентов, апробированный в рамках полевого исследования. В результате такого опроса получены сверхкороткие серии неточных ответов об эпизодах рискованного поведения, сформулированных на естественном языке, проведена первичная обработка ответов, на основе которой была составлена классификация ответов респондентов о последних эпизодах рискованного поведения, а также о максимальном, минимальном, обычном интервалах. Кроме того, выработанаметодика обработки данных указанного типа.

На основе этой классификации предложен новый способ получения информации об интенсивности процессов, ассоциированных с риском, в условиях дефицита исходных данных, отличающийся от двух известных ранее способов, таких как прямые вопросы о числе событий и лайкерт-шкал о качественных градациях частот событий тем, что задаются вопросы о серии последних событий, минимальном, максимальном интервалах между событиями и одновременно обеспечивается регистрация ответов, содержащих количественные оценки.

Указанная классификация также позволила применить метод Н.В. Хованова, к рандомизации неопределенности, содержащейся в информации, получаемой из ответов о последних событиях процесса, причем результат такой рандомизации допускает представление неопределенности в виде особого рода случайного элемента, что, в свою очередь, позволило соискателю применить классические приемы теории вероятности (вычисление разных моментов, например, математического ожидания и дисперсии вещественной функции от построенного случайного элемента) для расчета показателей кумулятивного риска, относительных частот, относительного кумулятивного риска, а также для вычисления характеристик разброса полученных оценок.

В развитие положений результатов работ A.B. Суворовой предложен способ формирования байесовских сетей доверия для расчета показателей абсолютного кумулятивного риска, а также относительных частот и относительного кумулятивного риска.

Наконец, разработан прототип комплекса программ, позволяющий вносить, хранить и обрабатывать информацию, используя полученные ответы на естественном языке с присущими им различными видами и степенями неполноты, несовершенства и недоопределенности.

Теоретическая и практическая значимость работы. Теоретическая значимость диссертационного исследования заключается в разработке математического и программного обеспечения нового метода получения оценок показателей скрытых от непосредственного наблюдения процессов по исходной, отличающейся гранулярностью и различными сочетаниями элементов информации о моменте регистрации, небольшом числе последних эпизодов,

интервалах, точек и некоторых видов интервалов, связанных с особыми порядковыми статистиками.

Данный метод необходим для разработки программного обеспечения, позволяющего обеспечить преобразование информации с описанным выше составом и особенностями и ее последующую обработку с помощью компьютерных технологий во многих отраслях научных исследований, в том числе таких, как общественное здоровье (public health), эпидемиология, анализ социальных сетей, психология поведения, психология труда, маркетинг и информационная безопасность.

Практическая значимость результатов настоящей диссертационной работы в маркетинговых исследованиях заключается в применении разработанного в диссертации метода к решению задач выделения группы потребителей, существенно различающихся интенсивностью потребления продуктов, товаров или услуг. Практическая значимость для медицины заключается в разработке инструментария, позволяющего оценивать частоту отклонения пациента от предписанного режима лечения. Практическая значимость в области информационной безопасности заключается в использование данного подхода для составления профиля уязвимостей пользователя для количественной оценки вероятности совершения пользователем информационной системы угрозообразующих действий при социоинженерной атаке.

Практическая значимость результатов работы в области эпидемиологии заключается в разработке альтернативного метода обработки информации при ее дефиците для оценок показателей процессов, ассоциированных с риском заразится, который в сравнении с эталонным методом когортного исследования, характеризующегося а) стоимостью 3-5 миллионов долларов, б) минимальной выборкой в тысячу человек, в) временными затратами в 2-3 года, г) чувствительностью к потерям (не более 10%), д) полученные результаты характеризуют ситуацию на момент начала исследования. Применение предложенного подхода ожидаемо даст следующий положительный эффект: а) затраты на уровне 10-15 тысяч долларов, б) минимальная выборка от 100 человек в) результаты применимы сразу после получения данных, г) нет потерь во время исследования, д) полученные результаты характеризуют текущее положение в отношении рассматриваемых показателей.

Кроме того, создан прототип комплекса программ, позволяющий специалистам из предметной области в простой и удобной форме получать сведения об интенсивности рискованного поведения, что, в свою очередь, позволяет им давать прогностические оценки кумулятивного риска, связанного с различными видами рискованного поведения, а также наблюдать динамику изменения рассматриваемых показателей.

Положения, выносимые на защиту

1. Классификация ответов, содержащих информацию в различных сочетаниях о небольшом числе последних событий процесса; выделены два особых класса, сформирована методика обработки ответов респондентов, предложен новый инструментарий, поддерживающий получение информации, со шкалой значений, учитывающей возможные варианты ответов;

2. Способ построения случайного элемента, агрегирующего исходную гранулярную информацию, который, таким образом, является пред-

ставлением полученной информации, одновременно учитывающим ее дефицит за счет использования рандомизации;

3. Модель для расчета оценок показателей процессов, ассоциированных с риском, на основе указанного выше случайного элемента;

4. Метод и алгоритмы синтеза байесовской сети доверия, агрегирующей полученную информацию и позволяющей вывести гранулярную оценку искомых показателей.

5. Прототип комплекса программ, реализующий предложенные в диссертации алгоритмы, поддерживающие обработку полученной информации и вычисление искомых оценок абсолютного кумулятивного риска, относительной частоты, относительного кумулятивного риска, и обеспечивающий проведение вычислительных экспериментов. Обоснованность и достоверность представленных в диссертационной работе научных положений обеспечивается за счет тщательного анализа состояния исследований в области оценки рискованного поведения и в смежных областях, корректность математических выкладок, подтверждается работоспособностью прототипа комплекса программ, реализующего алгоритмы, основанные на теоретических результатах, полученных в диссертационном исследовании.

Апробация результатов. Основные положения и результаты диссертационной работы докладывались на следующих научных и научно-практических конференциях: 13) Всероссийская научная конференция по нечетким системам и мягким вычислениям НСМВ-2006, НСМВ-2008, НСМВ-2009; 4-5) X, XI Санкт-Петербургская международная конференция «Региональная информатика - (РИ-2006, РИ-2008); 6) Всероссийская научно-практическая конференция "Социальное партнерство психологии, культуры, бизнеса и духовное возрождение России". Москва 2006; 7-8) Международная научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте». Коломна, 2007 г, 2009; 9-12) Научная конференция МИФИ-2007,2008,2010,2011; 13-14) V Санкт-Петербургская региональная конференция «Информационная безопасность регионов России, Санкт-Петербург (ИБРР-2007, ИБРР-2011); 15) Научно-практическая конференция студентов, аспирантов, молодых ученых и специалистов «Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте». Коломна-2009; 16) Международная конференция «Моделирование и анализ массовых событий в экономике и социуме» 2010; 17) VII Санкт-Петербургская межрегиональная конференция «Информационная безопасность регионов России (ИБРР-2011)», г. Санкт-Петербург, 2011г.; 18) 1-й Международный симпозиум «Гибридные и синергетические интеллектуальные системы: теория и практика», Калининградская обл., г. Светлогорск, 2012 г.; 19) С.П.И.С.О.К. - 2012: Материалы всероссийской научной конференции по проблемам информатики, г. Санкт-Петербург, 2012 г.; 20) VI Международная научно-техническая конференция молодых специалистов, аспирантов и студентов «Математическое и компьютерное моделирование естественнонаучных и социальных проблем», г. Пенза, 2012 г.; 21) XV Международная конференция по мягким вычислениям и измерениям. SCM-2012, г. Санкт-Петербург, 2012 г.; 22) Вторая Международная научно-практическая конференция "Социальный компьютинг, технологии развития, социально-гуманитарные эффекты" (ISC-13), г. Москва, 2013 г.

Кроме того, результаты диссертационного исследования докладывались на Санкт-Петербургском городском научном семинаре «Информатика и компьютерные технологии» в феврале 2006 года.

Исследования по тематике выполнялись в рамках проектов, поддержанных следующими грантами: в качестве исполнителя: 1) грант РФФИ на 2009-2011 гг., проект № 09-01-00861-а «Методология построения интеллектуальных систем поддержки при-

нятия решений на основе баз фрагментов знаний с вероятностной неопределенностью»; 2) грант РФФИ на 2012-2014 гг., проект № 12-01-00945-а «Развитие теории алгебраических байесовских сетей и родственных им логико-вероятностных графических моделей систем знаний с неопределенностью»; 3) грантом РГНФ «Взаимосвязь адаптивных стилей ВИЧ-инфицированных и степени рискованности их поведения» №07-06-00738а; 4) госконтрак № 2.442.11.7489, шифр 2006-РИ-19.0/001/209, на НИР «Психологическая защита и копинг-стратегии ВИЧ-инфицированных с точки зрения опасности для общественного здоровья»; 5) фантом СПбНЦ РАН на 2007 год «Моделирование и измерение количественных характеристик ВИЧ-рискованного поведения на основе обработки ответов респондентов» № 2-199; в качестве руководителя: 6) фант РФФИ на 2012 г., проект № 12-01-16031 -моб_з_рос «Научный проект "Вероятностно-нечеткостная модель социально-значимого поведения в случае неточных данных о его эпизодах, предшествующих интервью" для представления на научном мероприятии 1-й Международный симпозиум "Гибридные и синергетические интеллектуальные системы: теория и практика (ГИСИС'2012)"»; 7) фантом №02/2.1/17-03/48 (в 2007 году) Конкурса для студентов и аспирантов вузов и академических институтов, расположенных на территории Санкт-Петербурга «Оценка вероятности заражения ВИЧ-инфекцией на основе сведений о последних N эпизодах рискованного поведения, а также статистическое моделирова-ниё офаниченных указанных серий эпизодов»; 8-11) грантом для молодых ученых и кандидатов наук от Правительства Санкт-Петербурга в 2009г №25.05/027/27 «Разработка математических моделей, вычислительных алгоритмов и комплекса профамм для оценки интенсивности рискованного поведения в условиях дефицита информации», в 201 Ог № 10526 «Разработка математических моделей, алгоритмов и распределенного комплекса профамм для косвенной оценки рисков, связанных с уфозообразующим поведением», в 2011 г № 11421 «Разработка математических моделей и алгоритмов для идентификации интенсивности рискованного поведения на основе данных, содержащих систематическую ошибку, связанную с длительностью наблюдений», в 2012г «Разработка профаммного комплекса для идентификации интенсивности и производных параметров стохастических моделей рискованного поведения на основе неполных и неточных данных»

Публикации. По теме диссертации было сделано 52 публикации и приравненные к ним научные работы. Из них 11 статей (из которых 2 единоличных) в изданиях из «Перечня рецензируемых научных журналов и изданий для опубликования основных научных результатов», утвержденного ВАК, 1 монография в соавторстве, 29 статей и докладов на научных конференциях (из которых 3 единоличных), 16 тезисов научных конференций, 11 зарегистрированных программ ЭВМ и алгоритмов (5 — в РОСПАТЕНТе и 6 в ОФЭР-НиО/ЦИТиСе). В дополнение к перечисленному в материалы диссертационного исследования вошли в 5 прошедших госрегистрацию в ЦИТиС научных отчетов.

Личный вклад А.Е. Пащенко в основных публикациях с соавторами кратко характеризуется следующим образом: в публикациях [1, 12, 13, 14, 17, 18, 19] ему принадлежит подход, для получения информации о процессе, скрытом от непосредственного наблюдения, ассоциированном с риском, в условиях ее дефицита; в [6, 39] предложена практическая реализация предложенного метода к социо-инженерным атакам; в статьях [3, 12, 16, 22, 30, 35] рассмотрены подходы к агрегированию вербальные оценки показателей, и с другой стороны, подходы к обработке неопределенности, присущей таким оценкам; в [4, 9, 20, 25, 26, 29, 31, 34, 36, 37] автору принадлежит обзор методов косвенной оценки параметров процесса и представления неопределенности; в [5, 7, 8, 28, 33] предложен и описан подход характеризующий гранулярность исходных данных; в [10, 38] предложено развитие модели представления моделей скрытых от непосредственного наблюдения в виде байесовских

сетей доверия; в статьях [12, 15, 23, 24, 27] — описание программного комплекса реализующего методы, модели и алгоритмы для визуализации и анализа информации, обладающей гранулярностью, неполнотой, несовершенством и недоопределенностью. Более подробное описание личного вклада А.Е. Пащенко в совместных публикациях приведено в тексте диссертации.

Структура диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы из более, чем 180 наименований. Объем диссертации — 128 страниц. Глоссарий и свидетельства о регистрации программных продуктов и баз данных приведены в приложении.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность диссертационного исследования, описываются степень разработанности его темы, цели и задачи, объект и предмет исследования, методология и методы исследования, научная новизна, обоснованность и достоверность полученных результатов, теоретическая и практическая значимость исследования, а также апробация, приведены характеристики структуры диссертации.

В первой главе содержится обоснование целей и задач исследования, приведено описание современного состояния исследований в области получения и обработки информации с различными видами степеней неполноты, несовершенства, недоопределенности для дальнейшего построения оценок показателей, значимых для предметной области разработки компьютерных систем для поддержки принятия решений в эпидемиологии.

Кроме того описаны существующие методы и подходы к оценке интенсивности рискованного поведения (моделью которого выступают случайные процессы) в области эпидемиологии, как одной из основных областей применения результатов работы. В частности, Лайкерт-шкалы (например, «никогда, редко, иногда, часто, всегда») не позволяют получить количественные оценки. Также оказывается неработоспособным и инструментарий, использующий прямые вопросы (например, «сколько раз за последние полгода вы пили чай?»), поскольку его отличает низкая степень достоверности и невоспроизводимость.

Особое внимание уделено модели Белла и Тревино косвенных измерений кумулятивного риска заражения, в которой увязывается такой риск заражения и число эпизодов поведения (число событий процесса). Два основных уравнения модели имеют следующий вид (упрощенно):

п

1) Рг,.=1-(1-ЛУ\ 2) Pr = l-fJ(l-Pr,),

/=1

где Рг, — кумулятивный риск заразиться из-за участия в /-ом виде рискованного поведения известное число раз Nh р, —вероятность заразится за один эпизод /'-ого вида, Рг— общий кумулятивный риск заразиться с учётом всех принятых во внимание видов рискованного поведения; п — число видов рискованного поведения.

Вторая глава содержит результаты в части получения исходной информации: составлена классификация возможных ответов, выделены два особенных класса ответов, сформирована методика обработки ответов, предложен новый инструментарий для получения информации.

3) алгоритм обработки неопределенности — либо на основе весов, либо на основе квантилей.

4) кроме численных значений представлена графическая иллюстрация вычисленных оценок, и некоторых вспомогательных элементов, таких как графики плотностей вероятностных распределений.

Составные части программного комплекса были зарегистрированы в ОФЭРНиО и Роспатенте как программы для ЭВМ и база данных.

ЗАКЛЮЧЕНИЕ

Заключение содержит развернутые формулировки выносимых на защиту результатов диссертационной работы:

1. Составлена классификация ответов, содержащих информацию в различных сочетаниях о небольшом числе последних событий скрытых от непосредственного наблюдения процессов, выделены два особенных класса ответов, а именно: последовательные ответы и вложенные ответы; сформирована методика обработки ответов; а также инструментарий для получения информации о процессе, представленной в виде со шкалы значений, учитывающей возможные варианты ответов («закрытые вопросы» в виде формальной структурированной анкеты);

2. Предложен метод формирования случайного элемента, агрегирующего гранулярную исходную информацию о процессе. Такой случайный элемент является теоретико-вероятностной моделью, представляющей исходную информацию и учитывающей дефицит информации за счет использования рандомизации. Кроме того, полученный случайный элемент составляет основу для вычислений количественных оценок показателей процесса (относительной частоты процесса, абсолютного и относительного кумулятивного риска), а также характеристик разброса таких оценок;

3. Разработаны модели и методы для расчета оценок искомых показателей процессов, ассоциированных с риском, на основе указанного выше случайного элемента; причем в формировании таких оценок применен адаптированный метод Н.В. Хованова рандомизации неопределенности;

4. Предложен метод и алгоритмы синтеза байесовской сети доверия (указана их структура, а также приведены способы расчета вероятностей в узлах), которые агрегируют полученную гранулярную информацию о процессах и позволяют получить гранулярную оценку искомых показателей (распределения вероятностей над дискретизированными оценками значений искомых показателей процесса);

5. На основе компьютерных технологий реализованы в прототипе комплекса программ модели и методы анализа различных сочетаний исследуемых элементов информации. Разработаны алгоритмы вычисления агрегированных оценок абсолютного и относительного кумулятивного риска и относительной частоты процессов, ассоциированных с риском, причем указанные алгоритмы позволяют обрабатывать гранулярность исходной информации.

Все поставленные задачи исследования решены, таким образом, установленная цель достигнута.

СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ АВТОРОМ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи, опубликованные в изданиях из «Перечня рецензируемых научных журналов и изданий для опубликования основных научных результатов»

1. Пащенко А.Е., Тулупьев А.Л., Николенко С.И. Моделирование заражения ВИЧ-инфекцией на основе данных о последних эпизодах рискованного поведения. // Известия высших учебных заведений: Приборостроение. 2006. №8. С. 33-34.

2. Пащенко А.Е. Идентификация интенсивности пуассоновского процесса, моделирующего поведение респондента, в условиях дефицита информации. Информационно-измерительные и управляющие системы. 2009. Na 4. т. 7, С. 45-48.

3. Тулупьева Т.В., Пащенко А.Е., Тулупьев А.Л., Голянич В.М. Модели ВИЧ-рискованного поведения в контексте психологической защиты и адаптации // Вестник СПбГУ. 2010. Серия 12. Вып. 1. С. 95-104

4. Пащенко А.Е., Тулупьев А.Л., Тулупьева Т.В., Красносельских Т.В., Соколовский Е.В. Косвенная оценка вероятности заражения ВИЧ-инфекцией на основе данных о последних эпизодах рискованного поведения II Здравоохранение Российской Федерации. 2010. №2. С. 32-35.

5. Суворова A.B., Тулупьев А.Л., Пащенко А.Е., Тулупьева Т.В., Красносельских Т.В. Анализ гранулярных данных и знаний в задачах исследования социально значимых видов поведения // Компьютерные инструменты в образовании. №4. 2010. С. 30-38.

6. Ванюшичева О.Ю., Тулупьева Т.В., Пащенко А.Е., Тулупьев А.Л., Азаров A.A. Количественные измерения поведенческих проявлений уязвимостей пользователя, ассоциированных с социоинженерными атаками. // Труды СПИИРАН. 2011. Вып. 19. С. 34—47.

7. Зельтерман Д., Тулупьев А.Л., Суворова A.B., Пащенко А.Е., Мусина В.Ф., Тулупьева Т.В., Красносельских Т.В., Гро Л., Хаймер Р. Обработка систематической ошибки, связанной с длиной временных интервалов между интервью и последним эпизодом в гамма-пуассоновской модели поведения II Труды СПИИРАН. 2011. Вып. 16. С. 160-185.

8. Зельтерман Д., Суворова A.B., Пащенко А.Е., Мусина В.Ф., Тулупьев А.Л., Тулупьева Т.В., Гро Л.Е., Хаймер Р. Диагностика регрессионных уравнений в анализе интенсивности рискованного поведения по его последним эпизодам // Труды СПИИРАН. 2011. Вып. 17. С. 33-46.

9. Суворова A.B., Лавренов A.B., Тулупьева Т.В., Тулупьев А.Л., Пащенко А.Е. Моделирование социально-значимого поведения респондентов: аналитическая и численная оценки интенсивности в окрестности интервью при информационном дефиците // Труды СПИИРАН. 2012. Вып. 1 (20). С. 101-115.

10. Суворова A.B., Тулупьева Т В., Тулупьев А.Л., Сироткин A.B., Пащенко А.Е. Вероятностные графические модели социально-значимого поведения индивида, учитывающие неполноту информации II Труды СПИИРАН. 2012. Вып. 3 (22). С. 101-112.

11. Пащенко А.Е. Применение байесовских сетей доверия для расчета относительных оценок интенсивности процессов, ассоциированных с риском, в условиях информационного дефицита // Труды СПИИРАН. 2013. Вып. 8 (31). С. 157-171.

Монография

12. Тулупьева Т.В., Пащенко А.Е., Тулупьев А.Л., Красносельских Т.В., Казакова О.С. Модели ВИЧ-рискованного поведения в контексте психологической защиты и других адаптивных стилей. СПб.: Наука, 2008.140 с.

Научные статьи и доклады, опубликованные в других изданиях

13. Пащенко А.Е., Тулупьев А.Л., Николенко С.И. Статистическая оценка вероятности заражения ВИЧ-инфекцией на основе данных о последних эпизодах рискованного поведения // Труды СПИИРАН. Вып. 3, т. 2. СПб.: Наука, 2006. С. 257-268.

14. Николенко С.И., Пащенко А.Е., Тулупьев А.Л. Косвенная оценка вероятности заразиться ВИЧ-инфекцией на основе нечетких ответов о последних эпизодах рискованного поведения И Всероссийская научная конференция по нечетким системам и мягким вычислениям НСМВ-2006 (20 - 22 сентября 2006 г.). Труды. Тверь,2006. С. 358-374.

43. Тулупьев АЛ., Пащенко А.Е., Чурикова Ю.А Система моделирования выборки респондентов с заданным соотношением психологических и социо-демофафических особенностей (информационная карта, свидетельство). № госуд. регистрации 50200900873 от 05.08.2009 (информационная карта алгоритмов и программ ЦИТиС).. Свид. об отраслевой регистрации электронного ресурса, отвечающего требованиям новизны и приоритетности, (ОФЭРНиО ИИО ГАН РАО) № 00100 от 16.07.2009.

44. Пащенко АЕ., Суворова АВ., Тулупьев А.Л. Профамма для расчёта нечётких оценок интенсивности угрозообразующего поведения и риска, с ним связанного, Fuzzy Risk-&-Rate Calculator (F.R.-&-R.C.). Роспатент. Свид. о гос. регистрации программы для ЭВМ № 2009614649 от 31.08.2009.

45. Тулупьев АЛ., Суворова А.В., Пащенко АЕ. JSP-сервер удаленного доступа к системе для оценки интенсивности поведения респондента на основе неточных и неполных сведений о его последних эпиходах ZZ Свид. о регистрации электронного ресурса, отвечающего требованиям новизны и приоритетности, (ОФЭРНиО ИИО ГАН РАО) № 15762 от 20.05.2010.

46. Тулупьев А.Л., Суворова А.В., Пащенко А.Е. База данных для хранения оценок интенсивности и сведений о последних эпизодах поведения респондентов ZZ Свид. о регистрации электронного ресурса, отвечающего требованиям новизны и приоритетности, (ОФЭРНиО ИИО ГАН РАО) № 15763 от 20.05.2010.

47. Тулупьев А.Л., Суворова АВ., Пащенко А.Е. Автоматизированное рабочее место эксперта для внесения сведений о поведении респондентов и расчета оценок его интенсивности (с локальным доступом к базе данных) ZZ Свид. о регистрации электронного ресурса, отвечающего требованиям новизны и приоритетности, (ОФЭРНиО ИИО ГАН РАО) № 15764 от 20.05.2010.

48. Тулупьев А.Л., Суворова А.В., Пащенко АЕ. Программа для учёта неточных сведений об угрозообразующем поведении Fuzzy Data Register for Risky Behavior, Version 1 (F.D.R.R.B. v. 1) ZZ Роспатент. Свид. о гос. per. прогр. для ЭВМ № 2010613161 от 14.05.2010.

49. Тулупьев А.Л., Суворова А.В., Пащенко А.Е. База данных неточных ответов респондентов об участии в уфозообразующем поведении Fuzzy Answers on Risky Behavior Data Base, Version 1 (F.A.R.B.ZDB v. 1) ZZ Роспатент. Свид. о гос. per. проф. для ЭВМ № 2010620275 от 14.05.2010.

50. Тулупьев А.Л., Суворова А.В., Пащенко АЕ. Профамма для расчёта нечётких оценок интенсивности уфозообразующего поведения и риска, с ним связанного, Fuzzy Risk-&-Rate Calculator, Version 2(F.R.-&-R.C. v.2) ZZ Роспатент. Свид. о гос. per. прогр. для ЭВМ № 2010614267 от 30.06.2010.

51. Тулупьев А.Л., Суворова А.В., Пащенко А.Е. Программа для идентификации параметров интенсивности и риска в условиях неопределенности на основе рекордных порядковых статистик в моделях угрозообразующего поведения Record-Based Uncertain Risk-&-Rate Calculator (R.B.U.R.-&-R.C.) ZZ Роспатент. Свид. о гос. per. прогр. для ЭВМ № 2010614266 от 30.06.2010.

52. Тулупьев А.Л., Суворова А.В., Пащенко А.Е. Интеллектуальная система для поддержки принятия решений экспертов по оценке поведения респондентов на основе сведений о максимальном и минимальном интервалах между эпизодами указанного поведения ZZ Свид. о регистрации электронного ресурса, отвечающего требованиям новизны и приоритетности, (ОФЭРНиО ИИО ГАН РАО) № 15765 от 20.05.2010.

Подписано в печать 27.11.2013 г. Формат А5. Цифровая печать. Заказ 11/214. Объем 1 пл. Тираж 200 экз. Отпечатано в ЦОП «Копировальный центр «Василеостровсшй» 199000, Россия, г. Санкт-Петербург, В.О., 6-я линия, д. 29. тел. (812) 702-80-90, факс: 328-61-84 e-mail: vs@copy.spb.rn

Текст работы Пащенко, Антон Евгеньевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук

04201452858

Пащенко Антон Евгеньевич

ВЕРОЯТНОСТНЫЕ ГРАФИЧЕСКИЕ МОДЕЛИ И АЛГОРИТМЫ ОБРАБОТКИ НЕЧИСЛОВОЙ, НЕТОЧНОЙ И НЕПОЛНОЙ ИНФОРМАЦИИ ДЛЯ ОЦЕНКИ КУМУЛЯТИВНОГО РИСКА

05.13.01 - Системный анализ, управление и обработка информации

ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук

Научный руководитель: доктор физико-математических наук, доцент ТУЛУПЬЕВ Александр Львович

На правах рукописи

Санкт-Петербург 2013

Оглавление

Оглавление...............................................................................................................2

Введение...................................................................................................................4

Глава 1. Современное состояние исследуемой области....................................15

Введение................................................................................................................................................15

§ 1.1. Способы измерения рисков заражения в эпидемиологии.....................................................15

§ 1.2. Методы косвенной оценки интенсивности рискованного поведения и вероятности заражения ВИЧ-инфекцией.................................................................................................................21

§ 1.3. Модель Белла-Тревино.............................................................................................................23

§ 1.4. Оценивание показателей скрытых от непосредственного наблюдения процессов............25

Глава 2. Получение исходной информации........................................................36

Введение................................................................................................................................................36

§ 2.1. Практическая апробация метода сбора и хранения информации, полученной на естественном языке..............................................................................................................................36

§ 2.2. Классы ответов респондентов...................................................................................................37

§ 2.3. Обобщенная классификация ответов.......................................................................................39

§ 2.4. Инструкция по экспертной классификации ответов респондентов о последних эпизодах их участия в рискованном поведении.....................................................................................................41

§ 2.5. Новый инструментарий для получения информации.............................................................44

Глава 3. Обработка информации..........................................................................52

Введение................................................................................................................................................52

§ 3.1. Гранулярность исходных данных..............................................................................................52

§ 3.2. Рандомизация величины временного интервала...................................................................54

§ 3.3. Оценка методом максимального правдоподобия..................................................................59

§ 3.4. Арифметизация неопределенности..........................................................................................62

§ 3.5. Вычислительные процедуры для практической реализации гранулярности исходных данных...................................................................................................................................................66

§ 3.6. Модель на основе байесовской сети доверия. Байесовские сети доверия и отношение рисков....................................................................................................................................................81

Глава 4. Компоненты прототипа комплекса программ...................................100

Введение..............................................................................................................................................100

§ 4.1. Структура базы данных............................................................................................................101

§ 4.2. JSP-сервер удаленного доступа к системе для оценки параметров процессов..................102

§ 4.3. Автоматизированное рабочее место эксперта для внесения сведений о параметрах процесса..............................................................................................................................................104

§ 4.4. Интеллектуальная система для поддержки принятия решений экспертов.......................108

Заключение...........................................................................................................112

Список литературы..............................................................................................115

Приложение А. Свидетельства о регистрации программ для ЭВМ...............129

Приложение В. Акты о внедрении.....................................................................139

Введение

В настоящее время междисциплинарные многосторонние проблемы получения и обработки информации с различными видами и степенями неполноты, несовершенства и недоопределенности для последующего построения с помощью компьютерных технологий оценок показателей существенных для предметной области процессов являются одними из самых значимых, наличествуют и остаются нерешенными в широком спектре отраслей научных исследований, в том числе таких, как общественное здоровье (public health), эпидемиология, анализ социальных сетей, психология поведения, психология труда, маркетинг и информационная безопасность.

Общий принцип решения таких проблем — построение (зачастую с использованием гибридного подхода), исследование и обработка данных и знаний с неопределенностью с помощью комбинированных методов теории вероятности, статистического анализа данных, компьютерного моделирования, искусственного интеллекта. Существующие способы построения агрегированных показателей, характеристик и индексов на основе рандомизации, необходимой для учета неопределенности доступной информации, с последующим исследованием их свойств методами теории вероятности и математической статистики нуждаются в уточнении и адаптации практически в случае каждого конкретного класса задач предметной области при всех возможных сочетаниях элементов исходной информации.

Не является исключением из этого вывода и задача оценивания показателей скрытых от непосредственного наблюдения процессов (например, таких показателей как кумулятивный риск и относительная частота), о которых доступны в различных сочетаниях лишь сведения об интервалах между небольшим числом последних событий и моментом их регистрации, наблюдения, опроса, а также сведения о некоторых видах интервалов (между последовательными событиями), связанных с особыми порядковыми статистиками: максимальной, минимальной, медианной или другими. Причем такие сведения отличаются нечеткостью, либо, скорее, гранулярностью, поскольку содержатся в совокупности высказываний на естественном языке.

Настоящая диссертационная работа концентрируется на оценке (при указанных видах информационного дефицита) показателей процессов, события которых распределены согласно пуассоновской модели случайного процесса. В классическом подходе ключевым искомым показателем такого процесса вполне обоснованно выступает его интенсивность. Однако интерес представляют также такие производные показатели, как кумулятивный риск, ассоциированный с этим процессом, а также относительные показатели частоты событий процесса и кумулятивного риска в заданный интервал времени.

Вместе с тем, такие задачи как получение, анализ и обработка описанных выше сведений, усовершенствование инструментария для приобретения информации, представление гранулярности исходных элементов информации, учет влияния этой гранулярности на агрегированную оценку показателей, а также разработка метода, основанного на синтезе случайных элементов, обработки неопределенности исходной информации за счет рандомизации этой неопределенности, решены именно в работах соискателя и обусловили, таким образом, теоретическую составляющую актуальности темы данного исследования.

Практический же аспект актуальности темы диссертации состоит в том, что полученные результаты будут непосредственно востребованы в подготовке и организации процедуры и в самой процедуре получения и обработки информации, в том числе и экспертной информации, приобретаемой в ходе интервью и опросов респондентов по поводу их рискованного, угрозообразующего или просто значимого поведения, а также в ходе интервьюирования экспертов-исследователей указанных видов поведения. Важным частным случаем, а также ключевым мотивирующим и иллюстрирующим примером такого поведения в настоящей работе выступает поведение респондентов, ассоциированное с риском приобретения и (или) передачи ВИЧ-инфекции, акцентирующим собой непосредственную практическую значимость и актуальность настоящего диссертационного исследования.

Степень разработанности.

Исследование нечетких временных рядов является смежной, наиболее близкой областью по отношению к тематике настоящей диссертации. Подходы к исследованию таких рядов развиваются Н.Г. Ярушкиной, С.М. Ковалевым. Но при этом существует ряд принципиальных отличий, заключающихся в неприспособленности

методов анализа нечетких временных рядов к сверхкоротким временным рядам, а также к добавлению к классической модели дополнительных элементов информации и учету их влияния на классическую модель и формирующиеся на ее основе оценки. Следует отметить, что обрабатываемые (получаемые) данные и знания обладают неопределенностью, причем эта неопределенность может быть представлена с помощью вероятностных моделей, а в такой постановке изучаемая проблема близка к тематике, посвященной приложениям логико-вероятностных моделей к задачам теории надежности структурных сложных систем, рассматриваемых, в частности, в работах И.А. Рябинина, Е.Д. Соложенцева, A.C. Можаева. Кроме того, вопросам обработки и представления неопределенности данных и знаний посвящены работы таких зарубежных и российских авторов, как J. Fagin, К. Korb, L. Zadeh, Д.А. Поспелов, В.Б. Тарасов, В.Н. Вагин, А.С.Нариньяни и др. Рассматриваемая проблема относится, в том числе и к задачам разработки интеллектуальных систем принятия решений, решаемым в работах H.H. Моисеева, Г.В. Рыбиной, Г.С. Осипова, B.JI. Стефанюка. Предлагаемые алгоритмы используют адаптированные к предметной области принципы, близкие к тем, на которых основаны метод синтеза агрегированных показателей в условиях дефицита информации (Н.В. Хованова), теория количественной важности критериев в многокритериальных задачах принятия решений (В.В. Подиновский), а также используют аппарат вероятностных графических моделей (J. Pearl, В.И. Городецкий).

Кроме того, ряд исследований по близким тематикам ведется в лаборатории, где выполнялась диссертация. В работах Суворовой A.B. предложена модель, учитывающая особенности обработки информации об интервалах между последним эпизодом и моментом интервью; для данной модели предложен подход к обработке особой систематической ошибки (length bias) при анализе данных о последнем эпизоде; разработана и специфицирована байесовская сеть доверия, позволяющая формировать апостериорную оценку распределения случайного элемента, характеризующего абсолютную интенсивность исследуемого процесса. В работах Т.В. Ту-лупьевой сведения о последних эпизодах и рекордных интервалах использовались в прикладных задачах психологических исследований, нацеленных на выявление норм интенсивности различного вида поведения, связей показателей поведения как процесса со степенью выраженности психологических особенностей личности. В

работах A.A. Азарова модель используется в задаче анализа поведения пользователей с точки зрения реализации угроз при социоинженерных атаках.

Объект диссертационного исследования— представление и обработка информации с различными видами и степенями неполноты, несовершенства и недо-определенности о скрытых от непосредственного наблюдения процессах, ассоциированных с риском.

Предмет исследования — с одной стороны, модели для представления исходной информации, отличающейся гранулярностью, о небольшом числе последних событий пуассоновского процесса, а также об особых показателях, связанных с порядковыми статистиками: максимальной и минимальной; а с другой стороны, метод оценивания, базирующиеся на указанных моделях, агрегированных показателей процессов: абсолютной величины кумулятивного риска, относительных частот и относительного кумулятивного риска в заданный интервал времени.

Цель исследования — повысить оперативность расчета агрегированных оценок показателей скрытых от непосредственного наблюдения процессов (абсолютной величины кумулятивного риска, относительных частот и относительного кумулятивного риска в заданный интервал времени) за счет применения менее время-затратных методов получения информации и автоматизации ее обработки, используя особым образом построенные случайные элементы и байесовские сети доверия (как вид вероятностных графических моделей). При этом предполагается, что такая информация отличается гранулярностью и различными сочетаниями элементов о моменте регистрации, о небольшом числе последних эпизодов, интервалов, точек, а также некоторых видов интервалов, связанных с особыми порядковыми статистиками.

Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:

• Разработка инструментария для получения информации о процессе, скрытом от непосредственного наблюдения и ассоциированном с риском, в условиях ее дефицита (доступность различных сочетаний сведений в вербальной форме о небольшом числе последних событий процесса и рекордных интервалах между последовательными событиями);

• Разработка теоретико-вероятностной модели, позволяющей, с одной стороны, агрегировать вербальные оценки показателей скрытых от непосредственного наблюдения процессов, ассоциированных с риском, а с другой стороны, обрабатывать неопределенность, присущую таким оценкам;

• Разработка на основе предложенной модели метода и алгоритмов для формирования оценок интенсивности процессов, ассоциированных с риском, и характеристик разброса таких оценок, обусловленного информационным дефицитом;

• Обеспечение учета гранулярности как исходной информации, так и ожидаемых результатов ее обработки в моделях на основе байесовских сетей доверия для формирования гранулярных оценок показателей (абсолютного кумулятивных риска, относительной частоты, относительного кумулятивного риска);

• Реализация на основе компьютерных технологий полученных методов, моделей и алгоритмов визуализации и анализа различных сочетаний описанных выше элементов информации для автоматизации расчета на их основе агрегированных оценок искомых показателей процессов, ассоциированных с риском.

Теоретическая и практическая значимость работы. Теоретическая значимость диссертационного исследования заключается в разработке математического и программного обеспечения нового метода получения оценок показателей скрытых от непосредственного наблюдения процессов по исходной, отличающейся гранулярностью и различными сочетаниями элементов информации о моменте регистрации, небольшом числе последних эпизодов, интервалах, точек и некоторых видов интервалов, связанных с особыми порядковыми статистиками.

Данный метод необходим для разработки программного обеспечения, позволяющего обеспечить преобразование информации с описанным выше составом и особенностями и ее последующую обработку с помощью компьютерных технологий во многих отраслях научных исследований, в том числе таких, как общественное здоровье (public health), эпидемиология, анализ социальных сетей, психология поведения, психология труда, маркетинг и информационная безопасность.

Практическая значимость результатов настоящей диссертационной работы в маркетинговых исследованиях заключается в применении разработанного в диссертации метода к решению задач выделения группы потребителей, существенно различающихся интенсивностью потребления продуктов, товаров или услуг. Практическая значимость для медицины заключается в разработке инструментария, позволяющего оценивать частоту отклонения пациента от предписанного режима лечения. Практическая значимость в области информационной безопасности заключается в использование данного подхода для составления профиля уязвимостей пользователя для количественной оценки вероятности совершения пользователем информационной системы угрозообразующих действий при социоинженерной атаке.

Практическая значимость результатов работы в области эпидемиологии заключается в разработке альтернативного метода обработки информации при ее дефиците для оценок показателей процессов, ассоциированных с риском заразится, который в сравнении с эталонным методом когортного исследования, характеризующегося а) стоимостью 3-5 миллионов долларов, б) минимальной выборкой в тысячу человек, в) временными затратами в 2-3 года, г) чувствительностью к потерям (не более 10%), д) тем, что полученные результаты характеризуют ситуацию на момент начала исследования. Применение предложенного подхода ожидаемо даст следующий положительный эффект: а) затраты на уровне 10-15 тысяч долларов, б) минимальная выборка от 100 человек в) результаты применимы сразу после получения данных, г) нет потерь во время исследования, д) полученные результаты характеризуют текущее положение в отношении рас�