автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Моделирование эмоциональных реакций пользователя при речевом взаимодействии с автоматизированной системой
Автореферат диссертации по теме "Моделирование эмоциональных реакций пользователя при речевом взаимодействии с автоматизированной системой"
На правах рукописи
РОЗАЛИЕВ ВЛАДИМИР ЛЕОНИДОВИЧ
Моделирование эмоциональных реакций пользователя при речевом взаимодействии с автоматизированной
системой
05.13.01 - Системный анализ, управление и обработка информации (промышленность)
5 ^п
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Волгоград - 2009
003482491
Работа выполнена в Волгоградском государственном техническом университете на кафедре "Системы автоматизированного проектирования и поискового конструирования".
Научный руководитель доктор технических наук, профессор
Заболеева-Зотова Алла Викторовна.
Официальные оппоненты: доктор технических наук, профессор
Ковалев Сергей Михайлович, доктор технических наук, профессор Ярушкина Надежда Глебовна.
Ведущая организация Таганрогский технологический институт
Южного федерального университета
Защита состоится 26 ноября в 14 часов на заседании диссертационного совета Д 212.028.04 в Волгоградском государственном техническом университете по адресу: 400005, г. Волгоград, пр. В. И. Ленина, 28, ауд. 209.
С диссертацией можно ознакомиться в библиотеке Волгоградского государственного технического университета.
Автореферат разослан 26 октября 2009 года.
Ученый секретарь
диссертационного совета
Водопьянов В.И.
ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследования.
В последние годы пристальное внимание уделяется вопросам обработки информации и принятия решений при человеко-компьютерном взаимодействии. Эффективность данного процесса во многом зависит от качества распознавания информации, поступающей от пользователя автоматизированной системы и целенаправленности воздействия человека на объекты исследования. Достижение цели диалогового взаимодействия ЭВМ и пользователя возможно при учете большинства аспектов, характеризующих речевые потоки, возникающие в процессе общения.
Одним из направлений повышения качества обработки информации является определение эмоциональных реакций человека. Компании Nokia, Siemens, Philips, понимая особую важность передачи эмоциональных реакций, включили такую возможность в опытные образцы своих решений. На современном этапе развития информационных технологий разработка методов автоматического определения эмоциональных реакций человека по голосу является актуальной задачей, позволяющей решить ряд экономических, социальных, бытовых проблем и играющей важную роль в вопросах безопасности.
Эмоциональный речевой сканер необходим в транспортных компаниях и диспетчерских службах для автоматизированного введения ограничений или полного запрета доступа к выполнению служебных обязанностей лиц, находящихся в неустойчивом или неадекватном эмоциональном состоянии. Подобные системы контроля позволят проводить дополнительную проверку пассажиров авиарейсов в рамках мероприятий по противодействию терроризму.
В применении компьютерного распознавания речи и определении ее эмоциональности в первую очередь заинтересованы компании, внедряющие роботизированные системы в повседневную жизнь людей, а также компании, работающие с большим числом клиентов и желающие перейти на новый уровень общения с ними. Эффективное общение на естественном языке должно сыграть важную роль в мультимедийном обществе будущего с лёгкими в обращении интерфейсами «человек-машина». Применение таких интерфейсов, оставляющих у клиентов ощущение удобства и удовлетворенности при получении информации или услуг в режиме самообслуживания, позволит уже сейчас, при достигнутом качестве работы распознавателей, создать социально значимые системы, внедрение которых сделает доступ населения к услугам и данным более дешевым, удобным и круглосуточным.
Одним из источников определения эмоциональных реакций является речь. Русский язык содержит около 40% эмоционально окрашенных слов. Кроме того, эмоции кодируются определенными акустическими параметрами в речевом сигнале. Понимание этих особенностей акустического кодирования эмоций позволит понять сам механизм восприятия эмоций и их выражения. Основной вклад в изучение эмоций внесли: 3. Фрейд, Ч. Дарвин, Г. Спенсер,
Т. Рибо, У. Джеймс, К. Ланге, У. Кэннон, Ф. Бард, JI. Фестингер, К. Изард, Р. Лазарус, А.Н. Леонтьев, П.В. Симонов, Е.П. Ильин, И.Б. Фоминых. В работах Е.Ю. Мягковой, А. Вежбицкой описаны теоретическая и практическая значимость изучения эмоций как феноменов человеческого сознания в рамках современной когнитивной лингвистики. В работах Ю.С. Степанова, Н.Ф. Дорофеевой рассмотрены основные эмоциональные концепты. Ю.Д. Апресяном проанализированы семантические типы «эмоциональных» метафор (физиологические, когнитивные, культурные) в аспекте выявления характера соответствия между объектом (эмоции) и источником метафоризации (физические состояния). П.К. Анохиным и его учениками рассмотрена физиология эмоций.
Изучение речевых сигналов проводились многими исследователями. Наибольший вклад в теорию внесли Г. Фант, Н.В. Витт, В.К. Вилюнас, Л.А. Чистович, A.A. Пирогов, H.H. Акинфиев, Ю.Н. Плотников, В.Н. Сорокин и др. Экспериментальные исследования были выполнены H.A. Дубровским, Н.Г. Бибиковым, Г.С. Ромишвили, Н.Г. Загоруйко, М.В. Фроловым, В.И. Морозовым, В.Р. Женило и др. Однако, несмотря на большое число работ и проведенных исследований в области распознавания эмоциональных реакций по речи, ряд проблем все еще остаются нерешенными и многие идеи требуют дальнейшего развития. Так, программы, работающие с изолированными словами, достигли высокой точности в командных системах, в то же время задача распознавания слитной речи, несмотря на множество работ посвященных этому вопросу (ИПУ РАН, «Истра-Софт», IBM), в достаточной степени не решена. Хотя для случая ограниченного словаря системы такого типа существуют (VoxReports на ядре ViaVoice, Verbmobil) и показывают высокие результаты по точности. Одним из ограничений создания системы, способной со 100% точностью распознать слитную речь является наличие эмоциональности.
Таким образом, в результате практического рассмотрения и анализа существующих моделей определения эмоциональных реакций по речи выявляется необходимость их модификации и создания новых методов. Данное исследование важно для повышения эффективности распознавания речи, а повсеместное внедрение роботов делает результаты данной работы важными для повышения эффективности взаимодействия человека и машины.
Цель и задачи исследования. Цель диссертационной работы заключается в повышении эффективности обработки информации и принятия решений при человеко-компьютерном взаимодействии за счет автоматизации определения эмоциональных реакций по речевому потоку.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Определить понятия «эмоциональное реагирование», «эмоциональный тон», «эмоция» на основе анализа существующих теорий эмоций. Проанализировать современные методы определения эмоционального реагирования и методы формального представления эмоциональных реакций. Выделить недостатки современных систем распознавания речи в части определения эмоциональных реакций. Проанализировать возможность
существования аналогии между эмоциональным реагированием и иммунным ответом организма. Провести анализ иммунологических методов и алгоритмов.
2. Разработать методику определения эмоционального реагирования по речи человека, позволяющую повысить эффективность обработки информации и принятия решений при человеко-компьютерном взаимодействии.
3. Разработать и исследовать модель эмоционального реагирования, основанную на применении иммунологического подхода и нечеткого вывода.
4. Разработать алгоритмическое обеспечение определения эмоционального реагирования по речи человека. Реализовать разработанные формализмы, методику и алгоритмы в виде отдельных модулей, автоматизирующих определение эмоциональных реакций.
5. Провести исследование эффективности разработанного алгоритмического и программного обеспечения при определении различных эмоциональных реакций пользователя автоматизированного са11-центра.
Объектом исследования является речевой поток при различных эмоциональных реакциях.
Предметом исследования являются эмоциональные реакции человека.
Методы исследования. В диссертации использованы методы системного анализа, математического моделирования, иммунных систем, теории алгоритмов, цифровой обработки сигналов, теории нечетких множеств и нечетких продукционных моделей, речеобразования, языков программирования и реляционных баз данных. Разработка программных и информационных средств произведена на основе современных принципов построения программных систем.
Научная новизна состоит в следующем:
Разработаны модели и методы оценки эмоциональных реакций человека по речевому потоку, позволяющие повысить эффективность обработки информации и принятия решений при человеко-компьютерном взаимодействии:
1) Предложена и разработана методика определения знака эмоционального тона по речи: на первом уровне выделяются акустические параметры и по экспериментально полученной функциональной зависимости определяется знак эмоциональной реакции; на втором уровне выделяются слова, характеризующие эмоциональные реакции; на третьем уровне выделяются характеристики фонем четырех гласных звуков и лингвистические переменные, затем на основе нечеткого вывода определяется эмоциональная реакция.
2) Впервые модель эмоционального тона представлена в виде гибридной модели, основанной на применении иммунологического подхода и системы нечетких продукций.
3) Разработана модель построения эмоции человека на основе применения алгебры и дерева эмоций Фоминых И.Б. к описанию эмоциональных тонов.
Положения, выносимые на защиту:
1. Методика определения знака эмоционального тона по речи.
2. Гибридная модель эмоционального тона, построенная с применением иммунного подхода и нечеткого вывода.
3. Функциональная зависимость между акустическими параметрами речи и эмоциональным тоном.
4. Алгоритм построения нечетких продукций по акустическим параметрам и лингвистическим переменным и вывода по ним значения эмоционального тона.
5. Модель эмоций человека, построенная с применением алгебры и дерева эмоций Фоминых И.Б.
Практическая ценность работы заключается в следующем:
1. Разработанная методика определения эмоциональных реакций по речи позволяет получить знак эмоционального тона, что помогает отслеживать изменения отношения людей к происходящим событиям. Это дает возможность автоматизированной системе эффективно и своевременно реагировать на изменения в состоянии человека, устраняя негативные последствия взаимодействия.
2. Предложенные функциональные зависимости между акустическими параметрами и эмоциональными реакциями важны для повышения эффективности распознавания речи.
3. В результате внедрения методики определения знака эмоциональных реакций и модели эмоционального тона, основанной на гибридизации иммунологического подхода и нечетких продукций, повышается эффективность обработки информации при человеко-компыотерном взаимодействии. Это дает возможность компьютеризированным системам гибко подстраиваться под эмоциональные реакции человека, увеличивая тем самым свои конкурентные преимущества.
4. Разработанная модель построения эмоции человека на основе применения алгебры и дерева эмоций Фоминых И.Б. позволяет находить и описывать эмоции, образованные различными эмоциональными тонами, для которых не существует литературного описания.
Достоверность полученных результатов подтверждается теоретическим обоснованием разработанных подходов, а также результатами исследований созданного программного обеспечения.
Алгоритмическое обеспечение определения и моделирования эмоциональных реакций внедрено в ЭКЦ при ГУВД Волгоградской области, ЗАО «Волгоград-GSM» ТМ СМАРТС, ВолгГТУ.
Апробация работы. Основные положения и результаты работы докладывались и обсуждались на: V-ой и VI-ой международных научно-методических конференциях: "Дистанционное обучение - образовательная среда XXI века" (Белоруссия, г. Минск, 10-11 ноября 2005-2007г.); XVIII и XIX международных Интернет-ориентированных конференциях молодых ученых и студентов по современным проблемам машиноведения (МИКМУС-2006, -2007) (г. Москва, 27-29 декабря 2006 г., 5-7 декабря 2007 г.); VI-ой, VII, VIII, IX международных научно-технических конференциях "Интеллектуальные системы (AIS'06'07'08'09). Интеллектуальные САПР (CAD-2006'07'08'09)" (Россия, Черноморское побережье, Дивноморское, 3-10 сентября 2006-2009 г.); XI-ой региональной конференции молодых исследователей Волгоградской области (г. Волгоград, 8-11 ноября 2006 г.); IX международной научно-
6
практической конференции "Interactive Systems and Technologies: The Problems of Human-Computer Interaction" (г. Ульяновск, 24-28 сентября 2007 г.); 8th International Conference "Pattern Recognition and Image Analysis: New Information Technologies" (PRIA-8-2007) (г. Йошкар-Ола, 8-12 октября 2007 г.); XXXIV международной конференции и дискуссионном научном клубе "Информационные технологии в науке, образовании, телекоммуникациях и бизнесе (IT+SE'07)" (Украина, г. Ялта, 2007 г.); VII-ой международной конференции "Информационные технологии в образовании, медицине и технике" (г. Волгоград, 2007 г.); "Научной сессии МИФИ-2007-2008: Технологии разработки программных систем. Информационные технологии" (г. Москва, 2007-2008 гг.); V-ой международной научно-практической конференции "Интегрированные модели и мягкие вычисления в искусственном интеллекте" (г. Коломна, 28-30 мая 2009 г.); Научно-практической конференции студентов, аспирантов, молодых ученых и специалистов "Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте" (ИММВИИ-2009) (г. Коломна, 26-27 мая 2009 г.), Третьей всероссийской научной конференции «Нечеткие системы и мягкие вычисления» (НСМВ-2009) (г. Волгоград, 2009).
Работа "Модель пользователя и его эмоции" удостоена поощрительной премии на XI-ой Региональной конференции молодых исследователей Волгоградской области (2006 г.).
По теме диссертации опубликовано 25 работ, в том числе: 3 статьи опубликованы в изданиях, входящих в перечень ВАК; 1 статья в международном журнале; 11 статей в сборниках трудов; 10 материалов конференций.
Структура и содержание диссертационной работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений. Диссертация содержит 145 страниц основного текста, 28 рисунков и 10 таблиц. Библиографический список включает 132 наименования. Общий объем работы 163 страницы.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, сформулирована цель, определены задачи, научная новизна, практическая ценность работы и основные положения, выносимые на защиту.
В первой главе рассмотрены и проанализированы проблемы, возникающие при обработке информации в человеко-компыотерном взаимодействии. Показано, что одним из средств повышения эффективности анализа поступающей информации и точности выбора решения при человеко-компьютерном взаимодействии является определение и прогнозирование эмоционального состояния человека. С этой целью проведен анализ возможности автоматизации данного процесса. Сделан вывод о возможности определения эмоционального состояния и реакции пользователя по анализу звукового ряда.
Проанализированы существующие теории эмоций. Сделан вывод о невозможности описания такого сложного явления как эмоциональная реакция только одной теорией. За основу принята когнитивно-физиологическая теория Шехтера, согласно которой эмоциональная реакция, испытываемая индивидом, зависит не от ощущения, возникающего при физиологическом возбуждении, а от того, как индивид оценивает ситуацию, в которой это происходит. Согласно теории оценок, в возникновении эмоциональной реакции важно количество поступающей информации. Эволюционная и рудиментная теории позволяют утверждать, что базовые эмоции выражаются для всех людей одинаково, что связано с возникновением эмоциональных реакций в процессе эволюции живых существ как приспособительных механизмов, способствующих адаптации организма к условиям и ситуациям его жизни.
Проанализирована эволюция взглядов на изучение психических явлений, и сделан вывод, что эмоциональная реакция, в отличие от классической психофизики, есть функция Г - ОЬ-»Х—где ОЬ - некоторое событие, вызывающее ощущение X, после оценки Еэ, которого, возникает эмоциональная реакция У. Проведен анализ существующих определений эмоций, эмоционального тона, эмоциональной реакции. Рассмотрена классификация, разделяющая эмоциональные реакции на эмоциональный тон и эмоции. Рассмотрены и проанализированы методы формализации эмоциональных реакций: формулы эмоций, алгебра и дерево эмоций Фоминых И.Б. Показаны возможности описания эмоций, не имеющих литературного определения. Проведен анализ работ в области определения и моделирования эмоций, выявлены достоинства и недостатки. Определено, что одной из перспективных технологий обнаружения эмоциональных реакций является распознавание голоса.
Рассмотрен процесс восприятия речи. Произведена классификация идентификационных признаков. Выполнен анализ современных направлений в исследовании слухового восприятия речевых сигналов человеком. Выявлена предпосылка для создания системы, которая значительно лучше, чем человек сможет распознавать эмоции других лиц. Произведен анализ программных средств распознавания речи. Выявлено, что наиболее известные системы распознавания речи не направлены на определение эмоциональности и не учитывают ее.
Проанализирована возможность существования аналогии между эмоциональным реагированием и иммунным ответом организма. Для этого рассмотрены основные положения теории иммунных систем. Определены основные компоненты и их взаимодействие. Выделены преимущества использования иммунных систем для описания эмоциональных реакций. Выполнен сравнительный анализ моделей и алгоритмов, основанных на принципах функционирования иммунных систем: модель иммунной сети, модель мультиагентной сети, алгоритм отрицательного отбора, алгоритм клональной селекции, модель центра зарождения, модель теории опасностей и др. Среди множества моделей иммунных систем выделена модель Марчука, представляющая собой систему дифференциальных уравнений. Модель
8
отражает процесс простейшего иммунного ответа. Если эмоциональную реакцию считать оценкой внешнего воздействия (реакцией на внешний раздражитель), то наиболее адекватно она будет представлена моделью иммунной системы. В самом деле, самой эффективной моделью адаптации к изменению внешних условий и распознаванию раздражителей, прежде никогда не предъявляемых, является иммунная система человека.
На основе выполненного аналитического обзора сформулированы выводы, определены направления исследований и задачи диссертационной работы.
Во второй главе приведена разработанная гибридная модель эмоционального тона, построенная с применением иммунного подхода и нечеткого вывода. В основе данной модели положен иммунологический подход.
Эмоциональный тон является реакцией на какое-либо ощущение, а ощущение возникает при всяком событии. Таким образом, эмоциональный тон возникает как следствие всякого события.
Рис. 1 Схема определения эмоционального тона и эмоции
Процесс идентификации эмоциональной реакции, переживаемой человеком, осуществляется в соответствии со следующей методикой (рис. 1):
Первый этап: определение знака эмоционального тона;
Второй этап: построение модели эмоционального тона;
Третий этап: построение модели эмоций, на основе аппарата алгебры эмоций.
Для представления модели эмоционального тона, эмоциональная реакция представляется в виде иммунного ответа организма. Иммунный ответ разделяется на неспецифический и специфический, т.е., другими словами, на врожденный и приобретенный в результате обучения. Неспецифический ответ представляется в виде иммунного ответа организма на внешнее событие, а в специфическом ответе для получения значения эмоционального тона применяется аппарат нечетких продукций. Знак эмоционального тона устанавливается по предлагаемой методике определения знака эмоционального тона.
Методика определения знака эмоционального тона состоит из следующих этапов:
Первый этап - выделение и расчет акустических параметров, определение по экспериментально полученной функциональной зависимости между числовыми параметрами сигнала и переживаемым эмоциональным тоном значения эмоционального тона.
Второй этап - выделение слов, характеризующих эмоциональные реакции. Этот этап необходим, если полученные на первом уровне значения выходят за границы интервала [-3,3]. Если такие слова отсутствуют, то переходим к третьему этапу.
Третий этап - определение эмоционального тона. Здесь осуществляется выделение характеристик фонем четырех гласных звуков и лингвистических переменных; заполнение базы нечетких правил; определение эмоционального тона посредством нечеткого вывода.
Среди множества акустических параметров были выделены параметры, инвариантные к действию повышенного уровня сигнала, описывающие статистические характеристики амплитудно-частотного речевого потока и основного тона, особенности спектральной структуры. В качестве интегральных признаков речевого потока (т.е. при произвольном контексте речи) используются статистические оценки распределения параметров текущего спектра речи (спектральные признаки) и частоты основного тона, характеризующие этот поток в целом за определенный промежуток времени. При вычислении спектральных признаков, речевой сигнал представляется в виде последовательности значений кратковременных энергетических спектров, измеренных в моменты времени )~\,2,...,] каждые 5,7 мс, подвергается спектральному анализу посредством быстрого преобразования Фурье (БПФ). С помощью БПФ спектры вычисляются последовательно по речевому потоку с применением набора фильтров, соответствующих критическим полосам. Таким образом, речевой сигнал представим в виде: {х(О^), ... , х(Ц), ..., х(23^)}, ] = 1,2.. Л, где х(У) - значение сигнала на выходе 1 - го полосового фильтра в _]-м кратковременном энергетическом спектре; I - общее количество спектральных срезов на анализируемом отрезке.
В качестве интегральных спектральных признаков выбраны следующие группы индивидуальных признаков:
Среднее значение спектра Х(1):
где 1 = 0,2,. ..,23 - номер фильтра; ] = 1,2.... - номер спектрального среза.
<(0 = XV - 3) + XV - 2) + XV -1) + Х(Г) + Х(! + 1) + XV + 2) + XV + 3), /(/) = ДДг)|J (2) где Д/(0 - количество спектральных срезов, при которых энергия в 1-й полосе превышает медианное значение тн(0, т.е. *(/,/) > т,,{\); медианное значение вычисляется посредством построения функции распределения уровней энергии
(О
Нормированные
значения
спектра: Х„ (/') = XV) М (0,
*(/, у) в каждой ¡-й полосе и определения на функции распределения точки ти{1), которая делит площадь между кривой распределения и горизонтальной осыо пополам.
Нормированное время пребывания сигнала в полосах спектра:
^(0 = '(0/|></), Ъи(0 = 1- (3)
/ |«0 1.0
Признаки медианных значений спектра:
Щ (0 = и«/|>(0, |>„ (0 = 1. (4)
/ 1,0 1=0
Относительная мощность спектра речи в полосах: Рн0) = й Д/) = Р(1 - 3) + ГО - 2) + Р0 -1) + Р( 0 + Р(/ +1) + Я(/ + 2) + ?(;' + 3), Р0) = ™(0/ЛЛ0, (5) где ш(0 - медианное значение энергии в !-й спектральной полосе. Нормировка признаков на с1р(0 вводится аналогично, как и для признаков нормированного среднего спектра, для снижения влияния линейных искажений в трактах передачи сигнала.
Вариации огибающих спектра:
= у(«) = 1/■/£{*(»,;)-*(|)}а, (6)
где х(0 - значение среднего спектра в ьм фильтре; - значение
спектральной энергии в ]-й момент времени в ¡-м фильтре.
Нормированные значения вариаций: Ун0)-У0)/^Л0,
й, 0) = У 0 - 3) + У 0 - 2) + У 0 -1) + У0) + У 0 + О + У 0 + 2) + У 0 + 3) (7)
Каждая ¡-я компонента вариации огибающей спектра нормируется на <1,(1) для снижения влияния частотных искажений на значениях признаков.
Коэффициенты кросскорреляции 11(1,к) вычисляются по формуле:
(1 / ./)£ {*(/, у) - х(0} * {*(*, Л - *(к)}
Ш1,к) = -----. (8)
/ и - ох у) - г(/)}2 *М/и-1)Ё (Ф, л -х(к)}2
где ¡, к =0,2,...,23; ¡¿-к; х(у) и х(к,]) - значение уровня энергии в ]-м спектральном срезе, соответственно на выходе ¡-го и к-го фильтров.
Таким образом, формулы (1)-(5) - отражают своеобразие формы спектра голосовых импульсов у разных лиц и особенности фильтрующих функций их речевых трактов. Формулы (6)-(7) характеризуют особенности речевого потока, связанные с динамикой перестройки артикуляционных органов речи говорящего. Коэффициенты кросскорреляции, формула (8) - являются интегральными характеристиками речевого потока, отражающими своеобразие взаимосвязи или синхронности движения артикуляционных органов речи говорящего.
По приведенным параметрам экспериментально была получена функция, характеризующая зависимость между акустическими параметрами и эмоциональным тоном:
у = -195,097 + 0,353-Х„ +0,614 /„ +0,344-РН-0,000162-Хн2-0,000075)-
-0,000314 • Хн ■ Рн - 0,0146■ I,,2 + 0,00071 • • Рн - 0, ООО 189 ■ Рн2 ^
Полученная зависимость используется при определении знака эмоционального тона и позволяет определять эмоциональный тон только по акустическим параметрам речевого сигнала.
В результате исследования различных подходов к построению моделей (классический логический подход, нечеткая логика, нейронные сети, имитационное моделирование) и анализа возможности их применения для построения модели эмоционального тона, был сделан вывод, что наиболее подходящим аппаратом для описания модели эмоционального тона является аппарат иммунных систем. При этом математическая модель строится на основе соотношения баланса для каждого из компонентов, участвующих в возникновении и протекании эмоционального тона. Ввиду такой концепции, частные особенности не являются существенными для анализа динамики развития эмоционального тона. На первый план выступают основные закономерности протекания процесса. Ограничимся рассмотрением трех компонент: объекта, вызывающего эмоциональное реагирование (стимула), знаний об объекте, вызывающем эмоциональное реагирование (описание того, как нужно противодействовать стимулу) и способностей к обучению (позволяющих получать знания о стимуле).
Рассмотрим процесс возникновения и протекания эмоционального тона. Пусть в некоторый момент времени ^ человеку был предъявлен некоторый стимул. Действие стимула приведет к возникновению эмоционального тона, т.е. переходу человека из некоторого нормального для него состояния в измененное под действием стимула состояние. Для минимизации этого эффекта и возврату в нормальное состояние человеку требуются знания о действии стимула. Если стимул был предъявлен впервые, то происходит обучение, т.е. повышение количества информации о стимуле. Если стимул уже предъявлялся, то его действие полностью игнорируется или человек возвращается в нормальное состояние значительно быстрей. При длительном отсутствии некоторого стимула происходит удаление информации о нем. Таким образом, эмоциональное реагирование является механизмом поддержания некоторого состояния (нормального для данного человека). Это отражено в разработанной математической модели.
Переменными модели являются следующие величины:
- Количество информации о появлении объектов, вызывающих эмоциональное реагирование
- Количество информации об объектах, вызывающих эмоциональное реагирование (защита, нейтрализующая действие информации о появлении объектов) Р(0-
- Общий размер доступной индивиду информации, которую он может воспринять С(1:). Сюда входят вся информация об объекте, вызывающем эмоциональное реагирование. Переменная отражает способности к обучению.
- Наступление эмоционального реагирования (относительная характеристика) m(t).
Модель эмоций представлена в виде системы дифференциальных уравнений. Первое уравнение описывает изменение количества информации о появлении объекта, вызывающего эмоциональную реакцию:
dV = pVdt-yFVdt. (10)
Первый член в правой части уравнения описывает прирост информации об объектах, вызывающих эмоциональную реакцию dV за интервал времени dt. Он пропорционален V и некоторому числу р, которое будем называть коэффициентом появления объектов. Член yFVdt описывает количество информации о появлении объектов, нейтрализуемых информацией F за интервал времени dt, у - коэффициент, связанный с вероятностью нейтрализации информации о появлении объекта информацией о самом объекте.
Второе уравнение описывает рост информации об объекте. Соотношение, описывающее прирост информации (возмущения) над нормальным уровнем С* (постоянным уровнем знаний человека), имеет вид:
dC = aF(t-T)V(t-T)dt-Mc(C-C')dt (11)
Первый член в правой части описывает генерацию возмущения, т - время, в течение которого осуществляется формирование знаний о стимуле, а - коэффициент, учитывающий вероятность соответствия информации объекту. Второй член в этой формуле описывает уменьшение количества информации за счет ее устаревания, цс - коэффициент, равный обратной величине времени сохранения информации об объекте.
Третье уравнения показывает баланс количества информации о появлении объекта и информации об объекте. Будем исходить из соотношения
dF = pCdt - rj/FVdt - ¡л) Fdt (12)
Первый член справа pCdt описывает генерацию информации (защиты) об объекте за интервал времени dt, р - скорость получения информации об объекте. Второй член ?jyFVdt описывает уменьшение количества информации о появлении объекта в интервале времени dt за счет изучения объекта. Третий член описывает уменьшение количества информации за счет ее устаревания, где |Xf - коэффициент, обратно пропорциональный времени исчезновения знаний.
Четвертое уравнение показывает относительную характеристику переживания человеком эмоциональной реакции. Пусть M - характеристика нормального состояния, а М' - соответствующая характеристика нормального состояния человека, на которого уже начал действовать стимул. Введем в рассмотрение величину m по формуле:
m = 1 - А/ '/Л/,/и е [0,1], тогда — = стУ-/и„т (13)
dt
Первый член в правой части характеризует степень переживания человека. Предполагается, что за интервал времени dt увеличение относительной величины переживания пропорционально количеству информации о появлении
объекта, которое описывается членом аУ, где о - некоторая константа, своя для каждой эмоциональной реакции. Второй член будет зависеть от т с коэффициентом пропорциональности р.т, характеризующим обратную величину периода восстановления человека от переживаний.
При сильном переживании, т.е. при большом отклонении от нормального состояния, производительность обучения падает. Это является роковым для человека и ведет к затяжным психологическим заболеваниям. Данное обстоятельство учитывается заменой коэффициента а на произведение В
реальных условиях график £(т) может иметь сложную форму, но качественно он всегда будет состоять из постоянной £ = 1 в начале изменения аргумента ш и убывающей, по линейной или нелинейной зависимости при дальнейшем увеличении этого аргумента.
Таким образом, разделив на Л (10), (11), (12) получили систему дифференциальных уравнений, описывающих протекание эмоционального тона
ш
(14)
йт
— = оу - и,„т
Начальные условия задаются в виде:
У(10)=0, С(1о)=Со, Р(10) = рС0/Мг , ш(10)=0, где У0>0, Со>0, Р0>0, Шо>0. (15)
При формализации эмоциональных реакций будем опираться на введенный Г. А. Голициным принцип максимума взаимной информации между условиями среды и реакциями системы. Согласно этому принципу, эмоциональные реакции рассматриваются как средства оптимального управления поведением системы (субъекта), направляющих ее к достижению максимума ее целевой функции (максимума взаимной информации между условиями среды и реакциями системы).
ей, е = —'Л "
В соответствии с принципом максимума, оценка есть отношение:
_ сЬс
= (17)
Представим модель эмоционального тона в общем виде: ¿х
— = /(*,«,Г),х( 0) = *°, (18)
где х - вектор переменных модели, а - вектор коэффициентов, х'" - вектор концентраций взаимодействующих элементов.
(16)
Так как эмоциональный тон есть оценка внешнего события, то относительная характеристика переживания человеком эмоциональной реакции будет определять значение эмоционального тона.
Однако, данная модель будет срабатывать при одном виде объектов. Если же на человека воздействует несколько различных событий или действие объекта неопределенно, то необходимо использовать следующую модель эмоционального тона, представленную в виде специфического ответа: ETS=<Ob, t, ETN, ЕТМ, П>, где Ob - это некоторый объект, вызывающий эмоциональное реагирование, t - время появления объекта, ETN - значение эмоционального тона, определенного по неспецифическому ответу, ЕТМ - значение и знак эмоционального тона, полученные с использованием методики определения знака эмоционального тона, П - согласованное множество отдельных нечетких продукционных правил.
Полученные в результате неспецифического и специфического ответов значения эмоционального тона, а так же его знак, определенный с использованием методики определения эмоционального тона по речи, позволяют построить модель эмоции. Для построения модели использованы принципы алгебры и дерева эмоций Фоминых И.Б. Тогда модель эмоции в случае предъявления последовательности событий будет иметь вид:
£ = ГО (19)
/
и в случае параллельных событий:
E = Tef (20)
где индекс ± означает, что знак эмоционального тона может быть как положительным, так и отрицательным.
В третьей главе приведено алгоритмическое обеспечение определения и моделирования эмоциональных реакций.
Общий алгоритм определения эмоциональных реакций по речи приведен на рисунке 2. На вход алгоритма подается акустический сигнал и происходит квантование сигнала.
На блок фильтрации, состоящий из 24 фильтров со значениями фильтруемых частот, подобранными таким образом, что они соответствуют частотам базилярной мембраны, подается оцифрованный сигнал, который разбивается на 24 полосы.
Далее каждая из полос просматривается на соотношение сигнал/шум и на уровень энергии спектра. При отношении сигнал/шум меньше 15 децибел или при уровне энергии меньшем, чем медианное значение энергии полосы, полоса отбраковывается.
После этого, по формулам (1)-(8) вычисляются акустические параметры. По вычисленным значениям осуществляется расчет выходных значений, соответствующих эмоциональному тону.
При значениях, выходящих за пределы [-3;3], выделяем в речевом потоке слова, характеризующие эмоциональные реакции. Найдя эти слова, рассчитываем на них акустические параметры и определяем знак эмоционального тона.
Если же таких слов не было найдено, выделяем из потока речи фонемы звуков [А], [О], [Е], [И]. По каждой из фонем вычисляются определенные нами параметры. По ним, а так же по лингвистическим параметрам, строится база нечетких правил, по которым принимается решение о том, какой эмоциональный тон переживается человеком. В каждый момент времени записывается найденный эмоциональный тон и вычисленные параметры акустических и лингвистических переменных, осуществляя накопление базы знаний эмоциональных тонов.
Рис. 2 Общий алгоритм определения эмоциональных реакций
Опираясь на теорию иммунных систем, представляя эмоциональный тон как неспецифический (врожденный) ответ организма на внешнее событие, определяется степень переживания эмоционального тона (оценка внешнего события). Это значение, а так же само событие, образуют правила, составляющие основу специфического (приобретенного) ответа. В совокупности неспецифический и специфический ответ указывают на то, какой эмоциональный тон переживает человек. Совокупность эмоциональных тонов с учетом их знаков образуют эмоции.
~г
Разделить пространства значений х,, хь ..,*„ и в нг области. Создать соответствующие им функции принадлежности
Создать таблицу СЯ множества пар х,. х, для записи базы правил и таблицу Т степеней истинности правил; заполнить эти таблицы нулями Т|А*А;| * О
1-1
Поиск слов, характеризующих эмоциональные реакции
Выбрать очередную пару данных
Установить степень принадлежности данных к нечетких множествам и сформировать соошегствуюшсс правило _R: IF i,это Ai AND х?это A? THFN у это В_
Установить степень истинности правила И по формуле
Вписать правило К в таблицу BR н Т: BR|A„A,]=~ TIAi.Ail-SP(R)
^ Конец I
Рис. 36 Алгоритм построения нечетких продукций
Рис. За Алгоритм определения знака эмоционального тона
Основная идея алгоритма определения знака эмоционального тона заключается в следующем (рис. За). Находятся акустические параметры. Затем нормируются значения. После этого вычисляется выходное значение. Если оно расположено в интервале от -3 до 3, то производится поиск слов, характеризующих эмоциональное состояние. Если такие слова найдены, то вычисляются акустические параметры для корректировки коэффициентов функциональной зависимости. Если же слов, характеризующих эмоциональное состояние в потоке речи нет, то ищутся и исследуются фонемы [А], [О], [Е], [И].
Кратко приведем алгоритм построения нечетких правил и вывода по ним эмоционального тона (рис. 36). Первым шагом является разделение пространств входных и выходных сигналов на области. При этом под х подразумевается множество параметров, характеризующих отдельные фонемы и лингвистические переменные. Вторым шагом является построение нечетких правил на основе обучающих данных. Третий шаг заключается в определении степени истинности каждого правила. Четвертым шагом является создание базы нечетких правил. При этом учитывается степень истинности нечетких правил, приписанная каждому правилу на шаге три. Пятым шагом будет дефуззификация. В начале рассчитывается степень активности каждого правила, а затем, способом дефуззификации по методу центра тяжести, определяются выходные значения.
В четвертой главе дано описание программного обеспечения, автоматизирующего определение эмоциональных реакций. Приведены результаты исследования эффективности разработанного алгоритмического и программного обеспечения при определении различных эмоциональных реакций пользователя автоматизированного са11-центра. Архитектура системы приведена на рисунке 4.
Рис. 4 Архитектура автоматизированной системы определения эмоций
Экспертами криминалистического центра при ГУВД Волгоградской области выполнено тестирование разработанного программного обеспечения на серии фонограмм, которое показало эффективность предлагаемой методики определения эмоциональных реакций по речи человека (рис. 5). Автоматизация процесса определения эмоциональности речи позволила существенно повысить производительность труда.
В ходе тестирования одинаковые по сложности фонограммы исследовались с использованием предлагаемой методики и без нее. За 150 минут при ручной обработке было исследовано 6 фонограмм, при этом совершена 1 ошибка.
При автоматизированном способе было исследовано 12 фонограмм, в 2-х случаях определить эмоциональность речи не удалось, что было связано с сильной зашумленностью записи.
15
Время, чин
в-б- Ручная обработка
Э-В Автоматизированная обработка
Рис. 5 Рост количества обработанных фонограмм
Проведенные испытания в ЗАО «Волгоград-ОБМ» показали повышение эффективности взаимодействия клиентов с автоматизированной системой обработки вызовов (рис. 6). Эффективность тем выше, чем больше звонков обработано и чем меньше времени было потрачено на ожидание. Повышение эффективности было связано с тем, что сильно взволнованные клиенты с отрицательным настроем помещались в начало списка обслуживаемых. Таким образом, удалось решить конфликтные, сложные ситуации еще, на стадии их возникновения. Кроме того, были отмечены положительные отзывы операторов еще до приема звонка, проинформированных об эмоциональном состоянии клиента, и пользователей, получивших более качественное обслуживание.
Прем*. мим
1 Без оценки эмоциональности речи ' С оценкой эмоциональности речи
Врем,, мим ' Без оценки змоинональиостн речи ' С оценкой эмоциональности речи
Рис. 6 Рост количества обработанных и необработанных вызовов Таким образом, внедрение результатов диссертации позволяет повысить эффективность обработки информации и принятия решений при человеко-компыотерном взаимодействии за счет автоматизации определения эмоциональных реакций по речевому потоку.
В заключении перечислены основные результаты, полученные в рамках диссертационной работы.
В приложении приведены акты об использовании результатов диссертационной работы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
Основным результатом диссертации является создание гибридной модели эмоционального тона, построенной с применением иммунного подхода и нечеткого вывода, методики определения знака эмоционального тона, алгоритмического и программного обеспечения определения эмоциональных реакций пользователя, обеспечивающих повышение эффективности обработки информации и принятия решений при речевом взаимодействии с автоматизированной системой.
Решены следующие задачи:
1. Рассмотрены современные методы определения эмоционального реагирования и методы формального представления эмоциональных реакций. Исследованы системные связи и закономерности функционирования эмоциональных реакций, включающие эмоциональные тона и эмоции. Предложены решения, усовершенствовавшие существующие методы распознавания речи в части определения эмоциональных реакций. Выделены аналогии между эмоциональным реагированием и иммунным ответом организма. Проанализированы методы и алгоритмы теории иммунных систем.
2. Предложена и реализована методика определения эмоционального реагирования по речи человека, позволяющая повысить эффективность распознавания эмоциональных реакций за счет автоматизации процесса.
3. Разработана и исследована модель эмоционального реагирования, впервые использующая иммунологический подход и нечеткий вывод, ориентированная на повышение эффективности управления эмоциональными реакциями за счет применения гибридного подхода.
4. Разработано алгоритмическое обеспечение определения эмоционального реагирования по речи человека. Разработанные формализмы, методики и алгоритмы реализованы в виде программных модулей, автоматизирующих определение эмоциональных реакций. Показано, что разработанные методики и алгоритмы обеспечивают повышение эффективности определения эмоциональных реакций.
5. Показано, что разработанная модель построения эмоции человека на основе применения алгебры и дерева эмоций Фоминых И.Б. позволяет определять и описывать эмоции, образованные различными эмоциональными тонами, для которых не существует литературного описания.
ОПУБЛИКОВАННЫЕ РАБОТЫ Статьи в журналах, рекомендуемых ВАК
1. Розалиев В.Л. Построение модели эмоций по речи человека / В.Л. Розалиев П Известия ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах": межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2007. - Вып.З, №9. - С.62-65.
2. Розалиев В.Л. Предпосылки, возможности, перспективы создания автоматизированной системы распознавания эмоциональности речи / В.Л. Розалиев // Известия ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах": межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2008. - Вып.4, №2. - С.58-61.
3. Розалиев, В.Л. Моделирование эмоционального состояния человека на основе гибридных методов / В.Л. Розалиев, A.B. Заболеева-Зотова // Программные продукты и системы: международный науч.-практ. журнал. -Тверь - принято к публикации (справка №44/82 от 28 июля 2009 г.).
Статьи в зарубежных журналах
4. Розалиев, В.Л. Моделирование эмоционального состояния пользователя /
B.Л. Розалиев, A.B. Заболеева-Зотова // Открытое образование: прилож. к журн.: по матер. XXXIV междунар. конф. и дискусс. науч. клуба, Ялта-Гурзуф, 20-30.05.07: Инф. технол. в науке, образ., телеком, и бизнесе (IT+SE'07). - 2007.
- [Б/н]. - С.172-173.
Статьи в сборниках международных конференций
5. Розалиев, В.Л. Модель пользователя, учитывающая его эмоции / В.Л. Розалиев, A.B. Заболеева-Зотова // Дистанционное обучение - образовательная среда XXI века: матер. V Междунар. науч. - метод, конф., (10-11 ноября 2005 г.) / Белорус, гос. ун-т информатики и радиоэлектроники. - Минск, 2005. -
C.257-261.
6. Розалиев, В.Л. Построение модели пользователя автоматизированной системы / В.Л. Розалиев, A.B. Заболеева-Зотова. // Научная сессия МИФИ -2006: сб. науч. тр. Т. 15. Конференция "Молодежь и наука". Компьютерные науки. Информационные технологии. Экономика и управление / Моск. инж. физ. ин-т (гос. ун-т) и др. - М., 2006. - С. 111-113.
7. Розалиев, В.Л. Моделирование пользователя автоматизированной системы / В.Л. Розалиев, A.B. Заболеева-Зотова // Интеллектуальные системы (AIS'06). Интеллектуальные САПР (CAD-2006): тр. Междунар. н.-техн. конф., Дивноморское, 3-10 сент. 2006 / Таганрог, гос. радиотехн. ун-т и др. - М., 2006.
- Т.2. - С.546-547.
8. Rozaliev, V.L. Construction of the automated system for recognition the emotions on speech of the person / V.L. Rozaliev // Interactive Systems and
Technologies: The Problems of Human-Computer Interaction. - Collection of scientific papers. - Ulyanovsk: U1STU, 2007. - Vol. II. - P.242-243. - Англ.
9. Rozaliev, V.L. The approach to emotion recognition of the person speech / V.L. Rozaliev // 8th International Conference "Pattern Recognition and Image Analysis: New Information Technologies" (PRIA-8-2007): Conference Proceedings. Vol. 1. - Yoshkar-Ola, 2007. - P.360-363. - Англ.
10. Розалиев, В.JI. Автоматизация распознавания эмоциональной речи /
B.Л. Розалиев, A.B. Заболеева-Зотова // Интеллектуальные системы (AIS'07). Интеллектуальные САПР (CAD-2007): тр. Междунар. н.-техн. конф., Дивноморское, 3-10 сент. 2007 / Таганрог, гос. радиотехн. ун-т и др. - М., 2007. -Г.2. —С.99-101.
11. Розалиев, В.Л. Система автоматизации распознавания эмоциональности речи / В.Л. Розалиев, A.B. Заболеева-Зотова // XIX междунар. Интернет-ориентир, конф. молодых учёных и студ. по совр. пробл. машиноведения (МИКМУС-2007): матер: конф., 5-7 декабря 2007 г. / РАН, Ин-т машиноведения им. А.А.Благонравова. - М., 2007. - С. 96-97.
12. Розалиев, В.Л. Моделирование эмоций по речи человека / В.Л. Розалиев, A.B. Заболеева-Зотова // Системные проблемы надежности, качества, мат. моделирования, информ. и электронных технологий в инновационных проектах: (Инноватика-2007): матер, междунар. конф. и Рос. науч. школы / Рос. акад. надежности [и др.]. - М., 2007. - 4.2, т.Ш - С.95-98.
13. Розалиев, В.Л. Определение эмоциональности речи при обучении человека / В.Л. Розалиев // Дистанционное обучение - образовательная среда XXI века: матер. VI междунар. науч. - метод, конф., Минск, 22-23 ноября 2007 г. / Белорус, гос. ун-т информатики и радиоэлектроники. - Минск, 2007. -
C.121-124.
14. Розалиев, В.Л. Построение модели пользователя автоматизированной системы / В.Л. Розалиев, A.B. Заболеева-Зотова // Научная сессия МИФИ - 2007: сб. науч. тр. в 17 т. Т.З. Интеллектуальные системы и технологии / Моск. инж. физ. ин-т (гос. ун-т) и др. - М., 2007. - С. 184-185.
15. Розалиев, В.Л. Распознавание эмоционального состояния человека по его речи / В.Л. Розалиев, A.B. Заболеева-Зотова // Научная сессия МИФИ -2007: сб. науч. тр. в 17 т. Т.2. Технологии разработки программных систем. Информационные технологии / Моск. инж. физ. ин-т (гос. ун-т) и др. - М., 2007.-С. 151-152.
16. Розалиев, В.Л. Автоматизированное определение эмоций в речи человека / В.Л. Розалиев // Научная сессия МИФИ - 2008: сб. науч. тр. Т.П. Технологии разработки программных систем. Информационные технологии / Моск. инж. физ. ин-т (гос. ун-т) и др. - М., 2008. - С. 178-180.
17. Розалиев, В.Л. Применение механизма распознавания речи для определения эмоций человека / В.Л. Розалиев, A.B. Заболеева-Зотова // AIS'08. CAD-2008. Интеллектуальные системы. Интеллектуальные САПР (пос. Дивноморское, 3-10 сент. 2008 г.): тр. междунар. науч.-техн. конференций / ФГОУ ВПО "Юж. федерал, ун-т", [и др.]. - М., 2008. - Т.З. - С.272-278.
18. Розалиев, В.Л. Построение математической модели эмоций / B.JI. Розалиев // Интегрированные модели и мягкие вычисления в искусственном интеллекте (Коломна, 28-30 мая 2009 г.): сб. науч. тр. V междунар. науч.-практ. конф. / Рос. ассоциация искусственного интеллекта (РАИИ) [и др.]. - М.,2009. -Т.2. - С.950-957.
19. Розалиев, B.JI. Моделирование эмоций человека с использованием гибридных систем / В.Л. Розалиев, A.B. Заболеева-Зотова // Конгресс по интеллектуальным системам и информационным технологиям (AIS-IT09), Дивноморское, 3-10 сент. 2009 г.: тр. конгресса / ФГОУ ВПО "Южный федерал, ун-т" [и др.]. - М., 2009. - Т. II. - С. 203-209.
20. Rozaliev, V.L. Modeling of emotional reaction / V.L. Rozaliev // Interactive Systems and Technologies: The Problems of Human-Computer Interaction. - Collection of scientific papers. - Ulyanovsk: U1STU, 2009. - Vol. III. -P.416-419.-Англ.
Статьи в сборниках российских конференций
21. Розалиев, В.Л. Модель пользователя и его эмоции / В.Л. Розалиев, A.B. Заболеева-Зотова // XI Региональная конференция молодых исследователей Волгоградской области, г. Волгоград, 8-10 ноября 2006 г.: тез. докл. / ВолгГТУ и др. - Волгоград, 2007. - С.217-218.
22. Розалиев, В.Л. Создание систем распознавания эмоциональности речи / В.Л. Розалиев // Информационные технологии в профессиональной деятельности и научной работе: сб. матер, всерос. науч-практ. конф. с междунар. участием / Марийский гос. техн. ун-т. - Йошкар-Ола, .2008. - 4.2. -С.150-154.
23. Розалиев, В.Л. Применение теории иммунных систем для построения модели эмоций человека / В.Л. Розалиев // Интегрированные модели, мягкие вычисл., вероятностные системы и комплексы программ в искусств, интеллекте (ИММВИИ-2009): науч. докл. науч.-практ. конф. (Коломна, 26-27 мая 2009 г.) / Рос. ассоциация искусственного интеллекта (РАИИ) [и др.]. - М.,2009. - Т.2. - С.242-250.
24. Розалиев, В.Л. Иммунологический подход к моделированию эмоций / В.Л. Розалиев // Нечёткие системы и мягкие вычисления (НСМВ-2009): сб. ст. 3-й всерос. науч. конф., 21-24 сент. 2009 г. / ВолгГТУ [и др.]. -Волгоград, 2009. - Т. 2. - С. 233-244.
25. Розалиев, В.Л. Система распознавания эмоционального состояния человека на основе анализа видео ряда / В.Л. Розалиев, A.C. Бобков, О.С. Федоров // Нечёткие системы и мягкие вычисления (НСМВ-2009): сб. ст. 3-й всерос. науч. конф., 21-24 сент. 2009 г. / ВолгГТУ [и др.]. - Волгоград, 2009. - Т. 2. - С. 245-253.
Личный вклад автора в работах, опубликованных в соавторстве, заключается в следующем: в статье [3] рекомендуемого ВАК журнала, автору принадлежит описание подхода, основанного на применении гибридных методов для моделирования эмоциональных реакций; в статье [4] зарубежного журнала - описание информационной модели эмоций пользователя; в статьях сборников международных конференций: [5] - предложения по разработке модели пользователя, учитывающей его эмоции; [6] - описание модели пользователя автоматизированной системы; [7] - результаты моделирования действий пользователя автоматизированной системы; [10], [15] - описание возможностей автоматизации распознавания эмоциональности речи; [11] -описание архитектуры системы определения эмоциональности речи; [12] -описание акустических параметров, применяемых для определения эмоций по речи; [14] - рассмотрение индивидуальных параметров; [17] - описание методики определения эмоциональных реакций по речи; [19] - результаты моделирования эмоций человека при применении подхода, основанного на гибридизации систем; в статьях в сборников российских конференций: [21] -классификация эмоциональных реакций, описание модели пользователя; [25] -подход к распознаванию эмоционального состояния, классификация эмоциональных состояний.
Подписано в печать 23..2009 г. Заказ № 73 1 . Тираж 100 экз. Печ. л. 1,0 Формат 60 х 84 1/16. Бумага офсетная. Печать офсетная.
Типография ИУНЛ Волгоградского государственного технического университета. 400131, г. Волгоград, ул. Советская, 35
Оглавление автор диссертации — кандидата технических наук Розалиев, Владимир Леонидович
Введение.
1 Эмоциональная реакция как иммунный ответ на всякое событие.
1.1 Эмоциональное реагирование.
1.1.1 Анализ психологических, нейрофизиологических, эволюционных, когнитивистких и системных теорий эмоций.
1.1.2 Классификация эмоционального реагирования.
1.1.3 Эмоциональный тон - реакция на ощущение и впечатление. Функции эмоционального тона.
1.1.4 Эмоция - реакция на ситуацию и событие. Функции эмоций.
1.1.5 Чувства как особые эмоции.
1.1.6 Выводы.
1.2 Формализация эмоциональных реакций.
1.2.1 Психологическая формула эмоций.
1.2.2 Эмоции - локальный критерий управления поведением.
1.2.3 Алгебра эмоций.
1.2.4 Дерево эмоций.
1.2.5 Другие формальные модели эмоций.
1.2.6 Выводы.
1.3 Современные технологии определения эмоций.
1.4 Иммунная система как регулятор целостности.
1.4.1 Основные положения теории иммунных систем.:.
1.4.2 Место иммунных систем в искусственном интеллекте и сферы применения.
1.4.3 Преимущества использования иммунной системы.
1.4.4 Модели и алгоритмы, основанные на принципах функционирования иммунных систем.
1.4.5 Выводы.
1.6 Эмоции и иммунный ответ - выявление аналогии.
1.7 Анализ современных технологий распознавания речи.
1.7.1 Процесс восприятия речи.
1.7.2 Анализ современных направлений в исследовании слухового восприятия речевых сигналов человеком.
1.7.3 Анализ программных средств распознавания речи.
1.7.4 Вывод.
1.8 Вывод по главе.
2 Иммунологический подход к моделированию эмоциональных реакций.
2.1 Акустические параметры для определения знака эмоционального тона.
2.1.1 Признаки, характеризующие речевой поток.
2.1.2 Признаки, характеризующие отдельные фразы и слова.
2.1.3 Признаки, характеризующие отдельные звуки.
2.2 Лингвистические параметры.
2.3 Выходные параметры.
2.4 Множество слов русского языка соответствующих эмоциональным состояниям. Методика соотнесения слов с эмоциональными состояниями.
2.5 Функциональные зависимости входов и выходов модели.
2.6 Математическая модель эмоционального тона в виде неспецифического ответа.
2.7 Модель эмоционального тона в виде специфического ответа.
2.8 Модель эмоций.
2.9 Выводы.
3 Алгоритмическое обеспечение для определения и моделирования эмоциональных реакций.
3.1 Основной алгоритм распознавания речи.
3.2 Общий алгоритм определения эмоциональных реакций.
3.2 Алгоритм определения знака эмоционального- тона по акустическим параметрам.
3.3 Алгоритм отбраковки полос.
3.4 Алгоритм нечеткого вывода знака эмоционального тона по фонемам.
3.5 Вывод.
4 Программные средства моделирования эмоциональных реакций.
4.1 Архитектура система автоматизированного распознавания эмоциональности речи.
4.2 Внедрение результатов в экспертно-криминалистическом центре.
4.3 Внедрение результатов в ЗАО «Волгоград-GSM».
Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Розалиев, Владимир Леонидович
В последние годы пристальное внимание уделяется вопросам обработки информации и принятия решений при человеко-компьютерном взаимодействии. Эффективность данного процесса во многом зависит от качества распознавания информации, поступающей от пользователя автоматизированной системы и целенаправленности воздействия человека на объекты исследования. Достижение цели диалогового взаимодействия ЭВМ и пользователя возможно при учете большинства аспектов, характеризующих речевые потоки, возникающие в процессе общения.
Одним из направлений повышения качества обработки информации является определение эмоциональных реакций человека. Компании Nokia, Siemens, Philips, понимая особую важность передачи эмоциональных реакций, включили такую возможность в опытные образцы своих решений. На современном этапе развития информационных технологий разработка методов автоматического определения эмоциональных реакций человека по голосу является актуальной задачей, позволяющей решить ряд экономических, социальных, бытовых проблем и играющей важную, роль в вопросах безопасности.
Эмоциональный речевой сканер необходим в транспортных компаниях и диспетчерских службах для автоматизированного введения ограничений или полного запрета доступа к выполнению служебных обязанностей лиц, находящихся в неустойчивом или неадекватном эмоциональном состоянии. Подобные системы контроля позволят проводить дополнительную проверку пассажиров авиарейсов в рамках мероприятий по противодействию терроризму.
В применении компьютерного распознавания речи и определении ее эмоциональности в первую очередь заинтересованы, компании, внедряющие роботизированные системы в повседневную жизнь людей; а также компании, работающие с большим числом клиентов и желающие перейти на новый уровень общения с ними. Эффективное общение на естественном языке должно сыграть важную роль в мультимедийном обществе будущего с лёгкими в обращении интерфейсами «человек-машина». Применение таких интерфейсов, оставляющих у клиентов ощущение удобства и удовлетворенности при получении информации или услуг в режиме самообслуживания, позволит уже сейчас, при достигнутом качестве работы распознавателей, создать социально значимые системы, внедрение которых сделает доступ населения к услугам и данным более дешевым, удобным и круглосуточным.
Одним из источников определения эмоциональных реакций является речь. Русский язык содержит около 40% эмоционально окрашенных слов. Кроме того, эмоции кодируются определенными акустическими параметрами в речевом сигнале. Понимание этих особенностей акустического кодирования эмоций позволит понять сам механизм восприятия эмоций и их выражения. Основной вклад в изучение эмоций внесли: 3. Фрейд, Ч. Дарвин, Г. Спенсер, Т. Рибо, У. Джеймс, К. Ланге, У. Кэннон, Ф. Бард, JI. Фестингер, К. Изард, Р. Лазарус, А.Н. Леонтьеву П.В. Симонов, Е.П. Ильин, И.Б. Фоминых. В работах Е.Ю. Мягковой, А. Вежбицкой описаны теоретическая и практическая значимость изучения' эмоций как феноменов человеческого сознания в рамках современной когнитивной лингвистики. В работах Ю.С. Степанова, Н.Ф. Дорофеевой рассмотрены основные эмоциональные концепты. Ю.Д. Апресяном проанализированы семантические типы «эмоциональных» метафор (физиологические, когнитивные, культурные) в аспекте выявления, характера соответствия между объектом (эмоции) и источником метафоризации (физические состояния). П.К. Анохиным и его I учениками рассмотрена физиология эмоций. е
Изучение речевых сигналов проводились, многими исследователями. Наибольший, вклад в теорию внесли Г. Фант, Н.В. Витт, В.К. Вилюнас, Л.А. Чистович, А.А. Пирогов, Н.Н. Акинфиев, Ю.Н. Плотников, В.Н. Сорокин и др. Экспериментальные исследования были выполнены Н.А. Дубровским, Н.Г. Бибиковым, Г.С. Ромишвили, Н.Г. Загоруйко, М.В. Фроловым,
В.И. Морозовым, В.Р. Женило и др. Однако, несмотря на большое число работ и проведенных исследований в области распознавания эмоциональных реакций по речи, ряд проблем все еще остаются нерешенными и многие идеи требуют дальнейшего развития. Так, программы, работающие с изолированными словами, достигли высокой точности в командных системах, в то же время задача распознавания слитной речи, несмотря на множество работ посвященных этому вопросу (ИПУ РАН, «Истра-Софт», IBM), в достаточной степени не решена. Хотя для случая ограниченного словаря системы такого типа существуют (VoxReports на ядре ViaVoice, Verbmobil) и показывают высокие результаты по точности. Одним из ограничений создания системы, способной со 100% точностью распознать слитную речь является наличие эмоциональности.
Таким образом, в результате практического рассмотрения и анализа существующих моделей определения эмоциональных реакций по речи выявляется необходимость их модификации и создания новых методов. Данное исследование важно для повышения эффективности распознавания речи, а повсеместное внедрение роботов делает результаты данной работы важными для повышения эффективности взаимодействия человека и машины.
Цель и задачи исследования. Цель диссертационной работы заключается в повышении эффективности обработки информации и принятия решений при человеко-компьютерном взаимодействии за счет автоматизации определения эмоциональных реакций по речевому потоку.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Определить понятия «эмоциональное реагирование», «эмоциональныйтон», «эмоция» на основе анализа существующих теорий эмоций. Проанализировать современные методы определения эмоционального реагирования и методы формального представления1 эмоциональных реакций. Выделить недостатки современных систем распознавания речи в части определения эмоциональных реакций. Проанализировать возможность существования аналогии между эмоциональным реагированием и иммунным ответом организма. Провести анализ иммунологических методов и алгоритмов.
2. Разработать методику определения эмоционального реагирования по речи человека, позволяющую повысить эффективность обработки информации и принятия решений при человеко-компьютерном взаимодействии.
3. Разработать и исследовать модель эмоционального реагирования, основанную на применении иммунологического подхода и нечеткого вывода.
4. Разработать алгоритмическое обеспечение определения эмоционального реагирования по речи человека. Реализовать разработанные формализмы, методику и алгоритмы в виде отдельных модулей, автоматизирующих определение эмоциональных реакций.
5. Провести исследование эффективности разработанного алгоритмического и программного обеспечения при определении различных эмоциональных реакций пользователя автоматизированного са11-центра.
Объектом исследования является речевой поток при различных эмоциональных реакциях.
Предметом исследования являются эмоциональные реакции человека.
Методы исследования. В диссертации использованы методы системного анализа, математического моделирования, иммунных систем, теории алгоритмов, цифровой обработки сигналов, теории нечетких множеств и нечетких продукционных моделей, речеобразования, языков программирования и реляционных баз данных. Разработка программных и информационных средств произведена на основе современных принципов построения программных систем.
Научная новизна состоит в следующем:
Разработаны модели и методы оценки эмоциональных реакций человека по речевому потоку, позволяющие повысить эффективность обработки информации и принятия решений при человеко-компьютерном взаимодействии:
1) Предложена и разработана методика определения знака эмоционального тона по речи: на первом уровне выделяются акустические параметры и по экспериментально полученной функциональной зависимости определяется знак эмоциональной реакции; на втором уровне выделяются слова, характеризующие эмоциональные реакции; на третьем уровне выделяются характеристики фонем четырех гласных звуков и лингвистические переменные, затем на основе нечеткого вывода определяется эмоциональная реакция.
2) Впервые модель эмоционального тона представлена в виде гибридной модели, основанной на применении иммунологического подхода и системы нечетких продукций.
3) Разработана модель построения эмоции человека на основе применения алгебры и дерева эмоций Фоминых И.Б. к описанию эмоциональных тонов.
Положения, выносимые на защиту:
1. Методика определения знака эмоционального тона по речи.
2. Гибридная модель эмоционального тона, построенная,с применением иммунного подхода и нечеткого вывода.
3. Функциональная зависимость между акустическими параметрами речи и эмоциональным тоном.
4. Алгоритм построения нечетких продукций по акустическим параметрам и лингвистическим переменным и вывода по ним значения эмоционального тона.
5. Модель эмоций человека, построенная с применением алгебры и дерева эмоций Фоминых И.Б.
Практическая ценность работы заключается в следующем:
1. Разработанная методика определения эмоциональных реакций по речи позволяет получить знак эмоционального тона, что помогает отслеживать изменения отношения людей к происходящим событиям. Это дает возможность автоматизированной системе эффективно и своевременно реагировать на изменения в состоянии человека, устраняя негативные последствия взаимодействия.
2. Предложенные функциональные зависимости между акустическими параметрами и эмоциональными реакциями важны для повышения эффективности распознавания речи.
3. В результате внедрения методики определения знака эмоциональных реакций и модели эмоционального тона, основанной на гибридизации иммунологического подхода и нечетких продукций, повышается эффективность обработки информации при человеко-компьютерном взаимодействии. Это дает возможность компьютеризированным системам гибко подстраиваться под эмоциональные реакции человека, увеличивая тем самым свои конкурентные преимущества.
4. Разработанная модель построения эмоции человека на основе применения алгебры и дерева эмоций Фоминых И.Б. позволяет находить и описывать эмоции, образованные различными эмоциональными тонами, для которых не существует литературного описания.
Достоверность полученных результатов подтверждается теоретическим обоснованием разработанных подходов, а также результатами исследований созданного программного обеспечения.
Алгоритмическое обеспечение определения и моделирования эмоциональных реакций внедрено в ЭКЦ при ГУВД Волгоградской области, ЗАО «Волгоград-GSM» ТМ СМАРТС, ВолгГТУ.
Апробация работы. Основные положения^ и результаты работы докладывались и обсуждались на: V-ой и VI-ой международных научно-методических конференциях: "Дистанционное обучение - образовательная среда XXI века" (Белоруссия, г. Минск, 10-11 ноября 2005-2007г.); XVIII и XIX международных Интернет-ориентированных конференциях молодых ученых и студентов-по современным проблемам машиноведения (МИКМУС-2006, -2007) (г. Москва, 27-29 декабря 2006 г., 5-7 декабря 2007 г.); VI-ой, VII, VIII, IX международных научно-технических конференциях "Интеллектуальные системы (AIS'06'07'08'09). Интеллектуальные САПР (CAD-2006'07'08'09)" (Россия, Черноморское побережье, Дивноморское, 3-10 сентября 2006-2009 г.); XI-ой региональной конференции молодых исследователей Волгоградской области (г. Волгоград, 8-11 ноября 2006 г.); IX международной научно-практической конференции "Interactive Systems and Technologies: The Problems of Human-Computer Interaction" (г. Ульяновск, 24-28 сентября 2007 г.); 8th International Conference "Pattern Recognition and Image Analysis: New Information Technologies" (PRIA-8-2007) (г. Йошкар-Ола, 8-12 октября 2007 г.); XXXIV международной конференции и дискуссионном научном клубе "Информационные технологии в науке, образовании, телекоммуникациях и бизнесе (IT+SE'07)" (Украина, г. Ялта, 2007 г.); VII-ой международной конференции "Информационные технологии в образовании, медицине и технике" (г. Волгоград, 2007 г.); "Научной сессии МИФИ-2007-2008: Технологии разработки программных систем. Информационные технологии" (г. Москва, 2007-2008 гг.); V-ой международной научно-практической конференции "Интегрированные модели и мягкие вычисления в искусственном интеллекте" (г. Коломна, 28-30 мая 2009 г.); Научно-практической конференции студентов, аспирантов, молодых ученых и специалистов "Интегрированные модели, мягкие вычисления, вероятностные системы и комплексы программ в искусственном интеллекте" (ИММВИИ-2009) (г. Коломна, 26-27 мая 2009 г.), Третьей всероссийской научной конференции «Нечеткие системы и мягкие вычисления» (НСМВ-2009) (г. Волгоград, 2009).
Работа "Модель пользователя и его эмоции" удостоена поощрительной премии на XI-ой Региональной конференции молодых исследователей Волгоградской области (2006 г.).
По теме диссертации опубликовано 25 работ, в том числе: 3 статьи опубликованы в. изданиях, входящих в перечень ВАК; 1 статья в международном журнале; 11 статей в сборниках трудов; 10 материалов конференций.
Структура и содержание диссертационной работы.
Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений.
Заключение диссертация на тему "Моделирование эмоциональных реакций пользователя при речевом взаимодействии с автоматизированной системой"
3.5 Вывод
Таким образом, предлагаемое алгоритмическое обеспечение позволяет реализовать модели и методики, предлагаемые в главе 2.
Общий алгоритм определения эмоциональных реакций по речи получает на вход акустический сигнал и происходит квантование сигнала. На блок фильтрации, состоящий из 24 фильтров со значениями фильтруемых частот, подобранными таким образом, что они соответствуют частотам базилярной мембраны, подается оцифрованный сигнал, который разбивается на 24 полосы. Далее каждая из полос просматривается на соотношение сигнал/шум и на уровень энергии спектра. При отношении сигнал/шум меньше 15 децибел или при уровне энергии меньшем, чем медианное значение энергии полосы, полоса отбраковывается. После этого, вычисляются акустические параметры. По вычисленным значениям осуществляется расчет выходных значений, соответствующих эмоциональному тону. При значениях, выходящих за пределы [-3;3], выделяем в речевом потоке слова, характеризующие эмоциональные реакции. Найдя эти слова, рассчитываем на них акустические параметры и определяем знак эмоционального тона. Если же таких слов не было найдено, выделяем из потока речи фонемы звуков [А], [О], [Е], [И]. По каждой из фонем вычисляются определенные нами параметры. По ним, а так же по лингвистическим параметрам, строится база нечетких правил, по которым принимается решение о том, какой эмоциональный тон переживается человеком. В каждый момент времени записывается найденный эмоциональный тон и вычисленные параметры акустических и лингвистических переменных, осуществляя накопление базы знаний эмоциональных тонов. Далее по полученным значениям эмоциональных тонов и их знаков находится эмоция.
4 Программные средства моделирования эмоциональных реакций
4.1 Архитектура система автоматизированного распознавания эмоциональности речи
Архитектура системы приведена на рисунке 4. вп
Подсистема работы с интерфейсом
1 Пццснсчема нцедобпяГинкн снгналаТ О
1 Подсис1см"а определения" эмоции I
ЗПа
Блок Блок Блок выборки квантования фильтрации полос
База iMomiit
Блок определения эмоций
Блок Блок нес псцнфнчес кого специфического ответа ответа Ф 5 j Подсистема определения така jmинициального тона I
Блок нахождении слов
3.
База слов
Блок вычисления акустических параметров -»
Блик нахождения фонем
CZ J
База фонт
Блок определения знака эмоционального тона -?
Клок вычисления параметров фонем
1 эмоциональных тонов—
Ба за нечетких правил
Рисунок 23 - Архитектура системы определения эмоциональных реакций
Система определения эмоциональных реакций состоит из следующих подсистем: подсистема работы с интерфейсом, осуществляет вывод графической и текстовой информации пользователю; подсистема предобработки сигнала, состоит из блока квантования, блока фильтрации, блока выборки полос; подсистема определения знака эмоционального тона, состоит из блока вычисления акустических параметров, блока нахождения фонем, блока нахождения слов, блока определения знака эмоционального тона, блока вычисления параметров фонем и связанных с этим блоками базами слов, фонем, нечетких правил и эмоциональных тонов; подсистема определения эмоций, состоящая из блока неспецифического и специфического ответа, блока определения эмоций и базы эмоций.
4.2 Внедрение результатов в экспертно-криминалистическом центре
Экспертами криминалистического центра при ГУВД Волгоградской области выполнено тестирование разработанного программного обеспечения на серии фонограмм, которое показало эффективность предлагаемой методики определения эмоциональных реакций по речи человека (рис. 24). Автоматизация процесса определения эмоциональности речи позволила существенно повысить производительность труда.
В ходе тестирования одинаковые по сложности фонограммы исследовались с использованием предлагаемой методики и без нее. За 150 минут при ручной обработке было исследовано 6 фонограмм, при этом совершена 1 ошибка.
При автоматизированном способе было исследовано 12 фонограмм, в 2-х случаях определить эмоциональность речи не удалось, что было связано с сильной зашумленностью записи.
160
Время, vim
О О Ручная обработка
9-в Автоматизированная обработка
Рис. 24 Рост количества обработанных фонограм
Нетрудно отметить, что глядя на представленные образцы различных записей эмоциональных состояний, даже визуально можно определить разницу между ними.
Рисунок 25 - Фраза сказанная при эмоциональной реакции 1
Рисунок 25 - Фраза сказанная при эмоциональной реакции 2
4.3 Внедрение результатов в ЗАО «Волгоград-GSM»
Проведенные испытания в ЗАО «Волгоград-GSM» показали повышение эффективности взаимодействия клиентов с автоматизированной системой обработки вызовов (рис. 26). Эффективность тем выше, чем больше звонков обработано и чем меньше времени было потрачено на ожидание. Повышение
127 эффективности было связано с тем, что сильно взволнованные клиенты с отрицательным настроем помещались в начало списка обслуживаемых. Таким образом, удалось решить конфликтные, сложные ситуации еще на стадии их возникновения. Кроме того, были отмечены положительные отзывы операторов еще до приема звонка, проинформированных об эмоциональном состоянии клиента, и пользователей, получивших более качественное обслуживание. о ^ 2 С П п
X в та av о
§
Время, мин О11© Без оценки эмоциональности речи В-В с оценкой эмоциональности речи
Рисунок 26 Рост количества обработанных вызовов о с о
X н к г я: г
9- О О u av о В-В v к о
Время, мин О G Без оценки эмоциональности речи □ О С оценкой эмоциональности речи
Рисунок 27 Рост количества необработанных вызовов
Таким образом, внедрение результатов диссертации позволяет повысить эффективность обработки информации и принятия решений при человеко-компьютерном взаимодействии за счет автоматизации определения эмоциональных реакций по речевому потоку.
Заключение
Обработка информации и принятие решений при человеко-компьютерном взаимодействии является актуальными задачами требующими пристального внимания. Эффективность обработки во многом зависит от качества распознавания информации, поступающей от пользователя автоматизированной системы и целенаправленности воздействия человека на объекты исследования. Одним из направлений повышения качества обработки информации является определение эмоциональных реакций человека. На современном этапе развития информационных технологий разработка методов автоматического определения эмоциональных реакций человека по голосу является актуальной задачей, позволяющей решить ряд экономических, социальных, бытовых проблем и играющей важную роль в вопросах безопасности.
Эмоциональный речевой сканер необходим в транспортных компаниях и диспетчерских службах для автоматизированного введения ограничений или полного запрета доступа к выполнению служебных обязанностей лиц, находящихся в неустойчивом или неадекватном эмоциональном состоянии. Подобные системы контроля позволят проводить дополнительную проверку пассажиров авиарейсов в рамках мероприятий по противодействию терроризму.
Эффективное общение на естественном языке должно сыграть важную роль в мультимедийном обществе будущего с лёгкими в обращении интерфейсами «человек-машина».
Одним из источников определения эмоциональных реакций является речь. Изучение речевых сигналов проводились многими исследователями. Однако, несмотря на большое число работ и проведенных исследований в области распознавания эмоциональных реакций по речи, ряд проблем все еще остаются нерешенными и многие идеи требуют дальнейшего развития. Одним из ограничений создания системы, способной со 100% точностью распознать слитную речь является наличие эмоциональности.
Не смотря на очевидные успехи в области распознавания речи, и многообразия программных и аппаратных продуктов, можно сказать, что у современной науки весьма неясные представления о глубинных процессах, отвечающих за распознавание речи в нашем мозге, так что делать какие-то выводы о качестве систем распознавания мы можем лишь потому, что есть задачи, которые им совсем не под силу. Они не умеют автоматически распознавать язык диктора. Любой человек, хоть раз слышавший итальянскую речь, скорее всего, узнает ее, услышав снова (при этом он может не иметь ни малейшего представления о самом языке). Машина так не умеет, она применяет заложенную в нее языковую модель, независимо от того, на каком языке с ней говорит человек. Они не умеют выделять речь по-настоящему. Качество распознавания в шумном окружении падает чуть ли не вдвое. Главным средством борьбы с шумами являются механизмы подавления, которые эффективны далеко не всегда. Распознавание хоть и проводится с точностью 98%, однако существует оговорка, что результаты будут сильно отличаться для различных пользователей. И, наконец, самое главное. Хотя при распознавании используются элементы синтаксического и семантического анализа, нужно признать, что машины из того, что мы им говорим, ничего не понимают. Именно, поэтому созрела необходимость в создании системы способной распознавать эмоциональность речи. Создание такой системы важно как для роботостроения, где возможность определения эмоционального состояния человека-хозяина, является важной частью коммуникации робота и человека. Так и для людей с ограниченными способностями, позволяя им решить ряд недостижимых сейчас задач, а именно снятию ограничений их коммуникации с другими людьми. Система распознавания эмоциональности речи так, же может получить свое применение в СМИ, где определение того с каким эмоциями выражаются дикторы, является ключом к повышению рейтинга, а, следовательно, повышения конкурентоспособности таких СМИ. Использование такой системы в местах заключения, поможет повысить скорость реакции на возникновение конфликтов, тем самым, повышая эффективность работы охраны. А применение в магазинах, могло бы существенно сократить конфликты между продавцами и покупателями, за счет своевременной реакции старших менеджеров. Использование такой системы в организациях поможет топ-менеджерам понять проблемы своего коллектива, и соответственно своевременно предотвратить межличностные и иные проблемы в коммуникации работников, поможет предотвратить неудачи при проведении переговоров и совещаний. Использование такой системы на телефонах доверия и са11-центрах, могло бы поднять на новый уровень общение операторов и клиентов.
Основным результатом диссертации является создание гибридной модели эмоционального тона, построенной с применением иммунного подхода и нечеткого вывода, методики определения знака эмоционального тона, алгоритмического и программного обеспечения определения эмоциональных реакций пользователя, обеспечивающих повышение эффективности обработки информации и принятия решений при речевом взаимодействии с автоматизированной системой.
Решены следующие задачи:
1. Рассмотрены современные методы определения эмоционального реагирования и методы формального представления эмоциональных реакций. Исследованы системные связи и закономерности функционирования эмоциональных реакций, включающие эмоциональные тона и эмоции. Предложены решения, усовершенствовавшие существующие методы распознавания речи в части определения эмоциональных реакций. Выделены аналогии между эмоциональным реагированием и иммунным ответом организма. Проанализированы методы и алгоритмы теории иммунных систем.
2. Предложена и реализована методика определения эмоционального реагирования по речи человека, позволяющая повысить эффективность распознавания эмоциональных реакций за счет автоматизации процесса.
3. Разработана и исследована модель эмоционального реагирования, впервые использующая иммунологический подход и нечеткий вывод, ориентированная на повышение эффективности управления эмоциональными реакциями за счет применения гибридного подхода.
4. Разработано алгоритмическое обеспечение определения эмоционального реагирования по речи человека. Разработанные формализмы, методики и алгоритмы реализованы в виде программных модулей, автоматизирующих определение эмоциональных реакций. Показано, что разработанные методики и алгоритмы обеспечивают повышение эффективности определения эмоциональных реакций.
5. Показано, что разработанная модель построения эмоции человека на основе применения алгебры и дерева эмоций Фоминых И.Б. позволяет определять и описывать эмоции, образованные различными эмоциональными тонами, для которых не существует литературного описания.
Библиография Розалиев, Владимир Леонидович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Аграновский А.В., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М.: Изд-во «Радио и связь», 2004.- 164 с.
2. Алефиренко Н.Ф. Поэтическая энергия слова: Синергетика языка, сознания и культуры. М.: Academia, 2002. 394 с.
3. Анохин, П.К. Узловые вопросы теории функциональной системы / П.К. Анохин. М.: Наука, 1980. - 290 с.
4. Апресян В.Ю., Апресян Ю.Д. Метафора в семантическом представлении эмоций // Вопр. языкознания. 1993. №3. С. 27-35.
5. Апресян Ю.Д. Лексикографическая концепция Нового Большого англо-русского словаря // Новый Большой англо-русский словарь: В 3 т. 4-е изд., стереотип. М.: Рус. яз., 1999. Т. 1. С. 6-17.
6. Апресян Ю.Д. Образ человека по данным языка: попытка системного описания //Вопр. языкознания. 1995. №1. С. 37-67.
7. Астел. Компьютерные системы. Речевые технологии. Электронный ресурс. [2007].-Режим доступа: http://www.stel.ru/speech/frame.html
8. Ахманова О.С. Словарь лингвистических терминов. М.: Едиториал УРСС, 2004. 576 с.
9. Бабенко Л.Г. Лексические средства обозначения эмоций в русском языке. Свердловск: Изд-во Урал, ун-та, 1989.189 с.
10. Белянин В.П. Введение в психолингвистику. М.: ЧеРо, 1999. 128 с.
11. Борисов В.В., Круглов В.В., Федулов А.С. Нечеткие модели и сети. М.: Горячая линия - Телеком, 2007. - 284с.:ил.
12. Бреслав Г.М. Психология эмоций. М.: Смысл; Издательский центр «Академия», 2004. 544 с.
13. Бусленко, Н.П. Моделирование сложных систем / Н.П. Бусленко. -М.: Наука, 1978.-395 с.
14. Вагин В.Н. Достоверный и правдоподобный вывод в интеллектуальных системах. -М.: ФИЗМАТЛИН, 2004. 704 с.
15. Вежбицкая А. Толкование эмоциональных концептов // Язык. Культура. Познание. М.: Русские словари, 1996. С. 326-375.
16. Величко В.М., Загоруйко Н.Г. Автоматическое распознавание ограниченного набора устных команд // Вычисл. Системы. — 1969. Вып. 36. -С. 101-110
17. Винцюк Т.К. Распознавание слов устной речи методами динамического программирования // Кибернетика. 1968. - №1. - С.81-88.
18. Все о речевых технологиях Электронный ресурс. [2007]. — Режим доступа: http://art.bdk.com.ru/govor/.
19. Дарвин Ч. Сочинения в 12-ти тт. Т.5: Происхождение человека и половой отбор. Выражение эмоций у человека и животных / Под ред. Е.Н. Павловского. M.-JL: Гос. изд-во биолог, и мед. лит-ры, 1940
20. Женило В.Р. Компьютерная фоноскопия. М.: Академия МВД России, 2001.207 с.
21. Жожикашвили В.А. Компьютерные системы массового обслуживания и речевые технологии / В.А. Жожикашвили, Н.В. Петухова, М.П. Фархадов // Проблемы управления. 2006. - №2. - С. 3-7.
22. Зависимость динамики эмоциональной напряженности от индивидуальных свойств личности Электронный ресурс. [1987]. - Режим доступа: http://www.voppsy.ru/issues/1988/886/886130.htm
23. Залевская А.А. Введение в психолингвистику. М.: Рос. гос. гуман. ун-т, 2000. 382 с.
24. Иванов А.И. Биометрическая идентификация личности по динамике подсознательных движений. Электронный ресурс. - [2000]. - Режим доступа: http://beda.stup. ac.ru/biometry/BioMon/TITL.html
25. Изард К. Психология эмоций. СПб.: Питер, 2003. 464 с:
26. Измайлов Ч.А., Черноризов А.М; Психофизиологические основы эмоций. М.: Москов. псих.-соц. ин-т, 2004. 72 с.
27. Изобретена комплексная система распознавания эмоций человека. -Электронный ресурс. [2006]. — Режим доступа:http://wwwjTiobiledevice.m/Facial-recognition-Technology-Christian-Peter-CeBIT-2006.aspx
28. Ильин, 2008 Ильин Е.П. Эмоции и чувства. «Питер», СПб , 2008
29. Искусственные иммунные системы и их применение / Под ред. Д. Дасгупты. Пер. с англ. под ред. А. А. Романюха. М.: ФИЗМАТ ЛИТ, 2006. - 344 с.
30. К классификации эмоций Электронный ресурс. [1990]. - Режим доступа: http://www.voppsy.ru/issues/!991/914/914096.htm
31. Калашников, В.В. Организация моделирования сложных систем / В.В. Калашников. М.: Знание, 1982. - 64 с.
32. Коберник J1.H. Чувства и эмоции в интерпретации русской диалектной метафоры / Диссертация на соискание ученой степени кандидата филологических наук. Томск, 2007
33. Когнитивное моделирование мыслительного процесса и роль эмоций. Электронный ресурс. - [2003]. - Режим доступа: http://fccl.ksu.ru/conf2003/cogmod/sl7.rar
34. Комарцова Л.Г., Максимов А.В. Нейрокомпьютеры. М.: Изд-во МГТУ им. Н. Э. Баумана, 2002
35. Кормен, Т. Алгоритмы: построение и анализ / Т. Кормен, Ч. Лейзерсон, Р. Ривест. М.: МЦНМО, 2001. - 960 с.
36. Кубрякова Е.С. Ономасиология // Лингвистический энциклопедический словарь. М: Сов. энциклопедия, 1990. С. 345-346.
37. Лазарус Р. Теория стресса и психофизиологические исследования // Эмоциональный стресс. Л.: Медицина, 1970. С. 178-207.
38. Леонтьев А.А. Основы психолингвистики. 3-е изд. М: Смысл; СПб.: Лань, 2003.287 с.
39. Леонтьев, А.Н. Деятельность, сознание, личность / А.Н. Леонтьев. — М.: Политиздат, 1975. 90 с.
40. Лурия А.Р. Язык и сознание. Ростов-на-Дону: Феникс, 1998. 416 с.
41. Люблинская В.В. От восприятия отдельных звуков к восприятию речи. // Сборник трудов Второй международной конфернции по когнитивной науке. 2006. - СП-б. - 352-353
42. Мазуренко И.Л. О сокращении перебора в словаре речевых команд в составе систем распознавания речи. В сб.: Интелектуальные системы, т.2, Москва, 1997 г.
43. Марчук Г.И. Математические модели в иммунологии // Вычислительные методы и эксперименты. 3-е изд., перераб. и доп. М.: Наука, 1991.-300 с.
44. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. -М.: Мир, 1983. Кн. 1. 328 е., ил.
45. Михайлов Д. Что и как мы слышим Электронный ресурс. [2006]. - Режим доступа: http://websound.ru/articles/theory/ear.htm
46. Непрерывное распознавание речи Электронный ресурс. [2004]. -Режим доступа: http://www.agentura.ru/equipment/radio/nepr/
47. Новые идеи молодых ученых в науке XXI века. Интернет-форум магистрантов ВУЗов России. Сборник статей магистрантов. Выпуск IV. -Тамбов: ТОГУП «Тамбовполиграфиздат», 2006. 204 с.
48. Норенков И. П. Основы автоматизированного проектирования/ И. П.Норенков.- М.: МГТУ им. Н.Э. БАУМАНА, 2006.- 450 с.
49. О речевых технология на Cebit и не только Электронный ресурс. -[2004].- Режим доступа: http://kis.pcweek.ru/Year2005/N19/CP1251/Opinions/chaptl .htm
50. Обработка речевых сигналов Электронный ресурс. [2005]. -Режим доступа: http://impb.psn.ru/~sychyov/html/soundOO.shtml
51. Ожегов С.И. и Шведова Н.Ю. Толковый словарь русского языка. М.: АЗЪ, 1994. 928 с.
52. Павлов, И.П. Двадцатилетний опыт объективного изучения высшей нервной деятельности / И.П. Павлов. М., 1951
53. Поспелов, Д.А. Интеллектуальные интерфейсы для ЭВМ новых поколений.- Электронный ресурс. / Д.А. Поспелов. Режим доступа: http://www.raai.org/about/persons/pospelov/pages/interf.doc
54. Прикладные нечеткие системы: Перевод с япон./ К. Асаи, Д. Ватада, С. Иваи и др.; под ред. Т. Тэрано, К. Асаи, М. Сугено. М.: Мир, 2006.
55. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов: пер. с англ. М.: Радио и связь. 1981 г.
56. Радзишевский, А.Ю. Основы аналогового и цифрового звука. М.: Издательский дом «Вильяме», 2006. - 288 с.я
57. Рамашвили Г.С. Речевой сигнал и индивидуальность голоса. Тбилиси, 1976; Рамашвили Г.С. Автоматическое опознавание говорящего по голосу. М.: 1981
58. Распознавание речи сегодня и завтра Электронный ресурс. -[2007]. Режим доступа: http://www.speechpro.rn
59. Ратанова, Т.А. Субъективное шкалирование и объективные физиологические реакции человека / Т.А. Ратанова; Науч.-исслед. ин-т общей и педагогической психологии Акад. Пед. Наук СССР. М.: Педагогика, 1990. -216 с.
60. Розалиев, B.JI: Иммунологический подход к моделированиюг эмоций / B.JI. Розалиев // Нечёткие системы и мягкие вычисления (НСМВ-2009): сб. ст. 3-й всерос. науч. конф., 21-24 сент. 2009 г. / ВолгГТУ и др.. -Волгоград, 2009. Т. 2. - С. 233-244.
61. Русский семантический словарь. Толковый. словарь, систематизированный по классам слов и значений. М.: Азбуковник, 1998. Т. I. 807 с.
62. Рутковская Д., Пилиньский М., Рутковский JI. Нейронные сети, генетические алгоритмы и нечеткие системы: Пер. с польск. И.Д. Рудинского. -М.: Горячая линия Телеком, 2007. - 452 е.: ил.
63. Связь акустических параметров с эмоциональной выразительностью речи и пения. Электронный ресурс. - [2003]. - Режим доступа: http://rus.625-net.ru/audioproducer/2003/02/aldo.htm
64. Симонов, П.В. Эмоциональный мозг. Физиология. Нейроанатомия. Психология эмоций / П.В. Симонов. М., 1981.
65. Симонов П.В. Что такое эмоция? Мозговые механизмы эмоций // Лекции о работе головного мозга. М.: ИПРАН, 1998. С. 5-26.
66. Слобин Д., Грин Дж. Психолингвистика. 2 изд. М.: Едиториал УРСС, 2003. 352 с.
67. Смолин Д.В. Введение в искусственный интеллект. 2-е изд., перераб. - М.: ФИЗМАТЛИТ, 2007. - 264 с.
68. Современные технологии распознавания речи Электронный ресурс. [2005]. — Режим доступа: http://www.dialog-21 .ru/Archive/2005/Leonovich%20A/Leonovich%20 A.htm
69. Степанов Ю.С. В мире семиотики // Семиотика: Антология. Изд. 2-е. М.: Академический Проект; Екатеринбург: Деловая книга, 2001. С. 5-42.
70. Таран О., Мирошниченко С., Гуриев В. Ничего никому не скажу//Компьютерра-2005.- №36.-С&С Computer Publishing Limited.-78 с.
71. Тарасов, В.Б. Моделирование психических образов: как совместить дискретное и непрерывное? Электронный ресурс. / В.Б. Тарасов. [1998]. -Режим доступа: http://www.raai.Org/library/ainews/1998/3/TARASOV.ZIP
72. Тихомиров, O.K. Психология мышления / O.K. Тихомиров. — М.: Изд-во МГУ, 1984.
73. Фестингер Л. Теория когнитивного диссонанса. СПб.:. Ювента,1999.
74. Фоминых И.Б. Интеграция логических и образных методов отражения информации в системах искусственного интеллекта Электронныйресурс. / И.Б. Фоминых. 1998]. - Режим доступа: http://www.raai.Org/library/ainews/1998/3/fominyh.doc
75. Фоминых И.Б. Эмоции как аппарат оценок поведения интеллектуальных систем. Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006. Труды конференции.
76. Фрумкина P.M. Психолингвистика. М.: Издательский центр «Академия», 2001. 320 с.
77. Хайкин С. Нейронные сети: полный курс, 2-е издание. : Пер. с англ.- М.: Издательский дом «Вильяме», 2006. — 1104 е.: ил.
78. Чекмарев А. Речевые технологии проблемы и перспективы. // Компьютерра, №49 с. 26-43, 1997 г.
79. Шварц, Э. Авторские права на пути Voice XML. / Э. Шварц // Computerworld. 2001. - №36. - С. 17 - 25
80. Эмоции Электронный ресурс. [2005]. - Режим доступа: http://www.inftech.webservis.ru/it/ii/books/book001/07g.htm
81. Эмоции человека Электронный ресурс.: [1980]. - Режим доступа: http://www.psychology-online.net/docs/izard.html
82. Эмоции, как процесс организующий поведение Электронный ресурс. [1999]. - Режим доступа: http://flogiston.ru/library/reic3
83. A Cultural-Psychological Analysis of Emotions Электронный ресурс.- 2000. Режим доступа: http://www.humboldtl.coni/~cr2/emotion.htm
84. A tutorial on hidden Markov models and selected applications in speech recognition Электронный ресурс. [2000]. — Режим доступа: http://www.cs.berkeley.edu/~murphyk/Bayes/rabiner.pdf
85. Adaptive Systems: from intelligent tutoring to autonomous agents Электронный ресурс. [1993]. - Режим доступа: http://www.dcs.napier.ac.uk/~dbenyon/IITpaper.pdf
86. Affect in Interactions: Towards a New Generation of Interfaces Электронный ресурс. [1999]. - Режим доступа: http://gaiva.inesc.pt/i3ws/i3workshop.html
87. Affective Computing Group. Электронный ресурс. - [2007]. -Режим доступа: http://affect.media.mit.edu/projects.php
88. Affective Computing: техника не разделяет наши чувства. -Электронный ресурс. [2003]. - Режим доступа: http://kainsk.tomsk.ru/g2003/other22/texnika.htm
89. Bridle J.S., and Brown M.D. Connected word recognition using whole word templates // Proc. Inst. Acoust. Autumn Conf. 1979. - P. 25-28
90. Broersma M. Speech recognition begins to makes itself heard. // news.zdnet.co.uk, October 2003
91. Call-центры, распознающие эмоции Itnews. — Электронный ресурс. — [2006]. - Режим доступа: http://itnews.com.ua/27702.html
92. Cocer M.J. An improved isolation word recognition system based upon the linear prediction residual // IEEE Trans / Acoustics, Speech, Signal Proc. 1976. - Vol. ASSP-24. - P.206 - 209.
93. Dagupta, D. Immunological computation: theory and applications / Dipancar Dasgupta and Luis Fernando Nino, Auerbach Publications 2009
94. Emotive Alert распознает эмоциональное состояние говорящего. -Электронный ресурс. [2005]. - Режим доступа: http://www.cnews.ru/newsline/index.shtml72005/01/13/172581
95. Fant G. Speech acoustics and phonetics / G. Fant, Kluwer Academic Pulishers 2004
96. Golitsyn and other, 1995 Golitsyn G. A., Petrov V. M. Information and Creation. — Basel :Birkhauser Verlag, 1995.
97. Hawkins, S., House, J., Huckvale M., Local J., Ogden R. "ProSynth: An Integrated Prosodic Approach to Device-Independent, Natural sounding Speech Synthesis", International Conference Speech and Language Processing, 1998
98. Hebb D.O. Emotional Disturbance // The Nature of Emotion. Harmondsworth: Penguin Books, 1969. P. 141-154
99. Hozjan V., Zdravko K. "Improved Emotion recognition with Large Set of Statistical Features", Eurospeech 2003, 2003.
100. J.P. Hosom, R. Cole, and M. Fanty. Speech Recognition Using Neural Networks at the Center for Spoken Language Understanding. //Center for Spoken Language Understanding, Oregon Graduate Institute of Science and Technology, July 1999.
101. J.-J.Ch. Meyer, 'Reasoning about emotional agents', in Proceedings of ECAI'04, pp. 129—133. IOS Press, (2004).
102. J.-J.Ch. Meyer,W. v.d. Hoelc, and B. v. Linder, 'A logical approach to the dynamics of commitments', Artificial Intelligence, 113, 1-40, (1999).
103. J. Gratch and S. Marsella, 'A domain-independent framework for modeling emotions', J. of Cognitive Systems Research, 5(4), 269—306, (2004)
104. Microsoft Speech Электронный ресурс. [2007]. - Режим доступа: http://www.microsoft.com/speech/
105. Morozov V.P. Emotional expressiveness of the Singing Voice: the role of macrostructural and micro structural modifications of spectra // Scand Journ. Log. Phon. MS. — № 150, 1996. —P. 1-11.
106. Noguerias A., Moreno A., Bonafonte A., Marino J. В., "Speech emotion Recognition Using Hidden Markov Models", Eurospeech 2001, 2001.
107. Nuance The Leading Supplier of Speech Recognition Электронный ресурс. - [2007].-Режимдоступа: http://www.dragonsys.com116.0'Rorke, P. & Ortony, A. (1994). Explaining emotions. Cognitive Science, 18,283-323.
108. Philips. Speech SDK Электронный ресурс. [2007]. - Режим доступа: http://www.philips.com/speechrecognition/
109. Plutchik R. Emotions, Evolution, and Adaptive Processes // Feelings and Emotions. New York: Academic Press, 1970. P. 3-24.
110. Quinlan J. R. C4.5: programs for machine learning. Morgan Kaufmann,1993.
111. Recognition of Emotional and Cognitive States Using Physiological Data. Электронный ресурс. - [2007]. - Режим доступа: http://citeseer.ist.psu.edu/367826.html
112. Sakakibara Y., "Recent advances of grammatical inference", Theoretical Computer Science 185, pp 15-45, 1997.
113. Sakoe H., and Chiba S. Dynamic programming algorithm optimization for spoken word recognition // Ibid. 1978. - Vol. ASSP-26 (1). - P. 43-49
114. Schachter S., Singer J.E. Cognitive, social, and physiological determinants of emotional state // Physiological Review. 1962. №69. P. 379-399
115. Sempere J. M., Lopez D. "Learning decision trees and tree automata for a syntactic pattern recognition task", 1st Iberian Conference on Pattern recognition and Image Analysis, 2003.
116. Sensory, Inc. Embedded Speech Technologies including Recognition, Synthesis, Verification, and Music Электронный ресурс. [2007]. - Режим доступа: http://www.sensoryinc.com
117. Siemens снабдила мобильный телефон эмоциями. Электронный ресурс. - [2005]. - Режим доступа: http://www.cnews.ru/newsline/index.shtml72005/04/ll/177070/
118. Speech recognition chips Электронный ресурс. [2007]. - Режим доступа: http://www.ptmc.com.tw
119. Spirit DSP. Embedded voice experience Электронный ресурс. -[2007]. Режим доступа: http://www.spiritdsp.com
120. Steunebrink, B.R., Dastani, М.М. & Meyer, J-J.Ch. (2008). A Formal Model of Emotions: Integrating Qualitative and Quantitative Aspects. In G. Mali,
121. C.D. Spyropoulos, N. Fakotakis & N. Avouris (Eds.), Proc. 18th European Conference on Artificial Intelligence (ECAI'08) (pp. 256—260). Greece/Amsterdam: Patras / IOS Press
122. Toivanen J., Seppanen Т., Vayrynen E. Automatic recognition of emotions in spoken Finnish : preliminary results and applications, http://www.mediateam.oulu.fi/publications/pdf/404.pdf
123. Voice Extensible Markup Language (VoiceXML) Version 2.0 Электронный ресурс. [2007]. - Режим доступа: http://www.w3 ,org/TR/voicexml20/
124. Workshop on Grounding Emotions in Adaptive Systems Электронный ресурс. [1998]. - Режим доступа: http://www.ai.univie.ac.at/;paolo/conf/sab98/
-
Похожие работы
- Разработка и исследование методов повышения эффективности программно-аппаратных вычислительных средств обработки речевых сигналов
- Метод построения оконного интерфейса пользователя на основе моделирования пользовательских целей
- Исследование психофизиологического состояния человека на основе эмоциональных признаков речи
- Модели и алгоритмы в системах анализа речевых сигналов
- Диалоговая система цифровой обработки зашумленных речевых сигналов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность