автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Методы и алгоритмы повышения эффективности автоматического интонационного анализа речевых сигналов

кандидата технических наук
Марьев, Александр Александрович
город
Таганрог
год
2012
специальность ВАК РФ
05.12.04
цена
450 рублей
Диссертация по радиотехнике и связи на тему «Методы и алгоритмы повышения эффективности автоматического интонационного анализа речевых сигналов»

Автореферат диссертации по теме "Методы и алгоритмы повышения эффективности автоматического интонационного анализа речевых сигналов"

На правах рукописи

Марьев Александр Александрович

МЕТОДЫ И АЛГОРИТМЫ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ АВТОМАТИЧЕСКОГО ИНТОНАЦИОННОГО АНАЛИЗА РЕЧЕВЫХ СИГНАЛОВ

Специальности:

05.12.04 - Радиотехника, в том числе системы и устройства телевидения,

01.04.06 - Акустика

005054206

Автореферат диссертации на соискание ученой степени кандидата технических наук

- 1 НОЯ 2012

Таганрог-2012

005054206

Работа выполнена на кафедре теоретических основ радиотехники Федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет».

Научный руководитель доктор физико-математических наук, профессор Рыжов Владимир Петрович.

Официальные оппоненты:

Тарасов Сергей Павлович, доктор технических наук, профессор, Южный федеральный университет, заведующий кафедрой электрогидроакустической и медицинской техники;

Чернышев Валерий Михайлович, кандидат технических наук, доцент, Государственный морской университет имени адмирала Ф.Ф. Ушакова, г. Новороссийск, профессор кафедры радиоэлектроники.

Ведущая организация Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Ростовский государственный университет путей сообщения».

Защита состоится « 1 » ноября 2012 г. в 14:20 в ауд. Д-406 на заседании диссертационного совета Д 212.208.20 при Федеральном государственном автономном образовательном учреждении высшего профессионального образования «Южный федеральный университет» по адресу: пер. Некрасовский, 44, корп. Д, г. Таганрог, Ростовская обл., 347928.

С диссертацией можно ознакомиться в Зональной научной библиотеке Южного федерального университета по адресу: ул. Пушкинская, 148, г. Ростов-на-Дону,

344065.

Автореферат разослан « %Ь » _ _2012

г.

Ученый секретарь диссертационного совета к.т.н., д<

В.В. Савельев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы

Автоматический интонационный анализ речевых сигналов в настоящее время представляет собой обширную область научных исследований и инженерных разработок на стыке таких направлений, как радиотехника, акустика и психоакустика, системы искусственного интеллекта и распознавание образов, прикладная статистика, фонетика, лингвистика, психология, физиология.

Традиционно в задачах распознавания речи ставилась задача выделения и интерпретации семантической информации, т.е. смысла сказанного. В то же время, за несколько последних десятилетий существенно возрос интерес к интонационному анализу речи. Интонация является носителем просодической информации, сообщающей о том, в какой манере и с какими эмоциями речь была произнесена.

Среди приложений автоматического интонационного анализа стоит отметить такие, как: разработка усовершенствованных методов взаимодействия (интерфейсов) человека с компьютером, использующих интонацию как один из способов передачи информации; повышение надежности распознавания речи; диагностика психоэмоционального состояния человека по голосу; совершенствование профессиональных речевых навыков дикторов, работников контакт-центров и представителей иных профессий, в которых особую роль играет общение по речевым каналам связи; разработка систем, обучающих правильному интонированию при обучении иностранным языкам; коррекционная педагогика, обучение детей правильному выражению эмоций с помощью голоса; идентификация человека по голосу: установление личности говорящего, либо распознавание его пола, возраста, акцента и т.п.

В нашей стране интонационным анализом занимались и занимаются такие известные ученые, как JI.A. Чистович, В.П. Морозов, И.А. Алдошина, И.Б. Старченко и другие. Среди зарубежных ученых можно отметить имена Г. Фанта, У. Ли. Одной из крупнейших в мире научных школ, разрабатывающих в настоящее время вопросы автоматического интонационного анализа, является немецкая (Felix Burkhardt, Björn Schuller, Anton Batliner, Marc Schroeder и др.).

Решение задачи автоматического интонационного анализа сопряжено с существенными трудностями, многие из которых до сих пор в полной мере не преодолены. Первой из таких трудностей является субъективность интонационных характеристик, таких например, как состояние человека, эмоции, тип произношения. Под субъективностью понимается как изменчивость произношения у различных дикторов и у одного и того же диктора с течением времени, так и трудности формализации интонационных параметров и их объективного измерения.

Указанные сложности являются причиной того, что ни в одном из направлений интонационного анализа речи в настоящий момент не существует общепринятых моделей сигналов и интонаций, не стандартизованы способы измерений и алгоритмы обработки сигналов. И, хотя в ряде приложений достигнуты значительные успехи, получены важные результаты (например, в распознавании двух состояний оператора, идентификации пола диктора и др.), они в большинстве своем не носят фундаментального характера. В результате исследователи и разработчики систем автоматического интонационного анализа часто вынуждены в своей работе исходить из эвристических соображений, не имея достаточного количества априорной информации.

Существенным недостатком многих существующих методов обработки речевых сигналов, используемых в интонационном анализе, является формальность их подхода к задаче, недостаточный учет особенностей восприятия и обработки информации человеком. Таковы, к примеру, методы выделения частоты основного тона, основанные на

полигармонической модели речевого сигнала, или методы распознавания, предполагающие линейную статистическую связь между интонацией и объективными характеристиками речевого сигнала.

В сложившейся ситуации возрастающего спроса на системы автоматического интонационного анализа для разнообразных приложений существует необходимость поиска новых подходов к решению данной задачи, которые бы обладали достаточной надежностью и универсальностью. Очевидно, для построения подобных систем необходимо более полно учитывать научные знания о человеке.

Объектом исследования являются речевые сигналы, содержащие интонационную (просодическую) информацию.

Предметом исследования являются методы обработки речевых сигналов, позволяющие извлекать просодическую информацию из речевого сигнала и интерпретировать ее.

Целью диссертационной работы является повышение эффективности выделения и интерпретации интонационной информации, содержащейся в речевом сигнале.

Основными задачами, которые требуется решить для достижения поставленной цели, являются:

1) разработка метода определения минимального набора информативных признаков (характеристик) речевого сигнала, при котором возможно достижение приемлемого качества интонационного анализа;

2) разработка методов измерения набора информативных характеристик речевого сигнала;

3) разработка метода классификации интонаций, учитывающего особенности восприятия и обработки информации человеком;

4) построение структуры и алгоритмов функционирования системы автоматического интонационного анализа, исследование эффективности автоматического интонационного анализа.

Научная новизна

В рамках диссертационной работы получены следующие новые научные результаты:

1. Предложен трехэтапный метод снижения размерности пространства признаков речевого сигнала (отбора наиболее информативных признаков), основанный на информационной мере близости признаков, с выделением главных компонент на заключительном этапе.

2. Предложен метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования.

3. Разработан метод классификации интонаций, основанный на информационном подходе к задаче распознавания, оптимальный в смысле принципа максимума информации.

4. Разработана структура системы автоматического интонационного анализа и алгоритмы ее функционирования, в том числе:

а) алгоритм одновременного измерения параметров речевого сигнала в трех масштабах времени (фрагменты длительностью в десятки мс, отдельные вокализованные звуки, участки длительностью в единицы секунд);

б) алгоритм адаптивного квантования значений признаков, позволяющий минимизировать потерю информативности признаков при их квантовании;

в) алгоритм выделения полносвязных групп признаков максимального размера по критерию средней взаимной информации между ними;

г) алгоритм обучения классификатора, оптимального в смысле принципа максимума информации.

5. Разработан метод адаптивного квантования значений признаков, представляющий собой кусочно-постоянное отображение области значений признаков, использующее оценки их статистических характеристик, полученные по обучающей выборке.

Практическая значимость работы

1. Разработано программное обеспечение, в котором реализован метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования. Показано, что применение данного метода позволяет снизить вероятность появления на оценке траектории ЧОТ грубых случайных ошибок величиной более 20% в 2 и более раз, ошибок более 50% - в 3 и более раз по сравнению с семью популярными методами оценки траектории ЧОТ.

2. Разработано программное обеспечение для автоматизированного решения задачи снижения размерности пространства признаков речевых сигналов в три этапа:

а) отбор из первоначального множества признаков подмножества по критерию средней взаимной информации с вектором номеров классов (на основе заданного порога);

б) объединение признаков из выбранного на первом этапе подмножества в группы максимального размера по критерию, в каждой из которых количество средней взаимной информации между каждыми двумя признаками превышает заданный порог; отбор одного признака из каждой группы;

в) преобразование отобранных на втором этапе признаков по методу главных компонент, отбор N первых главных компонент по критерию совокупной дисперсии.

Для выполнения первых двух этапов выполнялось адаптивное квантование значений признаков по разработанному методу. Показана высокая эффективность разработанного программного обеспечения при решении задачи снижения размерности признакового пространства в задаче автоматического распознавания семи эмоциональных состояний по речевому сигналу: наибольшая средняя вероятность правильного распознавания 0,82 была достигнута при использовании 60-ти признаков из первоначального множества 550-ти признаков. В эксперименте с использованием только метода главных компонент для отбора признаков наибольшая средняя вероятность верного распознавания 0,55 была достигнута при использовании 350 признаков из того же первоначального множества.

Создана программная реализация системы автоматического интонационного анализа, использующей 16 признаков речевого сигнала классификатор, оптимальный в смысле принципа максимума информации либо классификатор типа kNN (распознавание по методу к ближайших соседей). Экспериментально показано, что относительно невысокая вычислительная сложность разработанных алгоритмов допускает распознавание интонаций в режиме реального времени при вычислениях на настольном ПК.

Установлено, что средняя вероятность правильного распознавания семи эмоциональных состояний диктора по речи составила 0,71 при отсутствии зависимости от диктора. В эксперименте использовалась Берлинская база записей эмоциональной речи. Ряд известных систем-аналогов при сопоставимых результатах различали меньшее число эмоциональных состояний (шесть). Средняя вероятность верного распознавания семи состояний в аналогичном исследовании составила 0,55 при использовании другого типа классификатора.

Методы исследования основаны на использовании аппарата математической статистики, теории информации, элементов теории графов и теории множеств. Использовались методы статистической радиотехники, акустики, цифровой обработки сигналов, прикладной статистики, теории эвристических решений, а также некоторые результаты из области психоакустики и физиологии. Проверка теоретических выводов производилась путем постановки и проведения эксперимента по распознаванию семи эмоциональных состояний на материале Берлинской базы записей эмоциональной речи.

Апробация работы

Основные результаты диссертационной работы докладывались и обсуждались на следующих научных конференциях и научных школах: международной научной конференции «Системы и модели в информационном мире», г. Таганрог, 2009;

международной научной конференции «Методы и алгоритмы принятия эффективных решений», г. Таганрог, 2009; научной школе для молодежи «Нейробиология и новые подходы к искусственному интеллекту и науке о мозге», г. Таганрог, 2010; Всероссийской научной конференции, «Современные исследовательские и образовательные технологии», г. Таганрог, 2010; Всероссийской научной конференции «Актуальные вопросы исследования общественных и технических систем», г. Таганрог, 2011; VII Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, г. Ростов-на-Дону, 2011; Всероссийской научной школе для молодежи «Фундаментальные, клинические и гигиенические основы и аппаратно-методическое обеспечение системы медико-психологической реабилитации пациентов, подверженных высокому уровню напряженности труда и профессионального стресса», г. Ростов-на-Дону, 2011; Всероссийской научной конференции «Перспективы развития гуманитарных и технических систем», г. Таганрог, 2011; VIII Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, г. Ростов-на-Дону, 2012; Всероссийской научной конференции «Актуальные проблемы современности: человек, общество, техника» г. Таганрог, 2012.

Внедрение результатов работы

Результаты диссертационной работы внедрены в госбюджетной работе № 11056/1 и учебном процессе кафедры теоретических основ радиотехники, а также при выполнении НИР по гранту Российского фонда фундаментальных исследований (проект №10-06-00110а). Публикации

По результатам выполненных исследований опубликовано 12 работ, в том числе 2 статьи в рецензируемых журналах из списка ВАК РФ, одна статья, депонированная в ВИНИТИ РАН, и 9 статей и тезисов докладов в материалах Всероссийских и международных научных конференций и научных школ.

Основные положения, выносимые на защиту

1. В качестве объективных характеристик речевых сигналов предложено использовать временные, спектральные, статистические характеристики, параметры модели линейного предсказания и мел-частотные кепстральные коэффициенты а также производные от них статистические характеристики.

2. Для отбора признаков целесообразно использование методов, основанных на средней взаимной информации как мере статистической связи между признаками и номерами классов, а также между различными признаками.

3. Адекватным поставленной задаче автоматического интонационного анализа является критерий максимума средней взаимной информации, который использовался в качестве целевой функции при обучении классификатора.

4. Для верификации разработанных методов и алгоритмов предложена методика эксперимента по распознаванию эмоционального состояния человека по речи с применением одной из общедоступных баз записей эмоциональной речи. Структура и объем работы.

Диссертационная работа состоит из введения, четырех глав, заключения и списка использованных литературных источников, содержащего 100 наименований. Общий объем работы составляет 137 страниц машинописного текста, включая 16 рисунков и 11 таблиц. ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность темы, обозначено современное состояние исследований в области автоматического интонационного анализа, сформулированы цели исследования, отражены научная новизна и практическая значимость полученных результатов, сформулированы основные положения, выносимые на защиту.

В первой главе произведена формальная постановка задачи автоматического интонационного анализа речи в классификационной форме. Приведены широко

используемые математические модели речевых сигналов, обсуждена сущность процедуры отображения речевого сигнала в многомерное пространство параметров в виде точки или множества точек. Параметры в этом случае играют роль признаков речевого сигнала, на основании которых производится классификация.

Отмечено, что одним из главных факторов, сдерживающих в настоящее время развитие систем автоматического интонационного анализа, является существенный недостаток априорной информации о характере связи субъективных интонационных характеристик с объективными хараю-еристиками речевых сигналов.

Приведена наиболее употребимая на сегодня методика разработки систем автоматического интонационного анализа, в которой используется метод последовательных приближений и которая позволяет при помощи эвристических предположений и специальных процедур свести задачу автоматического интонационного анализа к задаче обучения с учителем, несмотря на существенный недостаток априорной информации.

Эвристические предположения используются на этапе определения множества признаков речевого сигнала, содержащего подмножество признаков, информативных в конкретной задаче интонационного анализа. После определения первоначального множества параметров производится выбор или разработка методов их измерения с точностью, достаточной в рамках конкретной задачи.

Специальные процедуры снижения размерности пространства признаков используются для выделения минимального набора информативных признаков речевого сигнала, достаточного для решения поставленной задачи. Под минимальным набором понимается подмножество первоначально определенного множества признаков.

После решения задачи отбора минимального и достаточного набора признаков производится обучение классификатора на заранее сформированной обучающей выборке, содержащей множество речевых сигналов, в которых представлены типы интонаций, которые требуется различать.

Для проверки качества работы системы с данным набором признаков производится эксперимент по оценке качества распознавания интонаций обученным классификатором. Критерий качества определяется спецификой задачи (средняя вероятность верного распознавания, максимальная вероятность неправильного распознавания и т.д.).

В случае достижения приемлемых результатов задача разработки метода интонационного анализа считается решенной, в случае неудовлетворительных результатов возвращаются к этапу отбора признаков из первоначального множества.

Отмечено, что на каждом из перечисленных этапов существуют проблемы требующие решения. На этапе измерения параметров это сложность оценки одного из важных параметров речевого сигнала - частоты основного тона - вследствие отсутствия досгаточно надежных и быстрых методов. Среди методов снижения размерности пространства признаков также сложно в общем случае найти адекватный поставленной задаче. Наконец, популярные сегодня методы классификации не учитывают особенностей восприятия и обработки информации человеком, что сказывается качестве распознавания интонаций.

На основании приведенной информации сделан вывод о необходимости поиска новых подходов, разработки новых методов и алгоритмов для повышения эффективности автоматического интонационного анализа речевых сигналов.

Во второй главе предложен информационный подход к задаче классификации, основанный на работах Г.А. Голицына, который предложил информационную модель живого организма и принцип максимума (средней взаимной) информации. В соответствии с этим принципом универсальным мотивом при адаптации биологических систем к условиям среды является стремление к максимизации количества средней взаимной

информации между разнообразием стимулов среды X = {л,,^,,...,^} и разнообразием реакций организма У =

р{х„У))

W) = IX/>(w>g-, . , х —

p{x,)p{yj)

В данном подходе используется расширенная трактовка понятия вероятности, предложенная А.Н. Колмогоровым (вероятность как относительная частота, доля, концентрация и т.п.). Приведенное выражение может быть непосредственно использовано в качестве целевой функции обучения классификатора в случае распознавания по одному признаку. Вероятности значений признака р(х,) рассчитываются на основе результатов измерений, вероятности принадлежности к классам р(у/) задаются учителем. Суть обучения заключается в подстройке совместных вероятностей p(xt,yj), хранящихся в памяти классификатора таким образом, чтобы максимизировалось количество средней взаимной информации 1(X,Y). В случае N признаков память классификатора представляет собой (Л'+1 )-мерную таблицу совместных вероятностей.

Таким образом, целевая функция обучения в случае многих признаков может быть

записана в виде:

.....=

Понятие средней взаимной информации, строго говоря, применимо лишь к случаю двух случайных величин. Р. Фано предложил способ обобщения на многомерный случай, но полученная величина не обладает всеми свойствами средней взаимной информации, а предложенные выражения обладают неприемлемой вычислительной сложностью. Поэтому была использована аппроксимация:

Была предложена модель обучения для случая предъявления векторов вероятностей признаков с одним ненулевым (а значит, единичным) значением - т.е. для случая, когда каждый параметр каждого объекта в обучающей выборке принимает одно фиксированное значение. Модель описывается дифференциальным уравнением:

dP(xJ ¡>"'*jN>yjo) ,л(. / \\

-Jf-= «(')(•"/>(*,.....>XjN<yja)) ,

где p(xji,..., xjhy'p) - совместная вероятность (ячейка памяти), соответствующая ненулевым значениям в векторах вероятностей признаков;

a(t) - «внимание» системы, изменяющееся по закону:

a¿ dp(xjr...,xjN,yja)

->0,

о, 31 ,0

dp{xn,...,x]N,yJI) dt

Полученная оптимизационная задача решалась численным методом. При этом остальные вероятности изменялись в направлении градиента целевой функции с нормировкой вероятностей после каждого шага алгоритма.

Задача классификации в рамках данного подхода также может быть представлена в виде оптимизационной задачи, однако к классификации, как правило, предъявляются более строгие требования в плане быстродействия. В связи с этим было решено заменить решение

оптимизационной задачи процедурой расчетов вероятностей принадлежности к каждому классу методом максимального правдоподобия:

а:

Приведенное выражение можно рассматривать как обобщение формулы Байеса на случай, когда несколько событий одновременно происходят с некоторыми, не обязательно единичными вероятностями.

Для преобразования вероятностей принадлежности к классам в гипотезу о принадлежности единственному классу возможно использование методов проверки статистических гипотез, применяемых в статистической радиотехнике.

В третьей главе представлены результаты разработки структуры системы автоматического интонационного анализа и алгоритмов ее функционирования. В данном случае решалась задача распознавания эмоционального состояния человека по его речи, однако полученные выводы применимы и для других приложений интонационного анализа. Предложенная структурная схема системы приведена на рис. 1.

ИС — БИ — ПП ► к — УВ

Рис. 1 — Структурная схема системы интонационного анализа, использующей классификатор, оптимальный в смысле ПМИ. Обозначения: ИС - источник сигнала; БИ -блок измерителей; ПП - преобразователь параметров; К - классификатор; УВ - устройство

вывода

Под источником сигнала (ИС) понимается источник отсчетов оцифрованного речевого сигнала, получаемого в режиме «реального времени», либо воспроизводимого из ранее записанного файла.

Блок измерений (БИ) является устройством, отображающим сигнал в точку в пространстве признаков. Измерения производятся одновременно в трех масштабах времени:

- окна длиной 50 мс которые для краткости названы в работе фреймами;

- отдельные вокализованные звуки;

- окна длиной 1 с, содержащие только вокализованные звуки (такие окна для краткости названы в работе блоками).

Объектом для классификации является блок (окно длиной 1 с).

На выходе БИ получается вектор-столбец оценок параметров для данного блока:

Преобразователь параметров (ПП) на основе вектора-столбца параметров с выхода БИ получает совокупность векторов вероятностей вида

х:-

где фигурные скобки означают совокупность векторов, длины которых в общем случае различны.

Для осуществления подобного преобразования необходимо, чтобы все параметры представляли собой дискретные случайные величины, что в общем случае не так. Поэтому ПП использует адаптивное квантование значений каждого признака, представляющее собой кусочно-линейное отображение области его значений.

При преобразовании параметров необходимо добиться минимальной потери информативности при переходе от непрерывной области значений признаков к дискретной. Суть адаптивного квантования поясняют рис. 2,3. По оценкам условных плотностей вероятности для каждого класса определяются пороговые уровни (на рис. 2 порог А -центральная вертикальная линия), соответствующие границам областей принятия различных гипотез о принадлежности тому или иному классу. Области выделяются с использованием одного из известных критериев проверки статистических гипотез.

1

1

"к "О

О О

Рис. 2 - Пояснения к процедуре адаптивного квантования значении признаков: оценки

условных плотностей вероятностей (слева), /(л("|Я2) (справа), полученные

при исследовании обучающей выборки. Центральная вертикальная линия - порог - граница областей принятия гипотез при использовании критерия минимума полного риска. Крайние вертикальные линии - медианы распределений значений признаков слева и справа от порога

В качестве дискретных значений, в которые отображается область значений признака, были использованы медианы частичных распределений: М, - медиана значений признака,

соответствующих плотности /(д^Я.^'сА), М2 - медиана значений признака,

соответствующих- плотности > /з) .

В результате был разработан преобразователь параметров в виде нелинейного элемента с кусочно-постоянной проходной характеристикой (рис. 3).

Оценки условных плотностей вероятностей получались на этапе предварительного исследования обучающей выборки. Эмпирические плотности вероятностей аппроксимировались кривыми Джонсона. В каждом случае проводилась проверка гипотезы о согласии теоретического распределения с практическим по критерию Крамера-Мизеса-

м2

0,3

о

0,6

Смирнова для сложных гипотез (гипотеза о согласии с параметрическим распределением, параметры которого оцениваются по той же выборке, является сложной).

Под классификатором (К) понимается классификатор, оптимальный в смысле максимума информации.

Устройством вывода (УВ) может быть индикатор или устройство хранения информации.

После обсуждения структуры системы автоматического интонационного анализа обсуждались вопросы выбора

первоначального множества параметров и разработки методов измерений параметров.

Первоначально для каждого блока (окна длительностью 1 с) измерялись параметры, соответствующие этому масштабу времени (динамический диапазон, коэффициент пиковости, средняя частота следования вокализованных звуков, относительная длительность вокализованных звуков). Также вычислялись статистические характеристики параметров, измеренных в масштабе вокализованных звуков (параметры траектории частоты основного тона и огибающих вокализованных звуков) и в масштабе фреймов (параметры мгновенного спектра, параметры модели линейного предсказания, мел-частотные кепстральные коэффициенты, логарифмические частотные коэффициенты мощности). В качестве статистических параметров были выбраны: среднее значение, относительный размах вариации, коэффиент вариации. Всего для каждого блока первоначально измерялись 550 признаков.

Особую сложность представляло получение траектории частоты основного тона, свободной от грубых случайных ошибок. Для решения этой задачи был разработан метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования с последующим дополнительным сглаживанием оценок.

На первом этапе работы алгоритма, реализующего разработанный метод оценки траектории ЧОТ в масштабе фреймов (окон длиной 50 мс) одновременно получались оценки ЧОТ семью методами:

М

Рис. 3 - Пояснения к процедуре адаптивного квантования значений признаков: кусочно-линейная

передаточная характеристика устройства адаптивного квантования для признака

к- го

I.

2.

3.

Автокорреляционный метод - период основного тона оценивается по положению первого от нуля локального максимума дискретной автокорреляционной функции:

Л Л = |

Метод разностной сдвиговой функции (РСФ) - период основного тона оценивается по положению первого от нуля локального минимума РСФ:

Кепстральный метод - период основного тона оценивается нуля пика в кепстре сигнала:

по положению первог о от

1 " , . ( 2л-кпЛ

4. Метод ГГ2 - частота основного тона оценивается по положению первого от нуля пика в амплитудном спектре амплитудного спектра сигнала.

5. Метод гармонического произведения спектра - частота основного тона оценивается по

положению пика функции произведения амплитудного спектра |5(Ш)|: Р(Ш) = П|5(шШ)|,

Псі

где т <

— целое число,

л.

ДГ- количество отсчетов во фрейме (окне длиной 50 мс).

6. Метод «Инь» - период основного тона оценивается по положению первого от нуля минимума функции:

1, если т = 1

<1{тт)

¿'(тг) =

, если т * 1

1 Ы-т . . . чч2

где = + •

Оценки почученные для текущего вокализованного звука, объединялись при обработке речевого сигнала в масштабе вокализованных звуков в двумерный массив чисел, который для первоначального уменьшения числа грубых ошибок обрабатывался двумерным медианным фильтром. Было показано существенное преимущество двумерной медианнои

фильтрации в сравнении с одномерной.

Через точки соответствующие семи оценкам ЧОТ для каждого фрейма, можно провести множество траекторий частоты основного тона. Для определения наилучшей траектории, т.е. для отбрасывания грубых ошибок, применялась процедура постобработки на основе метода

динамического программирования.

Алгоритм, реализующий метод динамического программирования, оценивал траектории,

руководствуясь эвристическими правилами:

1) наилучшей траекторией считается та, которая проходит через средние значения групп, содержащих наибольшее количество оценок;

2) наилучшей траекторией считается та, которая проходит через средние значения групп, в предетах которых среднеквадратическое отклонение (СКО) оценок минимально;

3) наилучшей траекторией считается та, для которой сумма требуемых приращении частоты (по модулю) при переходах от фрейма к фрейму минимальна;

4) наилучшей траекторией считается та, в пределах которой максимальный модуль приращения частоты между соседними окнами минимален.

Первые два правила согласуются с теорией обработки результатов неравноточных измерений, последние два следуют из известных свойств траектории ЧОТ голоса человека.

На этапе выполнения процедуры динамического программирования из каждых семи оценок выбиралась одна. Перед этим, для повышения точности и снижения вычислительных затрат группы оценок, максимальная разница между которыми не превышала 20 1ц, заменялись их средним значением.

Окончательным этапом выделения траектории частоты основного тона было их сглаживание при помощи безматричной аппроксимации/интерполяции линейной

комбинацией многочленов вида pt (х) = (х, - х)к, k = \,...,Q+\ скользящим методом

наименьших квадратов с весовыми функциями в виде радиальных локально определенных функций Вендланда. Этот метод сглаживания показал эффективное подавление остаточных грубых случайных ошибок при достаточно малом искажении резких изменений ЧОТ, объективно присутствовавших в речевом сигнале.

Эксперименты по оценке точности разработанного метода выделения траектории ЧОТ показали снижение вероятности грубых случайных ошибок величиной более 20% в 2 и более раз, ошибок более 50% - в 3 и более раз, по сравнению с семью методами оценки ЧОТ, использованными для получения первичных оценок.

Поскольку полное число первоначально отобранных признаков составило 550, проблема снижения размерности пространства признаков стояла весьма остро. Попытка применения метода главных компонент для решения этой задачи не дала положительных результатов (лучшая средняя вероятность верного распознавания 55% при 350 признаках). Поэтому, учитывая применение информационного подхода в задаче классификации, было решено использовать среднюю взаимную информацию в качестве меры статистической взаимосвязи признаков и вектора номеров классов (т.е. вектора, составленного из классов, к которым принадлежат объекты из обучающей выборки).

Отобранные таким образом признаки было решено объединить в группы сильно взаимосвязанных признаков, выделяемые по критерию средней взаимной информации между признаками в каждой группе. Впоследствии из каждой группы отбиралось по одному признаку.

Для вычисления средней взаимной информации использовалось адаптивное квантование значений признаков, описанное выше.

Полученный набор признаков преобразовывался методом главных компонент для того, чтобы дополнительно уменьшить количество признаков.

Выбор набора признаков, оптимального с точки зрения его размера и средней вероятности верного распознавания классов по этим признаком проводился при использовании классификатора типа L\'N (классификация методом к ближайших соседей). При распознавании отдельных блоков (окон длиной 1с) наилучшие результаты (средняя вероятность верного распознавания при семи классах 82%) были получены при использовании 60-ти признаков. Оптимальным с точки зрения быстродействия и эффективности был признан набор из 16-ти признаков (средняя вероятность верного распознавания при семи классах 69%).

При использовании набора из 16-ти признаков остро встает проблема быстродействия классификатора, оптимального в смысле принципа максимума информации. Для сокращения числа вычислений при работе классификатора необходимо сокращать число совместных вероятностей, хранимых в его памяти. Поскольку дальнейшее сокращение числа признаков существенно снижало качество распознавания, встал вопрос о сокращении числа уровней адаптивного квантования.

Для решения поставленной задачи использовалась процедура укрупнения гипотез, при которой практически совпадающие условные распределения признаков для гипотез Hh , Hh ... заменялись одним распределением для укрупненной гипотезы Я, ИЛИ Hj ИЛИ Нк ИЛИ...

Дополнительно был реализована процедура сокращения числа областей принятия укрупненных гипотез за счет уменьшения числа порогов. Области, где вероятность ошибки и вероятность правильного распознавания достаточно близки, объединялись с соседними областями.

В результате произведенных действий среднее геометрическое число областей принятия укрупненных гипотез составило 2,35. Таким образом, необходимое число ячеек в памяти

классификатора составило около 8-10 .

Было выяснено, что результат обучения классификатора существенно зависит от стратегии обучения. Наилучшие результаты продемонстрировал параллельный перебор представителей классов с минимальной вариацией признаков между классами. Классификатору предъявлялся объект ближайший к центру класса ¡, представленного наименьшим числом объектов. Затем предъявлялся объект;,, ближайший к центру класса), ближайшего к /. После этого предъявлялся объект кь ближайший к центру класса к, ближайшего к у, не считая и т. д. После предъявления одного представителя от каждого класса классификатору предъявлялся объект /2, ближайший к центру класса /, не считая /, и Т.Д.

Таким образом, в третьей главе был использован предложенный во второй главе подход к решению задачи классификации, а также предложены новые методы оценки параметров сигнала и снижения размерности пространства признаков. Названные методы были использованы при разработке структуры системы автоматического интонационного анализа

и алгоритмов ее функционирования.

В четвертой главе представлены результаты эксперимента по оценке эффективности автоматического интонационного анализа при помощи разработанной системы.

Для оценки эффективности был проведен эксперимент по распознаванию семи эмоциональных состояний по речи. Для экперимента использовась Берлинская база записей эмоциональной речи, содержащая 495 записей речи нескольких дикторов (мужчин и женщин), демонстрировавших семь эмоциональных состояний: злость, отвращение, скуку, страх, радость, нейтральное состояние, огорчение.

Методика эксперимента заключалась в последовательном исключении одной записи из базы, обучении классификатора на 494-х речевых фрагментах и классификации исключенного фрагмента. Затем исключался следующий фрагмент и т.п.

Поскольку в общем случае фрагменты содержали более одной секунды вокализованной речи, и на каждом фрагменте могли быть получены различные оценки, для выбора наилучшей гипотезы использовался метод максимального правдоподобия.

В результате эксперимента была получена матрица перепутывания, приведенная в таблице 1.

Таблица 1 - Матрица перепутывания эмоциональных состояний при использовании классификатора, оптимального в смысле

А\Н 1 2 3 4 5 6 7 Р01%

1 75 12 1 3 4 1 0 22

2 2 55 1 2 1 5 1 18

3 4 2 43 2 0 25 5 47

4 1 3 1 36 1 4 0 22

5 12 10 2 6 29 5 0 54

6 0 3 10 3 0 62 1 21

7 0 0 3 1 1 7 50 19

Р10% 20 35 29 32 19 43 12 Р11=71%

Полученный результат был сопоставлен с результатами аналогичных исследований, где была использована Берлинская база записей эмоциональной речи. По средней вероятности верного распознавания разработанная система превосходит аналогичную систему, распознающую семь эмоций, на 16%. В одном из недавних исследований при распознавании

семи эмоций была достигнута средняя вероятность верного распознавания в 82%, однако в них использовалось 1430 признаков сигнала, что не может не сказаться на быстродействии системы. Также известны системы, распознающие меньшее число (шесть) эмоциональных состояний, близкие и превосходящие по эффективности разработанную систему на 4%. В заключении сформулированы основные выводы по диссертационной работе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Для определения минимального набора информативных признаков речевого сигнала разработан трехэтапный метод снижения размерности признакового пространства, использующий критерий средней взаимной информации для определения степени статистической связи между признаками. Экспериментально установлено, что при отборе из первоначального множества 550-ти признаков речевого сигнала наибольшая средняя вероятность верного распознавания семи эмоций методом kNN 0,82 достигается при использовании 60-ти отобранных предложенным методом признаков. В то же время, при отборе признаков методом главных компонент наибольшая средняя вероятность верного распознавания семи эмоций составила 0,55 при отборе 350-ти признаков. Таким образом, было достигнуто существенное повышение надежности распознавания при существенном снижении количества используемых признаков. Последнее означает значительное снижение вычислительных затрат на обработку сигналов.

2. Разработан метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования. Показано снижение количества грубых ошибок величиной более 20% в 2 и более раз, ошибок более 50% - в 3 и более раз по сравнению с семью методами оценки ЧОТ, использованными для получения первичных оценок

3. Разработан классификатор, оптимальный в смысле принципа максимума информации, обучение которого имитирует адаптацию биологического организма к условиям среды обитания. При использовании этого классификатора средняя вероятность верного распознавания семи эмоций по 16-ти признакам составила 71% против 69% у классификатора типа kNN.

4. Разработана структура системы автоматического интонационного анализа, и алгоритмы ее функционирования.

5. Проведен эксперимент, доказавший эффективность разработанной системы, алгоритмов и подходов, лежащих в ее основе.

ПУБЛИКАЦИИ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ Публикации в центральных изданиях, рекомендованных ВАК РФ

1. Марьев A.A. Метод интерпретации результатов измерений параметров речевого сигнала в задачах диагностики психоэмоционального состояния человека по его речи // Инженерный Вестник Дона, №4 2011 г. http://ivdon.ru/magazine/archive/n4y2011/538/ 6с.

2. Марьев A.A. Метод оценки частоты основного тона речи. Технологический институт Южного федерального университета, Таганрог, 2012. — 36 с.—:12 ил. — Деп. в ВИНИТИ 18.04.12, №159 —В2012

3. Марьев A.A. О возможности повышения эффективности автоматического интонационного анализа речи // Инженерный Вестник Дона, №3 2012 г. http://ivdon.ru/magazine/latest/n3y2012/892/

Публикации в других изданиях 1. Марьев A.A. Исследование процессов обнаружения и распознавания человеком сложных акустических сигналов в шумах // Материалы международной научной конференции

с

"Системы и модели в информационном мире", часть 2, 2009. - С. 30-36 Таганрог, изд-во ТТИ ЮФУ

2. Марьев A.A. Методы многокритериальной оценки в диалоге оператор-компьютер при выработке оптимальных решений // Материалы Всероссийской научной конференции «Современные исследовательские и образовательные технологии» — часть 2 — Таганрог: Изд-во ТТИ ЮФУ, 2010. — С. 22—28

3. Марьев A.A. Информационная . модель эстетического восприятия // Материалы Всероссийской научной конференции «Актуальные вопросы исследования общественных и технических систем» — часть 1 — Таганрог: Изд-во ТТИ ЮФУ, 2011. С. 51—55

4. Марьев A.A. Модель информационных взаимодействий в искусстве // VII Ежегодная научная конференция студентов и аспирантов базовых кафедр Южного научного центра РАН: Тезисы докладов (11—25 апреля 2011 г., г. Ростов-на-Дону). Ростов н/Д: Изд-во ЮНЦ РАН, 2011. — С. 132—133

5. Марьев A.A. Метод интерпретации результатов измерений в задачах диагностики психофизиологического состояния человека-оператора по его речи // Фундаментальные, клинические и гигиенические основы и аппаратно-методическое обеспечение системы медико-психологической реабилитации пациентов, подверженных высокому уровню напряженности труда и профессионального стресса. Тезисы трудов Всероссийской научной школы для молодежи. — Ростов н/Д: Изд-во ЮФУ, 2011. — С. 93—97

6. Марьев A.A. Комбинированный метод выделения контура частоты основного тона речи // Материалы Всероссийской научной конференции «Перспективы развития гуманитарных и технических систем» — часть 2 — Таганрог: Изд-во ТТИ ЮФУ, 2011. — С. 46—52

7. Марьев A.A. Классификатор состояния оператора на основе признаков его речи, оптимальный в смысле принципа максимума информации // VIII Ежегодная научная конференция студентов и аспирантов базовых кафедр Южного научного центра РАН: Тезисы докладов (11—26 апреля 2012 г., г. Ростов-на-Дону). Ростов н/Д: Изд-во ЮНЦ РАН, 2012, —С. 166—168

8. A.A. Марьев, В.П. Рыжов, Выбор признаков в задачах распознавания эмоциональных состояний оператора по речевым сигналам //Материалы Всероссийской научной конференции "Актуальные проблемы современности: человек, общество, техника" -часть 2 - Таганрог: Изд-во ТТИ ЮФУ, 2012 С. 31-36

9. A.A. Марьев, О возможности применения метода эмпирической модовой декомпозиции для анализа речевых сигналов //Материалы всероссийской научной конференции "Актуальные проблемы современности: человек, общество, техника" - часть 3 - Таганрог: Изд-во ТТИ ЮФУ, 2012 С. 35-41

Формат 60x84 1/16. Бумага офсетная. Печать оперативная. Печ. л. 1. Тираж 100 экз. Заказ 2 95 Типография ТТИ ЮФУ в г. Таганроге 347928, г. Таганрог, пер. Некрасовский, 44

Оглавление автор диссертации — кандидата технических наук Марьев, Александр Александрович

Введение.

Глава 1. Аналитический обзор методов интонационного анализа человеческой речи.

1.1 Постановка задачи. Математическая модель сигналов. Представление параметров сигнала.

1.2 Основные этапы разработки метода. интонационного анализа речи.

1.2.1 Измерение характеристик сигнала.

1.2.2 Снижение размерности вектора параметров.

1.2.3 Построение классификатора.

Выводы.

Глава 2. Информационный подход к решению задачи классификации.

2.1 Необходимость предложения новых подходов к решению задачи классификации при интонационном анализе.

2.2 Принцип максимума информации. Классификатор, оптимальный в смысле принципа максимума информации.

2.3 Особенности представления объектов. Состав классификатора.

2.4 Обучение классификатора.

2.5 Классификация интонаций.

Выводы.

Глава 3. Система интонационного анализа речи, использующая классификатор, оптимальный в смысле принципа максимума информации.

3.1 Состав системы.

3.2 Измерение параметров речевого сигнала.

3.2.1 Определение границ вокализованных участков речевого сигнала.

3.2.2 Динамический диапазон и коэффициент пиковости.

3.2.3 Средняя частота следования и относительная длительность вокализованных звуков

3.2.4 Характеристики мгновенного спектра.

3.2.5 Характеристики частоты основного тона.

3.2.6 Характеристики огибающих вокализованных участков.

3.2.7 Параметры модели линейного предсказания.

3.2.8 Мел-частотные кепстральные коэффициенты и логарифмические частотные коэффициенты мощности.

3.3 Снижение размерности пространства признаков.

3.3.1 Снижение размерности вектора признаков методом главных компонент.

3.3.2 Использование критерия средней взаимной информации с вектором номеров классов

3.3.3 Группировка признаков с использованием критерия средней взаимной информации между признаками.

3.3.4 Адаптивное квантование значений признаков.

3.4 Обучение классификатора.

Выводы.

Глава 4. Исследование эффективности метода распознавания эмоционального состояния оператора по его речи с применением классификатора, оптимального в смысле ПМИ.

4.1 Задача распознавания эмоционального состояния оператора по его речи.

4.2 Обучение системы.

4.3 Оценка надежности распознавания.

Выводы.

Введение 2012 год, диссертация по радиотехнике и связи, Марьев, Александр Александрович

Актуальность работы

Автоматический интонационный анализ речевых сигналов в настоящее время представляет собой обширную область научных исследований и инженерных разработок на стыке таких направлений, как акустика и психоакустика, радиотехника, системы искусственного интеллекта и распознавание образов, прикладная статистика, фонетика, лингвистика, психология, физиология.

Традиционно в задачах распознавания речи ставилась задача выделения и интерпретации семантической информации - т.е. смысла сказанного. В то же время, за несколько последних десятилетий существенно усилился интерес к интонационному анализу речи. Интонация является носителем просодической информации, сообщающей о том, в какой манере речь была произнесена.

Среди приложений автоматического интонационного анализа стоит отметить такие, как:

- разработка усовершенствованных методов взаимодействия (интерфейсов) человека с компьютером, использующих интонацию как один из способов передачи информации;

- повышение надежности распознавания речи;

- диагностика психоэмоционального состояния человека по голосу;

- совершенствование профессиональных речевых навыков дикторов, работников контакт-центров и представителей иных профессий, в которых особую роль играет общение по речевым каналам связи;

- разработка систем, обучающих правильному интонированию при обучении иностранных языков;

- коррекционная педагогика, обучение детей правильному выражению эмоций с помощью голоса;

- идентификация человека по голосу: установление личности 4 говорящего, либо распознавание его пола, возраста, акцента и т.п.

В нашей стране интонационным анализом занимались и занимаются такие известные ученые, как JI.A. Чистович, В.П. Морозов, И.А. Алдошина, И.Б. Старченко и другие. Среди зарубежных ученых можно отметить имена Г. Фанта, У. Ли. Одной из крупнейших в мире научных школ, разрабатывающих в настоящее время вопросы автоматического интонационного анализа, является немецкая (Felix Burkhardt, Björn Schuller, Anton Batliner, Marc Schroeder и др.).

Решение задачи автоматического интонационного анализа сопряжено с существенными трудностями, многие из которых до сих пор в полной мере не преодолены. Первой из таких трудностей является субъективность интонационных характеристик, таких например, как состояние человека, эмоции, тип произношения. Под субъективностью понимается как изменчивость произношения у различных дикторов и у одного и того же диктора с течением времени, так и трудности формализации интонационных параметров и их объективного измерения.

Указанные сложности являются причиной того, что ни в одном из направлений интонационного анализа речи в настоящий момент не существует общепринятых моделей сигналов и интонаций, не стандартизованы способы измерений и алгоритмы обработки сигналов. И, хотя в ряде приложений достигнуты значительные успехи (например, в распознавании двух состояний оператора, идентификации пола диктора и др.), они в большинстве своем не имеют фундаментальной значимости. В результате исследователи и разработчики систем автоматического интонационного анализа часто вынуждены в своей работе исходить из эвристических соображений, не имея достаточного количества априорной информации.

Существенным недостатком многих существующих методов обработки речевых сигналов, используемых в интонационном анализе, является формальность их подхода к задаче, недостаточный учет особенностей восприятия и обработки информации человеком. Таковы, к примеру, методы выделения частоты основного тона, основанные на полигармонической модели речевого сигнала, или методы распознавания, предполагающие линейную статистическую связь между интонацией и объективными характеристиками речевого сигнала.

В сложившейся ситуации возрастающего спроса на системы автоматического интонационного анализа для разнообразных приложений существует необходимость поиска новых подходов к решению данной задачи, которые бы обладали достаточной надежностью и универсальностью. Очевидно, для построения подобных систем необходимо более полно учитывать научные знания о человеке.

Объектом исследования являются речевые сигналы, содержащие интонационную (просодическую) информацию.

Предметом исследования являются методы обработки речевых сигналов, позволяющие извлекать интонационную информацию из речевого сигнала и интерпретировать ее.

Целью диссертационной работы является повышение эффективности выделения и интерпретации интонационной информации, содержащейся в речевом сигнале.

Основными задачами, которые требуется решить для достижения поставленной цели, являются:

1. Разработка метода определения минимального набора информативных признаков (характеристик) речевого сигнала, при котором возможно достижение приемлемого качества интонационного анализа.

2. Разработка методов измерения набора информативных характеристик речевого сигнала.

3. Разработка метода классификации интонаций, учитывающего особенности восприятия и обработки информации человеком.

4. Построение структуры и алгоритмов функционирования системы автоматического интонационного анализа, исследование эффективности автоматического интонационного анализа.

Научная новизна

В рамках диссертационной работы получены следующие новые научные результаты:

1. Предложен метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования.

2. Разработан метод адаптивного квантования значений признаков, представляющий собой кусочно-постоянное отображение области значений признаков, использующее оценки их статистических характеристик, полученные по обучающей выборке.

3. Предложен трехэтапный метод снижения размерности пространства признаков речевого сигнала (отбора наиболее информативных признаков), основанный на информационной мере близости признаков, с выделением главных компонент на заключительном этапе.

4. Разработан метод классификации интонаций, основанный на информационном подходе к задаче распознавания, оптимальный в смысле принципа максимума информации.

5. Разработана структура системы автоматического интонационного анализа и алгоритмы ее функционирования, в том числе: а) алгоритм одновременного измерения параметров речевого сигнала в трех масштабах времени (фрагменты длительностью в десятки мс, отдельные вокализованные звуки, участки длительностью в единицы секунд); б) алгоритм адаптивного квантования значений признаков, позволяющий минимизировать потерю информативности признаков при их квантовании; в) алгоритм выделения полносвязных групп признаков максимального размера по критерию средней взаимной информации между ними; г) алгоритм обучения классификатора, оптимального в смысле принципа максимума информации.

Практическая ценность работы

1. Разработано программное обеспечение, в котором реализован метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования. Показано, что применение данного метода позволяет снизить вероятность появления на оценке траектории ЧОТ грубых случайных ошибок величиной более 20% в 2 и более раз, ошибок более 50% - в 3 и более раз по сравнению с семью популярными методами оценки траектории ЧОТ.

2. Разработано программное обеспечение для автоматизированного решения задачи снижения размерности пространства признаков речевых сигналов в три этапа: а) отбор из первоначального множества признаков подмножества по критерию средней взаимной информации с вектором номеров классов (на основе заданного порога); б) объединение признаков из выбранного на первом этапе подмножества в группы максимального размера по критерию, в каждой из которых количество средней взаимной информации между каждыми двумя признаками превышает заданный порог; отбор одного признака из каждой группы; в) преобразование отобранных на втором этапе признаков по методу главных компонент, отбор N первых главных компонент по критерию совокупной дисперсии.

Для выполнения первых двух этапов выполнялось адаптивное квантование значений признаков по разработанному методу. Показана высокая эффективность разработанного программного обеспечения при решении задачи снижения размерности признакового пространства в задаче автоматического распознавания семи эмоциональных состояний по речевому сигналу: наибольшая средняя вероятность правильного распознавания 0,82 была достигнута при использовании 60-ти признаков из первоначального множества 550-ти признаков. В эксперименте с использованием только метода главных компонент для отбора признаков наибольшая средняя вероятность верного распознавания 0,55 была достигнута при использовании 350 признаков из того же первоначального множества.

3. Создана программная реализация системы автоматического интонационного анализа, использующей 16 признаков речевого сигнала классификатор, оптимальный в смысле принципа максимума информации либо классификатор типа кЫИ (распознавание по методу к ближайших соседей). Экспериментально показано, что относительно невысокая вычислительная сложность разработанных алгоритмов допускает распознавание интонаций в режиме реального времени при вычислениях на настольном ПК. Установлено, что средняя вероятность правильного распознавания семи эмоциональных состояний диктора по речи составила 0,71 при отсутствии зависимости от диктора. В эксперименте использовалась Берлинская база записей эмоциональной речи. Ряд известных систем-аналогов при сопоставимых результатах различали меньшее число эмоциональных состояний (шесть). Средняя вероятность верного распознавания семи состояний в аналогичном исследовании составила 0,55 при использовании другого типа классификатора.

Методы исследования основаны на использовании аппарата математической статистики, теории информации, элементов теории графов и теории множеств. Использовались методы статистической радиотехники, акустики, цифровой обработки сигналов, прикладной статистики, теории эвристических решений, а также некоторые данные психоакустики и физиологии. Проверка теоретических выводов производилась путем постановки и проведения эксперимента по распознаванию семи эмоциональных состояний на материале Берлинской базы записей эмоциональной речи.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на следующих научных конференциях и научных школах: международной научной конференции «Системы и модели в информационном мире», г. Таганрог, 2009; международной научной конференции «Методы и алгоритмы принятия эффективных решений», г. Таганрог, 2009; научной школе для молодежи «Нейробиология и новые подходы к искусственному интеллекту и науке о мозге», г. Таганрог, 2010; Всероссийской научной конференции «Современные исследовательские и образовательные технологии», г. Таганрог, 2010; Всероссийской научной конференции «Актуальные вопросы исследования общественных и технических систем», г. Таганрог, 2011; VII Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, г. Ростов-на-Дону, 2011; Всероссийской научной школе для молодежи «Фундаментальные, клинические и гигиенические основы и аппаратно-методическое обеспечение системы медико-психологической реабилитации пациентов, подверженных высокому уровню напряженности труда и профессионального стресса», г. Ростов-на-Дону, 2011; Всероссийской научной конференции «Перспективы развития гуманитарных и технических систем», г. Таганрог, 2011; VIII Ежегодной научной конференции студентов и аспирантов базовых кафедр Южного научного центра РАН, г. Ростов-на-Дону, 2012; Всероссийской научной конференции «Актуальные проблемы современности: человек, общество, техника» г. Таганрог, 2012.

Внедрение результатов работы

Результаты диссертационной работы внедрены в госбюджетной работе № 11056/1 и учебном процессе кафедры теоретических основ радиотехники, а также при выполнении НИР по гранту Российского фонда фундаментальных исследований (проект №10-06-00110а).

Публикации

По результатам выполненных исследований опубликовано 12 работ, в том числе 2 статьи в рецензируемых журналах из списка ВАК РФ, одна статья, депонированная в ВИНИТИ РАН, и 9 статей и тезисов докладов в материалах Всероссийских и международных научных конференций и научных школ.

Основные положения, выносимые на защиту:

1) в качестве объективных характеристик речевых сигналов предложено использовать временные, спектральные, статистические характеристики, параметры модели линейного предсказания и мел-частотные кепстральные коэффициенты а также производные от них статистические характеристики;

2) для отбора признаков целесообразно использование методов, основанных на средней взаимной информации как мере статистической связи между признаками и номерами классов, а также между различными признаками;

3) адекватным поставленной задаче автоматического интонационного анализа является критерий максимума средней взаимной информации, который использовался в качестве целевой функции при обучении классификатора;

4) для верификации разработанных методов и алгоритмов предложеноа методика эксперимента по распознаванию эмоционального состояния человека по речи с применением одной из общедоступных баз записей эмоциональной речи.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка использованных литературных источников, содержащего 100 наименований. Общий объем работы составляет 137 страниц машинописного текста, включая 16 рисунков и 11 таблиц.

Во введении обоснована актуальность темы, обозначено современное состояние исследований в области автоматического интонационного анализа, сформулированы цели исследования, отражены научная новизна и практическая значимость полученных результатов, сформулированы основные положения, выносимые на защиту.

В первой главе произведена формальная постановка задачи автоматического интонационного анализа речи в классификационной форме. Приведены широко используемые математические модели речевых сигналов, обсуждена сущность процедуры отображения речевого сигнала в многомерное пространство параметров в виде точки или множества точек. Параметры в этом случае играют роль признаков речевого сигнала, на основании которых производится классификация.

Отмечено, что одним из главных факторов, сдерживающих в настоящее время развитие систем автоматического интонационного анализа, является существенный недостаток априорной информации о характере связи субъективных интонационных характеристик с объективными характеристиками речевых сигналов.

Приведена наиболее употребимая на сегодня методика разработки систем автоматического интонационного анализа, в которой используется метод последовательных приближений, и которая позволяет при помощи эвристических предположений и специальных процедур свести задачу автоматического интонационного анализа к задаче обучения с учителем, несмотря на существенный недостаток априорной информации.

Эвристические предположения используются на этапе определения множества признаков речевого сигнала, содержащего подмножество признаков, информативных в конкретной задаче интонационного анализа.

После определения первоначального множества параметров производится выбор или разработка методов их измерения с точностью, достаточной в рамках конкретной задачи.

Специальные процедуры снижения размерности пространства признаков используются для выделения минимального и достаточного набора информативных признаков из первоначально определенного множества.

После решения задачи отбора минимального и достаточного набора признаков производится обучение классификатора на заранее сформированной обучающей выборке, содержащей множество речевых сигналов, в которых представлены типы интонаций, которые требуется различать.

Для проверки качества работы системы с данным набором признаков производится эксперимент по оценке качества распознавания интонаций обученным классификатором. Критерий качества определяется спецификой задачи (средняя вероятность верного распознавания, максимальная вероятность неправильного распознавания и т.д.).

В случае достижения приемлемых результатов задача разработки метода интонационного анализа считается решенной, в случае неудовлетворительных результатов возвращаются к этапу отбора признаков из первоначального множества.

Отмечено, что на каждом из перечисленных этапов существуют проблемы требующие решения. На этапе измерения параметров это сложность оценки одного из важных параметров речевого сигнала - частоты основного тона - вследствие отсутствия достаточно надежных и быстрых методов. Среди методов снижения размерности пространства признаков также сложно в общем случае найти адекватный поставленной задаче. Наконец, популярные сегодня методы классификации не учитывают особенностей восприятия и обработки информации человеком, что сказывается качестве распознавания интонаций.

На основании приведенных рассуждений сделан вывод о необходимости поиска новых подходов, разработки новых методов и алгоритмов для повышения эффективности автоматического интонационного анализа речевых сигналов.

Во второй главе предложен информационный подход к задаче классификации, основанный на работах Г.А. Голицына, который предложил информационную модель живого организма и принцип максимума (средней взаимной) информации. В соответствии с этим принципом универсальным мотивом при адаптации биологических систем к условиям среды является стремление к максимизации количества средней взаимной информации между разнообразием стимулов среды и разнообразием реакций организма.

В данном подходе используется расширенная трактовка понятия вероятности, предложенная А.Н. Колмогоровым (вероятность как относительная частота, доля, концентрация и т.п.). Суть обучения заключается в подстройке совместных вероятностей реакций системы и стимулов среды, хранящихся в памяти классификатора таким образом, чтобы максимизировалось количество средней взаимной информации между стимулами среды и реакциями системы.

Понятие средней взаимной информации, строго говоря, применимо лишь к случаю двух случайных величин. Р. Фано предложил способ обобщения на многомерный случай, но полученная величина не обладает всеми свойствами средней взаимной информации, а предложенные выражения обладают неприемлемой вычислительной сложностью. Поэтому была использована аппроксимация средней взаимной информации многих случайных величин через сумму количеств средней взаимной информации для всех возможных пар случайных величин.

Была предложена модель обучения для случая предъявления векторов вероятностей признаков с одним ненулевым (а значит, единичным) значением - т.е. для случая, когда каждый параметр каждого объекта в обучающей выборке принимает одно фиксированное значение Задача обучения при этом была сведена к оптимизационной задаче, которая решалась численным методом.

Задача классификации в рамках данного подхода также может быть представлена в виде оптимизационной задачи, однако к классификации, как правило, предъявляются более строгие требования в плане быстродействия. В связи с этим было решено заменить решение оптимизационной задачи процедурой расчетов вероятностей принадлежности к каждому классу методом максимального правдоподобия.

В третьей главе представлены результаты разработки структуры системы автоматического интонационного анализа и алгоритмов ее функционирования, а также вопросы выбора первоначального множества параметров и разработки методов их измерений.

В данном случае решалась задача распознавания эмоционального состояния человека по его речи, однако полученные выводы применимы и для других приложений интонационного анализа.

Отобранное первоначальное множество признаков речевого сигнала содержало как мгновенные, так и интегральные характеристики сигнала, что потребовало организации измерений в трех масштабах времени. На отрезках длиной 50 мс (названных фреймами), в пределах которых речевой сигнал обладает достаточной стационарностью, измерялись мгновенные характеристики (параметры мгновенного спектра, параметры модели линейного предсказания, мел-частотные кепстральные коэффициенты, логарифмические частотные коэффициенты мощности). Также речевой сигнал сегментировался по признаку «тон/не тон», и для вокализованных звуков оценивались соответствующие характеристики (параметры траектории частоты основного тона и огибающих вокализованных звуков). Наконец, из речевой сигнала с исключенными невокализованными фрагментами с перекрытием 50% выделялись фрагменты длиной 1 с (названные блоками), для каждого из которых оценивались параметры: динамический диапазон, коэффициент пиковости, средняя частота следования вокализованных звуков, относительная длительность вокализованных звуков. Также в масштабе блоков вычислялись статистические характеристики параметров, измеренных в масштабе вокализованных звуков и в масштабе фреймов

В качестве статистических параметров были выбраны: среднее значение, относительный размах вариации, коэффициент вариации. Всего для каждого блока первоначально измерялись 550 признаков.

Особую сложность представляло получение траектории частоты основного тона, свободной от грубых случайных ошибок. Для решения этой задачи был разработан метод оценки траектории частоты основного тона (ЧОТ) речи с использованием первичных оценок, полученных несколькими методами, и процедуры постобработки методом динамического программирования с последующим дополнительным сглаживанием оценок.

Эксперименты по оценке точности разработанного метода выделения траектории ЧОТ показали снижение вероятности грубых случайных ошибок величиной более 20% в 2 и более раз, ошибок более 50% - в 3 и более раз по сравнению с семью методами оценки ЧОТ, использованными для получения первичных оценок.

Поскольку полное число первоначально отобранных признаков составило 550, проблема снижения размерности пространства признаков стояла весьма остро. Попытка применения метода главных компонент для решения этой задачи не дала положительных результатов (лучшая средняя вероятность верного распознавания составила 0,55 при 350 признаках). Поэтому, учитывая применение информационного подхода в задаче классификации, было решено использовать среднюю взаимную информацию в качестве меры статистической взаимосвязи признаков и вектора номеров классов (т.е. вектора, составленного из классов, к которым принадлежат объекты из обучающей выборки).

Отобранные таким образом признаки было решено объединить в группы сильно взаимосвязанных признаков, выделяемые по критерию средней взаимной информации между признаками в каждой группе. Впоследствии из каждой группы отбиралось по одному признаку.

Для вычисления средней взаимной информации использовалось адаптивное квантование значений признаков.

Полученный набор признаков преобразовывался методом главных компонент для того, чтобы дополнительно уменьшить количество признаков.

Выбор набора признаков, оптимального с точки зрения его размера и средней вероятности верного распознавания классов по этим признакам проводился при использовании классификатора типа (классификация методом к ближайших соседей). При распознавании отдельных блоков (окон длиной 1с) наилучшие результаты (средняя вероятность верного распознавания при семи классах 0,82) были получены при использовании 60-ти признаков.

При использовании набора из 60-ти признаков остро встает проблема быстродействия классификатора, оптимального в смысле принципа максимума информации. Для сокращения количества необходимых вычислений и требуемого объема памяти классификатора использовалась процедура укрупнения гипотез, при которой практически совпадающие условные распределения признаков для гипотез Н„ , Н. заменялись одним распределением для укрупненной гипотезы Н, ИЛИ //, ИЛИ Нк ИЛИ.

Дополнительно была реализована процедура сокращения числа областей принятия укрупненных гипотез за счет уменьшения числа порогов. Области, где вероятность ошибки в достаточной мере приближалась к вероятности правильного распознавания, объединялись с соседними областями.

В результате произведенных действий среднее геометрическое число областей принятия укрупненных гипотез составило 2,35. Таким образом, необходимое число ячеек в памяти классификатора составило около 8-105.

Было выяснено, что результат обучения классификатора существенно зависит от стратегии обучения. Наилучшие результаты продемонстрировал признаков между классами. Классификатору предъявляется объект /ь ближайший к центру класса представленного наименьшим числом объектов. Затем предъявляется объект /ь ближайший к центру класса у, ближайшего к г. После этого предъявляется объект к\, ближайший к центру класса к, ближайшего к у, не считая /', и т. д. После предъявления одного представителя от каждого класса классификатору предъявляется объект 12, ближайший к центру класса /, не считая /] и т.д.

Таким образом, в третьей главе был использован предложенный во второй главе подход к решению задачи классификации, а также предложены новые методы оценки параметров сигнала и снижения размерности пространства признаков. Названные методы в совокупности были использованы при разработке структуры системы автоматического интонационного анализа и алгоритмов ее функционирования.

В четвертой главе представлены результаты эксперимента по оценке эффективности автоматического интонационного анализа при помощи разработанной системы.

Для оценки эффективности был проведен эксперимент по распознаванию семи эмоциональных состояний по речи. Для эксперимента использовалась Берлинская база записей эмоциональной речи, содержащая 495 записей речи нескольких дикторов (мужчин и женщин), демонстрировавших семь эмоциональных состояний: злость, отвращение, скуку, страх, радость, нейтральное состояние, огорчение.

Методика эксперимента заключалась в последовательном исключении одной записи из базы, обучении классификатора на 494-х речевых фрагментах и классификации исключенного фрагмента. Затем исключался следующий фрагмент и т.п.

Поскольку в общем случае фрагменты содержали более одной секунды вокализованной речи, и на каждом фрагменте могли быть получены различные оценки, для выбора наилучшей гипотезы использовался метод максимального правдоподобия.

Полученный результат был сопоставлен с результатами аналогичных исследований, где была использована Берлинская база записей эмоциональной речи. По средней вероятности верного распознавания разработанная система превосходит аналогичную систему, распознающую семь эмоций, на 16% (71% против 55%). В одном из недавних исследований при распознавании семи эмоций была достигнута средняя вероятность верного распознавания в 82%, однако в них использовалось 1430 признаков сигнала, что не может не сказаться на быстродействии системы. Также известны системы, распознающие меньшее число (шесть) эмоциональных состояний, близкие и превосходящие по эффективности данную на 4%.

В заключении сформулированы основные выводы по диссертационной работе.

Заключение диссертация на тему "Методы и алгоритмы повышения эффективности автоматического интонационного анализа речевых сигналов"

Выводы

В четвертой главе описан частный случай задачи интонационного анализа - распознавание эмоций по голосу - и приведены результаты экспериментов по распознаванию семи эмоциональных состояний с применением разработанной системы интонационного анализа. Для экспериментов использовалась база речевых записей, называемая Берлинским корпусом эмоциональной речи, материалы которой свободно доступны в сети Интернет. Достигнутая средняя вероятность верного распознавания семи эмоций по 16-ти признакам составила 71%. Данный результат существенно (на 16%) превосходит результаты аналогичного исследования, в котором распознавались 7 эмоциональных состояний, и находится примерно на одном уровне с результатами ряда исследований, в которых использовался Берлинский корпус эмоциональной речи и распознавались 6 состояний.

Заключение

В ходе выполнения диссертационной работы был выявлен недостаток существующих подходов к решению задачи автоматического интонационного анализа, заключающийся в неполном использовании знаний об особенностях восприятия и обработки информации человеком. По-видимому, это обстоятельство является одной из причин неудовлетворительной эффективности существующих систем автоматического интонационного анализа. Недостаточное использование знаний о восприятии и обработке информации человеком проявляется, прежде всего, в формальном подходе к выбору классификатора для интонационного анализа, что наблюдается повсеместно. Этим же обстоятельством могут быть объяснены недостаток априорной информации при формировании первичного набора признаков речевого сигнала и выборе метода снижения размерности данных.

В результате проведения настоящего исследования был предложен метод классификации интонаций, основанный на информационном подходе к распознаванию и учитывающий знания об особенностях восприятия и обработки информации человеком. На основе предложенного метода был разработан классификатор, оптимальный в смысле принципа максимума информации и разработана система автоматического интонационного анализа на его основе.

Был разработан метод оценки траектории частоты основного тона, использующий первичные оценки, полученные несколькими методами, и постобработку методом динамического программирования. Применение нового метода позволило существенно снизить частоту грубых ошибок при малых вычислительных затратах.

Был разработан метод отбора наиболее информативных признаков речи, предполагающий три этапа обработки:

1) отбор признаков по критерию средней взаимной информации с вектором номеров классов;

2) объединение отобранных признаков в группы максимального размера по критерию средней взаимной информации между признаками, отбор по одному признаку из каждой группы;

3) преобразование отобранных признаков методом главных компонент с отсеиванием малоинформативных.

Метод отбора наиболее информативных признаков сигнала показал высокую эффективность и позволил существенно снизить количество признаков при существенном повышении средней вероятности верного распознавания интонации.

Таким образом, можно утверждать, что все заявленные цели исследования были достигнуты.

Дополнительно в ходе исследования были получены следующие результаты:

- Предложен метод кусочно-линейного отображения области значений признаков (метод адаптивного квантования), основанный на априорной статистической информации, который позволил минимизировать потерю информативности при квантовании значений признаков.

- Для обучения классификатора, оптимального в смысле принципа максимума информации, был предложен ряд стратегий, из которых была определена наиболее эффективная.

- Для оценки эффективности предложенной системы интонационного анализа с ее помощью была решена задача распознавания эмоционального состояния диктора по речи. Обучение классификатора и оценка надежности распознавания проводились на материале Берлинского корпуса эмоциональной речи, распознавались семь эмоций.

- Наряду с классификатором, оптимальным в смысле принципе максимума информации, для сравнения использовал классификатор типа к ближайших соседей). Также было проведено сравнение результатов эксперимента по распознаванию с результатами похожих исследований, в которых использовался Берлинский корпус эмоциональной речи. - Сравнение с классификацией методом к ближайших соседей показало несколько меньшую эффективность последнего в сравнении с предложенным методом (средняя вероятность верного распознавания 69% против 71%).

Сравнение с результатами похожих исследований показало существенное (на 16%) улучшение эффективности по сравнению с одним из исследований. При этом средние вероятности верного распознавания шести состояний, приведенные в опубликованных работах, лишь на 4% превышали достигнутую в настоящем исследовании для семи эмоциональных состояний.

Библиография Марьев, Александр Александрович, диссертация по теме Радиотехника, в том числе системы и устройства телевидения

1. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ. / Под ред. У.Ли. М.: Мир, 1983. - Кн. 1. 328 е., ил.

2. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. -М.: Радио и связь, 2000 456 е.: ил.

3. O.A. Вишнякова, Д.Н. Лавров, Применение преобразования Гильберта-Хуанга к задаче сегментации речи // Математические структуры и моделирование 2011, вып. 24, с. 12-18

4. Кодзасов С. В., Кривнова О. Ф. Общая фонетика. М.: Изд-во РГГУ, 2001. - 592с.

5. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. 284 с.

6. Голубинский А.Н., Булгаков О.М. Метод оценки формантных частот, основанный на полигармонической математической модели речевого сигнала // Речевые технологии №3, 2010. С. 29-34

7. Lawrence R. Rabiner and Biing-Hwang Juang Fundamentals of Speech Recognition. Prentice Hall, 1993. - 496 p.

8. Физиология речи. Восприятие речи человеком. Чистович Л.А., Венцов A.B., Гранстрем М.П. и др. Л.: "Наука", 1976. - 388 с.

9. Т. Sobol Shikler, "Analysis of Affective Expression in Speech," PhD dissertation, Cambridge Univ., 2007

10. Автоматическое определение изменений эмоционального состояния по речевому сигналу, Лукьяница A.A., Шишкин А.Г. //Речевые технологии, 2009 №3 С.60-76

11. Peeters, G. "A large set of audio features for sound description (similarity and classification) in the cuidado project," IRCAM, Paris, Tech. Rep., 2004.

12. Ying Sun, Jiemin Yin, Xueying Zhang, Study for Classification of Emotional Speech by using Optimized Frame Zero Crossing with Peak Amplitudes Feature Extraction Algorithm // Journal of Computational Information Systems 2011 Vol. 7 (10): 3508- 3515

13. Алдошина И. Основы психоакустики, часть 17. // Звукорежиссер 2004, № 4.

14. Bjorn Schuller, Ronald Muller, Manfred К. Lang, Gerhard Rigoll: Speaker independent emotion recognition by early fusion of acoustic and linguistic features within ensembles. INTERSPEECH 2005: 805-808

15. Jankowski Jr., C. R., Quatieri, T. F., Reynolds, D. A., Measuring Fine Structure in Speech: Application to Speaker Identification, Proc. ICASSP '95, pp. 325-328, 1995.

16. L. R. Rabiner, M. Cheng, A. Rosemberg, C. McGoegal. A Comparative Performance Study of Several Pitch Detection Algorithms. IEEE Trans, on Acoustics, Speech, and Signal Processing, vol. ASSP-24, №5, 399-418, October 1976.

17. D. Gerhard. Pitch Extraction and Fundamental Frequency: History and Current Techniques, technical report, Dept. of Computer Science, University of Regina, 2003

18. A de Chevigne and H. Kawahara, "Comparative evaluation of F0 estimation algorithms," in Proc. of EUROSPEECH, 2001, pp. 2451-2454.

19. Применение цифровой обработки сигналов. Под ред. Э. Оппенгейма М.: Мир, 1980. - 552 с.

20. Huang X., Acero A., Hon H-W. Spoken Language Processing: a guide totheory, algorithms, and system development, Prentice Hall, NJ, 2001. 965 p.

21. T.L. Nwe, F.S. Wei, L.C. De Silva, Speech Emotion Recognition Using Hidden Markov Models // Elsevier Speech Communications Journal Vol. 41, Issue 4, pp. 603-623, November 2003

22. Прикладная статистика: Классификации и снижение размерности: Справ, изд. / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков, JI. Д. Мешалкин. Под ред. С. А. Айвазяна.- М.: Финансы и статистика, 1989.- 607 с: ил.

23. Эсбенсен К. Анализ многомерных данных. Избранные главы / Пер. с англ. С.В. Кучерявского; Под ред. О.Е. Родионовой. Черноголовка: Изд-во ИПХФ РАН, 2005. - 160 с.

24. Френке JI. Теория сигналов. Нью-Джерси, 1969 г. Пер. с англ., под ред. Д.Е. Вакмана. М.: "Сов. радио", 1974, 344 с.

25. Imola К. Fodor A survey of dimension reduction techniques, Center for Applied Scientific Computing, Lawrence Livermore National Laboratory, Livermore. Tech. Rep., 2002.

26. Факторный, дискриминантный и кластерный анализ: Пер. с англ./Дж.-О. Ким, Ч.У. Мьюллер, У.Р. Клекка и др.; Под ред. И.С. Енюкова. М.: Финансы и статистика, 1989. - 215 е.: ил.

27. Лепский А.Е., Броневич А.Г. Математические методы распознавания образов: Курс лекций. Таганрог: Изд-во ТТИ ЮФУ, 2009. - 155 с.

28. Iliev, Alexander Iliev, "Emotion Recognition Using Glottal and Prosodic Features" (2009). Open Access Dissertations. Paper 515. http://scholarlyrepository.miami.edU/oadissertations/515

29. Дуда P., Харт П. Распозавание образов и анализ сцен. М.: Мир, 1976. -507 с.

30. Theodoros Iliou, Christos-Nikolaos Anagnostopoulos, Classification on Speech Emotion Recognition-A Comparative Study, International Journal on Advances in Life Sciences, vol. 2 no 1 & 2, 2010. pp. 18-28.

31. T.L.Nwe,Analysis and Detection of Human Emotion and Stress from Speech Signals, PhD thesis, Department of Electrical and Computer Engineering, National University of Singapore, 2003

32. Dellaert, F., Polzin, T.,Waibel, A., 1996. Recognizing emotion in speech. In: Proc. Int. Conf. Spoken Language Processing (ICSLP '96). Vol. 3. pp. 19701973.

33. Rahurkar MA, Hansen JHL (2003) Towards affect recognition: an ICA approach. In: Proceedings of 4th international symposium on independent component analysis and blind signal separation (ICA2003), Nara, April 1-4, pp 1017-1022

34. Bagshaw P., "Automatic Prosodic Analysis for Computer Aided Pronunciation Teaching", Unpublished PhD. Dissertation, Univ. of Edinburgh, UK, 1994

35. Н.Э. Хейдоров, Янь Цзинбинь, У Ши, A.M. Сорока, А.А. Трус Классификация эмоционально окрашенной речи с использованием метода опорных векторов //Речевые технологии № 3 2008 С. 63-71

36. Ромашкин Ю.Н., Петров Ю.О. Распознавание пола диктора на основе GMM-модели голоса //Речевые технологии №2 2009 С. 31-38

37. Gudnason, J.: Voice Source Cepstrum Processing for Speaker Identification.1.ndon, Imperial College, Diss., March 2007

38. Марьев А.А. Исследование обнаружения и распознавания акустических сигналов в шумах человеком //Дипломная работа. — Таганрог, 2009

39. Марьев А.А. Исследование процессов обнаружения и распознавания человеком сложных акустических сигналов в шумах // Материалы международной научной конференции "Системы и модели в информационном мире", часть 2, 2009. С. 30-36 Таганрог, изд-во ТТИ ЮФУ

40. Голицын Г.А. Информация и творчество: на пути к интегральной культуре М.: «Русский мир», 1997. - 304 с.

41. Р. Фано Передача информации. Статистическая теория связи. Пер. с англ. -М.: «Мир», 1965.-438 с.

42. Бертсекас Д. Условная оптимизация и методы множителей Лагранжа: Пер. с англ. М.: Радио и связь, 1987. - 400 е.: ил.

43. Nocedal J., Wright S., Numerical Optimization 2nd ed. Springer, 2006, XXII, 664 p.

44. Марьев А.А. Метод интерпретации результатов измерений параметров речевого сигнала в задачах диагностики психоэмоционального состояния человека по его речи // Инженерный Вестник Дона, №4 2011 г. http://ivdon.ru/magazine/archive/n4y2011/538/ 6с.

45. Зайцев В.Ф., Полянин А.Д. Справочник по обыкновенным дифференциальным уравнениям. — М.: Физматлит, 2001. — 576 с.

46. Харкевич, А. А. Борьба с помехами. — 2-е изд., доп. и перераб. — М.: Наука, 1965. —276 с.

47. Chung-Hsien Wu, Ze-Jing Chuang, Emotion Recognition from Speech Using IG-Based Feature Compensation // Computational Linguistics and Chinese Language Processing, Vol. 12, No. 1, March 2007, pp. 65-78

48. M. Kotti, F. Paterno, and C. Kotropoulos, "Speaker-independent negative emotion recognition", in Proc. 2nd Int. Workshop Cognitive Information Processing, Elba Island, Italy, June 2010

49. Метод оценки частоты основного тона речи. Марьев А.А. Технологический институт Южного федерального университета, Таганрог, 2012. — 36 е.—:12 ил. — Деп. в ВИНИТИ 18.04.12, №159 — В2012

50. Рабинер Л., Гоулд Б., Теория и применение цифровой обработки сигналов. Пер. с англ., — М.: Мир, 1978. — 848 с.

51. Сергиенко А.Б., Цифровая обработка сигналов. — СПб.: Питер, 2002. — 608 с.

52. Kenney, J. F. and Keeping, Е. S. "The k-Statistics." §7.9 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 99-100, 1962.

53. Фельдкеллер P., Цвикер Э. Ухо как приёмник информации М.: Связь, 1965. - 104 е.: ил.

54. A new algorithm for instantaneous FO speech extraction based on Ensemble Empirical Mode Decomposition G. Schlotthauer, M. E. Torres, H. L. Rufiner Proc. of the 17th European Signal Processing Conference (EUSIPCO 2009), page 2347—2351 August 24—28 2009

55. Hagmuller, M.,and Kubin, G.: Poincare pitch marks. Speech Communication,. Vol. 48 (2006) 1650-1665.

56. Марьев A.A. Комбинированный метод выделения контура частоты основного тона речи // Материалы Всероссийской научной конференции «Перспективы развития гуманитарных и технических систем» — часть 2 — Таганрог: Изд-во ТТИ ЮФУ, 2011. — С. 46—52

57. Баронин С.П. Автокорреляционный метод выделения основного тона речи. Пятьдесят лет спустя // Речевые технологии 2008. № 2. С. 3-12

58. К. Abdullah-Al-Mamun, F. Sarker, G. Muhammad, A High Resolution Pitch Detection Algorithm Based on AMDF and ACF Journal of Scientific Research; Vol 1, No 3 (2009): Journal of Scientific Research; 508-515

59. Shimamura Т., Kobayashi H. Weighted autocorrelation for pitch extraction of noisy speech // IEEE Trans. Speech Audio Process, 2001, V. 9(7), P. 727-730

60. L.R. Rabiner, M.J. Cheng, A.E. Rosenberg, C.A. McGonegal, A comparative perfomance study of several pitch detection algorithms // IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-24, No.5, Oct. 1976

61. Sylvain Marchand, An Efficient Pitch-Tracking Algorithm Using a Combination of Fourier Transforms Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-01), Limerick, Ireland, December 6-8, 2001

62. Рабинер JI.P., Шафер P.B., Цифровая обработка речевых сигналов: Пер. сангл./Под ред. М.В. Назарова и Ю.Н. Прохорова. М.: Радио и связь, 1981.-496 с.

63. Питербарг JI. И. Медианная фильтрация случайных процессов. // Проблемы передачи информации. — 1984. Т. 20, вып. 1. С. 65 - 73.

64. Wendland, H., Piecewise polynomial, positive definite and compactly supported radial functions of minimal degree, Advances in Сотр. Math. 4, 1995, p. 389-396.

65. Levinson N., "The Wiener RMS (root mean square) error criterion in filter design and prediction," J. Mathematical Phys., v. 25, 1947, pp. 261-278.

66. J. Durbin, "The fitting of time series models," Rev. Int. Statist. Inst., 28 (1960), 233-. 243.

67. Пиконе Дж. Методы моделирования сигнала в распознавании речи / Пер. с англ. Р. Попов. Кемерово, 2000. 79 с.

68. Н. Risvik, "Principal Component Analysis (PCA) & NIPALS algorithm", http://folk.uio.no/henninri/pcamodule/pcanipals.pdf, 2007

69. Bron C., Kerbosh J. (1973), Algorithm 457 — Finding all cliques of an undirected graph, Comm. of ACM, 16, p. 575—577

70. Etsuji Tomita, Akira Tanaka, Haruhisa Takahashi (2006), The worst-case time complexity for generating all maximal cliques and computational experiments, Theoretical Computer Science, Vol 363, Issue 1, ISSN:0304-3975, p. 28-42

71. Таблицы математической статистики. Болыиев JI.H., Смирнов Н.В. —

72. М.: Наука. Главная редакция физико-математической литературы, 1983. — 416с.

73. Математические методы и модели в расчетах на ЭВМ: применение в лесоуправлении и экологии. Ю.Ю. Герасимов, В.К. Хлюстов. М.: Изд-во МГУЛ, 2001. 260 с.

74. Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть II. Непараметрические критерии. М.: Изд-во стандартов. 2002. - 64 с.

75. Лемешко Б.Ю., Постовалов С.Н. Непараметрические критерии при проверке сложных гипотез о согласии с распределениями Джонсона // Доклады СО АН ВШ. 2002. № 1(5). - С.65-74.

76. Wheeler, Robert Е. (1980): "Quantile estimators of Johnson curve parameters", Biometrika, 67, 3: 725-728

77. Мартынов Г.В. Критерии омега-квадрат. M.: Наука, 1978. - 80 с.

78. Никифоров С.Н., Никифоров Д.С., Виторский И.И., Танюкевич М.С., Практический алгоритм определения темпа речи для использования в контакт-центрах /'/Речевые технологии № 1, 2010. С.5—12

79. Киселев В.В., Об автоматическом определении эмоций по речи //Речевые технологии №1,2010. С.48—52

80. Berlin Database of Emotional Speech, http://pascal.kgw.tu-berlin.de/emodb/

81. Sendlmeier, W. Stimmliche und phonetische Manifestation emotionaler Sprechweise In: H. GeiBner (Hrsg.): Stimmkulturen, Rohrig Universitatsverlag, St. Ingbert, S. 39-49

82. Marc Escalona Mena, Emotion recognition from speech. Erasmus exchange project work. Ljubljana, 2012, http://upcommons.upc.edU/pfc/bitstream/2099.l/15362/l/THESISEMOTION1. SPEECH RECOGNITION.pdf

83. Moataz M. H. El Ayadi, Mohamed S. Kamel, Fakhri Karray, " Speech Emotion Recognition using Gaussian Mixture Vector Autoregressive Models", IEEE International Conference on Acoustics, Speech and Signal Processing, 2007, vol. 4, pp. IV-957-IV-960

84. Марьев A.A. Информационная модель эстетического восприятия // Материалы Всероссийской научной конференции «Актуальные вопросы исследования общественных и технических систем» — часть 1 — Таганрог: Изд-во ТТИ ЮФУ, 2011. С. 51—55