Разработка и исследование методов повышения эффективности программно-аппаратных вычислительных средств обработки речевых сигналов

Федоренко, Олег Григорьевич

Телекоммуникационные системы и компьютерные сети

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Разработка и исследование методов повышения эффективности программно-аппаратных вычислительных средств обработки речевых сигналов

кандидата технических наук: Федоренко, Олег Григорьевич
город: Таганрог
год: 1999
специальность ВАК РФ: 05.13.13

Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование методов повышения эффективности программно-аппаратных вычислительных средств обработки речевых сигналов»

Оглавление автор диссертации — кандидата технических наук Федоренко, Олег Григорьевич

ВВЕДЕНИЕ

1. ИССЛЕДОВАНИЕ СТРУКТУРЫ РЕЧЕВЫХ СИГНАЛОВ С ЦЕЛЬЮ ОТЫСКАНИЯ КРИТЕРИЕВ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОЙ ИНФОРМАЦИИ В РЕЧИ.

1.1. Дискретные математические модели речеобразования. Базовые акустические параметры речевого сигнала.

1.2. Исследование акустических параметров речевых сигналов, обусловливающих передачу эмоциональной информации.

1.2.1. Исследование интонационных и спектральных характеристик сигнала

1.2.2. Исследование временных и динамических характеристик сигнала.

1.2.3. Некоторые вычислительные аспекты.

1.3. Синтез алгоритма классификации эмоциональных компонент. 37 Комплексная оценка эмоциональности речевого потока

1.4 Выводы.

2. РАЗРАБОТКА АЛГОРИТМОВ ОЦЕНИВАНИЯ ПАРАМЕТРОВ РЕЧЕВОГО СИГНАЛА В СИСТЕМАХ С ЭЛЕМЕНТАМИ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОЙ ИНФОРМАЦИИ.

2.1. Алгоритмы сегментации речевого сигнала.

Сегментация речевого сигнала на речь и паузы. Оценивание длительности пауз в речевом сигнале.

2.1.2. Алгоритм выделения вокализованных сегментов в речевом сигнале

2.1.3. Сегментация речевого сигнала на слоги. Оценивание длительности слогов и темпа речи.

2.2. Особенности алгоритма оценивания формант речевого сигнала.

2.3. Определение длительности фронта и спада речевого сигнала вокализованных сегментов.

2.4. Алгоритм оценивания периода основного тона речевого сигнала.

2.5. Выводы.

3. РАЗРАБОТКА И ИССЛЕДОВАНИЕ ПРИНЦИПОВ ПОСТРОЕНИЯ АППАРАТНОГО МОДУЛЯ ОПРЕДЕЛЕНИЯ ЭМОЦИОНАЛЬНОЙ ИНФОРМАЦИИ В РЕЧИ, ОРИЕНТИРОВАННОГО НА ПРИМЕНЕНИЕ В ЦИФРОВОЙ АТС.

3.1. Анализ принципов построения цифровой системы связи с элементами аппаратной и программно-аппаратной классификации эмоциональной информации в речи.

3.2. Разработка и анализ структуры вычислительных процессов программно-аппаратного модуля классификации эмоциональной составляющей речевого сигнала.

3.3. Исследование возможностей применения нейросетевых технологий в аппаратно-программном модуле классификации эмоциональной ситуации в речи.

3.4. Программное моделирование нейросети, используемой для распознавания эмоциональной составляющей в речи. Анализ экспериментальных данных.

3.5. Выводы.

4. РАЗРАБОТКА ПРОГРАММНОЙ СРЕДЫ МОДЕЛИРОВАНИЯ ВЫЧИСЛИТЕЛЬНЫХ ПРОЦЕССОВ СИСТЕМЫ С ЭЛЕМЕНТАМИ

РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОЙ ИНФОРМАЦИИ В РЕЧИ.

4.1. Задачи и структура программной среды моделирования. Реализация базового набора процедур цифровой обработки речевых сигналов.

4.2.Структура и особенности уровня классификации эмоциональной информации в речи.

4.3. Моделирование методов интерактивного конфигурирования аппаратного модуля классификации эмоциональной составляющей речевого сигнала. Анализ программного блока взаимодействия с ЦАТС мониторинговой системы «Модуль оператора АТС».

4.4. Выводы.

Введение 1999 год, диссертация по информатике, вычислительной технике и управлению, Федоренко, Олег Григорьевич

На сегодняшний день исследования в области обработки речевых сигналов успешно развиваются в сфере решения задач распознавания речи, верификации и идентификации диктора, параметрической компрессии и декомпрессии речевых сигналов и т.д. Параллельно с этим стремительно расширяются платформы сетей передачи данных, с каждым годом возрастают объемы и скорости передаваемой информации, увеличивается число сервисных служб, предоставляемых сетью. Цифровые потоки речевых сообщений стали неотъемлемой частью сетей передачи данных и цифровых систем связи цифровой телефонии.

Это создает реальные предпосылки к интеграции задач обработки речевых сигналов и технологий передачи данных по цифровым каналам связи. На стыке этих областей решается множество практических приложений. Однако, несмотря на это, открытым остается вопрос автоматического анализа семантики речевых сообщений, передаваемых в канале связи. Решение данной проблемы стандартными методами на сегодняшний день практически невозможно, поскольку распознавание смысла сообщения включает в себя не только процесс распознавания речи, но и процедуры, моделирующие гораздо более сложные механизмы человеческого интеллекта, которые на данный момент не воспроизводятся ни одной, из известных автору, технических систем.

С этой точки зрения в работе предлагается подход, позволяющий решать данную проблему косвенным методом, а именно посредством замены анализа семантической составляющей сигнала анализом его эмоционального фона, исходя из формы и структуры речевого сигнала, соответствующего данному сообщению.

На сегодняшний день исследования, проводимые в области физиологии восприятия речи [1^-4], описывают несколько подходов к оцениванию эмоциональности речевых сообщений по акустическим параметрам самого сигнала. Анализ этих исследований позволил автору сформировать основные принципы построения формальных алгоритмов классификации эмоциональной составляющей (ЭС) речи, на основе которых, в свою очередь, были разработаны и исследованы принципы построения программно-аппаратных вычислительных средств эмоционального анализа речевого потока в реальном масштабе времени, адаптированных к использованию в составе цифровых систем связи (ЦСС) и цифровых АТС (ЦАТС).

Очевидно, что анализ эмоциональной составляющей не учитывает непосредственно семантику речевого потока, однако уже сегодня существует ряд практических приложений, для которых весьма полезным оказалось бы определение ЭС речевого сигнала, передаваемого в канале связи.

АКТУАЛЬНОСТЬ ТЕМЫ. Основная задача данной диссертационной работы - разработка и исследование принципов построения программно-аппаратных вычислительных средств специализированной обработки речевых сигналов и средств классификации эмоциональной составляющей в речи, ориентированных на использование в цифровой телефонии.

Разработка средств анализа ЭС обусловлена их высокой эффективностью в различных сферах человеческой деятельности.

В частности в области цифровой телефонии уже реально существуют приложения, которые имеют потребность в использовании методов автоматического оценивания эмоциональной составляющей телефонных разговоров. Одним из таких приложений является обслуживание абонентов, пользующихся голосовым почтовым ящиком, реализованном в составе цифровой АТС. Каждый абонент, оставляя голосовое сообщение, может маркировать его специальным кодом с клавиатуры собственного телефона, с целью разрешить прослушивать на удаленной стороне оставляемое сообщение, например, только в случае спокойного (уравновешенного) эмоциональном состояния принимающего абонента, которое в свою очередь определяется в момент произнесения им контрольной фразы доступа к почтовому ящику, по требованию автоинформатора ЦАТС.

Широкий спектр приложений, нуждающихся в автоматическом анализе эмоционального фона речевых сообщений, присутствует в деятельности различных спецслужб, использующих в своей работе оборудование цифровой телефонной связи. Так, например, автоматическое отслеживание злонамеренных вызовов и звонков с угрозами относится к задачам силовых спецслужб. При этом статус звонка с угрозой может иметь телефонное соединение, содержащее достаточный процент эмоций гнева, выражаемых одним собеседником, и возможно присутствующие эмоции страха в речи другого собеседника. Фиксирование звонка производится автоматически, а оператору ЦАТС (в данном случае диспетчеру спецслужбы) предоставляется вся необходимая информация по этому звонку при помощи специальных программных средств мониторинга и конфигурирования АТС, входящих вместе с отдельной ПЭВМ в состав комплекса ЦСС.

Эффективность анализа эмоциональной составляющей речи очевидна и для систем удаленного контроля эмоционального (психофизического) состояния операторов (диспетчеров) сложных технических систем и объектов. Сюда, например, могут быть отнесены диспетчеры железнодорожных и воздушных сообщений, речевое общение в деятельности которых составляет весомый процент. При этом для удаленного контроля за состоянием диспетчера достаточно будет установить на его рабочем месте аппаратуру съема акустических сигналов (микрофон и предварительный усилитель), подключенную к ЦАТС, использующую аппаратный модуль классификации эмоциональной информации в речи. После чего главный диспетчер технического объекта сможет посредством программной системы мониторинга ЦАТС удаленно наблюдать за состоянием каждого диспетчера, и иметь статистику его эмоционального фона, при этом, не вмешиваясь в его работу и не анализируя семантику его речевых переговоров.

Подобным образом может быть организована система автоматического либо полуавтоматического удаленного предрейсового контроля в сферах различных видов транспорта, использующая в своем составе аппаратный модуль классификации ЭС.

Кроме этого ЦАТС, имеющая в своем составе средства анализа некоторых специфических параметров речевого сигнала может функционировать в качестве высокоэффективной, интеллектуальной охранной системы. Например, модуль анализа ЭС, позволяющий распознавать эмоции ужаса в крике и отделять крик от речи, может, совместно с ЦАТС, применяться в качестве системы мониторинга и охраны на объектах, где сам факт крика с эмоциями страха или ужаса должен привлечь внимание оператора охранной системы. Такими объектами могут банки, казначейства, различные магазины, супермаркеты и т.д.

И, наконец, в самом общем случае функции анализа ЭС могут использоваться в ЦАТС средней и большой емкости для сбора статистики эмоционального фона телефонных переговоров абонентов станции, которая впоследствии может послужить исходным экспериментальным материалом для различного рода социологических и психологических исследований.

ОБЪЕКТ ИССЛЕДОВАНИЙ. В данной диссертационной работе были проведены исследования структуры речевого сигнала с целью отыскания акустических параметров, наиболее полно передающих эмоциональную составляющую речевого сообщения. Опираясь на уже полученные научные результаты в области физиологии восприятия речи, в работе проводится анализ набора акустических параметров, обуславливающих передачу эмоциональной информации. Во фразах с различной эмоциональной нагрузкой оцениваются временные и динамические характеристики этих параметров, коэффициенты их вариативности. На основании многократных экспериментов разработан критерий комплексной оценки эмоциональной составляющей речевого потока. Отдельный раздел посвящен разработке комплекса алгоритмов ЦОС, адаптированных к обработке сигналов, передаваемых по цифровым телефонным каналам в реальном масштабе времени. Рассмотрены алгоритмы сегментации, формантного анализа, формирования огибающей, выделения фронтов и спадов акустического сигнала и оценивания периода основного тона. В работе исследуются также принципы построения аппаратного модуля определения эмоциональной составляющей в речи, ориентированного на применение в цифровых АТС. Оцениваются необходимые вычислительные ресурсы для реализации процедур цифровой обработки речевого сигнала и процедур классификационного анализа. Исследуются возможности применения нейросетевого подхода при построении адаптивного самообучающего нейроклассификатора, применяемого для распознавания речевых эмоциональных компонент.

Все теоретические результаты, полученные в данной работе, были подтверждены результатами математического моделирования, выполненного на программных системах моделирования, разработанных в рамках данной диссертационной работы.

ЦЕЛИ И ЗАДАЧИ РАБОТЫ. Исследование методов оценивания эмоциональной составляющей речевого потока в реальном масштабе времени является основной целью данной работы. Опираясь на экспериментально подтвержденные результаты в области физиологии восприятия речи [1+5], был сформирован набор акустических параметров речевого сигнала для классификации эмоциональной составляющей речи. При этом в работе принимается упрощенная модель эмоциональной составляющей речи, которая включает в себя 5, чаще всего встречающихся эмоций: безразличие, подавленность, страх, гнев и радость.

Для выбранных акустических параметров необходимо было разработать алгоритмы их оценивания. А именно алгоритм сегментации сигнала на паузы и речь, сегментации по признаку «тон-шум», сегментации вокализованных сегментов на слоги, алгоритмы выделения формант, оценивания фронтов и спадов, вычисления огибающей речевого сигнала и гибридный алгоритм оценивания периода основного тона вокализованных фрагментов речи.

Одна из основных целей работы заключалась в синтезе алгоритма классификации ЭС, входными данными для которого является набор акустических параметров, значение которых вычисляется на этапе цифровой обработки входного сигнала.

При исследовании принципов построения аппаратного модуля классификации ЭС основной задачей являлось формирование набора базовых операций ЦОС, оценивание вычислительных и аппаратных затрат, требуемых для их реализации, и синтез структуры вычислительных процессов данного аппаратного модуля.

Кроме этого, в работе ставится задача исследования возможностей нейросетевого подхода для повышения гибкости и адаптивности механизмов классификации, использующихся в аппаратном модуле классификации ЭС.

В целях апробации теоретических подходов и постановки экспериментов в работе были разработаны программная система многослойных нейропроцессорных сетей и система моделирования вычислительных процессов аппаратного модуля классификации ЭС в речи.

МЕТОДЫ ИССЛЕДОВАНИЯ. Исследования структуры речевого сигнала и акустических параметров, передающих эмоциональную составляющую речи, в данной работе опирались на основные принципы теорий речеобразования и физиологии восприятия речи человеком. Информация о математических моделях речеобразования, а также информация необходимая для синтеза алгоритмов оценивания акустических параметров была систематизирована и отобрана из теории цифровой обработки речевых сигналов и теории гомоморфной обработки речи. При решении задач первичной цифровой обработки сигнала были использованы материалы теории спектрального анализа дискретных сигналов, теории цифровой фильтрации и математического анализа. При анализе возможностей построения классификатора ЭС с использованием нейросетевых технологий использовались положения теории многослойных нейросетей и нейросетевых ансамблей, изложенные в [6]. При проектировании программной среды моделирования алгоритмов ЦОРС и вычислительных процессов протекающих в модуле определения эмоциональной информации использовались основные принципы модульного и объектно-ориентированного программирования.

ОСНОВНЫЕ ПОЛОЖЕНИЯ, ВЫНОСИМЫЕ НА ЗАЩИТУ. На защиту данной диссертационной работы выносятся следующие положения: методика оценивания отдельных эмоциональных составляющих непрерывного речевого потока в рамках предложенной в работе упрощенной модели эмоциональной составляющей речи; алгоритм классификации эмоциональной информации в речи; структура аппаратного модуля классификации ЭС речевого сигнала, ориентированного на использование в составе цифровой АТС, а также структура вычислительных процессов протекающих в нем; структура модуля классификации ЭС, синтезированная на базе нейросетевого классификатора; структура программной системы моделирования вычислительных процессов модуля классификации ЭС, а также принципы построения модуля информационного обмена программной системы мониторинга и конфигурирования ЦАТС.

НАУЧНАЯ НОВИЗНА. Научная новизна данной работы заключается в предложенной методике оценивания отдельных эмоциональных составляющих непрерывного речевого потока в рамках упрощенной модели эмоциональной составляющей речи; в разработанном алгоритме классификации оценки эмоциональной составляющей речи; в применении комплекса алгоритмических и аппаратных решений для обработки речи в области цифровой телефонии.

ОСНОВНЫЕ НАУЧНЫЕ РЕЗУЛЬТАТЫ К основным научным результатам работы можно отнести предложенную методику оценивания отдельных эмоциональных составляющих речевого сигнала, алгоритм оценки эмоциональной информации речи; разработанный комплекс алгоритмов цифровой обработки речевого сигнала, предназначенных для оценки акустических параметров, характеризующих ЭС в речи, и ориентированных на обработку стандартных потоков данных цифровой телефонии; разработанные принципы построения аппаратного модуля классификации ЭС речевого сигнала.

ПРАКТИЧЕСКАЯ ЦЕННОСТЬ РАБОТЫ. Основную практическую ценность диссертации составляет разработанная на базе упрощенной модели эмоциональной составляющей речи методика оценки эмоциональности речевого сигнала и синтезированный на ее основе алгоритм классификации ЭС в речи. Ценным в практическом плане является разработанный комплекс алгоритмов ЦОС и синтезированная на его базе структура аппаратного модуля классификации эмоций в речи, ориентированного на использование в составе цифровых АТС. Практический интерес представляют также принципы взаимодействия модуля классификации с программными системами мониторинга и управления цифровыми телефонными станциями.

РЕАЛИЗАЦИЯ РЕЗУЛЬТАТОВ РАБОТЫ. Следующие результаты работы были применены на практике: часть разработанных алгоритмов ЦОС были применены в модуле обработки цифровых сигналов ЦАТС «ПРОТОН» разрабатываемой НПП «СпецСтрой-Связь», г.Таганрог и в модуле голосовой почты ЦАТС «АЛМАЗ» -продукция этого же предприятия. Разработанные в данной работе принципы построения программных систем мониторинга и управления ЦАТС были успешно внедрены и использованы при построении программной системы мониторинга и управления «Модуль оператора АТС» для ЦАТС «ПРОТОН» и «АЛМАЗ», что подтверждено актом о внедрении прилагаемым к диссертации. Кроме того, разработанная автором программная среда моделирования вычислительных процессов модуля классификации ЭС «УоюеРго», была использована в учебном процессе кафедры ТОР Таганрогского радиотехнического университета в цикле лабораторных работ по курсу «Методы и устройства цифровой обработки сигналов», что подтверждается справкой об использовании, прилагаемой к работе.

АПРОБАЦИЯ РАБОТЫ. Основные научные результаты диссертационной работы докладывались и обсуждались:

- на 43 научно-технической конференции профессорско-преподавательского состава ТРТУ. Таганрог. 1998г.

- на отраслевой научно-технической конференции «Актуальные проблемы железнодорожного транспорта и роль молодых ученых в их решении» РГУПС. Ростов. 1999г.

- на Всероссийской конференции студентов и аспирантов. ТРТУ.Таганрог. 1999г.

- на Всероссийской научно-технической конференции с международным участием «Компьютерные технологии в инженерной и управленческой деятельности». ТРТУ.Таганрог. 1998г.

- на Всероссийской научно-технической конференции с международным участием «Компьютерные технологии в инженерной и управленческой деятельности». ТРТУ.Таганрог. 1999г.

- на конференции Московского государственного технического университета гражданской авиации «Современные научнотехнические проблемы гражданской авиации». Москва. МГТУГА. 1999г.

- на 37 Международной научной конференции студентов и аспирантов. Таганрог. ТРТУ. 1999г.

- на 6 Всероссийской межвузовской НТК студентов и аспирантов «Микроэлектроника и информатика 99». Москва, МИЭТ. 1999г.

ПУБЛИКАЦИИ. По результатам диссертационной работы опубликовано 8 печатных работ из них 7 тезисов докладов и 1 статья.

СТРУКТУРА И ОБЪЕМ РАБОТЫ. Данная работа содержит введение, 4 раздела и заключение общим объемом в 170 страниц. В работе приведен графический материал в объеме 88 рисунков, размещено 7 таблиц, 109 наименований библиографий и 7 страниц приложения.

В первом разделе работы проводятся исследования структуры речевых сигналов с целью отыскания критериев распознавания эмоциональной информации в речи. Дается информация об основных положениях теории речеобразования, приводится базовый набор акустических параметров речевого сигнала. Проводится анализ временных и динамических характеристик выбранных акустических параметров с целью построения алгоритма классификации эмоциональной информации. Синтезируется алгоритм классификации.

Во втором разделе описывается комплекс специализированных алгоритмов цифровой обработки речи, используемый в дальнейшем для построения программно-аппаратного модуля классификации ЭС. Структура разрабатываемых алгоритмов ориентирована на обработку данных в реальном масштабе времени, передаваемых по цифровым телефонным каналам. Предложена группа алгоритмов сегментации речи, рассмотрены алгоритмы определения временных параметров речи, описывается гибридный алгоритм оценивания периода основного тона речевых сигналов.

В третьем разделе разработаны принципы построения аппаратного модуля определения эмоциональной составляющей в речевом сигнале, ориентированного на использование в цифровых АТС. Синтезирована структура ЦСС, использующая в своем составе модуль определения ЭС в речи. Приведен анализ подходов в реализации модуля классификации ЭС. Описываются основные принципы построения программно-аппаратного модуля

- 12классификации. Разработана структура вычислительных процессов и проведен анализ требуемых ресурсов памяти и быстродействия для реализации многоканального анализа эмоциональной составляющей речевого сигнала в реальном масштабе времени. Выработаны основные принципы построения аппаратно-программного модуля классификации ЭС на базе нейросетевых технологий. Описываются эксперименты с программными моделями нейросетевых классификаторов ЭС в речевом сигнале.

В четвертом разделе рассматриваются принципы построения программной системы моделирования вычислительных процессов аппаратного модуля классификации ЭС. Описывается ее структура и возможности, приводятся результаты экспериментов по классификации ЭС в речи. Здесь также описываются основные принципы построения модуля информационного обмена с ЦАТС на примере реальной мониторинговой системы «Модуль оператора АТС», непосредственно разработанной автором.

В заключении работы подводятся итоги и делаются выводы об основных научных результатах, достигнутых в данной работе.

Заключение диссертация на тему "Разработка и исследование методов повышения эффективности программно-аппаратных вычислительных средств обработки речевых сигналов"

4.4. Выводы.

В главе описаны основные принципы построения программной среды моделирования вычислительных процессов аппаратного модуля классификации эмоциональной информации в речи. В рамках данной программной среды разработана трехуровневая структура анализа речевых сигналов, включающая в себя уровни общего и сравнительного анализа и уровень классификации эмоциональной составляющей в речи.

Описан полный набор базовых операций ЦОС, реализованный на уровне общего сигнального анализа. Здесь же подробно раскрыта структура класса TSignalLoader, формирующего внутреннее представление исходного сигнала во внутренних структурах системы моделирования.

Рассмотрены возможности уровня сравнительного анализа, как с точки зрения программного интерфейса, так и с позиции анализа сигнальных траекторий, реализованных на данном уровне системы моделирования.

Приводится общая структура программной модели классификатора эмоциональной составляющей в речи, реализованная на верхнем уровне системы моделирования. Подробно рассматривается структура программной модели блока цифровой обработки сигналов, реализующая алгоритмы ЦОС, предложенные в главе 2. Описываются дополнения, внесенные в алгоритм сегментации речи по признаку «тон-шум», позволившие в рамках программной модели сократить время анализа сигнала.

Описывается переход от сегментатора на слоги к сегментатору на фонемы, что в условиях среды моделирования позволило выгодно сократить объем вычислительных затрат для оценивания характеристик темпа речи исходного сигнала. При этом выделение границ фонем производилось посредством анализа местоположения локальных максимумов траектории вокализованной мощности.

Производится подробный анализ структуры вычислительных процессов программных моделей блока ЦОС и блока классификации эмоциональной составляющей.

Рассматриваются интерфейсные и инструментальные возможности уровня классификации ЭС, являющегося верхним уровнем системы моделирования в целом.

Рассматриваются основные принципы построения программной системы мониторинга и конфигурирования ЦАТС на примере реально действующей мониторинговой системы «Модуль оператора АТС», разработанной автором. Уделено внимание анализу структурных и принципиальных особенностей модуля обмена данными с ЦАТС, входящего в состав данной мониторинговой системы. Подчеркнута открытость архитектуры системы «Модуль оператора АТС» и ее готовность уже на сегодняшний день поддерживать функции управления и конфигурирования аппаратного модуля классификации эмоциональной составляющей, функционирующего в составе ЦАТС, при условии введения в состав мониторинговой системы соответствующей программной утилиты.

ЗАКЛЮЧЕНИЕ.

В данной работе рассмотрен комплекс теоретических и практических вопросов, связанных с решением задачи разработки программно-аппаратных вычислительных средств обработки речевых сигналов, реализующих функции классификации эмоциональной информации в речи и ориентированных на использование в современных цифровых системах связи.

В работе получены следующие основные результаты:

1. Проведены исследования структуры речевого сигнала с целью отыскания набора акустических параметров, передающих информацию об эмоциональной составляющей в речи. На базе результатов уже известных исследований в области физиологии восприятия речи синтезирован набор из 12 градуальных и логических признаков, характеризующих эмоции в речи и отображающих ее временные, динамические, спектральные и интонационные характеристики. Выбрана упрощенная модель эмоциональной составляющей, включающая в себя пять эмоций: радость, подавленность, безразличие, гнев, страх. Отобраны признаки, характеризующие эмоции ужаса в крике.

2. Разработаны основные подходы к классификации эмоций в речи. Проанализирован характер основных блокирующих и взаимоисключающих взаимосвязей среди общего набора классификационных признаков. Разработан алгоритм классификации эмоциональной составляющей в речи.

3. Разработан комплекс алгоритмов цифровой обработки речевых сигналов, ориентированных на использование в системах цифровой телефонии с элементами распознавания эмоционального фона речевых сообщений.

Разработана группа алгоритмов сегментации речевых сигналов. Среди них алгоритм сегментации исходного сигнала на речь и паузы, позволяющий оценить относительную длительность пауз в речи, особенностью которого является автоматическое формирование порога мощности шума и механизм отсеивания ложных пауз.

Разработан алгоритм выделения вокализованных сегментов, разделяющий входной сигнал на потоки вокализованной и невокализованной речи, в основу которого положен двух пороговый метод анализа значений функции среднего числа переходов через ноль с возможностью уточнения гармонической структуры сигнала.

Разработан алгоритм сегментации вокализованной речи на слоги, позволяющий оценивать среднюю длительность слога в речи, основанный на анализе формантной траектории в пространстве первых двух формант и отслеживании принадлежности точки данной траектории характерным для каждого гласного звука формантным областям.

Разработаны алгоритмы оценивания признаков эмоций радости в речи и эмоций ужаса в крике, основанные на анализе формантной и спектральной картин речевого сигнала на сегментах вокализованной речи. Модернизирован классический алгоритм оценивания формант исходного сигнала.

Разработан алгоритм оценивания длительности фронтов/спадов исходного сигнала, представляющий собой комплекс из двух алгоритмов - алгоритма выделения максимумов огибающей и алгоритма оценивания длительности фронтов и спадов по положению и амплитуде максимумов огибающей.

Для оценивания интонационных характеристик речевого сигнала был разработан новый алгоритм выделения периода основного тона.

4. Синтезирована структура цифровой системы связи, поддерживающей функции классификации эмоций в речи.

Разработана структура вычислительных процессов программно-аппаратного модуля классификации эмоциональной составляющей речевого сигнала. Предложена двухпроцессорная аппаратная платформа для реализации параллельных процессов цифровой обработки сигнала и классификации эмоциональной составляющей.

5. Проведены исследования возможностей применения нейросетевых технологий в аппаратно-программном модуле классификации эмоциональной информации в речи. Предложена структура нейросетевого классификатора решающего задачи распознавания эмоций в речи.

Предложен ряд структурных подходов позволяющих решать задачи интерактивного, либо автоматического дообучения нейросети в процессе работы модуля классификации ЭС, что ставит разрабатываемый комплекс вычислительных средств в разряд самообучающихся систем.

Разработана программная среда моделирования нейропроцессорных структур «Р№т>. Выполнено программное моделирование нейросети, используемой для распознавания эмоциональной составляющей в речи.

Предложен способ генерации пространства эталонных обучающих векторов, повышающих эффективность нейросети в процессе распознавания эмоциональных компонент.

В результате экспериментального моделирования получена конфигурация нейросети, способной решать задачи классификации ЭС для набора эмоциональных компонент, рассматриваемых в работе.

6. Разработана программная среда моделирования вычислительных процессов аппаратного модуля классификации эмоциональной информации в речи «УоюеРго».

7. Рассмотрены основные принципы построения программной системы мониторинга и конфигурирования ЦАТС на примере реально действующей мониторинговой системы «Модуль оператора АТС», разработанной автором.

Полученные результаты дают реальные предпосылки к дальнейшему развитию программно-аппаратных вычислительных средств классификации эмоциональной информации в речи, ориентированных на использование, как в сфере цифровой телефонии, так и в иных отраслях человеческой деятельности,

-162где существует необходимость анализа эмоциональной составляющей речевого сигнала.

Библиография Федоренко, Олег Григорьевич, диссертация по теме Телекоммуникационные системы и компьютерные сети

1. Чистович Л.А., Венцов A.B. Физиология речи. Восприятие речи человеком. «Наука», Л. 1976. 388с.

2. Галунов В.И. Манеров В.Х. Связь между психофизическим состоянием говорящего и характеристиками речевого сигнала. Тез. докладов 8-го Всесоюзного семинара «Автоматическое распознавание слуховых образов», Львов, 1974,ч. 4, с. 46-48.

3. Котляр Г.М., Морозов В.П. Особенности восприятия вокальной речи слушателями различных категорий. В кн.: Речь и эмоции. Матер. Симпозиума. Л., 1975. с. 118-124.

4. Котляр Г.М., Морозов В.П. Об акустических коррелятах эмоциональной выразительности речи. Акуст. журн., 1976. т. 22, вып. 3, с 370-376.

5. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. 284с.

6. Чернухин Ю.В. Нейропроцессорные ансамбли. Таганрог: ТРТУ, 1995. 149с.

7. Вокодерная телефония. Под ред. A.A. Пирогов, М., 1974. 348с.

8. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. Пер с англ. М.: Радио и связь, 1981. 496с.

9. Рабинер Л.Р. Голд Б. Теория и применение цифровой обработки сигналов. М.Мир, 1974. 458 с.

10. Г.С. Рамишвили. Автоматическое опознавание говорящего по голосу. М. «Радио и связь», 1981. 224с

11. Фант Г. Анализ и синтез речи. Новосибирск. 1970. 291с.

12. Сорокин В.Н. Теория речеобразования. М., «Наука», 1985. 182с.

13. Фланаган Д. Анализ, синтез и восприятие речи. М., 1968. 392с.

14. Сапожков М.А. Речевой сигнал в кибернетике и связи. М. 1963. 452с.

15. С.Н.Кринов, Г.И.Цемель. Сегментация речевых сигналов. В кн.: Речевое общение в автоматизированных системах. М. «Наука», 1975. с. 14-24.

16. Маркелл Д.Д., Грей А.Х. Линейное предсказание речи. М.: Связь, 1980. -307с.

17. Богданов Б.В. Восприятие коротких отрезков гласных звуков. В кн.: «Анализ речевых сигналов человеком». JL, 1971. с. 49-57.

18. Дукельский Н.И. Принципы сегментации речевого потока. M.-JL, 1962. 138с.

19. Жукова М.Г. Восприятие паузы между синтетическими гласными. В кн.: «Сенсорные системы. Вопросы теории и методов исследования восприятия речевых сигналов». Д., 1972, вып. 3, с. 120-121.

20. И. Т. Турбович, А.П. Чижов. О распознавании речевых интонаций. В кн.: Речевое общение в автоматизированных системах. М. «Наука», 1975. с. 39-44.

21. Морозов В.П. Биофизические характеристики вокальной речи M.-JL, 1977. 349с.

22. Кантер. JI.A. Системный анализ речевой интонации. Учебное пособие. М. «Высшая школа», 1988.84с.

23. Харуто A.B. Компьютерный анализ звука в музыковедческом исследовании. В трудах международного научного симпозиума. «Информационный подход в эмпирической эстетике». Таганрог, 1998. с. 132-141.

24. Галунов В.И., Чистович JI.A. Слуховой анализ речи, полученной при использовании различных методов моделирования эмоциональных состояний.-В кн.: Речь и эмоции. Материалы симпозиума. Л., 1975. с.79-83.

25. Морозов В.П. Измерение эмоциональной выразительности вокальной речи: возможности и перспективы. В кн.: Речь и эмоции. Материалы симпозиума. Л., 1976. с. 9-10.

26. Симонов П.В. Теория отражения и психофизиология эмоций. М., 1970. 153с.

27. Психофизические характеристики слуха. В кн. Инженерная психология. М., 1964. с.138-158.

28. Манеров В.Х. Исследование речевого сигнала для определения эмоционального состояния человека. М. «Наука», 1975. 272с.

29. Чистович JI.А. Изменение основной частоты голоса как различительный признак согласных Акуст. журнал., 1968. т.14, с 449-456.

30. Цеплитис Л.К. Анализ речевой интонации. Рига, 1974. 132с

31. Бондаренко Л.В. Чистович Л.А. Модель восприятия речи человеком, 1968. 59с.

32. Котляр Г.М., Морозов В.П. Временные и динамические характеристики речи как акустические корреляты ее эмоциональной выразительности. В кн.: Речь и эмоции. Матер. Симпозиума. Л., 1975. с. 29-37.

33. Чистович Л.А. Кожевников В.А. и др. Речь. Артикуляция и восприятие.-М.:Наука,1965. 240с.

34. Жинкин Н.И. Механизмы восприятия речи. М.: АПН, 1958. 270с.

35. Сорокин В.Н. К теории речеобразования. В кн.: Речевое общение в автоматизированных системах.-М.:Наука, 1975. с. 103-127.

36. Самсонов М.А. Спектр русской речи и его деформация под воздействием сильного звукового раздражения. В кн. Восприятие звуков сигналов в различных акустических условиях. М., 1956. с. 176-187.

37. Дубровский H.A. Тумаркина Л.Н. Исследование восприятия человеком амплитудно-модулированных шумов. Акуст. журнал, 1977. т. 13, в. 1, с. 51-59.

38. Штурбин В.Ф. Зависимость артикуляции русской речи от уровня интенсивности речи и шума. В кн.: Восприятие сигналов в различных акустических условиях. М.,1956, с. 148-159.

39. Чистович Л.А., Кожевников В.А. Восприятие речи. В кн.: Физиология сенсорных систем. Л., 1972. ч.2, с. 427-514.

40. Ржевкин С.Н. Речь. Артикуляция и восприятие. М. «Наука», 1965. 242с.

41. Попов В.А. Симонов П.В. Анализ интонационной характеристики речи как показатель состояния человека в сложных условиях. Журн. высш. нервн. деят., 1976. т. 16, вып 6, с. 974-983.

42. Потапова Р.К. Речь: коммуникация, информация, кибернетика. М.: Радио и связь. 1997. 528с.

43. Михайлов В.Г., Златоустова JI.B. Измерение параметров речи. М.: Радио и связь, 1987. 168с.

44. Маркел Д. Грей А. Линейное предсказание речи. Пер. с англ. М.: "Связь", 1980. 308с.

45. Молчанов А.П. О функциональной модели механизма сегментации текущего потока сигналов. В кн.: Анализ речевых сигналов человеком. Л., 1971. с. 100-110.

46. Ржевкин С.Н. Слух и речь в свете современных физических исследований. М.-Л., 1963. 311с.

47. МККТТ. Требования к цифровым окончаниям. Рекомендация G.703. т. VI -выпуск VI.7. IX Пленарная Ассамблея. Мельбурн, 1988. 287с.

48. Лабутин В.К. Модели механизмов слуха.М.:Мир, 1973. 274 с.

49. Книппер A.B., Махонин В.А. К описанию речевых сигналов. В кн.: Речевое общение в автоматизированных системах.-М.: Наука, 1976. с.46-59.

50. Шейвехман Б.Е., Глекин Г.В. Мейзеров B.C. Индивидуальные пределы разбросов величины минимальной интенсивности звуков, воспринимаемых человеком в тишине. В кн.: Восприятие сигналов в различных акустических условиях. М., 1956. с. 83-91.

51. Лозовой И.А. Параметры каналов тональной частоты аппаратуры ИКМ. М.:Радио и связь. 1981. 85с.

52. Харкевич A.A. Спектры и анализ. М., Л., Гостехиздат, 1952. 382с.

53. Гольденберг Л.М. Матюшкин Б.Д. Поляк М.Н. «Цифровая обработка сигналов». М.: «Радио и связь», 1990. 256с.

54. Оппенгейм A.B., Шафер Р.В. Цифровая обработка сигналов. Пер с англ. М.: Связь, 1979. 416с.

55. Забродин Ю.М. Обнаружение и опознание человеком сложных акустических сигналов.-В кн.: Проблемы психофизики. М., 1974. с. 218-252.

56. Зиндер Л.Р. Влияние темпа речи на образование отдельных звуков.-В кн.: Вопросы фонетики. Л., 1964. С 3-27.

57. Бондаренко JI.В., Вербицкая Л.А. «Различаемые звуковые единицы русской речи». В кн. «Механизмы речеобразования и восприятия сложных звуков». М.-Л, 1966. с.165-179.

58. Применение цифровой обработки сигналов. Фрини Д.Ф. Кайзер Х.С. Под ред. ОппенгеймаМ.: Мир, 1980. 552с.

59. Назаров М.В. Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и связь. 1985. 176с.

60. Фомин Я.А. Теория выбросов случайных процессов. М.: Связь, 1980. 216с.

61. Голд Б., Рэйдер Ч.М. Цифровая обработка сигналов. Пер с англ. М.: "Сов. радио", 1973. 363с.

62. И.С Гоноровский. Радио-технические цепи и сигналы. «Радио и связь», 1986. 429с.

63. Применение цифровой обработки сигналов. Ред. Э. Оппенгейма. М., 1980. 545с.

64. Финк Л.М. Сигналы, помехи, ошибки. М.: «Радио и связь», 1984. 255с.

65. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. М.Радио и связь, 1991. 218с.

66. Г.Корн, Т.Корн, Справочник по математике для научных работников и инженеров. М., 1968. 719с.

67. Мартынов B.C. Распределение высот основного тона мужских и женских голосов. -Вопр. радиоэлекторники, 1972. вып. 6, сер. 11, с. 15-27.

68. Обработка сигналов в системах связи. Ленингр. электротехн. ин-т связи им. Бонч-Бруевича; Л.: ЛЭИС, 1989. 182с.

69. С.Н.Кринов, В.П. Савельев, Г.И.Цемель. О значимости изменений частоты основного тона для автоматического распознавания речи. Речевое общение в автоматизированных системах. М. «Наука», 1975. с.92-99.

70. ХеммингР.В. Цифровые фильтры. Пер с англ. М.: "Сов. радио", 1980. 182с.

71. Беллами Д. Цифровая телефония. Пер. с англ. М.: Радио и связь. 1986. 544с.

72. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. М.: Радио и связь, 1984. 239с.

73. А.П. Вайншток, А.В. Книппер, В.А. Махонин, И.Т.Турбович. Анализ речи режекторными фильтрами. В кн.: Речевое общение в автоматизированных системах. М. «Наука», 1975. с. 60-81.

74. ООО НПП "Спецстрой-Связь". Цифровая АТС "АЛМАЗ". Руководство по эксплуатации. КЮГН. 465236.002. РЭ. Таганрог, 1999. 187с.

75. ООО НПП "Спецстрой-Связь". Цифровая АТС "АЛМАЗ". Технические условия. КЮГН. 465236.002. ТУ. Таганрог, 1999. 212с.

76. Синтяковский И.В. Цифровые системы передачи в абонентских линиях. М.: Радио и связь. 1987. 214с.

77. Былински П. Ингрем Д. Цифровые системы передачи речи. М.: Связь, 1980. 360с.

78. Analog Devices, Inc. ADSP 2100 Family User's Manual, 1995. 484c.

79. Analog Devices, Inc. ADSP-2100 Family. EZ-Kit Lite Reference Manual, 1995. 184c.

80. Analog Devices, Inc. Digital Signal Processing Applications Using the ADSP-2100 Family. Prentice Hall. Englewood Gliffs, New Jersey, 1995. 491c.

81. Analog Devices, Inc. ADSP-2100 Family. Assembler Tools & Simulator Manual, 1995.218c.

82. Руководство пользователя по сигнальным микропроцессорам семейства ADSP-2100. Ред. А.Д. Викторова. С-П., 1997. 510с.

83. Intel Corporation. 80С186ЕХ/80С188ЕХ. Microprocessor User's Manual. 1995. 344c.

84. Intel Corporation. Embedded Microprocessors. Intel386 Processors Family. 1995. 984c.

85. Motorolla, Inc. Digital Signal Processors. DSP56000 Family. User's Manual. 1994. 214 c.

86. Чернухин Ю.В. Нейропроцессоры. Таганрог. ТРТУ, 1994. 175с.

87. Чернухин Ю.В. Искусственный интеллект и нейрокомпьютеры. Таганрог: ТРТУ, 1997. 269с.

88. Горелик, А. Л. Современное состояние проблемы распознавания. Некоторые аспекты. М.:Радио и связь 1985. 160с.

89. Вемян А.В. Передача речи по сетям электросвязи. М.: Радио и связь 1985. 232с.

90. Федоренко О.Г. Компрессия речевых сигналов при передаче аудиоинформации по каналам вычислительных сетей. Тезисы доклада в сб. тр. 43-ей НТК профессорско-преподавательского состава ТРТУ. Таганрог. 1998. с. 85.

91. Галушкин А.И. Распознавание сигналов на перцептронах. М.: Энергия, 1974.97с.

92. Параметрическая и структурная адаптация решающих правил в задачах распознавания. М.: Радио и связь. 1988. 170с.

93. Уинстон П. Искусственный интеллект. М.: Мир, 1980. 519с.

94. Горелик, А. Л. Скрипкин В.А. Некоторые вопросы систем распознавания. М.: «Сов.радио», 1974. 118с.

95. Галушкин А.И. Синтез многослойных систем распознавания образов. М., Энергия, 1974. 367с.

96. Уоссерман Ф. Нейрокомпьютерная техника. Теория и практика. М.: Мир, 1992. 240с.

97. Чернухин Ю.В. Федоренко О.Г. Вопросы первичной обработки сигналов в нейросетевых системах анализа речи. Тезисы доклада в сб. тр. Всероссийской конференции студентов и аспирантов. Таганрог, 1999.

98. Алюшин М.В. Быстродействующая нейросеть со сжатой формой представления данных. Ст. в журн. «Приборы и системы управления», №9, 1999. с 37-39.

99. Алюшин М.В. Быстродействующая обучаемая нейросеть со сжатой формой представления данных. Научн. сессия МИФИ 98. Сб. научн. тр. В 11ч. Ч. 5: Электроника. М.: МИФИ, 1998.

100. Алюшин М.В. Павленко А.Н. Смирнов Н.С. Базовые аппаратные модули и программные средства для обработки речевого сигнала. Ст. в журн. «Приборы и системы управления», №9, 1999. с 16-19.

101. Васильев, В.И, Проблема обучению распознаванию образов. Принципы, алгоритмы, реализация. Киев. Выща шк. 1989. 61с.

102. Федоренко О.Г. О принципах разработки программных инструментальных средств компьютерного анализа речевых сигналов. Тезисы доклада в сб. тр. 37-ой Международной научной конференции студентов и аспирантов. Таганрог. ТРТУ. 1999 с. 67-68.

103. Чернухин Ю.В. Федоренко О.Г. Об одном алгоритме оценивания периода основного тона речевых колебаний. Тезисы доклада в сб. тр. 6-ой Всероссийской межвузовской НТК студентов и аспирантов «Микроэлектроника и информатика 99». Москва, МИЭТ. 1999. с. 153.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00