автореферат диссертации по приборостроению, метрологии и информационно-измерительным приборам и системам, 05.11.06, диссертация на тему:Разработка метода и технических средств автоматического изменения времени послезвучания с целью повышения разборчивости речи
Автореферат диссертации по теме "Разработка метода и технических средств автоматического изменения времени послезвучания с целью повышения разборчивости речи"
На правах рукописи
005004286
Китанов Михаил Юрьевич
РАЗРАБОТКА МЕТОДА И ТЕХНИЧЕСКИХ СРЕДСТВ АВТОМАТИЧЕСКОГО ИЗМЕНЕНИЯ ВРЕМЕНИ ПОСЛЕЗВУЧАНИЯ С ЦЕЛЬЮ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ
Специальность 05.11.06 - Акустические приборы и системы
Автореферат диссертации на соискание ученой степени кандидата технических наук
- 1 ДЕК 2011
Санкт-Петербург - 2011
005004286
Работа выполнена на кафедре акустики Санкт-Петербургского университета кино и телевидения
Научный руководитель - профессор, доктор технических на Уваров Владимир Константинович
Официальные оппоненты:
доктор технических наук Майоров Василий Семенович кандидат технических наук Плющёв Владимир Михайлович
Ведущая организация - ООО «Неватон».
Защита состойся «15» декабря 2011 г. в 14 часов „а заседании диссертационного
совета Д.210.021.01 в Санкт-Петербургском государственном университете кино и телевидения по адресу:
19Ш9, Санкт-Петербург, ул. Правды, д. 13
С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного университета кино и телевидения.
Автореферат разослан «¿¿>> 2011 г. Ученый секретарь диссертационного совета
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность исследования.
Настоящая работа посвящена разработке метода и средств автоматического изменения длительности процесса затухания звука в речевом сигнале. Длительность процесса затухания звука в сигнале формируется для каждого звука отдельно и зависит от длительности и уровня громкости конкретного звука. Будем называть сформированный процесс затухания звука в сигнале - послезвучанием. Под процессом затухания подразумевается процесс, содержащий в себе эхосигналы, приходящие с определенной задержкой.
Улучшение звучания речевых программ - одна из основных задач акустики. Звучание влияет как на понимание передаваемой информации, так и на комфортность прослушивания. В настоящее время требования к точности и качеству передачи речевых сигналов увеличиваются. Это связано как с развитием средств коммуникации, так и с необходимостью минимизации ошибок восприятия речевых команд по каналам связи. На звучание речевых программ влияют множество факторов: уровень шумов в канале, уровень громкости полезного сигнала, частотный диапазон, передаваемый в канале и т.д. Одним из множества факторов, влияющих на звучание речевых программ, является процесс затухания звука после его окончания.
В архитектурной акустике процесс затухания звука в помещении, после его окончания, принято называть реверберацией. Известно, что существует оптимальное значение длительности процесса реверберации, при котором разборчивость речи будет наибольшей. Установлено, что одним из основных факторов, определяющих оптимальную длительность, является тип звуковой программы.
Основным отличием различных типов звуковых программ является различная длительность звуков и пауз, из которых состоит та или иная звуковая программа, а также их уровень громкости звуков. Из этого можно сделать вывод, что значения оптимальной длительности процесса реверберации зависит от уровня и длительности звуков и пауз, из которых состоит сигнал.
На основе сделанного вывода можно предположить, что если для каждого звука, из которых состоит речевой сигнал, отдельно сформировать процесс затухания звуков, причем параметры этого процесса будут определяться длительностью и уровнем конкретного звука, то должно происходить увеличение разборчивости речи. Получение сигнала с послезвучанием, имеющее переменные параметры, актуальны, прежде всего, для каналов в которых не возникает заметного на слух затухания звука при прохождении через них
речевого сигнала. Например, каналы, которые формируют звуковое поле непосредственно в полость внешнего уха (с использованием головных телефонов).
Объект исследования: обработка речевых сигналов.
Предмет исследования: Изменение времени послезвучания для каждого звука в речевом сигнале, при их обработке на основе математической модели с использованием модуляционной теории.
Основная цель исследования: получить в результате обработки звучание речевого сигнала с послезвучанием переменой длительности, которое воспринимается лучше, чем без такой обработки. Для достижения максимальной эффективности управления параметрами послезвучания должно осуществляться в автоматическом режиме.
В соответствии с основной целью и предметом исследования определены следующие основные задачи исследования:
необходимо оценить пределы изменения длительности звуков и пауз речевого сигнала, а также известные оптимальные параметры процесса затухания звука;
— необходимо разработать способ управления, позволяющий изменять длительность процесса послезвучания для каждого звука;
— для проверки эффективности предлагаемого способа обработки необходимо провести артикуляционные исследования зависимости параметров обработки сигнала и качества его звучания. Это позволит учесть субъективные факторы восприятия речевых программ человеком;
обеспечить внедрение результатов, полученных в диссертационной работе, в учебный процесс и практику научных исследований.
Методологическую и теоретическую основы исследования составили научные труды отечественных и зарубежных авторов в области акустики помещений, теории речеобразования, восприятия звуковых сигналов, спектральной и модуляционной теории.
Методы исследования. Во время проведения исследования применялись методы математического анализа; спектрального анализа (теоретического и экспериментального); компьютерного моделирования; артикуляционных измерений и др.
Научная новизна исследования:
— разработан метод автоматического изменения времени послезвучания речевых сигналов для каждого звука отдельно;
— экспериментально установлено влияние параметров обработки послезвучания на разборчивость речи;
определены режимы обработки речевых сигналов, субъективно приводящие к повышению' качества их звучания.
Научная ценность результатов исследования:
— разработан новый подход к повышению качества звуковых сигналов при наличии процесса послезвучания;
— полученные в диссертации зависимости могут служить научным фундаментом для широкого практического использования результатов работы, например, для разработки новых методов и средств обработки речевых сигналов при наличии процесса послезвучания.
Практическая значимость работы. Проведенные теоретические и экспериментальные исследования позволили разработать новый способ управления процессом послезвучания в речевом сигнале. Реализация данного устройства позволит увеличить разборчивость речи при передаче в каналах с незначительным процессом
затуханием звука в них.
Реализация результатов диссертационной работы. Материалы диссертационной работы внедрены в учебный процесс и научно исследовательскую работу кафедры акустики Санкт-петербургского государственного университета кино и телевидения, а также ООО «СБН», ООО «Референс тест». Внедрение результатов диссертационной работы подтверждено советующими актами.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались в трех сообщениях на научно-технических конференциях Санкт-петербургского государственного университета кино и телевидения в 2007 году и молодежных научно технических конференциях ОАО «ЦКБ МТ «Рубин» «Взгляд в будущее» в 2009 году.
Публикации. По материалам выполненных исследований опубликовано 5 печатных работ, в которых изложено содержание диссертации: 4 статьи и одна заявка на «Способ и электронное устройство оптимизации времени реверберации при передаче звуковых сигналов», по которой получен патент РФ на изобретение.
Личный вклад автора. Все основные научные результаты, изложенные в диссертационной работе, получены автором лично.
Структура и объем работы. Диссертация содержит введение, основной текст из четырёх глав, заключение, список использованной литературы и приложение. Объем основного текста с введением и заключением составляет 135 страниц, включая 51 рисунок на 28 страницах и 5 таблицы на 5 страницах. Список использованной литературы содержит 123
наименования.
На защиту выносится следующее положения:
1. Качество передаваемых речевых сигналов можно повысить путем автоматической оптимизации времени послезвучания для каждого звука.
2. Оптимизировать время послезвучания следует искусственно увеличивая его в паузах сигнала.
3. Установлено, что оптимальное значение максимального времени послезвучания имеет величину 60 мс.
4. Установлено, что слух не замечает разного времени послезвучания для разных
звуков
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертации, сформулирована проблема, основная цель и задача исследования, дана характеристика работы, сформулированы основные положения, выносимые на защиту, описана структура диссертации.
В первой главе рассмотрена проблема управления послезвучанием звукового сигнала. Рассмотрены существующие способы управления процессом затухания звука. Показано, что в настоящее время данная задача решается только в архитектурной акустике при формировании процесса реверберации.
Современные методы формирования акустической обстановки в помещении, такие как акустическая обработка помещения и использование систем создание искусственной реверберации не позволяют сформировать оптимальную реверберацию в помещении для произвольного сигнала, с учетом его структуры.
Во второй главе рассмотрены основные этапы восприятия речевых сигналов.
При восприятии речевого сигнала можно выделить три основных этапа:
— формирования речевого сигнала;
— формирование акустического поля воспринимаемого слуховой системой;
— прием речевого сигнала слуховой системой.
На каждом этапе существуют основные факторы, влияющие на восприятие звуковой программы, при наличии процесса затухания звука.
Речь с физической точки зрения состоит из последовательности звуков. Звуком речи будем называть конкретную физическую реализацию любой из фонем разговорного языка.
Различные фонемы имеют различные длительность и уровень.
Средняя длительность согласных звуков составляет 116 мс, гласных - 177 мс. Средняя длительность звуков составляет 146,5 мс. Пределы изменения длительности звуков составляет от 10 до 270 мс.
Речевое- сообщение не является непрерывным и содержит паузы различной длительности.
Средняя длительность пауз между элементами речи 40 мс, между словами дикторской речи - 120 мс, в телефонном разговоре 320 - 400 мс, при разговоре, например в кино, паузы могут быть ещё больше.
Следующим этапом при восприятии речевых сигналов является формирование акустического поля, воспринимаемого слуховой системой. В настоящее время наиболее развита теория восприятия речевых программ, при наличии процесса затухания звука, в архитектурной акустике.
Требования, определяющие высокий процент разборчивости речи, предъявляемые к помещению следующие:
— высокий уровень прямого звука на всех местах слушателей;
■— большое отношение уровня прямого звука к уровню процесса реверберации;
— сравнительно небольшое время стандартной реверберации (0,4 -1,2с в зависимости от объема помещения);
— достаточно высокий уровень первых дискретных отражений, прибывающих к слушателю в течение первых 80 мс;
— низкий уровень шумов;
■— отсутствие эха и других помех в помещении.
И в завершение речевой сигнал поступает в слуховую систему человека. Существенной характеристикой для восприятия процесса затухания звука, который содержит в себе эхосигналы, приходящие с определенной задержкой, является заметность задержки копии исходного сигнала по отношению к исходному звуку.
Если задержанный сигнал приходит менее через 50 мс после исходного сигнала, то слуховая система не различает эти сигналы, и они воспринимаются слитно (т.е. задержанный сигнал усиливает исходный) (рис. 1).
При задержке более 50 мс задержанный и исходный сигнал могут восприниматься раздельно.
В зависимости от соотношения уровней задержанный сигнал может не восприниматься (зона I) (рис. 1).
Если разность уровней не превышает кривую 2 (рис. 1), то задержанный сигнал молото услышать, но он еще воспринимается слитно с исходным сигналом.
При достаточно большом уровне задержанного сигнала он может восприниматься как эхо. Если разности уровней исходного и задержанного сигнала меньше кривой 3 (рис. 1), эхо не мешает восприятию и не снижает разборчивость речи. При превышении разницы уровней этой кривой наблюдается снижение разборчивости из-за эха.
Рис. 1. Зависимость между требуемой разностью уровней прямого и запаздывающего звуков
и временем запаздывания отраженного звука: кривые 1 - граница слышимости эха; 2 -граница заметности эха; 3 - граница мешающего действия эха; зоны: 0 - слитное восприятие
звуков; I - эхо неслышимо; II - эхо прослушивается; III - эхо заметно, но не мешает восприятию речи; IV - эхо снижает разборчивость речи (по [Акустика: Сцравочник. Под ред.
Сапожкова М.А. - М.: "Радио и связь", 1989, с. 33])
В третьей главе разрабатывается математическая основа метода обработки речевого сигнала.
Описывается модуляционная теория анализа-синтеза сигнала, которая является теоретической базой предлагаемого метода обработки сигналов. Показаны её основные соотношения и определения.
Также в этой главе описывается метод автоматического изменения времени послезвучания. Он заключается в следующем: из исходного речевого сигнала необходимо сформировать выходной сигнал, который содержал бы входной речевой сигнал и сигнал послезвучания переменной длительности, причем длительность должна определяться свойствами входного сигнала.
Продолжительность послезвучания должна вычисляться для каждого звука речи отдельно, в зависимости от его уровня и длительности, а также определяться структурой сигнала, т.е. расположением звуков и пауз из которых этот сигнал состоит.
В качестве модели входного сигнала (рис.2) примем следующее выражение;
sBx(t) = SBX(t)coscpex(t), (1)
где 8ВХ(0 - огибающая речевого сигнала, фвх(1) - мгновенная фаза речевого сигнала.
||||||||
О »1 ог 03 04 05 0 6 0 7 00 0 ! 1 1.1 1.2 1.3
Рис. 2. Входной сигнал
Необходимо сформировать выходной сигнал, содержащий процесс послезвучания, причем длительность процесса послезвучания должна зависеть от свойств входного сигнала, то есть
*е«(0 = ^0 + к**посл(*и(0)> (2)
где к - коэффициент усиления процесса послезвучания, ^посл^мМ) - послезвучание, зависящее от свойств входного сигнала.
При решении этой задачи необходимо решить следующие подзадачи:
— выделить огибающую входного сигнала;
— определить местоположения звуков в сигнале;
— вычислить длительность процесса послезвучания для каждого звука;
— сформировать процесс послезвучания, имеющий одинаковую длительность, для каждого звука;
— сформировать сигнал управления длительностью для каждого звука;
— сформировать сигнал управления послезвучанием для каждого звука;
— сформировать суммарный процесс послезвучания;
— сформировать выходной сигнал.
В начале необходимо выделить огибающую из исходного сигнала. Это выполняется при помощи метода на основе однополосной модуляции , что позволяет получить,
* Ишуткин Ю.М., Уваров В.К. Основы модуляционных преобразований звуковых сигналов/ Под ред.
В.К. Уварова - СПб.: СПбГУКиТ, 2004. - 67 с.
безынерционно, сигнал огибающей 8ВХ(1) (рис.3). Огибающая содержит основную информацию о длительности звуков и пауз в сигнале.
Рис 3. Огибающая входного сигнала
Для определения местоположения звуков в речевом сигнале используем метод, предложенный E.H. Осташевским*. Данный метод состоит в следующем: событие возникновения сигнала регистрируют по превышению его огибающей некоторого порогового уровня компаратором. Пороговый уровень является переменным и также формируется из входного сигнала. При формировании порогового уровня используется свойство четырёхполюсника с ограниченной полосой пропускания искажать форму широкополосного сигнала.
Для работы компаратора необходимо два сигнала: входной сигнал компаратора и пороговый сигнал.
В качестве входного сигнала для компаратора предлагается использовать быструю огибающую. Этот сигнал формируется из огибающей (рис. 3) исходного звукового сигнала при помощи интегратора с постоянной времени Тх (рис. 4):
1 t
S6b,cTp(t) = k„HTl- /S(t)dt.
м t-T,
(3)
Использование быстрой огибающей обусловлено тем, что сама огибающая в процессе нарастания звука содержит высокочастотные осцилляции, что может привести к увеличению ошибок компаратора типа «ложная тревога».
Осташевский E.H., Уваров В.К. Применение модуляционного анализа-синтеза звуковых сигналов. -СПб.: СПбГУКиТ, 2005. - 120 с.
Рис. 4. Быстрая и медленная огибающая
В качестве переменного порога для компаратора предлагается использовать медленную огибающую с добавлением к ней некоторого постоянного уровня (рис. 5):
*поР« = 8медл^ + и- (4)
Рис. 5. Пороговый сигнал
Медленная огибающая формируется так же, как и быстрая огибающая, при помощи интегратора с другой постоянной времени Г2 (рис.4):
8„еда.(0 = киш2^ (5)
2 1-Х,
Постоянные интегрирования определяются из условия
где ~ ^Г _ полоса пропускания первого интегратора, {2 = — - полоса пропускания
Т1 т2
второго интегратора, ^ - частотный диапазон, который занимает сигнал огибающей.
Постоянный порог иоп необходим для обеспечения превышения порогового уровня над шумом в паузах, что позволяет уменьшить ошибки типа «ложная тревога».
После получения сигналов сравниваются пороговый и входной сигналы компаратора. Условием наличия звука является превышение входного сигнала компаратора над пороговым уровнем, то есть
Г ^быстр^ - 3г.ор (г) звук есть 5зв(1) ~ {0,5бкстра) Ч зпор(1) звук осутствует' (6)
Результатом данной обработки будет импульсный сигнал (рис. 6), у которого импульс соответствует наличию звука в исходном речевом сигнале.
Теперь определим длительность процесса послезвучания для каждого звука. Параметрами, определяющими длительность послезвучания, были выбраны уровень громкости и длительность конкретного звука.
Основную информацию об уровне громкости и длительности звуков, то есть о распределении энергии во временной области, содержит субсигнал огибающей исходного речевого сигнала, поэтому для получения информации об уровне и длительности звуков используем этот субсигнал.
"Т.........1..... ■'].........'Г" 4.........<...................».........;.........1.........1.........;............ •[.........|.........4.........\.........<.........ч..........[.........;....................
0 1 \ ! 0 2 03 ......... ••1.........■!•••• 1 ! 1 1 о.« а.« ! 1 ) 1 1 } [ |
Рис. 6. Сигнал наличия звука
Длительность процесса послезвучания определяется следующим образом: для текущего звука (рис.7) отдельно формируется огибающая Эта огибающая поступает
на интегратор (рис. 8):
1 I
8длИтК{-11) = кИНТ- (7)
1 г-Т
Значение постоянной интегрирования одинаково для всех звуков и определяет длительность процесса послезвучания для конкретного звука.
Рис. 7. Текущий звук
Рис. 8. Длительность процесса послезвучания для текущего звука
Для звуков, имеющих большой уровень громкости и большую продолжительность, длительность процесса послезвучания принимает большее значение. Для звуков, которые имеют маленький уровень громкости и относительно малую продолжительность звучания, длительность процесса послезвучания принимает меньшее значение. Это позволяет формировать сигнал, у которого громкие и длительные звуки (гласные) имеет большую
длительность процесса послезвучания, чем короткие и тихие (согласные), таким образом, увеличивается разборчивость речи при прослушивании.
Для получения послезвучания переменой длительности необходимо иметь исходное послезвучание, имеющее одинаковую длительность для каждого звука.
Как уже было сказано существующее методы формирования процесса затухания звука особенно развиты в рамках архитектурной акустики. Существующие методы позволяют получить затухание одинаковой, в среднем, длительности для всего сигнала. В настоящей работе не ставилась задача формирования оптимального по структуре послезвучания.
Поэтому для формирования исходного послезвучания был выбран процесс реверберации. Эти два процесса, по сути, являются одним и тем же. Существенное отличие состоит в том, что реверберация это физический процесс затухания звуков после их окончания в помещении, который определяется характеристиками помещения, а послезвучание сформированный электронным способом процесс затухания звука переменной длительности, который определяется свойствами сигнала.
Поскольку наилучшее качество звучания, в настоящее время, получается при использовании ревербератора на основе свертки, то для формирования процесса послезвучания был выбран этот способ.
Для формирования процесса послезвучания (рис.9) необходимо осуществить свертку звука Б|(1 — ^ ) с импульсной характеристикой помещения ¡тр(1:), то есть
Яре»!О - ) = - ^н!) * . (8)
Полученный сигнал послезвучания имеет одинаковую в среднем длительность для каждого звука и определяется только характеристиками помещения и условиями записи используемой импульсной характеристики.
Сигнал управления длительностью определяет ослабление сигнала послезвучания во время звучания звуков или в паузах. Этот сигнал формирует изменение процесса послезвучания в зависимости от структуры сигнала.
Для каждого звука можно выделить четыре этапа изменения процесса послезвучания:
— во время звучания текущего звука;
— во время паузы после текущего звука;
— во время звучания последующих звуков;
— во время последующих пауз.
Рис. 9. Исходное послсзвучание для текущего звука
Для каждого этапа введем коэффициент, который будет определять усиление послезвучания во время звуков и в паузах. Если значение того или иного коэффициента равно 0, то это говорит о том, что послезвучание от текущего звука на данном этапе отсутствует. Введем обозначения для этих коэффициентов:
— U3Bo - коэффициент усиления сигнала послезвучания в процессе звучания текущего звука;
—• Un0 - коэффициент усиления сигнала послезвучания в процессе паузы после текущего звука;
— U3B] - коэффициент усиления сигнала послезвучания в процессе звучания последующих звуков;
— Unl - коэффициент усиления сигнала послезвучания в процессе последующих
пауз.
В общем случае сформулированные требования к сигналу управления длительностью (рис.10), с учетом введенных обозначений, математически можно записать следующим образом:
W1 ■ = и"0 ■ W - tHl) + (и„о - и„й)- S{t - tKi) +
1н(1+1))+ (9)
+ i((Vni-U3el)-S(t-tki) + (Uml-ип1)-д(1-11ф]))), j-i+1
где 5(t -10) - ступенчатая функция, определяемая следующим выражением:
fo,t<t0
5(t-t0) =
l,t>t0
(Ю)
- начало звука, 1К - конец звука, - количество слогов, которые находятся по времени
не дальше от текущего звука, чем длительность импульсной характеристики помещения; I -текущий звук; j - последующие звуки.
« 0.4 0.5 А.6 0 7 СЬ 0 9
11 12 1 3
Рис. 10. Сигнал управления длительностью
Можно предложить несколько вариантов управления длительностью процессом послезвучания:
1. Все коэффициенты равны единице, процесс послезвучания определяется только уровнем и длительностью текущего звука:
УПРI
2. Коэффициенты ип0, иза1, ип1 равны 1, коэффициент изв0 равен 0. Во время звучания текущего звука послезвучание отсутствует, дальше послезвучание определяется уровнем громкости и длительностью текущего звука
3. Коэффициенты ип0, Ип1 равны 1, коэффициенты изв1,изв0 равны 0. Во время, звучания звуков послезвучание отсутствует, во время пауз послезвучание определяется уровнем и длительностью текущего звука:
.М+1
4. Послезвучание в паузах усиливается так, чтобы в начале паузы после следующего звука уровень громкости процесса послезвучания был бы равен уровню
громкости предшествующего звука. То есть коэффициент 11п1 усиливают или ослабляют процесс послезвучания так, что уровень громкости звука и уровень громкости процесса послезвучания, после этого звука, совпадают. Для каждой паузы значение этих коэффициент вычисляются отдельно:
") = ияо • 6(1 - 1В.)-ип0 ■ 3(1 - 1И(Ш)) +
к,
1дтт(1к])т. \ ЗйптМк/) \
V $ меде 0 у)
мед,: V к]
О*;)
5. Коэффициент ип0равен 1, коэффициент изв1,из80, 11п1 равны 0. Сформированный сигнал послезвучания присутствует только в паузе после текущего сигнала:
0 - ■^) = и „о ■ ¿(1 - ) - и„0 ■ 5(1 - 1Н(М)).
Далее необходимо сформировать сигнал управления послезвучанием (рис.11). Для этого необходимо перемножить сигнал управления длительностью и вычисленную длительность послезвучания для текущего звука, т.е.
Зупрлощ (0 = ^ддит\ (( ~~ и ) ' Зупр1 " * ш ) • С1 ^
9.1 т в) л 4
0 9 ! 11 II! 13
Рис. 11. Сигнал управления послезвучанием
Для формирования процесса послезвучания с переменным временем длительности (рис. 12) сначала необходимо перемножить сигналы управления послезвучанием и послезвучание для каждого звука, а затем последовательно сложить, сформированные сигналы послезвучания для каждого звука:
N
8посл0) = упр.ПОСЛ | № ' 3ПОы(* ~~ > (11)
¡=1
где N - количество слогов в обрабатываемой речевой фонограмме.
В».« с
Рис. 12. Сформированный сигнал послезвучания для текущего звука
В заключение сформируем выходной сигнал (рис.13). Для этого необходимо сложить входной сигнал и сформированный сигнал послезвучания, умноженный на коэффициент усиления:
N
8вь,х (0 = Зех « + к ■ ®посл («вх (0)= 38х (1) + к ■ 1>упр.посл. (I) ' (I - ^ ). (12)
¡ = 1
! .........
1 :
1. шШ
г н
Ж ' т
I I
01 0.2 3 0.Л 0.6 0.« с. 0.8 0.9 1 1.1 1.2 |.з
Рис. 13 Выходной сигнал
Полученный выходной сигнал содержит сигнал послезвучания, длительность и свойства которого зависят от свойств исходного сигнала.
Разработан способ и устройство для автоматического изменения времени послезвучания. Структурная схема разработанного способа представлена на рис. 14. Приведены характеристики и описание работы отдельных блоков и узлов устройства для выполнения автоматического изменения времени послезвучания.
Рис. 14. Структурная схема устройства для автоматического изменения времени послезвучания. ДО - демодулятор огибающей; | - интегратор; + - сумматор; ^ -
компаратор; БВЗ - блок выделения звуков; БФСУД - блок формирования сигнала управления длительностью; * - блок формирования свертки сигналов; х - перемножитель сигнала; ФП - формирования послезвучания; к - усилитель.
В четвертой главе экспериментально проверено влияние параметров обработки речевого сигнала на качество звучания речевых сигналов и определенны оптимальные их значения.
Получены экспериментальные значения слоговой разборчивости речи в зависимости от параметров обработки речевого сигнала.
Определение слоговой разборчивости речи выполнялось согласно ГОСТ Р 50840-95, также на основе этого стандарта было определено качество передачи речевого сигната по методу сравнения с эталонным трактом.
Из полученных результатов (рис. 15 - 18) можно сделать несколько следующих выводов:
— экспериментально подтверждено предположение о том, что переменное послезвучание, формируемое для каждого звука отдельно, увеличивает разборчивость речи;
— максимум разборчивости соответствует значению максимального времени послезвучания 60 мс;
— наибольшая разборчивость соответствует тем вариантам обработки, для которых послезвучания во время звучания звуков отсутствует (варианты обработки 3,4 и 5);
— разборчивость увеличивается тем больше, чем меньше отношение сигнал/шум, т.е. чем больше уровень шума при приеме речевого сигнала, тем эффективнее работает данный метод обработки сигналов;
— качество прослушивания речевого сигнала увеличивается относительно эталонного тракта, если послезвучание присутствует только в паузах между звуками.
Также были определены значения коэффициентов корреляции между входным и выходным сигналов для различных вариантов управления. Этот коэффициент характеризует схожесть сигналов на входе и выходе устройства. Общее выражение коэффициента корреляции имеет вид:
здесь Я - коэффициент корреляции, х - процесс на входе, у - процесс на выходе, X, у -
среднестатистические значения х и у.
Для выбранных вариантов управления получены следующие значения коэффициента корреляции:
— для первого варианта управления И.] = 0,7924;
— для второго варианта управления И2 = 0,8882;
— для третьего варианта управления II3 = 0,8894;
— для четвертого варианта управления Я4 = 0,8898;
— для пятого варианта управления Я5 = 0,8898.
Рис. 15. Изменение разборчивости речи при различных вариантах управления, отношение
сигнал/шум 10 дБ
Рис. 16. Изменение разборчивости речи при различных вариантах управления, отношение
сигнал/шум 20 дБ
: 1
Л
■
1 |
: 1
;
..............................1..............................!
Рис. 17. Изменение разборчивости речи при различных вариантах управления, отношение
сигнал/шум 30 дБ
Рис. 18. Качество передачи при различных вариантах управления
ЗАКЛЮЧЕНИЕ
1. Разработан новый метод повышения разборчивости речи, путем автоматического формирования времени послезвучания звуков в сигнале.
2. Показано, что в настоящее время управление процессом затухания звуков активно используется только в архитектурной акустике, а также в устройствах имитирующих акустические условия в помещении. Существующие способы управления не позволяют управлять процессом затухания отдельно для каждого звука.
3. Разработана математическая модель способа автоматического изменения времени послезвучания для каждого звука. На разработанные способ и одно из устройств для его реализации получен патент РФ.
4. Экспериментально исследовано влияние параметров обработки речевого сигнала на разборчивость речи. Для большинства режимов обработки сигнала происходит увеличение разборчивости речи относительно сигнала без обработки. Максимум разборчивости для большинства режимов обработки сигналов достигается при значении максимального времени послезвучания 60 мс. Наибольшая разборчивость соответствует тем режимам обработки, для которых послезвучания отсутствует во время звучания звуков. Разборчивость увеличивается больше, чем меньше отношение сигнал/шум.
5. Качество передачи, по сравнению с каналом без обработки, увеличивается, дам вариантов управления, для которых послезвучание присутствует только в паузах.
6. Определены значения корреляционных коэффициентов, максимальные значения которых соответствуют вариантам управления, для которых послезвучания присутствует только в паузах.
7. Результаты диссертационного исследования внедрены в учебный процесс и научно-исследовательскую работу кафедры акустики Санкт-петербургского государственного университета кино и телевидения, а также в НИР ООО «СБН», ООО «Референс тест».
В диссертации поставлена и решена актуальная научно-техническая задача в области обработки речевых сигналов. В диссертации изложены научно обоснованные технические разработки, имеющие значения для экономики страны. Разработан способ и устройство автоматического управления временем послезвучания с использованием модуляционной теории сигналов. На этот способ и устройство получен патент на изобретение РФ.
ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ ОПУБЛИКОВАНО В СЛЕДУЮЩИХ
РАБОТАХ
1. Уваров В.К., Китанов М.Ю. Способ и электронное устройство оптимизации времени реверберации при передаче звуковых сигналов. Патент РФ на изобретение №2343562, 2009.
2. Уваров В.К., Китанов М.Ю. Актуальность разработки метода и технических средств оптимизации длительности реверберации для каждого звука. "Проблемы развития кинематографа и телевидения". Сборник научных трудов СПбГУКиТ. Выпуск 21,2008.
3. Уваров В.К., Китанов М.Ю. Модуляционные преобразования сигналов. Материалы VII молодежной научно-технической конференции «ВЗГЛЯД В БУДУЩЕЕ -2009». СПб.: ОАО «ЦКБ МТ «Рубин», 2009.
4. Уваров В.К., Китанов М.Ю. Автоматическое изменение времени реверберации в помещении для каждого звука, с целью повышения разборчивости речи. Материалы VII молодежной научно-технической конференции «ВЗГЛЯД В БУДУЩЕЕ - 2009». СПб.: ОАО «ЦКБ МТ «Рубин», 2009.
5. Уваров В.К., Китанов М.Ю. О необходимости пересмотра подхода к оптимизации длительности процесса реверберации . Деп. В ОНТИ НИКФИ №189 кт -Д07.
Подписано в печать 28.10.11 г. Формат 60x84 1/16. Бумага офсетная. Печ. л. 1,0. Уч.-изд. л. 1,0. Тираж 100 экз. Заказ УбЗ
Подразделение оперативной полиграфии ФГБОУ ВПО «СПбГУКиТ». 192102. Санкт-Петербург, ул. Бухарестская, 22.
Оглавление автор диссертации — кандидата технических наук Китанов, Михаил Юрьевич
Введение.
Глава 1. Проблема управления процессом затухания звука. Обзор исследований посвященых управлению процессом затухания звука.
1.1. Развитие представлений о возможности управления процессом затухания звука.
1.2. Развитие систем искусственного формирования процесса затухания звука.
1.3. Классификация способов управления процессом затухания звука.
1.3.1 Акустическое проектирование помещений.
1.3.2 Системы искусственного управления процессом затухания звука
1.4. Развитие представлений о модуляциях сигналов.
Введение 2011 год, диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам, Китанов, Михаил Юрьевич
Актуальность исследования.
Настоящая работа посвящена разработке метода и средств автоматического изменения длительности процесса затухания звука в речевом сигнале. Длительность процесса затухания звука в сигнале формируется для каждого звука отдельно и зависит от длительности и уровня громкости конкретного звука. Будем называть сформированный процесс затухания звука в сигнале - послезвучанием. Под процессом затухания подразумевается процесс, содержащий в себе эхосигналы, приходящие с определенной задержкой.
Улучшение звучания речевых программ - одна из основных задач акустики. Звучание влияет как на понимание передаваемой информации, так и на комфортность прослушивания. В настоящее время требования к точности и качеству передачи речевых сигналов увеличиваются. Это связано как с развитием средств коммуникации, так и с необходимостью минимизации ошибок восприятия речевых команд по каналам связи. На звучание речевых программ влияют множество факторов: уровень шумов в канале, уровень громкости полезного сигнала, частотный диапазон, передаваемый в канале и т.д. Одним из множества факторов, влияющих на звучание речевых программ, является процесс затухания звука после его окончания.
В архитектурной акустике процесс затухания звука в помещении, после его окончания, принято называть реверберацией. Известно, что существует оптимальное значение длительности процесса реверберации, при котором разборчивость речи будет наибольшей. Установлено, что одним из основных факторов, определяющих оптимальную длительность, является тип звуковой программы.
Основным отличием различных типов звуковых программ является различная длительность звуков и пауз, из которых состоит та или иная звуковая программа, а также их уровень громкости звуков. Из этого можно сделать вывод, что значение оптимальной длительности процесса реверберации зависит от уровня и длительности звуков и пауз, из которых состоит сигнал.
На основе сделанного вывода можно предположить, что если для каждого звука, из которых состоит речевой сигнал, отдельно сформировать процесс затухания звуков, причем параметры этого процесса будут определяться длительностью и уровнем конкретного звука, то должно происходить увеличение разборчивости речи. Получение сигнала с послезвучанием, имеющее переменные параметры, актуальны, прежде всего, для каналов в которых не возникает заметного на слух затухания звука при прохождении через них речевого сигнала. Например, каналы, которые формируют звуковое поле непосредственно в полость внешнего уха (с использованием головных телефонов).
Объект исследования: обработка речевых сигналов.
Предмет исследования: Изменение времени послезвучания для каждого звука в речевом сигнале, при их обработке на основе математической модели с использованием модуляционной теории.
Основная цель исследования: получить в результате обработки звучание речевого сигнала с послезвучанием переменной длительности, которое воспринимается лучше, чем без такой обработки. Для достижения максимальной эффективности управление параметрами послезвучания должно осуществляться в автоматическом режиме.
В соответствии с основной целью и предметом исследования определены следующие основные задачи исследования: необходимо оценить пределы изменения длительности звуков и пауз речевого сигнала, а также известные оптимальные параметры процесса затухания звука; необходимо разработать способ управления, позволяющий изменять длительность процесса послезвучания для каждого звука; для проверки эффективности предлагаемого способа обработки необходимо провести артикуляционные исследования зависимости параметров обработки сигнала и качества его звучания. Это позволит учесть субъективные факторы восприятия речевых программ человеком; обеспечить внедрение результатов, полученных в диссертационной работе, в учебный процесс и практику научных исследований.
Методологическую и теоретическую основы исследования составили научные труды отечественных и зарубежных авторов в области акустики помещений, теории речеобразования, восприятия звуковых сигналов, спектральной и модуляционной теории.
Методы исследования. Во время проведения исследования применялись методы математического анализа; спектрального анализа (теоретического и экспериментального); компьютерного моделирования; артикуляционных измерений и др.
Научная новизна исследования: разработан метод автоматического изменения времени послезвучания речевых сигналов для каждого звука отдельно; экспериментально установлено влияние параметров обработки послезвучания на разборчивость речи; определены режимы обработки речевых сигналов, субъективно приводящие к повышению качества их звучания.
Научная ценность результатов исследования: разработан новый подход к повышению качества звуковых сигналов при наличии процесса послезвучания; полученные в диссертации зависимости могут служить научным фундаментом для широкого практического использования результатов работы, например, для разработки новых методов и средств обработки речевых сигналов при наличии процесса послезвучания.
Практическая значимость работы. Проведенные теоретические и экспериментальные исследования позволили разработать новый способ управления процессом послезвучания в речевом сигнале. Реализация данного устройства позволит увеличить разборчивость речи при передаче в каналах с незначительным процессом затуханием звука в них.
Реализация результатов диссертационной работы. Материалы диссертационной работы внедрены в учебный процесс и научно исследовательскую работу кафедры акустики Санкт-петербургского государственного университета кино и телевидения, а также ООО «СБН», ООО «Референс тест». Внедрение результатов диссертационной работы подтверждено советующими актами.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались в трех сообщениях на научно-технических конференциях Санкт-петербургского государственного университета кино и телевидения в 2007 году и молодежных научно технических конференциях ОАО «ЦКБ МТ «Рубин» «Взгляд в будущее» в 2009 году.
Публикации. По материалам выполненных исследований опубликовано 5 печатных работ, в которых изложено содержание диссертации: 4 статьи и одна заявка на «Способ и электронное устройство оптимизации времени реверберации при передаче звуковых сигналов», по которой получен патент РФ на изобретение.
Личный вклад автора. Все основные научные результаты, изложенные в диссертационной работе, получены автором лично.
Структура и объем работы. Диссертация содержит введение, основной текст из четырёх глав, заключение, список использованной литературы и приложение. Объем основного текста с введением и заключением составляет 135 страниц, включая 51 рисунок на 28 страницах и 5 таблицы на 5 страницах. Список использованной литературы содержит 123 наименования.
Заключение диссертация на тему "Разработка метода и технических средств автоматического изменения времени послезвучания с целью повышения разборчивости речи"
Выход
Н( -йг Ь'® —О-М т
7.5к
Рис. 3.19 . Сумматор-вычитатель
ГЛАВА 4. ИССЛЕДОВАНИЕ ВЛИЯНИЯ ПАРАМЕТРОВ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ СВОЙСТВАМИ
ПОСЛЕЗВУЧАНИЯ НА ВОСПРИЯТИЕ РЕЧЕВЫХ СИГНАЛОВ
Для определения влияния параметров работы устройства необходимо проведение артикуляционных испытаний. Целью данных измерений является подтверждение выдвинутой гипотезы о том, что автоматическое изменение времени послезвучания улучшает восприятие речевых программ. Для этого необходимо оценить как точность передачи речевой программы, так и качество передачи.
4.1 Подготовка проведения экспериментов
Одним из методов оценки точности передачи речи является артикуляционный метод. Он основан на учете статистических параметров слуха и речи, и в этом методе качество передачи речи оценивается путем измерения разборчивости.
Разборчивость элементов речи как численная мера точности передачи речи может быть или измерена, или же вычислена по известным параметрам канала передачи.
Метод артикуляции основан на оценки степени выполнения главного требования предъявляемого к разговорным трактам - обеспечение разборчивой передачи речи. Мерой разборчивости является здесь разборчивость элементов речи - величина, определяемая как отношение числа правильно принятых по испытуемому каналу элементов речи к достаточно большому числу переданных и выражаемая в процентах или долях единицы.
-994.1.1 Выбор типа разборчивости для проведения экспериментов
В зависимости от того, какой элемент речи используется, различают следующие виды разборчивости: разборчивость звуков - Б; разборчивость слогов - Б; разборчивость слов - \У; разборчивость фраз
Практика проведения артикуляционных измерений показывает, что в большинстве случаев в качестве основного вида артикуляционных таблиц используется слоговые таблицы. Аргументами в пользу определения разборчивости речи по слоговой артикуляции являются следующие доводы.
Во-первых, слоговая разборчивость обладает большей разрешающей способностью (под которой понимается свойство разборчивости изменяться при различных видах обработки сигналов, или под действием искажений и помех) в рабочей области (под которой понимается область, где разборчивость превышает значение 25 - 30%), чем другие виды экспериментально измеряемой разборчивости. Только формантная разборчивость обладает большим разрешением чем слоговая, в области 80100% слоговой разборчивости (график А на рис. 4.1) однако формантную разборчивость нельзя измерить опытным путём, она может быть только рассчитана по известным условиям передачи [20,79]. Кроме того, разрешающая способность слоговой разборчивости в той области ее значений, в которой, большей частью, проводились измерения - 20-80%, выше чем у формантной разборчивости (график А на рис. 4.1). Измерения всегда проводились в условиях маскирующего действия шума отношение сигнал/шум выбиралось таким образом, чтобы максимальная разборчивость в соответствии с условиями эксперимента попадала в область с максимальным разрешением (прямые участки графиков на рис. 4.2).
Во-вторых, при измерении слоговой разборчивости для получения эквивалентно-точного результата требуется меньшая точность измерений, чем при измерении других видов разборчивости (рис. 4.3). Эквивалентно-точными называются такие измерения равных видов разборчивости при которых различным пределам, где могут заключаться измеренные значения того или иного вида разборчивости, соответствуют одинаковые пределы изменения условий передачи [20, с. 98 - 99].
Единственным возможным недостатком (скорее трудностью) определения разборчивости речи по слоговой артикуляции является громоздкость экспериментальных измерений, которые требуется произвести чтобы получить достоверный результат [20, 60]. Существенным же достоинством метода слоговой артикуляции является то, что при соблюдении некоторых условий он дает объективную количественную оценку разборчивости и качества речи [20, 60].
Для проведения артикуляционных измерений при помощи подготовленных дикторов был сделан набор записей стандартных слоговых таблиц [20, 107], после чего записанный сигнал подавался на вход тракта обработки. Выходной сигнал тракта обработки прослушивался смешанной (двух полов) бригадой подготовленных экспертов [107]. Измерение слоговой разборчивости во всех случаях производилось прослушиванием речевого сигнала на фоне шумового маскирующего сигнала, который представлял собой белый шум.
Необходимость проведения артикуляционных измерений в присутствии мешающего шума обосновывается тем, что проверка методов обработки речи, проводимая в отсутствие должной величины шумов и помех, как правило приводит к неправильным выводам в отношении эффективности того или иного метода, так как в этом случае исключение избыточной информации еще не должно приводить к снижению разборчивости речи [42, с. 135].
100 ВО 60 40 20 О
ВЕЗ ШЙ
Ні ю шл Ні НІ ■1 21 гя Ні н
В и щ ■и ■і О
20
40
60
80 л;
Рис. 4.1. Зависимости различных видов разборчивости от слоговой разборчивости [79]: А - формантная разборчивость; О - звуковая разборчивость; 8 - слоговая разборчивость; - словесная разборчивость; I фразовая разборчивость
Суммарный шммарт уровень щма в, шг
10 20 30 Ь0 50 60 70 ВО 90 № НО № 130
Рис. 4.2. Зависимость слоговой разборчивости от уровня маскирующего шума и уровня речи [20, с. 223]
Рис. 4.3. Эквивалентная точность различных видов артикуляционных измерений [20, с. 99]: О - звуковая разборчивость; 8 - слоговая разборчивость; - словесная разборчивость; J - фразовая разборчивость; N - разборчивость двухзначных чисел; А - параметр определяющий качество тракта (в данном примере - пропускаемое трактом относительное число формант)
Методу артикуляции присущ и некоторый принципиальный недостаток, который не может быть определен никакими усовершенствованиями. Он заключается в том, что разборчивость хотя и оценивать степень выполнения главного требования к системе передачи речи, но всё же не является универсальным критерием её качества и не позволяет судить о натуральности, т.е. сохранении тембра и других особенностей говорящего.
4.1.2 Качество передачи речевого сигнала через тракт
Для устранения недостатка присущего методу артикуляции, о невозможности оценки натуральности передачи речевого сигнала необходимо выполнить дополнительные измерения, которые бы могли бы дать объективную оценку качеству обработки сигнала.
Для оценки качества речи есть множество параметров. В данной работе под качеством будет пониматься величина, характеризующая субъективную оценку звучания речи в испытуемом тракте по сравнению со звучанием в контрольном тракте (принятым за пять баллов).
Измерения проводят путем прослушивания пар одинаковых фраз, длительностью 2 - 3 с каждая, через головные телефоны с выхода испытуемого и контрольного трактов. Аудитор проставляет в бланке оценки качества по пятибалльной шкале с точностью 0,1 руководствуясь характеристиками речевого сигнала, приведенными в таблице 4.1.
Общие требования и подготовка измерений качества соответствуют ГОСТ Р 50840-95.
4.2. Условия провидения экспериментов
Эксперименты проводились по следующей схеме: звуковой сигнал поступает на устройства формирование сигнала с переменным временем послезвучания. После получения сигнала послезвучания поступает на сумматор, где он добавляется к исходному звуковому сигналу. Далее к
Заключение
Один из способов создания оптимальных акустических условий для восприятия речевых программ является автоматическое управление временем реверберации. В ходе работ по определению параметров формирования сигнала с переменным временем реверберации получены следующие результаты:
1. Разработан новый метод повышения разборчивости речи, путем автоматического формирования времени послезвучания звуков в сигнале.
2. Показано, что в настоящее время управления процессом затухания звуков активно используется только в архитектурной акустике, а также в устройствах, имитирующих акустические условия в помещении. Существующие способы управления не позволяют управлять процессом затухания отдельно для каждого звука.
3. Разработана математическая модель способа автоматического изменения времени послезвучания для каждого звука. На разработанные способ и одно из устройств для его реализации получен патент РФ.
4. Экспериментально исследовано влияние параметров обработки речевого сигнала на разборчивость речи. Для большинства режимов обработки сигнала происходит увеличение разборчивости речи относительно сигнала без обработки. Максимум разборчивости для большинства режимов обработки сигналов достигается при значении максимального времени послезвучания 60 мс. Наибольшая разборчивость соответствует тем режимам обработки, для которых послезвучание отсутствует во время звучания звуков.
5. Результаты диссертационного исследования внедрены в учебный процесс и научно исследовательскую работу кафедры акустики Санкт-петербургского государственного университета кино и телевидения, а также в НИР ООО «СБН», ООО «Референс тест».
В диссертации поставлена и решена актуальная научно-техническая задача в области обработки речевых сигналов. На основе выполненных исследований диссертации изложены научно обоснованные технические разработки, имеющие значения для экономики страны. Разработаны способ и устройство автоматического управления временем послезвучания с использованием модуляционной теории сигналов.
Библиография Китанов, Михаил Юрьевич, диссертация по теме Акустические приборы и системы
1. Long М. Architectural Acoustics. Elsiver Academic Press, 2006.844 p.
2. Баскаков С.И. Радиотехнические цепи и сигналы: Уч. Пос. для вузов. 3-е изд., перераб. и доп. М.: Высшая школа, 2000. - 462 с.
3. Качерович А.Н. Акустическое оборудование киностудий и театров. М.: "Искусство", 1980. - 239 с.
4. Козюренко Ю.И. Искусственная реверберация. М.:"3нание", 1970. - 80 с.
5. Акустика: Справочник. Под ред. Сапожкова М.А. М.: "Радио и связь", 1989.-336 с.
6. Качерович А.Н., Хомутов Е.Е. Акустика и архитектура кинотеатра М: Искусство, 1961 - 284 с.
7. Lundin, F. J. The influence of room reverberation on speech an acoustical study of speech in a room. - Speech. Transmission Laboratory, Quarterly Progress and Status Report, vol. 23, № 2 - 3, 1982, pp. 024 - 059.
8. Йордан В.Л. Акустическое проектирование концертных залов и театров/ Пер с англ.; Под ред. Л.И. Макриненко М: Стройиздат,1986 -170 с.
9. Рейхарт В. Акустика общественных зданий М.: Стройиздат, 1984-200 с.
10. Щевьев Ю.П. Акустические свойства неоднородных и комбинированных строительных материалов М.: Стройиздат, 1980
11. Маньковский B.C. Акустика студий и залов для звуковоспроизведения. М.: "Искусство", 1966. - 376 с.- 12612. Ишуткин Ю.М., Уваров В.К. Основы модуляционных преобразований звуковых сигнал ов./Под редакцией Уварова В.К. -СПб.: СПбГУКиТ, 2004. 102 с.
12. Лицкевич В.К., Макриненко Л.И., Мигалина И.В. и др. Архитектурная физика. Под ред. Оболенского Н.В. М. «Стройиздат», 1998. - 448 с.
13. ГОСТ 25902 83. Зрительные залы. Метод определения разборчивости речи. - М.: Государственный комитет СССР по делам строительства, 1983. - 12 с.
14. Катунин Г.П., Лапаев О. А. Проектирование и расчет акустических параметров помещений. Новосибирск, СибГУТИ, 2000. 100 с.
15. Михайлов В.Г., Златоустов Л.В. Измерение параметров речи. Под ред. Сапажкова М.А. М.: Радио и связь, 1987. - 168 с.
16. Скучик Е. Основы акустики. В 2 томах. Т. 1 Пер. с англ. Л.М. Лямшева. М.: Мир, 1976. - 466 с.
17. Скучик Е. Основы акустики. В 2 томах. Т. 2 Пер. с англ. Л.М. Лямшева. М.: Мир, 1976. - 558 с.
18. Beranec L. L. Acoustics. Published by the Acoustical Society of America through the American Institute of Physics, Inc., New York, 1993 edition -491 p.
19. Покровский Н.Б. Расчет и измерение разборчивости речи. -М.: Связьиздат, 1962. 391 с.
20. Фант Г. Анализ и синтез речи. Новосибирск: «Наука» Сибирское отделение, 1970. - 168 с.
21. Сорокин В.Н. Теория речеобразования. М.: «Радио и связь», 1985.-312 с.
22. Duncan Bees, Maier Blostein, Peter Kabal. Reverberant Speech Enhancement Using Cepstral Processing. Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing (Toronto, ON), May 1991, pp. 977-980
23. Duncan Charles Bees. Enhancement of Acoustically Reverberant Speech Using Cepstral Methods. Department of Electrical Engineering McGill University Montreal, Canada July, 1990, p. 123
24. Речь. Артикуляция и восприятие. Под ред. Кожевникова В.А., Чистович JI.A. Л.: «Наука» Ленинградское отделение, 1965 - 242 с.
25. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации. Пер. с немецкого под ред. Белкина Б.Г. М.: «Связь», 1971. - 255 с.
26. Сорокин В.Н. Синтез речи. М.: «Наука», 1992. - 392 с.
27. Уваров В.К. Некоторые вопросы модуляционной теории звуковых сигналов. СПб.: СПбГУКиТ, 2004. - 68 с.
28. Осташевский Е.Н., Уваров В.К. Применение модуляционного анализа-синтеза звуковых сигналов. СПб.: СПбГУКиТ, 2005. - 120 с.
29. Кетков Ю.А., Кетков А.Ю., Шульц М.М. MATLAB 7: программирование, численные методы. СПб.: БХВ-Петербург, 2005.
30. Лазарев Ю. Моделирование процессов и систем в MATLAB. Учебный курс. СПб.: Питер; Киев: Издательская группа BHV, 2005.
31. Алексенко А.Г., Коломбет Е.А., Стародуб Г.И. Применение прецизионных аналоговых микросхем. М.: Радио и связь, 1985.
32. Машу Жан-Франсуа. Путеводитель по электронным компонентам/ Пер с фр. М: Издательский дои "Додэка-XXI", 2001.
33. Князев П.Н. Интегральные преобразования./Под ред. Ф.Д. Гахова. М.: Едиториал УРСС, 2004. - 479 с.
34. В. Yegnanarayana, P. Satyanarayana Murthy. Enhancement of everberant Speech Using LP Residual Signal. IEEE Transactions on Audio, Speech and Language Processing, vol. 8, №. 3, may 2010. - pp. 267 - 281
35. ГОСТ Р 50840 95 Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. - М.: Издательство стандартов, 1995.
36. Качерович А.Н. Акустика зрительного зала. М.: "Искусство", 1968.-207 с.
37. Харкевич А.А. Спектры и анализ.// А.А. Харкевич. Избранные труды: В 3 т. М.: Наука, 1973. Т.2. Литейные и нелинейные системы. -С. 87-252.
38. ГОСТ 8031 78. Аппараты телефонные. Тональный метод разборчивости речи. - М.: ИПК Издательство Стандартов, 1998. - 7 с.
39. Сапожков М.А. Речевой сигнал в кибернетике и связи. Преобразование речи применительно к задачам техники связи и кибернетики. М.: Связьиздат, 1963. - 452 с.
40. Carlos Castro Gonzalez. Speaker Localization Techniques in Reverberant Acoustic Environments. ROYAL INSTITUTE OF TECHNOLOGY (KTH), Stockholm, September 2007.
41. Лайонс Ричард. Цифровая обработка сигналов: Второе издание. Пер. с англ. М.: ООО «Бином-Пресс», 2007 г. - 656 с.
42. Операционные усилители и компараторы. М.: Издательский Дом «Додэка - XXI», 2002. - 560 с.
43. Зуев П.Ю. Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех. Автореферат диссертации на соискание ученой степени к.т.н. -СПб.:СПбГУКиТ, 2007. 22 с.
44. Уваров B.K. Точное компандирование частотного и динамического диапазона звуковых сигналов. СПб.: СПбГУКиТ, 2001. -326 с.
45. Уваров В.К., Плющев В.М., Чесноков М.А. Применение модуляционных преобразований звуковых сигналов./ Под ред. В.К. Уварова СПб.: СПбГУКиТ, 2004. - 131 с.
46. Уваров В.К., Маркин Д.Н. Результаты новых исследований на основе модуляционной теории звуковых сигналов.// В сб.: Факультету аудивизуальной техники 75 лет. - СПб.: СПБГУКиТ, 2005. с. 36-41.
47. ГОСТ 16600 72 Передача речи по трактам радиотелефонной связи. Требования к разборчивости и методы артикуляционных измерений. -М.: Издательство стандартов, 1973.
48. ГОСТ 11515-91 Каналы и тракты звукового вещания. Основные параметры качества. Методы измерений. М.: Издательство стандартов, 1991.-22 с.
49. А.Б. Сергиенко Цифровая обработка сигналов: учеб. Пособие. -3-е изд. СПб.: БХВ-Петербург, 2011. - 768 с.
50. Солонина А.И. Цифровая обработка сигналов. Моделирование в MATLAB. СПб.: БХВ-Петербург, 2008. - 816 с.
51. Федосов В.П. Цифровая обработка звуковых и вибросигналов в Lab VIEW. Справочник функций системы N1 Sound and Vibration Lab VIEW// -M.: ДМК Пресс, 2010. 1296 с.
52. Смирнова Н.А. Исследование и разработка систем искусственной реверберации. Автореферат диссертации на соискание ученой степени к.т.н. Л.:ЛИКИ, 1981.-23 с.
53. Речь, слух и качество речевых сигналов. Уч. Пос. Пенза: Пензенский политехнический институт, 1974. - 46 с.
54. Антонов А.В., Веселова Н.И., Уваров В.К. Применение гильбертовых преобразований звуковых сигналов. СПб.:СПбГУКиТ, 2005. -80 с.
55. Алдошина И., Приттс Р. Музыкальная акустика. Учебник. СПб.: Композитор, 2006. - 720 с.
56. Шкритек П. Справочное руководство по звуковой схемотехнике. Пер. с нем. М.: Мир, 1991.- 446 с.
57. Gavin М. Bidelman, Ananthanarayan Krishnan. Effects of reverberation on brainstem representation of speech in musicians and non-musicians. Brain Research 1355, 2010, pp. 112 - 125
58. Бриллюэн JI. Наука и теории информации. Пер. с англ. А.А. Харкевич. М.: Гос. Издательство физико-математической литературы, 1960.-392 с.
59. Сапожков М.А. Электроакустика. Учебник для вузов. М.: «Связь», 1978.-272 с.
60. Rabiner L.R., Shafer R.W. Digital Processing of Speech Signal. Bell Laboratories, Incorporated, 1978 - 115 p.
61. Иофе B.K., Корольков В.Г., Сапожков М.А./ Под ред. М.А. Сапожкова. М.: Связь, 1979. - 312 с.
62. Щевьев Ю.П. Физические основы архитектурно-строительной акустики. СПб.: СПбГУКиТ, 2000. - 408 с.
63. Вахитов Я.Ш. Теоретические основы электроакустики и электроакустическая аппаратура. М.: Искусство, 1982. - 415 с.
64. Зиновьев А.Л., Филиппов Л.И. Введение в теорию сигналов и цепей. М.: «Высш. Школа», 1968. - 280 с.
65. Корн Г., Корн Т. Спровочник по математике для научных работников и инжеров. М.: Наука, 1984. - 831 с.
66. Глухов A.A. Основы звукового вещания. Учебное пособие для вузов связи. М.: «Связь», 1977. - 392 с.
67. Бейтмен Г., Эрдейи А. Таблицы интегральных преобразований. Т. 2. Преобразования Бесселя. Интегралы от специальных функций. Пер. с английского. М.: «Наука», 1970. - 327 с.
68. Харкевич A.A. Неустановившиеся волновые явления.// A.A. Харкевич. Избранные труды: В 3 т. М.: Наука, 1973. Т.1. Теория электроакустических преобразователей. Волновые процессы - С. 257 - 396.
69. Анерт В., Райхардт В. Основы техники звукоусиления. Пер. с нем. М.: Радио и связь, 1984. - 320 с.
70. Харкевич A.A. Борьба с помехами.// A.A. Харкевич. Избранные труды: В 3 т. М: Наука, 1973. Т.З. Теория информации. Опознавание образов.-С. 233-443.
71. Amos Schreibman. Adaptive Stereo Acoustic Echo Cancelation in reverberant environments. Research Thesis. Submitted to the Senate of the Technion|Israel Institute of Technology Sivan 5769 Haifa, may 2009, p. 98
72. Харкевич A.A. Автоколебания.// A.A. Харкевич. Избранные труды: В 3 т. М: Наука, 1973. Т.2. Линейные и нелинейные системы. - С.253.379.
73. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передачи речию./Под ред. О.И. Шелухина. М.: Радио и связь, 2000. - 456 с.
74. Крендалл И.Б. Акустика. Пер. с.англ. Изд. 3-е. М.: КомКНига, 2007,-- 168 с.- 13282. Ковалгин Ю.А., Борисенко A.B., Гензель Г.С. Акустические основы стереофонии. М.: Связь, 1978. - 336 с.
75. Хоровиц П., Хилл У. Искусство схемотехники. В двух томах. Пер. с англ. М.: Мир, 1983. - Т.1. - 598 с.
76. Хоровиц П., Хилл У. Искусство схемотехники. В двух томах. Пер. с англ. М.: Мир, 1983. - Т.2. - 590 с.
77. Пирс Дж. Символы, сигналы, шумы. Закономерности и процессы передачи информации. М.: «Мир», 1967. 334 с.
78. Кловский Д.Д. Теория передачи сигналов. Учебник для вузов. -М.: «Связь», 1973.-376 с.
79. Попов О.Б., Рихтер С.Г. Цифровая обработка сигналов в трактах звукового вещения. Учебное пособие для вузов. М.: Горячая линия -Телеком, 2007.-341 с.
80. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов. Пер. с англ. М.: «Радио и связь», 1981, -- 496 с.
81. Алексенко А.Г., Коломбет Е.А., Староду Г.И. Применение прецизионных аналоговых микросхем. 2-е изд., перераб и доп. - М.: Радио и связь, 1985.-304 с.
82. Ковалгин Ю.А., Вологдин Э.И. Цифровое кодирование звуковых сигналов. СПб.: КОРОНА-принт, 2004. - 240 с.
83. Сиберт У.М. Цепи, сигналы, системы: В 2-х ч. 4.1: Пер с англ. -М.:Мир, 1988.-336 с.
84. Сиберт У.М. Цепи, сигналы, системы: В 2-х ч. 4.2: Пер с англ. -М.:Мир, 1988.-360 с.
85. Харкевич A.A. Теоретические основы радиосвязи. М.: Государственное издательство технико-теоритической литературы, 1957.347 с.
86. Шеннон К. Связь при наличии информации.// Теория информации и ее приложения (Сборник переводов). Под ред. A.A.
87. Харкевича. — М.: Государственное издательство физико-математической литературы, 1959. С. 82 - 112
88. Berndtsson, G. Acoustical measurements of an artificial reverberation system with wooden. Speech. Transmission Laboratory, Quarterly Progress and Status Report, vol. 33, № 4, 1992, pp. 087 - 096.
89. Berndtsson, G. and Krokstad, A. A room acoustic experiment with an artificial reverberation system using. Speech. Transmission Laboratory, Quarterly Progress and Status Report, vol. 34, № 1, 1993, pp. 063 - 083.
90. Ньюэлл Ф. Звукозапись: акустика помещений. М.: Шоу-Мастер 2004. - 193 с.
91. Фурдуев В. В. Электроакустика. М.: Государственное издательство технико-теоритической литературы, 1948. - 515 с.
92. Фурдуев В.В. Акустика звукового кинопоказа. М.: Госкиноиздат, 1945. - с. 112
93. Лепендин Л.Ф. Акустика: Учеб. Пособие для втузов. М.: Высш. школа, 1978.-448 с.
94. Радивещение и электроакустика. Под. ред. проф. М.В. Гитлица. -М.: «Радио и связь», 1989. 432 с.
95. Сапожков М.А. Звукофикация помещений. Проектирование и расчет. М.: «Связь», 1979. 144 с.
96. Исакович М.А. Общая акустика. М.: «Наука», 1973. - 496 с.
97. Красильников В.А. Введение в акустику. М.: Издательство Московского университета, 1992. - 152 с.
98. Pierce J.R. Almost All About Waves. The Massachusetts Institute of Technology, 1974. - 213 p.
99. ГОСТ P ИСО 18233 2011. Акустика. Проведение новых методов измерений в акустике зданий и помещений (проект, окончательная редакция). - М.: Стандартинформ, 2011. - 43 с.
100. ГОСТ Р 50840 95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. - М.: Госстандарт Росси, 1996.-234 с.
101. ГОСТ 13107 79. Устройства приема и передачи речи. Методы измерения акустических шумов. - М.: Государственный комитет СССР по стандартам, 1979. - 16 с.
102. Стреет В. (лорд Релей). Теория звука: Пер. с англ./Под ред. С.М. Рытова. Изд. 2-е. М.: Гостехиздат, 1955 - 980 с.
103. Anechoic and Reverberation Rooms. Bulletin 7.0102.0.//0фициальный сайт Industrial Acoustics Company. URL: http://www.industrialacoustics.com/uk/downloads/anechoicacoustic/anechoican dreverberation.pdf (дата обращения 22.05.2011)
104. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. М.: Мир, 1978 - 848 с.
105. Беранек Л.Л. Акустические измерения / Пер. с англ., Под ред. Н.Н. Андреева. М.: Издательство иностранной литературы, 1952. - 626 с.
106. Нюренберг В.А. Обработка вещательных сигналов. М.:ВЗЭИС,1973
107. Дрейзен И.Г. Электроакустика и звуковое вещания. М.: Связьиздат, 1960
108. Акустика студий звукового и телевизионного вещания. Системы озвучивания: учебно-методическое пособие./ сост. Л.Г. Стаценко, Ю.В. Паскаль. Владивосток: Изд-во ДВГТУ, 2006 - 96 с.
109. Ефимов А.П. Три взгляда на акустику помещений. М.: МТУ СИ, 1997.
110. Звуковое вещание: Справочник /Под ред. Ю.А. Ковалгина. М.: Радио и связь, 1993
111. Блауэрт И. Пространственный слух. М.: Энергия, 1979
112. Ковригин С.Д. Архитектурно-строительная акустика: Учебное пособие для ВУЗов. М.: Высш. шк., 1980
113. Ганус К. Архитектурная акустика. М.: Госстройиздат, 198378 с.
114. Вемян Г.В. Передача речи по сетям электросвязи. М.: Радио и связь, 1985.-272 с.
115. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и связь, - 176 с.
116. В. Yegnanarayana, S. R. Mahadeva Prasanna, Ramani Duraiswami, Dmitry Zotkin. Processing of Reverberant Speech for Time-Delay Estimation -IEEE Transactions on Speech Audio Processing, vol. 13, №. 6, november 205. -pp. 1110-1118
-
Похожие работы
- Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех
- Усовершенствованная методика оценки защищенности речевой информации от утечки по техническим каналам
- Алгоритм повышения качества речи в сетях с пакетной коммутацией замещением потерянных пакетов на основе квазипериодической структуры речи
- Обоснование комплекса электроакустических характеристик речевых гарнитурных микрофонов для условий повышенных акустических шумов
- Методика анализа и синтеза элементов тракта речепреобразования для низкоскоростных систем связи
-
- Приборы и методы измерения по видам измерений
- Приборы и методы измерения времени
- Приборы навигации
- Приборы и методы измерения тепловых величин
- Приборы и методы измерения электрических и магнитных величин
- Акустические приборы и системы
- Оптические и оптико-электронные приборы и комплексы
- Радиоизмерительные приборы
- Электронно-оптические и ионно-оптические аналитические и структурно-аналитические приборы
- Приборы и методы для измерения ионизирующих излучений и рентгеновские приборы
- Хроматография и хроматографические приборы
- Электрохимические приборы
- Приборы и методы контроля природной среды, веществ, материалов и изделий
- Технология приборостроения
- Метрология и метрологическое обеспечение
- Информационно-измерительные и управляющие системы (по отраслям)
- Приборы, системы и изделия медицинского назначения
- Приборы и методы преобразования изображений и звука