автореферат диссертации по приборостроению, метрологии и информационно-измерительным приборам и системам, 05.11.18, диссертация на тему:Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех

кандидата технических наук
Зуев, Павел Юрьевич
город
Санкт-Петербург
год
2007
специальность ВАК РФ
05.11.18
цена
450 рублей
Диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам на тему «Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех»

Автореферат диссертации по теме "Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех"

На правах рукописи

Зуев Павел Юрьевич

РАЗРАБОТКА МЕТОДА И ТЕХНИЧЕСКИХ СРЕДСТВ ЧАСТОТНОГО КОМПРЕССИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ ДЛЯ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ НА ФОНЕ ПОМЕХ

Специальность 05 11 18 - «Приборы и методы преобразования изображений и звука»

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

□03070134

САНКТ-ПЕТЕРБУРГ - 2007

003070134

Работа выполнена на кафедре акустики

Санкт-Петербургского государственного университета кино и телевидения

Научный руководитель доктор технических наук, доцент Уваров Владимир Константинович

Официальные оппоненты

доктор технических наук, Майоров Василий Семенович, кандидат технических наук, доцент Плющев Владимир Михайлович

Ведущая организация Военная академия связи им С М Буденного

Защита состоится «£/» 2007 г в/^ часов

на заседании диссертационного совета Д210 021 01 при Санкт-Петербургском государственном университете кино и телевидения по адресу 191119, Санкт-Петербург, ул Правды, д 13

С диссертацией можно ознакомиться в библиотеке Санкт-Петербургского государственного университета кино и телевидения

Автореферат разослан « С'^-Г^-А 2007 г

Ученый секретарь диссертационного совета К Ф Гласман

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Общеизвестно, что восприятие речи на фоне аку-гических помех сопровождается снижением ее разборчивости Вместе с тем су-;ествуют такие сферы деятельности человека, в которых восприятие речи, переанной посредством телекоммуникационных систем, по объективным причинам роисходит в условиях высокого уровня акустических помех Причем часто от остоверности и своевременности получения информации, содержащейся в рече-ом сигнале, зависят жизнь и здоровье шодей, а также сохранность материальных епностей Например, организация оповещения и передача речевых команд управ-ения на водном, наземном и воздушном транспорте, на промышленных предпри-гиях, где высокий уровень шумов является характерной особенностью производ-гва, при проведении спасательных операций в зонах стихийных бедствий, при роведении антитеррористических и войсковых операций и т п В обозначенных ферах деятельности человека разборчивость речи определяется не только качест-ом канала звукопередачи, в значительной степени разборчивость зависит от ровня и спектрального состава акустических помех, мешающих прослушиванию олезного речевого сигнала Поэтому проблема повышения разборчивости речи, оспринимаемой на фоне акустических помех не потеряла своей актуальности и о сегодняшний день

Один из очевидных путей решения названной проблемы заключается в по-ышении уровня полезного сигнала, передаваемого по каналу звукопередачи, и аким образом, повышении отношения сигнал/шум в прослушиваемом сигнале )днако этот путь имеет ограниченные возможности, поскольку увеличение уров-я речевого сигнала сопровождается усилением эффекта прямой и обратной мас-ировки согласных фонем гласными В итоге, увеличение уровня полезного сигала позволяет повысить разборчивость речи только до определенного порога, осле чего происходит снижение ее разборчивости В настоящее время для повы-1ения разборчивости речи, воспринимаемой на фоне помех различной природы роисхождения, широко применяются различные электронные (как аналоговые, ак и цифровые) шумоподавители Вместе с тем, подобные устройства не позво-

ляют избавиться от негативного влияния на разборчивость речи тех акустичесю; помех, которые воздействуют на слушателя одновременно с полезным речевы сигналом Для борьбы с этой разновидностью помех могут быть использовав индивидуальные средства защиты от шума (наушники, шлемофоны и т п ). Одн ко область их применения ограничена, поскольку в ряде случаев отсутствует во можность обеспечить всех людей в зоне оповещения индивидуальными средой ми защиты от шума (например, на вокзалах, в аэропортах и т п) Кроме этог полная изоляция от звуков окружающего мира, например, водителя транспорта го средства, может привести к запаздыванию, либо к полному отсутствию его р акции на возникшую в ходе движения опасность

Таким образом, разработка нового метода обработки речевых сигналов, п зволяющего в реальном масштабе времени повысить разборчивость речи, воспр нимаемой на фоне акустических помех, является актуальной проблемой для рг личных систем служебной связи и речевого оповещения Одним из путей решен: указанной проблемы может служить использование сжатия части частотного да пазона речевого сигнала путем точного деления его мгновенной частоты Объект исследования: обработка речевых сигналов Предмет исследования: метод и технические средства сжатия частотно диапазона речевых сигналов путем нелинейной безинерционной обработки мгновенной частоты без необходимости выделять эту модулирующую функцик виде отдельного субсигнала Исследование зависимости разборчивости речи параметров компрессирования, уровня речевого сигнала и уровня акустическ помехи в точке прослушивания сообщения

Цель исследования заключается в разработке нового метода и техническ средств частотного компрессирования речевых сигналов путем нелинейной об{ ботки их мгновенной частоты для повышения разборчивости речи, восприним; мой на фоне акустических помех

В соответствии с основной целью и предметом исследования определе: следующие задачи исследования

- теоретически и экспериментально исследовать пригодность нового ме'

а нелинейной обработки мгновенной частоты речевых сигналов для повышения азборчивости речи, воспринимаемой на фоне акустических помех,

- теоретически и экспериментально проработать возможные варианты и ути построения точного нелинейного частотного компрессора с целью обеспе-ить его практическую реализацию,

- экспериментально определить влияние нелинейной обработки мгновен-ой частоты на восприятие компрессированных речевых сигналов на фоне аку-тических помех,

- обеспечить внедрение полученных результатов

Методологическую и теоретическую основы исследования составили на-чные труды отечественных и зарубежных авторов в области передачи и преобра-ования аналоговых сигналов, а также физиологии слуха и речи человека

Методы исследования. Во время проведения исследования применялись [етоды теоретического анализа (математического, логического, системного, мо-елирования, обобщения опыта), спектрального анализа (экспериментального и еоретического), артикуляционных измерений и экспертных оценок

Научная новизна исследования

1 Разработан новый метод повышения разборчивости речи, воспринимае-[ой на фоне акустических помех Отличие разработанного метода состоит в том, то разборчивость повышается за счет сжатия части частотного диапазона рече-ых сигналов путем точного аналогового деления их мгновенной частоты без вы-еления этой модулирующей функции в виде отдельного субсигнала

2 Разработан новый способ точного сжатия части диапазона изменения (гновенной частоты речевых сигналов, позволяющий в реальном масштабе вре-[ени сжимать необходимую часть частотного диапазона речевых сигналов

3 Предложено оценивать полезность и эффективность преобразования ре-евых сигналов в нелинейном частотном компрессоре введением новой характе-истики, а именно эквивалентного отношения сигнал/шум, которое определяется о разборчивости речи и показывает субъективное увеличение соотношения сигал/шум при восприятии речи на фоне акустических помех

4 Установлены зависимости эквивалентного отношения сигнал/шум для речевого сигнала с частично сжатым частотным диапазоном от частоты порог компрессии, коэффициента деления мгновенной частоты и величины верхнеГ граничной частоты полосы пропускания канала звукопередачи С помощью уста новленных зависимостей определены оптимальные (по критерию максимальное повышения разборчивости речи) коэффициент деления М1 новенной частоты, час тот а порога компрессии и верхняя граничная частота полосы пропускания канал звукопередачи, при которых достигается максимальное увеличение эквивалентно го отношения сигнал/шум в прослушиваемом на фоне акустических помех рече вом сигнале, а также зависимость разборчивости речи от величины отношени сигнал/шум при оптимальных параметрах частотного компрессирования

Обоснованность и достоверность полученных результатов подтверждает

ся

1 Согласованностью теоретических выводов с результатами их экспери ментальной проверки

2 Использованием традиционных методов измерений

3 Соответствием полученных результатов логически аргументированны] ожиданиям

4 Общепринятой статистической обработкой результатов измерений

5 Патентом РФ на изобретенные способ точного аналогового сжатия част частотного диапазона звуковых сигналов и устройство для его реализации

6 Апробацией результатов работы

Научная ценность результатов исследования

1 Разработан новый подход к повышению разборчивости речи в условия акусгических помех

2 Полученные в диссертации зависимости могут служить научным фунд! ментом для широкого практического использования результатов работы, напр! мер, для разработки систем речевого оповещения с автоматическим включение частотного компрессирования в канале звукопередачи при превышении акустич( скими помехами порога шумности в зоне прослушивания сообщений

Практическая значимость и реализация результатов работы:

1 Теоретическое решение задачи точною сжатия части частотного диапазона звуковых сигналов позволило создать работоспособный нелинейный частотный компрессор Новое решение позволило устранить известные недостатки, свойственные методу сжатия частотного диапазона звуковых сигналов путем выделения и обработки их мгновенной частоты в виде отдельного субсигнала

2 Частотно компрессированные с помощью созданною нелинейного частотного компрессора речевые сигналы можно прослушивать, не восстанавливая масштаб мгновенной частоты, что подтверждено результатами артикуляционных измерений

3 Установлена зависимость разборчивости речи от величины отношения сигнал/шум при оптимальных параметрах частотного компрессирования Полученная зависимость показывает возможность практического использования нелинейного частотного компрессирования в широком диапазоне изменения отношения сигнал/шум

4 Решение задачи точного сжатия части частотного диапазона звуковых сигналов получено впервые и позволяет по аналогии решать и другие задачи по обработке частотного диапазона звуковых сигналов (например, экспандирование части частотного диапазона)

5 Материалы диссертационной работы используются в учебном процессе Санкт-Петербургского государственного университета кино и телевидения, а также Института переподготовки и повышения квалификации сотрудников ФСБ РФ (С -Петербург) Внедрение результатов диссертационной работы подтверждено соответствующими актами

Апробация работы Основные положения диссертационной работы докладывались и обсуждались на научно-технических конференциях СПбГУКиТ в 2004-2007 годах

Публикации. Основное содержание диссертации изложено в 5 опубликованных и депонированных статьях, а также в одной заявке на изобретение, по которой получен патент РФ на «Способ и устройство точного аналогового сжатия

части частотного диапазона звуковых сигналов»

Структура и объем работы. Диссертация содержит введение, основной текст из четырех глав, заключение, библиографических список использованной литературы и приложение Объем основного текста с введением и заключением составляет 166 страниц, включая 37 рисунков на 32 страницах и 4 таблицы на 2 страницах Список литературы содержит 65 наименований На защиту выносятся следующие положения:

1 Разборчивость речи, воспринимаемой на фоне акустических помех, можно повысить путем компрессирования верхней части (выше 4 кГц) частотного диапазона речевого сигнала

2 Сжимать верхнюю часть частотного диапазона речевого сигнала следует делеш!ем мгновенной частоты, транспонированной вверх по частотному диапазону соответствующей части речевого сигнала

3 Нелинейное частотное компрессирование речевых сигналов, воспринимаемых на фоне акустических помех, оптимальное по критерию максимального увеличения разборчивости речи, создает ощущение большей величины отношения сигнал/шум, чем имеет место в действительности

КРАТКОЕ СОДЕРЖАНИЕ ДИССЕРАТАЦИИ Во введении обосновывается актуальность работы, формулируются цель и задачи исследования, дается оценка новизны и значимости полученных результатов, излагаются выносимые на защиту научные положения Там же приведена аннотация работы и описана ее структура

В основной части диссертационной работы проанализированы используемые в настоящее время методы и технические средства, с помощью которых повышается разборчивость речи, воспринимаемой на фоне акустических помех На основании проведенного анализа, выделены и рассмотрены возможные аут решения проблемы повышения разборчивости передаваемой через каналы звукопе-редачи речи, которая воспринимается на фоне помех

1 Повысить уровень прослушиваемого полезного речевого сигнала, тем самым, добившись увеличения отношения сигнал/шум Показано, что этот путь

имеет ограниченные возможности, поскольку увеличение уровня речевого сигнала сопровождается повышением разборчивости речи только до определенного порога, после чего происходит снижение разборчивости.

2 Понизить уровень помехи в смеси полезного сигнала и помехи, с помощью шумоподавителей Однако шумоподавители не позволяют уменьшить влияние на разборчивость речи акустических помех, воздействующих на слушателя одновременно с полезным речевым сигналом

3 Разработать такие методы преобразования передаваемого по каналу зву-копередачи полезного речевого сигнала, которые позволят повысить разборчивость речи, воспринимаемой на фоне акустических помех

Данное диссертационное исследование выполнено в рамках третьего пути решения проблемы повышения разборчивости речи, воспринимаемой на фоне акустических помех

Разработан метод повышения разборчивости речи, воспринимаемой на фоне акустических помех, сущность которого заключается в сжатии верхней части частотного диапазона речевых сигналов путем точного деления их мгновенной частоты на передающей стороне канала звукопередачи.

Основные положения разработанного метода повышения разборчивости речи, воспринимаемой на фоне помех

1 Обработке подвергается только та часть исходного речевого сигнала, частотный диапазон которой лежит выше определенного значения мгновенной частоты - частоты порога компрессии

2 Обрабатываемая часть исходного речевого сигнала дополняется опорным сигналом, сопряженным с исходным по Гильберту

3 Путем соответствующих преобразований исходного и опорного сигналов осуществляется точное деление их мгновенной частоты в необходимое количество раз '

4 Прослушивать полученные после обработки речевые сигналы следует без восстановления масштаба мгновенной частоты

Основанием для предложения такого метода обработки речевого сигнала

служат результаты исследований свойств речи человека, проводившиеся в раз-летных странах Речь человека представляет собой сложный звуковой сигнал, который трудно описать только с временных или только со спектральных позиций

Согласно модуляционной теории звуковых сигналов, любой произвольный звуковой сигнал можно представить в виде вектора, вращающегося с мгновенной угловой скоростью оз(I) вокруг начала неподвижной декарювой системы координат на комплексной плоскости (рис 1)

Рис 1 Геометрическое представление сигнального вектора

Проекции вектора на координатные оси объединяются в виде комплексного (аналитического) сигнала

z(t) = s(t)+ys(t) (1)

Исходный звуковой сигнал s(t) является проекцией сигнального вектора на действительную ось (Re, на рис 1) То есть

s(t) = S(t) cos (p(t) (2)

Сигнал s(t), полученный из исходного с помощью преобразования Гильберта, является проекцией сигнального вектора на мнимую ось (Im, на рис 1)

s(t) = S(t) sin cp(t) (3)

Пара сигналов, сопряженных по Гильберту, удовлетворяет условию ортогональности

t

js(t)s(t)dt = 0; (4)

t-T

где Т - временное окно, в котором ведется интегрирование При этом не требуется накладывать каких-либо дополнительных ограничений на исходный и опорный сигналы, например, на ширину частотного диапазона

Для пары сигналов {s(t), s(t)} известны понятия модулирующих функций

1) Огибающая S(t) пары сигналов {s(t), s(t)} - неотрицательная функция времени, соответствующая длине сигнального вектора в каждый момент времени

SCO = |Vs2(t) + s2(t)| (5)

2) Текущая фаза <p(t) пары сигналов {s(t), s(t)} - функция

5(0 s(t) s(t)

<p(t) = Arctg~rr = Arcsin-r— = Arccos—- (6)

S\J) о О

3) Мгновенная частота m(t) пары сигналов {s(t). s(t)} — производная по времени их текущей фазы.

d d s(t) s(t)^Ht)-s(t)~s(t)

®(t) = -7<p(t) = ^Arctg— = —&-(7)

dt dt S(t) sJ(0 + s2(i)

Изменение мгновенной частоты звукового сигнала характеризует процесс его

частотной модуляции Результаты практических исследований свойств мгновенной частоты речевых сигналов показывают, что у гласных и звонких согласных звуков русской речи мгновенная частота является медленно меняющейся функцией времени, средние значения которой не превышают 1 кГц Ее девиация и частота модуляции также не превышают 1 кГц У шумоподобных согласных звуков типа «с», «сь», «ч», «ш», «щ», «ть» и др , средние значения мгновенной частоты имеют величину от 3 до 10 кГц, при этом ее девиация достигает 2-5 кГц

Таким образом, известные свойства звуков русской речи, позволяют сделать вывод о возможности использовать сжатие верхней части частотного диапазона речевого сигнала путем нелинейной обработки его мгновенной частоты для повышения разборчивости речи на фоне акустических помех При этом мгновенные частоты и спектры гласных и звонких согласных фонем останутся для слухового аппарата1 человека неискаженными Преобразованиям подвергнется только мгновенная частота шумоподобных согласных фонем с одновременным повышением их спектральной плотности в верхней части частотного диапазона речевого сигнала, что в свою очередь повысит разборчивость указанных звуков речи Поскольку экспериментально установлено, что разборчивость речи определяется главным образом правильным распознаванием согласных фонем, наиболее подверженных вредному маскирующему воздействию шума, то повышение разбор-

чивости шумоподобных согласных позволит повысить разборчивость речевого сигнала в целом

Характеристика нелинейной обработки мгновенной частоты звукового сигнала аппроксимируется двумя отрезками прямых (см рис 2) На первом отрезке, где значения мгновенной частоты входного сигнала не превышают частоту порога компрессии от, угол наклона а1=45° При этом коэффициент передачи частоты К= tga и коэффициент деления мгновенной частоты Кде1= 1/К равны 1, и мгновенная частота входного сигнала останется без изменений, те озш= <э„Ыл

На втором участке характеристики, где значения мгновенной частоты соЕХ превышают частоту порога компрессии е>ш, угол наклона а2<45° При этом коэффициент передачи частоты К<1 (Кдел >1), и в нелинейном частотном компрессоре осуществляется деление мгновенной частоты входного сигнала в Кдсл раз

Рис 2 Характеристика нелинейной обработки мгновенной частоты Преобразовывать мгновенную частоту и (или) огибающую можно путем их выделения в виде отдельно существующих субсигналов, этот метод обработки звуковых сигналов получил название модуляционного анализа-синтеза Однако ему присуши следующие недостатки уменьшение помехоустойчивости обрабатываемого сигнала, пороговые явления, неточность преобразования модулирующих функций, сложность аппаратуры Поэтому в качестве основы для разработанного в данной работе метода сжатия частотного диапазона речевого сигнала был выбран разработанный на кафедре акустики СПбГУКиТ способ точного преобразования модулирующих функций звуковых сигналов без их выделения в виде отдельных субсигналов

При проведении на кафедре акустики СПбГУКиТ практических исследований изменений спектров шумовых сигналов в зависимости от значения коэффи-

ПК

СО,

иента деления мгновенной частоты был обнаружен эффект самоконцентрации гергии частотно-модулированной части шумового сигнала Интерес к эффекту щоконцентрации в данной работе объясняется тем, что спектры глухих соглас-ых фонем типа «с», «сь», «ф», «х», «ш» и др отличаются равномерностью и эльшой протяженностью в области высоких частот Поскольку согласные игра-1Т наиболее важную роль в разборчивости речи, то изменение уровня глухих со-ысных фонем вследствие эффекта самоконцентрации отразится на разборчиво-ги речевого сигнала в целом В работе проведен математический анализ эффекта амоконцентрации энергии частотно-модулированной части шумового сигнала [оказано, что этот эффект необходимо учитывать при разработке технических редств, реализующих заявленный мегод сжатия частотного диапазона речевого ягнала путем нелинейной обработки его мгновенной частоты Связано это с тем, то ширина полосы частот преобразованной части речевого сигнала будет сжи-аться в большее число раз, чем при делении в Кдсл раз будет уменьшаться значе-ие мгновенной частоты

В работе проведен анализ возможных вариантов построения нелинейного астотного компрессора Для его практической реализации выбрана структурная хема, изображенная па рис 3

Рис 3 Структурная схема точного аналогового нелинейного частотного компрессора счсныа сигналов 1 — фильтр ьизкил частот, 2 — сумматор аналоговых сигналов, полосовой мльтр, 4 - сумматор мгновенных частот, 5 - точный аналоговый делитель мгновенной часто-ы, 6 - генератор синусоидальных колебаний

Порядок работы нелинейного частотного компрессора входной сигнал

sBX(t) = S(t)cos<p(t) (В)

шделяется на низкочастотную

sm(t) = Sm(t) cos (f>m(t) (9)

и высокочастотную части

sB4(t) = SB4(t) cos (pB4(t) (10)

Низкочастотная часть входного сигнала выделяется с помощью фильтра низкой

частоты (1, рис 7), верхняя фаничная частота которого равна выбранной частоте порога компрессии Высокочастотная часть входного сигнала выделяется полосовым фильтром (3, рис 7), у которого нижняя граничная частота равна частоте порога компрессии, а верхняя - соответствует верхней границе частотного диапазона, занимаемого обрабатываемым речевым сигналом Например, верхней границе частотного диапазона микрофона, регистрирующего речевой сигнал

Выделенная высокочастотная часть речевого сигнала транспонируется вверх по частотному диапазону с помощью сумматора мгновенных частот (4, рис 3) Предварительное (перед делением) транспонирование вверх по частотному диапазону высокочастотной части входного сигнала необходимо для того, чтобы собственные колебания генератора находились за границей звукового диапазона и не создавали помех в обрабатываемом сигнале

Точный аналоговый делитель мгновенной частоты сигналов (5, рис 3) формирует на своем выходе колебание

БделО) = SB,,(t)COS{[cpB4(t) + <Art]/ Кдел } (И)

Чтобы осуществить точное воссоединение низкочастотной и компрессированной высокочастотной частей обрабатываемого сигнала, частота собственных колебаний генератора (6, рис 3) fr = юг/2 7Г и частота порога компрессии fnK должны удовлетворять условию

f„K=(fnK +«/КДСЛ) (12)

откуда получим

(Кд,-1) (13)

Колебание (11) складывается в сумматоре аналоговых сигналов (2, рис 3) с не-

преобразованной низкочастотной частью входного сигнала (9) Таким образом, на

выходе нелинейного частотного компрессора получаем речевой сигнал с частично

сжатым частотным диапазоном

На разработанные способ и устройство точного аналогового сжатия части

частотного диапазона речевого сигнала получен патент РФ на изобретение

Автором работы проведен анализ известных объективных и субъективных

входов определения разборчивости речи Показано, что для оценки влияния сжа-ия части частотного диапазона речевого сигнала на его разборчивость, наиболее одходящим является метод субъективных экспертных оценок - артикуляцион-ые измерения слоговой разборчивости Поэтому для проверки работоспособно-ш разработанного нелинейного частотного компрессора были организованы и роведены артикуляционные испытания

В качестве полезного речевого сигнала при испытаниях использовались за-иси слоговых таблиц по ГОСТ Р 50840-95, а в качестве акустической помехи ис-ользовался «белый» шум, источником которого служил генератор Г2-12 При ыборе сигнала помехи учитывалась необходимость воспроизводства условий роведения исследований для различных режимов компрессии полезного речево-о сигнала, а также возможность сравнить полученные результаты с известивши ависимостями слоговой разборчивости русской речи от соотношения уровней юлезного сигнала и шума (рис 4) Г>% то' 80 60 40 20 0

/ г?

/ / 1/ / / / )

/ / / / / 1/ /

/ / / / !

) / / / 1 / /

4о/ У у 70 /' >/ «V 100 4ю

/ ) / / л / /

/ У / /

х- / У у / У У л у

. мш, дБ

10 30 50 70 90 110 130 дЬ Рис 4 Зависимость слоговой разборчивости русской речи от уровня речи и шума

При проведении испытаний записи слоговых таблиц воспроизводились с помощью магнитофона и подавались на вход нелинейного частотного компрессора Затем частично компрессированный речевой сигнал пропускался через узкополосный канал звукопередачи Частотные характеристики канала формировались с помощью фильтров низких частот, верхняя граничная частота которых принимала значения 2, 3, 4 и 6 кГц Прошедший через канал звукопередачи речевой сигнал воспроизводился с помощью акустической системы Акустическая помеха озвучивалась с помощью отдельной акустической системы Чтобы свести

к минимуму влияние эффекта бинауральной демаскировки на разборчивость речи обе акустические системы располагались вплотную друг к другу Уровни речевого сигнала и «белого» шума устанавливались равными 80 дБ и 60 дБ соответственно Полученная таким образом смесь полезного сигнала и шума прослушивалась экспертами

Для каждого значения верхней граничнои частоты полосы пропускания канала звукопередачи измерялась ело! овая разборчивость частично" компрессированного речевого сигнала, в зависимости от значения частоты порога компрессии (2, 3, 4, 5 и 6 кГц) и коэффициента деления мгновенной частоты в надпороговой области (2, 4 и 8) Результаты измерений обработаны стандартным образом, с доверительной вероятностью 0,95 величины абсолютных ошибок не превышают 5%

Поскольку одной из основных характеристик систем связи является отношение сигнал/шум в принятых сигналах, предложено оценивать эффективность преобразования речевых сигналов в нелинейном частотном компрессоре введением новой характеристики, а именно эквивалентного отношения сигнал/шум Данная характеристика определяется по разборчивости речи с помощью изображенных на рис 4 зависимостей, и иллюстрирует субъективное (кажущееся) повышение отношения сигнал/шум при прослушивании частотно компрессированного речевого сигнала на фоне акустических помех

Таким образом, по результатам измерений слоговой разборчивости получены новые зависимости эквивалентного отношения сигнал/шум для речевого сигнала с частично сжатым частотным диапазоном от частоты порога компрессии, коэффициента деления мгновенной частоты и от верхней граничной частоты по лосы пропускания канала связи, которые иллюстрируются с помощью графико: (рис 5-7)

На приведенных ниже графиках границы доверительных интервалов не ото бражены, поскольку величины абсолютных ошибок и различия между отдельны ми ошибками достаточно малы (менее 5%) Также для удобства восприятия полу ченных зависимостей, на графиках вместо коэффициента деления мгновенно:" частоты Кдел, показаны значения коэффициента передачи частоты К=1/КД(;л Зна

чениям разборчивости некомпрессированного речевого сигнала соответствуют точки графиков, где К=1

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 а) К б)

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

К

0,1 04 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 в) К г)

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

К

Рис 5 Зависимость эквивалентного отношения сигнал/шум от коэффициента передачи частоты верхняя граничная частота полосы пропускания канала а) 2 кГц, б) 3 кГц, в) 4 кГц,

г) 6 кГц, частота порога компрессии 2 кГц - - - , 3 кГц- , 4 кГц----- ,

5 кГц------- ,6 кГц----

С/Ш,дБ 40

30

20

10

0

а)

С/Ш, дБ 40

30

20

10

0

в)

1 ! 1 1

" 1--

1

.. 1

=3 ===

1 1

С/Ш, дБ 40

5 6

Ев, кГц б)

| 1

1 - _ 1

-

г'

1

-1-,

5 6

и, кГц г)

С/Ш, дБ 40

30

20

10

0

1

1 ^ ^^ Г

/

>

1

К- 1

! 1

5 6

Г™, кГц

Рис 6 Зависимость эквивалентного отношения сигнал/шум от частоты порога компрессии верхняя граничная частота полосы пропускания канала а) 2 кГц, 6) 3 кГц, в) 4 кГц, г) 6 кГц, коэффициент передачи частоты 0,125 ----,0,25 - ,0,5 -----

С/Ш,дБ

40 — —: 30

20-

10-*

0-1

б

в) Г,„ кГц

Рис 7 Зависимость эквивалентного отношения сигнал/шум от верхней граничнои частоты почосы пропускания канала связи коэффициент передачи частоты а) 0Д25, , б) 0,25,

в) 0,5, частота порога компрессии 2 кГц _ _ _ , 3 кГц-, 4 кГц-----, 5 кГц _______,

6 кГц____

По приведенным зависимостям установлено оптимальное значение коэффициента передачи частоты в надпороговой области К = 0,125 (соответственно Кдел = 8) и оптимальное значение частоты порога компрессии 1^= 4 кГц, при которых достигается наибольшее увеличение эквивалентного отношения сигнал/шум - на 14 дБ (с 23 до 37 дБ, при фактическом отношении сигнал/шум 20 дБ)

Эффективность применения разработанного точного аналогового нелинейного частотного компрессора для повышения разборчивости речи, воспринимаемой на фоне акустических помех, подтверждена артикуляционными испытаниями компрессора при описанных выше оптимальных параметрах компрессии для узкополосного канала звукопередачи шириной 4 кГц и различных соотношениях уровней полезного сигнала и акустической помехи в виде «белого» шума (рис 8)

Полученные зависимости отражают повышение разборчивости речи, воспринимаемой на фоне стационарной акустической помехи («белый» шум), для адаптированного слушателя Сформулировано предположение, что при воздействии на слушателя нестационарной акустической помехи выигрыш в увеличении разборчивости речи окажется еще больше Предположение основывается на том факте, что разборчивость речи при нелинейном частотном компрессировании по-

вышается за счет повышения уровня согласных звуков Следовательно, при прослушивании частотно компрессированного речевого сигнала, именно для согласных звуков возрастет отношение сигнал/шум Косвенно это предположение подтверждается известными зависимостями, получившими название «кривые Яновского« (рис 9), которые по имеющимся сведениям получены при использовании нестационарной акустической помехи р, '

-

/ -

у к*

✓ - -

у

/ -

- -

/ ✓

Г- -

-)

30 С./Ш, дБ

Рис 8 Зависимость слоговой разборчивости русской речи от соотношения сигнал/шум до — — и после —— обработки в нелинейном частотном компрессоре (Кр = 80 дБ,

Кл,

: 8, Гф= й,к= 4 кГц)

Р,% 100' *

80

60

40

20

у ;/гт "'

20 40 60 80 100 120 ьр(фов) Рис 9 Зависимость слоговой разборчивости от уровня речи и шума по Яновскому

Дополнительно, в работе проведены экспериментальные исследования зависимости слоговой разборчивости русской речи от ограничения сверху ширины полосы частот спектра огибающей Исследования проводились с помощью канала неполного модуляционного анализа-синтеза По результатам измерений построен график (рис 10) Установлено, что ограничение спектра частот огибающей сверху до полосы в 4 кГц несущественно сказывается на изменении разборчивости речи Результаты измерений позволяют сделать вывод, что сужение полосы частот оги-

бающей нецелесообразно использовать для повышения разборчивости речи

ч

У

—1

0 0,5 1 2 3 4 5 6 7 8 9 10 {гр, кГц

Рис 10 Зависимость слоговой разборчивости русской речи от ограничения ширины полосы частот спектра огибающей сверху

В заключении кратко излагаются основные научные и практические результаты, полученные в диссертационной работе

ЗАКЛЮЧЕНИЕ

В ходе диссертационного исследования получены следующие теоретические и практические результаты

1 Разработан новый метод повышения разборчивости речи, воспринимаемой на фоне акустических помех, путем сжатия части частотного диапазона речевых сигналов за счет точного деления их мгновенной частоты

2 Теоретически исследована возможность использования нелинейного преобразования мгновенной частоты речевых сигналов для повышения разборчиво сти речи, воспринимаемой на фоне акустических помех Показано, что известны1 свойства звуков русской речи подтверждают возможность прослушивать речевы сигналы с нелинейно преобразованной мгновенной частотой без восстановлени ее масштаба

3 Проведен математический анализ процесса сжатия частотного диапазон речевых сигналов, который позволил разработать новый способ точного сжати части диапазона изменения мгновенной частоты речевых сигналов

4 Теоретически и экспериментально проработаны возможные пути пс строения нелинейного частотного компрессора На основании результатов исслс дования разработаны технические средства нелинейного частотного компресск рования речевых сигналов, позволяющие повышать разборчивость речи, воспрк

нимаемой на фоне акустических помех На разработанные способ и одно из устройств для его реализации получен патент РФ

5 Экспериментально исследовано влияние ограничения сверху ширины полосы частот спектра огибающей на слоговую разборчивость русской речи Установленные зависимости позволяют утверждать, что сужение полосы частот огибающей нецелесообразно использовать для повышения разборчивости речи

6 Установлены зависимости изменения разборчивости речи при нелинейном частотном компрессировании Предложено оценивать эффективность преобразования речевых сигналов введением новой характеристики, а именно эквивалентного отношения сигнал/шум, которое определяется по разборчивости речи Определены зависимости эквивалентного отношения сигнал/шум от частоты порога компрессии, коэффициента деления мгновенной частоты и от верхней граничной частоты полосы пропускания канала звукопередачи

7 Определены оптимальные, по критерию максимального увеличения разборчивости речи коэффициент деления мгновенной частоты (равен 8), частота порога компрессии (4 кГц) и верхняя граничная частота полосы пропускания канала звукопередачи (4 кГц) При названных оптимальных параметрах частотного компрессирования установлена зависимость разборчивости речи от изменения соотношения уровней полезного речевого сигнала и акустической помехи Полученная зависимость показывает возможность практического использования нелинейного частотного компрессирования в широком диапазоне изменения отношения сигнал/шум

8 Результаты диссертационного исследования внедрены в учебный процесс Санкт-Петербургского государствешюго университета кино и телевидения, а также в учебный процесс Института переподготовки и повышения квалификации сотрудников ФСБ РФ (С -Петербург)

Таким образом, в диссертационной работе поставлена и решена новая актуальная задача в области преобразования речевых сигналов - разработаны метод и технические средства сжатия частотного диапазона речевых сигналов для повышения их разборчивости на фоне акустических помех

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1 Зуев П Ю, Уваров В К Повышение разборчивости речевого сигнала на фоне акустических и других помех Деп рук № 187кт-ДОЗ, ОНТИ НИКФИ, 2003 - 14 с Реферат ВИНИТИ РЖ 24Б Электроакустика Обработка и кодирование речевых сигналов - 2004 - № 1 - С 9

2 Зуев П Ю , Уваров В К О шумопонижении речевых сигналов // Проблемы развития техники и технологии кино и телевидения Сб науч тр / СПбГУКиТ -СПб, 2003 -Вып 16 - С 42-49

3 Зуев П10, Уваров В К Точное сжатие части частотного диапазона речевого сигнала Деп рук № 188кт-Д04, ОНТИ НИКФИ, 2004 -23 с Реферат ВИНИТИ РЖ 24Б. Электроакустика Обработка и кодирование речевых сигналов - 2004 -№ 8 -С 6

4 Зуев П Ю, Уваров В К Точное аналоговое сжатие части частотного диапазона речевого сигнала // Проблемы развития техники и технологии кино и телевидения Сб науч тр /СПбГУКиТ - СПб, 2004 -Вып 17 -С 32-36

5 Зуев П Ю , Уваров В К Исследование изменения разборчивости речевого сигнала в зависимости от ограничения спектра частот огибающей Деп рук № 190кт-Д06, ОНТИ НИКФИ, 2006 - 11 с

6 Зуев ПЮ, Уваров В К Способ и устройство точного аналогового сжатия части частотного диапазона звуковых сигналов Патент РФ № 2237933 // Б И - 2004 -№28

Подписано в печать 16 04 07 т Формат 60x84 1/16 Бумага офсетная Объем Уч-изд л 1,0 Тираж 100 экз Заказ

Подраздечение оперативной полиграфии СПбГУКиТ 192102 Санкт-Петербург, ул Бухарестская, 22

Оглавление автор диссертации — кандидата технических наук Зуев, Павел Юрьевич

ВВЕДЕНИЕ.

Глава 1. ИЗВЕСТНЫЕ СПОСОБЫ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ.

1.1. Причины снижения разборчивости речи, воспринимаемой на фоне акустических помех.

1.1.1. Маскировка в частотной области.

1.1.2. Маскировка во временной области.

1.2. Повышение разборчивости речи путем увеличения уровня полезного сигнала.

1.3. Повышение разборчивости речи путем снижения уровня помехи.

1.3.1. Аналоговые шумоподавители.

1.3.2. Цифровые шумоподавители.

1.4. Выводы по главе 1.

Глава 2. МОДУЛЯЦИОННЫЕ ПРЕОБРАЗОВАНИЯ ЗВУКОВЫХ СИГНАЛОВ.

2.1. Выбор теоретической базы разработанного метода сжатия части частотного диапазона речевого сигнала для повышения его разборчивости на фоне помех.

2.2. Теоретические основы модуляционных преобразований звуковых сигналов.

2.3. Применение модуляционных преобразований звуковых сигналов.

2.4. Изменение свойств звуковых сигналов при делении мгновенной частоты.

2.5. Выводы по главе 2.

Глава 3. РАЗРАБОТКА МЕТОДА И ТЕХНИЧЕСКИХ СРЕДСТВ

СЖАТИЯ ЧАСТИ ЧАСТОТНОГО ДИАПАЗОНА РЕЧЕВОГО СИГНАЛА ДЛЯ ПОВЫШЕНИЯ ЕГО РАЗБОРЧИВОСТИ НА ФОНЕ ПОМЕХ.

3.1. Разработанный метод сжатия части частотного диапазона речевого сигнала.

3.2. Известные свойства речи и слуха человека.

3.2.1. Виды звуковых колебаний, возбуждаемых в речевом тракте человека.

3.2.2. Описание свойств звуков речи человека с позиций спектральной теории представления сигналов.

3.2.3. Описание свойств звуков речи человека с позиций модуляционной теории представления сигналов.

3.2.4. Выводы.

3.3. Технические средства сжатия части частотного диапазона речевого сигнала.

3.3.1. Структурная схема точного аналогового нелинейного частотного компрессора.

3.3.2. Фильтры.

3.3.3. Генератор.

3.3.4. Сумматор мгновенных частот.

3.3.4.1. Фазовращатель звукового сигнала.

3.3.4.2. Фазовращатель сигнала генератора.

3.3.4.3. Перемножители сигналов.

3.3.4.4. Вычитатель сигналов.

3.3.5. Точный аналоговый делитель мгновенной частоты.

3.3.5.1 Сумматор мгновенных частот.

3.3.5.2 Генератор.

3.3.5.3 Амплитудный ограничитель.

3.3.5.4 Вычитатели мгновенных частот.

3.3.6. Альтернативная схема точного аналогового делителя мгновенной частоты.

3.3.6.1 Сумматор мгновенных частот.

3.3.6.2 Амплитудный ограничитель.

3.3.6.3 Вычитатели мгновенных частот.

3.3.6.4 Генератор.

3.3.6.5 Амплитудный детектор и фильтр низких частот.

3.3.6.6 Перемножитель сигналов.

3.3.7. Сумматор сигналов.

3.4. Выводы по главе 3.

Глава 4. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ РАЗБОРЧИВОСТИ РЕЧЕВОГО СИГНАЛА С ЧАСТИЧНО КОМПРЕССИРОВАННЫМ ЧАСТОТНЫМ ДИАПАЗОНОМ.

4.1. Методы оценки разборчивости речи.

4.1.1. Субъективные методы оценки разборчивости речи.

4.1.2. Объективные методы оценки разборчивости речи.

4.1.3. Выводы.

4.2. Результаты артикуляционных испытаний точного аналогового нелинейного частотного компрессора.

4.2.1. Определение оптимальных параметров нелинейной частотной компрессии речевого сигнала.

4.2.2. Исследование эффективности применения точного аналогового нелинейного частотного компрессора для повышения разборчивости речи, воспринимаемой на фоне акустических помех.

4.3. Исследование зависимости разборчивости речевого сигнала от ограничения спектра частот огибающей.

4.4. Выводы по главе 4.

Введение 2007 год, диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам, Зуев, Павел Юрьевич

Понятие помех в общем смысле включает в себя и понятие шумов, иногда эти понятия различают, поскольку шумы составляют наиболее обширный класс помех [8, с. 100]. Известно довольно большое количество разновидностей помех с самыми разнообразными свойствами, в частности, по способу воздействия на речевые сигналы все разновидности помех можно разделить на две группы:

1). Радиотехнические помехи. Возникают в аппаратуре и каналах звукопередачи под воздействием тепловых шумов, электромагнитных наводок и т.п.

2). Акустические помехи. Их источниками служат звуки, создаваемые природными явлениями, работающими механизмами, бытовой техникой и транспортными средствами, кроме этого источниками акустических помех являются удаленные голоса посторонних людей, играющая музыка, звуки «эха» и реверберации в помещениях [1].

В данном диссертационном исследовании рассматриваются методы обработки речевых сигналов, которые позволяют повысить разборчивость речи, воспринимаемой на фоне акустических помех.

Актуальность исследования. Общеизвестно, что восприятие речи на фоне акустических помех сопровождается снижением ее разборчивости. Вместе с тем существуют такие сферы деятельности человека, в которых восприятие речи, переданной посредством телекоммуникационных систем, по объективным причинам происходит в условиях высокого уровня акустических помех. Причем часто от достоверности и своевременности получения информации, содержащейся в речевом сигнале, зависят жизнь и здоровье людей, а также сохранность материальных ценностей. Например, организация оповещения и передача речевых команд управления на водном, наземном и воздушном транспорте; на промышленных предприятиях, где высокий уровень шумов является характерной особенностью производства; при проведении спасательных операций в зонах стихийных бедствий; при проведении антитеррористических и войсковых операций и т.п. В обозначенных сферах деятельности человека разборчивость речи определяется не только качеством канала звуко-передачи, в значительной степени разборчивость зависит от уровня и спектрального состава акустических помех, мешающих прослушиванию полезного речевого сигнала. Поэтому проблема повышения разборчивости речи, воспринимаемой на фоне акустических помех не потеряла своей актуальности и по сегодняшний день.

Один из очевидных путей решения названной проблемы заключается в повышении уровня полезного сигнала, передаваемого по каналу звукопередачи, и таким образом, повышении отношения сигнал/шум в прослушиваемом сигнале. Однако этот путь имеет ограниченные возможности, поскольку увеличение уровня речевого сигнала сопровождается усилением эффекта прямой и обратной маскировки согласных фонем гласными. В итоге, увеличение уровня полезного сигнала позволяет повысить разборчивость речи только до определенного порога, после чего происходит снижение ее разборчивости. В настоящее время для повышения разборчивости речи, воспринимаемой на фоне помех различной природы происхождения, широко применяются различные электронные (как аналоговые, так и цифровые) шумоподавители. Вместе с тем, подобные устройства не позволяют избавиться от негативного влияния на разборчивость речи тех акустических помех, которые воздействуют на слушателя одновременно с полезным речевым сигналом. Для борьбы с этой разновидностью помех могут быть использованы индивидуальные средства защиты от шума (наушники, шлемофоны и т.п.). Однако область их применения ограничена, поскольку в ряде случаев отсутствует возможность обеспечить всех людей в зоне оповещения индивидуальными средствами защиты от шума (например, на вокзалах, в аэропортах и т.п.). Кроме этого, полная изоляция от звуков окружающего мира, например, водителя транспортного средства, может привести к запаздыванию, либо к полному отсутствию его реакции на возникшую в ходе движения опасность.

Таким образом, разработка нового метода обработки речевых сигналов, позволяющего в реальном масштабе времени повысить разборчивость речи, воспринимаемой на фоне акустических помех, является актуальной проблемой для различных систем служебной связи и речевого оповещения. Одним из путей решения указанной проблемы может служить использование сжатия части частотного диапазона речевого сигнала путем точного деления его мгновенной частоты.

Объект исследования: обработка речевых сигналов.

Предмет исследования: метод и технические средства сжатия частотного диапазона речи путем нелинейной безинерционной обработки ее мгновенной частоты без необходимости выделять эту модулирующую функцию в виде отдельного субсигнала. Исследование зависимости разборчивости речи от параметров компрессирования, уровня речевого сигнала и уровня акустической помехи в точке прослушивания сообщения.

Основная цель исследования заключается в разработке нового метода и технических средств частотного компрессирования речевых сигналов путем нелинейной обработки их мгновенной частоты для повышения разборчивости речи, воспринимаемой на фоне акустических помех.

В соответствии с основной целью и предметом исследования определены следующие задачи исследования:

- теоретически и экспериментально исследовать пригодность нового метода нелинейной обработки мгновенной частоты речевых сигналов для повышения разборчивости речи, воспринимаемой на фоне акустических помех;

-теоретически и экспериментально проработать возможные варианты и пути построения точного нелинейного частотного компрессора с целью обеспечить его практическую реализацию;

-экспериментально определить влияние нелинейной обработки мгновенной частоты на восприятие компрессированных речевых сигналов на фоне акустических помех;

- обеспечить внедрение полученных результатов.

Методологическую и теоретическую основы исследования составили научные труды отечественных и зарубежных авторов в области передачи и преобразования аналоговых сигналов, а также физиологии слуха и речи человека: Д. Габора, П. Марку, Ж. Дагэ, Г.И. Цемеля, A.A. Харкевича, A.C. Винницкого, В.И. Тихонова, Б.Р. Левина, Д.В. Агеева, Ю.М. Ишуткина, В.К. Уварова, Н.Б. Покровского, М.А. Сапожкова, Л.А. Чистович, Э. Цвикера, Р. Фелькеллера, И.А. Алдошиной.

Методы исследования. Во время проведения исследования применялись методы теоретического анализа (математического, логического, системного, моделирования, обобщения опыта), спектрального анализа (экспериментального и теоретического), артикуляционных измерений и экспертных оценок.

Информационная база исследования. В качестве информационных источников проведенного исследования использованы:

- научные источники в виде: данных и сведений из них, журнальных статей, научных докладов и отчетов, материалов научных конференций;

-официальные документы в виде ГОСТов и технических описаний на устройства обработки звуковых сигналов;

-результаты собственных расчетов и проведенных экспериментов.

Научная новизна исследования:

1. Разработан новый метод повышения разборчивости речи, воспринимаемой на фоне акустических помех. Отличие разработанного метода состоит в том, что разборчивость повышается за счет сжатия части частотного диапазона речевых сигналов путем точного аналогового деления их мгновенной частоты без выделения этой модулирующей функции в виде отдельного субсигнала.

2. Разработан новый способ точного сжатия части диапазона изменения мгновенной частоты речевых сигналов, позволяющий в реальном масштабе времени сжимать необходимую часть частотного диапазона речевых сигналов.

3. Предложено оценивать полезность и эффективность преобразования речевых сигналов в нелинейном частотном компрессоре введением новой характеристики, а именно: эквивалентного отношения сигнал/шум, которое определяется по разборчивости речи и показывает субъективное увеличение соотношения сигнал/шум при восприятии речи на фоне акустических помех.

4. Установлены зависимости эквивалентного отношения сигнал/шум для речевого сигнала с частично сжатым частотным диапазоном от частоты порога компрессии, коэффициента деления мгновенной частоты и величины верхней граничной частоты полосы пропускания канала звукопередачи. С помощью установленных зависимостей определены оптимальные (по критерию максимального повышения разборчивости речи) коэффициент деления мгновенной частоты, частота порога компрессии и верхняя граничная частота полосы пропускания канала звукопередачи, при которых достигается максимальное увеличение эквивалентного отношения сигнал/шум в прослушиваемом на фоне акустических помех речевом сигнале, а также зависимость разборчивости речи от величины отношения сигнал/шум при оптимальных параметрах частотного компрессирования.

Обоснованность и достоверность полученных результатов подтверждается:

1. Согласованностью теоретических выводов с результатами их экспериментальной проверки.

2. Использованием традиционных методов измерений.

3. Соответствием полученных результатов, логически аргументированным ожиданиям.

4.0бщепринятой статистической обработкой результатов измерений.

5. Патентом РФ на изобретенные способ точного аналогового сжатия части частотного диапазона звуковых сигналов и устройство для его реализации.

6. Апробацией результатов работы.

Научная ценность результатов исследования:

1. Разработан новый подход к повышению разборчивости речи в условиях акустических помех.

2. Полученные в диссертации зависимости могут служить научным фундаментом для широкого практического использования результатов работы, например, для разработки систем речевого оповещения с автоматическим включением частотного компрессирования в канале звукопередачи при превышении акустическими помехами порога шумности в зоне прослушивания сообщений.

Практическая значимость и реализация результатов работы:

1. Теоретическое решение задачи точного сжатия части частотного диапазона звуковых сигналов позволило создать работоспособный нелинейный частотный компрессор. Новое решение позволило устранить известные недостатки, свойственные методу сжатия частотного диапазона звуковых сигналов путем выделения и обработки их мгновенной частоты в виде отдельного субсигнала.

2. Частотно компрессированные с помощью созданного нелинейного частотного компрессора речевые сигналы можно прослушивать, не восстанавливая масштаб мгновенной частоты, что подтверждено результатами артикуляционных измерений.

3. Установлена зависимость разборчивости речи от величины отношения сигнал/шум при оптимальных параметрах частотного компрессирования. Полученная зависимость показывает возможность практического использования нелинейного частотного компрессирования в широком диапазоне изменения отношения сигнал/шум.

4. Решение задачи точного сжатия части частотного диапазона звуковых сигналов получено впервые и позволяет по аналогии решать и другие задачи по обработке частотного диапазона звуковых сигналов (например, экспандирование части частотного диапазона).

5. Материалы диссертационной работы используются в учебном процессе Санкт-Петербургского государственного университета кино и телевидения, а также Института переподготовки и повышения квалификации сотрудников ФСБ РФ (С.-Петербург). Внедрение результатов диссертационной работы подтверждено соответствующими актами.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на научно-технических конференциях СПбГУКиТ в 2004-2007 годах.

Публикации. Основное содержание диссертации изложено в 5 опубликованных и депонированных статьях, а также в одной заявке на изобретение, по которой получен патент РФ на «Способ и устройство точного аналогового сжатия части частотного диапазона звуковых сигналов».

Структура и объем работы. Диссертация содержит введение, основной текст из четырех глав, заключение, библиографических список использованной литературы и приложение. Объем основного текста с введением и заключением составляет 166 страниц, включая 37 рисунков на 32 страницах и 4 таблицы на 2 страницах. Список литературы содержит 68 наименований.

Заключение диссертация на тему "Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех"

4.4. Выводы по главе 4

Реализация разработанного точного аналогового нелинейного частотного компрессора позволила провести исследования зависимости разборчивости речевого сигнала с частично сжатым частотным диапазоном, воспринимаемым на фоне акустических помех, от частоты порога компрессии, коэффициента деления мгновенной частоты и от верхней граничной частоты полосы пропускания канала звукопередачи. Целью данных исследований было определить значения частоты порога компрессии и коэффициента деления мгновенной частоты в надпороговой области, при которых разборчивость речи повышается максимально.

Проанализированы известные на сегодняшний день объективные и субъективные методы оценки разборчивости речи. Отмечено, что в объективных методах оценки разборчивости речи не учитываются изменения полезного речевого сигнала, происходящие во временной области, либо учитываются только изменения его огибающей, которая не подвергается преобразованию в разработанном точном аналоговом нелинейном частотном компрессоре. Поэтому принято решение провести артикуляционные испытания нелинейного частотного компрессора. Во время артикуляционных испытаний проводились измерения слоговой разборчивости, так как она обладает наибольшей разрешающей способностью.

Результаты артикуляционных испытаний точного аналогового нелинейного частотного компрессора подтвердили, что речевой сигнал, преобразованный путем точного аналогового деления мгновенной частоты части частотного диапазона, можно прослушивать, не восстанавливая масштаб его мгновенной частоты.

Предложено оценивать эффективность преобразования'рече-вых сигналов в точном аналоговом нелинейном частотном компрессоре введением новой характеристики - эквивалентного отношения сигнал/шум, которое определяется по разборчивости речи и иллюстрирует субъективное повышение отношения сигнал/шум при прослушивании речевого сигнала с частично компрессированным частотным диапазоном на фоне акустических помех

По результатам экспериментальных исследований построены графики, иллюстрирующие зависимость слоговой разборчивости, а также эквивалентного отношения сигнал/шум для речевого сигнала с частично сжатым частотным диапазоном от частоты порога компрессии, коэффициента деления мгновенной частоты и от верхней граничной частоты полосы пропускания канала связи.

Определен оптимальный коэффициент передачи частоты в надпороговой области К=0,125 (что соответствует коэффициенту деления мгновенной частоты Кдел=8), а также оптимальное значение частоты порога компрессии - 4 кГц. При этом достигается увеличение эквивалентного отношения сигнал/шум на 14 дБ (с 23 до 37 дБ, при отношении сигнал/шум 20 дБ).

Эффективность применения разработанного точного аналогового нелинейного частотного компрессора для повышения разборчивости речевого сигнала прослушиваемого на фоне акустических помех подтверждена артикуляционными испытаниями компрессора при оптимальных параметрах компрессии и различных соотношениях уровней речевого сигнала и акустической помехи.

Дополнительно проведены экспериментальные исследования зависимости слоговой разборчивости русской речи от ограничения сверху ширины полосы частот спектра огибающей. Исследования проводились с помощью канала неполного анализа-синтеза, по результатам измерения слоговой разборчивости построен график, иллюстрирующий зависимость разборчивости речевого сигнала от степени ограничения полосы частот спектра огибающей. Установленные зависимости показали, что сужение полосы частот спектра огибающей нецелесообразно использовать для повышения разборчивости речи.

ЗАКЛЮЧЕНИЕ

Одним из путей повышения разборчивости речевых сигналов, воспринимаемых на фоне акустических помех, может служить их нелинейное преобразование путем точного деления одной из модулирующих функций - мгновенной частоты. В ходе исследования возможных вариантов нелинейного частотного преобразования речевых сигналов получены следующие теоретические и практические результаты:

1. Разработан новый метод повышения разборчивости речи, воспринимаемой на фоне акустических помех, путем сжатия части частотного диапазона речевых сигналов за счет точного деления их мгновенной частоты.

2. Теоретически исследована возможность использования нелинейного преобразования мгновенной частоты речевых сигналов для повышения разборчивости речи, воспринимаемой на фоне акустических помех. Показано, что известные свойства звуков русской речи подтверждают возможность прослушивать речевые сигналы с нелинейно преобразованной мгновенной частотой без восстановления ее масштаба.

3. Проведен математический анализ процесса сжатия частотного диапазона речевых сигналов, который позволил разработать новый способ точного сжатия части диапазона изменения мгновенной частоты речевых сигналов.

4. Теоретически и экспериментально проработаны возможные пути построения нелинейного частотного компрессора. На основании результатов исследования разработаны технические средства нелинейного частотного компрессирования речевых сигналов, позволяющие повышать разборчивость речи, воспринимаемой на фоне акустических помех. На разработанные способ и одно из устройств для его реализации получен патент РФ.

5. Экспериментально исследовано влияние ограничения сверху ширины полосы частот спектра огибающей на слоговую разборчивость русской речи. Установленные зависимости позволяют утверждать, что сужение полосы частот огибающей нецелесообразно использовать для повышения разборчивости речи.

6. Установлены зависимости изменения разборчивости речи при нелинейном частотном компрессировании. Предложено оценивать эффективность преобразования речевых сигналов введением новой характеристики, а именно: эквивалентного отношения сигнал/шум, которое определяется по разборчивости речи. Определены зависимости эквивалентного отношения сигнал/шум от частоты порога компрессии, коэффициента деления мгновенной частоты и от верхней граничной частоты полосы пропускания канала звукопере-дачи.

7. Определены оптимальные, по критерию максимального увеличения разборчивости речи: коэффициент деления мгновенной частоты (равен 8), частота порога компрессии (4 кГц) и верхняя граничная частота полосы пропускания канала звукопередачи (4 кГц). При названных оптимальных параметрах частотного компрессирования установлена зависимость разборчивости речи от изменения соотношения уровней полезного речевого сигнала и акустической помехи. Полученная зависимость показывает возможность практического использования нелинейного частотного компрессирования в широком диапазоне изменения отношения сигнал/шум.

8. Результаты диссертационного исследования внедрены в учебный процесс Санкт-Петербургского государственного университета кино и телевидения, а также в учебный процесс Института переподготовки и повышения квалификации сотрудников ФСБ РФ (С.-Петербург).

Таким образом, в диссертационной работе поставлена и решена новая актуальная задача в области преобразования речевых сигналов - разработаны метод и технические средства сжатия частотного диапазона речевых сигналов для повышения их разборчивости на фоне акустических помех.

Библиография Зуев, Павел Юрьевич, диссертация по теме Приборы и методы преобразования изображений и звука

1. Зубов Г.Н., Коваль C.J1. Шумоочистка речевых сигналов проблемы и решения // Системы безопасности, связи и телекоммуникаций. - 2001. - № 42. - С. 56-57.

2. Применение модуляционных преобразований звуковых сигналов: Монография/ Уваров В.К., Плющев В.М., Чесноков М.А.; Под ред. Уварова В.К. СПб.: СПбГУКиТ, 2004. - 131с.

3. Гендри К. Системы шумоподавления. // Звукорежиссер. 2004.- № 6. С. 49-53.

4. Чернецкий М. Системы шумоподавления // Звукорежиссер. -2001.-№ 9.-С. 3-9.

5. Adaptive signal processing / Bernard Widrow, Samuel D. Stearns.- Englewood Cliffs (N.J.): Prentice-Hall, cop. 1985. XVIII, - p. 474.- (Prentice-Hall signal processing ser.).

6. Сергиенко А.Б. Алгоритмы адаптивной фильтрации: особенности реализации в MATLAB // Exponenta Pro Математика в приложениях.-2003.-№ 1.-С. 18-28.

7. Алдошина И.А. Слуховая маскировка. Часть 1 // Звукорежиссер. -2000.-№2.-С. 40-44.

8. Сапожков М.А. Речевой сигнал в кибернетике и связи. -М.: Связь, 1963.-452с.

9. Уваров В.К. Точное компандирование частотного и динамического диапазонов звуковых сигналов. СПб: СПбГУКиТ, 2001. -326с.

10. Зуев П.Ю., Уваров В.К. Повышение разборчивости речевого сигнала на фоне акустических и других помех. Деп. рук. № 187кт-Д03, ОНТИ НИКОИ, 2003. 14с.

11. Основы модуляционных преобразований звуковых сигналов: Монография/ Ишуткин Ю.М., Уваров В.К.; Под ред. Уварова В.К.- СПб.: СПбГУКиТ, 2004. 102с.

12. Tarun Agarwal "Pre-Processing of Noisy Speech for Voice Coders," McGill University: Montréal, Jan. 2002.

13. Плющев В.M. Разработка метода и устройств безынерционного преобразования динамического диапазона звуковых сигналов: Авто-реф. дис.канд. тех. наук. Л.: ЛИКИ, 1986. - 24с.

14. Осташевский Е.Н. Разработка метода и аппаратуры управления нестационарными фазами сигналов для преобразования тембра при создании звуковых эффектов: Автореф. дис.канд.тех.наук. Л.: ЛЖИ, 1987.-24с.

15. Веселова Н.И. Разработка метода и средств оперативного контроля качества звукотехнической аппаратуры: Автореф. дис.канд. тех. наук. Л.: ЛИКИ, 1987. - 24с.

16. Уваров В.К. Сжатие частотного диапазона звуковых сигналов для улучшения качества звука при кинопоказе: Автореф. дис.кан. тех. наук.-Л.: ЛИКИ, 1985.-24с.

17. Уваров В.К., Плющев В.М., Карпов И.В. Способ записи-воспроизведения аналоговых сигналов на движущийся носитель и устройство для его осуществления. А.С. № 1644212 (СССР) // Б.И. -1991.-№15.

18. Уваров В.К. Способ и устройство точного аналогового деления мгновенной частоты сигналов. Патент РФ № 2130651 // Б.И. 1999. -№14.

19. Уваров В.К. Способ и устройство одновременного точного деления мгновенной частоты и точного возведения в степень огибающей звуковых сигналов. Патент РФ № 2152075 // Б.И. 2000. -№18.

20. Кудрин И.Г. Устройства шумоподавления в звукозаписи. М.: Энергия, 1977.-88с.

21. Gabor D. Theory of Communication // Journ.I.E.E. 1945. - V.93. - № 26. - Part III. - P. 429-457.

22. Уваров B.K. Сигналы искажения и помехи в канале передачи как предмет измерений: Учебное пособие. СПб.: СПИКиТ, 1994. -97с.

23. Meyer-Eppler W. Synthetische Sprache. Phys. Z. (Berlin), B. 29, April 1950,-p. 609.

24. Марку П., Дагэ Ж. Новые методы передачи речи. В кн.: Теория передачи сообщений (Труды третьей международной конференции).-М.: ИЛ, 1957.-С. 158-178.

25. Агеев Д.В. Активная полоса частотного спектра функции времени // Труды ГПИ. 1955. - Т. XI. - Вып. 1. - С. 5-10.

26. Цемель Г.И. О соотношении спектров речевого сигнала и его мгновенной частоты, необходимых для передачи речи. Доклад на Всесоюзном совещании секции речи Комиссии по акустике АН СССР, апрель 1957.- С. 39-47.

27. Кандинов A.B., Цемель Г.И. О возможности сужения спектра телефонного канала передачей мгновенной частоты речи или применением делителей частоты // Электросвязь 1958. - №8. - С. 3-8.

28. Белецкий А.Ф. Некоторые соображения о возможности деления спектра в связи с проблемой частотной компрессии речи. Доклад на Всесоюзном совещании секции речи Комиссии по акустике АН СССР, апрель 1956.

29. Цемель Г.И. Системы сокращения спектра телефонного канала // Электросвязь. 1957. - №5. - С. 8-15.

30. Ишуткин Ю.М. Модуляционный анализ-синтез звуковых сигналов. Деп. рук. № 9кт-Д82, ОНТИ НИКФИ, 1982. 125с.

31. Ишуткин Ю.М. Разработка теории модуляционного анализа-синтеза звуковых сигналов и ее практическое применение в технике записи звука кинофильмов: Автореф. дис. док. тех. наук. -М.: НИКФИ, 1985.-48с.

32. ГОСТ Р 50840-95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости.

33. Уваров B.K. Некоторые вопросы модуляционной теории звуковых сигналов: Учебное пособие. СПб.: СПбГУКиТ, 2005. - 68с.

34. Финк JI.M. Сигналы, помехи, ошибки. М.: Связь, 1978. - 272с.

35. Харкевич A.A. Спектры и анализ. M.-JL: ГИТТЛ, 1952. - 192с.

36. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации: Пер. с нем./под ред. Б.Г. Белкина. -М.: Связь, 1971. -256с.

37. Уваров В.К. Речь и слух. СПб.: СПбГУКиТ, 2005. - 115с.

38. Вакман Д.Е. Об определении понятий амплитуды, фазы и мгновенной частоты сигнала // Радиотехника и электроника. 1972. - Т. 17. -№5. - С.972-978.

39. Виницкий A.C. Модулированные фильтры и следящий прием 4M сигналов. М.: Советское радио, 1969. - 548с.

40. Уваров В.К. Разработка теоретических основ и технических средств компандирования звуковых сигналов: Автореф. дис. док. тех. наук. СПб.: СПбГУКиТ, 2003. - 46с.

41. Зуев П.Ю., Уваров В.К. О шумопонижении речевых сигналов. // Проблемы развития техники и технологии кино и телевидения: Сб. науч. тр. / СПбГУКиТ. СПб., 2003. - Вып. 16. - С. 42-49.

42. Уваров В.К. Явление самоконцентрации энергии частотно-модулированной части шумового сигнала. Диплом № 283, выдан 23 апреля 2005 года.

43. Бунимович В.И. Олюктуационные процессы в радиоприемных устройствах. М.: Советское радио, 1951. - 360с.

44. Тихонов В.И. Статистическая радиотехника. -М.: Советское радио, 1966.-678с.

45. Левин Б.Р. Теория случайных процессов и ее применение в радиотехнике. М.: Советское радио, 1957. - 496с.

46. Левин Б.Р. Теоретические основы статистической радиотехники. -М.: Советское радио, 1966. 728с.

47. Ишуткин Ю.М., Раковский В.В., Плющев В.М. Устройство для обработки звуковых сигналов. A.C. № 714473 // БИ. 1980. - № 5.

48. Чистович Л.А., Кожевников В.А. Восприятие речи. // Оизиоло-гия сенсорных систем. 1972. - Ч. 2. - Л.: Наука. - С. 427-514.

49. Покровский Н.Б. Расчет и измерения разборчивости речи. М.: Связьиздат, 1962. - 392с.

50. Уваров В.К. Измерение основных характеристик мгновенной частоты сигналов. Деп. рук. № 119кт-Д88, ОНТИ НИКОИ, 1988. -15с.

51. Морозов В.П. Биофизические основы вокальной речи. Л.: Наука, 1977.-232с.

52. ГОСТ 16600-72. Передача речи по трактам радиотелефонной связи. Требования к разборчивости и методы артикуляционных измерений.

53. Уваров В.К. Сжатие частотного диапазона речевых сигналов для улучшения качества звука при кинопоказе: Автореф. дис. канд. тех. наук. Л.: ЛЖИ, 1985. - 24с.

54. Зуев П.Ю., Уваров В.К. Способ и устройство точного аналоговогосжатия части частотного диапазона звуковых сигналов. Патент РФ № 2237933 // Б.И. 2004. - № 28.

55. Справочник по расчету и проектированию RC-схем / Под редакцией Ланнэ A.A. Л.: Радио и связь, 1984. -368с.

56. Алексеенко А.Г., Коломбет Е.А., Стародуб Г.И. Применение прецизионных аналоговых ИС. М.: Советское радио, 1980. - 224с.

57. Багдади Е. Дж., Рубисов Г. Дж. Динамическая ловушка позволяет выделять слабые 4M сигналы. Electronics. 1959. V. 32, № 2.

58. Алдошина И.А. Субъективные и объективные методы оценки разборчивости речи. Часть 1 // Звукорежиссер. 2002. - № 5.- С. 44-48.

59. Алдошина И.А. Субъективные и объективные методы оценки разборчивости речи. Часть 2 // Звукорежиссер. 2002. - № 8. -С. 60-66.

60. ГОСТ 51061-97. Параметры качества речи и методы ее измерения.

61. Ковалгин Ю.А. Компрессия цифрового звука: психоакустические основы и алгоритмы // Звукорежиссер. 2000. - № 6. -С. 56-63.

62. Зуев П.Ю., Уваров В.К. Точное сжатие части частотного диапазона речевого сигнала. Деп. рук. № 188кт-Д04, ОНТИ НИКФИ, 2004. 23 с.

63. Зуев П.Ю., Уваров В.К. Точное аналоговое сжатие части частотного диапазона речевого сигнала. // Проблемы развития техники и технологии кино и телевидения: Сб. науч. тр. / СПбГУКиТ.- СПб., 2004. Вып. 17. - С. 32-36.

64. ГОСТ 25902-83. Зрительные залы. Методы определения разборчивости речи.

65. Зуев П.Ю., Уваров В.К. Исследование изменения разборчивости речевого сигнала в зависимости от ограничения спектра частот огибающей. Деп. рук. № 190кт-Д06, ОНТИ НИКФИ, 2006. 11 с.