автореферат диссертации по приборостроению, метрологии и информационно-измерительным приборам и системам, 05.11.18, диссертация на тему:Методы шумопонижения речевых сигналов с использованием гребенчатых фильтров в цифровых слуховых аппаратах

кандидата технических наук
Чесноков, Михаил Александрович
город
Санкт-Петербург
год
2013
специальность ВАК РФ
05.11.18
Диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам на тему «Методы шумопонижения речевых сигналов с использованием гребенчатых фильтров в цифровых слуховых аппаратах»

Текст работы Чесноков, Михаил Александрович, диссертация по теме Приборы и методы преобразования изображений и звука

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

КИНО И ТЕЛЕВИДЕНИЯ

На правах рукописи

04201454832 __

ЧЕСНОКОВ МИХАИЛ АЛЕКСАВДРОВИЧ

МЕТОДЫ ШУМОПОНИЖЕНИЯ РЕЧЕВЫХ СИГНАЛОВ С ИСПОЛЬЗОВАНИЕМ ГРЕБЕНЧАТЫХ ФИЛЬТРОВ В ЦИФРОВЫХ

СЛУХОВЫХ АППАРАТАХ

Специальность 05.11.18 - Приборы и методы преобразования

изображений и звука

ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук

Научный руководитель: доктор технических наук,

профессор А.В. Кривошейкин

Санкт-Петербург -2013

Содержание

ВВЕДЕНИЕ..............................................................................................................4

1. Обзор методов шумоподавления в устройствах индивидуальной слухокоррекции.......................................................................................................9

1.1 Общие положения..........................................................................................9

1.2 Устройства индивидуальной слухокоррекции. Этапы и назначение .... 13

1.3 Методы шумоподавления используемые в слуховых аппаратах...........14

1.3.1 Метод фиксированных фильтров для стационарных шумов...........17

1.3.2 Многополосная фильтрация................................................................17

1.3.3 Перцепционное шумоподавление.......................................................18

1.4 Выводы.........................................................................................................19

2. Динамическая интерполяционная подстройка гребенчатого фильтра........20

2.1 Система фильтрации речевого сигнала на основе определителя частоты основного тона и гребенчатого фильтра.........................................................20

2.2 Оценка эффективности гребенчатого фильтра в задачах фильтрации речевого сигнала................................................................................................23

2.2.1 Анализ передаточной функции гребенчатого фильтра с положительной обратной связью.................................................................24

2.2.2 Анализ передаточной функции гребенчатого фильтра с отрицательной обратной связью..................................................................25

2.2.3 Анализ импульсной характеристики гребенчатого фильтра с положительной обратной связью.................................................................27

2.2.4. Анализ импульсной характеристики гребенчатого фильтра с отрицательной обратной связью..................................................................29

2.2.5 Сравнительный анализ реализаций гребенчатого фильтра с положительной и отрицательной обратными связями..............................30

2.2.6 Оценка коэффициента подавления шумов гребенчатым фильтром32

2.2.7 Полоса пропускания гребенчатого фильтра......................................37

2.2.8 Оценка практической эффективности дискретного гребенчатого фильтра...........................................................................................................41

2.3 Интерполяционный алгоритм....................................................................49

2.4 Влияние точности подстройки...................................................................56

2.5 Выводы.........................................................................................................59

3 Помехоустойчивая система определения периода основного тона речевого сигнала....................................................................................................................60

3.1 Алгоритм поиска периода основного тона...............................................60

3.2 Оценка работы системы определения периода основного тона для гласных звуков: «А», «О», «У», «И», «Ы», «Э».............................................63

3.3 Выводы.........................................................................................................87

4 Комплексная экспериментальная оценка эффективности системы шумоподавления....................................................................................................89

4.1 Методика испытаний системы шумоподавления для измерения увеличения отношения сигнал-шум................................................................89

4.2 Результаты испытаний компьютерной модели системы шумоподавления................................................................................................91

4.2.1 Результаты испытаний при синтетическом речеподобном входном сигнале............................................................................................................92

4.2.2 Результаты испытаний для вокализированных участков речи........96

4.3 Реализации алгоритма шумопонижения на отладочном комплекте Shark ADSP 21369......................................................................................................127

4.4 Выводы.......................................................................................................130

Заключение...........................................................................................................132

Список литературы..............................................................................................133

Приложение..........................................................................................................140

ВВЕДЕНИЕ

Актуальность

Устройства шумоподавления речевых сигналов предназначены для повышения разборчивости речи в системах распознавания речи и в устройствах индивидуальной слухокоррекции - слуховых аппаратах. В этих системах широкое распространение получила технология, которая основана на выделении в энергетическом спектре речевого сигнала частотных полос, энергия которых выше заданного порогового уровня и подавлении шума в остальных частотных полосах. При установлении величины порогового уровня используются неоднозначные субъективные критерии. Данная технология, являясь инвариантной к виду спектра входного сигнала, не учитывает особенностей речевого сигнала, что ограничивает возможности ее применения. Эта особенность состоит в том, что в спектре речевого сигнала присутствует основной тон и его гармоники для вокализированных участков речи. Между тем в ряде технических приложений используется периодичность сигнала для выделения информации о свойствах источника [1], о его местоположении [2,3]. Периодичность речевого сигнала позволяет применить согласованный гребенчатый фильтр для выделения сигнала из смеси с шумами. Решение этой задачи применительно к речевому сигналу слабо отражено в литературе.

Повсеместное внедрение цифровых методов позволило реализовать методы и программные принципы построения устройств цифровой обработки речевых сигналов, но выдвинуло ряд проблем, связанных с дискретным способом описания речевых сигналов. К ним относится проблемы выбора шага дискретизации и объема выборки речевого сигнала, исключающие потерю существенно важных составляющих спектра.

Тривиальное решение, связанное с выбором очень малого шага дискретизации и большого объёма выборки, приводит к требованию иметь в вычислительных средствах значительный объём памяти и высокую скорость обработки. Это вступает в противоречие с необходимостью обеспечить малые габариты и малую потребляемую мощность цифрового слухового аппарата. Адаптация методов построения гребенчатых фильтров применительно к задаче шумопонижения речевого сигнала в цифровых слуховых аппаратах и решение проблемы выбора шага дискретизации составляет содержание данной диссертации.

Таким образом, тенденции в разработке цифровых слуховых аппаратов и существующее состояние вопроса минимизации габаритов и потребляемой мощности цифровых слуховых аппаратов и их массовое применение обусловили необходимость и актуальность решения задач, рассматриваемых в диссертации.

Цель диссертационной работы состоит в разработке методов понижения шума в речевых сигналах применительно к мало исследованным в литературе принципам построения гребенчатых фильтров с учётом особенностей обработки речевого сигнала в цифровых слуховых аппаратах.

Для достижения указанной цели в диссертационной работе необходимо было решить следующие задачи:

1. Исследовать зависимость величины шумопонижения от длительности импульсной характеристики гребенчатого фильтра с целью определения предельной величины шумопонижения.

2. Разработать интерполяционный метод настройки гребенчатого фильтра, обеспечивающий совпадение частот максимумов АЧХ гребенчатого фильтра с частотами основного тона и его гармоник.

3. Модифицировать метод определения периода основного тона по автокорреляционной функции, позволяющий учесть её дискретный характер.

4. Провести математическое моделирование цифрового слухового аппарата в среде MATLAB и натурное моделирование этого аппарата на основе отладочной платы микропроцессора Shark.

Методы исследования. Теоретические и экспериментальные исследования базируются на использовании аппарата математического анализа, теории и методов вычислительной математики, теории цепей и сигналов, методов математического моделирования.

Научная новизна диссертационной работы состоит в следующем:

1. Полученная в замкнутой аналитической форме зависимость величины шумопонижения от длительности импульсной характеристики позволила при анализе параметров гребенчатого фильтра учесть психофизические особенности восприятия человеком речевого сигнала.

2. Сформулирован общий принцип решения проблемы выбора шага дискретизации, основанный на выделении подмножества отсчётов и решении на этом подмножестве задачи интерполяции при настройке гребенчатого фильтра и задачи аппроксимации при определении периода основного тона.

3. Предложена новая структура гребенчатого фильтра, использующая несколько отводов от линии задержки для реализации линейки полосовых фильтров, выделяющих сигнал основного тона из смеси с шумами.

4. Разработан алгоритм обработки сигнала настраиваемым гребенчатым фильтром в реальном масштабе времени.

Практическая значимость

1. Достигнуто увеличение отношения сигнал-шум на 6дБ и более, при длительности переходного процесса 20мс и частоте дискретизации 8кГц.

2. Полученные в диссертации графики и таблицы применимы в качестве справочного материала при конструировании цифровых слуховых аппаратов.

3. Учет дискретности линии задержки гребенчатого фильтра обеспечивает дополнительный выигрыш в степени шумопонижения на 1дБ, при частоте дискретизации 8кГц.

4. Применение гребенчатой фильтрации в слуховом аппарате привело к увеличению разборчивости для людей с нарушениями слуха, в особенности больных с сенсоневральной тугоухостью.

Положения, выносимые на защиту:

1. Принцип определения периода основного тона состоящий в аппроксимации интервалов дискретной автокорреляционной функции, с помощью гладкой функции, увеличивает точность определения значения периода основного тона речевого сигнала.

2. Метод шумоподавления на основе гребенчатой фильтрации, учитывающий рассогласование положения пиков частотной характеристики фильтра и частот спектральных составляющих речевого сигнала, по причине дискретной структуры линии задержки фильтра.

3. Результаты сравнительного анализа систем шумопонижения на основе гребенчатой фильтрации с учетом и без учета дискретного характера линии задержки гребенчатого фильтра, выявившие особенности цифровой реализации устройств шумопонижения.

4. Алгоритм обработки сигнала настраиваемым гребенчатым фильтром в реальном масштабе времени, обеспечивающий увеличение отношения сигнал-шум для вокализованных участков речи.

Реализация и внедрение результатов исследования

Результаты исследования были использованы при проведении в СПбГУКиТ НИР «Разработка алгоритма и микропроцессорная реализация устройств выделения частоты основного тона», номер 01201254373, шифр: 736-ФР, а также внедрены в учебный процесс по кафедре электротехники и технической электроники СПбГУКиТ при изучении магистрантами дисциплины «Устройства приёма и обработки сигналов» и дисциплины «Математическое моделирование радиотехнических устройств».

Апробация работы. По материалам данной работы были сделаны доклады на 11-ой международной конференции и выставке «Цифровая обработка сигналов и ее применение». Москва, Россия 24-26 марта 2009 г., на 9-ой международной научно-практической конференции "Эффективные инструменты современных наук". Прага, Чехия 27 апреля - 05 мая 2013г. и 9-ой международной научно-практической конференции «Европейская наука XXI века». Пшемысль, Польша 07-15 мая 2013г.

Публикации. Основные материалы диссертации изложены в пяти публикациях, среди которых три статьи, две из них опубликованы в журналах из перечня ВАК ведущих рецензируемых научных журналов и изданий, и два текста докладов, опубликованных в материалах конференций.

Структура и объём работы. Диссертационная работа состоит из введения, четырёх разделов, заключения, списка литературы, включающего 60 наименований. Диссертация изложена на 160 страницах, содержит 77 рисунков и 48 таблиц.

1. Обзор методов шумоподавления в устройствах индивидуальной слухокоррекции

1.1 Общие положения

Широко известно [4], что нарушения слуха наиболее тяжело сказываются на индивидууме. При нарушении зрительного восприятия человек остается в общественных отношениях, строящихся на общении при помощи речи. При нарушении слуха уровень общественных отношений значительно понижается. Речь является основным способом общения между людьми. Даже общая отсталость умственного развития не отдаляет индивидуума от общества так, как потеря способности общения при помощи речи. Кроме того известно из [5], что проявившееся в раннем возрасте нарушение слуха, без должной коррекции и лечения, неизбежно влечет задержку умственного и психического развития ребенка.

В соответствии с [6] речевые сигналы — это совокупность элементов акустической энергии с быстро меняющимися амплитудами и частотами.

Звуки речи различаются по особенностям их психоакустических свойств: высоты, силы, тембра и длительности. Отдельно следует выделить гласные звуки, волновая форма которых более проста, по сравнению с волновой формой согласного звука. Эта особенность состоит в том, что в спектре речевого сигнала присутствуют кратные, т.е. периодические составляющие для вокализированных временных интервалов.

Огибающая спектральных составляющих гласных звуков неравномерна и, как правило, обладает локальными максимумами, которые называются формантами. Согласно [7,8], форманта - это определенная частотная область, в которой находится некоторое число гармоник основного тона, производимого голосовыми связками и усиленного вследствие резонанса в полости рта. Из [4, С. 60]«Так, звуки «у» и «ы>> характеризуются низкими

формантами — от 200 до 600 Гц. Звук «а» независимо от того, голосом какой высоты он произнесен, обладает своеобразной формантой в области от 1000 до 1400 Гц. Спектры согласных звуков имеют более сложные акустические характеристики. Наряду с периодическими колебаниями звонким согласным свойственны непериодические колебания высокой частоты. Для других согласных («п», «ш» и др.) характерны только непериодические колебания различной частоты».

Основная частота голоса foT или частота основного тона (ОТ) определяет частоту следования импульсов, генерируемых голосовыми связками. В среднем для мужского голоса Íot = 80-120 Гц, для женского — 140-150 Гц. Первая и вторая форманты речи соответственно обозначаются как PI и Р2. Они определяют область частот, на которых в спектре речевых звуков обнаруживаются максимумы.

Чтобы звуковые колебания могли стать средством общения между людьми, они должны как-то отличаться и состоять из каких-либо отдельных звуковых единиц. Согласно современной теории речеобразования и восприятия речи, такими звуковыми единицами являются фонемы [4,9,10]. Последовательность фонем образует слово, а последовательность слов — сообщение. Изменение порядка следования фонем или их числа приводит к изменению слова.

Для каждого языка характерно определенное число звуковых единиц. Так, в русском языке имеется 35 согласных и 6 гласных фонем, в немецком — 24 согласные и 15 гласных фонем, в английском насчитывается 33 согласных дифтонга и 12 гласных фонем. Каждая фонема имеет свой спектр, в котором форманты располагаются в определенном диапазоне частот. При этом, несмотря на наличие межиндивидуальных различий в спектральной картине отдельных звуков речи, произнесенных женщиной, мужчиной или ребенком,

частотные и амплитудные соотношения между отдельными формантами, их длительность и характер изменений практически остаются стабильными. Именно поэтому звуки речи относительно легко распознаются человеком. Максимальное число формант в спектре речи может достигать семи, однако для распознавания отдельных фонем наиболее важными являются только первая, вторая и третья форманты.

Распознавание речи у человека, как следует из многочисленных экспериментальных и теоретических исследований, по-видимому, происходит последовательно в два этапа. Сначала слуховая система осуществляет перевод простых физических или акустических признаков речевого сигнала в дискретный ряд фонем. На втором этапе происходит непосредственный перевод фонем в языковую единицу [11].

Чтобы речь была услышана, ее уровень должен быть выше порога слышимости или порога обнаружения. Только в этом случае слушающий начинает различать отдельные слова.

Основным методом количественной оценки разборчивости речевых сигналов является артикуляционный метод, согласно которому определяют количество слогов, слов или предложении, произнесенных диктором или записанных на магнитный носитель и правильно повторенных слушателем. Разборчивость речи выражают через коэффициент - разборчивост