автореферат диссертации по радиотехнике и связи, 05.12.17, диссертация на тему:Алгоритмы цифровой обработки речевых сигналов при воздействии акустических помех

кандидата технических наук
Стукалов, Дмитрий Николаевич
город
Рязань
год
1996
специальность ВАК РФ
05.12.17
Автореферат по радиотехнике и связи на тему «Алгоритмы цифровой обработки речевых сигналов при воздействии акустических помех»

Автореферат диссертации по теме "Алгоритмы цифровой обработки речевых сигналов при воздействии акустических помех"

РЯЗАНСКАЯ ГОСУДАРСТВЕННАЯ РАДИОТЕХНИЧЕСКАЯ АКАДЕМИЯ

РГ8 ОД

На правах рукописи

СТУКАЛОВ ДМИТРИЙ НИКОЛАЕВИЧ

АЛГОРИТМЫ ЦИФРОВОЙ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ ПРИ ВОЗДЕЙСТВИИ АКУСТИЧЕСКИХ ПОМЕХ

Специальность: 05.12.17 -"Радиотехнические и телевизионные системы и устройства"

Автореферат диссертации на соискание ученой степени кандидата технических наук

Рязань 1996

Работа выполнена в Рязанской государственной радиотехнической академии.

- доктор технических наук, профессор В.И.Поповкин

- кандидат технических наук, доцент С.Н.Кириллов.

- доктор технических наук, профессор Е.М.Прошин

- кандидат технических наук, доктор филологических наук, старший научный сотрудник В.Г.Михайлов

- АООТ "Рязанский радиозавод"

Защита состоится 1996 г. в 3 0 часов на

заседании специализированного' совета К 063.92.01 по присуждению ученой степени кандидата технических наук в Рязанской государственной радиотехнической академии по адресу 391000. Рязань. ул.Гагарина, 59/1.

С диссертацией можно ознакомиться в библиотеке РГРТА. Автореферат разослан "А'" 1996 г.

Ученый секретарь

специализированного совета ^

кандидат технических наук ,' //•1 -Л А.М.Смоляров

Научные руководители

Официальные оппоненты

Ведущая организация

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Развитие различных сфер прикладного использования алгоритмов цифровой обработки речи породило ряд проблем, решение которых во многом определяет успешное развитие потребительской сферы. К числу подобных 'проблем можно отнести 'снижение скорости передачи в цифровом канале связи, уменьшение габаритов и энергопотребления устройств, уменьшение влияния акустических помех (АП).

На практике источник речевого сообщения зачастую подвержен действию мешающих звуковых сигналов - АП. При этом эффективность цифровой обработки речи резко снижается, приводя к ухудшению таких качественных характеристик, как разборчивость, передача индиг видуальных особенностей диктора и т.д. Проявляется данный эффект в устройствах, использующих цифровое представление акустических сигналов вследствие дополнительных нелинейных искажений при квантовании.

Поэтому актуальной является задача устранения вредного влияния АП на устройства цифровой обработки речи. Основополагающие исследования влияния АП на аналоговые системы связи были сделаны М. А. Сапожковым. Исследования математического аппарата винеровской И калмановской фильтрации, а также других методов подавления отдельных видов АП проведены Дж. С. Лимом, А.В.Оппенхаймом. Ю.Н.Прохоровым. ■ М.В.Назаровым. А.И.Величкиным и др. Однако непрерывное развитие отрасли речевых технологий привело к тому, что существенно изменились условия эксплуатации многих устройств обработки речи. Особенно это касается средств подвижной радиосвязи. При этом источник сообщения может быть зашумлен АП разного вида, создающими комплексное мешающее воздействие. Появилась необходимость в создании моделей помех, учитывающих многокомпонентную структуру последних. Кроме того, значительное количество кодеков речи, спроектированных исходя из работы в идеальных акустических условиях. может терять свою эффективность при воздействии АП. Следовательно. существует необходимость анализа функционирования кодеков в реальной акустической обстановке. Таким образом, актуальность темы обусловлена ярко выраженной практической направленностью исследований устройств цифровой обработки речевых сигналов (РС) при воздействии АП.

Цепь и задачи работы, Исследование особенностей функционирования алгоритмов цифрового представления РС в условиях реальной

- г -

акустической обстановки, разработку алгоритма, позволяющего повысить разборчивость речи в системах связи при воздействии сложных АП. анализ особенностей практической реализации алгоритмов цифровой обработки речи.

Поставленная цель требует решения следующих задач: ■

- уточнение статистической модели РС;

- разработка статистичекой модели сложных АП;

- исследование известных кодеков РС при воздействии АП;

- разработка системы.подавления сложных АП:

- разработка алгоритмов фонетического представления РС в целях создания помехоустойчивых низкоскоростных систем связи:

- разработка и исследование алгоритмов, улучшающих характеристики цифровых устройств обработки речи;

- анализ возможностей практической реализации известных I предлагаемых алгоритмов.

Методы исследования. В работе используются методы теории ве= роятностей, теории случайных процессов, теории фильтрации, вычис; лительной математики и имитационного моделирования.

Научная новизна. В рамках данной работы впервые были получе ны следующие результаты: . .

1. Уточнена статистическая модель РС без учета пауз межд словами.

2. Исследованы статистические характеристики большинств распространенных АП на транспорте, производстве, в быту. Доказан многокомпонентная структура реальных АП. включающих широкополое .1ую. узкополосную и импульсную компоненты.

3. Исследованы по показателю разборчивости средне и низкое коростные кодеки с расширенной полосой РС в идеальной акустичес кой обстановке и при воздействии АП.

4. Синтезирован алгоритм обнаружения РС на фоне комплекс АП. на основе которого разработана система подавления АП. позве ляющая повысить разборчивость зашумленной речи. Проведен анал! данного алгоритма при совместном функционировании с известны] кодеками РС.

5. Разработан алгоритм фонетического представления РС в ц лях создания низкоскоростных систем связи. Исследована его усто: чивость к АП. Предложены варианты практической реализации алг ритма, уменьшающие вычислительные затраты и объем памяти. -

6. Предложен и проанализирован.. модифицироанный кратер оценки параметров авторегрессионной модели.

7. Произведен синтез оптимальной весовой функции с учетом •показателей качества, позволяющих минимизировать ошибку оценивания спектра сигнала.

8. Показана возможность оценивания параметров авторегрессионной модели речи по клиппированной реализации сигнала.

9. Предложен комплексный показатель оценки эффективности систем цифровой обработки РС, учитывающий потребительские и эксплуатационные характеристики, а также возможность действия АП.

Практическая ценность работы

1. Получена уточненная модель РС и разработана модель реальных АП для целей построения устройств цифровой обработки РС в сложной акустической обстановке.

2. Проведен анализ разборчивости речи на выходе средне- и высокоскоростных кодеков в идеальной и реальной помеховой обстановке/ позволяющий наилучшим образом выбрать кодек.

3. Разработана система подавления комплекса АП и показана возможность ее совместного использования с большинством устройств цифровой обработки речи.

4. Предложен алгоритм фонетического представления РС, позво^ лящий разрабатывать низкоскоростные системы связи со скоростями передачи, близкими к потенциальным.

5. Разработан ряд алгоритмов обработки РС, повышающих качественные показатели цифровых устройств и снижающих вычислительные затраты.

6. Проанализирована возможность практической реализации кодека речи совместно с разработанной системой подавления АП.

1. Статистическая модель АП, включающая широкополосную, узкополосную и импульсную компоненты.

2.-Результаты анализа разборчивости кодеков РС с расширенной полосой частот и в различной акустической обстановке.

3. Система подавления многокомпонентных АП, включающих широкополосную. узкополосную и импульсную компоненты.

4. Акустическая модель фонетического представления РС.

5. Модифицированный критерий оценки параметров авторегрессионной модели РС.

6.' Оптимиальная весовая функция для повышения точности оценивания спектра РС.

7. Алгоритм оценки параметров авторегрессионной модели с использованием клипшрованного РС.

Внедрение результатов работы. Результаты диссертации внедрены в АООТ "Рязанский радиозавод" и учебный процесс РГРТА, что подтверждено соответствующими актами.

Апробация работы. Результаты работы докладывались автором на международных [1.4,14.15,161. Всероссийских [5.6,7,12,13], республиканских [17. 18], региональных [2], научных конференциях и семинарах, а также на 33-й и 34-й конференциях профессорско-преподавательского состава Рязанской государственной радиотехнической академии.

Публикации. По теме диссертации опубликовано 23 работы. Из ' них 3 статьи в центральной печати, 1 учебное пособие. 3 статьи в межвузовских сборниках и трудах конференции, 12 тезисов докладов на конференциях. 4 отчета о НИР.

Структура и объем работы. Диссертация состоит из введения, пяти глав, заключения, библиографического списка из 111 наименований и четырех приложений. Диссертация содержит 189 с., в том числе 142 с. основного текста, 4 таблицы и 35 рисунков.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность выбранной темы, формулируются цель и задачи исследования. Изложены новые научные ре1' зультаты, полученные в работе, ее.практическая ценность, апробация и реализация. Сформулированы положения, выносимые на защиту.

В первой главе диссертации проведен анализ известных.статистических моделей РС. Описана экспериментальная установка, позволившая уточнить законы распределения мгновенных значений РС без пауз и значений коэффициентов отражения линейной модели речеобра-зования. Разработана модель многокомпонентных АП, включающая широкополосную, узкополосную и импульсную компоненты. Исследованы характеристики реальных бытовых, производственных и транспортных АП. показана их многокомпонентная структура.

Экспериментальные исследования: реализаций реальных РС -показывают возможность описания статистической модели сигнала в виде совокупности элементов с известной вероятностью появления из ограниченного счетного множества, полностью описывающего РС как

средство переноса информации. В качестве такого множества использована совокупность фонем.

Исследование статистических характеристик фонем русскпй речи показало значительную изменчивость функции плотности распределен ния вероятностей (ФПВ) как различных фонем, так и одной фонемы, произносимой различными дикторами. Одномодальными являлись 96 % ФПВ фонем, что делает корректным эмпирическое описание законов распределения с помощью плоскости К.Пирсона..

В результате исследований получены значения параметров средней ФПВ, показана их изменчивость при расширении полосы частот.

Значительный разброс ФПВ как отдельных фонем, так и одних фонем различных дикторов не позволяет говорить о среднем законе распределения как об исчерпывающей статистической характеристике РС. Поэтому необходимо описание, позволяющее учесть изменчивость реальных РС. Использование для подобного описания линейной модели речеобразования на основе-процесса авторегрессии требует знания статистик параметров а(1) или связанных с ними коэффициентов отражения К(1).

Для средневзвешенной ФПВ коэффициентов к(1) получены средние значения коэффициентов плоскости К.Пирсона, которые соответствуют закону бета-распределения.

Акустический сигнал, поступающий на вход любой системы обработки или передачи речи, содержит не только РС, но и различного рода АП. Описание свойств АП в виде простейших моделей с широкополосным или узкополосным спектром зачастую не соответствует реальной' помеховой обстановке. При этом АЛ могут иметь в своем составе широкополосную, узксполосную и импульсную компоненты. Классификация компонент -требует решения задачи одновременного обнаружения и оценивания параметров. Решающее правило строилось на основе критерия максимума' апостериорной вероятности. Описание узкополосной и импульсной помех в классе степенных.полиномов позволяет свести сложное оптимальное решающее правило к решению системы линейных уравнений,..

Для проверки'- .выдвинутой гипотезы были исследованы статистические и спектральные характеристики распространенных бытовых, производственных и'транспортных помех. В результате анализа экспериментальных реализаций было установлено наличие всех трех компонент в реальных АП.. .

Во второй главе диссертации по критерию словесной разборчивости речи исследуются кодеки ИКМ, АИКМ, АДИКМ и ДМ при воздействии АП и с расширенной полосой частот РС. '

Большинство известных кодеков РС, как правило, разрабатывались исходя из благоприятных помеховых условий. Поэтому остро стоит проблема анализа функционирования кодеков в условиях максимально приближенных к реальным, т.е. при воздействии АП. Кроме того, введение новой телефонной службы с расширенной до ДГ=7 кГц полосой передачи РС также требует исследований соответствующих кодеков.

Для получения состоятельных оценок разборчивости речи в различных кодеках в условиях идеальной и сложной акустической обстановки предложено использовать критерий словесной разборчивости речи (СРР), вычисленной на основе метода экспертных оценок (ГОСТ 16600-72).

Расширение полосы частот РС для большинства кодеков приводит как к увеличению разборчивости речи, так и к улучшению качественных характеристик. Использование метода АДИКМ с адаптивным предсказателем второго порядка и адаптивным квантователем для РС с полосой ДГ=7 кГц обеспечивало такую же разборчивость речи, как ИКМ на скорости 64 кбит/с и полосе ДМ. 4 кГц. Аналогичную СРР при полосе ДГ-3.4 кГц обеспечивает метод АДИКМ с адаптивным предсказателем в случае С=32 кбит/с (рекомендация МККТТ С.',Л).

При воздействии широкополосной помехи для кодека ИКМ-д предельное отношение сигнал-АП (на уровне 4-го класса СРР) составляло qи«l дБ при скорости передачи С-64 кбит/с и полосе речевого тракта ДГ-3.4 кГц. Использование ИКМ при ограничении входного сигнала позволило уменьшить скорость передачи до С=24 кбит/с при qu=l дБ. Кодеки ДИКМ и АДИКМ позволили получить более высокук словесную разборчивость по сравнению с кодеками АИКМ. Кодек ДИМ с фиксированным предсказателем 2-го порядка выигрывает у кодека АДИКМ в величине СРР при яи<3 дБ, что позволяет снизить скорость передачи на 10...12 кбит/с. Предварительное ограничение сигнала на входе увеличило величину СРР кодека ДИКМ и позволило обеспечить 4-й класс разборчивости при ц^г дБ и скорости передачи С-16 кбит/с. В условиях сильных АП (Чи=0.... 1 дБ) кодек АДМ показал более низкую помехоустойчивость, чем кодек ДМ.

Наиболее слабое воздействие на кодеки ИКМ при С>32 кбит/с

оказывают узкополосные помехи с центральной частотой Гц=500... 800 Гц. Для кодека ИКМ-д в случае скорости передачи с=32 кбит/с СРР на уровне 4-го класса обеспечивалась при ДГ-З.4 кГц и отношении сигнал-помеха qy—12 дБ. Несколько менее чувствительны к действию узкополосных АП, по сравнению с кодеком ИКМ-д, кодеки АИКМ. Наилучшим образом ведут себя при воздействии узкополосной АП кодеки ДИКМ и АДИКМ. В случае скоростей передачи С>16 кбит/с кодек ДИКМ более помехоустойчив к действию узкополосных помех, чем кодек АДИКМ. Исследование кодеков АДМ показало, что для qy>-10 дБ возможна передача. РС со скоростью С-16 кбит/с при 4-м классе СРР. Использование кодека ДМ в этом случае уменьшало СРР на 5...10 % по сравнению с кодеком АДМ.

При высоких скоростях передачи (С=64 кбит/с) наихудшую помехоустойчивость к действию импульсных помех показали кодеки ДМ и АДМ. С уменьшением скорости передачи до 32 кбит/с кодеки АДМ обеспечивали наилучшую разборчивость при q„>-4 дБ. Кодеки ИКМ и ИКМ-д выигрывают у кодека АДМ при С=64 кбит/с в среднем 8 % СРР. При уменьшении С кодеки ИКМ приобретают наихудшую помехоустойчивость. При С»64 кбит/с кодек АИКМ оказался наиболее поме-оустой-чив. Снижение скорости передачи приводило к тому, что кодек АИКМ начинал проигрывать кодеку АДМ. Аналогичную помехоустойчивость показал и кодек АДИКМ. Кодек ДИКМ оказался менее помехоустойчив, однако при С-32 кбит/с выигрывал у кодека АДМ в СРР до 5 %.

В третьей главе диссертации синтезирован алгоритм обнаружения РС на фоне комплекса АП. на основе которого разработана система подавления акустических помех (СПАП), позволяющая повысить разборчивость зашумленной речи. Проведен анализ данного алгоритма ■при совместном функционировании с известными кодеками РС.

' Сложный характер АП требует введения модели обрабатываемого сигнала в виде •

Z(t) - vS(t) XHt) + P(t).

где S(t.) PC... P(t) - U(t) «■ N(t); v, X - 0.1 - индикаторные ne ремпшше. отражающие Факт наличия или отсутствия РС и импульсной АП. Предполагается, что узкополосная или широкополосная помехи г. виде фпновых itiVMon есть всегда.. При этом решение задачи обнаружения ГС приводит к логарифму отношения правдоподобия (ОП) ви н

1п л(г> - 1п т/х„) + 1п

1 + тл(г/у,)

1 + *л(г/у0)

где ш) - у*(г/у,)/щг/у0). т/х0) - щг/\0.ух)тш0ла) - оп РС на фоне непрерывной помехи; Л(г/у) - ОП импульсной АП на фоне непрерывной помехи при наличии и отсутствии у-у0 рс; .

К=Р(Х,)/Ри0).

Анализ синтезированного алгоритма обнаружения РС на фоне комплекса АП наталкивается на значительные трудности, связанные со сложной структурой \(Ъ/\0), Л(г/у) и нестационарностью свойств РС и непр рывных АП на больших интервалах времени. Если полагать, что для РС переносимая информация заключена в значительной степени в изменении спектра, а форма реализации РС и непрерывных АП не играет существенной роли, то частные логарифмы отношений правде^ подобия могут быть заменены на оптимальные фильтры с соответству-' ющими передаточными характеристиками.

Экспериментальные исследования СПАП проводились при воздействии на входе системы широкополосной, узкополосной л импульсной компонент. Воздействие широкополосной АП на РС приводит к тому, что СРР на уровне 4-го класса обеспечивается при отношении сигнал-помеха дБ. Применение • СПАП позволяет увеличить СРР и сместить границу 4-го класса до уровня <\ш2 дБ. При этом полученный выигрыш в разборчивости составляет 10... 15 55. Воздействие узкополосной помехи на слуховой аппарат человека менее существенно, и применение СПАП позволяет снизить границу 4-го класса СРР до уровня я<20 дБ (СРР возрастает на 30. ..50 %), что говорит о весь7 ма хороших результатах подавления подобных АП. Применение СПАП при совместном действии широкополосной и узкополосной компонент последней позволяет получить существенный выигрыш в СРР, который зависит от соотношения мощностей составляющих.

АП при соотношении импульсной и гладких компонент, равном й=2, больше ухудшает разборчивость, чем при (1=10 (суммарная энергия постоянна). Для 1-го случая выигрыш составляет до 50' %, а для 2-го достигает 60 %. что делает возможным передачу РС на уровне 4-го класса СРР при я>-10 дБ.

Оценивание в процессе подавления АП полюсов линейной модели

PC позволяет интегрировать СПАЛ в параметрические низкоскоростные кодеки АДИКМ или вокодеры, построенные на основе линейного предикативного кодирования. При этом возможно существенное (до 10 дБ) снижение порогового отношения сигнал-помеха.

В четвертой главе на основе уточненных статистических характеристик линейной модели речеобразования синтезирован в целях построения низкоскоростных систем связи алгоритм фонетического представления PC и проанализирована его устойчивость к АП

Максимально приблизиться к потенциальным скоростям передачи позволяют речеэлементные методы анализа и синтеза. При этом PC представляется в виде совокупности элементов счетног ограниченного множества, связанных с информационной структурой речи. Наиболее' распространено и оправдано применение для этих целей множества фонем.

Для описания характеристик фонем русской речи используем вектор коэффициентов отражения к. который характеризуется многомерной плотностью распределений W(k). В общем случае, как показано в 1-й главе. W(k) имеет еид закона Дирихле. При этом задача классификации сводится к поиску процедуры принятия решения по априорным сведениям о распределениях фонем W4(к). Используя байег совское решающее правило, минимизирующее ошибку решения, и учитывая слабы» корреляционные связи к(1)."можно записать ОП

где кч4. пЧ1. цР1'- параметры распределений. Отметим, что

часть последнего слагаемого имеет физический бмысл отношения поперечных площадей сечений линейной модели речевого тракта в виде акустической трубы в ■ Ьоб[(1+к(1))/(1-к(1)].

Анализ алгоритма классификации показывает сложность его практической реализации, связанную главным образом с необходимостью хранения большого объема информации об эталонах различных фонем и решающих границах, а также со сложностью многократных вычислений Лрд(к). Однако' пренебрегая первым слагаемым, имеющим существенно меньший вес, можно перейти к квазиоптимальному алго-

Лр,(к) -

м г /l-kdh - ^[(Tqi 1 -Up i -Пр 1) Loga -J +L0g2

B(Ypi.npl)

-L---- +

B(Y4i.n,i)

/ l+k(l) \

ритму. При этом сравнение с эталоном сводится к нахождению мини1 ■ мального расстояния в пространстве G-параметров.

Анализ вероятностей правильного распознавания фонем русской речи показал, что достигаемая оптимальным алгоритмом вероятность составляет 0.96, а квазиоптимальным - 0.93. Однако в случае квазиоптимального алгоритма удается достичь выигрыш в затратах памяти более чем в 6 раз.

Эффективность алгоритмов классификации существенно падает при воздействии АП. Однако применение СПАП позволяет снизить пороговое отношение сигнал-АП.

Ь пятой главе обсуждаются вопросы практической реализации алгоритмов цифровой обработки PC, повышения их эффективности и качественных характеристик.

Применение алгоритма линейного предсказания, работающего в соответствии с критерием минимума среднеквадратической ошибки . (СКО), на нестационарных учас ках PC приводит к значительным выбросам сигнала погрешности предсказания (ПП). что расширяет динамический диапазон квантователя и уменьшает отношение сигнал-шум квантования. с

Зададим критерий оптимизации в виде

а - I1 Г(1-к)ег(п)+кЛе2(n.h)l. n=n0L 1

где п0, п, - пределы суммирования. к-0...1 - постоянный коэффициг ент.

М М

e(n) " S(n)+ 1 a(l)S(n-l) - X a(l)S(n-l). Ae(n.h) - e(n)-e(n-h).

1-1 1-0

Sin) - n-fi отсчет PC. При этом алгоритм предсказания сводится к, решению системы линейных уравнений п модифицированными коэффициентами автокорреляции. • .

На основе данного критерия был смоделирован кодек АДИКМ. В результате экспериментов было установлено, что пик-фактор сигнала погрешности предсказания существенно уменьшается при незначитель- : иск росче дисперсии. Это приводит к выигришу в отношении сиг-, нил-иим квантования на 4...6 дБ или возможности снижения скорости :H4"\i:Vin в канале связи на 8 кбит/с.

Одним из факторов, оказывающих существенное влияние на состоятельность оценок спектральной плотности мощности, являются ширина и форма сглаживающего окна, применяемого для весовой осра-ботки сигнала во временной или частотной областях.

Синтез оптимальной весовой функции требует введения показа; телей качества, позволяющих минимизировать ошибку оценивания спектральной плотности мощности сигнала.

При анализе выражений для составляющих ошибки получены основные параметры, непосредственно влияющие на величину ее регулярной и флюктуационной компоненты. Решение уравнение Эйлера получено в виде

ш(х)=A+Bx2+Cx4+Dx6 , -0.5 < х < 0.5 .

В результате исследований показано, что в системе АДИКМ при скорости передачи 32 кбит/с возможно увеличение отношения сигнал-шум квантования на 0.5...1 дБ по сравнению с окнами Хемминга и Хеннинга и на 3...4 дБ по сравнению с прямоу эльным окном.

Как показывает анализ, большая часть вычислительных ресурсов алгоритма оценки параметров линейной модели затрачивается на процесс формирования матриц автокорреляционных коэффициентов Rx(k). В то же время известно, что разборчивость клиппированного (бинарно квантованного) PC (КРС) остается весьма высокой, а при формировании Rx(К) исключаются операции умножения. Анализ зависимостей СРР на выходе кодека АДИКМ, -построенного в соответствии с данным алгоритмом, показывает, что при скоростях передачи С<13 кбит/с использование КРС для оценки коэффициентов предсказания приводит к выигрышу в словесной разборчивости до 10 % по сравнению со случаем отсутствия клиплирования сигнала,' а при СИЗ кбит/с - к потерям на 5... 15 %. Данные потери можно уменьшить, осуществляя предварительную фильтрацию PC перед клиппированием. Показано, что применение нерекурсивного фильтра 1-го порядка п зволяет получить выигрыш в СРР по сравнению со случаем отсутствия предварительной фильтрации на 4...8 %. Лучшие результаты получались в случае предварительной обработки PC в адаптивном нерекурсивном фильтре 2-го порядка. Словесная разборчивость речи на выходе кодекон АДИКМ при оценке параметров АР-модели без клиппирования PC и при предварительной обработке PC в адаптивном нерекурсивном фнлпре

2-го порядка перед клишированием незначительно отличалась друг от друга для С>18 кбит/с, а при С<18 кбит/с применение КРС давало выигрыш в СРР до 23 55. *

Практическая реализация кодеков РС требует учета качественных характеристик и экономических затрат. Функционирование кодеков в условиях действия АП приводит к тому, что данные показатели существенно изменяются количественно. Поэтому суммарный показатель эффективности предлагается записывать в виде совокупности следующих параметров: требуемого числа выполняемых микропроцессор • ром тактов на единицу времени, скорости передачи цифровой информации, отношения сигнал-АП, ' Вычисление сечений параметра эффективности существенно облегчает задачу оптимального выбора типа и параметров кидека в условиях действия АП. .

В заключении приведены краткие результаты диссертации,.которые можно свести к следующему

1. Разработана и изготовлена экспериментальная установка, которая позволяет исследовать статистические характеристики РС. На основе исследований характеристик фонем русской речи без пауз уточнена статистическая модель РС в виде одномерной ОТВ. которая принадлежит к 4-му классу распределений К.Пирсона. Аналогично уточнена ФПВ коэффициентов отражения модели на основе авторегрес-сионных представлений РС. Показано, что статистические характеристики РС существенно изменяются при расширении полосы частот с 3.4 ,-.о 7 кГц.

Выдвинута гипотеза о многокомпонентной структуре реальных АП. Исследованы характеристики большинства видов производственных. транспортных и бытовых АП, показана многокомпонентная .структура последних.

2. Проведены исследования по критерию СРР большинства известных средне- и высокоскоростных кодеков РС при■стандартной (3.4 кГц) и расширенной (7 кГц) полосах частот, а также при воздействии широкополосной, узкополосной и импульсной АП. Показана высокая чувствительность всех исследованных кодеков к действию • АП. Показана возможность выбора оптимального типа кодека исходя нз реальных помеховых Условий. '

3. Синтезирован алгоритм обнаружения РС сигнала'" на фоне комплекса АП. на основе которого разработана система, подавления АП. Проанализированы, варианты-реализации -СПАП. обеспечивающие су.-.

щественное увеличение разборчивости речи, подверженной действию АП на выходе системы. Увеличение СРР составляет от 3 до 70 % р зависимости от вида и соотношения компонент АП. Экспериментально подтверждена эффективность квазиоптимальной структуры СПАП при совместном функционировании с кодеком АДИКМ. позволяющей получить выигрыш в СРР до 50 X.

4. Предложен оптимальный параметрический алгоритм классификации фонем русской речи с вероятностью 0.96. на основе уточненных статистических характеристик линейной модели РС.

Проанализирована возможность практической реализации квазиоптимального непараметрического алгоритма классификации фонем с вероятностью 0.93, требующего меньших вычислительных затрат и объемов памяти.

Проведен анализ вероятности распознавания фонем при действии АП без использования и с использованием синтезированной СПАП.

5. Предложен модифицированный крит:рий оценки параметров AP-модели, позволяющий получить выигрыш в отношении сигнал-шум квантования в системах.АДИКМ (до 4...6 дБ) или снижение скорости передачи цифровой информации на 8 кбит/с.

На основе анализа показателей качества синтезирована оптимальная весовая функция для оконной обработки при спектральном анализе-Р.. которая в системах АДИКМ позволяет получить выигрыш в отношении сигнал-шум до А дБ.

Исследована возможность использования КРС для снижения вычислительных затрат при оценивании параметров АР-модели.

Проанализирована возможность практической реализации кодеков речи с СПАП на микропроцессорах обработки сигналов. Оценены потребительские и эксплуатационные характеристики (разборчивость речи, скорость передачи), а также возможность работы систем цифровой обработки РС в реальных помеховых условиях."

Основное содержание диссертации опубликовано в следующих работах:

1. Кириллов С.Н. Румянцев В.П., Стукалов Д.Н. Методы передачи речевой информации по цифровым каналам // Международная конференция "Технологии и системы сбора, обработки и представления информации": Тезисы докладов.- Рязань.: РРТИ. 1993.- 124 с.

2. Стукалов Д.Н., Шомов А.П. Исследование цифрового кодера

речевого сигнала // Региональная конференция студентов, аспирантов и молодых специалистов Северного Кавказа "Методы и средства цифровой обработки сигналов": Тезисы докладов.- Таганрог.: ТРТИ,

1993,- 84 с.

3. Методы синтеза и анализа радиоэлектронных систем обнаружения и фильтрации пространственно-временных сигналов в комплексе помех: Отчет о НИР (промежуточный) / РРТИ; Руководитель Б.И.Филимонов.- Тема rf 7-91Г. N ГР 01920000496,- Рязань, 1994.- 64 с.~ Соисполн.: Д. Н. Стукалов.

Кириллов С.Н.. Стукалов Д.Н. Исследование средне- и низкоскоростных цифровых методов передачи речи при воздействии акустических помех // Международная научно-техническая конференция "Наука и техника гражданской авиации на современном этапе": Тезисы докладов, - М.: МГТУ ГА, 1994.- 180 с.

5. Стукалов Д.Н., Шомов А. П. Анализ цифровых методов передачи речи в акустических шумах // Молодежная научно-техническая конференция "XX Гагаринские чтения": Тезисы докладов,- М.: МГАТУ.

1994.- 172 С.

6. Кириллов С.Н., Стукалов Д.Н., Бакке A.B. Многокритериальный синтез сигналов в информационных системах // 13-й научно-технический семинар РНТОРЭС им. А.С.Попова "Статистический синтез и анализ информационных систем": Тезисы докладов.- Рязань.: РГРТА. 1994,- 96 С.

7. Кириллов С.Н., Стукалов Д.Н. Акустический процессор для первичного распознавания фонетического состава речи // 49-я Науч-, пая сессия, посвященная Дню радио: Тезисы докладов. 4.2.-М.:РНТОРЭС им. А.С.Попова . 1994,- 160 с.

8. Кириллов С.Н., отукалов Д.Н. Анализ речевых сигналов на основе акустической модели // Изв. РАН. Техн. кибернетика.7 1994,- II 2. - С. 147-153.

9. Система предупреждения столкновений' воздушных судов на базе многофункциональной метеонавигационной РЛС: Отчет о НИР (промежуточный) / РГРТА; Руководитель В.И.Поповкин.- Тема II 37-91Г, и ГР 01940003609,- Рязань, 1994,- 64 е. - Соисполн.: Д.Н.Стукалов.

10. Методы синтеза и анализа радиоэлектронных систем обнаружения и Фильтрации пространственно-временных сигналов: Отчет о НИР (промежуточный) /РРТЧ; Руководитель Б.И.Филимонов.- тема

N 7-91Г. N ГР 01910004842.- Рязань, 1994.- 64 о.- Соисполн.: Д.Н.Стукалов.

11. Многокритериальная оптимизация сигналов в'радиотехнических системах: Отчет о НИР (аннотированный) / РРТИ: Руководитель Кириллов С.Н.- тема N 14-94Г. N ГР 01940004690.- Рязань. 1994.-24 с. - Отв. исполн.: Д.Н.Стукалов.

12. Стукалов Д.Н., Шелудяков А.С. Согласованная фильтрация речевых сигналов // Молодежная научно-техническая конференция "XXI Гагаринские чтения": Тезисы докладов. 4.5.- М.: МГАТУ, 1995.- 136 с.

13. Кириллов С.Н., Стукалов Д.Н., Шелудяков А.г. Алгоритмы обработки речевых сигналов на фоне акустических шумов // 50-я Научная сессия, посвященная Дню радио: Тезисы докладов. Ч.2.-М. :РНТОРЭС им. А.С.Попова. 1995,- 328 с.

14.Klrillov S.N., Stukalov D.N., Sheludjakov A.S. Formalisation of primary speech signal description ln computer naturel language Interfaces // The 5th East-West International Conférence. EWHCI'95: Proceedlngs. V.2, M.: ICSTI. 1995,- 188 p.

15. Кириллов С.Н., Стукалов Д.Н. Система подавления комплекса акустических помех в устройствах цифровой обработки речи // Международная конференция "Технологии и системы сбора, обработки и представления информации": Тезисы докладов.- М.: НИЦПрИС.' 1995.- 52 С. ;

16. Кириллов С.Н., Степанов М.В., Стукалов Д.Н. Модифицированный алгоритм предсказания- речевого сигнала в цифровых системах передачи информации // Международный научно-технический семинар "Проблемы передачи и обработки информации в информационно-вычислительных сетях": Тезисы докладов. - М. : НИЦПрИС, 1995.- 52 с.

17. Стукалов Д.Н., Степанов М.В. Метод оценки параметров речевого сигнала .гпя диагностики заболеваний речевого тракта // Республиканская научно-техническая конференция студентов, молодых ученых и специалистов "Биотехнические, медицинские и экологические системы и комплексы": Тезисы докладов. - Гязрнь: РГРТА. 1995.-56 с.

18. Соколов 14. Ю.. Стукалов Д.Н. Весовая обработка для оценки параметров речевого сигнала при диагностике заболеваний голосового тракта // Республиканская научно-техническая конференция студентов. молодых ученых и специалистов "Биотехнические, медицине-

кие и экологические системы и комплексы": Тезисы докладов,- Рязань: РГРТА. 1995,- 56 с.

19. Кириллов С.Н., Стукалов Д.Н. Исследование цифровых методов передачи речи в системе информационного обеспечения УВД при воздействии акустических шумов // Наука и техника гражданской авиации на современном этапе. М.: МГТУ ГА, 1995.- 180 с.

20. Кириллов С.Н., Стукалов Д.Н. Высококачественные кодеки с расширенной полосой речевого сигнала // Электросвязь.- 1995,-N9,- С.12-14.

21. Кириллов С.Н.. Стукалов Д.Н. Цифровые системы обработки речевых сигналов: Учеб. пособие. Рязань: Рязан. гос. радиотёхн. акад.. 1995. - 68 С.

22. Кириллов С.Н.. Стукалов Д.Н. Помехоустойчивость кодеков зашумленных речевых сигналов // Электросвязь.- 1995,- N12.-. С. 12-13.

23. Кириллов С.Н., Стукалов Д.Н., Васильев A.B. Алгоритм подавления узкополосных акустических помех в системах цифровой обработки речи // Алгоритмическое и аппаратное обеспечение автоматизированных ~ ~ " 50-54.

Стукалов Дмитрий Николаевич

Алгоритмы цифровой обработки речевых сигналов при воздействии акустических помех

Автореферат диссертации на соискание ученой степени кандидата технических наук

Подписано в печать Формат бумаги 60x84 1/16.

Бумага газетная.: Печать ротапринтная. Усл. печ. л. 1.0. Уч.-изд. л. 1.0. Тираж 100 экз. Заказ Рязанская государственная радиотехническая академия. 391000, Рязань, ул. Гагарина. 59/1. Участок оперативной полиграфии Облстатуправления. 390013, Рязань, ул. Типанова. 4.