автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Оценка разборчивости и обработка речевых сигналов в задаче шумоподавления

кандидата технических наук
Топников, Артем Игоревич
город
Ярославль
год
2012
специальность ВАК РФ
05.12.04
Диссертация по радиотехнике и связи на тему «Оценка разборчивости и обработка речевых сигналов в задаче шумоподавления»

Автореферат диссертации по теме "Оценка разборчивости и обработка речевых сигналов в задаче шумоподавления"

На правах рукописи

Топников Артем Игоревич

ОЦЕНКА РАЗБОРЧИВОСТИ И ОБРАБОТКА РЕЧЕВЫХ СИГНАЛОВ В ЗАДАЧЕ ШУМОПОДАВЛЕНИЯ

Специальность 05.12.04 Радиотехника, в том числе системы и устройства телевидения

Автореферат

диссертации на соискание ученой степени кандидата технических наук

Владимир — 2012

005050260

005050260

Работа выполнена на кафедре динамики электронных систем Ярославского государственного университета им. П.Г. Демидова (ЯрГУ)

Научный руководитель доктор технических наук, доцент ЯрГУ

Приоров Андрей Леонидович

Официальные оппоненты: доктор физико-математических наук, профессор, зав.

кафедрой «Основ нанотехнологий и теоретической

физики» ВлГУ

Pay Валерий Георгиевич

кандидат технических наук, нач. отдела защиты информации филиала ОАО АКБ «Югра», г. Ярославль Меньшиков Борис Николаевич

Ведущая организация: ОАО «Ярославский радиозавод»

Защита диссертации состоится 14 декабря 2012 г. в 14.00 часов на заседании диссертационного совета Д 212.025.04 при Владимирском государственном университете имени Александра Григорьевича и Николая Григорьевича Столетовых (ВлГУ) по адресу: 600000, г. Владимир, ул. Горького, д. 87, ВлГУ, ФРЭМТ, ауд. 301.

С диссертацией можно ознакомиться в библиотеке Владимирского государственного университета имени Александра Григорьевича и Николая Григорьевича Столетовых.

Автореферат разослан 12 ноября 2012 г.

Отзывы на автореферат, заверенные печатью, просим направлять по адресу: 600000, г. Владимир, ул. Горького, д. 87, ВлГУ, ФРЭМТ.

Ученый секретарь диссертационного совета доктор технических наук, профессор

А.Г. Самойлов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Речевой сигнал - основной переносчик информации при естественном общении между людьми. Велика удельная доля речевой информации и в общем ее объеме, передаваемом радиотехническими системами. При распространении в воздушном пространстве, а также при передаче в радиотехнических системах связи, речевые сигналы подвергаются искажениям. Сильные искажения способны не только ухудшить эстетическое качество воспринимаемых сигналов, но и привести к потере части информации, что снижает разборчивость речи. Существует значительное отличие между качеством и разборчивостью речевого сигнала, что приводит к необходимости отдельной оценки этих характеристик.

В настоящее время известно множество методов подавления шума в речевых сигналах. Выбор конкретного метода связан с особенностями воздействующего на речевой сигнал шума, наиболее вероятного диапазона отношений сигнал/шум (ОСШ) и множеством другим факторов, включая аппаратную базу, используемую для реализации метода шумоподавления.

Вместе с тем, по-прежнему наблюдается потребность в создании новых и в усовершенствовании существующих методов шумоподавления. В частности, некоторые из них, улучшая качество зашумленного речевого сигнала, могут снижать его разборчивость. Также для некоторых методов характерны артефакты типа "музыкальный шум", осложняющие восприятие информации, содержащейся в речевом сигнале. Другой важный вопрос, определяющий направление развития методов шумоподавления, - работа с сильно зашумленными речевыми сигналами при ОСШ ниже 0 дБ. В подобных случаях особо важным является повышение разборчивости.

С решением задачи повышения качества и разборчивости непосредственно связана необходимость в достоверных методах оценки этих характеристик речевого сигнала. Особой актуальностью обладают работы, направленные на разработку неэталонных критериев. Использование таких критериев в радиотехнических системах позволяет производить автоматизированный контроль разборчивости в речевых сигналах, а также осуществлять выбор методов их обработки, наиболее подходящих в каждом конкретном случае.

Таким образом, проблема разработки новых неэталонных критериев разборчивости и методов подавления шума в речевых сигналах является актуальной.

Состояние проблемы. Основополагающие работы по обработке и анализу речевых сигналов связаны с именами таких известных зарубежных ученых, как Рабинер Л., Шафер Р., Фланаган Дж., Янг Б., Мермелштейн П., Левинсон С. и др. Большой вклад в развитие методов анализа речевых сигналов внесли работы зарубежных и отечественных ученых Парзена Э., Розенблатта М., Римского-Корсакова A.B., Сапожкова М.А., Михайлова В.Г., Рихтера С.Г., Тартаковского Г.П., Санникова В.Г. и др.

В области шумоподавления в речевых сигналах наибольшую известность получили работы ученых Болла С., Лима Дж., Ефрайма Я., Малла Д., Скалара Ф., Филхо Дж., Коэна И., Лойзо Ф., Прохорова Ю.Н. и др.

Работы указанных ученых содержат теоретическое обоснование, описание и сравнение методов анализа и обработки зашумленных речевых сигналов. Однако

1

некоторые вопросы в этой области по-прежнему не решены или требуют дополнительных исследований.

Целью работы является создание и исследование методов анализа и обработки зашумленных речевых сигналов.

Для достижения указанной цели в диссертационной работе поставлены и решены следующие задачи:

- модификация объективного критерия разборчивости SNR loss для поддиапазонного анализа разборчивости речевых сигналов;

- разработка неэталонной версии критерия объективной оценки разборчивости SNR loss, а также его поддиапазонной модификации;

- создание эффективного метода поиска похожих фрагментов речевого сигнала, применимого для использования в составе метода нелокального усреднения во временной области;

- модификация метода нелокального усреднения на основе предложенного метода поиска похожих фрагментов и сравнение результатов работы предложенного метода шумоподавления с другими на основе объективных критериев качества и разборчивости речевых сигналов;

- создание метода постобработки зашумленных речевых сигналов, обработанных с использованием метода нелокального усреднения во временной области.

Методы исследования. При решении поставленных задач использованы методы цифровой обработки сигналов, линейной алгебры, теории вероятностей и математической статистики. Широко использовались методы компьютерного моделирования.

Объектом исследования является система подавления шума в речевых сигналах.

Предметом исследований являются методы объективной оценки разборчивости речевых сигналов, а также методы подавления шума в речевых сигналах, обеспечивающие повышение их качества и разборчивости. Научная новизна

1. Предложен подход к поддиапазонной оценке разборчивости речевых сигналов, основанный на модификации объективного критерия разборчивости SNR loss.

2. Разработан метод неэталонной оценки значений объективного критерия разборчивости SNR loss, а также его поддиапазонной модификации, для зашумленных речевых сигналов.

3. Предложен подход к поиску похожих фрагментов речевых сигналов, основанный на применении алгоритма кластеризации к-средних.

4. На основе предложенного метода поиска похожих фрагментов модифицирован метод подавления шума в речевых сигналах, основанный на принципе нелокального усреднения во временной области.. Практическая значимость

1. Предложенные модификации объективного критерия разборчивости SNR loss позволяют проводить поддиапазонный анализ разборчивости речевых сигналов для исследования и усовершенствования методов подавления шума в речевых сигналах.

2. Предложенный метод неэталонной оценки критерия SNR loss и его поддиапазонных модификаций может использоваться для контроля разборчивости речи в радиотехнических системах связи и автоматического выбора методов шумоподавления. Средняя величина абсолютной ошибки при неэталонной оценке критерия SNR loss не превышает 3,55%.

3. Предложенный метод неэталонной оценки критерия SNR loss допускает относительно простую аппаратную реализацию, в частности, на цифровых сигнальных процессорах.

4. Разработанный метод подавления шума, основанный ira поиске похожих фрагментов с применением алгоритма кластеризации к-средних и принципа нелокального усреднения сигнала во временной области, позволяет значительно улучшать качество и разборчивость зашумленных речевых сигналов при отрицательных значениях ОСШ.

5. Предложенный метод постобработки прост в реализации и позволяет добиться дополнительного улучшения качества и разборчивости зашумленных сигналов, обработанных при помощи метода шумоподавления, основанного на нелокальном усреднении сигнала во временной области.

Результаты работы внедрены в соответствующие разработки ОАО "Ярославский радиозавод" и МОО "Союз криминалистов" г. Ярославль. Отдельные результаты работы внедрены в учебный процесс Ярославского государственного университета им. П.Г. Демидова в рамках дисциплины "Цифровая обработка речевых сигналов", а также в научно-исследовательские работы при выполнении исследований в рамках грантов "Развитие нелинейной теории цифровой обработки сигналов и изображений в технических системах" (грант РФФИ № 10-08-01186), "Разработка методов оценки качества видеоинформации" (грант РФФИ № 12-0801215), "Развитие нелинейной теории цифровой обработки сигналов и изображений в радиотехнике и связи" (Программа "Развитие научного потенциала высшей школы (2009-2010 годы)", № 2.1.2/7067).

Личный вклад автора. Выносимые на защиту положения предложены и реализованы автором в ходе выполнения научно-исследовательских работ на кафедре динамики электронных систем Ярославского государственного университета им. П.Г. Демидова. Практическая реализация методов и моделирование на ЭВМ проводились коллективом исследователей при личном участии автора.

Достоверность материалов диссертационной работы подтверждена результатами компьютерного моделирования, демонстрирующими эффективность предложенных методов в задачах анализа и обработки речевых сигналов.

Апробация работы. Результаты работы докладывались и обсуждались на:

- 11-й, 12-й, 13-й, 14-й Международной конференции "Цифровая обработка сигналов и ее применение", М., 2009, 2010, 2011, 2012.

- XVIII Международной научно-технической конференции студентов и аспирантов "Радиоэлектроника, электротехника и энергетика", М., 2012.

- 9-й Международной научно-технической конференции "Перспективные технологии в средствах передачи информации", Владимир-Суздаль, 2011.

- Международной научно-практической конференции студентов и молодых ученых "Молодежь и наука: модернизация и инновационное развитие страны", Пенза, 2011.

- П-ой Международной молодежной научно-практической конференции "Научно-практические исследования и проблемы современной молодежи", Елабуга, 2010.

- XIII Всероссийской научно-практической конференции "Проблемы развития средств ПВО в современных условиях", Ярославль, 2012.

- 2-й Всероссийской конференции "Радиоэлектронные средства передачи и приема сигналов и визуализации информации - РЭС-2012", М.-Таганрог, 2012.

- 8-й Всероссийской научно-технической конференции "Информационные технологии в электротехнике и электроэнергетике", Чебоксары, 2012.

- IX Всероссийской научно-технической конференции "Динамика нелинейных дискретных электротехнических и электронных систем", Чебоксары, 2011.

- 65-й Научной сессии, посвященной Дню радио, РНТОРЭС им. A.C. Попова, М., 2010.

- 16-й Всероссийской научно-технической конференции "Новые информационные технологии в научных исследованиях и в образовании", Рязань, 2009.

- Научно-технической конференции "Проблемы автоматизации и управления в технических системах", Пенза, 2008.

- 62-й, 63-й, 64-й Региональной научно-технической конференции студентов, магистрантов и аспирантов высших учебных заведения с международным участием "Молодежь. Наука. Инновации", Ярославль, 2009, 2010, 2011.

- 9-й Областной научно-практической конференции студентов, аспирантов и молодых ученых вузов "Ярославский край. Наше общество в третьем тысячелетии", Ярославль, 2008.

Публикации. По теме диссертации опубликованы 23 научные работы, из них 2 статьи в рецензируемых журналах из перечня ВАК.

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы и приложения. Содержание работы изложено на 131 странице. Список литературы включает 120 наименований. В работе представлен 41 рисунок и 22 таблицы.

Основные научные положения и результаты, выносимые на защиту

1. Объективный метод поддиапазонной оценки разборчивости речевых сигналов, основанный на модифицированной версии критерия SNR loss.

2. Метод неэталонной оценки значений объективного критерия разборчивости SNR loss, а также значений его поддиапазонной версии.

3. Метод подавления шума в речевых сигналах, основанный на нелокальном усреднении во временной области и поиске похожих фрагментов с применением алгоритма к-средних.

4. Результаты исследования предложенного метода шумоподавления и его сравнения с двумя другими методами.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность выбранной темы, сформулированы цель и задачи исследования, изложены основные положения, выносимые на защиту, показаны научная новизна и практическая значимость работы.

В первой главе дана краткая характеристика задачи подавления шума в речевых сигналах и ее взаимосвязь с задачами повышения их качества и разборчивости. Изложены основы теории речеобразования и восприятия речи человеком.

Проанализированы основные подходы к подавлению шума в речевых сигналах. Более подробно рассмотрено два метода шумоподавления, обладающие наибольшей значимостью для данной работы. Метод Скалара является одним из самых применяемых и эффективных методов шумоподавления, поэтому часто используется для сравнений. Метод шумоподавления на основе принципа нелокального усреднения является одним из самых новых и обладает перспективами с позиции дальнейшего усовершенствования.

Рассмотрены основные подходы к оценке качества и разборчивости речевых сигналов. Объективные критерии, используемые в данной работе для оценки работы методов шумоподавления, описаны более подробно. В качестве таковых выбраны критерии разборчивости SNR loss и fAI, а также объективные критерии качества PESQ, LLR, WSS, сегментное ОСШ и трехкомпонентный комбинированный, критерий.

Во второй главе предложен подход к поддиапазонной оценке разборчивости речевых сигналов, базирующийся на усовершенствовании критерия SNR loss. Данный критерий заключается в вычислении значения SNRloss, которое изменяется в интервале от 0 до 1 и характеризует разборчивость речевого сигнала. Нулевое значение соответствует идеальной разборчивости, а единичное - ее нулевому уровню. Первые этапы модифицированной версии критерия аналогичны этапам его оригинальной версии, а последние два этапа осуществляются отдельно для 2 или 3 частотных поддиапазонов (в зависимости от варианта модификации). В результате при использовании модифицированного критерия вычисляется 2 или 3 коэффициента, каждый из которых характеризует разборчивость речевого сигнала в отдельном поддиапазоне и вклад данного поддиапазона в суммарную разборчивость речевого сигнала. Приведем краткое описание модифицированной поддиапазонной версии критерия SNR loss. .

Вычисления осуществляются для отдельных временных интервалов (кадров). Для каждой у'-й критической полосы каждого ш-го кадра вычисляется следующая величина:

L(J,т) = SNRX (j,m)~ SNRi (у.и) = 10 • IgS^.

X (j,m)

где SNRx(j,m) - входное отношение сигнал/шум в полосе j и интервале т , SNR^(j,m) - ОСШ после обработки в полосе j и интервале т, X(j,m) - j-я составляющая амплитудного спектра незашумленного (эталонного) сигнала, вычисленного с учетом критических полос для m-го временного интервала, X(j,m) - j-я составляющая амплитудного спектра обработанного сигнала, вычисленного с

учетом критических полос для т-го временного интервала. Очевидно, что при Х(у,т) = Л'(у',т) величина ¿(у,/и) = 0. В целом значение ¿(у,/и) может быть как положительным, так и отрицательным.

Затем значения ¿(у, га) ограничиваются в пределах определенного диапазона

Полученные на предыдущем этапе значения ¿(у,ш) масштабируются на интервал [0, 1]:

С

SNRlms(j,m) =

SNR lira

L(j,m), ec.nuL(j,m)<0

С

-L(j,m), -если L(j,m)>i 0,

SNR^

где С. и С, - параметры масштабирующей функции.

На следующем этапе вместо усреднения значений SNRlnss(j,m) по всем критическим полосам, как это предусмотрено оригинальной версией критерия SNR loss, в предлагаемой модификации производится усреднение SNRLOSS{j,m) по отдельным группам полос, образующим поддиапазоны:

XW{j)SNR,oss{j,m) fSNRLOSS (п,т) = ---,

J'X.

где п - номер поддиапазона, Sr - номер начальной полосы поддиапазона, Еп -номер конечной полосы поддиапазона, И-'(у') - весовая функция, учитывающая психоакустические закономерности восприятия речевых сигналов.

Важно, чтобы при выборе границ поддиапазонов суммы весов, соответствующих разным поддиапазонам, примерно равнялись друг другу. Предлагаемое распределение критических полос по поддиапазонам представлено в табл. 1. Наборы центральных частот, ширина полос, а также весовые коэффициенты для критических полос аналогичны тем, что используются в оригинальной версии SNR loss, так как главным образом определяются свойствами слуховой системы человека.

Таблица 1

Распределение критических полос по поддиапазонам

Вариант модификации Номер поддиапазона Номера объединяемых полос Диапазон центральных частот объединяемых полос, Гц Сумма весовых коэффициентов объединяемых полос

2-х поддиапазонный 1 1-12 50,000-904,128 0,6703

2 13-25 1020,380-3597,630 0,6399

3-х поддиапазонный 1 1-8 50,000 - 540,000 0,4403

2 9-16 617,372- 1442,540 0,4139

3 17-25 1610,700-3597,630 0,4560

Заключительный этап вычислений в модифицированном случае принимает следующий вид:

= ^¿fSNRwss (n,m).

М О

В результате получается 2 или 3 коэффициента (в зависимости от варианта модификации), каждый из которых может принимать значения от 0 до 1. Предлагаемые модификации критерия SNR loss предлагается обозначать как SNR loss-2 и SNR loss-З, а значения этих критериев - как SNRIoss-2 и SNRIoss-3. Отдельные поддиапазонные коэффициенты в критериях SNRloss-2 и SNRloss-3 допускается обозначать как SNRIoss-2n и SNRloss-Зп, где п - номер поддиапазона.

Благодаря модификации критерия SNR loss становится возможным проводить поддиапазонный анализ разборчивости сигналов, обработанных с помощью методов шумоподавления. Таким образом можно оценивать работу алгоритма не в целом, а отдельно в каждом из анализируемых поддиапазонов. В качестве примера рассмотрен поддиапазонный анализ метода шумоподавления, предложенного Скаларом. Моделирование осуществляется в среде Matlab. Речевые фрагменты зашумлялись аддитивным белым гауссовским шумом (АБГШ). Производилось сравнение значений SNRloss-2 и SNRIoss-З на входе и выходе метода шумоподавления Скалара при различных значениях ОСШ из диапазона [-10, 10] дБ. Кроме очевидного вывода о росте степени' разборчивости с увеличением ОСШ можно сделать вывод о том, что высокочастотная составляющая речевого сигнала имеет меньшую устойчивость к воздействию шумов, нежели низкочастотная. Это можно объяснить тем, что основная часть энергии речевых сигналов сосредоточена в низкочастотной области и именно эти составляющие наиболее устойчивы к воздействию шумов. Кроме того, в области низких частот с ростом ОСШ наблюдается наибольшее увеличение разборчивости после шумоподавления с использованием метода Скалара, в то время как относительный вклад высокочастотной части в общую разборчивость при подавлении шума в речевом сигнале уменьшается с ростом ОСШ (рис. 1).

Г

я 0.8 1 07

0,6 ,-,-,-.-.-

-10 -5 0 5 10 ОСШ, ДБ —О— Поддиапазон 1 ■ Поддиапазон 2

a i I Поддиапазон 3

а) б)

Рис. 1. Значения поддиапазонных коэффициентов разборчивости после шумоподавления для разных поддиапазонов и ОСШ: а) анализ в двух поддиапазонах, б) анализ в трех

поддиапазонах

ОСШ, дБ —о—Поддиапазон 1 - -*- - поддиапазон 2

Разработан метод неэталонной оценки значений критерия разборчивости речи SNR loss. Выбор этого эталонного метода в качестве основы для создания неэталонного критерия связан с тем, что он учитывает особенности искажений, вносимых системами шумоподавления, и обладает высокой достоверностью.

Идея, лежащая в основе создания неэталонной версии критерия SNR loss, состоит в том, чтобы вычислять значение SNRloss для оцениваемого (зашумленного) сигнала и сигнала, полученного шумоподавлением с использованием метода, предложенного Скаларом и Филхо. При этом сигнал на выходе алгоритма шумоподавления считается чистым (эталонным). Это допустимо, так как сигнал на выходе метода шумоподавления является оценкой чистого (незашумленного) сигнала.

Проанализирована взаимосвязь значений SNRloss, вычисленных таким образом, (обозначим их как SNRloss') с истинными значениями SNRloss, полученными при использовании чистого сигнала в качестве эталона (рис. 2). Для моделирования использовалось шесть незашумленных речевых фрагментов, каждый из которых зашумлялся АБГШ. Для каждого фрагмента формировались 230 зашумленных версий: 5 реализаций шума для каждого ОСШ из диапазона от -15 до 30 дБ. В ходе моделирования значения SNRloss измерялись для 1380 сигналов (6 фраз по 230 вариантов зашумления каждая). Множество точек на рис. 2 распределено таким образом, что позволяет сделать предположение о возможности линейной аппроксимации зависимости SNRloss от SNRloss'. На основе имеющихся данных и метода наименьших квадратов взаимосвязь может быть описана уравнением парной линейной регрессии:

SNRloss=b, * SNRloss'+b„. (1)

Установлено, что для данного типа шума коэффициенты уравнения (1) принимают следующие значения: Ь,=0,8909; Ь0=0,043. Даже при использовании линейной регрессии наблюдается высокое значение коэффициента детерминации (выше 0,99), характеризующего связь между истинными значениями SNRloss и значениями SNRloss, полученными путем подстановки значений SNRloss' в уравнение (1).

Z <п

о

0.6

00

0.5

0,4

0.4

0.5

0.6

0.7 SNRloss'

0.8

0.9

Рис 2. Взаимосвязь значений SNRloss' и SNRloss для АБГШ

Для проверки предложенного неэталонного метода оценки значений SNRloss проведено дополнительное моделирование. Для обеспечения достоверности выбран набор. речевых фрагментов, отличный от того, который использовался в первой части исследований. Для 24 речевых фрагментов измерено в обшей сложности 5520 пар значений SNRloss и SNRloss' (для разных реализаций шума и ОСШ). Полученные значения SNRloss' подставлялись в выражение (1). Таким образом было найдено 5520 неэталонных оценок значений SNRloss. Сравнение неэталонных оценок с истинными значениями критерия, полученными эталонным методом, позволяет судить о достаточно высокой точности предложенного метода неэталонной оценки. При использовании линейной аппроксимации средняя величина абсолютной ошибки составляет примерно 0,008, а ее максимальная величина равна 0,036. Средняя величина относительной ошибки составляет примерно 1,05%, а ее максимальное значение равно 4,72%. Полученные результаты свидетельствуют о перспективности применения предложенного подхода к неэталонной оценке значений критерия SNR loss.

Следующим шагом исследования стала проверка применимости данного подхода для других видов шумов, наиболее часто встречающихся при решении практических задач. С этой целью использовалась специализированная база шумов Noisex-92, состоящая из записей реальных шумов различных типов.

Для осуществления неэталонной оценки значений SNRloss в случае воздействия на сигнал шума произвольного типа возможно три подхода: использование регрессионного выражения (1) с параметрами, полученными для АБГШ; использование этого регрессионного выражения с параметрами, полученными для смешанной выборки, состоящей из речевых сигналов, зашумленных шумами разных типов; нахождение новых параметров зависимости (1), индивидуальных для каждого конкретного типа шума. Первые два подхода более универсальны и удобны на практике, однако третий подход потенциально способен обеспечить большую точность. Проведенные исследования подтверждают, что наибольшая достоверность достигается при использовании третьего подхода, однако он обладает наименьшей универсальностью и не применим в случаях, когда тип шума заранее не известен. Первый и второй подходы в среднем обладают сопоставимой точностью, однако при работе с некоторыми типами шумов второй подход позволяет достичь более низкой средней абсолютной ошибки. С учетом простоты первого подхода, который не подразумевает использования базы аудиозаписей шумов, именно его рекомендуется использовать в случаях, когда шумовые условия заранее неизвестны или тип шума может меняться с течением времени.

Также на основе предложенного неэталонного метода оценки значений SNRloss предложен неэталонный метод поддиапазонной оценки разборчивости. Исследовано два подхода к оценке коэффициентов уравнения регрессии, необходимых для получения значений оценки. Первый подход обладает большей универсальностью, второй - позволяет достичь более высокой точности. Для 2-поддиапазонной версии метода величина относительной ошибки изменяется в пределах от 1% до 6,34% (при использовании первого подхода) и от 0,98% до 2,5% (при использовании второго). Для 3-поддиапазонной версии метода величина относительной ошибки изменяется в пределах от 1,11% до 11,11% (при

использовании первого подхода) и от 1,12% до 3,39% (при использовании второго). Более высокие значения ошибки характерны для оценки критерия разборчивости в высокочастотной области спектра речевых сигналов.

В третьей главе предложен новый подход к поиску похожих фрагментов речевого сигнала на основе алгоритма кластеризации к-средних, а так же базирующийся на применении этого подхода метод шумоподавления.

Характер задачи поиска похожих фрагментов речевого сигнала позволяет сформулировать ее как задачу кластеризации. Фрагменты речевого сигнала, отнесенные к одному из классов, могут интерпретироваться как похожие фрагменты. В качестве алгоритма кластеризации выбран широко распространенный алгоритм к-средних (к-шеапэ). Сочетание предлагаемого подхода к поиску похожих фрагментов и принципа нелокального усреднения позволяют создать новый метод шумоподавления.

Приведем краткое описание данного метода. Как и в оригинальной версии метода нелокального усреднения во временной области, в предлагаемом методе для достижения высокого качества обработки поиск осуществляется не по исходному зашумленному речевому сигналу, а по так называемому опорному сигналу, который получается из входного путем применения метода шумоподавления, предложенного Скаларом и Филхо. Отличием предлагаемого метода является то, что обратное преобразование Фурье в методе Скалара осуществляется только для спектральных составляющих, соответствующих частотному интервалу от 0 до 2000 Гц. Исследования показали, что составляющие, соответствующие более высоким частотам, имеют крайне низкое ОСШ, и их учет может негативно сказаться на качестве процедуры поиска в целом.

Далее исходный зашумленный сигнал и опорный сигнал разбиваются на перекрывающиеся окна длиной 512 отсчетов, каждое из которых, в свою очередь, разбивается на перекрывающиеся фрагменты длиной 16-20 отсчетов. Затем набор фрагментов опорного сигнала поступает на вход алгоритма кластеризации к-средних. В результате работы алгоритма кластеризации каждый из фрагментов опорного сигнала, соответствующий определенному фрагменту зашумленного сигнала, относится к определенному классу (кластеру). Фрагменты зашумленного речевого сигнала, относящиеся к одному кластеру, усредняются между собой и заменяются копиями фрагмента, полученного в результате усреднения. Выполнение описанной последовательности операций приводит к подавлению аддитивного шума в сигнале. В отличие от метода поиска похожих фрагментов сигнала, используемого в оригинальной версии метода нелокального усреднения во временной области, предложенный подход не требует оценки порога, зависящего от мощности шума.

Предложенный метод шумоподавления реализован в среде моделирования Ма11аЬ. Тестирование производится на речевой базе, состоящей из 30 аудиозаписей. Частота дискретизации речевых сигналов составляет 8 кГц, отсчеты представлены с использованием ймпульсно-кодовой модуляции, точность представления отсчетов — 16 бит на отсчет. В качестве модели шума использовался АБГШ.

Для установления верхней границы эффективности (способности улучшать качество и разборчивость речевых сигналов) предложенного метода проведено моделирование в идеализированных условиях. В этом случае поиск похожих фрагментов осуществлялся по незашумленному сигналу, а сам процесс усреднения

проводился с использованием отсчетов зашумленного сигнала. Результаты такого моделирования позволяют оценить работу предложенного механизма усреднения при условии идеального поиска фрагментов. Эти результаты не могут быть достигнуты в реальных условиях функционирования методов шумоподавления, однако могут рассматриваться как верхняя граница эффективности и способствовать выбору перспективных направлений совершенствования методов шумоподавления. Схожесть оригинального (классического) метода нелокального усреднения с предлагаемым позволяет провести их сравнение как субъективно (в том числе и визуально по спектрограммам), так и на основе объективных критериев качества и разборчивости.

Проведенное моделирование позволяет сделать вывод, что при работе в идеализированных условиях предлагаемый метод превосходит оригинальную версию метода нелокального усреднения по критерию разборчивости £А1 и сегментному ОСШ во всем исследуемом диапазоне входных значений ОСШ (от -10 до 10 дБ). Выигрыш предлагаемого метода по субъективному критерию разборчивости SNR loss, критерию качества PESQ и коэффициентам Cbak и Csig трехкомпонентного комбинированного критерия качества наблюдается при всех значениях ОСШ за исключением ОСШ=Ю дБ. Выигрыш предлагаемого метода в области отрицательных значений ОСШ и ОСШ=0 дБ наблюдается по критерию качества LLR, а также коэффициенту Csig, входящего в трехкомпонентный критерий качества. В большей части исследуемого диапазона ОСШ предлагаемый метод уступает классической версии метода нелокального усреднения лишь по критерию WSS и выходному значению ОСШ. В целом исследования в идеализированных условиях позволяют сделать вывод о перспективности предложенного метода шумоподавления и преимуществах его работы при отрицательных значениях ОСШ, т.е. наиболее сложных условиях, когда повышение разборчивости и качества речи наиболее необходимо.

Дальнейшие исследования производились без применения указанной идеализации, то есть в условиях, возникающих при решении практических задач, связанных с подавлением шума в речевых сигналах. Установлено, что исследуемый метод шумоподавления хорошо сохраняет структуру спектра речевого сигнала даже при низких значениях ОСШ (рис. 3), при этом в спектральной области не наблюдается локальных всплесков, возникающих при работе ряда других методов шумоподавления. Субъективная оценка результатов работы предложенного метода на слух при ОСШ, находящихся в пределах от -10 до 10 дБ, позволяет сделать вывод о том, что имеет место существенное улучшение качества обрабатываемых речевых сигналов. Важной особенностью метода является отсутствие в выходном сигнале артефактов типа "музыкальный шум".

Также произведено сравнение предложенного метода (km-NLM) с более ранней версией одномерного метода нелокального усреднения (NLM) и методом Скалара (WFS) на основе объективных критериев разборчивости и качества. По критерию разборчивости fAI предложенный метод превосходит два других, участвующих в сравнении (рис. 4, а). Однако анализ на основе критерия разборчивости SNR loss свидетельствует о том, что при значениях ОСШ>Ю дБ применение методов, основанных на нелокальном усреднении, может приводить к ухудшению разборчивости.

б)

6 18 ?

Д) е)

Рис. 3. Сигналы: исходный сигнал во временной (а) и частотной (г) областях, зашумленный сигнал (ОСШ—5 дБ) во временной (б) и частотной (д) областях; сигнал после шумоподавления во временной (в) и частотной (е) областях

Анализ на основе критерия качества PESQ (рис. 4, б) позволяет сделать вывод о превосходстве предлагаемого метода во всем исследуемом диапазоне входных ОСШ (от -10 до 10 дБ). Выигрыш предлагаемого метода по сравнению с более ранней версией одномерного метода нелокального усреднения составляет в зависимости от ОСШ 0,06-0,17 по шкале MOS (Mean Opinion Score). По сравнению с исходным зашумленным сигналом применение предлагаемого метода позволяет улучшить качество на 0,23-0,77 единиц шкалы MOS.

а) б)

Рис. 4 Сравнение методов шумоподавление на основе а) критерия разборчивости fAl; б) критерия качества PESO

Более детальный анализ позволяет реализовать трехкомпонентный комбинированный критерий качества. В этом методе качество сигнала характеризуется тремя значениями: Csig (качества речевого сигнала), Cbak (качество фона), Covl (общее качество). Можно сделать вывод, что при низких значениях ОСШ (-5 и -10 дБ) метод на основе кластеризации превосходит классическую версию метода нелокального усреднения по качеству обработки речевого сигнала и общему качеству. В положительной области значений ОСШ тенденция имеет противоположный характер - несколько лучшие качество обработки сигналов и общее качество показывает классическая версия метода нелокального усреднения, что особенно заметно при ОСШ=10 дБ.

По качеству обработки фона во всем исследуемом диапазоне значений ОСШ оба нелокальных метода показывают достаточно близкие результаты. При ОСШ=Ю дБ предложенный метод уступает по ряду критериев двум другим, участвующим в сравнении. Для минимизации этого недостатка предложен простой метод постобработки сигнала, основанный на пороговой обработке в спектральной области. Применение постобработки позволяет добиться улучшения разборчивости примерно на 0,023 единицы по критерию SNR loss, при этом по остальным объективным критериям также наблюдается улучшение качества и разборчивости обрабатываемых речевых сигналов.

С учетом того, что применение методов, основанных на принципе нелокального усреднения, к сигналам с высоким значением ОСШ может приводить к ухудшению разборчивости, предлагается до стадии шумоподавления производить неэталонную оценку разборчивости зашумленного сигнала. В случаях, когда неэталонная оценка критерия SNR loss для зашумленного сигнала имеет значение ниже 0,8, применение методов шумоподавления, основанных на нелокальном усреднении во временной области, с целью повышения разборчивости неэффективно и для подавления шума может применяться более простой метод, предложенный Скаларом. В случаях, когда значение оценки критерия SNR loss превышает уровень 0,8, рекомендуется использовать предлагаемый метод, основанный на алгоритме кластеризации к-средних и нелокальном усреднении во временной области.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

На основании проведенных исследований в области цифровой обработки речевых сигналов в работе получены следующие результаты:

1. Предложена модификация критерия SNR loss, позволяющая осуществлять поддиапазонную оценку разборчивости речевых сигналов. Данная модификация позволяет более детально исследовать влияние шумов и других искажающих факторов на разборчивость речи, а также производить более детальный анализ методов шумоподавления. Приведен пример анализа метода шумоподавления с использованием предлагаемого подхода.

2. Разработан и реализован в среде Matlab неэталонный метод оценки значений критерия разборчивости SNR loss. В случае воздействия на речевой сигнал АБГШ средняя величина абсолютной ошибки при оценке значений SNRloss составляет примерно 0,008. Средняя величина относительной ошибки составляет примерно 1,05%, а ее максимальное значение равно 4,72%.

3. Для осуществления неэталонной оценки значений SNRloss в случае воздействия на речевой сигнал шумов различных типов предложено и исследовано три подхода (метода выбора коэффициентов регрессии). Один из подходов позволяет добиться более высокой точности, но он не применим в случаях, когда шумовые условия заранее неизвестны или тип шума может меняться с течением времени. В указанных случаях возможно применение двух других подходов, обладающих несколько меньшей точностью, но большей универсальностью. Величина средней относительной ошибки при оценке значений SNRloss для речевых сигналов, зашумленных произвольным типом шума, варьируется в пределах от 1,05% до 3,55% , в зависимости от выбранного подхода и типа шума.

4. Предложена и исследована неэталонная версия поддиапазонного критерия разборчивости. Исследовано два подхода к оценке коэффициентов уравнения регрессии, необходимых для получения значений оценки. Первый подход обладает большей универсальностью, второй - позволяет достичь более высокой точности. Например, для 2-поддиапазонной версии метода величина относительной ошибки изменяется в пределах от 1% до 6,34% (при использовании первого подхода) и от 0,98% до 2,5% (при использовании второго подхода).

5. Предложен новый подход к поиску похожих фрагментов зашумленного речевого сигнала, основанный на алгоритме кластеризации к-средних. Сочетание данного подхода с принципом нелокального усреднения во временной области позволяет создать новый метод шумоподавления. Предложенный метод реализован в среде Matlab.

6. На основе субъективных тестов установлено, что при обработке зашумленных сигналов с использованием предложенного метода имеет место значительное улучшение качества сигнала. При этом не возникает нежелательных артефактов типа "музыкальный шум", характерных для ряда методов, осуществляющих шумоподавление в спектральной области.

7. С использованием объективных критериев качества и разборчивости установлено, что предложенный метод шумоподавления способствует улучшению качества и разборчивости зашумленных сигналов в широком диапазоне ОСШ (исследования производились в диапазоне от -10 до 10 дБ). При обработке сигнала, зашумленного аддитивным белым гауссовским шумом, улучшение качества по шкале MOS, оцененное при помощи критерия PESQ, составляет от 0,23 (при ОСШ=-Ю дБ) до 0,77 (при ОСШ=5 дБ). Предложенный метод демонстрирует выигрыш по критерию PESQ и при сравнении с другими методами

шумоподавления: на 0,06-0,17 единиц шкалы MOS по сравнению с более ранней версией метода на основе нелокального усреднения и 0,01-0,17 единиц по сравнению с методом Скалара.

8. Анализ и сравнение методов на основе других субъективных критериев позволяет сделать вывод, что предложенный метод особенно эффективен при отрицательных значениях ОСШ. Недостатком метода является то, что при относительно высоких значениях ОСШ (в частности, при ОСШ=Ю дБ) предложенный метод уступает по ряду критериев двум другим, участвующим в сравнении. Для минимизации этого недостатка предложен простой метод постобработки сигнала, основанный на пороговой обработке в спектральной области. Применение постобработки позволяет добиться улучшения разборчивости примерно на 0,023 единицы по критерию SNR loss, при этом по остальным объективным критериям также наблюдается улучшение качества и разборчивости обрабатываемых речевых сигналов.

В приложении приведены акты внедрения результатов диссертационной работы.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи в журналах из перечня ВАК

1. Новоселов С.А., Топников А.И., Савватин А.И., Приоров А.Л. Подавление шума в речевых сигналах на основе метода нелокального усреднения // Цифровая обработка сигналов. 2011. №4. С. 23-28.

2. Топников А.И., Веселое И.А., Новоселов С.А., Приоров А.Л. Выделение речевых команд на основе помехоустойчивых параметров и моделей гауссовых смесей // Проектирование и технология электронных средств. 2011. №4. С. 31-35.

Материалы международных н всероссийских конференции

3. Топников А.И., Веселов И.А., Новоселов С.А., Приоров А.Л. Особенности применения подхода нелокального усреднения в задаче подавления шума в речевых сигналах // Матер. 2-й всерос. конф. «Радиоэлектронные средства передачи и приема сигналов и визуализации информации - РЭС-2012». М.-Таганрог, 2012. С. 111-116.

4. Топников А.И., Новоселов. С.А., Веселов И.А. Одномерный метод нелокального усреднения для подавления шума в системах автоматического распознавания речевых команд // Докл. 14-й междунар. конф. «Цифровая обработка сигналов и её применение». М., 2012. Т. 2. С. 470-474.

5. Топников А.И. Об одном подходе к предобработке звуковых сигналов в системах слепого разделения недоопределенных смесей // Тез. докл. XVIII междунар. науч.-техн. конф. студентов и аспирантов «Радиоэлектроника, электротехника и энергетика». М., 2012. Т. 1. С. 157-158.

6. Топников А.И., Веселов И.А., Новоселов С.А. Детектор речевой активности на основе моделей гауссовских смесей // Матер. 8-й всерос. науч.-техн. конф. «Информационные технологии в электротехнике и электроэнергетике». Чебоксары, 2012. С. 214-215.

7. Новоселов С.А., Топников А.И. Потенциальная эффективность подавления шума в речевых сигналах методом нелокального усреднения // Сб. тр. междунар. науч.-практ. конф. студентов и молодых ученых «Молодежь и наука: модернизация и инновационное развитие страны». Пенза, 2011. Ч. 2. С. 292-295.

8. Топников А.И. Практические аспекты слепого разделения недоопределенных смесей речевых сигналов // Матер. 9-й междунар. науч.-техн. конф. "Перспективные технологии в средствах передачи информации". Владимир-Суздаль, 2011. Т. 2. С. 29-31.

9. Новоселов С.А., Топников А.И., Савватин А.И. Алгоритм шумоочистки речевых команд методом спектрального слежения // Докл. 13-й междунар. конф. "Цифровая обработка сигналов и ее применение". М., 2011. Т. 1. С. 224-226.

10.Топников А. И., Скопинцев Я.М., Веселое И.А. Усовершенствование алгоритма слепого разделения недоопределенных смесей речевых сигналов И Докл. 13-й междунар. конф. "Цифровая обработка сигналов и ее применение". М„ 2011. Т. 1.С. 252-254.

11.Топников А.И., Новоселов С.А. Анализ независимых компонент в задаче разделения смесей речевых сигналов// Докл. 12-й междунар. конф. "Цифровая обработка сигналов и ее применение". М., 2010. С. 197-199.

12.Топников А.И., Новоселов С.А. Оценка качества работы алгоритмов слепой декомпозиции сигналов // Тр. II международной молодежной науч.-практ. конф. Т. 3. Елабуга, 2010. С. 110-114.

13.Топников А.И. Слепая декомпозиция звуковых сигналов на основе анализа независимых компонент // Тр. 65-й науч. сессии, посвященной Дню радио. М., 2010. С. 205-207.

14.Новоселов С.А., Веселов И.А., Новиков А.Е., Топников А.И. Применение вейвлет-преобразования и скрытых Марковских моделей в задаче распознавания речевых команд // Докл. 11-й междунар. конф. "Цифровая обработка сигналов и ее применение", М., 2009. Т.1. С. 244-247.

Свидетельства о государственной регистрации программ для ЭВМ

15.Новоселов С.А., Топников А.И., Савватин А.И., Приоров А.Л. Научно-исследовательская программа для подавления шума в речевых сигналах Yar_SpeechCleaner // Свидетельство о регистрации в Реестре программ для ЭВМ №2011616845 от 31.10.2011.

16.Савватин А.И., Новоселов С.А., Топников А.И., Приоров А.Л. Научно-исследовательская программа для защищенной передачи речевых сигналов YarSecureVoice // Свидетельство о регистрации в Реестре программ для ЭВМ №2011619616 от 19.11.2011.

Подписано в печать 09.11.12. Формат 60*84 ,/16. Усл. печ. л. 1,0. Тираж 100 экз. Отдел оперативной полиграфии ЯрГУ. 150000, г. Ярославль, ул. Советская, 14.

Оглавление автор диссертации — кандидата технических наук Топников, Артем Игоревич

ВВЕДЕНИЕ

ГЛАВА 1. АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ АН АЛ ИЗ А 11 И ОБРАБОТКИ ЗАШУМЛЕННЫХ РЕЧЕВЫХ СИГНАЛОВ

1.1. Задача повышения разборчивости и качества зашумленных 11 речевых сигналов

1.2. Речеобразование и особенности восприятия речи человеком

1.3. Методы подавления шума в речевых сигналах

1.4. Оценка качества речевых сигналов

1.4.1. Субъективные методы оценки качества

1.4.2. Объективные методы оценки качества

1.5. Оценка разборчивости речи

1.5.1. Методы субъективной оценки разборчивости

1.5.2. Методы объективной оценки разборчивости

1.6. Краткие выводы

ГЛАВА 2. СОЗДАНИЕ НЕЭТАЛОННОГО КРИТЕРИЯ 49 РАЗБОРЧИВОСТИ РЕЧЕВЫХ СИГНАЛОВ

2.1. Исследование необходимости масштабирования входного 49 сигнала

2.2. Поддиапазонная оценка разборчивости при помощи 51 модификации критерия SNR loss

2.2.1. Описание поддиапазонного критерия разборчивости

2.2.2. Построение профиля изменения разборчивости

2.2.3. Анализ работы метода шумоподавления на основе 55 поддиапазонной модификации критерия SNR loss

2.3. Создание неэталонного критерия разборчивости речи

2.4. Неэталонная поддиапазонная оценка разборчивости речевых 73 сигналов

2.5. Краткие выводы

ГЛАВА 3. РАЗРАБОТКА И АНАЛИЗ РАБОТЫ МЕТОДА 82 ШУМОПОДАВЛЕНИЯ

3.1. Описание предлагаемого метода шумоподавления

3.2. Выбор метрики в алгоритме к-средних

3.3. Верхняя граница улучшения качества и разборчивости

3.4. Исследование метода и сравнение его с другими

3.5. Метод постобработки в спектральной области

3.5.1. Описание предлагаемого метода постобработки

3.5.2. Анализ работы метода постобработки

3.6. Краткие выводы

Введение 2012 год, диссертация по радиотехнике и связи, Топников, Артем Игоревич

Актуальность темы

Речь - основной переносчик информации при естественном общении между людьми. Велика удельная доля речевой информации и в общем объеме информации, передаваемой радиотехническими системами. При распространении в воздушном пространстве, а также передаче по радиотехническим системам связи, речевые сигналы подвергаются искажениям. Сильные искажения способны не только ухудшить эстетическое качество воспринимаемых сигналов, но и привести к потере части информации, то есть снизить разборчивость. Существует значительное отличие между качеством и разборчивостью речевого сигнала, что приводит к необходимости отдельной оценки этих характеристик речевого сигнала.

В настоящее время известно множество методов подавления шума в речевых сигналах. Выбор конкретного метода связан с особенностями воздействующего на речевой сигнал шума, наиболее вероятного диапазона отношений сигнал/шум (ОСШ) и множеством другим факторов, включая аппаратную базу, используемую для реализации метода шумоподавления.

Вместе с тем, по-прежнему наблюдается потребность в создании новых и в усовершенствовании существующих методов шумоподавления. В частности, некоторые методы шумоподавления, улучшая качество зашумленного речевого сигнала, могут снижать его качество. Также для некоторых методов характерны артефакты типа "музыкальный шум", осложняющие восприятие информации, содержащейся в речевом сигнале. Другой важный вопрос, определяющий направление развития методов шумоподавления, — работа с сильно зашумленными речевыми сигналами при ОСШ ниже 0 дБ. В подобных случаях особо важным является повышение разборчивости.

С решением задачи повышения качества и разборчивости непосредственно связана необходимость в достоверных методах оценки этих характеристик речевого сигнала. Особой актуальностью обладают работы, направленные на разработку неэталонных критериев. Использование таких критериев в радиотехнических системах позволяет производить автоматизированный контроль разборчивости речевых сигналах, а также осуществлять выбор методов обработки сигналов, наиболее подходящих в каждом конкретном случае.

Таким образом, проблема разработки новых неэталонных критериев разборчивости и методов подавления шума в речевых сигналах является актуальной.

Основополагающие работы по обработке и анализу речевых сигналов связаны с именами таких известных зарубежных ученых, как Рабинер Л., Шафер Р., Янг Б., Мермелштейн П., Левинсон С. и др. Большой вклад в развитие методов анализа речевых сигналов внесли работы зарубежных и отечественных ученых Парзена Э., Розепблатта М., Римского-Корсакова A.B., Сапожкова М.А., Михайлова В.Г., Рихтера С.Г., Тартаковского Г.П., Санникова В.Г. и др.

В области шумоподавления в речевых сигналах наибольшую известность получили работы ученых Болла С., Лима Дж., Ефрайма Я., Малла Д., Скалара П., Коэна И., Лойзо Ф., Прохорова Ю.Н. и др.

Реализация любого из методов подавления шума в речевых сигналах, а также усовершенствование алгоритмов, реализующих эти методы, невозможны без использования общей теории цифровой обработки сигналов. Значительный вклад в разработку теории и алгоритмов цифровой обработки сигналов внесли зарубежные ученые: Найквист X., Гоулд Б., Рейдер Ч., Рабинер Л., Оппенгейм А., Шафер Р. и др. Большое значение имели также работы отечественных ученых: Котельникова В.А., Цыпкина Я.З., Трахтмана A.M., Ланнэ A.A., Карташева В.Г., Гольденберга Л.М., Матюшкина Б.Д., Поляка М.Н., Витязева В.В., Брюханова Ю.А.

Цель исследования

Целью диссертационной работы является создание и исследование методов анализа и обработки зашумленных речевых сигналов.

Для достижения указанной цели в диссертационной работе поставлены и решены следующие задачи:

- модификация объективного критерия разборчивости SNR loss для поддиапазонного анализа разборчивости речевых сигналов;

- разработка неэталонной версии критерия объективной оценки разборчивости SNR loss, а также его поддиапазонной модификации;

- создание эффективного метода поиска похожих фрагментов речевого сигнала, применимого для использования в составе метода нелокального усреднения во временной области;

- модификация метода нелокального усреднения на основе предложенного метода поиска похожих фрагментов и сравнение результатов работы предложенного метода шумоподавления с другими на основе объективных критериев качества и разборчивости речевых сигналов;

- создание метода постобработки зашумленных речевых сигналов, обработанных с использованием метода нелокального усреднения во временной области.

Достоверность полученных научных результатов

Достоверность полученных научных результатов обусловлена применением адекватного математического аппарата, подтверждается их согласованностью с результатами проведенного компьютерного моделирования и сравнением ряда результатов с научными данными, известными из литературы.

Научная новизна

Научная новизна представляемых результатов состоит в следующем:

- предложен подход к поддиапазонной оценке разборчивости речевых сигналов, основанный на модификации объективного критерия разборчивости SNR loss;

- разработан метод неэталонной оценки значений объективного критерия разборчивости SNR loss, а также его поддиапазонной модификации для зашумленных речевых сигналов;

- предложен подход к поиску похожих фрагментов речевых сигналов, основанный на применении алгоритма кластеризации к-средних;

- на основе предложенного метода поиска похожих фрагментов модифицирован метод подавления шума в речевых сигналах, основанный на принципе нелокального усреднения во временной области.

Практическая значимость

- Предложенные модификации объективного критерия разборчивости SNR loss позволяют проводить поддиапазонный анализ разборчивости речевых сигналов для анализа и усовершенствования методов подавления шума в речевых сигналах.

- Предложенный метод неэталонной оценки критерия SNR loss и его поддиапазонных модификаций может использоваться для контроля разборчивости речи в радиотехнических системах связи и автоматического выбора методов шумоподавления.

- Предложенный метод неэталонной оценки критерия SNR loss допускает относительно простую аппаратную реализацию, в частности, на цифровых сигнальных процессорах.

- Разработанный метод подавления шума, основанный на поиске похожих фрагментов с применением алгоритма кластеризации к-средних и принципа нелокального усреднения сигнала во временной области, позволяет значительно улучшать качество и разборчивость зашумленных речевых сигналов при отрицательных значениях отношения сигнал/шум. - Предложенный метод постобработки прост в реализации и позволяет добиться дополнительного улучшения качества и разборчивости зашумленных сигналов, обработанных при помощи метода шумоподавления, основанного на нелокальном усреднении сигнала во временной области.

Основные научные положения и результаты, выносимые на защиту

1. Объективный метод поддиапазонной оценки разборчивости речевых сигналов, основанный на модифицированной версии критерия SNR loss.

2. Метод неэталонной оценки значений объективного критерия разборчивости SNR loss, а также значений его поддиапазонной версии.

3. Метод подавления шума в речевых сигналах, основанный на нелокальном усреднении во временной области и поиске похожих фрагментов с применением алгоритма к-средних.

4. Результаты исследования предложенного метода шумоподавления и его сравнения с двумя другими методами.

Апробация

Результаты работы докладывались и обсуждались на: 11-ой, 12-ой, 13-ой, 14-ой Международной конференции "Цифровая обработка сигналов и ее применение", М., 2009, 2010, 2011, 2012. XVIII Международной научно-технической конференции студентов и аспирантов "Радиоэлектроника, электротехника и энергетика", М., 2012. 9-ой Международной научно-технической конференции "Перспективные технологии в средствах передачи информации", Владимир-Суздаль, 2011. Международной научно-практической конференции студентов и молодых ученых "Молодежь и наука: модернизация и инновационное развитие страны", Пенза, 2011.

II-ой Международной молодежной научно-практической конференции "Научно-практические исследования и проблемы современной молодежи", Елабуга, 2010.

XIII Всероссийской научно-практической конференции "Проблемы развития средств ПВО в современных условиях", Ярославль, 2012. 2-ой Всероссийской конференции "Радиоэлектронные средства передачи и приема сигналов и визуализации информации - РЭС-2012", М.-Таганрог, 2012.

8-й Всероссийской научно-технической конференции "Информационные технологии в электротехнике и электроэнергетике", Чебоксары, 2012.

IX Всероссийской научно-технической конференции "Динамика нелинейных дискретных электротехнических и электронных систем", Чебоксары, 2011.

65-ой Научной сессии, посвященной Дню радио, РНТОРЭС им. A.C. Попова, М., 2010.

16-ой Всероссийской научно-технической конференции "Новые информационные технологии в научных исследованиях и в образовании", Рязань, 2009.

Научно-технической конференции "Проблемы автоматизации и управления в технических системах", Пенза, 2008.

62-ой, 63-ой, 64-ой Региональной научно-технической конференции студентов, магистрантов и аспирантов высших учебных заведения с международным участием "Молодежь. Наука. Инновации", Ярославль, 2009, 2010, 2011.

9-ой Областной научно-практической конференции студентов, аспирантов и молодых ученых вузов "Ярославский край. Наше общество в третьем тысячелетии", Ярославль, 2008.

Структура и объем работы

Диссертация состоит из введения, трех глав, заключения, списка литературы и приложения. Содержание работы изложено на 131 странице. Список литературы включает 120 наименований. В работе представлен 41 рисунок и 22 таблицы.

Заключение диссертация на тему "Оценка разборчивости и обработка речевых сигналов в задаче шумоподавления"

Заключение

На основании проведенных исследований в области цифровой обработки речевых сигналов в работе получены следующие результаты:

1. Предложена модификация критерия SNR loss, позволяющая осуществлять поддиапазонную оценку разборчивости речевых сигналов. Данная модификация позволяет более детально исследовать влияние шумов и других искажающих факторов на разборчивость речи, а также производить более детальный анализ методов шумоподавления. Приведен пример анализа метода шумоподавления с использованием предлагаемого подхода.

2. Разработан и реализован в среде Matlab неэталонный метод оценки значений критерия разборчивости SNR loss. В случае воздействия на речевой сигнал АБГШ средняя величина абсолютной ошибки при оценке значений SNRloss составляет примерно 0,008. Средняя величина относительной ошибки составляет примерно 1,05%, а ее максимальное значение равно 4,72%.

3. Для осуществления неэталонной оценки значений SNRloss в случае воздействия на речевой сигнал шумов различных типов предложено и исследовано три подхода (метода выбора коэффициентов регрессии). Один из подходов позволяет добиться более высокой точности, но он не применим в случаях, когда шумовые условия заранее неизвестны или тип шума может меняться с течением времени. В указанных случаях возможно применение двух других подходов, обладающих несколько меньшей точностью, но большей универсальностью. Величина средней относительной ошибки при оценке значений SNRloss для речевых сигналов, зашумленных произвольным типом шума, варьируется в пределах от 1,05% до 3,55% , в зависимости от выбранного подхода и типа шума.

4. Предложена и исследована неэталонная версия поддиапазонного критерия разборчивости. Исследовано два подхода к оценке коэффициентов уравнения регрессии, необходимых для получения значений оценки. Первый подход обладает большей универсальностью, второй - позволяет достичь более высокой точности. Например, для 2-поддиапазонной версии метода величина относительной ошибки изменяется в пределах от 1% до 6,34% (при использовании первого подхода) и от 0,98% до 2,5% (при использовании второго подхода).

5. Предложен новый подход к поиску похожих фрагментов зашумленного речевого сигнала, основанный па алгоритме кластеризации к-средних. Сочетание данного подхода с принципом нелокального усреднения во временной области позволяет создать новый метод шумоподавления. Предложенный метод реализован в среде Matlab.

6. На основе субъективных тестов установлено, что при обработке зашумленных сигналов с использованием предложенного метода имеет место значительное улучшение качества сигнала. При этом не возникает нежелательных артефактов типа "музыкальный шум", характерных для ряда методов, осуществляющих шумоподавление в спектральной области.

7. С использованием объективных критериев качества и разборчивости установлено, что предложенный метод шумоподавления способствует улучшению качества и разборчивости зашумленных сигналов в широком диапазоне ОСШ (исследования производились в диапазоне от -10 до 10 дБ). При обработке сигнала, зашумленного аддитивным белым гауссовским шумом, улучшение качества по шкале MOS, оцененное при помощи критерия PESQ, составляет от 0,23 (при ОСШ=-Ю дБ) до 0,77 (при ОСШ=5 дБ). Предложенный метод демонстрирует выигрыш по критерию PESQ и при сравнении с другими методами шумоподавления: на 0,06-0,17 единиц шкалы MOS по сравнению с более ранней версией метода на основе нелокального усреднения и 0,01-0,17 единиц по сравнению с методом Скалара.

8. Анализ и сравнение методов на основе других субъективных критериев позволяет сделать вывод, что предложенный метод особенно эффективен при отрицательных значениях ОСШ. Недостатком метода является то, что при относительно высоких значениях ОСШ (в частности, при ОСШ=Ю дБ) предложенный метод уступает по ряду критериев двум другим, участвующим в сравнении. Для минимизации этого недостатка предложен простой метод постобработки сигнала, основанный на пороговой обработке в спектральной области. Применение постобработки позволяет добиться улучшения разборчивости примерно на 0,023 единицы по критерию SNR loss, при этом по остальным объективным критериям также наблюдается улучшение качества и разборчивости обрабатываемых речевых сигналов.

Библиография Топников, Артем Игоревич, диссертация по теме Радиотехника, в том числе системы и устройства телевидения

1. Benesty J., Sondhi M., Huang Y. Springer Handbook of Speech Processing Springer. 2007. 1176 p.

2. Delcroix M. Dereverberation and Denoising Using Multichannel Linear Prediction // IEEE Transactions on Audio, Speech, and Language Processing. V. 15, Is. 6. 2007. pp. 1791-1801.

3. Сапожков M.A. Речевой сигнал в кибернетике и связи. — М.: Связьиздат, 1963.452 с.

4. Cherry С. Some experiments on the recognition of speech, with one and with two ears // The Journal of the Acoustical Society of America, V. 25, N. 5. 1953. pp. 975-979.

5. Litvin Y., Cohen I., Chazan D. Monaural Speech/Music Source Separation Using Discrete Energy Separation Algorithm // Signal Processing, V. 90, Is. 12, 2010. pp. 3147-3163.

6. Сапожков M.A., Михайлов В.Г. Вокодерная связь. М.: Радио связь, 1983. 248 с.

7. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов / Пер. с англ. М.: Радио и связь, 1981. 495 с.

8. Фланаган Дж.Л. Анализ, синтез и восприятие речи / Пер. с англ. М. : Связь, 1968. 397 с.

9. Акустика: Справочник / А.П. Ефимов, А.В. Никонов, М.А. Сапожков, В.И. Шоров; Под ред. М.А. Сапожкова. 2-е изд., перераб. и доп. - М.: Радио связь, 1989. 336 с.

10. Ахмад Х.М., Жирков В.Ф. Введение в цифровую обработку речевых сигналов: Учеб. пособие. Владимир: ВлГУ, 2008. 192 с.

11. Физиология речи. Восприятие речи человеком. / Чистович JI.A., Венцов А.В., Гранстрем М.П. и др. JL: Наука, 1976. 388 с.

12. Римский-Корсаков А.В. Электроакустика. -М.: Связь, 1973. 272 с.

13. Yilmaz О., Rickard S. Blind separation of speech mixtures via time-frequency masking // IEEE Transactions on Signal Processing, V. 52, N. 7, 2004. pp.1830-1846

14. Jourjine A., Rickard S., Yilmaz O. Blind Separation of Disjoint Orthogonal Signals Demixing N Sources from 2 Mixtures // IEEE Conference on Acoustics, Speech, and Signal Processing (ICASSP2000). V. 5, 2000. pp. 2985-2988

15. Schroeder M.R. U.S. Patent No. 3180936, filed Dec. 1, 1960, issued Apr. 27, 1965.

16. Schroeder M.R. U.S. Patent No. 3403224, filed May 28, 1965, issued Sept. 24, 1968.

17. Boll S.F. Suppression of acoustic noise in speech using spectral subtraction // IEEE Trans. Acoust. Speech Signal Process. ASSP-27, 1979. pp. 113-120.

18. Lim J.S., Oppenheim A.V. Enhancement and bandwidth compression of noisy speech // Proceedings of the IEEE. V. 67, 1979. pp. 1586-1604.

19. Ephraim Y., Van Trees H.L. A signal subspace approach for speech enhancement // IEEE Trans. Speech Audio Process. V. 3, 1995. pp. 251-266.

20. Dendrinos M., Bakamidis S., Garayannis G. Speech enhancement from noise: A regenerative approach // Speech Commun. V. 10, 1991. pp. 45-57.

21. Jensen S.H., Hansen P.C., Hansen S.D., Sorensen J.A. Reduction of broadband noise in speech by truncated QSVD // IEEE Trans. Speech Audio Process. V. 3, 1995. pp. 439^148.

22. Vary P. Noise suppression by spectral magnitude estimation-mechanism and theoretical limits // Signal Process. V. 8, 1985. pp. 387-400.

23. Etter W., Moschytz G.S. Noise reduction by noiseadaptive spectral magnitude expansion // J. Audio Eng. Soc. V. 42, 1994. 341-349.

24. Martin R. Noise power spectral density estimation based on optimal smoothing and minimum statistics // IEEE Trans. Speech Audio Process. V. 9, 2001. pp. 504-512

25. Lev-Ari H., Ephraim Y. Extension of the signal subspace speech enhancement approach to colored noise // IEEE Trans. Speech Audio Process. V. 10, 2003. pp. 104-106.

26. Rezayee A., Gazor S. An adaptive KLT approach for speech enhancement // IEEE Trans. Speech Audio Process. V. 9, 2001. pp. 87-95.

27. Mittal U., Phamdo N. Signal/noise KLT based approach for enhancing speech degraded by colored noise // IEEE Trans. Speech Audio Process. V. 8,2000. pp. 159-167.

28. Chen J., Benesty J., Huang Y., Doclo S. New insights into the noise reduction Wiener filter // IEEE Trans. Speech Audio Process. V. 14, 2006. pp. 1218-1234.

29. Hu Y., Loizou P.C. A generalized subspace approach for enhancing spech corrupted by colored noise // IEEE Trans. Speech Audio Process. V. 11, 2003. 334-341.

30. Scalart P., Filho J.V. Speech enhancement based on a priori signal to noise estimation // IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP-96). V. 2, 1996. pp. 629-632.

31. Ephraim Y., Malah D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator // IEEE Trans. Acoust. Speech Signal Process. V. 32, 1984. pp.1109-1121.

32. Ephraim Y., Malah D. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator // IEEE Trans. Acoust. Speech Signal Process. ASSP-33, 1985. pp. 443-445.

33. McAulay R.J., Malpass M.L. Speech enhancement using a soft-decision noise suppression filter // IEEE Trans. Acoust. Speech Signal Process. V. 28, 1980. pp. 137-145.

34. Wolfe P.J., Godsill S.J. Simple alternatives to the Ephraim and Malah suppression rule for speech ehancemnet // Proc. IEEE ICASSP, 2001. pp. 496-499.

35. Paliwal K.K., Basu A. A speech enhancement method based on Kalman filtering // Proc. IEEE ICASSP 1987. pp. 177-180.

36. Gibson J.D., Koo B., Gray S.D. Filtering of colored noise for speech enhancement and coding // IEEE Trans. Signal Process. V. 39, 1991. pp. 1732-1742.

37. Gannot S., Burshtein D., Weinstein E. Iterative and sequential Kalman filter-based speech enhancement algorithms // IEEE Trans. Speech Audio Process. V. 6, 1998. pp. 373-385.

38. Ephraim Y., Malah D., Juang B.-H. On the application of hidden Markov models for enhancing noisy speech // IEEE Trans. Acoust. Speech Signal Process. V. 37, 1989. pp. 1846-1856.

39. Ephraim Y. A Bayesian estimation approach for speech enhancement using hidden Markov models // IEEE Trans. Signal Process. V. 40, 1992. pp. 725735.

40. Ephraim Y. Statstical-model-based speech enhancement systems // Proc. IEEE V. 80, 1992. pp. 1526-1555.

41. Szlam A. Non-local means for audio denoising // Recent UCLA computational and applied mathematics reports. 2008. 5 p.

42. Wang D. On ideal binary mask as the computational goal of auditory scene analysis // Speech Separation by Humans and Machines. 2005, pp. 181-197.

43. Hummersone C. Ideal binary mask ratio: a novel metric for assessing binary-mask-based sound source separation algorithms // IEEE Transactions on Audio, Speech, and Language Processing. V. 19,1. 7, 2011. pp. 2039-2045.

44. Li Y. On the optimality of ideal binary time-frequency masks // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2008). 2008. pp. 3501-3504.

45. Jiang Y. Performance analysis of ideal binary masks in speech enhancement // 4th International Congress on Image and Signal Processing (CISP). V.5, 2011. pp. 2422-2425.

46. Cappe O. Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor // IEEE Transactions on Speech and Audio Processing. V.2, Is. 2, 1994. pp. 345-349.

47. Yang J. Frequency domain noise suppression approaches in mobile telephone systems // IEEE International Conference on Acoustics, Speech, and Signal Processing. ICASSP-93. V.2, 1993. pp. 363-366.

48. Brancaccio A., Pelaez C. Experimentes on noise reduction techniques with robust voice detector in car environment // Eurospeech (ISCA-1993). 1993. pp. 1259-1262.

49. Quackenbush S., Barnwell T., Clements M. Objective measures of speech quality. Prentice Hall, Englewood Cliffs. 1988. 377 p.

50. Subjective performance assessment of telephone band and wide-band digital codecs. ITU-T Recommendation p.830. 1996.

51. Recommendation BS. 562-3. Subjective assessment of sound quality. International Telecommunication Union Radiocommunication Sector. 1990.

52. IEEE Recommended practice for speech quality measurements // IEEE Trans. Audio and Electroacoustics. AU-17(3), 1969. pp. 225-246.

53. Coleman A., Gleiss N., Usai P. A subjective testing methodology for evaluating medium rate codecs for digital mobile radio applications // Speech Communication V. 7. Is. 2, 1988 pp. 151-166.

54. Goodman D., Nash R. Subjective quality of the same speech transmission conditions in seven different countries // IEEE Trans. Communications. V. 30. Is. 4, 1982. pp. 642-654.

55. Hansen J., Pellom B. An effective quality evaluation protocol for speech enhancement algorithms // Proc. Inter. Conf. on Spoken Language Processing. V. 7, 1998. pp. 2819-2822.

56. Tribolet J., Noll P., McDermott B., Crochiere R.E. A study of complexity and quality of speech waveform coders // Proc. IEEE Int. Conf. Acoust. Speech, Signal Processing. 1978. pp. 586-590.

57. Kryter K. Methods for calculation and use of the articulation index // J. Acoust. Soc. Am. V. 34. Is. 11, 1962. pp. 1689-1697.

58. Klatt D. Prediction of perceived phonetic distance from critical band spectra // Proc. IEEE Int. Conf. Acoust. Speech, Signal Processing. V. 7, 1982. pp. 1278-1281.

59. Viswanathan R., Makhoul J., Russell W. Towards perceptually consistent measures of spectral distance // Proc. IEEE Int. Conf. Acoust, Speech, Signal Processing. V. 1, 1976. pp. 485-488.

60. Karjalainen M. Sound quality measurements of audio systems based on models of auditory perception // Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, V. 9, 1984. pp. 132-135.

61. Karjalainen M. A new auditory model for the evaluation of sound quality of audio system // Proc. IEEE Int. Conf. Acoust. Speech, Signal Processing. V. 10. 1985. pp. 608-611.

62. Wang S., Sekey A., Gersho A. An objective measure for predicting subjective quality of speech coders // IEEE J. on Select. Areas in Comm. V. 10. Is. 5. 1992. pp. 819-829.

63. Yang W., Benbouchta M., Yantorno R. Performance of the modified Bark spectral distortion as an objective speech quality measure // Proc. IEEE Int. Conf. Acoust. Speech, Signal Processing. V. 1, 1998. pp. 541-544.

64. Chen G., Parsa V. Loudness pattern-based speech quality evaluation using Bayesian modelling and Markov chain Monte Carlo methods // J. Acoust., Soc. Am. V. 121, Is. 2, 2007. pp. 77-83.

65. Pourmand N., Suelzle D., Parsa V., Hu Y., Loizou P. On the use of Bayesian modeling for predicting noise reduction performance // Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing (ICASSP 2009), 2009. pp. 3873-3876.

66. Moore B. An introduction to the psychology of hearing. 5th edn. London: Academic Press, 2003. 200 p.

67. Fletcher, H., Munson W. Loudness, its definition, measurement and calculation // J. Acoust. Soc. Am. V. 5, 1933. pp. 82-108.

68. Robinson D., Dadson R. A re-determination of the equal-loudness relations for pure tones // Brit. J. Appl. Phys. V. 7, 1956. pp. 166-181.

69. Novorita B. Incorporation of temporal masking effects into bark spectral distortion measure // Proc. IEEE Int. Conf. Acoust. Speech, Signal Processing, V. 2, 1999. pp. 665-668.

70. Yang W., Yantorno R. Improvement of MBSD by scaling noise masking threshold and correlation analysis with MOS difference instead of MOS // Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, V. 2, 1999. pp. 673-676.

71. Grundlehner В., Lecocq J., Balan R., Rosea J. Performance assessment method for speech enhancement systems // Proc. SPS-DARTS, 2005. 4 p.

72. Rix A., Hollier M. The perceptual analysis measurement for robust end-to-end speech quality assessment // Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing, V. 3, 2000. pp. 1515-1518.

73. Beerends J., Stemerdink J. A perceptual speech-quality measure based on a psychoacoustic sound representation // J. Audio Eng. Soc. V. 42. Is. 3. 1994. pp. 115-123.

74. Voran S. Objective estimation of perceived speech quality Part I: Development of the measuring normalizing block technique // IEEE Transactions on Speech and Audio Processing V. 7. Is. 4. 1999. pp. 371-382.

75. Perceptual evaluation of speech quality (PESQ) and objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs. ITU-T Recommendation p. 862. 2000.

76. Rix A., Beerends J., Hollier M., Hekstra A. Perceptual evaluation of speech quality (PESQ) A new method for speech quality assessment of telephone networks and codecs // Proc. IEEE Int. Conf. Acoust, Speech, Signal Processing, V. 2. 2001. pp. 749-752.

77. Hu Y., Loizou P. Evaluation of objective quality measures for speech enhancement // IEEE Transactions on Speech and Audio Processing. V. 16. Is. 1.2008. pp. 229-238.

78. Рихтер С.Г. Кодирование и передача речи в цифровых системах подвижной радиосвязи: Учеб. пособие для вузов. М.: Горячая линия -Телеком, 2010. 304 с.

79. Ma J., Loizou P. SNR loss: a new objective measure for predicting the intelligibility of noise-suppressed speech // Speech Communication. V. 53. Is. 3.2011. pp. 340-354.

80. Loizou P., Ma J. Extending the articulation index to account for non-linear distortions introduced by noise-suppression algorithms. // J. Acoust. Soc. Am. V. 130. Is. 2. 2011. pp. 986-995.

81. Савватин A.M., Новоселов C.A., Приоров A.JI. Применение банков фильтров для построения системы защищенной передачи речевой информации // Электросвязь. 2011. №9. С. 48-51.

82. Савватин А.И., Новоселов С.А., Приоров A.JI. Использование цифровых вейвлет-филтров в задаче построения защищенного канала передачи речевой информации // Проектирование и технология электронных средств. 2009. №2. С. 39^43.

83. Кремер Н.Ш. Теория вероятностей и математическая статистика: Учеб. пособие. 3-е изд., перераб. и доп. -М.: Юниги-Дана, 2010. 551 с.

84. Buades A., Coll В., Morel J.M. A review of image denoising algorithms, with a new one // Multiscale modeling and simulation. 2005. V. 4. pp. 490530.

85. Buades A., Coll В., Morel J.M. Nonlocal image and movie denoising // International journal of computer vision. 2008. V. 76, No. 2. pp. 123-139.

86. Katkovnik V., Foi A., Egiazarian K., Dabov K. From local kernel to nonlocal multiple-model image denoising // International journal of computer vision. 2010. V. 86, No. 8. pp. 1-32.

87. Ткаченко М.С., Лукин А.С. Многомасштабный метод спектрального вычитания для подавления шумов в аудиосигналах // Доклады 12-ймеждународной конференции и выставки «Цифровая обработка сигналов и ее применение» (DSPA-2010). Москва, 2010. Т. 1. С. 223226.

88. Haitian X., Zheng-Hua Т., Dalsgaard P., Lindberg B. Robust speech recognition by nonlocal means denoising processing // IEEE signal processing letters. 2008. V. 15. pp. 701-704.

89. Li X. Speech recognition based on k-means clustering and neural network ensembles // Seventh International Conference on Natural Computation (ICNC). V. 2. 2011. pp. 614-617.

90. Guo W. A blind separation algorithm of speech mixtures base on time-frequency masking // 2nd International Conference on Consumer Electronics, Communications and Networks (CECNet). 2012. pp. 2258-2261.

91. Sun J. A polynomial segment model based statistical parametric speech synthesis system // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2009). 2009. pp. 4021-4024.

92. Wang F. An improved k-means clustering algorithm and application to combined multi-codebook/MLP neural network speech recognition // Canadian Conference on Electrical and Computer Engineering. V. 2. 1995. pp. 999-1002.

93. Nahamoo D. Clustering acoustic prototypes with self organizing distortion measures // IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP '86). V. 1 1. 1986. pp. 753-756.

94. Nadas A. Automatic speech recognition via pseudo-independent marginal mixtures // IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP'87). V. 12. 1987. pp. 1285-1287.

95. Oh B.T., Wu P.-H., Xu D., Kuo C. Improved image denoising with adaptive nonlocal means (ANL-means) algorithm // IEEE Transactions on Consumer Electronics. V. 56. Is. 4. 2010. pp. 2623-2630.

96. Список опубликованных работ по теме диссертации

97. Новоселов С.А., Топников А.И. К вопросу о методах измерения взаимной информации // Сборник материалов 62-й региональной научно-технической конференции студентов, магистрантов и аспирантов "Молодежь. Наука. Инновации". Ярославль, 2009. С. 234.

98. Топников А.И., Новоселов С.А. Анализ независимых компонент в задаче разделения смесей речевых сигналов // Доклады 12-й международной конференции "Цифровая обработка сигналов и ее применение". Москва. 2010. С. 197-199

99. Топников А.И. Слепая декомпозиция звуковых сигналов на основе анализа независимых компонент // Труды 65-й Научной сессии, посвященной Дню радио. Москва, 2010. С. 205-207.

100. Топников А.И., Новоселов С.А. Оценка качества работы алгоритмов слепой декомпозиции сигналов // Труды II Международной молодежной научно-практической конференции. Т. 3. Елабуга, 2010. С. 110-114.

101. Топников А.И., Новоселов С.А. Выбор вида нелинейности в алгоритме FastICA // Сб. матер. 63-й региональной научно-технической конференции студентов, магистрантов и аспирантов "Молодежь. Наука. Инновации". Ярославль, 2010. С. 263.

102. Топников А.И., Скопинцев Я.М., Веселов И.А. Усовершенствование алгоритма слепого разделения недоопределенных смесей речевыхсигналов 11 Доклады 13-й международной конференции "Цифровая обработка сигналов и ее применение". М., 2011. Т. 1. С. 252-254.

103. Топников А.И. Практические аспекты слепого разделения недоопределенных смесей речевых сигналов // Материалы 9-ой международной научно-технической конференции "Перспективные технологии в средствах передачи информации". Владимир, 2011. Т. 2. С. 29-31.

104. Новоселов С.А., Топников А.И. Распознавание изолированных фонем на основе согласованных вей влет-фильтров // Труды научно-технической конференции "Проблемы автоматизации и управления в технических системах". Пенза. 2008. С. 333-336.

105. Топников А.И., Веселов И.А., Новоселов С.А. Детектор речевой активности на основе моделей гауссовских смесей // Матер. 8-й всерос. науч.-техн. конф. «Информационные технологии в электротехнике и электроэнергетике». Чебоксары, 2012. С. 214-215.

106. Новосёлов С.А., Топников А.И., Савватин А.И. Алгоритм шумоочистки речевых команд методом спектрального слежения // Доклады 13-й международной конференции "Цифровая обработка сигналов и ее применение". Москва, 2011. Т. 1. С. 224-226.

107. Новоселов С.А., Топников А.И., Савватин А.И., Приоров A.JI. Подавление шума в речевых сигналах на основе метода нелокального усреднения // Цифровая обработка сигналов. 2011. №4. С. 23-28.

108. Топников А.И., Веселов И.А., Новоселов С.А., Приоров A.JI. Выделение речевых команд на основе помехоустойчивых параметров и моделей гауссовых смесей // Проектирование и технология электронных средств. 2011. №4. С. 31-35.

109. Новоселов С.А., Топников А.И., Савватин А.И., Приоров A.JI. Научно-исследовательская программа для подавления шума в речевых сигналах YarSpeechCleaner // Свидетельство о регистрации в Реестре программ для ЭВМ №2011616845 от 31.10.2011.

110. Савватин А.И., Новоселов С.А., Топников А.И., Приоров A.JI. Научно-исследовательская программа для защищенной передачи речевых сигналов YarSecureVoice // Свидетельство о регистрации в Реестре программ для ЭВМ №2011619616 от 19.11.2011.