автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений

кандидата технических наук
Выборнов, Сергей Владимирович
город
Москва
год
2013
специальность ВАК РФ
05.13.17
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений»

Автореферат диссертации по теме "Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений"

На правах рукописи

А л

ВЫБОРНОВ Сергей Владимирович

Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений

05.13.17 - Теоретические основы информатики

Автореферат диссертации на соискание ученой степени кандидата технических наук

11 ДЕК 2013

Воронеж-2013

005543962

Работа выполнена на кафедре радиотехнических приборов Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Национальный исследовательский университет «МЭИ»

Научный руководитель Чернояров Олег Вячеславович, доктор физико-математических наук, доцент, профессор кафедры радиотехнических приборов ФГБОУ ВПО «Национальный исследовательский университет «МЭИ»

Официальные оппоненты: Парфенов Владимир Иванович, доктор физико-математических наук, профессор, профессор кафедры радиофизики ФГБОУ ВПО «Воронежский государственный университет»

Матвеев Борис Васильевич, кандидат технических наук, доцент, заведующий кафедрой радиотехники ФГБОУ ВПО «Воронежский государственный технический университет»

Ведущая организация: Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Нижегородский государственный университет им. Н.И. Лобачевского», г. Нижний Новгород

Защита состоится " декабря 2013 г. в [О час. 0О мин. на заседании диссертационного совета Д 212.038.24 при федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Воронежский государственный университет» по адресу: 394006, г. Воронеж, Университетская пл., д. 1, ауд. 226.

С диссертацией можно ознакомиться в Зональной научной библиотеке Воронежского государственного университета

Автореферат разослан "JL(, " ноября 2013 г.

Ученый секретарь диссертационного совета

И.Е. Воронина

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. По мере быстрого развития информационной техники одной из актуальных проблем является повышение эффективности алгоритмов обработки (передачи, фильтрации, распознавания) аудиоинформации. Несмотря на большой объем исследований в области обработки речи, выполненных как отечественными (Винцюк Т.К., Михайлов В.Г., Назаров М.В., Прохоров Ю.Н., Сапожков М.А., Сорокин В.Н. и др.), так и зарубежными (Гринберг Дж.Е., Грэй А.Х., Джуанг Б.Х., Елинек Ф., Левинсон С.Е., Маркел Дж., Оппенгейм A.B., Рабинер JI.P., Шафер Р.В., Фант Г., Фланаган Дж. и др.) учеными, известные на текущий момент алгоритмы анализа речевых сообщений, к сожалению, не свободны от недостатков. Так приводимые в литературе алгоритмы распознавания речи обладают существенным количеством ограничений, сравнительно большой вычислительной сложностью и, как следствие, плохой разборчивостью для схожих по звучанию изолированных слов и коротких речевых сегментов. В результате точность современных систем распознавания реально не превышает 98 %. Известные к настоящему моменту алгоритмы адаптивной линейной и нелинейной фильтрации, в частности, предполагающие наличие марковской модели сообщения, требуют достаточно большого объема априорной информации, либо существенно зависят от выбора начальных параметров модели и не всегда обеспечивают достаточно высокое выходное отношение сигнал/шум (ОСШ). Применение же рекомендуемых алгоритмов низкоскоростного кодирования речевых сообщений для передачи информации по каналам с высоким процентом ошибок зачастую приводит к существенному ухудшению узнаваемости диктора и фразеологической разборчивости речи. Таким образом, ряд вопросов по синтезу и практической реализации эффективных алгоритмов обработки речевых сообщений до сих пор остается открытым.

С учетом вышесказанного актуальность темы определяется необходимостью разработки новых подходов к синтезу эффективных, практически реализуемых алгоритмов обработки речевых сообщений применительно к задачам распознавания, фильтрации и кодирования в соответствии с требованиями, предъявляемыми к современным системам связи, контроля и управления, а также развития теоретического аппарата технической информатики в направлении более широкого использования модифицированного параметрического описания речевых сигналов и систем.

Цель и задачи диссертационной работы. Целью работы является разработка новых практически реализуемых в реальном масштабе времени алгоритмов обработки речевых сообщений применительно к задачам распознавания, фильтрации и кодирования речи, превосходящих по качеству функционирования имеющиеся аналоги. Для реализации этой цели в диссертационной работе необходимо было решить следующие основные задачи:

1. На основе современных подходов разработать эффективные дикторонезависи-мые и с настройкой на диктора алгоритмы распознавания изолированных слов.

2. Синтезировать эффективные алгоритмы фильтрации речевых сообщений, искаженных аддитивными флуктуационными помехами с неизвестными статистическими характеристиками.

3. Разработать эффективные алгоритмы низкоскоростного (до 375 бит/с и ниже) кодирования речевых сообщений. Найти структуру алгоритмов для каналов передачи информации с высоким (до 10 %) процентом ошибок.

4. Выполнить практическую реализацию предложенных алгоритмов обработки речевых сообщений на современной элементной базе.

Методы проведения исследования. При решении поставленных в диссертации задач использовались аналитические и вычислительные методы технической информатики и радиотехники, а именно:

а) аппарат теории вероятностей и математической статистики, марковских процессов и систем, теории распознавания образов;

б) методы цифровой обработки сигналов, в том числе теории линейных дискретных систем, спектрального анализа и его приложений, теории нейронных сетей;

в) современные численные методы и методы программирования, методы моделирования на ЭВМ и цифровых процессорах обработки сигналов (ЦПОС) информационных процессов и алгоритмов их анализа.

Достоверность основных положений и результатов подтверждается экспериментальными данными, полученными с помощью моделирования синтезированных алгоритмов на ЭВМ (в системе МАТЬАВ и на языке высокого уровня «СИ») и их практической реализации на базе ЦПОС семейства ТМ8320.

Научная новизна. В работе впервые получены или впервые подробно развиты следующие результаты.

1. Новые параметрические представления речевых сообщений, позволяющие обеспечить более высокую точность дикторонезависимого и с настройкой на диктора распознавания изолированных слов и упростить его техническую реализацию.

2. Усовершенствование методов выделения речевых сообщений при наличии аддитивных искажений с целью получения новых практически реализуемых в реальном масштабе времени алгоритмов фильтрации речевых сообщений на фоне помех, работоспособных в отличие от известных прототипов в более широком диапазоне входных ОСШ.

3. Комплексные модификации методов низкоскоростного кодирования аудиоинформации, в том числе, применительно к информационным каналам связи с высоким процентом ошибок, позволяющие снизить скорость передачи сообщений и улучшить качество синтезированной речи.

4. Полученные с помощью указанных методик новые более эффективные либо имеющие более простую структуру по сравнению с существующими аналогами алгоритмы обработки речевых сообщений, а именно:

- алгоритм распознавания изолированных слов на основе динамического искажения времени (ДИВ) с настройкой на диктора и объемом словаря до 500 единиц, обеспечивающий точность распознавания порядка 99 %;

- дикторонезависимый алгоритм распознавания изолированных слов на основе скрытых марковских моделей (СММ) с объемом словаря до 500 единиц, обеспечивающий точность более 98 %;

- дикторонезависимый алгоритм распознавания изолированных слов на основе однослойной нейронной сети с объемом словаря до 500 единиц, обеспечивающий точность распознавания более 98 %;

- дикторонезависимый алгоритм распознавания изолированных слов на основе ра-диально-базисной нейронной сети встречного распространения с объемом словаря до 1000 единиц, обеспечивающий точность распознавания более 98 %;

- алгоритм фильтрации речевых сообщений на фоне аддитивных квазистационарных помех с неизвестными статистическими характеристиками;

- алгоритмы низкоскоростной (до 375 бит/с) передачи речевых сообщений на основе метода линейного предсказания со смешанным возбуждением и Фурье-кодирования, в том числе для каналов с высоким (до 10 %) процентом ошибок,

а также возможности практической реализации этих алгоритмов.

5. Развитие методов моделирования на ЭВМ и ЦПОС алгоритмов обработки речевых сообщений для различных информационных и радиотехнических приложений.

Практическая ценность результатов работы состоит в том, что они позволяют внедрять в разработки современных информационных систем новые эффективные практически реализуемые алгоритмы обработки (распознавания, фильтрации, кодирования) речевых сообщений. Найденные в работе характеристики функционирования предложенных алгоритмов позволяют сделать обоснованный выбор между этими и другими алгоритмами в зависимости от имеющейся априорной информации и в соответствии с требованиями, предъявляемыми к качеству алгоритма обработки и к степени простоты его аппаратурной реализации. Результаты работы могут найти практическое применение при проектировании

- автоматических систем с голосовым управлением;

- перспективных систем распознавания речевых сигналов,

- цифровых систем передачи речевых сообщений промышленного и военного назначения,

- систем аппаратурного анализа случайных процессов.

Внедрение научных результатов. Полученные в диссертационной работе результаты использовались при выполнении грантов Министерства образования и науки РФ (Соглашения 14.В37.21.2015, 14.В37.21.2032, 14.В37.21.2102), а также внедрены в ЗАО "НПО СПЭЛТ" (г. Москва) и ЗАО "Специальные системы" (г. Москва), что подтверждается соответствующими актами.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на

1. LX и LXIII Научной сессии, посвященной дню радио, Москва, 2005 г., 2008 г.

2. 1-й Московской отраслевой научно-технической конференции, Москва, 2007 г.

3. 5-й Международной конференции "Телевидение: передача и обработка изображений", С.-Петербург, 2007 г.

4. 10-й Международной выставке и конференции "Цифровая обработка сигналов и ее применение", Москва, 2008 г.

5. Международной научно-технической конференции "Фундаментальные проблемы радиоэлектронного приборостроения", Москва, 2011 г.

Публикации. По теме диссертации опубликованы работы [1-11].

Основные результаты и положения, выносимые на защиту:

- способы описания информационных сигналов в виде наборов оптимизированных векторов параметров для синтеза эффективных алгоритмов распознавания речевых сообщений;

- способы построения эффективных систем распознавания речевых сообщений;

- адаптивные методы выделения речевых сообщений на фоне адаптивных квазистационарных помех;

- методы низкоскоростного кодирования речевых сообщений, в том числе для каналов с высоким процентом ошибок;

- новые алгоритмы распознавания, фильтрации и кодирования речевых сообщений;

- результаты программного и аппаратного моделирования алгоритмов распознавания, фильтрации и кодирования речевых сообщений.

Объем и структура диссертационной работы. Диссертация состоит из введения, 4 разделов, заключения, 2 приложений, списка литературы, состоящего из 149 наименований. Объем диссертации составляет 168 страниц, включая 140 страниц основного текста, 15 страниц приложений, 13 страниц списка литературы.

Во введении обсуждается актуальность темы исследований, приведен краткий обзор известных результатов по теме диссертации. Сформулирована цель работы и в аннотированном виде изложены основные результаты работы.

В первом разделе диссертации рассмотрены особенности формирования и структуры первичного речевого сигнала. Показано, что речевое сообщение представляет собой сложный многочастотный квазистационарный случайный процесс, требующий должной обработки для выделения информационной части. Приведены основные методы цифровой обработки речевых сообщений и этапы построения систем распознавания речи. Предложена модифицированная структура параметрического описания речевых реализаций в терминах векторов параметров, формируемых на основе покадрового анализа с перекрытием и гомоморфной обработки. Исследованы способы сравнения двух произвольных речевых сообщений с использованием алгоритма ДИВ. Путем сопоставления характеристик различных алгоритмов ДИВ меяоду собой найдена структура алгоритма распознавания изолированных слов с настройкой на диктора, включающая в себя следующие этапы.

1. Ввод речевого сообщения (слова). Для ввода слова отводится интервал времени Т равный 2 сек. В результате число отсчетов входного сигнала при частоте дискретизации ^ =8 кГц будет составлять Ь = Т-Г(1 =16000 выборок.

2. Удаление постоянной составляющей. Для снижения вычислительных затрат при реализации процедур формирования вектора параметров вводимого слова исходное продискретизированное речевое сообщение ^ , 1 =0,Ь — 1 } центрируется путем вычитания из величины каждого отсчета среднего значения Мб = . Отсчеты центрированного речевого сообщения 5(1) могут быть найдены как

СОДЕРЖАНИЕ РАБОТЫ

3. Определение начала и конца слова. Начало и конец вводимого слова определялись на основе покадрового анализа с перекрытием. Длительность кадра выбиралась равной Tf = 20 мсек (что соответствует D = Tf • fd = 160 выборкам), а длительность окна

- Tw = 30 мсек (что соответствует М = Tw • fd = 240 выборкам). Общее число сегментов информационного сообщения в этом случае равнялось 1 = 99 , где {•}

— целая часть числа. В качестве критерия определения начального и конечного сегментов вводимого слова использовались две характеристики: посегментные энергия информационного сообщения Е(п) и число переходов через нуль Z(n), которые рассчитывались как

М-1 о , М-1 о

Е(п) = У s(m + nD) , Z(n) =-У | sgn[s(m + nD)] - sgn[s(m + nD -1)] |.

2M m=l

Здесь sgn(x) = l при x>0 и sgn(x) = -l при x<0.

Полагалось, что первые 120 мсек или 960 выборок (что соответствует длине 4 неперекрывающихся сегментов) входной реализации не содержат речевого сообщения и пригодны для оцеики энергии и числа переходов через нуль фонового шума. Тогда средняя энергия шума En и число переходов через пуль Zn в сегменте могут быть найдены как

_ i 959 „ _ 1 959

Еп = J I s(02 . Zn = — £ I sgn[s(i)] - sgn[s(i -1)11.

Для определения начала и конца слова, начиная с 7 сегмента, производится сравнение средней энергии шума En с энергией текущего сегмента Е(п), п = 7,8,9,... до тех пор, пока не будет выполняться условие

Е(п) > 6 ■ Ёп, (1)

определяющее гарантированное присутствие речевого сообщения в данном сегменте. Номер сегмента, начиная с которого неравенство (1) удовлетворяется, обозначим как nmin. Далее, величина nmin декрементируется до тех пор, не начнет выполняться условие

E(nmin)<3-En,

говорящее о том, что в сегментах с меньшими номерами речевое сообщение может отсутствовать. Получаемую в результате этих операций величину nmm будем считать предварительной оценкой номера сегмента, определяющего начало слова. Аналогичным образом определяем предварительную оценку номера конечного сегмента слова n = nmax. Далее, используя параметры Z(n) и Zn, оценки nmin и nmax уточняются согласно методике, подробно изложенной в известной литературе (JI.P. Рабинер, У Вэнь-цань и др.).

4. Предыскажения информационного сообщения. Для выравнивания спектра речевое сообщение обрабатывается цифровым фильтром первого порядка. Математически эта операция выглядит следующим образом:

s(i) = s(i)-«s(i-l), i = (nmin-l)D,...,(nmax-l)D + M-l. (2)

Коэффициент а в (2) полагался равным 0,95.

5. Сегментация информационного сообщения. Отрезки из М последовательных отсчетов предыскаженного речевого сообщения используются как отдельные сегменты; m-ый отсчет сигнала в n-ом сегменте sn(m) может быть определен как

s„(m)=s(m + (n-l)D), n = nmin,nmax, m = 0,M-l.

6. Взвешивание сегментов. Взвешивание сегментов осуществлялось по правилу

(m) = w(m) s п (ш), 0 < т < М-1, 0<n<N-l. В качестве взвешивающей функции использовалось окно Хемминга w(m) = 0,54 - 0,46cos[2ran/(M -1)].

7. Автокорреляционный анализ. Для каждого взвешенного множества отсчетов речевого сообщения ?п(т) вычисляется (p + l) значение автокорреляционной функции Rn (к), где р — желаемый порядок анализа линейного предсказания:

М-т-1

R„W= t, + 0<k<p.

т=0

В рассматриваемом алгоритме использовалось р = 14.

8. КЛП/кепстральнын анализ. С помощью рекурсивного алгоритма Дарбина для каждого сегмента по соответствующему автокорреляционному вектору Rn(к) рассчитывается вектор коэффициентов линейного предсказания (КЛП) an(k), 1 < к < р, на основе которого затем находится вектор кепстральных коэффициентов сп (/), 1 < / < Q:

cn(0) = 0, cn(l) = -an(l), с„ (/) = -ап (/) - ^ (l - k//) a n (к) с n (/ - к), 1</<р,

k=l

Сл (/) = -Z (1 - k/0a„ (k) с„ (/ - k), /> р. k=l

Число кепстральных коэффициентов Q принималось равньш 14.

9. Лифтрация кепстра. Лифтрация кепстра осуществлялась по формулам вида

с„(0 = сп(/К(/), wc(/) = l + (Q/2)sin(re//Q), 1</<Q.

10. Дельта-кепстр и дельта-дельта кепстр. Первая (дельта-кепстр) Дсп (/) и вторая (дельта-дельта кепстр) Д2с„(/) производные по времени от последовательности взвешенных кепстральных векторов сп(/) рассчитьтаются согласно следующему правилу

численного дифференцирования

К. 1С

Дс„(/)= S kcn+k(/), А2Сп(/) = £кДсп+1с(/),

к=-К к=-К

где К = 2.

11. Формирование последовательности векторов параметров. Оптимизированный вектор параметров х(п), используемый для описания n-го сегмента слова, составляется как

х(п) = | YzZ(4 г ,С„ (/), у2 Дсп (/Хгз Д2с„ (/) |

и включает в себя 43 компоненты. Весовые коэффициенты у2, у(, у2, Уз определялись по набранной статистике (347 женских и 548 мужских голосов) с помощью адаптивного подхода. В результате были получены следующие значения:

у, =10, у,=1, у2 =0,3, уз =0,05.

Формируемая из векторов х(п), п = птт'птах последовательность X = | х(пт,п),х(пт;п+1),...,х(птах)|| будет представлять собой искомую параметрическую модель обрабатываемого слова. На основе предложенной параметрической модели речевых сообщений программно (с помощью языка программирования «СИ») и аппарат-но (на базе ЦПОС серии ТМБ320) был реализован алгоритм распознавания изолированных слов с настройкой на диктора. Для сравнения распознаваемого и имеющихся в базе эталонных слов (произнесенных по одному разу одним и тем же диктором) использовался одношаговый симметричный алгоритм ДИВ. Тестирование предложенного алгоритма проводилось для набора слов, состоящего из 100 фамилий, в том числе весьма схожих по звучанию, в два этапа: 1) на основе тестовой базы, состоящей из 100000 произношений одним и тем же диктором слов словаря по 1000 произношений каждого слова; 2) на основе тестовой базы из 20000 произношений слов словаря разными дикторами (37 женщинами и 63 мужчинами) по два произношения каждого слова. Результаты тестирования показали, что синтезированный алгоритм распознавания обладает средней точностью 98,89%.

Для синтеза дикторонезависимого алгоритма распознавания изолированных слов во втором разделе диссертации рассмотрен подход, основанный на представлении речевого сигнала в виде лево-правой СММ без скачков с числом состояний, равным 10 (рис. 1). Здесь ац, ¡,] = 1,10 — вероятности перехода между состояниями модели.

а11 а22 аЗЗ а44 а55 абб а77 а88 а99 а1010

Рисунок 1 - Лево-правая скрытая марковская модель без скачков с 10 состояниями

Структурная схема системы распознавания показана на рис. 2. Здесь в блоках предобработки и разбиения на фреймы и анализа линейного предсказания и образования кепстров выполняются операции, аналогичные описанным выше в системе распознавания на основе ДИВ. В качестве набора параметров каждого сегмента речевого слова используется набор из 16 кепстральных коэффициентов. Блок векторного квантования преобразует входную последовательность векторов из кепстральных коэффициентов в последовательность символов наблюдений. Алгоритм оценки Витерби определяет поочередно вероятность появления данной последовательности наблюдений по каждой эталонной скрытой марковской модели в эталонной базе, которые были занесены в память. Блок принятия решений выбирает слово, модель которого имеет наибольшую вероятность. Указанное слово является выходом системы распознавания.

Рисунок 2 - Стру юурная схема алгоритма распознавания изолированных слов на основе скрытых марковских моделей

Описанный дикторонезависимый алгоритм был реализован программно (на языке высокого уровня «СИ») и аппаратно (на базе ЦПОС серии TMS320). Результаты тестирования на эталонной базе, включающей в себя набор из 100 фамилий, в том числе весьма схожих по звучанию, показали, что синтезированный алгоритм распознавания обладает средней точностью более 98,5 %. Это позволяет сделать вывод о работоспособности и эффективности предложенного алгоритма распознавания изолированных слов, целесообразности использования его на практике, а также возможности его дальнейшей модификации для построения систем распознавания слитной речи.

В третьем разделе диссертации исследованы альтернативные эффективные подходы к синтезу дикторонезависимых алгоритмов распознавания речи на основе нейросете-вых технологий. В качестве параметрического описания речевого сообщения используется его представление в частотной области. Для получения указанного представления находился набор значений вейвлет-преобразования исходной временной реализации (поскольку широко используемые на практике непрерывное и оконное преобразование Фурье не могут быть адаптированы к изменяющимся локальным свойствам речевого сигнала). Графически результаты вейвлет-анализа можно представить с помощью трехмерного графика, по осям которого отложены время, частота и амплитуда. Для примера на верхних рис. За и 36 изображены осциллограммы слов «Три» и «Четыре», а на средних и нижних - соответственно их дискретное и непрерывное вейвлет-преобразование. При построении использовался пакет прикладных программ MATLAB 8.0 и его встроенная процедура Toolbox Wavelet. Таким образом, вейвлет-преобразование речевого сигнала можно интерпретировать как зрительный образ сигнала, подлежащий распознаванию. Размер этого образа по одной оси соответствует длительности наблюдаемой реализации, по другой оси - частотному интервалу. Яркость каждого элемента зрительного образа градуируется по цветовой шкале, глубина которой составляет от 2 до 256 оттенков.

Одним из эффективных способов распознания зрительного образа слова является применение нейросети. Для синтеза алгоритма распознавания с не слишком большим объемом словаря (до 500 слов) в работе предложено использовать однослойную персеп-тронную нейронную сеть, число нейронов которой равно числу распознаваемых слов. Блок-схема такой сети показана на рис. 4. Здесь обозначено: X = (xi,x2,...,xz) — входной вектор параметров, описывающий распознаваемое слово, wkv, k = l,K, v = l,Z -

специальным образом подобранные весовые множители, 2 - сумматоры, каждый из ко' ъ

торых выполняет операции взвешенного суммирования и сжатия: = И

j=l

и

, где

F(y)= l/[l + exp(—у)], 3 - решающее устройство, которое выдает номер нейрона с максимальным выходом: res = argmax Y^ . Очевидно, в этом случае полученный номер нейрона определит номер распознанного слова.

Analyzed signal.

m 1000 1500 3D00 2500 3000 3500 mo Discrete Transform, absolute coefficients.

Analyzed signal.

Wib,

500 1000 1500 2000 2500 ЗШ0 3500 4000 Discrete Transform, absolute coefficients

Absolute Values of Ca,b Coefficients for a = 12345

500 1000 1500 2000 2500 Ш) 3500 4000 time (or space) b

a)

31 Г

га Щ

« 14 F

• 13

7Е 1L

Absolute Values of Ca,b Coefficients for a = 1 234 5..

' ' ' ra

• s

500 1000 1500 2000 2500 3000 3500 4000 time (or space) b

6)

Рисунок 3 - Временные осциллограммы, дискретные вейвлет-преобразования и непрерывные вейвлет-преобразования слов «Три» и «Четыре»

Рисунок 4 - Блок-схема однослойной нейронной сети

функция выбирает персепхрон с максимальным выходом

/

рачветвнтелн

веса сумматоры число персетронов

Для нахождения весовых коэффициентов был разработан алгоритм обучения нейронной сети с учителем. В качестве входного вектора X использовались отсчеты вейвлет-преобразования, нормированные от 0 до 64, что соответствует градуированию зрительного образа речевого слова 64 оттенками. Испытания предложенного алгоритма распознавания проводились первоначально на стандартном наборе, состоящем из 10 цифр, а затем, — как и в предыдущем разделе, на наборе из 100 фамилий, в том числе весьма схожих по звучанию. Точность распознавания при этом составила не менее 98,5 %.

Для синтеза дикторонезависимого алгоритма распознавания изолированных слов с достаточно большим объемом словаря (до 1000 слов) предложено использовать радиаль-но-базисную нейронную сеть встречного распространения, свойства которой подробно исследовались в работах А.Д. Кушнира. Структура данной сети показана на рис. 5. Здесь обозначено: X и X' - векторы входных и выходных параметров соответственно, у!, у'^ —

представления векторов входных и выходных параметров в базисах радиальных элементов, и/^ — весовые коэффициенты ассоциативной связи между радиально-базисными

элементами, С!, С'^ - координаты центров радиально-базисных элементов (определяющие процедуру векторного квантования исходных данных).

Рисунок 5 - Структура радиапьно-базисной нейронной сети встречного распространения

Постановку задачи для процесса распознавания можно сформулировать так: по известному описанию образа в некотором пространстве признаков необходимо определить описание образа (вектор параметров) в другом признаковом пространстве. Реализуется это путем выполнения следующих операций. На вход сети подается вектор параметров

а, - параметры, характеризующие размер соответствующего радиального элемента (кластера). Таким образом, вектор параметров теперь представлен в базисе радиальных элементов. На следующем этапе по найденным максимальным ассоциативным связям

осуществляется переход от описания образа относительно радиальных элементов исходного пространства признаков к описанию образа в базисе радиальных элементов выходного пространства признаков, т.е. определяются значения у^. После этого находятся значения элементов выходного вектора параметров X', который представляет собой точку в

X = (х1;х2,...,хы). Далее определяются значения

пространстве признаков. Процедура поиска точки - итеративная и основана на минимизации функционала ошибки р(х) вида р(х) = [¿(г] ~у)У ■ Здесь 1 — количество ради-

УН

ально-базисных элементов в признаковом пространстве для векторов параметров X', а г^ рассчитываются по следующей формуле: Zj = ехр|^-||с^ — Х'Ц2^^.

Используя изложенные предпосылки, была выполнена программная и аппаратная реализация дикторонезависимого алгоритма распознавания изолированных слов на основе радиально-базисной нейронной сети встречного распространения. Число радиально-базисных элементов полагалось равным 10. Размеры кластеров определялись в зависимости от близости соседних. Число итераций принималось равным 1000. Коэффициент скорости сходимости распознавания был равен 300. В качестве набора вектора параметров выступал набор коэффициентов вейвлет-преобразования речевого сигнала. Тестирование алгоритма осуществлялось так же, как и в предыдущих случаях. В результате, как показали проведенные исследования, данная система распознавания будет обеспечивать среднюю точность распознавания не менее 98,5 % при объеме словаря до 1000 слов.

Предложенные алгоритмы распознавания на основе нейросетевых технологий являются достаточно простыми с точки зрения вычислительной сложности по сравнению с известными аналогами, по крайней мере, не уступают по характеристикам имеющимся отечественным и зарубежным прототипам и могут быть практически реализованы в реальном масштабе времени на современной элементной базе с помощью цифровых сигнальных процессоров или программируемых логических интегральных схем.

Четвертый раздел диссертации посвящен разработке новых практически реализуемых алгоритмов предобработки (фильтрации и кодирования) речевых сообщений на фоне помех.

В задаче фильтрации речевого сообщения на фоне аддитивных флуктуационных помех полагалось, что реализация наблюдаемых данных х^) имеет вид

Х(0=8(0+у(0. (3)

Здесь б^) - речевое сообщение, занимающее полосу частот от 0 до 4 кГц, - помеха, которая может быть аппроксимирована некоторым стационарным или квазистационарным случайным процессом с неизвестньми статистическими характеристиками. Необходимо из принимаемой реализации х(1:) (3) с заданным уровнем разборчивости и качества выделить информационное сообщение б^).

В основе предложенного алгоритма шумоподавления лежит фильтрация шума по динамике изменения значений канальных энергий (энергий в полосах частот, соответствующих критическим полосам человеческого уха) входной реализации (3). В результате все шумы, текущая дисперсия которых меняется во времени гораздо медленнее текущей дисперсии речевого сообщения, будут подавлены, причем тем лучше, чем уже их спектр по отношению к полезному сигналу.

Шумоподавитель работает с сегментами (фреймами) речи длительностью 10 мс, что при частоте дискретизации 8 кГц составляет 80 дискретных отсчетов на фрейм. Сег-

g(m,n) =

ментированная реализация наблюдаемых данных преобразуется во вспомогательную последовательность d(m,n). Первые 24 отсчета d(m,n) представляют собой последние 24 отсчета предыдущего фрейма d(m —1,п):

d(m,n) = d(m-l,L + n), 0<n<D, где m - номер текущего фрейма, п — номер отсчета, L = 80 — длина фрейма; D = 24 - величина перекрытия. Остальные 80 отсчетов получают по формуле

d(m,n + D) = х(п)-ап -x(n-l), 0<n<L, где ап =0,85 — коэффициент предыскажения.

Для минимизации нежелательных "концевых" эффектов и более точного отслеживания изменения текущих значений канальных энергия каждый сегмент d(m,n) умножается на трапецеидальное окно и преобразовывается в последовательность g(m,n) вида:

d(m, n)- sin2 (л - (n + 0,5)/2D), 0 < n < D,

d(m,n), D < n < L,

d(m,n)-sin2[я • (n -L + D + 0,5)/2D], L < n < D + L, 0, D + L <n < 216.

Временному массиву g(m,n) в частотной области соответствует массив G(m,k), определяемый дискретным преобразованием Фурье (ДПФ). Учитывая, что спектры реальных сигналов должны быть симметричны, дальнейшая обработка производится только для первых 108 отсчетов G(m,k). Данная совокупность отсчетов разбивалась на 19 групп (каналов), соответствующих критическим полосам человеческого уха, и по предложенному в работе алгоритму для каждого канала рассчитывался свой коэффициент подавления ych(i), i = 0,18. Таким образом, процедура фильтрации текущего сегмента в частотной области может быть записана в виде:

„/ .4 ÍYchO)G(m,k), fL(i)<k<fH(i), 0<i<18; H(m'k) = lG(m,k), 0<k<fL(0). Здесь f] (i), fH(i) - номера отсчетов спектра G(m,k), соответствующих минимальной и максимальной дискретной частоте в i-ом канале. Далее, для перехода во временную область для массива Н(га,к) выполнялось обратное ДПФ и восстанавливалась последовательность отсчетов теперь уже очищенного от помехи сигнала.

Предложенный алгоритм подавления стационарных помех в речевом сообщении был реализован программно в системе MATLAB 8.0 и аппаратно на базе ЦПОС серии TMS320. В качестве реализации наблюдаемых данных использовалась аддитивная смесь речевого сообщения и шумов двигателей различных машин. Эффективность работы алгоритма шумоподавления оценивалась по величине ОСШ на выходе шумоподавителя:

SNR = 10lg Is2(/y2(s(/H(/))2

Здесь s(/) — отсчеты исходного речевого сообщения, s(/) - отсчеты сигнала на выходе шумоподавителя. В частности, при входном ОСШ -3 дБ выходное ОСШ составило ~ 7 дБ, при входном ОСШ 0 дБ — 11 дБ; при входном ОСШ 6 дБ — 24 дБ.

Качественная иллюстрация работы шумоподавителя показана на рис. 6. Здесь приведены временные диаграммы речевого сообщения, искаженного шумом двигателя бронетранспортера, на входе и выходе шумоподавителя. Из рис. 6 и проведенного анализа следует, что использование рассмотренного алгоритма шумоподавления позволяет существенно снизить уровень шума в речевом сообщении и, как следствие, повысить разборчивость речи и комфортность звучания. Таким образом, можно сделать вывод о возможности использования предложенного шумоподавителя для борьбы с аддитивными (ква-зи)стационарными помехами при обработке речевой информации. При этом качество его работы в зависимости от имеющейся помеховой обстановки в соответствии с полученными характеристиками можно оценить как близкое к коммерческому и коммерческое.

а) б)

Рисунок 6 — Тестовый речевой сигнал, искаженный шумом двигателя бронетранспортера на входе (а) и выходе (б) шумоподавителя

При синтезе алгоритмов сжатия (низкоскоростного кодирования) речевых сообщений рассмотрены два подхода: 1) кодирование речевых сообщений на основе метода линейного предсказания со смешанным возбуждением (МЕЬР); 2) векторное Фурье-кодирование.

В основе МЕ1.Р-вокодера лежит классическая параметрическая модель кодирования с линейным предсказанием, но с рядом дополнительных особенностей: 1) вся рабочая область частот делится на полосы (от 3 до 7), в каждой из которых принимается решение о классе сигнала возбуждения - "шумовой" или "голосовой", таким образом, суммарный сигнал возбуждения является смешанным; 2) форма "голосового" сигнала возбуждения реконструируется в декодере с помощью амплитуд коэффициентов Фурье, вычисленных в анализирующей части вокодера; 3) для реализации одиночных импульсов возбуждения применяются "апериодические" импульсы; 4) с целью улучшения "натуральности" звучания синтезированной речи применяются дисперсионный и адаптивный фильтры.

Входное речевое сообщение фильтруется, дискретизируется с частотой выборок 8 кГц и квантуется при числе уровней квантования 216. Далее сигнал разбивается на речевые сегменты (фреймы) длительностью 22,5 мс и подается на блок определения КПП, В этом блоке с помощью алгоритма Дарбина находятся десять КЛП, которые являются коэффициентами фильтра кратковременного предиктора (синтезирующего фильтра). Непосредственное квантование КЛП достаточно сильно сказывается на изменении амплитудно-частотной характеристики синтезирующего фильтра и его устойчивости, поэтому

вместо КЛП на практике используются однозначно связанные с ними линейные спектральные пары (ДСП), векторное квантование которых осуществляется с помощью многостраничных фиксированных кодовых книг, адаптированных в работе к звукам русской речи. В блоке синтеза в соответствии с кодом сигнала возбуждения и кодом голосовой активности формируется суммарный сигнал возбуждения, который поступает на синтезирующий фильтр с адаптивным расширением спектра. Полученная синтезированная речь усиливается согласно декодированному коэффициенту усиления. Все MELP-параметры интерполируются синхронно периоду основного тона.

Предлагаемый алгоритм построения низкоскоростного вокодера на основе линейного предсказания со смешанным возбуждением был промоделирован на персональном компьютере с использованием языка программирования «СИ». Проверка качества речи выполнялась согласно ГОСТ 16600-72 «Передача речи по трактам радиотелефонной связи» и показала, что данный алгоритм обеспечивает словесную разборчивость не менее 97 % при сохранении узнаваемости и интонационной окрашенности голоса диктора.

Для дальнейшего понижения скорости битового потока из ретранслируемых были исключены параметры, не влияющие на разборчивость речи (амплитуды преобразования Фурье сигнала возбуждения). Остальные параметры передавались лишь по четным фреймам с реализацией процедуры их интерполяции для нечетных фреймов. В результате скорость битового потока составила 1200 бит/с. Далее эффективность кодирования текущего речевого сегмента была повышена за счет использования модифицированной пя-тистраничной кодовой книги, учитывающей возможные сочетания ЛСП и осуществляющей совместное векторное квантование всех речевых параметров. Это позволило для кодирования одного речевого фрейма длительностью 45 мс без заметной точности представления его основных параметров использовать 36 бит, что соответствует работе вокодера на скорости 800 бит/с.

Если уровень ошибок в канале превышает 1,5-2 %, то качество синтезированной речи на приемной стороне может существенно ухудшаться. В этой связи для исправления битового потока в каналах связи с высоким (до 10 %) процентом ошибок было исследовано несколько классов корректирующих кодов. Наиболее предпочтительным (в смысле качества синтезированной речи) оказалось применение кодов Рида-Соломона либо свер-точных кодов со скоростью 1/3. В результате общая скорость битового потока составила 2400 бит/с. Для примера на рис. 7 изображены полученные экспериментально зависимости, показывающие снижение качества декодированной речи от процента канальных ошибок для базового алгоритма MELP-2400 (без кодирования) и алгоритма MELP-2400 с использованием сверточного кода (1/3). Как следует рис. 7, при битовых ошибках в канале более 1,5-2 % вокодер MELP-2400 с использованием корректирующих кодов дает существенно лучшее качество синтезированной речи по сравнению базовым вокодером MELP-2400 без кодирования.

Предлагаемые алгоритмы построения низкоскоростных речепреобразующих устройств были промоделированы на персональном компьютере с использованием языка программирования «СИ», а также реализованы аппаратно на базе ЦПОС серии TMS320. Для определения качества синтезированной речи использовалась диагностическая мера приемлемости (Diagnostic Acceptability Measure - DAM). Оценка производилась по пятибалльной шкале. За пять баллов принималось качество речи, синтезированной базовым вокодером MELP-2400. На основе полученных результатов были установлено, что воко-

дер \iELP-800 имеет разборчивость синтезированной речи близкую к вокодеру МЕЬР-2400 и может быть использован в каналах с пропускной способностью до 800 бит/с. При большом проценте (до 10 %) канальных ошибок эффективным оказывается применение вокодера МЕЬР-2400 с корректирующими кодами, обеспечивающим словесную разборчивость речи не менее 90 %.

Рисунок 7 - Зависимость качества речи от процента канальных ошибок при отсутствии кодирования и использовании сверточного кода (1/3)

Альтернативным рассмотренному способу описания речевого фрейма набором нескольких независимых параметров является представление речевого фрейма посредством одного вектора однотипных параметров. При таком подходе предполагается, что перцептивные свойства речевого фрейма отражаются в спектрально-статистическом пространстве, а при устранении корреляций в этом пространстве устраняется полная перцептивная избыточность речи. В качестве векторов параметров, наилучшим образом удовлетворяющих условию перцептивной близости, были выбраны коэффициенты амплитудного Фурье-спектра1.

Преобразование сегментов речевого сообщения в набор индексов кодовой книги амплитудного Фурье-спектра позволяет устранить кратковременную корреляционную избыточность. Для устранения возможных межиндексных корреляций (долговременной корреляционной избыточности) последовательность исходных индексов кодовой книги заменялась на кодовые слова переменной длины посредством энтропийного кодирования Хаффмана. На приемной стороне с использованием соответствующей кодовой матрицы выполнялось декодирование передаваемых индексов и определение вектора коэффициентов амплитудного спектра Фурье текущего сегмента. Фазовый спектр при этом моделировался последовательностью независимых равномерно распределенных на интервале случайных чисел. Далее с помощью процедуры обратного ДПФ восстанавливалось исходное речевое сообщение.

Как показали проведенные исследования, алгоритм векторного Фурье-кодирования обеспечивает приемлемое качество синтезированной речи на скоростях до 375 бит/с и ниже.

' Борискевич Л Л Антокчик А.В. Технология векторного ншкоскороспюго Фурье-кодирования речевого сигнала // Специальнаятехника,2010.-№3.-С.40-48.

В приложении А исследованы различные полиномиальные аппроксимации наиболее часто встречающихся на практике нелинейных функций с целью определения наиболее эффективного способа численного расчета значений той или иной (алпаратно не-встроенной) функции при технической реализации алгоритмов цифровой обработки сигналов.

В приложении Б найдена достаточно простая (по сравнению с приводимыми в известной литературе) аппроксимация решающей статистики быстрофлуктуирующего га-уссовского импульса с огибающей произвольной формы. Показано, что оптимальный приемник таких сигналов может быть реализован с помощью типовых одноканальных устройств, если в анализируемой полосе частот спектр субструктуры импульса близок к равномерному.

В заключении подведены итоги по диссертации в целом и сформулированы основные результаты работы:

1. Предложены и развиты методики синтеза алгоритмов распознавания изолированных слов при различном объеме словаря (дикгоронезависимых и с настройкой на диктора), фильтрации речевых сообщений на фоне аддитивных квазистационарных помех с неизвестными статистическими характеристиками, алгоритмов низкоскоростной передачи речевых сообщений, в том числе в каналах связи с высоким процентом ошибок.

2. С помощью предложенных методик синтезированы алгоритмы распознавания изолированных слов на основе динамического искажения времени (с настройкой на диктора и объемом словаря до 500 слов), скрытых марковских моделей (дикторонезависимо-го с объемом словаря до 1000 слов) и нейронных сеггей (дикторонезависимых с объемом словаря 500-1000 слов), алгоритмы подавления аддитивных квазистационарных помех в речевых сообщениях, алгоритмы кодирования речевых сигналов на скоростях до 375 бит/с и ниже при различных состояниях канала связи.

3. С использованием современных средств программирования и цифровых сигнальных процессоров серии ТМ8320 выполнена практическая реализация синтезированных систем распознавания, шумоподавления, а также вокодеров со смешанным возбуждением, работающих на скоростях 800-2400 бит/с при ошибках в канале связи до 1 % и на скоростях до 2400 бит/с при ошибках в канале связи до 10 %, вокодеров на основе векторного квантования амплитудного спектра исходного речевого сообщения со скоростью передачи информации до 375 бит/с и ниже. Установлена работоспособность и эффективность всех спроектированных устройств.

4. Намечены пути дальнейшего повышения качества функционирования алгоритмов распознавания, фильтрации и кодирования речевых сообщений.

Результаты работы имеют достаточно общий характер и могут быть использованы при проектировании цифровых систем передачи и обработки речевых сообщений промышленного и военного назначения, автоматических систем с голосовым управлением, систем бесконтактного контроля и доступа, систем опознавания личности по голосу, систем аппаратурного анализа случайных процессов, в различных областях технической информатики и радиотехники, связанных с цифровой обработкой случайных и детерминированных сигналов.

Основные результаты диссертации опубликованы в следующих работах.

Публикации в журналах го Перечня ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой степени доктора и кандидата наук

1. Выборнов C.B. Адаптивное подавление стационарных помех в речевых сигналах // Научно-технические ведомости СПбГТУ. Серия "Информатика. Телекоммуникации. Управление". - 2007. - Т. 1. - № 4-1 (52). - С. 144-150.

2. Выборнов C.B., Сидорова H.A., Чернояров О.В. Построение речепреобразую-щих устройств на скорости 2,4 кбит/с и ниже // Научно-технические ведомости СПбГПУ. Серия "Информатика. Телекоммуникации. Управление". - 2008. - № 4(62). - С. 82-86.

Публикации в межвузовских сборниках научных трудов и материалах конференций

3. Чернояров О.В., Черноярова Е.В., Выборнов C.B. Функционал отношения правдоподобия случайного импульсного сигнала произвольной формы // Материалы 60 Научной сессии, посвященной дню радио. - Т.Н. - Москва: РНТОРЭС им. A.C. Попова, 2005.-С. 251-254.

4. Чернояров О.В., Черноярова Е.В., Выборнов C.B. Способы практической реализации нелинейных преобразований в системах цифровой обработки сигналов // Технологии информационного общества: Тезисы докладов московской отраслевой научно-технической конференции. - М.: Инсвязьиздат, 2007. - С. 173-174.

5. Чернояров О.В., Выборнов C.B., Шепелев Д.Н. Полиномиальная аппроксимация нелинейных функций на основе ортогональных многочленов // Телевидение: передача и обработка изображений / Материалы 5-й Международной конференции. - СПб.: СПбГЭ-ТУ, 2007. - С. 78-80.

6. Выборнов C.B., Сидорова H.A. Построение низкоскоростных речепреобразую-щих устройств // Труды РНТОРЭС им. A.C. Попова, серия: Научная сессия, посвященная дню радио. - Выпуск: LXIII. - Москва: ООО «Инсвязьиздат», 2008. - С. 124-126.

7. Выборнов C.B. Адаптивное подавление помех в речевых сигналах // Технологии информационного общества: Труды московской отраслевой научно-технической конференции. - М.: Инсвязьиздат, 2008. - С. 173-174.

8. Выборнов C.B., Сидорова H.A. Практическая реализация низкоскоростных вокодеров для каналов с высоким процентом ошибок // Труды РНТОРЭС им. A.C. Попова, серия Цифровая обработка сигналов и ее применение / 10-я Международная выставка и конференция. - Выпуск Х-1. - Москва: ООО «Инсвязьиздат», 2008. - С. 225-228.

9. S.V. Vybornov, N.A. Sidorova Practice realization of the low-speed vocoders for channels with high percent of errors // Труды РНТОРЭС им. A.C. Попова, серия Цифровая обработка сигналов и ее применение / 10-я Международная выставка и конференция. -Выпуск Х-1. - Москва: ООО «Инсвязьиздат», 2008. - С. 228.

10. Выборнов C.B., Терехов A.B. Распознавание изолированно произнесенных слов на основе вейвлет-преобразований // Фундаментальные проблемы радиоэлектронного приборостроения / Материалы Международной научно-технической конференции «INTERMATIC - 2011». - М.: МГТУ МИРЭА - ИРЭ РАН, 2011, часть 3. - С. 19-22.

11. Выборнов C.B. Алгоритм распознавания изолированных слов с настройкой на диктора // Радиотехнические тетради. - 2012. - № 48. - С. 59-68.

Отпечатано: ООО РА «КЛИК» г.Воронеж пр. Революции 32 тел.: +7 (473) 294-68-31 е-таП: klick-vrn.ru тираж: 100 экз

Текст работы Выборнов, Сергей Владимирович, диссертация по теме Теоретические основы информатики

НАЦИОНАЛЬНЫМ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ «МЭИ»

П / -> Л >. / С / Ч Л о На правах рукописи

•^-Г !. ^ I Т Л ь

Выборное Сергей Владимирович

СИНТЕЗ, АНАЛИЗ И ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ АЛГОРИТМОВ РАСПОЗНАВАНИЯ И ПРЕДОБРАБОТКИ РЕЧЕВЫХ СООБЩЕНИЙ

05.13.17 - Теоретические основы информатики

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель -доктор физико-математических наук, доцент Чернояров О.В.

Москва-2013

СОДЕРЖАНИЕ

Список принятых сокращений................................. 4

Введение................................................... 6

1 Распознавание изолированных слов на основе динамического искажения времени

1.1 Первичное речевое сообщение.............................. 15

1.2 Методы формирования вектора параметров речевого сообщения . 19

1.3 Динамическое искажение времени.......................... 31

1.4 Алгоритм распознавания изолированных слов с настройкой на диктора.................................................... 37

1.5 Выводы................................................. 45

2 Дикторонезависимое распознавание изолированных слов на основе скрытых марковских моделей

2.1 Скрытые марковские модели............................... 47

2.2 Типы скрытых марковских моделей......................... 57

2.3 Практическое применение скрытых марковских моделей....... 61

2.4 Система распознавания речи на основе скрытых марковских моделей.................................................... 70

2.5 Выводы................................................. 75

3 Распознавание изолированных слов на основе нейросетевых технологий

3.1 Вейвлет-преобразование речевого сигнала................... 77

2.2 Алгоритм распознавания изолированных слов на основе однослойной нейронной сети.................................. 79

3.3 Алгоритм распознавания изолированных слов на основе радиально-базисной нейронной сети встречного распространения ... 93

3.4 Выводы................................................. 104

4 Предобработка речевых сообщений в аудиоинформационных системах

4.1 Выделение речевых сообщений на фоне аддитивных флуктуа-ционных помех..........................................................................................106

4.2 Кодирование речевых сообщений на основе метода линейного предсказания со смешанным возбуждением..........................................119

4.3 Векторное Фурье-кодирование речевых сообщений........................131

4.4 Выводы..................................................................................................135

ЗАКЛЮЧЕНИЕ..........................................................................................137

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ................................141

ПРИЛОЖЕНИЕ А......................................................................................154

ПРИЛОЖЕНИЕ Б......................................................................................161

СПИСОК СОКРАЩЕНИЙ

АЦП - аналогово-цифровой преобразователь

АЧХ - амплитудно-частотная характеристика

ВЧ - высокочастотный

ДВП - дискретное вейвлет-преобразование

ДИВ - динамическое искажение времени

ДПФ - дискретное преобразование Фурье

ИКМ - импульсно-кодовая модуляция

КГА - код голосовой активности

КЛП - коэффициенты линейного предсказания

КСВ - код сигнала возбуждения

КУ - коэффициент усиления

ЛП - линейное предсказание

ДСП - линейные спектральные пары

МПО - максимально-правдоподобная оценка

НВП - непрерывное вейвлет-преобразование

НСК - наименьших средних квадратов

НФП - непрерывное преобразование Фурье

НЧ - низкочастотный

ОПФ - оконное преобразование Фурье

ОСШ - отношение сигнал/шум

ОТ - основной тон

ПКО - процент канальных ошибок

РБНС ВР -радиально-базисная нейронная сеть встречного распространения

РБС - радиально-базисная сеть

РБЭ - радиально-базисный элемент

СКО - среднеквадратическая ошибка

СММ - скрытая марковская модель

ФОП - функционал отношения правдоподобия

ФСВ - форма сигнала возбуждения ЦОС - цифровая обработка сигналов ЦПОС - цифровой процессор обработки ШМД - шумоподавитель

ВВЕДЕНИЕ

В настоящее время одной из важных теоретических и практических задач технической информатики является разработка новых методов и алгоритмов обработки речевых сообщений. В качестве основных направлений исследований здесь можно выделить три направления: распознавание речевых сообщений (в том числе аутентификация личности по голосу), фильтрация речевых сообщений на фоне помех различной природы и эффективное (низкоскоростное) кодирование речи.

К сожалению, известные на текущий момент алгоритмы обработки речевых сообщений не свободны от недостатков. Так приводимые в литературе [7,33,72,80,82,108,120,125 и др.] алгоритмы распознавания речи обладают существенным количеством ограничений, сравнительно большой вычислительной сложностью и, как следствие, плохой разборчивостью для схожих по звучанию изолированных слов и коротких речевых сегментов. В результате точность современных систем распознавания реально не превышает 98 %. Известные к настоящему моменту алгоритмы адаптивной линейной и нелинейной фильтрации [20,36,45,46,83,84 и др.], в частности, предполагающие наличие марковской модели сообщения, требуют достаточно большого объема априорной информации, либо существенно зависят от выбора начальных параметров модели и не всегда обеспечивают достаточно высокое выходное отношение сигнал/шум (ОСШ). Применение же рекомендуемых алгоритмов низкоскоростного кодирования речевых сообщений [29,36,37,47,122,133 и др.] для передачи информации по каналам с высоким процентом ошибок приводит к существенному ухудшению узнаваемости диктора и фразеологической разборчивости речи. Таким образом, ряд вопросов по синтезу и практической реализации эффективных алгоритмов обработки речевых сообщений до сих пор остается открытым.

Цель работы. Целью работы является

1. На основе современных подходов разработать эффективные дик-торонезависимые и с настройкой на диктора алгоритмы распознавания изолированных слов.

2. Синтезировать эффективные алгоритмы фильтрации речевых сигналов, искаженных аддитивными (квази)стационарными помехами с неизвестными статистическими характеристиками.

3. Разработать эффективные алгоритмы низкоскоростного (до 375 бит/с и ниже) кодирования речевых сигналов. Найти структуру алгоритма для канала передачи информации с высоким (до 10 %) процентом ошибок.

4. Выполнить практическую реализацию предложенных алгоритмов обработки речевых сообщений в реальном масштабе времени на современной элементной базе.

Методы проведения исследований. При решении поставленных в диссертации задач использовались аналитические и вычислительные методы технической информатики и радиотехники, а именно: аппарат теории вероятностей и математической статистики, марковских процессов и систем, теории распознавания образов, методы цифровой обработки сигналов, в том числе теории линейных дискретных систем, спектрального анализа и его приложений, нейросетевых технологий, а также современные методы моделирования на ЭВМ и цифровых процессорах обработки сигналов (ЦПОС) информационных процессов и алгоритмов их анализа.

Научная новизна. В работе получены следующие новые научные результаты:

■ новые параметрические представления речевых сообщений, позволяющие обеспечить более высокую точность дикторонезависимого и с настройкой на диктора распознавания изолированных слов и упростить его техническую реализацию;

новые подходы к синтезу эффективных дикторонезависимых и с настройкой на диктора алгоритмов распознавания изолированных слов;

■ усовершенствование методов фильтрации речевых сообщений на фоне аддитивных помех с целью получения новых практически реализуемых в реальном масштабе времени алгоритмов фильтрации речевых сообщений на фоне помех, работоспособных в отличие от известных прототипов в более широком диапазоне входных отношений сигнал/шум;

■ комплексные модификации методов низкоскоростного кодирования аудиоинформации, в том числе, применительно к информационным каналам связи с высоким процентом ошибок, позволяющие снизить скорость передачи сообщений и улучшить качество синтезированной речи;

■ полученные с помощью указанных методов алгоритмы обработки речевых сообщений, а именно:

- алгоритм распознавания изолированных слов на основе динамического искажения времени (ДИВ) с настройкой на диктора и объемом словаря до 500 единиц, обеспечивающий точность распознавания порядка 99 %;

- дикторонезависимый алгоритм распознавания изолированных слов на основе скрытых марковских моделей (СММ) с объемом словаря до 500 единиц, обеспечивающий точность более 98 %;

- дикторонезависимый алгоритм распознавания изолированных слов на основе однослойной нейронной сети с объемом словаря до 500 единиц, обеспечивающий точность распознавания более 98 %;

- дикторонезависимый алгоритм распознавания изолированных слов на основе радиально-базисной нейронной сети встречного распространения с объемом словаря до 1000 единиц, обеспечивающий точность распознавания более 98 %;

- алгоритм фильтрации речевых сообщений на фоне аддитивных квазистационарных помех с неизвестными статистическими характеристиками;

- алгоритмы низкоскоростной (до 375 бит/с) передачи речевых сообщений на основе метода линейного предсказания со смешанным возбуждением и Фурье-кодирования, в том числе для каналов с высоким (до 10 %) процентом ошибок,

а также возможности практической реализации этих алгоритмов;

■ развитие методов моделирования на ЭВМ и ЦПОС алгоритмов обработки речевых сообщений для различных информационных и радиотехнических приложений.

Достоверность. Достоверность основных положений и результатов подтверждается экспериментальными данными, полученными с помощью моделирования синтезированных алгоритмов на ЭВМ (в системе МАТЬАВ и на языке высокого уровня «СИ») и их практической реализации на базе цифрового процессора обработки сигналов (ЦПОС) семейства ТМ8320.

Практическая ценность результатов диссертационной работы

состоит в том, что они позволяют внедрять в практические разработки современных информационных систем новые эффективные практически реализуемые алгоритмы обработки (распознавания, фильтрации, кодирования) речевых сообщений. Найденные в работе характеристики функционирования предложенных алгоритмов позволяют сделать обоснованный выбор между этими и другими алгоритмами в зависимости от имеющейся априорной информации и в соответствии с требованиями, предъявляемыми к качеству алгоритма обработки и к степени простоты его аппаратурной реализации. Результаты работы могут найти практическое применение при проектировании

- автоматических систем с голосовым управлением,

- перспективных систем распознавания речевых сообщений,

- цифровых систем передачи речевых сообщений промышленного и военного назначения,

- систем аппаратурного анализа случайных процессов.

Апробация работы. Результаты исследований, приведенные в данной диссертации, были представлены в виде докладов и обсуждались на

1. ЬХ и ЬХШ Научной сессии, посвященной дню радио, Москва, 2005 г., 2008 г.

2. 1-й Московской отраслевой научно-технической конференции, Москва, 2007 г.

3. 5-й Международной конференции "Телевидение: передача и обработка изображений", С.-Петербург, 2007 г.

4. 10-й Международной выставке и конференции "Цифровая обработка сигналов и ее применение", Москва, 2008 г.

5. Международной научно-технической конференции "Фундаментальные проблемы радиоэлектронного приборостроения", Москва, 2011 г.

а также использовались при выполнении грантов Министерства образования и науки РФ (Соглашения 14.В37.21.2015, 14.В37.21.2032, 14.В37.21.2102) и в разработках ЗАО "НПО СПЭЛТ" (г. Москва), ЗАО "Специальные системы" (г. Москва).

Публикации. По теме диссертации опубликовано 11 научных работ [139-149], в том числе 6 статей [139,142,145,147-149], 2 из которых в журнале из Перечня ведущих научных журналов и изданий ВАК [142,147], и 5 тезисов докладов [140,141,143,144,146].

Основные результаты и положения, выносимые на защиту:

- способы описания информационных сигналов в виде наборов оптимизированных векторов параметров для синтеза эффективных алгоритмов распознавания речевых сообщений;

- способы построения эффективных систем распознавания речевых сообщений;

- адаптивные методы выделения речевых сообщений на фоне аддитивных квазистационарных помех;

- методы низкоскоростного кодирования речевых сообщений, в том числе для каналов с высоким процентом ошибок;

- новые алгоритмы распознавания, фильтрации и кодирования речевых сообщений;

- результаты программного и аппаратного моделирования алгоритмов распознавания, фильтрации и кодирования речевых сообщений.

Краткое содержание диссертации. Диссертация состоит из введения, 4 разделов, заключения, списка литературы, состоящего из 155 наименований, и 2 приложений.

В первом разделе диссертации рассмотрены особенности формирования и структуры первичного речевого сигнала. Показано, что речевое сообщение представляет собой сложный многочастотный квазистационарный случайный процесс, требующий должной обработки для выделения информационной части. Приведены основные методы цифровой обработки речевых сигналов и этапы построения систем распознавания речи. Предложена модифицированная структура параметрического описания речевых реализаций в терминах векторов параметров, формируемых на основе покадрового анализа с перекрытием и гомоморфной обработки. Исследованы способы сравнения двух произвольных речевых сигналов с использованием ДИВ. Путем сопоставления характеристик различных алгоритмов ДИВ между собой найдена структура алгоритма распознавания изолированных слов с настройкой на диктора, а также определены значения корректирующих весовых коэффициентов для элементов векторов параметров. Показано, что предложенный алгоритм распознавания обладает точностью порядка 99 % и требует для своей реализации существенно меньших аппаратных затрат по сравнению с известными прототипами.

Для синтеза дикторонезависимого алгоритма распознавания во втором разделе рассмотрен подход, основанный на представлении речевого сигнала в виде СММ с числом состояний, равным 10. Приведены процеду-

ры расчета параметров таких моделей, а также их адаптации при поступлении новых данных (обучения). Методами программного и аппаратного моделирования установлено, что данная система распознавания обладает средней точностью более 98 % и превосходит по своим характеристикам имеющиеся аналоги.

В третьем разделе диссертации исследованы способы распознавания речевых сообщений на основе нейросетевых технологий. Показано, что для построения дикторонезависимой системы распознавания изолированных слов с ограниченным объемом словаря (до 500 единиц) эффективным оказывается применение однослойной персептронной нейронной сети и параметрического описания речевых сигналов в виде отсчетов их вейвлет-преобразований. При числе персептронов, равным числу распознаваемых слов, ошибка распознавания такой системы не превышает 1,5 % . В случае достаточно большого объема словаря (до 1000 слов) для синтеза алгоритма распознавания может быть использована радиально-базисная нейронная сеть встречного распространения (РБНС ВР), где в качестве векторов параметров также выступают отсчеты вейвлет-преобразования речевых сигналов. В результате удается обеспечить среднюю точность распознавания более 98 %.

В четвертом разделе рассмотрена методика выделения речевых сообщений на фоне аддитивных квазистационарных помех в условиях минимального объема априорной информации (в том числе, когда статистические характеристики помех неизвестны). Показано, что синтезированный на ее основе алгоритм фильтрации является достаточно универсальным и позволяет улучшить качество звучания (восприятия) по сравнению с существующими аналогами. Выполнена его программная (с помощью системы МАТНЬАВ 8.0) и аппаратная (на базе ЦПОС серии ТМ8320) реализация в реальном масштабе времени.

Для эффективной передачи и хранения аудиоинформации рассмотрены принципы построения и работы речевых кодеков на основе метода линейного предсказания со смешанным возбуждением (МЕЬР-вокодера) и векторного квантования амплитудного Фурье-спектра исходного речевого сообщения. Исходя из критериев желаемого качества кодированной речи, скорости битового потока, устойчивости речевого преобразования к канальным ошибкам, минимума затрачиваемых ресурсов цифрового сигнального процессора синтезированы и практически реализованы МЕЬР-вокодеры со скоростями 800-2400 бит/с и удовлетворительным качеством речи, сохраняющимся при 1 % ошибок в канале; МЕЬР-вокодер со скоростью до 2400 бит/с и удовлетворительным уровнем разборчивости речи, сохраняющимся при числе ошибок в канале до 10 %; вокодер на основе векторного Фурье-кодирования со скоростью передачи данных до 375 бит/с и ниже и уровнем словесной разборчивости не менее 90 %. Экспериментально с помощью программного (на языке высокого уровня «СИ») и аппаратного (на базе ЦПОС серии ТМЭ320) моделирования установлена работоспособность и эффективность предложенных речепреобра