автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Оптимальные и субоптимальные алгоритмы обработки речевых сообщений при наличии аддитивных искажений

кандидата технических наук
Максимов, Максим Игоревич
город
Воронеж
год
2009
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Оптимальные и субоптимальные алгоритмы обработки речевых сообщений при наличии аддитивных искажений»

Автореферат диссертации по теме "Оптимальные и субоптимальные алгоритмы обработки речевых сообщений при наличии аддитивных искажений"

На правах рукописи

Ши^Й

МАКСИМОВ Максим Игоревич

Оптимальные и субоптимальные алгоритмы обработки речевых сообщений при наличии аддитивных искажений

05.13.17 - Теоретические основы информатики

Автореферат диссертации на соискание ученой степени кандидата технических наук

Воронеж-2009

003469353

Работа выполнена на кафедре радиотехнических систем Московского технического университета связи и информатики

Научный руководитель - кандидат физико-математических наук,

доцент ЧЕРНОЯРОВ ОЛЕГ ВЯЧЕСЛАВОВИЧ

Официальные оппоненты:

- доктор технических наук, профессор СИРОТА АЛЕКСАНДР АНАТОЛЬЕВИЧ

- кандидат технических наук, доцент МАТВЕЕВ БОРИС ВАСИЛЬЕВИЧ

Ведущая организация - Институт радиотехники и электроники РАН

Защита состоится" 29 " мая 2009 г. в 15 час. 00 мин. на заседании диссертационного совета Д212.038.24 при Воронежском государственном университете по адресу: 394006, г. Воронеж, Университетская пл., 1, конференц-зал.

С диссертацией можно ознакомиться в библиотеке Воронежского государственного университета

Автореферат разослан "_28_" апреля 2009 г.

Ученый секретарь диссертационного совета ¿¡^ С.Д. Махортов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время техническая информатика представляет собой широкую и быстро развивающуюся область, включающую в себя как чисто теоретические проблемы, так и разнообразные прикладные вопросы. Одной из приоритетных задач является разработка новых методов и алгоритмов обработки речевых сообщений. В качестве основных направлений исследований здесь можно выделить четыре направления: фильтрация речевых сообщений на фоне помех различной природы, аутентификация личности по голосу, низкоскоростное кодирование речевых сообщений и распознавание речи.

К сожалению, известные на текущий момент алгоритмы обработки речевых сообщений не свободны от недостатков. Так, приводимые в литературе алгоритмы адаптивной линейной и нелинейной фильтрации, предполагающие наличие марковской модели сообщения, существенно зависят от выбора начальных параметров модели, допускают лишь многоканальную реализацию, и не всегда обеспечивают достаточно высокое выходное отношение сигнал/шум (ОСШ). Алгоритмы аутентификации подразумевают, как правило, достаточно сложное параметрическое описание речевых сообщений и не всегда обеспечивают желаемую точность правильного принятия решения. Применение рекомендуемых алгоритмов низкоскоростного кодирования речевых сообщений для передачи информации по каналам с высоким процентом ошибок приводит к существенному ухудшению узнаваемости диктора и фразеологической разборчивости речи. Наконец, до сих пор остается открытым вопрос об эффективных методах восстановления скрытых речевых сообщений и адекватных моделях голосовой и слуховой систем.

Таким образом, актуальность темы определяется необходимостью разработки новых подходов к синтезу эффективных, практически реализуемых алгоритмов обработки речевых сообщений применительно к задачам фильтрации, аутентификации, кодирования и распознавания в соответствии с требованиями, предъявляемыми к современным системам связи, контроля и управления, а также развития теоретического аппарата технической информатики в направлении более широкого использования модифицированного параметрического и непараметрического описания речевых сигналов и систем.

Целью работы является

1. Синтезировать эффективные алгоритмы фильтрации речевых сообщений, искаженных стационарными (фоновыми) и нестационарными (эхо) помехами.

2. Разработать эффективный алгоритм верификации диктора по голосу на основе статистических свойств речевых сообщений.

3. Определить эффективные алгоритмы низкоскоростного (до 2400 бит/с и ниже) кодирования речевых сообщений. Найти структуру алгоритма для канала передачи информации с высоким (до 5 %) процентом ошибок,

4. На основе метода реконструктивной томографии разработать модели формирователей слухового спектра (для распознавания свойств голосового тракта) и интонационного портрета (для распознавания источника голосового возбуэздекия).

5. Выполнить практическую реализацию предложенных алгоритмов обработки речевых сообщений в реальном масштабе времени на современной элементной базе.

Методы проведения исследования. При решении поставленных в диссертации задач использовались аналитические и вычислительные методы современной технической информатики и радиотехники, а именно:

а) методы цифровой обработки сигналов, в том числе теории линейных дискретных систем,

б) аппарат теории вероятностей к математической статистики,

в) методы спектрального анализа и его приложений,

г) методы математического анализа, в том числе методы решения некорректных задач,

д) современные численные методы и методы программирования,

е) методы моделирования на ЭВМ информационных процессов и алгоритмов их анализа.

Достоверность основных положений и результатов подтверждается экспериментальными данными, полученными с помощью моделирования синтезированных алгоритмов на ЭВМ (в системе Ма&аЬ и на языке высокого уровня "СИ") и их практической реализации на базе цифровых сигнальных процессоров семейства ТМ8320.

Научная новизна. На защиту выносятся следующие результаты, впервые достаточно подробно развитые или впервые полученные в работе.

1. Новые методы синтеза эффективных, практически реализуемых в реальном масштабе времени алгоритмов фильтрации речевых сообщений на фоне помех.

2. Новые методы синтеза эффективных алгоритмов верификации личности по голосу.

3. Развитие методов низкоскоростной передачи данных применительно к информационным каналам связи с высоким процентом ошибок.

4. Развитие методов реконструктивной томографии для построения адекватных моделей речеобразукмцей и слуховой систем.

5. Полученные с помощью указанных методов алгоритмы обработки речевых сообщений, а именно:

- алгоритмы фильтрации речевых сообщений на фоне стационарных и эхо-помех,

- алгоритм верификации личности по голосу, обеспечивающий точность правильной верификации (правильной неверификации) не менее 99 % при существенно более простой реализации по сравнению с известными прототипами,

- алгоритмы низкоскоростной (до 1200 бит/с) передачи речевых сообщений на основе метода линейного предсказания с возбуждением от кода и смешанным возбуждением, в том числе для каналов с высоким (до 5%) процентом ошибок;

- алгоритм восстановления речевого сообщения, скрытого в наблюдаемом речевом сигнале;

а также возможности практической реализации этих алгоритмов.

6. Развитие методов моделирования на ЭВМ алгоритмов обработки речевых сообщений для различных информационных приложений.

Практическая ценность результатов работы состоит в том, что они позволяют внедрять в практические разработки современных информационных систем новые эффективные практически реализуемые алгоритмы обработки (фильтрации, верификации, кодирования, распознавания) речевых сообщений. Найденные в работе характеристики функционирования предложенных алгоритмов позволяют сделать обоснованный выбор между этими и другими алгоритмами в зависимости от имеющейся априорной информации и в соответствии с требованиями, предъявляемыми к качеству алгоритма обработки и к степени простоты его аппаратурной реализации. Результаты работы могут найти практическое применение при проектировании

- цифровых систем передачи речевых сообщений промышленного и военного назначения,

- автоматических систем опознавания личности по голосу,

- перспективных систем распознавания речевых сообщений,

- систем аппаратурного анализа случайных процессов.

Внедрение научных результатов. Полученные в диссертационной работе результаты внедрены на ОАО "Электросигнал" (г. Воронеж) и ЗАО "СПРОС ИТ" (г. Москва), что подтверждается соответствующими актами.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на

1. Научно-технических конференциях Московского технического университета связи и информатики, Москва, 2001-2006 гг.

2. Международной научно-практической конференции «Фундаментальные проблемы радиоэлектронного приборостроения» Intermatic-2006, Москва, МИРЭА, ЦНИИ «Электроника», 2006 г.

3. 14-ой Международной конференции «Проблемы управления безопасностью сложных систем - 2006», Москва, РГГУ, 2006.

4. Международной научно-практической конференции «Фундаментальные проблемы радиоэлектронного приборостроения» Intermatic-2007, Москва, МИРЭА, ЦНИИ «Электроника», 2007.

5. XV Международной научно-технической конференции "Радиоэлектроника, Электротехника и Энергетика", Москва, 2009.

Публикации. По теме диссертации опубликованы работы [1-11].

Объем и структура диссертационной работы. Диссертация состоит из введения, 4 разделов, заключения, 2 приложений, списка литературы, состоящего из 107 наименований. Объем диссертации составляет 165 страниц, включая 143 страницы основного текста, 13 страниц приложений, 9 страниц списка литературы.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обсуждается актуальность темы исследований, приведен краткий обзор известных результатов по теме диссертации. Сформулирована цель работы и в аннотированном виде изложены основные результаты работы.

Первый раздел диссертации посвящен разработке новых практически реализуемых алгоритмов фильтрации речевых сообщений на фоне помех. Общая задача синтеза конкретизирована на два важных с практической точки зрения случая: 1) когда наблюдению доступна аддитивная смесь речевого сообщения и стационарного шума; 2) когда в дополнении к наблюдаемой реализации имеется канал, содержащий сигнал, коррелированный с шумом; условие стационарности шума при этом может нарушаться.

При обработке речевого сигнала на фоне стационарного шума реализация наблюдаемых данных x(t) имеет вид

x(t)=s(t)+v(t). (1)

Здесь s(t) - речевое сообщение, занимающее полосу частот от 0 до 4000 Гц, на источник которого не накладывается никаких ограничений, v(t) - помеха, представляющая собой стационарный случайный процесс с произвольным законом распределения. Необходимо из принимаемой реализации x(t) (1) с заданным уровнем разборчивости и качества выделить полезный сигнал s(t).

В основе предложенного алгоритма шумоподавления лежит фильтрация шума по признаку стационарности спектра. В результате все шумы, мгновенная спектральная плотность которых меняется во времени гораздо медленнее, чем у речевого сообщения, будут подавлены, причем тем лучше, чем уже их спектр по отношению к полезному сигналу. Шумопода-витель работает с сегментами (фреймами) речи длительностью 10 мс. При входном сигнале в стандартном ИКМ формате с частотой выборок 8000 выб/с это составляет 80 дискретных от-

g(m,n) =

счетов. Сегментированная реализация наблюдаемых данных преобразуется во вспомогательную последовательность d(m,n). Первые 24 отсчета d(m,n) представляют собой последние 24 отсчета предыдущего фрейма d(m - 1,п):

d(m,n) = d(m-l,L + n), 0<n<D, (2)

где m - номер текущего фрейма, п - номер отсчета, L = 80 - длина фрейма; D = 24 - величина перекрытия. Остальные 80 отсчетов получают по формуле

d(m,n + D) = x(n)-i;p-x(n-l)> O^ncL, где =0,8 - коэффициент предыскажения.

Для минимизации нежелательных "концевых" эффектов и возможности использования при спектральном анализе алгоритма быстрого преобразования Фурье (БПФ) каждый сегмент d(m,n) умножается на трапецеидальное окно и преобразовывается в последовательность g(m,n) вида:

d(m,п)• sin2(к• (n + 0,5)/2D), 0<n <D,

d(m,n), DSncL,

d(m,n)• sin2[я• (n-L + D + 0,5)/2D], L<n<D + L, ч0, D + Lán<128.

Временному массиву g(m,n) в частотной области соответствует массив G(m,k), определяемый БПФ. Учитывая, что спектры реальных сигналов должны быть симметричны, дальнейшая обработка производится только для первых 64-х отсчетов G(m,k). Данная совокупность отсчетов разбивается на 16 групп (каналов), соответствующих критическим полосам человеческого уха. В каждой выделенной полосе частот рассчитывается энергия Ech(m,i), i = 0,15 анализируемого сигнала.

В качестве оценки изменения спектра обрабатываемого сигнала во времени использовалась величина

15 _

А Е (т) = |Е ¿в (т> 0"" EdB (т, i) I. (3)

Здесь E<¡B(m,i) = 101g[Ech(m,i)] - канальная энергия в логарифмическом масштабе, EdB(m,i) - долговременная усредненная оценка энергетического спектра.

Рассчитанные согласно (3) вариации энергии ЛЕ(т) при не слишком большом уровне шумов позволяют установить характер наблюдаемой реализации, а именно: если на протяжении 50 и более сегментов (с возможными перерывами не более чем на 6 сегментов) значение ДЕ(т) не превышает 28 дБ, то реализация наблюдаемых данных считается стационарным процессом (т.е., не содержит полезный сигнал).

Если интенсивность помехи сравнительно велика, сформулированное выше условие стационарности реализации наблюдаемых данных при отсутствии полезного сигнала может не всегда выполняться. В этой связи для каждого обрабатываемого сегмента (2), кроме того, отслеживалось ОСШ. При малых ОСШ выносилось решение об отсутствии в текущем сегменте полезного сигнала, и наоборот. Контроль ОСШ для каждого сегмента осуществлялся по методу голосовых метрик. Согласно этому методу для всех выделенных частотных диапазонов рассчитывались квантованные (с шагом 1 дБ) канальные ОСШ aq(i), ограниченные сверху и снизу уровнями 0 дБ и 89 дБ:

fs9,roundíl01gf ^

1 lE„(m,i)

oq(0 = i

O.min

0,375

(4)

Здесь En(m,i) - энергия помехи в i-ом канапе, a roundQ - операция округления до ближайшего целого. На основе полученных значений квантованных ОСШ (4) определялась сумма голосовых метрик текущего сегмента v(m):

v(m) = Sv(cq(i)).

i-0

Здесь V(k) - k-й элемент вектора голосовых метрик V. Если v(m) < 35, то ОСШ для данного сегмента считается малым, а сам сегмент - чисто шумовым.

Выполнение условия стационарности или малости ОСШ для текущего сегмента реализации наблюдаемых данных позволяет произвести переоценку канальной энергии помехи с помощью сглаживающего фильтра первого порядка:

En(m + l,i) = 0,9En(m,i)+0,lEch(m,i), i = 0Д5. (5)

Начальное значение En(m,i) в (5) определялось стандартным способом по первым 40 сегментам реализации наблюдаемых данных (1), которые, как предполагалось, не содержат полезного сигнала.

Величины En(m,i) позволяют рассчитать общий уровень подавления для текущего сегмента:

'15

yn=-ioig

SEn(m,i)

(б)

|>о

При этом полагается, что значение уп не может быть меньше -13 дБ, т.е. у„ = тах(-13,уп). Коэффициенты подавления для каждого частотного диапазона корректировались на основе (б) с использованием найденных канальных ОСШ (4):

У<ш(0 = Г„+О,39[сч(0-с1<1т1п] . (7)

Здесь очт|п = 6 дБ - минимально возможное канальное ОСШ. С целью оптимизации величины коэффициента подавления (7) квантованные канальные ОСШ о, 0(4) предварительно модифицировались по следующему правилу. Если, начиная с пятого канала, не набирается пяти каналов с ОСШ в них не менее 12 дБ, то все ОСШ ач(1) меньшие 12 дБ принимаются равными величине <тчтщ. Если же, кроме того, выполняется условие у(ш)<46, то остальные канальные ОСШ также приравниваются минимально возможному значению счт;п. В противном случае (при наличии не менее пяти ач(¡): ач0)£ 12, ¡>5) модификация не производится.

Перевод коэффициентов (7) из логарифмического масштаба в линейный производится по формуле

Ус„(0=тщ(иО^20). (8)

В (8) учтено, что коэффициент подавления не может принимать значения большие 1.

Используя найденные коэффициенты подавления (8) для каждого канала, осуществлялась фильтрация текущего сегмента в частотной области:

^(О^кйГнО), 0<1515; вЦк), 05к<^(0). Здесь £н(0 - номера отсчетов спектра 0(т,к), соответствующих минимальной и максимальной дискретной частоте в ¡-ом канале. Далее, для перехода во временную область для массива Н(т,к) выполнялось обратное ДПФ и восстанавливалась последовательность отсчетов теперь уже очищенного от помехи сигнала.

Н(т,к)=

Предложенный алгоритм подавления стационарных помех в речевом сообщении был реализован программно в системе MathLab 8.0 и аппаратно на базе цифрового процессора обработки сигналов (ЦПОС) TMS320VC5410A. В качестве реализации наблюдаемых данных использовалась аддитивная смесь речевого сигнала и шума автомобильного двигателя. Эффективность работы алгоритма шумоподавления оценивалась по величине ОСШ на выходе шумоподавителя:

SNR = 101gks2(/)/X(s(/)-s(/))2j. (9)

-ill

Здесь s(/) - отсчеты исходного речевого сигнала, §(/) - отсчеты сигнала на выходе шумоподавителя. В частности, при входном ОСШ 0 дБ выходное ОСШ составило ~ 9 дБ; при входном ОСШ 6 дБ — 21 дБ.

Качественная иллюстрация работы шумоподавителя показана на рис. 1, 2. Здесь приведены временные диаграммы речевого сигнала, искаженного шумом двигателя автомобиля "Волга", на входе и выходе шумоподавителя.

mmow ~. -:

i00jt№;08vi:

i0t>;S,0;Q2;

Рис. 1. Тестовый речевой сигнал, искаженный шумом двигателя автомобиля "Волга"

I............. 1»»«; „■..". ; ZJMSI".' 7""

____

Рис. 2. Сигнал на выходе шумоподавителя при воздействии на вход тестового речевого сигнала, искаженного шумом двигателя автомобиля "Волга"

Из рис. 1, 2 и проведенного анализа следует, что использование рассмотренного алгоритма шумоподавления позволяет существенно снизить уровень шума в речевом сигнале и, как следствие, повысить разборчивость речи и комфортность звучания. Таким образом, можно сделать вывод о возможности использования предложенного шумоподавителя для борьбы с аддитивными (квази)стационарными помехами, накладывающимися на речевые сообщения. При этом качество его работы в соответствии с полученными характеристиками можно

оценить как коммерческое. -------

Положим теперь, что помимо аддитивной смеси полезного сигнала и помехи (1) наблюдателю доступен канал, содержащий сигнал, коррелированный с помехой. На основе

имеющихся данных необходимо осуществить подавление помехи до заданного уровня. Одним из наиболее эффективных методов восстановления полезного сигнала, основанных на использовании дополнительного канала, является адаптивное шумоподавление, называемое также иногда эхоподавлением. В самом общем виде структурная схема эхоподавителя показана на рис. 3. Здесь обозначено: s(n) - полезный сигнал; v(n) - помеха; Ф], Ф2, Ф3 - линейные фильтры, описывающие условия распространения полезного сигнала и помехи; Ф4 -адаптивный фильтр L-oro порядка с меняющимися во времени весовыми коэффициентами а k (n), к = О, L -1; е(п) - выходной сигнал шумоподавителя; п - дискретное время.

___|to>____J

источник | полезного I сигнала L -Г" I

ф,

источник I

Ф,

активных j |

-■! I

помех

Ф,

алгоритм модификации коэффициентов ak(n)

Рис. 3. Структурная схема алгоритма подавления эхо-помех в речевых сигналах

Адаптивный шумоподавитель (эхоподавитель) имеет два входа, на которые поступают основной сигнал х(п), представляющий собой аддитивную смесь полезного сигнала s(n) и помехи v(n), и опорный сигнал v'(n), который коррелирован с помехой v(n) и некоррелирован с полезным сигналом s(n). Опорный сигнал обрабатывается адаптивным фильтром, весовые коэффициенты ak(n), к = О, L—1 которого модифицируются с поступлением каждого нового отсчета х(п) и v'(n) так, чтобы минимизировать мощность выходного сигнала е(п):

e(n) = s(n)+v(n)-v(n). (10)

Порядок адаптивного фильтра L определяется максимально возможной задержкой помехи v(n) относительно опорного сигнала v'(n).

Значение мощности выходного сигнала будет минимальным, если вычитаемый из основного сигнала х(п) профильтрованный опорный сигнал v(n):

v(n)=£ak(n)v'(n-k), (11)

k=0

где v'(n -k) - отсчет опорного сигнала с k-го отвода линии задержки адаптивного фильтра, будет наилучшим образом аппроксимировать помеху v(n). В этом случае отклик е(п) будет представлять собой сумму неискаженного полезного сигнала s(n) и минимальной остаточной ошибки v(n)- v(n), называемой минимальным остаточным шумом.

В работе рассмотрено несколько способов модификации весовых коэффициентов ait(n) адаптивного фильтра на основе метода наименьших средних квадратов (ИСК). Показано, что требуемое качество эхоподавления при произвольных входных ОСШ обеспечивает алгоритм, определяемый соотношениями

ak(n+l) = ak(n)+f(n)e(n)v'(n-k), k = 0,L-l, (12)

где весовая функция f (п) на каждом шаге адаптации модифицируется по правилу

f(n)=a/L[ô2(n)+ô^(n)]. (13)

В (13) а - безразмерный параметр, выбираемый из диапазона (0;0,l), а ст2(п) и ôj>(п) -оценки мощностей ст2(п) и выходного е(п) и опорного v'(n) сигналов эхоподавите-

ля, которые могут найдены как

i n2(k).

k=n-N+l

Здесь Г|(п) - один из процессов е(п) или v'(n), N - число отсчетов, выбираемое так, чтобы величина N/fa (где ffl - частота дискретизации), с одной стороны, была не слишком малой,

- по крайней мере, не менее 6-8 интервалов корреляции соответствующего процесса, - а с другой стороны, не превышала интервала его стационарности (или локальной стационарности).

Для времени сходимости т предложенного алгоритма (10)-(13) и предельной (при n -» œ ) величины избыточной среднеквадратической ошибки (СКО) Рсх(п), обусловленной отклонением коэффициентов ak(n) от своих оптимальных значений, при малых значениях параметра адаптации а справедливы аппроксимации

T«L!pex(n)+Pmin +al]j2aol, Pjco)«a<£/2(l+<£/Pmill). Здесь Pmin - минимальная мощность выходного сигнала е(п) эхоподавителя. При этом

lim РехН = 0, lim Р«.х(со) = астУ2, Pmm->0 Pinta"*0

так что алгоритм эхоподавления (10)-(13) в отличие от известных алгоритмов эффективно работает как при больших, так при малых уровнях полезного сигнала.

Рассмотренные в работе известные и предложенный НСК-алгоритмы эхоподавления были реализованы программно в системе MatLab 8.0 и аппаратно на базе ВДЮС TMS320VC5410A. В качестве реализации наблюдаемых данных х(п) использовалась аддитивная смесь полезного s(n) и мешающего v(n) речевых сигналов, получаемых от разных источников, что весьма часто встречается на практике. Эффективность функционирования эхоподавителей оценивалась по величине выходного отношения ОСШ, рассчитываемого аналогично (9), и величине коэффициента ослабления помехи v(n):

ENR = 101gfc(e(n)-s(n))2/2y(n) . - п / n

Было установлено, что из проанализированных алгоритмов эхоподавления алгоритм (10)-(13) обладает наилучшими характеристиками. При различных входных ОСШ, длине адаптивного фильтра и задержках помехового сигнала v(n) относительно опорного v'(n) он обеспечивает выходное ОСШ не менее 18 дБ и коэффициент ослабления помехи не менее -12 дБ.

Для качественной иллюстрации работы эхоподавителя (10)-(13) ниже приведены типовые временные диаграммы полезного речевого сигнала s(n]7pHc. 4), мешающего речевого сигнала (помехи) v(n) (рис. 5) и остаточного шума v(n)- v(n) (рис. 6).

пота _ ,00:0005 |ЯНШ.......,ЯНШ5..........,000025

■у

Рис. 4. Временная диаграмма полезного сигнала

1ЩЖ..... /Л'ХЯ . ,0Ш!5 -■ ■ |ШДЩ . .

■а

Рис. 5. Временная диаграмма реализации помехового сигнала на входе эхоподавителя

Рис. 6. Временная диаграмма помехового сигнала на выходе эхоподавителя

Как следует из рис. 4-6 и проведенного анализа, использование алгоритма эхоподав-ления (10)-(13) позволяет существенно снизить уровень помехового сигнала в реализации наблюдаемых данных и, как следствие, повысить разборчивость речи и комфортность звучания. Прослушивание отфильтрованного материала показало значительное улучшение качества восприятия.

Во втором разделе рассматривается синтез, анализ и практическая реализация алгоритма верификации личности на основе статистических характеристик речевых сигналов.

Первоначально было найдено преобразование, позволяющее аппроксимировать исходное речевое сообщение (парольное слово) стационарным эргодическим случайным процессом авторегрессии конечного порядка. В ходе проведенного корреляционно-спектрального анализа было установлено, что несгационарность речевого сигнала обусловлена наличием гармонических составляющих на частотах основного тона (ОТ) и нескольких первых обертонов. Тогда в качестве возможной процедуры преобразования речевого сигнала к стационарному эргодическому случайному процессу можно использовать процедуру фильтрации, включающую в себя следующие этапы: I) оценка частоты ОТ ^ и первых пяти

обертонов fn, n = 2,6; 2) расчет режекторных фильтров на частотах fn, n = 1, б; 3) пропускание исходного речевого сигнала через систему режекторых фильтров на частотах f„, n = 1, б. Для выравнивания спектра речевого сообщения система режекторных фильтров дополнялась высокочастотным фильтром с частотой среза fc = 40 Гц.

Определение частоты ОТ f| исходного речевого сигнала осуществлялось на основе схемы Бюй-Башго, модифицированной для оценки периодов скрытых периодичностей случайных функций. Частоты обертонов f„, п = 2,6 определялись на основе выборочной нормированной спектральной плотности речевого сигнала S(f) методом перебора значений функции S(f) на интервале f е [nfj -П,п£] +П], где П = 30 Гц, с шагом Af = 0,01 П согласно правилу

fn = arg sup S(f).

fe[nf|-n,nfi+n]

По найденным оценкам частот ОТ и обертонов проектировались режекторные фильтры с центральными частотами fn, n = 1, б. Поскольку человеческое ухо обладает слабой чувствительностью к фазовым соотношениям спектральных составляющих сложного акустического колебания, в качестве режекторных фильтров использовались фильтры с бесконечными импульсными характеристиками, обладающие минимальной неравномерностью в полосе пропускания (фильтры Баттерворта). Для более сильного подавления основного тона и ряда формант полосы режекщш Прп, n = 1, б фильтров определялись и корректировались в процессе обучения системы верификации и составляли для среднестатистического диктора ~ 100 - 200 Гц. Получаемые при этом фильтры являлись устойчивыми и физически реализуемыми.

Порядок авторегрессионной модели, описывающей профильтрованный речевой сигнал w(n), устанавливался с помощью критерия %2 на основе суммы квадратов отсчетов кор _

эффициента корреляции остаточной ошибки e(n)= ^akw(n-k), где ак, к = 0,р -коэффи-

к=0

циенты авторегрессии (линейного предсказания), причем а о =1. В результате было показано, что с вероятностью 0,999 речевой сигнал после обработки системой фильтров адекватен авторегрессионному случайному процессу 24-го порядка. Полученное таким образом параметрическое описание профильтрованного речевого сигнала использовалось далее для синтеза алгоритма верификации личности.

При синтезе алгоритма верификации эталонное и верифицируемое слова были представлены в виде наборов коэффициентов и ^j], описывающих соответствующие авторегрессионные модели. В качестве меры различимости двух речевых сигналов после проведенного сравнительного анализа была выбрана мера различимости в пространстве параметров линейного предсказания, определяемая следующим соотношением:

D(aV)=(äB -53)|N—i5L_](aB-a'f.

3®Kf a'T

Здесь индекс «Т» обозначает операцию транспонирования, N - число отсчетов эталонного речевого сигнала, аН - корреляционная матрица эталонного речевого сигнала после обработки (фильтрации) размером (р + 1)х(р + 1). В результате структурная схема синтезированного алгоритма верификации диктора по речевому сообщению примет вид, показанный на рис. 7.

Ио

Рис. 7. Структурная схема алгоритма верификации личности по речевому сообщению

Предложенный алгоритм верификации был реализован программно (на языке высокого уровня "СИ") и аппаратно (на базе ЦПОС ТМ8320УС5410А) и протестирован для набора дикторов, состоящего из 56 мужчин и 44 женщин. В качестве кодовых слов использовались слова "да", "нет", "один", "допуск". Порог верификации Б0 подбирался экспериментально, в ходе обучения системы. Для этого каждое кодовое слово произносилось каждым диктором по 5 раз. Тестирование алгоритма включало в себя два этапа. На первом этапе на основе сформированной тестовой базы, состоящей из 100 реализаций кодового слова, произнесенных разными дикторами, выполнялась верификация одного диктора при различных условиях. Перечень условий и вероятности правильного принятия решения представлены в таблице 1. При этом для каждой ситуации верификации испытания проводились для каждого диктора из банка данных не менее 50 раз. На втором этапе использовался банк данных, рассчитанный для одного диктора. Остальные 99 дикторов по 50 раз произносили известное кодовое слово, и при каждом произношении кодового слова осуществлялся процесс их верификации. Вероятности правильного отклонения постороннего диктора для случаев, когда эталонный диктор является мужчиной или женщиной, представлены в таблице 2.

Таблица 1

_Результаты процесса верификации диктора из банка данных системы_

Вероятность правильной верификации, % Условия верификации

99,6 норма

99,1 тон голоса занижен

99,3 тон голоса завышен

88,0 тон голоса сильно занижен

99,2 тон голоса сильно завышен

85,1 быстрый темп речи

82,8 медленный темп речи

99,1 простуженный голос

45,2 НСС ЗЗЖйТ

0,0 другая парольная фраза

Таблица 2

Результаты процесса верификации для неэталонных дикторов

Верифицируемый неэталонный диктор Вероятность правильной неверификации, %

эталонный диктор

мужчина женщина

мужчина 99,2 99,9

женщина 99,9 99,1

Таким образом, из полученных в ходе моделирования результатов следует, что разработанная система верификации устойчиво функционирует при различных режимах работы (за исключением режима сильных преднамеренных искажений, вносимых в процессе верификации дикторами из банка данных) и обеспечивает точность правильной верификации (правильной неверификации) более 99 %. Это позволяет рекомендовать использовать предложенные параметрическое описание речевых сигналов и алгоритм опознавания диктора по голосу в технических системах с голосовым управлением и иных различных соответствующих практических приложениях.

В третьем разделе рассматриваются принципы работы и практическая реализация речевых кодеков на основе методов линейного предсказания с возбуждением от кода (СЕЬР-вокодер) или со смешанным возбуждением (МЕЬР-вокодер), адаптированные к русской речи.

Структура СЕЬР-вокодера представлена в виде двух независимых функциональных узлов: кодирования речевых выборок и декодирования параметров сигнала. Кодирование речевых выборок, т.е. определение параметров входного речевого сообщения, выполняется с помощью процедуры анализа через синтез. Для этого узел кодирования содержит три блока: блок линейного предсказания, блок анализа речевого сигнала и блок синтеза сигнала. Структурные схемы двух последних блоков представлены на рис. 8 и рис. 9 соответственно. Узел декодирования синтезирует речевой сигнал из принятых параметров сигнала. Структурная схема узла декодирования показана на рис. 10.

Распределение информационных бит одного кодированного речевого фрейма СЕЬР-вокодера по стандартам 18-96-А и 18-733 представлено соответственно в таблицах 3 и 4.

Таблица 3.

Распределение информационных бит внутри речевого фрейма по стандарту 18-96-А

Десять кодированных спектральных пар Четыре периода основного тона Ь Четыре коэффициента усиления В Восемь индексов кодового возбуждения! Восемь коэффициентов усиления в

40 28 12 56 24

Таблица 4.

Распределение информационных бит внутри речевого фрейма по стандарту 18-733

Десять кодированных спектральных пар Четыре периода основного тонаЬ Четыре коэффициента усиления В Шестнадцать индексов кодового возбуждения I Восемь коэффициентов усиления в

32 32 12 164 24

Таким образом, вокодер преобразует речевой фрейм в пакет из 160 бит кодированной информации при использовании стандарта 18-96-А или в пакет из 264 бит - при использовании стандарта 18-733. При этом выходная скорость речевого кодера составляет 8000 бит/с (для стандарта 18-96-А) или 13200 бит/с (для стандарта 18-733).

Оценка качества синтезированной речи проводилась по отношению сигнал/шум (ОСШ) для синтезированного сигнала. С этой целью входное речевое сообщение делилось на N сегментов (Ы варьировалось от 200 до 2000). Длина каждого сегмента принималась равной длине субфрейма (40 выборок). Среднее ОСШ вычислялось по следующей формуле:

ОСШ[дБ]=1]Г1018 ^ 1=0

.11=0 / п=0

где в,- (п) - выборки входного речевого сигнала, (п) - выборки синтезированного речевого сигнала. Измерения проводились на 100 записанных речевых файлах (55 мужских и 45 женских голосов). Все полученные значения ОСШ при этом находились в диапазоне 15-25 дБ (для вокодера, спроектированного по стандарту 18-96-А), что характеризует качество синтезированной речи как близкое к коммерческому, и 20-30 дБ (для вокодера, спроектированного по стандарту Ш-733), что характеризует качество синтезированной речи, как коммерческое.

Рис. 8. Упрощенная структурная схема блока анализа кодирующего узла

$(п-60)

1 О ь&в

Рис. 9. Структурная схема блока синтеза кодирующего узла

Рис. 10. Структурная схема блока синтеза декодирующего узла

Таким образом, рассмотренные вокодеры, использующие линейное предсказание с возбуждением от кода и совместимые со стандартами 18-96-А и 18-733, могут быть рекомендованы к применению в системах связи общего и специального назначения, обеспечивающих пропускную способность 8000-13200 бит/с.

При построении МЕЬР-вокодера также используется параметрическая модель кодирования с линейным предсказанием, но с рядом дополнительных особенностей; 1) вся рабочая область частот делится на полосы (от 3 до 7), в каждой из которых принимается решение о классе сигнала возбуждения - "шумовой" или "голосовой", таким образом, суммарный сигнал возбуждения является смешанным; 2) форма "голосового" сигнала возбуждения реконструируется в декодере с помощью амплитуд коэффициентов Фурье, вычисленных в анализирующей части вокодера; 3) для реализации одиночных импульсов возбуждения применяются "апериодические" импульсы; 4) с целью улучшения "натуральности" звучания синтезированной речи применяются дисперсионный и адаптивный фильтры. Функциональная схема блока анализа МЕЬР-вокодера представлена на рис. 11.

Входное речевое сообщение фильтруется и дискретизируется с частотой выборок 8000 выб/с. Число уровней квантования дискретизированного сигнала составляет 16 разрядов. Далее сигнал разбивается на речевые сегменты (фреймы) длительностью 22,5 мс и подается на блок определения коэффициентов линейного предсказания (КЛП). В этом блоке с помощью процедуры Левинсона-Дарбина находятся десять КЛП, которые являются коэффициентами фильтра кратковременного предиктора (синтезирующего фильтра).

Непосредственное квантование КЛП достаточно сильно сказывается на изменении амплитудно-частотной характеристики (АЧХ) синтезирующего фильтра и его устойчивости, поэтому вместо КЛП на практике используются однозначно связанные с ними линейные спектральные пары (ЛСП), которые обладают следующими преимуществами: 1) расположение их в порядке возрастания и сепарация друг от друга на расстояние не менее 50 Гц, являются необходимыми и достаточными условиями устойчивости синтезирующего фильтра; 2) квантование ЛСП существенно меньше сказывается на АЧХ синтезирующего фильтра и,

следовательно, необходимо существенно меньшее количество бит для передачи параметров сигнала при сохранении его качества. В настоящее время наиболее широко используется векторное квантование ЛСП с использованием многостраничных фиксированных кодовых книг. При этом находится номер вектора, имеющего минимальное взвешенное среднеквадратичное отклонение от полученного вектора ЛСП. Нами предполагается использование четы-рехстраничной кодовой книги (7 бит, 6 бит, 6 бит, 6 бит), так что для кодирования вектора спектральных пар требуется 25 бит на речевой фрейм.

Рис. 11. Функциональная схема блока анализа MELP-вокодера

Полученные квантованные ЛСП преобразуются обратно в КЛП и используются в инверсном фильтре краткосрочного предиктора, с помощью которого из исходного речевого сигнала выделяется сигнал возбуждения. Анализируя сигнал возбуждения, находят следующие параметры: 1) частоту ОТ; 2) форму сигнала возбуждения (ФСВ); 3) голосовую активность в выбранных полосах.

Для оценки частоты ОТ в настоящей работе используются корреляционные методы с интерполяцией сигнала возбуждения, основанные на базе теории Голда-Рабинера. Показано, что передача оценки частоты ОТ в синтезирующую часть вокодера требует 7 бит на фрейм.

ФСВ определяется с помощью кодовой книги, состоящей из 256 векторов, представляющих упрощенные формы сигнала возбуждения в частотной области. При этом для передачи ФСВ требуется 8 бит на речевой фрейм.

При определении голосовой активности вся область частот делится на полосы, и по каждой полосе принимается решение о "голосовом" или "шумовом" сигнале возбуждения. Исследования показывают, что 5 частотных полос дают приемлемое качество речи, при этом код голосовой активности (КГА) составляет 5 бит на фрейм.

Коэффициент усиления (КУ) в большинстве кодеков вычисляется по логарифму энергии речевого фрейма. Коэффициент усиления передается два раза в течение речевого фрейма (значение КУ и приращение КУ) и требует 8 бит на фрейм.

Суммарный список параметров, передаваемый от кодера к декодеру, представлен в таблице 5. Функциональная схема блока синтеза MELP-вокодера представлена на рис. 12.

В блоке синтеза в соответствии с кодом сигнала возбуждения (КСВ) и КГА формируется суммарный сигнал возбуждения, который поступает на синтезирующий фильтр с адаптивным расширением спектра. Полученная синтезированная речь усиливается согласно де-

кодированному коэффициенту усиления. Все МЕЬР-параметры интерполируются синхронно

периоду основного тона.

Таблица 5.

Суммарный список параметров, передаваемый от кодера к декодеру в МЕЬР-вокодере

Параметр "Голосовой" фрейм (бит) "Шумовой" фрейм (бит)

Линейные спектральные пары 25 25

Амплитуды преобразования Фурье 8 -

Коэффициенты усиления (2 за фрейм) 8 8

Период основного тона, общая озвучен-ность фрейма 7 7

Озвученность по полосам 4 -

Флаг периодичности 1 -

Защита от ошибок - 13

Синхробит 1 1

Всего за кадр, 22,5 мс 54 54

Синтезированная речь

Рис. 12. Функциональная схема блока синтеза МЕЬР-вокодера

Предлагаемый алгоритм построения низкоскоростного вокодера на основе линейного предсказания со смешанным возбуждением был промоделирован на персональном компьютере с использованием языка программирования "СИ". Проверка качества речи выполнялась согласно ГОСТ 16600-72 «Передача речи по трактам радиотелефонной связи» и показала, что данный алгоритм обеспечивает словесную разборчивость не Менее 95% при сохранении узнаваемости и интонационной окрашенности голоса диктора.

Задача практической реализации низкоскоростного вокодера, имеющего приемлемое качество синтезированной речи при ошибках в канале до пяти процентов, решалась в два эгада. Первоначально на основе синтезированного ранее алгоритма МЕЬР-2400 была снижена скорость битового речевого потока до 1200 бит/с без существенной деградации качества выходного речевого сигнала. Далее были выбраны оптимальные в смысле качества синтезированной речи коды, исправляющие ошибки, и разработан метод замены выбитых речевых параметров на интерполированные значения параметров предшествующих фреймов. После этого суммарная скорость потока информационных и проверочных бит составила 2400 бит/с.

При понижении скорости битового потока основное внимание уделялось сохранению разборчивости речи. Анализ алгоритма речевого преобразования МЕЬР-2400 показывает, что амплитуды преобразования Фурье сигнала возбуждения отвечают в основном за узнаваемость диктора и передачу интонации. Поэтому в синтезируемом вокодере МЕЬР-1200 они не используются. Передача коэффициента усиления один раз за фрейм также не приводит к существенному ухудшению разборчивости. Для дальнейшего понижения битовой скорости была разработана техника передачи ЛСП только по четным фреймам с помощью адаптивного выбора фреймов на основе решетчатой структуры с критичными значениями. Для нечетных фреймов вектор ЛСП находился с помощью интерполяционных методов из соседних четных фреймов.

В вокодере МЕЬР-2400 выбираются 5 полос, в каждой из которых принимается решение "голосовой" или "шумовой". Озвученность по полосам при этом передается четырьмя битами на фрейм. Прямое уменьшение числа полос приводит к существенной деградации синтезированного сигнала. Поэтому для уменьшения количества передаваемых бит была использована частота границы голосовой активности с двухбитовой кодировкой.

Суммарный список параметров алгоритма МЕЬР-1200, передаваемый от кодера к декодеру за один речевой фрейм длительностью 45 мс, представлен в таблице 6.

Таблица 6.

Набор параметров, передаваемый от кодера к декодеру в базовом алгоритме МЕ1ЛЧ200, за

один речевой фрейм

Параметр "Голосовой" фрейм (бит) "Шумовой" фрейм (бит)

Линейные спектральные пары (ЛСП) 25 25

Амплитуды преобразования Фурье сигнала возбуждения - -

Коэффициенты усиления (2 за фрейм) 5+5 5+5

Период основного тона, общая озвученность фрейма (2 за фрейм) 7+7 7+7

Озвученность по полосам (2 за фрейм) 2+2 -

Флаг периодичности 1 1

Защита от ошибок - -

Синхробит - -

Всего за кадр, 45 мс 54 50

Для исправления ошибок битового потока было исследовано несколько классов кодов: БЧХ, Голея, Хемминга и др. Согласно проведенным исследованиям был сделан вывод о том, что наиболее оптимальными в смысле качества восстановленной речи являются коды Хемминга (8,4), позволяющие исправлять одиночную ошибку в четырех информационных

битах и определять наличие ошибки в двух битах, а также коды Голея (23,12), исправляющие три ошибки в двенадцати информационных битах. При проектировании вокодера был сделан выбор в пользу кодов Хеммиига, поскольку они позволяют более точно устанавливать, в каком именно речевом параметре произошла ошибка, и заменять только этот параметр его значением из предыдущего фрейма. В результате к пятидесяти четырем информационным битам добавлялись пятьдесят четыре проверочных бита, и общая скорость битового потока составила 2400 бит/с.

Предлагаемый алгоритм построения низкоскоростного вокодера MELP_M-2400 был промоделирован на персональном компьютере с использованием языка программирования "СИ", а также реализован аппаратно на базе ЦПОС TMS320VC5410A. Для определения качества синтезированной речи использовалась диагностическая мера приемлемости (Diagnostic Acceptability Measure - DAM). С этой целью были записаны 55 wav-фэйлов с мужскими голосами и 45 wav-фэйлов с женскими голосами, которые затем прослушивались на выходе тракта 30 слушателями, после чего определялась средняя оценка мнений - MOS. Оценка производилась по пятибалльной шкале. За пять баллов принималось качество речи, синтезированной вокодером MELP-2400. На основе полученных результатов были сделаны следующие выводы: 1. Вокодер MELP-1200 имеет разборчивость синтезированной речи близкую к вокодеру MELP-2400 и может быть использован в каналах с пропускной способностью 1200 кбит/с. 2. При битовых ошибках в канале более 1 % вокодер MELP_M-2400 дает существенно лучшее качество синтезированной речи по сравнению с известными вокодерами со смешанным возбуждением.

В качестве возможных путей по улучшению качества корректирующих кодов были предложены сверточные коды со скоростью 1/3. Как показывают исследования, в этом случае при использовании схемы декодера Витерби с мягким решением приемлемое качество речи может обеспечиваться при вероятности канальной ошибки до 10 %. В каналах с памятью эффективным оказывается применение каскадных кодов (например, последовательное кодирование кодами Рида-Соломона или сверточными кодами) или турбокодов.

Дальнейшее понижение скорости битового потока вокодера возможно при использовании модифицированных кодовых книг, отражающих возможные сочетания ЛСП, и суммарного векторного кодирования речевых параметров, При этом ожидаемая скорость рече-преобразующих устройств может составить не более 800 бит/с при словесной разборчивости речи не менее 90 %.

В четвертом разделе исследуется возможность восстановления скрытого от наблюдения речевого сообщения на основе метода реконструктивной томографии.

Положим, что звуковой сигнал s(t), содержащий информацию о некотором звуковом образе cs(tj ,t2)> воздействует на слуховую систему в течение времени локальной стационарности Тс. На периферии слуха скалярный сигнал s(t) преобразуется в многомерный стохастический поток dN(t,z), 0 < z < Z = 24, (где z - высота тона в барках), отображающий реакции множества нейронов слухового нерва. При этом в качестве математической модели такого потока можно использовать многомерный пуассоновский случайный процесс с функцией плотности вероятности вида

Здесь п - число импульсов, реализовавшееся в конкретном эксперименте на плоскости [гд], т - среднее число импульсов, связанное с плотностью импульсации (1, г) соотношением

г «+т„/г

Плотность импульсации Hs(t,z) z-ro слухового канала определяется текущей спектральной плотностью Gs(z,t) сигнала s(t). При этом можно показать, что

K-0,5*a2Af(z)Gs[2;rf(z)it] . (15)

с

В (15) функции

Af(z) = 2Fch(bz), f(z)=Fzsh(bz), (16)

а /, К, а2, F, Fz, b - постоянные слуха, равные 1 = 1/0,22, К = 4, а2 = 0,02, F = 0,04 кГц, Fz =0,579 кГц, b =0,1615 барк"1.

Обозначим ср = 2nf(z)Tc. Тогда с учетом (16)

dcp(z)/dz = 27iTcFzbch(bz)

или

dz = d9/2nTcFzbch(bz)|z=4,(ç) Разрешая последнее уравнение относительно z, находим

г = Т(ф) = Ь1п[ф/ф2+^1 + (ф/ф2)2], 9z=2tiTcF2. (17)

Используя далее (17), для среднего числа импульсов m(t) (14) получаем

t+Tc/2 я

m(t)s J dt jRs(T,9)d9.

t-Tc/2 0

Здесь функция

Hs(t,z) (/ K-0,5na2Af(z)Gs[2rf(z),t]

ф2ЬсЬ(Ьг) Тсф2ЬсЬ(Ьг)

характеризует проекционные данные искомого речевого образа сД^,^). Можно показать, что прообраз К.5(1,ф) связан со звуковым образом сДц,^) преобразованием Радона, определяемым соотношением:

ОО 00

кЗ(1>Ф)= | |с8(х,у)5(хсозф + у8П1ф-1)<Ыу,

—оо —од

где 8(-) - дельта-функция Дирака. Тогда, зная функцию Я^.ф) и используя стандартную форму обращения в пространстве Радона, приходим к следующему правилу восстановления звукового образа:

^ 11 оо

с5(1,,12) = -Гёф [И-з(т'ф)1С05Ф +12 ^Ф-т)•

О -да

Здесь - функция, спектр которой 0({) удовлетворяет условию )=тг^| (импульсная характеристика идеального дифференциатора).

На рис.13-15 приведены три томографических (интонационных) портрета для вокализованных сегментов речи с периодом основного тона Т0 = 2 мс и 14 мс (рис. 13 и 14 соответственно) и невокализованного участка (рис.15), наблюдаемых на интервале Тс =60 мс. На вокализованных сегментах четко видна периодичность, характерная для голосового возбуждения; на невокализованных сегментах периодичности не наблюдается.

Таким образом, на основе проведенного анализа можно предложить метод автоматического формирования речевых сообщений, использующий современный подход при решении задач реставрации скрытых изображений по их проекционным данным.

Рис. 13. Томографические портреты вокализованных сегментов речи при Т0 = 2 мс

Рис. 14. Томографические портреты вокализованных сегментов речи при Т0 = 14 мс

О 50 11» 150 2»

Рис. 15. Томографические портреты невокализованных сегментов речи

Если функция К.(1:,ф) задана с некоторой погрешностью (проекционные данные за-шумлены), то регуляризирующий алгоритм томографической реконструкции речевого сообщения может быть представлен в виде

Л п оо

с5({1>12)=- Г«1ч> ГК- в (т» ф) Ва 0 г соя <р-И 2 втер--с) «к, (18)

Я;

О -со

2пу1 { луг )

u(t)=д/[ц2-фf+^lv(^l2+ф?)f+ф?[2ц+v(^l2+ф?)f/ [у(р2+Ф? )]*,

У(0=агс1в{ф,[2ц + у(|12 +ф?)]/[ц2-ф? +цу(ц2 +ф?)]}, <р, =2я1, а ц и V - стабилизирующие параметры, обеспечивающие минимум функционала качества восстановления речевого сообщения, как томографического изображения, в пространстве Радона.

В работе показано, что алгоритм (18) позволяет корректно восстанавливать скрытые от непосредственного наблюдения речевые сообщения по зашумленным проекционным данным слуховой системы.

В приложении I исследованы различные полиномиальные аппроксимации наиболее часто встречающихся на практике нелинейных функций. Выполнен сравнительный анализ этих аппроксимаций между собой, а также с аппроксимациями, приведенными в литературе. Сформулированы критерии в пользу выбора того или иного полиномиального приближения заданной нелинейной функции, исходя из специфики задачи, а также с учетом ограничений, определяемых точностью алгоритма и быстродействием системы.

В приложении II рассмотрено представление сигналов через обобщенные спектры, полученные на основе различных систем ортогональных многочленов. Предложены быстрые методы спектрального анализа, использующие квадратурные формулы повышенной точности. Исследованы погрешности полиномиальных аппроксимаций, и сформулированы критерии выбора оптимального ортогонального базиса для вычисления обобщенного спектра.

В заключении подведены итоги по диссертации в целом и сформулированы основные результаты работы:

1. Предложены и развиты методики синтеза алгоритмов фильтрации речевых сигналов на фоне стационарных и эхо-помех, алгоритмов верификации личности по голосу, алгоритмов низкоскоростной передачи речевых сообщений в каналах связи с высоким процентом ошибок, томографических алгоритмов восстановления речевого сообщения, скрытого в наблюдаемом речевом сигнале.

2. На основе предложенных методик синтезированы алгоритмы подавления стационарных и эхо-помех в речевых сигналах, алгоритм верификации личности по парольному слову, алгоритмы кодирования речевых сигналов на скоростях до 1200 бит/с при различных состояниях канала связи, алгоритмы автоматического формирования и восстановления речевых сообщений, в том числе по зашумленным проекционным данным слуховой системы.

3. С помощью современных средств программирования и на платформе цифрового процессора обработки сигналов ТМ8320УС5410А выполнена практическая реализация синтезированных шумо- и эхоподавителей, системы верификации личности по парольному слову длительностью до 0,5 с, вокодеров с линейным предсказанием с возбуждением от кода, работающих на скоростях 8000-13200 бит/с, вокодеров со смешанным возбуждением, работающих на скоростях 1200-2400 бит/с при ошибках в канале связи до 1 % и на скоростях до 2400 бит/с при ошибках в канале связи до 5 %. Установлена работоспособность и эффективность всех спроектированных устройств.

4. Указаны пути дальнейшего повышения качества функционирования алгоритмов кодирования и распознавания речевых сообщений. Раскрыты возможности и перспективы построения моделей речеобразования и слуховой системы на основе метода реконструктивной томографии.

Основные результаты диссертации опубликованы в следующих работах.

Публикации в журналах из Перечня ведущих рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертации на соискание ученой степени доктора и кандидата наук

1. Санников В.Г., Максимов М.И. Регуляризирующий алгоритм восстановления речевого сообщения методом реконструктивной томографии // Электросвязь. - 2007. -№ 10. -С. 52-55.

2. Максимов М.И., Сидорова H.A., Чернояров О.В. Проектирование низкоскоростных речепреобразующих устройств для каналов с высоким процентом ошибок // Электросвязь. -2008.-№7.-С. 48-50.

3. Максимов М.И., Сидорова H.A. Принципы работы и практическая реализация речевого кодека на основе метода линейного предсказания с возбуждением от кода // Научно-технические ведомости СПбГТУ. - 2008. - № 5. - С. 75-81.

Публикации в межвузовских сборниках научных трудов и материалах конференций

4. Максимов М.И. Применение качественной математики с лингвистическим типом переменных при разработке экспертных систем для решения некоторых задач связи // Прикл. матем. в задачах связи / Моск.техн. ун-т связи и информатики - М.: МТУСИ, 2000,- С. 62-74.

5. Максимов М.И. Применение модифицированной кластеризации по с-средним при анализе изображений // Прикл. матем. в задачах связи / Моск.техн. ун-т связи и информатики

- М.: МТУСИ, 2000. - С. 52-61.

6. Максимов М.И. Нечёткая кластеризация изображений и ей применение при фильтрации шумов и восстановлении изображений // Научная конференция профессорско-преподавательского, научного и инженерно-технического состава: Тез. докл. - М.: МТУСИ.

- 2002. - Книга 1.- С. 99.

7. Максимов М.И. Применение метода нечётких правил для описания изображений и восстановления зашумлённых изображений // Научная конференция профессорско-преподавательского, научного и инженерно-технического состава: Тез. докл. - М.: МТУСИ. -2002.-Книга 2.-С. 45.

8. Максимов М.И. Применение М- кластеризации по с-средним с использованием функций принадлежности второго рода при анализе изображений Н Международная научно-практическая конференция «Фундаментальные проблемы радиоэлектронного приборостроения» Intermatic-2006: Матер, конф. - М.: МИРЭА, ЦНИИ «Электроника». - 2006. - Часть 2. -С. 92-95.

9. Санников В.Г., Максимов М.И. Система анализа речевых сообщений на основе методов реконструктивной томографии и нечёткой кластеризации по функциям принадлежности второго рода // «Проблемы управления безопасностью сложных систем - 2006» / Труды 14-ой Международной конференции, 2006 г. Москва. - М.: РГГУ, 2006.

10. Санников В.Г., Максимов М.И. Методы реконструктивной томографии и нечёткой кластеризации по функциям принадлежности второго рода в решении задачи анализа речи // Международная научно-практическая конференция «Фундаментальные проблемы радиоэлектронного приборостроения» Intermatic-2007: Матер, конф. - М.: МИРЭА, ЦНИИ «Электроника». - 2007. - Часть 2. - С. 67-71.

11. Максимов М.И. Практическая реализация речепреобразующих устройств со скоростями менее 4,8 кбит/с // Радиоэлектроника, Электротехника и Энергетика: Тез. докл. XV Междунар. науч.-техн. конф. студентов и аспирантов-Т.1.-М.: Изд. МЭИ,2009.-С. 132-134.

Работы № 1-3 опубликованы в изданиях, соответствующих списку ВАК РФ.

Подписано в печать 27.04.2009 г. Формат 60 х 84/16 . Бумага офсетная. Усл. печ. л. 1,0 Тираж 100 экз. Заказ № 1063

Отпечатано в типографии Воронежский ЦНТИ - филиал ФГУ «Объединение «Росинформресурс» Минпромэнерго России

394730, г. Воронеж, пр. Революции, 30

Оглавление автор диссертации — кандидата технических наук Максимов, Максим Игоревич

ВВЕДЕНИЕ.

1. ПОДАВЛЕНИЕ АДДИТИВНЫХ ПОМЕХ В РЕЧЕВЫХ 8 СООБЩЕНИЯХ.

1.1. Постановка задачи подавления аддитивных помех в речевых сообщениях.

1.2. Подавление стационарных помех в речевых сообщениях.

1.3. Подавление эхо-помех в речевых сообщениях.

1.4. Выводы.

2. ВЕРИФИКАЦИЯ ЛИЧНОСТИ НА ОСНОВЕ

СТАТИСТИЧЕСКИХ СВОЙСТВ РЕЧЕВЫХ СООБЩЕНИЙ.

2.1. Постановка задачи.

2.2. Способы статистического описания речевых сообщений.

2.3. Верификация личности по сформированному речевому сообщению.

2.4. Выводы.

3. НИЗКОСКОРОСТНОЕ КОДИРОВАНИЕ РЕЧЕВЫХ СООБЩЕНИЙ.

3.1. Принципы работы и практическая реализация речевого кодека, совместимого со стандартами IS-96-A и IS

3.2. Построение речепреобразующих устройств на основе метода линейного предсказания со смешанным возбуждением.

3.3. Проектирование низкоскоростных речепреобразующих устройств для каналов с высоким процентом ошибок.

3.4. Выводы.

4. ВОССТАНОВЛЕНИЕ РЕЧЕВЫХ СООБЩЕНИЙ МЕТОДОМ РЕКОНСТРУКТИВНОЙ ТОМОГРАФИИ.

4.1. Функциональная модель периферии слуха.

4.2. Восстановление речевых сообщений на основе метода реконструктивной томографии.

4.3. Восстановление речевых сообщений на основе метода реконструктивной томографии по зашумленным данным.

4.4. Выводы.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Максимов, Максим Игоревич

В настоящее время техническая информатика представляет собой широкую и быстро развивающуюся область, включающую в себя как чисто физические проблемы, так и разнообразные прикладные вопросы. Одной из важных теоретических и практических задач является разработка новых методов и алгоритмов обработки речевых сообщений. В качестве основных направлений исследований здесь можно выделить четыре направления: фильтрация речевых сообщений на фоне помех различной природы, аутентификация личности по голосу, низкоскоростное кодирование речевых сигналов и распознавание речи.

К сожалению, известные на текущий момент алгоритмы обработки речевых сообщений не свободны от недостатков. Так, приводимые в литературе [10,22,23,55,56 и др.] алгоритмы адаптивной линейной и нелинейной фильтрации, в частности, предполагающие наличие марковской модели сообщения, требуют достаточно большого объема априорной информации, либо существенно зависят от выбора начальных параметров модели и не всегда обеспечивают достаточно высокое выходное отношение сигнал/шум (ОСШ). Алгоритмы аутентификации [19,28,39 и др.] подразумевают, как правило, достаточно сложное параметрическое описание речевых сообщений и не всегда обеспечивают желаемую точность правильного принятия решения. Применение рекомендуемых алгоритмов низкоскоростного кодирования речевых сообщений [15,24,82,89 и др.] для передачи информации по каналам с высоким процентом ошибок приводит к существенному ухудшению узнаваемости диктора и фразеологической разборчивости речи. Наконец, до сих пор остается открытым вопрос об эффективных методах восстановления скрытых речевых сообщений и адекватных радиотехнических моделях голосовой и слуховой систем [35-38].

Целью работы является

1. Синтезировать эффективные алгоритмы фильтрации речевых сообщений, искаженных стационарными (фоновыми) и нестационарными (эхо) помехами.

2. Разработать эффективный алгоритм верификации диктора по голосу на основе статистических свойств речевых сообщений.

3. Определить эффективные алгоритмы низкоскоростного (до 2400 бит/с и ниже) кодирования речевых сообщений. Найти структуру алгоритма для канала передачи информации с высоким (до 5 %) процентом ошибок.

4. На основе метода реконструктивной томографии разработать модели формирователей слухового спектра (для распознавания свойств голосового тракта) и интонационного портрета (для распознавания источника голосового возбуждения).

5. Выполнить практическую реализацию предложенных алгоритмов обработки речевых сообщений в реальном масштабе времени на современной элементной базе.

Поставленные в диссертации вопросы исследовались в четырех разделах.

В первом разделе получены новые практически реализуемые алгоритмы фильтрации речевых сообщений на фоне помех. Рассмотрены два важных с практической точки зрения случая: 1) когда наблюдению доступна аддитивная смесь речевого сообщения и стационарного шума; 2) когда в дополнении к наблюдаемой реализации имеется канал, содержащий сигнал, коррелированный с шумом; условие стационарности шума при этом может нарушаться. Показано, что синтезированные алгоритмы являются достаточно универсальными, требуют минимального объёма априорной информации и позволяют существенно улучшить качество звучания (восприятия). Выполнена их программная (с помощью системы Math-Lab 8.0) и аппаратная (на базе цифрового процессора обработки сигналов (ЦПОС) TMS320VC5410A) реализация в реальном масштабе времени.

Во втором разделе выполнены синтез, анализ и практическая реализация алгоритма верификации личности на основе статистических характеристик речевых сообщений. Найдено преобразование, позволяющее аппроксимировать исходное речевое сообщение (парольное слово) стационарным эргодическим случайным процессом авторегрессии конечного порядка. Исследованы различные меры различимости двух речевых сообщений, представленных авторегрессионными коэффициентами, и выбрана наилучшая из них. Методами статистического моделирования и с помощью аппаратной реализации на базе ЦПОС TMS320VC5410A установлена работоспособность и достаточно высокая эффективность предложенного алгоритма верификации личности по голосу.

В третьем разделе рассмотрены принципы работы речевых кодеков на основе методов линейного предсказания с возбуждением от кода (CELP-вокодер) или со смешанным возбуждением (MELP-вокодер). Исходя из критериев желаемого качества кодированной речи, скорости битового потока, устойчивости речевого преобразования к канальным ошибкам, минимума затрачиваемых ресурсов цифрового сигнального процессора синтезированы и практически реализованы QCELP-вокодеры со скоростями 8000-13200 бит/с; MELP-вокодеры со скоростями 1200-2400 бит/с и высоким качеством речи, сохраняющимся при 1% ошибок в канале; MELP-вокодер со скоростью 2400 бит/с с удовлетворительным уровнем разборчивости речи, сохраняющимся при 5% ошибок в канале. Экспериментально с помощью программного (на языке высокого уровня С) и аппаратного (на базе ЦПОС TMS320VC5410A) моделирования установлена работоспособность и эффективность предложенных речепреобразующих устройств. Указаны пути дальнейшего понижения скорости битовых потоков вокодеров.

В четвертом разделе исследованы возможности восстановления скрытого от наблюдения речевого сообщения на основе метода реконструктивной томографии. В пренебрежении и с учетом мешающего действия шумов синтезированы алгоритмы формирования скрытого речевого сообщения по текущей спектральной плотности наблюдаемого речевого сигнала с помощью обратного преобразования в пространстве Радона. Для последнего случая с целью получения устойчивых и корректно работающих алгоритмов томографической реконструкции зашумленных речевых сообщений разработаны регуляризирующие процедуры весовой функции во временной или частотной областях. Показано, что полученные результаты имеют достаточно общий характер и могут быть использованы при проектировании систем автоматического формирования речевых сообщений по их проекционным данным.

В заключении подводятся итоги проведенных исследований, сформулированы выводы по работе в целом.

В приложении 1 исследованы различные полиномиальные аппроксимации наиболее часто встречающихся на практике нелинейных функций. Выполнен сравнительный анализ этих аппроксимаций между собой, а также с аппроксимациями, приведенными в литературе. Сформулированы критерии в пользу выбора того или иного полиномиального приближения заданной нелинейной функции, исходя из специфики задачи, а также с учетом ограничений, определяемых точностью алгоритма и быстродействием системы.

В приложении 2 рассмотрено представление сигналов через обобщенные спектры, полученные на основе различных систем ортогональных многочленов. Предложены быстрые методы спектрального анализа, использующие квадратурные формулы повышенной точности. Исследованы погрешности полиномиальных аппроксимаций, и сформулированы критерии выбора оптимального ортогонального базиса для вычисления обобщенного спектра.

Результаты диссертационной работы докладывались на 4 Международных и 6 научно-технических конференциях, опубликованы в работах [97-107] и использовались в разработках ОАО "Электросигнал" (г. Воронеж) и ЗАО "СПРОС ИТ" (г. Москва).

Заключение диссертация на тему "Оптимальные и субоптимальные алгоритмы обработки речевых сообщений при наличии аддитивных искажений"

Результаты работы имеют достаточно общий характер и могут быть использованы при проектировании цифровых систем передачи речевых сообщений промышленного и военного назначения, автоматических систем опознавания личности по голосу, перспективных систем распознавания речевых сигналов, систем аппаратурного анализа случайных процессов, в различных областях радиотехники, связанных с цифровой обработкой случайных и детерминированных сигналов.

ЗАКЛЮЧЕНИЕ

Диссертационная работа посвящена синтезу, анализу, моделированию и практической реализации эффективных алгоритмов фильтрации, верификации, кодирования и восстановления речевых сообщений.

В работе получены следующие основные результаты.

1. Предложены и развиты методики синтеза алгоритмов фильтрации речевых сигналов на фоне стационарных и эхо-помех, алгоритмов верификации личности по голосу, алгоритмов низкоскоростной передачи речевых сообщений в каналах связи с высоким процентом ошибок, томографических алгоритмов восстановления речевого сообщения, скрытого в наблюдаемом речевом сигнале.

2. На основе предложенных методик синтезированы алгоритмы подавления стационарных и эхо-помех в речевых сигналах, алгоритм верификации личности по парольному слову, алгоритмы кодирования речевых сигналов на скоростях до 1200 бит/с при различных состояниях канала связи, алгоритмы автоматического формирования и восстановления речевых сообщений, в том числе по зашумленным проекционным данным слуховой системы.

3. С помощью современных средств программирования и на платформе цифрового процессора обработки сигналов TMS320VC5410A выполнена практическая реализация синтезированных шумо- и эхоподавите-лей, системы верификации личности по парольному слову длительностью до 0,5 с, вокодеров с линейным предсказанием с возбуждением от кода, работающих на скоростях 8000-13200 бит/с, вокодеров со смешанным возбуждением, работающих на скоростях 1200-2400 бит/с при ошибках в канале связи до 1 % и на скоростях до 2400 бит/с при ошибках в канале связи до 5 %. Установлена работоспособность и эффективность всех спроектированных устройств.

4. Указаны пути дальнейшего повышения качества функционирования алгоритмов кодирования и распознавания речевых сообщений. Раскрыты возможности и перспективы построения моделей речеобразования и слуховой системы на основе метода реконструктивной томографии.

На основе результатов, полученных в диссертационной работе, можно сделать следующие выводы.

1. Развитая в работе методика синтеза алгоритмов фильтрации речевых сигналов, основанная на различиях в изменении спектра полезного сигнала и помехи, позволяет получить практически реализуемый в реальном масштабе времени на базе современных цифровых устройств алгоритм подавления стационарных шумов в речевых сообщениях, обеспечивающий выходное отношение сигнал/шум не менее 9 дБ. Если условие стационарности помехи, искажающей речевой сигнал, нарушается, но имеется дополнительный канал, сигнал в котором коррелирован с помехой и не коррелирован с речевым сообщением, то для борьбы с помехами (эхо-помехами) эффективным оказывается применение модифицированного алгоритма наименьших средних квадратов. Эхоподавитель, работающий по данному правилу, позволяет существенно повысить качество речи и комфортность звучания и по своим характеристикам превосходит имеющиеся отечественные аналоги.

2. При решении задачи верификации в качестве параметрического описания эталонного и верифицируемого слов длительностью порядка или менее 0,5 сек эффективно использовать коэффициенты авторегрессионных моделей 24-го порядка, получаемых из исходных речевых сигналов путем их фильтрации набором режекторных фильтров на частотах основного тона и пяти первых обертонов и фильтра верхних частот с частотой среза 50 Гц. Сравнение эталонного и верифицируемого слов целесообразно производить на основе метрики в пространстве линейного предсказания, определяющейся с помощью корреляционной матрицы эталонного речевого сигнала после обработки размером на единицу превышающим порядок модели авторегрессии. Тогда для реализации процесса верификации одного диктора в памяти системы достаточно хранить информацию, состоящую из 63 вещественных чисел, что существенно меньше требуемого объема памяти для параметрического описания речевых сигналов в действующих системах верификации. Построенный таким образом алгоритм обеспечивает точность верификации диктора по голосу не менее 99 %, и, по крайней мере, не уступает по характеристикам имеющимся отечественным и зарубежным аналогам при существенно более простой технической реализации по сравнению с известными прототипами.

3. Для построения низкоскоростных речепреобразующих устройств (вокодеров), работающих на скоростях до 2400 бит/с и ниже, перспективным является использование метода линейного предсказания со смешанным возбуждением. Спроектированные на основе данного метода вокодеры могут обеспечивать словесную разборчивость речи не менее 95 % при сохранении узнаваемости и интонационной окрашенности голоса диктора, если число ошибок в канале связи не превышает 1 %. При высоком (до 5 %) проценте канальных ошибок приемлемое качество синтезированной речи на тех же скоростях может быть получено путем снижения в 2 раза скорости передачи данных за счет замены несущественных речевых параметров на интерполированные значения параметров предыдущих фреймов и использования корректирующих кодов, таких как коды Хемминга (8,4) или коды Голея (23,12).

Дальнейшее понижение скорости битового потока вокодера со смешанным возбуждением возможно при использовании модифицированных кодовых книг, отражающих возможные сочетания линейных спектральных пар, и суммарного векторного кодирования речевых параметров. При этом ожидаемая скорость речепреобразующих устройств может составить не более 800 бит/с при словесной разборчивости речи не менее 90 %.

4. Слуховая система человека построена по принципу реконструктивной томографии и может быть адекватно описана функциональной моделью, отображающей одномерное пространство входного сигнала в многомерный стохастический точечный процесс, допускающий пуассонов-скую аппроксимацию. При этом скрытое речевое сообщение определяется текущей спектральной плотностью наблюдаемого речевого сигнала и может быть восстановлено (при отсутствии шумов) по последней с помощью обратного преобразования в пространстве Радона. При наличии мешающего действия шумов наблюдения для восстановления скрытого речевого сообщения в формулах обращения преобразования Радона необходимо использовать регуляризирующие процедуры для весовых функций во временной или частотной областях. Получаемые при этом алгоритмы томографической реконструкции речевых сообщений обладают устойчивостью и позволяют корректно восстанавливать скрытые от непосредственного наблюдения речевые сообщения по зашумленным проекционным данным слуховой системы.

5. Синтезированные в работе оптимальные и субоптимальные алгоритмы обработки речевых сообщений могут быть реализованы на современной элементной базе с использованием цифровых сигнальных процессоров или программируемых логических интегральных схем.

Библиография Максимов, Максим Игоревич, диссертация по теме Теоретические основы информатики

1. Акоев Г.Н., Андрианов Ю.Н. Синаптическая передача в рецепторах акустико-латеральной системы. — Л.: Наука, 1989. — 139 с.

2. Андерсон Т. Статистический анализ временных рядов. — М.: Мир, 1976. -775 с.

3. Блаттер К. Вейвлет-анализ. Основы теории: Пер. с нем. Учебное пособие. М.: Техносфера, 2004. - 273 с.

4. Бовбель Е.И., Хейдоров И.Э. Статистические методы распознавания речи: скрытые марковские модели // Зарубежная радиоэлектроника. Успехи современной радиоэлектроники, 1998. — № 3. — С.45-65.

5. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. -М.: Мир, 1974. Вып. 2.-408 с.

6. Вольтерра В. Теория функционалов, интегральных и интегро-дифференциальных уравнений. М.: Наука, 1982. - 304 с.

7. Гоноровский И.С. Радиотехнические цепи и сигналы: Учебник для вузов. -М.: Изд. «Дрофа», 2006. 719 с.

8. Градштейн И.С., Рыжик И.М. Таблицы интегралов, сумм, рядов и произведений. М.: Наука. ГР ФМЛ, 1971. - 1108 с.

9. Громаков Ю.А. Стандарты и системы подвижной радиосвязи. М.: ЭкоТрендз Ко, 2000. - 239 с.

10. Гурьев Ю.Ю. Марковская нелинейная фильтрация речевого сигнала из смеси со стационарным шумом // Радиотехника, 1983. № 12. - С. 48-51.

11. Дженкинс Г., Ватте Д. Спектральный анализ и его приложения М.: Мир, 1972. Вып. 1.-316 с. Вып. 2.-287 с.

12. Драган Я.П., Рожков В.А., Яворский И.Н. Методы вероятностного анализа ритмики океанологических процессов. Л.: Гидрометеоиздат, 1987. -320 с.

13. Климов Г.П. Инвариантные выводы в статистике. М.: Мир, 1973. -200 с.

14. Корн Г., Корн Т. Справочник по математике для научных работников. — М.: Наука, 1984. 831 с.

15. Коротаев Г.А. Эффективный алгоритм кодирования речевого сигнала на скорости 4.8 кбит/с и ниже // Зарубежная радиоэлектроника, 1996. -№ 3. С. 52-68.

16. Купер Дж., Макгиллем К. Вероятностные методы анализа сигналов и систем: Пер. с англ. — М.: Мир, 1989. 376 с.

17. Маркел Дж., Грэй А.Х. Линейное предсказание речи: Пер. с англ. — М.: Связь, 1980.-308 с.

18. Марпл-мл. С.Л. Цифровой спектральный анализ и его приложения: Пер. с англ. М.: Мир, 1990. - 584 с.

19. Мартынович П.В. Специфика детектора речи для системы верификации диктора по голосу // Цифровая обработка сигналов, 2004. № 3.-С.4-8.

20. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео / Д. Ватолин, А. Ратушняк, М. Смирнов, В. Юкин. — М.: Диалог-МИФИ, 2003. 384 с.

21. Мысовских И.П. Лекции по методам вычислений. СПб.: Изд. СПбГУ, 1998.-472 с.

22. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и связь, 1985. - 176 с.

23. Назаров М.В., Прохоров Ю.Н., Ковязин В.И. Алгоритмы адаптивной марковской фильтрации зашумленных речевых сигналов // Радиотехника, 1983. -№ 12.-С. 10-15.

24. Невдяев Л.М. CDMA: IS-95 // Сети. 2000. - № 3. - С. 6-8.

25. Оппенгейм А.В., Шафер Р.В. Цифровая обработка сигналов. М.: Связь, 1979.-416 с.

26. Оппенгейм А., Шафер Р., Стокхэм-мл Т. Нелинейная фильтрация сигналов, представленных в виде произведения и свертки // ТИИЭР, 1968. -Т. 56.- №8.

27. Попков Ю.С., Ашимов А.А., Асаубаев К.Ш. Статистическая теория автоматических систем с динамической частотно-импульсной модуляцией. — М.: Наука, 1988.-256 с.

28. Прохоров А.А. Биометрия на службе безопасности // Компьютерпресс, 2000. № 3. - С. 68-73.

29. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. -М.: Радио и связь, 1984. 240 с.

30. Рабинер JL, Голд Б. Теория и применение цифровой обработки сигналов. М.: Мир, 1978. - 440 с.

31. Рабинер JI. Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ. — М.: Радио и связь, 1981. 495 с.

32. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу. М.: Радио и связь, 1981. - 224 с.

33. Розенберг А. Автоматическая верификация диктора: Обзор // ТИИЭР, 1976. Т. 64. - № 4. с. 66-79.

34. Самарский А.А., Гулин А.В. Численные методы. М.: Наука, 1989. -429 с.

35. Санников В.Г. Слуховой прием звуковых сигналов и реконструктивная томография. // Четвертая Межрегиональная НТК «Обработка сигналов в системах двусторонней телефонной связи», 20-24 марта 1995 г., Москва, МНТО РЭС им. А.С. Попова. С. 136 - 138.

36. Санников В.Г. Теоретический анализ заметности искажений речевых сигналов по громкости их слухового восприятия // Электросвязь, 2002.-№ 12.-С. 38-42.

37. Санников В.Г. Устойчивый алгоритм статистической идентификации авторегрессионной модели речевого сигнала. // Цифровая обработка сигналов, 2001. — № 2. С. 10-14.

38. Санников В.Г., Коробанов А.В. Пороговые кривые маскировки и слуховые вейвлеты // INTERMATIC-2005. Ч. 2. Материалы IV Международной НТК «Фундаментальные проблемы радиоэлектронного приборостроения», 25-28 октября 2005 г., Москва. — С. 63-66.

39. Свириденко В.А. Речевые технологии в биометрике: верификации и идентификация диктора // Материалы Первой биометрической конференции «Биометрия-2002», Москва, 2002 (CD).

40. Cere Г. Ортогональные многочлены. — М.: Физматгиз, 1962. 500 с.

41. Серебренников М.Г., Первозванский А.А. Выявление скрытых периодичностей. — М.: Наука, 1965. -244 с.

42. Сиберт У. Преобразование стимула в периферической слуховой системе. В кн. «Распознавание образов. Исследование живых и автоматических распознающих систем»: Пер. с англ. — М.: Мир, 1970. — С. 134-169.

43. Слепов Н. Оценка показателей ошибок цифровых линий передачи // Электроника: Наука, Технология, Бизнес, 2002. -№5. С. 22-28.

44. Слуховая система. / Ред. Я.А. Альтман Л.: Наука, 1990. - 620 с.

45. Солонина А.И., Улахович Д.А., Яковлев Л.А. Алгоритмы и процессоры цифровой обработки сигналов. — СПБ.: БХВ-Петербург, 2002. — 464 с.

46. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. М.: Наука. ГР ФМЛ, 1986. - 288 с.

47. Тихонов А.Н., Арсенин В.Я., Тимонов А.А. Математические задачи компьютерной томографии. — М.: Наука. ГР ФМЛ, 1987. 160 с.

48. Троицкий И.Н. Статистическая теория томографии.- М.: Радио и связь, 1989.-240 с.

49. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964.284 с.

50. Фант Г. Анализ и синтез речи. Новосибирск: Наука, 1970. — 306 с.

51. Фланаган Дж. Анализ, синтез и восприятие речи. — М.: Связь, 1968. -396 с.

52. Фланаган Дж. Вычислительные машины говорят и слушают. Речевое сообщение человека с машиной // ТИИЭР, 1976. Т. 64. - № 4. - С. 78-91.

53. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации: Пер. с нем. / Под ред. Б.Г. Белкина М.: Связь, 1971. - 256 с.

54. Цифровая обработка компьютерных и телевизионных изображений / под ред. Ю.Б. Зубарева, В.П. Дворковича. М.: МЦНТИ, 1997. - 442 с.

55. Чучупал В .Я., Чичагов А.В., Маковкин К.А. Цифровая обработка речевых сигналов // Internet Publish: http://www.ccas.ru/DCM/Chichag/index.htm.

56. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. — М.: Радио и связь, 2000. 456 с.

57. Шельгов В.И. Новое в технологии TETRA // Сети и системы связи, 2004.-№5.-С. 76-77.

58. R. Abouchakra Delay Estimation for Transform Domain Acoustical Echo Cancellation. Department of Electrical Engineering, McGill University, Montreal, Canada, September 1997. 89 p.

59. Acoustic-Echo Cancellation Software for Hands-Free Wireless Systems // Application Report: SPRA 162, Texas Instruments, July 1997 81 p.

60. G. von Bekesy Experiments in Hearing. McGraw-Hill Book Company. New York, 1960.-37 p.

61. S.F. Boll "A spectral subtraction algorithm for suppression of acoustic noise in speech" // Proc. IEEE Int. Conf. on Acoustics, Speech, Signal Processing, (Washington, DC), pp. 200-203, Apr. 1979.

62. D. van Compernolle "Hearing aids using binaural processing principles" //Acta Otolaryngologica Suppl., vol. 469, pp. 76-84, 1990.

63. D. van Compernolle, W. Ma, F. Xie, and M. van Diest "Speech recognition in noisy environments with the aid of microphone arrays" // Speech Commun., vol. 9, pp. 433-442, Dec. 1990.

64. J.R. Deller, Jr., J.H.L. Hansen, and J.G. Proakis Discrete Time Processing of Speech Signals (2d ed.). New York: IEEE Press, 2000. 800 p.

65. Digital Signal Processing Applications Using the ADSP-2100 Family. Volume 1 / Prentice Hall, Englewood Cliffs, NJ 07632, 1992. 591 p.

66. Digital Signal Processing Laboratory Using the ADSP-2101 Microcomputer / Analog Devices, Inc., Norwood, MA 02062, 1991. 300 p.

67. N. Dillier et al. "Digital signal processing (DSP) applications for multiband loudness correction digital hearing aids and cochlear implants" // J. Rehab. Res. Dev., vol. 30, pp. 95-109, 1993.

68. A. Gersho, S. Wang, and K. Zeger "Vector Quantization Techniques in Speech Coding, Advances in Speech Signal Processing" // S. Furui and M. Sondhi editors, Marcel Dekker, Inc., NewYork, pp. 49-84, 1992.

69. J.E. Greenberg "Modified LMS Algorithms for Speech Processing with an Adaptive Noise Canceller" // IEEE Trans. Speech Audio Processing, vol. 6, pp. 338-351, July 1998.

70. J.E. Greenberg and P.M. Zurek "Evaluation of an adaptive-beamforming method for hearing aids" // J. Acoust. Soc. Amer., vol. 91, pp. 1662-1676, Mar. 1992.

71. W.A. Harrison, J.S. Lim, and E. Singer "A new application of adaptive noise cancellation" // IEEE Trans. Acoust., Speech Signal Processing, vol. 34, pp.21-27, Feb. 1986.

72. W.M. Hartmann Signals, Sound, and Sensation. Springer Verlag, 1997.168 p.

73. Implementing a Line-Echo Canceller Using theBlock Update and NLMS Algorithms on the TMS320C54x DSP // Application Report: SPRA 188, Texas Instruments, April 1997. — 36 p.

74. F. Itakura and N. Sugamura "LSP Speech Synthesizer, its Principle and Implementation" // ASJ Trans, of the Com. on Speech Res., S79-46, pp. 349-356, Nov. 1979.

75. S. Makino, Y. Kaneda, and N. Koizumi "Exponentially weighted stepsize NLMS adaptive filter based on the statistic of a room impulse response" // IEEE Trans. Speech Audio Processing, vol. 1, pp. 101-108, Jan. 1993.

76. J.A. Maxwell and P.M. Zurek "Reducing acoustic feedback in hearing aids" // IEEE Trans. Speech Audio Processing, vol. 3, pp. 304-313, July 1995.

77. D.G. Messerschmitt "Echo cancellation in the speech and data transmission" // IEEE J. Select. Areas Commun., vol. 2, pp. 283-297, Mar. 1984.

78. Mouly M., Pautet M.-B. The GSM System for Mobile Communication. Europe Media Duplication, 1992. 702 p.

79. D. O'Shaughnessy Speech Communication: Human and Machine. Addison Wesley, New York, NY, USA, 1987. 237 p.

80. Panos E. Papamichalis "Practical Approaches to Speech Coding". Prentice-Hall, Inc. Upper Saddle River, NJ, USA, 1987. 322 p.

81. J. Picone "Signal Modeling Techniques in Speech Recognition" // IEEE Proceedings, vol. 81, no. 9, pp. 1215-1247, September 1993.

82. L.R. Rabiner, B.H. Juang Fundamentals of Speech Recognition. Prentice-Hall, Inc., Englewood Cliffs, N.J., 2nd edition, 1999. 496 pp.

83. C. Redding, N. DeMinco, J. Lindner Voice Quality Assessment of Vocoders in Tandem Configuration // National Communications System's Office of Standards and Technology, Washington, DC, No. DNRO 66008. 2001. - 21 p.

84. T. Robinson Speech Analysis. Lent Term, 1995. 44 p.

85. D.T.M. Slock "On the convergence behavior of the LMS and normalized LMS algorithms" // IEEE Trans. Signal Processing, vol. 41, pp. 2811-2825, Sept. 1993.

86. M.M. Sondhi and D.A. Berkley "Silencing echoes on the telephone network" // Proc. IEEE, vol. 68, pp.948-963, Aug. 1980.

87. A.S. Spanias "Speech coding: A tutorial review" // Proc. of the IEEE, Vol. 82, No. 10, October 1994, pp.1541-1582.

88. Lynn M. Supplee, Alan V. McCree "Melp: The New Federal Standart at 2400 bps" // International conference on acoustics, speech, and signal processing, Munich, ALLEMAGNE (21/04/1997), pp. 1591-1594.

89. TIA/EIA/IS-733 High Rate Speech Service Option 17 for Wideband Spread Communication System / Telecommunications Industry Association, 1998. -124 p.

90. TIA/EIA/IS-96-A Speech Service Option Standard for Wideband Spread Spectrum Digital Cellular System / Telecommunications Industry Association, 1995.-96 p.

91. S.V. Vaseghi Advanced Signal Processing and Digital Noise Reduction. Wiley Teubner, 1996. 141 p.

92. R. Wehrmann, J. Van Der List, and P.Meissner "A noise-insensitive compromise gradient method for the adjustment of adaptive echo cancellers" // IEEE Trans. Commun., vol. 28, pp. 753-759, May 1980.

93. M.Weiss "Use of an adaptive noise canceller as an input preprocessor for a hearing aid" // J. Rehab. Res. Dev., vol. 24, pp. 93-102, 1987.

94. B. Widrow, S.D. Stearns Adaptive Signal Processing. Prentice-Hall, Inc., Englewood Cliffs, N. J., 1985. 99 p.

95. Максимов М.И. Применение качественной математики с лингвистическим типом переменных при разработке экспертных систем для решения некоторых задач связи // Прикл. матем. в задачах связи / Моск. техн. ун-т связи и информатики М.: МТУ СИ, 2000. - С. 62-74.

96. Максимов М.И. Применение модифицированной кластеризации по с-средним при анализе изображений // Прикл. матем. в задачах связи / Моск. техн. ун-т связи и информатики М.: МТУ СИ, 2000. - С. 52-61.

97. Максимов М.И. Применение М-кластеризации по с-средним с использованием функций принадлежности второго рода при анализе изображений // Международная научно-практическая конференция

98. Фундаментальные проблемы радиоэлектронного приборостроения» Intermatic-2006: Матер, конф. М.: МИРЭА, ЦНИИ «Электроника». - 2006. -Часть 2.-С. 92-95.

99. Санников В.Г., Максимов М.И. Регуляризирующий алгоритм восстановления речевого сообщения методом реконструктивной томографии // Электросвязь. 2007. - № Ю. - С. 52-55,

100. Максимов М.И., Сидорова Н.А., Чернояров О.В. Проектирование низкоскоростных речепреобразующих устройств для каналов с высоким процентом ошибок // Электросвязь, 2008. № 7. - С. 48-50.

101. Максимов М.И., Сидорова Н.А. Принципы работы и практическая реализация речевого кодека на основе метода линейного предсказания с возбуждением от кода // Научно-технические ведомости СПбГТУ. 2008. -№5.-С. 75-81.