Исследование эффективности адаптивных линейных предсказателей речи для низкоскоростных кодеков

Нго Куанг Минь

Теоретические основы информатики

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Исследование эффективности адаптивных линейных предсказателей речи для низкоскоростных кодеков

кандидата технических наук: Нго Куанг Минь
город: Москва
год: 1997
специальность ВАК РФ: 05.13.17

Автореферат по информатике, вычислительной технике и управлению на тему «Исследование эффективности адаптивных линейных предсказателей речи для низкоскоростных кодеков»

Автореферат диссертации по теме "Исследование эффективности адаптивных линейных предсказателей речи для низкоскоростных кодеков"

^ МИНИСТЕРСТВО ПУТЕЙ СООБЩЕНИЯ РФ ^Московский государственный университет путей сообщения 5 (МИИТ)

ги_

На правах рукописи

НГО КУАНГ МИНЬ

УДК 621. 391 (912)

ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ АДАПТИВНЫХ ЛИНЕЙНЫХ ПРЕДСКАЗАТЕЛЕЙ РЕЧИ ДЛЯ НИЗКОСКОРОСТНЫХ КОДЕКОВ

05. 13. 17. Теоретические оси информатики

АВТОРЕФЕРАТ Диссертация на соискание у* ой степени кандидата технических наук

Москва - 1997

Работа выполнена в Московском г .-ударственном университете пуп сообщения (МИИТ)

Научный руководитель: Член корреспондент академии транспорта

Российской Федерации, доктор технических наук, профессор

А. Ф. Фомин

Официальные оппоненты: Академик международный академии

информатики (МАИ) -доктор технических наук, профессор

A. В. Шилейко -кандидат технических наук, доцент

B. В. Березкин

Ведущее предприятие: Научно-исследовательский и проектно-конструкторски институт средств автоматизации на железнодорожном транспорте (НИИЖА).

Защита диссертации состоится "¿.■4" ^а^гул 1997 г. в " " часс на заседании диссертационного совета Д. 114.05.07 при Московско государственном университете путей сообщения (МИИТ) по адресу: 103055, г. Москва, А-55, ГТС, ул. Образцова, 15, ауд.

С диссертацией можно познакомиться в библиотеке университете. Автореферат разослан " ¿.f-" н о Л 1997 г.

Ученый секретарь диссертационного

совета К 114. 05. 10, д.т.н., профессор А. Хохлов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы Одним из главных направлений развития систем связи является внедрение цифровых систем с интеграцией различных сообщений: речи, видео, данных, факс, телеметрии, телеуправления, мультимедиа и др.

В интересах наиболее эффективного использования пропускной способности различных каналов связи (спутниковых, сотовых, волоконно-оптических, кабельных и других) в современных цифровых системах широко используются различные методы сжатия сообщений (эффективные методы дискретно-цифровых преобразований и энтропийное кодирование) и повышения достоверности передачи (помехоустойчивое кодирование). Поскольку в различных системах связи значительный объем занимают речевые сообщения, то в настоящее время практически во всех указанных современных цифровых системах связи используются низкоскоростные кодеки речи на различные скорости передачи: от 2.4 до 32 Кбит/с., выполняемые по различным рекомендациям МККТТ и UTI (последней из которых является рекомендация G.729, разработки 1996г.) и по рекомендациям отдельных фирм разработчиков.

Проведенный аналитический обзор различных методов сжатия речевых сигналов, рекомендаций МККТТ и конкретных разработок различных фирм показал, что одним из основных элементов большинства используемых низкоскоростных кодеков речи является адаптивный линейный предсказатель, обычно состоящий из комбинации кратковременного (формантного) и долговременного (основного тона) предсказателей. Вместе с тем следует отметить, что в различных стандартах ("INMARSAT", GSM, "MARATHON" фирмы Micom и др.) используются предсказатели различного сравнительно невысокого порядка, определенной конфигурации при различных длительностях кадра. Необходимость использования адаптивных линейных предсказателей связана с существенно нестационарным характером речевых сигналов. Поэтому актуальной задачей является исследование (синтез и анализ) различных адаптивных линейных предсказателей высокого порядка и различной конфигурации.

Известно, что оптимизация параметров низкоскоростных кодеков реч] требует достаточно детальных знаний статистических характеристик речевой сигнала. Эти характеристики хорошо изучены применительно к европейским I американским языкам, что нельзя сказать о вьетнамском языке.

Поэтому весьма актуальной и важной в научном и практическом смысл! является также исследование статистических характеристик вьетнамского I русского языка и их влияние на повышение эффективности сжатия речи. Целью диссертационной работы является разработка высокоэффективны: адаптивных комбинированных линейных предсказателей высокого порядка дл: низкоскоростных кодеков русской и вьетнамской речи. В соответствии с данно* целью были поставлены и решались следующие задачи:

1. Аналитический обзор различных алгоритмов сжатия речевых сигналов, реко мендаций МККТТ и конкретных разработок различных фирм с целью опреде ления перспективного направления исследования, направленных на совершен ствование низкоскоростных кодеков речи.

2. Синтез и анализ различных методов построения адаптивных линейных пред сказателей речевых сигналов и выбор методики выбора оптимальных парамет ров предсказателя по минимуму дисперсии погрешности предсказания.

3. Аналитический обзор основных характеристик русской и вьетнамской речи 1 экспериментальные исследования по конкретным фонограмма статистически; характеристик вьетнамской и русской речи.

4. Экспериментальные исследования эффективности адаптивных линейны:

предсказателей различной конфигурации высокого порядка для вьетнамской I русской речи.

Методы исследований В диссертационной работе используются современные теоретические и экспериментальные методы моделирования и оптимизации н; ЭВМ. Теоретические исследования выполнены с использование методов теорш случайных процессов, математической статистики и оптимальной линейно! фильтрации. Экспериментальные исследования выполнены методами статист! ческого и математического моделирования на ЭВМ.

Научная новизна диссертации заключается в следующем:

1. Развита методика оптимизации адаптивных линейных предсказателей высокого порядка комбинированного типа для речевых сигналов.

2. Впервые исследованы статистические характеристики (плотности распределения вероятностей, корреляционные функции, спектральные характеристики, коэффициенты асимметрии и эксцесса) вьетнамской речи и проведено сравнение с соответствующими характеристиками русской речи.

3. Впервые путем статистического моделирования по конкретным фонограммам русской и вьетнамской речи исследования эффективность адаптивных линейных предсказателей высокого порядка (до 22) и различной конфигурации. Практическая ценность работы заключается в следующем:

1. Полученные статистические характеристики вьетнамской и русской речи позволяет более эффективно использовать их для решения различных прикладных задач и прежде всего построения высокоэффективных алгоритмов построения низкоскоростных кодеков прежде всего вьетнамской речи.

2. Полученные результаты экспериментальных исследования адаптивных линейных предсказателей высокого порядка и различной конфигурации указывают пути повышения эффективности подобных предсказателей показано в зависимости от условий их использования.

Личный вклад Все основные научные результаты и результаты статистического моделирования на ЭВМ получены лично автором.

Реализа ция результатов Результаты работы использовались при выполнении научно-исследовательской работы в ОКБ МЭИ (шифр работы "Билингва") и в Радиотехническом институте им. А. Л. Минца при разработке технического проекта спутниковой системы связи, в лабораторных работах по курсу "Теоретические основы транспортной связи".

Апробация работы на кафедре РЭС МИИТа. Основные положении диссертационной работы докладывались и обсуждались: На научно-технических конференциях и семинарах молодых ученых МИИТа / Москва, 1994-1997г.

Публикацин По теме диссертационной р.'' >ты опубликовано три печатных работы: одна в журнале "Электросвязь" и две в трудах МИИТа. Структура и объем работы Диссертационная работа состоит из введения, четырех глав, заключения и приложений. Работа изложена на 123 страницах машинописного текста, содержит 36 рисунков, 9 таблиц. В библиографию включено 59 наименований отечественной и зарубежной литературы.

ОСНОВНЫЕ СОДЕРЖАНИЕ РАБОТЫ Во введении обосновывается актуальность работы, указываются цель и задачи исследования, приводятся основные положения, выносимые на защиту, объем и структура работы с перечислением рассматриваемых вопросов по гла-,вам. Приводятся сведения об апробации и степени опубликования основных положений диссертационной работы.

В первой главе произведен аналитический обзор методов и устройств сжатия, речевых сигналов, а также рекомендаций МККТТ и конкретных отдельных разработок. На основе проведенного анализа сформулированы основные задачи исследований, направленные на повышение эффективности низкоскоростных кодеков речи, определены технические требования к низкоскоростным кодекам речи. В таблице 1 произведены некоторые характеристики кодеков, используемых различными фирмами.

В зависимости от условий использования системы передачи речевых сигналов к кодекам речи могут предъявляться различные общие и технические требования: скорости и качества передачи, стоимости и удовлетворенно международных стандартов, по устойчивости к фоновым входным шумам и ошибкам в канале связи, по экономичности, по габаритно-весовым характеристикам и т.п. Кодеки, как правило, удовлетворяют следующим техническим требованиям:

- качество передачи речевого сигнала соответствует 7-разрядной ИКМ;

- временная задержка при преобразовании сигнала с полосой 3,4 Кгц не превышает 4 мс;

- кодеки обеспечивает работу с вероятностями ошибок в канале порядка 0,01-

Таблица 1. Сравнительная оценка различных кодеков речи

Основные характеристики ИНМАРСАТ - В GSM MARATHON (рекомен. G.729)

Ширина полосы речевого сигнала 0,3 - 3,0 кГц 0,3 - 3,4 кГц 0,2 - 3,6 кГц

Частота опроса 8Кгц 8Кгц 8Кгц

Длительность кадра 20 мс (128 выборок) 20 мс (160 выборок) 10 мс (80 выборок)

Длительность подкадра 5 мс (32 выборок) 5 мс (40 выборок) 5 мс (40 выборок)

Краткосрочное Пр.У адаптивное, 6 порядка адаптивное, 8 порядка адаптивное, 10 порядка

Долгосрочное Пр.У адаптивное, 1 порядка адаптивное, 1 порядка адаптивное, 1 порядка

Квантователь адаптивный адаптивный адаптивный

Метод анализа коэффициента Ал автокорреляция с окном Хэмминга автокорр. с окном Хэмминга автокорр. с окном Хэмминга

Скорость передачи кодека 16 кбит/с 13 кбит/с (полу - 6,5 кбит/с) 4,8 - 16 кбит/с

Тип речевого кодека АРС RPE/LTP CS-ACELP

АРС-адаптивного кодирования с предсказанием;

RPE-регулярное импульсное возбуждение;

LTP-долговременным предсказанием;

CELP-линейное предсказание с кодовым возбуждением;

CS-ACELP-conjugate structured algebraic code excited linear predictive;

(линейное предсказание с кодовым возбуждением и алгебраической кодовой книгой).

-80,001;

- качество речи не ухудшается при многократных синхронных преобразования* а при асинхронных преобразованиях ухудшение является небольшим;

- кодек прозрачен для передачи дискретных сигналов.

Основные алгоритмы цифрового представления речи можно условно раз бить на следующие три группы:

- кодирование формы речевого сигнала (PC) во временной области;

- кодирование PC в частотной области (вокодеры);

- кодирование PC в основе анализа/синтеза.

В кодеках первой группы избыточность сигнала устраняется в основном помощью адаптивного линейного предсказателя, процессор вычисляет коэффи циенты предсказания на основании различных алгоритмов. К этой группе отно сятся, например, кодеки на основе стандарта "В- Инмарсат". В кодеках второ) группы полоса частот входного сигнала делится на определенное число подпо лос, в которых оценивается шумовой порог. Шумы квантования, меньше этоп порога, маскируются сигналами данной полосы и сигналами соседних полос Адаптивные квантование обеспечивает снижение шумов квантования до вс.чп чины порога. К этой группе относятся кодеры с адаптивным трансформ им"-преобразованием (AT - Adaptive Transform Code's) и полосные кодеры (ВС . Code's). К третьей группе относятся кодеки, основыьа: зщиеся на различных мс делях синтеза речевого сигнала и использующие элементы первых двух групп:

- RPE - Regular Pulse Excitation;

- MPLPC - Multi Pulse Linear Predictive Coder;

- CELP - Codebook Exited Linear Predictive Coder;

В качестве показателя эффективности кодирования речи часто используется от

(S2(k))

ношение сигнал/шум, определяемое выражением: С / Ш = —--' , (1

S(k)

-S(k)J\

где: Б(к) и Я(к) - входной и выходной речевые сигналы; <> - знак статистического усреднения.

Вычисленные на коротких интервалах (СУШ) служат особенно полезными критериями эффективности для кодеров, в которых адаптация квантователя и предсказателя осуществляется на основании анализа блоков данных. Отметим, что показателю эффективности (CA.II) соответствует мера искажений отношение сигнал/погрешность предсказания. Для предсказателей выражение (1) может рассматриваться как коэффициент сжатия.

Проведенный аналитический обзор методов сжатия речевых сигналов, а также конкретных разработок показал:

1. Актуальность и недостаточную изученность вопросов, связанных со сжатием речевых сигналов в интересах повышения пропускной способности различных каналов связи (спутниковых, в сетях ЦСИО, сотовых с подвижными объектами, оперативно-технологической на железнодорожном транспорте и т.п.). Особо следует отметить, что статистические характеристики и особенности сжатия вьетнамской речи ранее не исследовались и не рассматривались. Таким образом, весьма актуальной задачей является прежде всего исследование статистических характеристик, возможностей и эффективности сжатия вьетнамской речи и сравнение их с характеристиками и эффективностью сжатия русской речи.

2. Анализ рекомендаций МККТТ и конкретных низкоскоростных кодеков речи показал, что одним из основных элементов низкоскоростных кодеков речи являются кратковременные (формантные) и долговременные (основного тона) линейные предсказатели. Однако до последнего времени в основном из-за ограниченного быстродействия процессоров исследовались и применялись кратковременные предсказатели невысокого порядка (6-10). Таким образом, весьма актуальной является задача исследования эффективности кратковременных предсказателей более высокого порядка (16-22).

3. В большинстве известных конкретных кодеках речи и рекомендациях МЮСТТ используется последовательное соединение кратковременного и долговременного предсказателей. Детальное исследование других конфигураций предсказателей и их эффективности насколько нам известно, не проводилось. Таким образом, актуальной задачей является исследование эффективности раз-

личных конфигураций кратковременной и долговременного предсказателей, различного порядка.

4. Недостаточно исследовались и влияние других факторов на эффективность предсказателей длительности кадров (числа выборок), участвующих в предсказании, мужской и женской, русской и вьетнамской речи.

5. Одним из важнейших устройств низкоскоростного кодека с ДИКМ является адаптивный предсказатель. Вопросы построения эффективных адаптивных предсказателей для низкоскоростных кодеков речи являются весьма сложными и недостаточно изученными. Из-за сложности аналитического описания нестационарных речевых сигналов и соответствующих адаптивных предсказателей представляется целесообразным провести исследование на ЭВМ с использованием фонограмм реальных речевых сигналов.

Во второй главе на основе введенных локально стационарных моделей речевых сигналов приведен анализ различных Подходов (алгоритмов) синтеза линейных предсказателей (ковариационного, автокорреляционного, максимального правдоподобия, метода Прони, минимума дисперсии погрешности предсказания), показана простота реализации и эффективность параметрического иеза адаптивного линейного предсказания по критерию минимума дисперсии погрешности предсказания. А также разработана методика оптимизации параметров комбинированного адаптивного линейного предсказания по минимуму дисперсии погрешности предсказания. На современном этапе синтеза и анализа вероятностных характеристик речевого сигнала считается, что на локальных интервалах времени в 10-30 мс процесс является квазистационарным гауссовским и параметры его модели постоянными.

Одной из самых распространенных моделей речевого сигнала во времен ной области является модель в виде уравнения авторегрессии

8к =2>,8(к-*) +пк , (2)

1=0

где а, - параметры авторегрессии;

5(к-1) - отсчеты (выборки) сигнал с нулевым математическим ожиданием и конечной дисперсией;

пк - входная порождающая последовательность; М2 - число параметров авторегрессии (порядок предсказателя). Сумма в правой части (2) может рассматриваться как предсказанное значение Б^пр , которая задается параметрами а,. Если п^-случайная некоррелированная гауссовская последовательность, то приведенное уравнение описывает речевой сигнала на участках звучания гласных. На участках звучания гласных п^ следует рассматривать как модель квазипериодической волны, формирующейся в голосовой щели. Ее можно описать последовательностью импульсов известной формы

м,

п^ХХ-.+ч . (3)

1 Г)

к - временные координаты импульсов; То = к-(к-1) - период основного тона;

- сопутствующая некоррелированная последовательность. Форма импульса (Л задается обычно треугольной или другой формы. Однако необходимо, чтобы Пк обладала широким спектром.

Уравнение долговременного предсказателя, например первого порядка принимает вид: 5„„р = Я„5к_Та , (4)

где То - период основного тона определяется как аргумент автокорреляционной функции. Коэффициент Яо определяется по формуле:

м,

я. = Ч- , (5)

2Хт„

кН

Обычно предсказатели речевых сигналов для кодеков с АДИКМ состоит из кратковременного и долговременного предсказателя. Избыточность речевого сигнала устраняется посредством долговременного предсказателя ДПР, удаляющего квазипериодические составляющие (основной тон) из сигнала и с помощью кратковременного предсказателя КПР, которые'могут соединяться различных образом.

ДО)

А(0

WJ(z)

ЛЛЧ

XV, (2)

Л(0

W2(z)

МЗ-1> 2(0

+ +

Рис 1. Схемы комбинированных предсказателей

Вариаиты структурных схем комбинированных предсказателей, которые исследуются" показаны па рис. 1. Передаточные функции в понятиях Ъ-преобразования указанных прямых линейных долговременного Wl(z) и кратковременного \\^(г) предсказателей описываются взвешенной суммой предшествующих значений входного сигнала Б(к)

= (6) Щг)=%Г' , (7)

1=1

Коэффициенты долговременного предсказателя, (3 и М| обычно определяются следующим образом. В начале определяется основной тон М[ так, чтобы максимизировать коэффициент корреляции

f>(k)S(k-M,)

r(M|) = — к --к---, (8)

lt = l k = l

определив W); находили на основании выражения ¿S(k)S(k-M,)

--, (9)

ËS'Oc-M.)

Кратковременные предсказатели с прямой адаптацией (по входному сигналу) вычисляют коэффициенты предсказания ai, минимизируя величину дисперсии погрешности D(s) предсказания (где число выборок к выбирается так, чтобы использовать для вычисления речевой сигнал на участке стационарности продолжительностью 5-20 мсек).

D(*) = [ZS(k)-Za,S(k-i)]2=min , (10)

k=0 k=l

Отметим, что оценка параметров а, кратковременного и долговременного предсказания может производиться также различными методами: максимального правдоподобия, поочередное (лестничное оценивание), рекуррентное и др.

-14В третьей главе проведен аналитический обзор основных характеристик

вьетнамского и русского речевых сигналов, показана актуальность дополнительных экспериментальных исследований статистических характеристик вьетнамского и русского языка, разработаны программа и алгоритмы исследований путем моделирования на ЭВМ, дан сравнительный анализ результатов обработки статистических характеристик указанных речевых сигналов.

Исследование статистических характеристик речевого сигнала Расчет оценок статистических характеристик распределений мгновенных значений процесса осуществляется по известным формулам

1. Среднее значение

2. Дисперсия

3. Коэффициент асимметрии

4. Коэффициент эксцесса

Ncr

4ils«

S(i) - m S(i) - m S(i)-m

(П) (12)

(13)

(14)

5. Спектральная плотность процесса имеет вид:

Gk = G(f|c) = ph/hOISkpfik , K=0, 1,......, N ,(15)

где fk = (K-l)/T - частота К-ой гармоники спектра;

h = T/N - шаг дискретизации процесса по времени;

St - комплексный коэффициент ряда Фурье, получаемый по методу БПФ

Sk= ZS, exp{-j2n(K-l)(i-l)}/N , К=0, 1, 2.....N ,. (16)

fik = {sin[7t(K-l)]/N}/{[n(K-l)]/N} - поправочный коэффициент, используемый для повышения точности оценок спектральной плотности.

6. Автокорреляционной функции речевого сигнала:

Rk = R{(K-l)h} = '[s(i) - П. Jsa - k) - m ] , (17)

где число K=1, 2...., m определяет сдвиг между сечениями процесса; ш - рассчитываемое число ординат автокорреляционной функции;

h - шаг дискретизации процесса по времени (период опроса).

В программе осуществляется нормировка автокорреляционной функции путем деления всех значений R на величину дисперсии процесса а'

При исследованиях была поведена статистическая обработка нескольких фонограмм реальных речи. Всего было проанализировано по 50 фрагментов русской и вьетнамской речи. Некоторые характерные примеры реализаций фонограмм и статистические характеристики вьетнамской (мужской и женской) речи представлены соответственно на рис. 2. и рис. 3. На графиках приведены: а-фонограммы вьетнамской речи в виде выборок;

б-гистограммы плотности распределения вероятностей для приведенных и последующих реализаций, под которыми в виде столбика даны цифровые значения оценок математического ожидания Ш|, дисперсии D, коэффициента асимметрии Ас и эксцесса Эк = т.( / а4;

в-оценки нормированной функции корреляции r(t) в зависимости от числа отсчетов (стрелками отмечен период основного тона, обусловленный квазипериодическими колебаниями голосовых связок); г-спектограммы для тех же фрагментов речи.

Проведенные экспериментальные исследования статистических характеристик реальных фрагментов русской и вьетнамской речи показали: 1. Анализ полученных гистограмм и коэффициентов эксцесса Эк = гщ / сг4 показал, что в подавляющем большинстве случаев как вьетнамская, так и русская речь представляет собой негауссовские случайные процессы с широким диапазоном изменения эксцесса (от 1,2 до 12), причем вокализованные участки речи имеют эксцесс меньше трех, а невокализованные - больше трех. Коэффициент асимметрии \ в общем случае в зависимости от диктора и фрагмента может изменятся в пределах от -1 до +1, и иметь положительную или отрицательную асимметрию. Математическое ожидание ш сигналов русской и вьетнамской речи в большинстве случаев близко к нулю. Дисперсия русской речи в большинстве случаев больше дисперсии вьетнамской речи.

-172. Анализ многочисленных спектрограмм различных фрагментов русской и

вьетнамской'речн показал, что как правило спектры сигналов носят многомодо-вый характер в области частот от 100 до 900 Гц, причем сигналы вьетнамской речи являются несколько более узкополосными, чем сигналы русской речи. 3. Нормированные корреляционные функции сигналов русской и вьетнамской речи носят знакопеременный характер, а для вокализованных участков - колебательный характер.

Показано, что как вьетнамский, так и русский речевой сигнал представляют собой существенно нестационарные в подавляющем большинстве случаев негауссовские процессы с изменяющимися в широких пределах законами и характеристиками.

В четвертой главе представлены результаты экспериментальных исследований на конкретных фонограммах эффективности различных адаптивных линейных предсказателей комбинированного типа и различного порядка. Алгоритмы и программы для оценки эффективности различных предсказателей разработаны с учетом оптимизации параметров кратковременного предсказателя по минимуму среднеквадратической погрешности предсказания, а долговременного - по максимуму коэффициента корреляции. Условия минимума дисперсии предсказания D(e)=min при экспериментах по формулам (8) - (10) записывалось в виде матрицы, а ее решение проводилось стандартным методом Гаусса. Эффективность той или иной схемы предсказания оценивалась коэффициентом сжатия Ксж по формуле (1). В качестве примере в таблицах 2 представлены результаты расчета коэффициента Ксж, и дисперсии речевого сигнала D(s), полученные на основании статистического моделирования на 50 сегментах вьетнамской и русской речи длительностью 200 выборок, для следующих алгоритмов и параметров предсказателей:

- КПР, работающий в соответствии с алгоритмами (7) и (10) и имеющий соответственно порядок Мг = 3; 6; 16; 22;

- ДПР первого порядка, действующие в соответствии с алгоритмами (6, 8, 9);

Таблица 2. Коэффициенты сжатия Ксж для вьетнамской и русской речи при различных предсказателях

Пол диктора № Дисперсия Тип н порядок предсказателя Вид

и № первой сегмента входного КПР ДПР ДПР // КПР КПР + ДПР ДПР + КПР сегмент

выборки сигнала ЩБ) 6 16 22 1 6 16 6 16 3 6 16

Мужской В 1 11888 32,57 50,42 54,77 4,61 26,51 72,46 40,18 62,24 18,48 40,66 60,77

№ 3201 ь 2 16847 78,85 99,3 102,7 8,96 72 144,33 112,16 127,16 53,31 99,65 146,26 Вокал

е 3 17996,4 - 48,95 74,52 75,02 7,97 77,77 161,99 81,88 110,89 43,45 75,42 116,42

Мужской т 1 2773,1 12,79 26,19 28,14 2,53 12,11 35,76 15,77 31,34 9,55 12,21 15,69

№9721 н 2 1769 16,7 27,71 Ь_30,74 6,02 22,37 49,9 40,07 49,14 19,49 40,75 49 Невокал

а 3 899,3 26,2 36,77 38,93 2,63 9,7 36,88 39,08 45,41 11,43 23,32 27,42

Женский м 1 7691,7 113,73 171,69 302,05 27,24 208 390,54 176,29 206,02 166,94 266,75 280,41

№ 6745 с 2 6119,6 26,38 61,6 88,8 11,62 90,08 199,37 46,52 80,53 42,9 89,36 101,49 Вокал

к 3 4735,4 12,8 31,21 37,88 9,9 41,97 101,8 39,25 61,24 34.5 53,22 73,35

Женский о 1 6389ДО 21,72 48,09 63,38 32,71 110,03 190,61 56,22 80,22 86,45 114,30 115,82 Вокал

№7041 й 2 2812,80 8,06 18,10 21,24 5,11 23,40 49,89 21,70 33,25 14,95 20,48 36,90 ▼

р 3 2214,70 6,54 13,30 16,59 4,66 10,96 17,06 9,04 16,95 11,50 12,43 13,79 Невокал

Женский е 1 2014,3 6,12 17,17 18,93 3,14 6,44 18,72 7,52 19,74 5,45 9,64 14,57

№4825 ч 2 2425,8 6,2 18,21 20,7 4,71 9,11 22,76 7,61 20,53 7,46 14,93 22,34 Невокал

и 3 1697,4 5,08 10,63 11,3 5,57 9,89 22,85 8,36 15,44 7,11 15,59 20,84

Мужской 1 20246,70 13,39 26,08 27,89 2,00 9,27 35,62 17,93 42,09 7,20 16,18 42,67

№ 11209 2 19431,10 11,46 22,68 25,53 7,11 22,20 36,62 22,22 49,85 20,02 37,88 83,78 Вокал

Р 3 7133,20 5,87 10,41 10,67 3,40 10,98 17,48 8,10 13,89 7,64 10,40 16,22

Мужской У 1 2519,2 10,3 21,37 22 8,66 29,35 48,69 19,19 31,52 18,88 30,61 44,43 Невокал

№ 10817 с 2 5034,5 8,92 15,82 16,81 2,81 7,81 16,94 10,3 17,36 6,23 12,16 21,29 V

с 3 19701,1 13,54 28,76 31,28 1,98 9,3 40,07 18,77 52,66 7,08 11,44 33,53 Вокал

Мужской к 1 3934,5 6,73 9,14 9,63 1,12 5,73 9,54 6,97 9.69 5,28 6,85 9,91 Невокал

№5721 о 2 4270,7 6,49 8,77 9,17 1,13 5,66 8,94 7,31 10,27 5,29 6,17 8,83 ▼

й 3 14985,1 10,05 16,14 17,34 3,06 14,07 23,98 14,01 23,45 13,26 14,73 28,41 Вокал

Женский 1 11732,7 5,02 7,98 14,01 8 25,62 43,49 17,99 19,61 12,16 27,44 40,64 Вокал

№3161 Р 2 10653,6 9,09 14 9,54 2,65 11,17 23,96 12,72 18,69 3,6 8,42 13,59 ▼

е 3 1862,1 5,33 6,93 8,2 2,04 3,76 7,09 7,51 8,22 3,71 5,05 5,53 Невокал

Женский ч 1 39808,00 8,67 11,02 11,53 3,18 14,99 18,25 16,47 20,19 13,62 17,27 24,79

№ 7688 и 2 40083,00 4,24 5,42 5,45 1,67 6,47 8,16 6,08 7,48 5,57 6,35 8,34 Вокал

1 3 14669,00 4,39 6,27 6.68 1,72 4,09 8,39 5,21 7,74 3,52 6,73 9,64

-20- последовательное соединение КПР соответствующего порядка и ДПР первого

порядка (КПР+ДПР);

- последовательное соединение ДПР первого порядка и КПР различного порядка (ДПР+КПР);

- параллельное соединение КПР и ДПР (ДПР//КПР).

В качестве примеров на рис. 4. и рис. 5. приведен пример погрешностей предсказания и их характеристики (гистограммы и моменты) при использовании сегментбв речи (см. рис. 2. и рис.3.) и различных предсказателей.

Моделирование и анализ рассмотренных алгоритмов адаптивных линейных УП различного порядка и комбинации показали: эффективного предсказателя изменяется в широком диапазоне и зависит от диктора, анализируемого сегмента (вокализованный и невокализованный) и вида предсказателя.

- из приведенных в таблице данных видно, что для всех исследованных фрагментов предсказатель 16-22 порядка дает в большинстве случаях достаточно существенное повышение коэффициента сжатия (в 2-3 раза) по сравнению с предсказателем шестого порядка;

- долговременный предсказатель даже первого порядка (ДПР) существенно повышает эффективность предсказателя при комбинации с КПР, причем предсказатель типа ДПР+КПР оказывается более эффективным на вокализованных сегментах, а предсказатель типа КПР+ДПР - на невокализованных; Проведенные многочисленные исследования различных схем предсказателей на конкретных фрагментах вьетнамской и русской речи показали следующее:

1. При предсказании различных фрагментов вьетнамской и русской речи (как женской, так и мужской, как вокализованной, так и невокализованной) наблюдается повышение их эффективности (увеличение Ксж) с повышением порядка кратковременного предсказателя, причем близким к оптимуму является кратковременный предсказатель 16-22 порядка. В частности кратковременный предсказатель 16-ого порядка обеспечивает увеличение КсЖ по сравненью с КПР 6-ого порядка для русской речи в 2-3 раза, для вьетнамской речи в 1,5-2 раза.

-21.. Анализ влияния числа выборок, участвующих в предсказании, на эффектив-

юсть предсказания показывает, что в общем случае квазиоптимальное число ыборок зависит от вида фрагмента (вокализованный или невокализованный), IT диктора (мужчина или женщина), от того чья речь (русская или вьетнамская), фичем близким к оптимальному является число выборок порядка 140-200 (в [астности, для мужской вокализованной речи квазиоптимальное число выборок юставляет порядка 100-140, а для невокапизованной - 200). !. Долговременный предсказатель первого порядка заметно повышает эффективность предсказания вьетнамской женской речи и русской мужской речи, )собенно их вокализованных фрагментов.

1. Эффективность предсказателя достаточно существенно-зависит от конфигурации кратковременного и долговременного предсказателей, причем в общем случае эффективность также зависит от языка (вьетнамский или русский) от доктора. В частности, для вьетнамской мужской и женской речи наиболее эффективным является предсказатель по схеме КПР и ДПР соединены параллельно, а для русской речи все три комбинированных схемы примерно эквива-пентны.

5. При равных условиях наиболее эффективно предсказывается вьетнамская женская речь и русская мужская речь. Коэффициенты сжатия Ксж вьетнамского речевого сигнала существенно больше, чем русского (2-3 раза для мужского речевого сигнала и в 4-5 раза для женского речевого сигнала).

Проведенные экспериментальные исследования адаптивных линейных предсказателей различного порядка и комбинации показали следующее:

1. Моделирование и анализ алгоритмов адаптивных линейных УП различного порядка и комбинации показали, что эффективность предсказателя изменяется в широком диапазоне и зависит от диктора, анализируемого сегмента (вокализованный и невокализованный) и вида предсказателя.

2. Коэффициента сжатия рассмотренных предсказателей увеличивается, с увеличением порядка КП до 16........22 порядка. Рассмотренный алгоритм ДПР

первого порядка, на наш взгляд, требует усовершенствования.

-223. Статистические свойства вьетнамской речи и эффективность адаптивных ли

нейных предсказателей вьетнамской речи, насколько нам известно, исследова

лась впервые.

4. Учитывая значительное отличие плотностей распределения вероятностей ре чевых сигналов и погрешностей линейного предсказания от гауссовских, еле дует делать вывод о перспективности исследований нелинейных инерционны) предсказателей с целью повышения эффективности низкоскоростных кодеко! речи.

При предсказании различных фрагментов вьетнамской и русской реч1 (как женской, -так и мужской, как вокализованной так и невокализованной) на блюдается повышение их эффективности (увеличение Ксж) с повышением порядка кратковременного предсказателя; причем близким к оптимальному является кратковременный предсказатель 16-22 порядка.

ЗАКЛЮЧЕНИЕ

Основные теоретические и практические результаты диссертационной работы заключаются в следующем:

1. На основании аналитического обзора и рассмотрения различных методов синтеза и анализа адаптивных линейных предсказателей показана актуальность и необходимость проведения исследований статистических характеристик вьетнамской и русской речи и адаптивных линейных предсказателей различного порядка и различной конфигурации кратковременного (форматного) и долговременного (основного тона) предсказателей путем статистического моделирования на ЭВМ по реальным фонограммам русской и вьетнамской (мужской и женской) речи.

2. На основании проведенного анализа различных алгоритмов синтеза линейных предсказателей, показана простота реализации и эффективность параметрического синтеза адаптивного линейного предсказания по критерию минимума дисперсии погрешности предсказания.

3. Разработана методика оптимизации параметров комбинированного адаптивного линейного предсказания по минимуму дисперсии погрешности предсказа-

1ИЯ.

к Для проведения исследований были разработаны алгоритмы и программы на языке Паскаль) для получения гистограмм распределений и моментных функций, корреляционных и спектральных функций как различных сегментов >ечи, так и процессов на выходе различных предсказателей. Статистические ха-зактеристики вьетнамской речи получены впервые.

>. При предсказании различных фрагментов вьетнамской и русской речи (как ¡сенекой, так и мужской, как вокализованной так и невокализованной) наблюдался повышение их эффективности (увеличение Ксж) с повышением порядка фатковременного предсказателя; причем близким к оптимальному является фатковременный предсказатель 16-22 порядков.

5. Анализ влияния числа выборок, участвующих в предсказании, на эффективность предсказания показывает, что в общем случае квазиоптимальное число выборок зависит от вида фрагмента (вокализованный или невокализованный), эт диктора (мужчина или женщина) от того чья речь (русская или вьетнамская), причем близким к оптимальному является число выборок порядка 140-200 (в частности, для мужской вокализованной речи квазиоптимальное число выборок составляет порядка 100-140, а для невокализованной - 200).

7. Долговременный предсказатель первого порядка заметно повышает эффективность предсказания вьетнамской женской речи и русской мужской речи, особенно их вокализованных фрагментов.

8. Эффективность предсказателя достаточно существенно зависит от конфигурации кратковременного и долговременного предсказателей; причем в общем случае эффективность также зависит от языка (вьетнамский или русский) от диктора. В частности, для вьетнамской мужской и женской речи наиболее эффективным является предсказатель, в котором КПР и ДПР соединены параллельно, а для русской речи все три комбинированных схемы примерно эквивалентны.

9. При равных условиях наиболее эффективно предсказывается вьетнамская женская речь и русская мужская речь.

Основные положения диссертации опубликованы в следующих работах

1. Фомин А.Ф., Прохоров Ю.Н., Неклюдов Ю.Н., Нго Куанг Минь.: "Сравнени адаптивных линейных устройств предсказания для кодеков речи с АДИКМ АДМ". Электросвязь. 1994 г., № 10, - с. 37-29.

2. Нго Куанг Минь., Фомин А. Ф.: "Статистическое моделирование линейны предсказателей вьетнамской речи". 100 Летая МИИТа. Выпуск - 895. 1997 г., с. 21-25.

3. Нго Куанг Минь. "Экспериментальные исследования линейных предсказатс лей вьетнамской речи". Тезисы докладов научно-технической конференции МИИТе, в май 1997 г. (в печати).

Нго Куанг Минь

"Исследование эффективности адаптивных линейных предсказателей речи для

низкоскоростных кодеков" 05. 13. 17. Теоретические основы информатики

Подписано к печати /9. Н. 9?. Формат бумаги 60 х 90 1/16. Объем 1,5 п. л. Заказ £03, тираж. 100 экз.

Типография МИИТ, 101475, Москва А-55, ул. Образцова, 15.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00