автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.05, диссертация на тему:Методика анализа и синтеза элементов тракта речепреобразования для низкоскоростных систем связи

кандидата технических наук
Лихачев, Александр Сергеевич
город
Москва
год
2007
специальность ВАК РФ
05.13.05
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Методика анализа и синтеза элементов тракта речепреобразования для низкоскоростных систем связи»

Автореферат диссертации по теме "Методика анализа и синтеза элементов тракта речепреобразования для низкоскоростных систем связи"

На правах рукописи

ЛИХАЧЕВ АЛЕКСАНДР СЕРГЕЕВИЧ

МЕТОДИКА АНАЛИЗА И СИНТЕЗА ЭЛЕМЕНТОВ ТРАКТА РЕЧЕПРЕОБРАЗОВАНИЯ ДЛЯ НИЗКОСКОРОСТНЫХ СИСТЕМ СВЯЗИ

Специальность 05 13 05 Элементы и устройства вычислительной техники и систем управления

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва 2007

003161217

Работа выполнена в Московском государственном институте электронной техники (техническом университете)

Научный руководитель - кандидат технических наук, доцент

Лупин Сергей Андреевич

Официальные оппоненты

доктор технических наук, профессор Гагарина Лариса Геннадьевна,

кандидат технических наук Беляев Дмитрий Александрович

Ведущее предприятие

ГУП НПЦ "Спурт", г Москва, Зеленоград

Защита состоится

«»

К

2007 года на заседании

диссертационного совета Д212 134 02 в Московском государственном институте электронной техники (техническом университете) 124498, Москва, г Зеленоград, проезд 4806, д 5 МИЭТ

С диссертацией можно ознакомиться в библиотеке МИЭТ Автореферат разослан «Н" ю _ 2007 года

Ученый секретарь диссертационного совета к т н, профессор до в Воробьев

Общая характеристика работы

Актуальность проблемы Несмотря на значительный прогресс в области систем передачи данных, связанный с постоянным расширением частотных характеристик каналов связи, не ослабевает и практический интерес к низкоскоростным каналам. Для передачи речи в них используются вокодеры, которые стали популярными, поскольку они гарантируют представление акустического сигнала речи при низкой скорости передачи данных (9 6, 4 8, 2.4, 1.2 и даже 0 6 - 0 8 кбит/с) Поэтому, когда ограничены ширина канала связи или объем памяти для хранения информации, вокодерная техника гарантирует наилучшее использование доступных ресурсов

Кроме технических этапов процесс проектирования вокодеров включает обязательные финальные аттестационные испытания устройства, требующие проведения время- и трудозатратных процедур При этом остается открытым вопрос об оценке качества во время разработки (которая включает в себя непосредственно проектирование, реализацию, отладку, проведение предварительных испытаний и внесение коррекций в процессе эксплуатации), когда в программу или устройство вносятся новые элементы или производится корректировка уже имеющихся

Важнейшим показателем качества систем связи является параметр, называемый разборчивостью передаваемой речи. Для поддержания качества обслуживания абонентов в системах связи необходимо, чтобы этот параметр сохранял свое значение как в обстановке зашумленности, так и при ухудшении параметров канала связи Повышение качества речи путем оптимизации процесса речепреобразования остается нетривиальной задачей Основной проблемой в процессе проектирования является нахождение оптимального компромиссного решения между требуемым качеством с одной стороны и сложностью, дороговизной алгоритмов и аппаратуры с другой

В то же время оценка качества обработки речи остается сложным и трудоемким процессом В нашей стране были разработаны и стандартизированы методики оценки параметров качества речи, разборчивости и узнаваемости при передаче по трактам радиотелефонной связи, а также низкоскоростной передачи речи по цифровым каналам такие как- ГОСТ 16600-72, ГОСТ Р 50840-95 и ГОСТ Р 51061-97 Для оценки качества стандарты предлагают методики артикуляционных испытаний, целью которых является определение класса по разборчивости, в который попадает испытуемый образец кодера К сожалению, такие испытания связаны с большими время-материальными затратами, требуют специальной подготовки квалифицированной группы

операторов (аудиторов и слушателей), на организацию и подготовку которой накладываются жесткие требования. Также нельзя не учитывать необходимость в специальных приборах, оборудовании и квалифицированном персонале, способном на нем работать В случае коммерческого и мелкосерийного производства, на стадии разработки или при наладке подобные затраты нецелесообразны

Описанные в ГОСТ методики используют ЭВМ только для хранения данных, внесения и автоматизации подсчета результатов Можно констатировать, что они абсолютно не используют возможности современной вычислительной техники в области цифровой обработки и анализа как звуковой, в общем, так и речевой в частности, информации

В работе предлагается метод сравнительной оценки систем речепреобразования, позволяющий значительно упростить процедуру и сократить время проектирования

Цель работы и задачи исследования Цели работы оптимизация параметров систем низкоскоростного речепреобразования для улучшения их технико-экономических и эксплуатационных характеристик и разработка новой методики оценки качества речепреобразоания, снижающей затраты на проектирование низкоскоростных вокодерных систем

Для достижения поставленной цели в работе решаются следующие основные задачи

1. Рассмотрение особенностей реализации низкоскоростных вокодеров и анализ моделей их представления

2 Нахождение эффективных наборов параметров 1УСЕ модели возбуждения при решении задачи линейного предсказания с возбуждением от основного тона

3 Анализ существующих методик и стандартов определения качества речевого преобразования ГОСТ и методик объективных оценок

4 Разработка новой методики и программного модуля оценки качества цифровой обработки речи низкоскоростными вокодерами.

5. Внедрение разработанной методики оценки качества в процесс разработки и производства реальной системы нкзкоскоростного речепреобразования

Методы исследования. При решении поставленных задач были использованы положения теории цифровой обработки сигналов и передачи данных по цифровым каналам связи, теории линейных систем, информационных систем, акустики, языки программирования

Научная новизна

1 Обоснована эффективность ШСЕ модели возбуждения при решении задачи линейного предсказания с возбуждением от основного тона

2 Создана методика и программный модуль оценки качества преобразования речевой информации в низкоскоростных вокодерных системах, базирующиеся на сравнительном анализе искажений характеристики спектральной мощности речевого сигнала

Практическая значимость. Предлагаемые модели позволяют повысить качество обработки речевой информации в низкоскоростных вокодерах (разборчивость) и автоматизировать процесс проведения оценки качества речепреобразования

Положения, выносимые на защиту

1 Обоснование структуры ЬРС вокодеров с 1¥СЕ возбуждением

2 Анализ существующих методов оценок качества обработки речевой информации

3 Новый метод оценки качества речепреобразования на основе сравнительного анализа динамических спектрограмм.

Внедрение результатов Теоретические и практические результаты диссертационной работы внедрены в производственный процесс ОК-4 ГУП ПНЦ «СПУРТ» при решении задачи оценки качества работы низкоскоростных вокодеров в процессе разработки и наладки опытной партии комплекса связи «Уступ-С» Была предложена модель и получены оценки качества речепреобразования образцов низкоскоростных вокодерных подсистем Такой подход подтвердил свою эффективность в процессе внутреннего контроля качества работы низкоскоростных систем обработки речевой информации на этапах их разработки, коррекции и дальнейшего сопровождения Актами о внедрении подтверждается, что разработанная модель и программный комплекс позволяют организовать процесс сравнительной оценки образцов низкоскоростных вокодеров, не прибегая к затратным процедурам комплекса артикуляционных испытаний.

Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на Всероссийских межвузовских научно-технических конференциях студентов и аспирантов. "Микроэлектроника и информатика - 2004", "Микроэлектроника и информатика - 2005", "Микроэлектроника и информатика - 2006", "Микроэлектроника и информатика - 2007", Международной научно-технической конференции "Электроника и информатика — 2005"

Публикации По материалам диссертации опубликовано пять тезисов докладов и три статьи.

Структура и объем диссертационной работы Рукопись диссертационной работы состоит из списка обозначений и сокращений, введения, пяти глав, заключения, списка литературы и двух приложений Она изложена на 141-й странице основного машинописного текста, содержит 53 рисунка, 10 таблиц и включает библиографию из 24-х наименований.

Содержание работы

Во введении сформулированы актуальность, цель работы, ее научная новизна и практическая значимость; представлены применяемые методы исследования, внедрение результатов, апробации и структура диссертации

В первой главе рассмотрены модели современных низкоскоростных вокодеров с параметрическим кодированием и методы линейного предсказания

Сформулирована проблема выбора реализаций линейного предсказания с возбуждением от основного тона Выделены методы простого (ЦУ - классификация) и взвешенного комбинационного (И^СЕ -классификация) возбуждений и соответствующей реализации на основе выбранных параметров системы речепреобразования необходимость улучшения качества, сложность реализации, вычислительная нагрузка, нагрузка на канал передачи (размер кода речевого пакета бит/пакет)

Р=т„

Шуи

и(п)

Параметры тракта вокала

Я(г)

Синтезированная речь

и>2

Рисунок 1 - Модель речеобразования (синтеза) в ЬРС вокодере с 1¥СЕ возбуждением

Рассмотрены некоторые характеристики различных конфигураций УУСЕ модели, количество бит кодирования В и соответствующая им

размерность множества весовых коэффициентов N Несмотря на то, что процесс синтеза примерно на порядок проще, в смысле вычислительных затрат, многократный вызов процедуры синтеза может существенно сказаться на общем объеме вычислений этапа анализа Это обусловлено необходимостью ¿"-кратного использования процедуры синтеза в алгоритме нахождения оптимального набора из N вариантов коэффициентов Найденный набор позволяет минимизировать разницу между синтезированной s'(rt) и оригинальной s(n) речью Нахождение компромиссного решения сводится к выбору из вариантов В—2, N=4 (1) и В=3, N=8 (2) Дальнейшее расширение (В=4, N=16 и т.д) не приводит к ощутимому улучшению качества, и при этом значительно увеличиваются вычислительные затраты

В=2, N=4

2 1

W," _ "Г или 3 или 3 или

w2_ 0 1 .3. 2 .3.

(1)

В=3, N=8

Ч" Y

_w2. 0

или

или

"5" "4" "3" ~г "Г

— — —

7 7 7 7 7

или или или или

2 3 4 5 6

7 7 7 7 7

или

(2)

Во второй главе описаны аспекты построения существующих методов оценки качества обработки речевой информации и требования к ним

Двойственность природы речевого сигнала определяет то, что, как и другие акустические сигналы, речь характеризуется определенным набором объективных характеристик- зависимостью звукового давления от времени (временной структурой звуковой волны), длительностью звучания, спектральным составом, специфическими особенностями источника и пр С другой стороны, речь, как физическое явление, вызывает определенные субъективные слуховые ощущения (громкости, высоты, тембра, локализации, маскировки и др.)

Поскольку речевой сигнал, как и музыкальный, представляет собой сигнал квазислучайный, те предсказать его будущие значения можно только с определенной вероятностью, то для анализа его характеристик могут быть применены все известные методы статистического анализа.

При уровнеграммном (рассмотрении речи как сигнала в виде звуковой волны) анализе исследуется распределение во времени следующих величин-

• мгновенных значений и уровней речевого сигнала,

• длительностей непрерывного существования разных уровней,

• длительностей пауз,

• максимальных уровней по частоте,

• текущей и средней мощности

При переходе из время-амплитудной области в частотную получаем возможность исследовать спектральные характеристики речи Таким образом, при анализе акустических параметров речевого сигнала имеется возможность оценивать следующие характеристики

• уровнеграмма и все связанные с ней параметры (динамический диапазон, распределение мгновенных значений сигнала, текущая мощность и др.),

• графически-двумерный спектр (распределение формантных областей),

• графически-трехмерный спектр (изменение формы огибающей во времени),

• спектрограммы (широкополосные, узкополосные, слуховые), из которых могут быть получены такие характеристики, как изменение основной фонационной частоты во времени, изменение формантных областей, распределение гармоник голосового источника, временная структура импульсов звукового давления и др

• распределение спектральной плотности мощности

Все низкоскоростные вокодеры, к которым, согласно государственным стандартам, относятся системы, передающие речевой сигнал в цифровой форме со скоростью от 16 кбит/с и меньше (до 0,6-0,8 кбит/с), используют методы преобразования, основанные на параметрическом кодировании Такое кодирование подразумевает представление речи не акустическим колебанием, а набором медленно изменяющихся параметров, определяющих понятность речи и, в ряде случаев, узнаваемость говорящего. Это позволяет использовать для передачи меньшую скорость цифрового потока Таким образом, они не являются кодерами формы речевой волны, и ее восстановление не является их целью Поэтому будет ошибочным проводить анализ качества на основе сравнения изначальной и синтезированной речевых волн, а кривые отношения сигнал-шум и их усредненные значения не смогут объективно охарактеризовать искажение, наблюдаемое в речи

Также известно, что для речевых сигналов частотная область несет большую долю информативности, определяющую разборчивость, нежели

временная Исходя из вышесказанного, спектральный анализ (частотное распределение энергии, мощности или их плотностей) имеет определяющее значение по сравнению с уровнеграммным (время-амплитудным).

Для оценки качества стандарты ГОСТ 16600-72, ГОСТ Р 50840-95 и ГОСТ Р 51061-97 предлагают методики артикуляционных испытаний, целью которых является определение класса по разборчивости, в который попадает испытуемый образец кодера К сожалению, такие испытания связаны с разносторонними затратами, требуют специальной подготовки квалифицированной группы операторов (аудиторов и слушателей), на организацию и подготовку которой накладываются жесткие требования

Ниже приведена лишь некоторая часть требований к проведению артикуляционных испытаний-

измерения должны проводиться в нормальных климатических условиях,

• измерения проводит бригада операторов (дикторов и аудиторов) не имеющих дефектов речи и слуха,

• измерения проводит бригада в возрасте от 18 до 30 лет, в составе которой должно быть не менее 5-ти дикторов (3-х мужчин и 2-х женщин) и 15 аудиторов;

при использовании ПЭВМ аудиторы должны быть обучены вводу цифро-буквенной информации с клавиатуры со скоростью не менее 40 символов в минуту;

• время работы бригады не должно быть более 4-х часов в день, после приема 5 таблиц делается перерыв на 5-10 мин и др

Ресурсоемкость проведения такого рода испытаний очевидна На этапах проектирования и итерационной коррекции такой подход к оценке качества речепреобразования является неоправданно затратным по вышеперечисленным параметрам Отсюда явным образом появляется необходимость создания альтернативных методов оценки.

Заметим так же, что в процедуре артикуляционных испытаний, согласно государственным стандартам, крайне низок уровень использования потенциала современной ВТ и методов цифровой обработки сигналов.

До настоящего времени проблема оценки разборчивости речи остается чрезвычайно сложной, поскольку она зависит не только от факторов, которые поддаются объективным измерениям (время реверберации, уровень шумов, структура ранних отражений и др ), но и от таких субъективных факторов, как степень владения языком, дикция оратора, степень знакомства слушателя с содержанием сообщения, состоянием его слуха и др

Для объективного определения качества речепреобразования в низкоскоростных вокодерах применим аппарат оценки на основе индексов AI и Sil, тк оценки %ALcons, STI, RASTI применяются для аудиторной проверки и определения разборчивости в различных точках помещений, а С50 - в музыкальных приложениях

В третьей главе описывается методика оценки качества речепреобразования на основе сравнительного анализа динамических спектрограмм

В качестве модели объекта исследования использовалось аналитическое описание звукового сигнала в виде суммы узкополосных сигналов. Результаты исследований последних лет показали, что данные, необходимые для расчета параметров, содержатся в динамических спектральных развертках - амплитудно-фазовых и частотно-временных описаниях речевых сигналов, с заданным шагом наблюдения (анализа) по времени и по частоте, и, прежде всего, в изображениях узкополосных амплитудных сонограмм

Получение таких разверток, так же называемых матрицами динамических спектральных состояний (МДСС), основано на оконном преобразование Фурье дискретизированного сигнала и имеет вид (3)

(3)

П=0

где X[fc\ - дискретный Фурье образ последовательности х[п\ ограниченный окном преобразования, p\ji\ - весовые коэффициенты сглаживающего окна

Учитывая характеристики параметрических вокодеров, оптимальным является выбор размера ДПФ 512 или 1024 точек (отсчетов), что также подтверждается и экспериментальными результатами Выбор накладываемого сглаживающего окна зависит от реализации программы спектрального анализа, при этом эмпирическая проверка показывает, что лучшие результаты для речи дает применение окон Блэкмана, Блэкмана-Харриса и Хана, и худшие - Хэммичга и треугольного

Спектральная плотность мощности (CUM, англ Power Spectral Density - PSD) является действительной, четной и неотрицательной функцией частоты и дает распределение мощности сигнала по диапазону частот Для дискретизированного сигнала СПМ с точностью до нормировочного коэффициента определяется из соотношения (4)

Р«ад=Ы2 (4)

где с„ - комплексные коэффициенты ряда Фурье

СПМ измеряется в мВ2/Гц, а ее оценка приводится в мВг (т.е. это мощность, отнесенная к узкой полосе частотного спектра, например, равному интервалу между соседними частотными отсчетами). При нормализации СЯМ к единичной мощности можно также получить оценку в логарифмической шкале.

Первый из предлагаемых в методике способов сравнительного анализа - графический. Графический метод качественного анализа основан на сравнительной оценке сонограмм речевых сигналов (рис. 2а, 26).

Рисунок 2а -Сонограмма 1

Рисунок 26 -Сонограмма 2

Рисунок 2в — Графическая разность сонограмм ] и 2

Графическая разность (рисунок 2в) показывает, как изменяется спектр сигналов и позволяет проводить сравнительный анализ спектрограмм на характерных участках речи. Изменение (искажение) спектральных и других характеристик достаточно наглядно анализируется графическим методом, но при этом мы сталкиваемся с той же проблемой, что и при субъективном анализе. Необходим эксперт, который обладает достаточными знаниями и опытом для проведения визуального анализа графического материала и принятия решения. Для получения количественных оценок наиболее эффективно применение анализа сонограмм СПМ.

Второй предлагаемый способ - получение объективных количественных оценок качества речепреобразования, основанное на вычислении и преобразовании мер искажений сонограмм.

На рисунке 3 представлены основные элементы методики объективной оценки качества речепреобразования для использования в схеме проведения сравнительного анализа двух вокодеров.

Рисунок 3 — Основные элементы методики объективной оценки качества речепреобразования

Суть предлагаемого в работе метода заключается в проведении эксперимента с двумя близкими образцами вокодеров и получении группы оценок, позволяющих определить, какой из образцов (сонограммы сигналов 1 и 2), а по возможности и насколько, отличается от сонограммы тестового (эталонного) сигнала (рисунок 4) В результате сравнительного анализа должны быть получены меры искажения и ряд других оценок, по которым можно сделать вывод о том, какой из образцов восстанавливает речевую информацию ближе к эталонному образцу. Далее, полученные меры искажений преобразуются посредством определенных вычислений в оценки субъективного качества

Рисунок 4 - Схема проведения сравнительного анализа двух вокодеров

Возможны различные методы измерения искажения распределения СПМ (PSD) и дальнейшего перевода в оценки субъективного качества Представим данные сонограмм и соответственно их разности в виде двумерного массива При подсчете суммарного искажения частотный и временной интервалы могут быть ограничены до необходимых - в

конкретном случае анализа По времени — длительностью фрейма, фонемы, слога или слова, по частоте - в интересующем диапазоне.

1) Простой метод получения оценок суммарного, максимального и среднего значения искажения в интересующем частотно - временном диапазоне

- подсчет суммарной разности-искажения двух сонограмм (5)

^f^psdiUn}-psd'[t,n}\> (5)

t=Tt п=N,

где psd[t,n] и psd'[t,n] - дискретные функции СПМ исходного и полученного в результате процедуры анализ-синтез сигналов соответственно, Tt, Т2 - индексы отсчетов начала и конца выбранного временного диапазона, ¿V/, N2 - индексы отсчетов начала и конца выбранного частотного диапазона. В дальнейшем положим Т = Т3 — Т) и N = N2-Nh

- максимальное (6) и среднее (7) значения искажения по частотно-временному диапазону (при Т=1 - по срезу времени, при N=1 - по частотному срезу)

шах \psd[t, п] - psd'U, и]| > (6)

/е(Л T2)se(Nl N2)1

^ ^\psd[t, п\ - psd'[t, й]|

^"-М_, (7)

N*T

- среднеквадратичное искажение спектральной плотности (8)

' __(В)

N*T

Средние значения СПМ по рассматриваемой частотно - временной области (5) и (6) могут использоваться также для получения относительных оценок

2) Оценка искажения на основе отношения сигнал/шум

Отношение сигнал/шум (OCIII, англ Signal-to-Notse Ratio, SNR) -

нормированный показатель погрешности (искажения), безразмерная величина и определяется отношением (9)

\2

(9)

Р (А SNR = slg"al — I s'g"al

Р I А

noise V пои. ,

где Р - средняя мощность, а А — среднеквадратичное значение амплитуды Оба сигнала измеряются в полосе пропускания системы ОСШ часто выражается в децибелах (10)

5мг[й®]=ю1§

гр \

а1

Р

\ по1$е /

= 201ё

А

\ по!5е /

(10)

Для сигнала, представленного в виде наборов дискретных значений, выражения (9) и (10) будут иметь вид (11) и (12).

¿(ад)2 Ш)

¿(ЭД-5'И)2

Л=1

¿(ад)2 П2)

где Б[п] — неискаженный сигнал до преобразования; 5"/и/ ~ искаженный в результате преобразования сигнал

Для дискретной функции СПМ можно также рассчитать ОСШ (13),

(14)-

¿¿ИМ

(13)

(14)

3) Аналитическая оценка разборчивости на основе индекса артикуляции А1

Разборчивость - это «относительное количество правильно принятых слушателем элементов (слогов, слов, фраз)», иначе говоря, это «степень, с которой речь может быть понята (расшифрована) слушателями» Под этим понимается степень, с которой слушатели могут идентифицировать (понять смысл) фразы, слова, слоги и фонемы В соответствии с этим различаются виды разборчивости фонемная, слоговая, словесная и фразовая, которые, однако, все связаны друг с другом и могут быть пересчитаны одна в другую

Для подсчета индекса А1 весь частотный диапазон речевого сигнала разделяется на некоторое количество полос (около 20), в пределах

которых определяется отношение сигнала к шуму. Предполагается, что каждая частотная полоса вносит свой независимый вклад в разборчивость речи Ширина полос выбирается таким образом, чтобы вклад каждой полосы в результирующую разборчивость был максимально одинаковый В каждой полосе рассчитывается отношение "сигнал/шум", взвешивается и суммируется для получения индекса артикуляции А1 = где ' индекс артикуляции, 0< А1 <1, А1} - вклад в индекс в ^той полосе частот, О <А^< 0,05. Причем, для отношения "сигнал/шум" больше 30 дБ значение А13 принимается равным 0,05, а для отношения "сигнал/шум" меньше 30 дБ эти значения определяются как А1, = 0,05(рзсК>МИ)/30

о/й Недостаточно ясно 100

Хороший

§ 40

I

Очень хороший

Пре -1 Ьпож ения

/ / Слове

1 /

/ /

1 /

0 01 02 03 04 05 06 07 08 09 1

Индекс артикуляции отн ед Рис 5. Соотношение между разборчивостью и индексом артикуляции

4) Аналитическая оценка слоговой разборчивости на основе psdSNR Слоговую разборчивость можно оценить аналитически по формуле

(15)

S = 35 + 65 * [1 - 05*SNRe4U ], (15)

где SNRequ = 0 027*psdSNR2 + 126*psdSNR - 5 08 (оценка предложена компанией AT&T), или SNRequ = 0 0602*psdSNR2 + 0 285*psdSNR + 107 (оценка предложена почтовым ведомством Великобритании).

5) Аналитическая оценка разборчивости на основе спектрального индекса артикуляции RI

Эта оценка является наиболее глубоко проработанным и расширенным вариантом метода определения словесной разборчивости и,

по сути, сходна с методом, основанным на индексе артикуляции А1 При этом Ш имеет лучшие показатели соответствия субъективным оценкам, но ввиду значительного объема математического аппарата вычислений здесь не приводится Подробно о методе можно узнать из полного текста диссертационной работы или в работе. Дворянкин С В , Макаров Ю К, Хорев А А, Обоснование критериев эффективности защиты речевой информации от утечки по техническим каналам, // Защита информации -2007, №2

В четвертой главе описывается практическая реализация методики объективной оценки качества речепреобразования на основе сравнительного анализа.

Для получения экспериментального подтверждения разработанной теоретической модели был разработан программный модуль автоматизированной оценки качества речепреобразования В нем программно реализован инструмент сравнительного анализа файлов, отражающих характеристики спектрального распределения мощности речевых сигналов На практике подтверждены возможности программного комплекса проводить анализ в соответствии с разработанной методикой путем объективной оценки искажений сонограмм Экспериментальная проверка показала способность программного модуля эффективно оценивать характеристики и получать количественные оценки для различных типов искажений речевого сигнала

Проведение эксперимента сравнения субъективной оценки и разработанного метода подтвердило преимущественные стороны предлагаемой методики оценки качества речепреобразования перед традиционным артикуляционным способом.

Практическая применимость метода подтверждена при проектировании ряда образцов вокодеров в рамках темы «Уступ-С» на предприятии ГУП НПЦ «СПУРТ» г Зеленоград Аппарат «Уступ-С» предназначен для криптографической защиты речевой информации, а также данных (ПЭВМ), передаваемых по коммутируемой телефонной сети общего пользорания (ТФОП, ТСОП) и спутниковым каналам связи в комплексе технических средств спутниковой связи (КТССС) Инмарсат стандарта Мини-М и М4. Аппарат предназначен для передачи речевой и документальной информации, имеющих максимальный гриф "секретно"

Состоятельность и эффективность методики подтверждена актами о внедрении

В заключении приведены основные результаты работы

Основные результаты работы

1 На основе проведенного анализа моделей параметрического кодирования речи определены основные критерии оценки характеристик низкоскоростного речепреобразования.

2 Предложена и обоснована структура LPC вокодеров с WCE возбуждением от основного тона, позволяющая значительно повысить эффективность кодирования речи

3 Обоснована актуальность создания методики автоматизированной оценки качества речепреобразования, как инструмента оперативного контроля на этапе разработки низкоскоростных речепреобразующих устройств, в дополнение к финальным аттестационным артикуляционным испытаниям согласно ГОСТ.

4 Разработан метод качественного анализа параметров низкоскоростных систем речепреобразования на основе сравнительной оценки сонограмм речевых сигналов

5 Разработана методика объективной оценки искажений речи в элементах тракта низкоскоростного речепреобразования, основанная на сравнительном анализе динамических спектрограмм

6 Разработан программный модуль, реализующий методику объективной оценки качества речепреобразования.

7 Проведены экспериментальные исследования предлагаемой методики на различных типах искажений речевого сигнала Сравнение полученных данных с субъективной оценкой по методу артикуляционных испытаний подтвердило преимущество предлагаемой методики

8 Разработанные методики внедрены, проверенны на практике и доказали свою эффективность

Основные результаты диссертации изложены в работах: 1 Лихачев A.C., Комплексный подход к анализу защищенности региональной платежной системы. // Микроэлектроника и информатика -2004 11-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов Тезисы докладов - М МИЭТ(ТУ), 2004.

2. Лихачев А С, Низкоскоростные вокодеры в системах связи. // Микроэлектроника и информатика - 2005. 12-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов Тезисы докладов - М :МИЭТ(ТУ), 2005.

3 Лихачев А С, Лупин С.А., Анализ и выбор алгоритмов для получения методики разработки низкоскоростных вокодеров // Электроника и информатика - 2005 5-я Международная научно-техническая конференция Тезисы докладов - М .МИЭТ(ТУ), 2005.

4 Лихачев А С., Оценка качества цифровой обработки речи вокодерами с низкой скоростью передачи // Микроэлектроника и информатика - 2006. 13-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов Тезисы докладов. -М.-МИЭТ(ТУ), 2006.

5 Лихачев А С, Оценка качества речепреобразования в низкоскоростных вокодерах // Микроэлектроника и информатика - 2007 14-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов Тезисы докладов - М. МИЭТ(ТУ), 2007

6 Лихачев А С, Лупин С А, Оценка качества речепреобразования в низкоскоростных вокодерах на этапах проектирования // Известия вузов Электроника - М. МИЭТ(ТУ), 2007, № 5

7 Лихачев A.C., Модели возбуждения в низкоскоростных LPC вокодерах, // Техника и технология - М Компания Спутник +, 2007, № 5

8 Лихачев А.С, Лупин С А, Аналитические методы оценки качества низкоскоростных речепреобразующих устройств, // Техника и технология - М: Компания Спутник +, 2007, № 5.

Подписало в печать 10 2007 г Заказ №/// Тираж £<Уэкз Уч-издл 1,0 Формат 60x84/16 Отпечатано в типографии МИЭТ(ТУ) 124498, Москва, МИЭТ(ТУ)

Оглавление автор диссертации — кандидата технических наук Лихачев, Александр Сергеевич

Обозначения и сокращения

Введение

Глава 1. Анализ моделей современных низкоскоростных вокодеров с параметрическим кодированием

1.1. Система кодирования речевого сигнала и вокодер, обзор литературы

1.1.1. Акустические особенности речевого сигнала

1.1.2. Модель системы обработки речевых сигналов

1.1.3. Критерии оценки характеристик кодирования речи

1.1.4. Основные пути для повышения качества кодирования речи

1.1.5. Выводы

1.2. Методы линейного предсказания

1.2.1. Обзор

1.2.2. Линейное предсказание с возбуждением от основного тона

1.2.3. Метод простого возбуждения

1.2.4. 1УСЕ модель возбуждения

1.2.5. Выводы

Глава 2. Аспекты построения, требования и методы оценки качества обработки речевой информации

2.1. Акустические характеристики речи

2.1.1. Двойственность природы речевого сигнала и его субъективное восприятие

2.1.2. Анализ уровнеграмм речевых сигналов

2.1.3. Спектральный анализ речевых сигналов

2.2. Субъективные и объективные методы оценки разборчивости речи 50 2.2.1. Субъективные методы оценки разборчивости

2.2.1.1. Общие положения методики ГОСТ

2.2.1.2. Общие требования и подготовка к измерениям, методы измерений и испытаний

2.2.1.3. Измерение разборчивости речи артикуляционным методом

2.2.2. Объективные методы оценки разборчивости

2.2.2.1. Аддитивная группа объективных оценок (А1, 577, %АЬсот)

2.2.2.2. Группа методов объективной оценки разборчивости на основе анализа модуляционной передаточной функции (577, ЯА8Т1, С50) 86 2.3. Выводы

Глава 3. Модели оценки качества речепреобразования на основе сравнительного анализа динамических спектрограмм.

3.1. Аналитическое исследование искажений речевых сигналов

3.1.1. Анализ фазового спектра сигнала

3.1.2. Анализ амплитудного и энергетического спектров сигнала

3.2. Графический метод качественного анализа на основе сравнительной оценки сонограмм речевых сигналов

3.3. Объективные методы оценки искажений и качества речепреобразования и методика их получения на основе сравнительного анализа динамических спектрограмм

3.4. Формальный метод оценки разборчивости на основе спектрального индекса артикуляции Ш

3.5. Экономическая эффективность

3.6. Выводы

Глава 4. Практическая реализация методики объективной оценки качества речепреобразования на основе сравнительного анализа

4.1. Функциональные возможности разработанного программного модуля

4.2. Проведение экспериментального исследования для различных типов искажений речевого сигнала

4.3. Проведение экспериментального исследования сравнительного анализа субъективной оценки и предлагаемой методики

4.4. Прикладное использование методики в процессе разработки программно-аппаратного комплекса связи «Уступ-С»

4.5. Выводы

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Лихачев, Александр Сергеевич

Актуальность проблемы.

Несмотря на значительный прогресс в области систем передачи данных, связанный с постоянным расширением частотных характеристик каналов связи, не ослабевает и практический интерес к низкоскоростным каналам. Для передачи речи в них используются вокодеры, которые стали популярными, поскольку они гарантируют представление акустического сигнала речи при низкой скорости передачи данных (9.6, 4.8, 2.4, 1.2 и даже 0.6 - 0.8 кбит/с). Поэтому, когда ограничены ширина канала связи или объем памяти для хранения информации, вокодерная техника гарантирует наилучшее использование доступных ресурсов.

Кроме технических этапов процесс проектирования вокодеров включает обязательные финальные аттестационные испытания устройства, требующие проведения время- и трудозатратных процедур. При этом остается открытым вопрос об оценке качества во время разработки (которая включает в себя непосредственно проектирование, реализацию, отладку, проведение предварительных испытаний и внесение коррекций в процессе эксплуатации), когда в программу или устройство вносятся новые элементы или производится корректировка уже имеющихся.

Важнейшим показателем качества систем связи является параметр, называемый разборчивостью передаваемой речи. Для поддержания качества обслуживания абонентов в системах связи необходимо, чтобы этот параметр сохранял свое значение как в обстановке зашумленности, так и при ухудшении параметров канала связи. Повышение качества речи путем оптимизации процесса речепреобразования остается нетривиальной задачей. Основной проблемой в процессе проектирования является нахождение оптимального компромиссного решения между требуемым качеством с одной стороны и сложностью, дороговизной алгоритмов и аппаратуры с другой.

В то же время оценка качества обработки речи остается сложным и трудоемким процессом. В нашей стране были разработаны и стандартизированы методики оценки параметров качества речи, разборчивости и узнаваемости при передаче по трактам радиотелефонной связи, а также низкоскоростной передачи речи по цифровым каналам такие как: ГОСТ 1660072, ГОСТ Р 50840-95 и ГОСТ Р 51061-97 [1-3]. Для оценки качества стандарты предлагают методики артикуляционных испытаний, целью которых является определение класса по разборчивости, в который попадает испытуемый образец кодера. К сожалению, такие испытания связаны с большими время-материальными затратами, требуют специальной подготовки квалифицированной группы операторов (аудиторов и слушателей), на организацию и подготовку которой накладываются жесткие требования. Также нельзя не учитывать необходимость в специальных приборах, оборудовании и квалифицированном персонале, способном на нем работать. В случае коммерческого и мелкосерийного производства, на стадии разработки или при наладке подобные затраты нецелесообразны.

Описанные в ГОСТ методики используют ЭВМ только для хранения данных, внесения и автоматизации подсчета результатов [1-3]. Можно констатировать, что они абсолютно не используют возможности современной вычислительной техники в области цифровой обработки и анализа как звуковой, в общем, так и речевой в частности, информации.

В работе предлагается метод сравнительной оценки систем речепреобразования, позволяющий значительно упростить процедуру и сократить время проектирования.

Цель работы и задачи исследования.

Цели работы: оптимизация параметров систем низкоскоростного речепреобразования для улучшения их технико-экономических и эксплуатационных характеристик и разработка нового методики оценки качества речепреобразования, снижающей затраты на проектирование низкоскоростных вокодерных систем.

Для достижения поставленной цели в работе решаются следующие основные задачи:

1. Рассмотрение особенностей реализации низкоскоростных вокодеров и анализ моделей их представления.

2. Нахождение эффективных наборов параметров ]¥СЕ модели возбуждения при решении задачи линейного предсказания с возбуждением от основного тона.

3. Анализ существующих методик и стандартов определения качества речевого преобразования ГОСТ и методик объективных оценок.

4. Разработка новой методики и программного модуля оценки качества цифровой обработки речи низкоскоростными вокодерами.

5. Внедрение разработанной методики оценки качества в процесс разработки и производства реальной системы низкоскоростного речепреобразования.

Методы исследования.

При решении поставленных задач были использованы положения теории цифровой обработки сигналов и передачи данных по цифровым каналам связи, теории линейных систем, информационных систем, акустики, языки программирования.

Научная новизна.

- Обоснована эффективность ¡¥СЕ модели возбуждения при решении задачи линейного предсказания с возбуждением от основного тона.

- Создана методика и программный модуль оценки качества преобразования речевой информации в низкоскоростных вокодерных системах, базирующиеся на сравнительном анализе искажений характеристики спектральной мощности речевого сигнала.

Практическая значимость.

Предлагаемые модели позволяют повысить качество обработки речевой информации в низкоскоростных вокодерах (разборчивость) и автоматизировать процесс проведения оценки качества речепреобразования.

Положения выносимые на защиту.

1. Обоснование структуры ЬРС вокодеров с И^СЕ возбуждением.

2. Анализ существующих методов оценок качества обработки речевой информации.

3. Новый метод оценки качества речепреобразования на основе сравнительного анализа динамических спектрограмм.

Внедрение результатов.

Теоретические и практические результаты диссертационной работы внедрены в производственный процесс ОК-4 ГУП ПНЦ «СПУРТ» при решении задачи оценки качества работы низкоскоростных вокодеров в процессе разработки и наладки опытной партии комплекса связи «Уступ-С». Была предложена модель и получены оценки качества речепреобразования образцов низкоскоростных вокодерных подсистем. Такой подход подтвердил свою эффективность в процессе внутреннего контроля качества работы низкоскоростных систем обработки речевой информации на этапах их разработки, коррекции и дальнейшего сопровождения. Актами о внедрении подтверждается, что разработанная модель и программный комплекс позволяют организовать процесс сравнительной оценки образцов низкоскоростных вокодеров, не прибегая к затратным процедурам комплекса артикуляционных испытаний.

В результате подтверждены следующие выводы работы:

- общее снижение затрат на разработку путем оптимизации по времени этапов разработки и коррекции (замена артикуляционных испытаний автоматизированной объективной сравнительной оценкой);

- сокращение времени проведения сравнительного анализа более чем в пять раз по сравнению с артикуляционным;

- снижение рисков проектных ошибок (принятия неправильного решения «лучше»/«хуже» при определении влияния незначительных изменений).

Апробация работы.

Основные положения диссертационной работы докладывались и обсуждались на Всероссийских межвузовских научно-технических конференциях студентов и аспирантов: "Микроэлектроника и информатика -2004", "Микроэлектроника и информатика - 2005", "Микроэлектроника и информатика - 2006", "Микроэлектроника и информатика - 2007", Международной научно-технической конференции "Электроника и информатика - 2005".

Публикации.

По материалам диссертации опубликовано пять тезисов докладов и три статьи.

Структура и объём диссертационной работы.

Рукопись диссертационной работы состоит из списка обозначений и сокращений, введения, пяти глав, заключения, списка литературы и двух приложений. Она изложена на 142-х страницах основного машинописного текста, содержит 53 рисунка, 10 таблиц и включает библиографию из 24-х наименований.

Основные результаты диссертации изложены в работах:

1. Лихачев A.C., Комплексный подход к анализу защищённости региональной платёжной системы. // Микроэлектроника и информатика - 2004. 11-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов. Тезисы докладов - М.:МИЭТ(ТУ), 2004.

2. Лихачев A.C., Низкоскоростные вокодеры в системах связи. // Микроэлектроника и информатика - 2005. 12-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов. Тезисы докладов -М.:МИЭТ(ТУ), 2005.

3. Лихачев A.C., Лупин С.А., Анализ и выбор алгоритмов для получения методики разработки низкоскоростных вокодеров. // Электроника и информатика - 2005. 5-я Международная научно-техническая конференция. Тезисы докладов - М.:МИЭТ(ТУ), 2005.

4. Лихачев A.C., Оценка качества цифровой обработки речи вокодерами с низкой скоростью передачи. // Микроэлектроника и информатика - 2006. 13-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов. Тезисы докладов. - М.:МИЭТ(ТУ), 2006.

5. Лихачев A.C., Оценка качества речепреобразования в низкоскоростных вокодерах. // Микроэлектроника и информатика - 2007. 14-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов. Тезисы докладов. - М.:МИЭТ(ТУ), 2007.

6. Лихачев A.C., Лупин С.А., Оценка качества речепреобразования в низкоскоростных вокодерах на этапах проектирования // Известия вузов. Электроника. - М. МИЭТ(ТУ), 2007, № 5.

7. Лихачев A.C., Модели возбуждения в низкоскоростных LPC вокодерах, // Техника и технология - М.: Компания Спутник +, 2007, № 5.

8. Лихачев A.C., Лупин С.А., Аналитические методы оценки качества низкоскоростных речепреобразующих устройств, // Техника и технология - М.: Компания Спутник +, 2007, № 5.

Заключение диссертация на тему "Методика анализа и синтеза элементов тракта речепреобразования для низкоскоростных систем связи"

Основные результаты работы:

1. На основе проведенного анализа моделей параметрического кодирования речи определены основные критерии оценки характеристик низкоскоростного речепреобразования.

2. Предложена и обоснована структура ЬРС вокодеров с \УСЕ возбуждением от основного тона, позволяющая значительно повысить эффективность кодирования речи.

3. Обоснована актуальность создания методики автоматизированной оценки качества речепреобразования, как инструмента оперативного контроля на этапе разработки низкоскоростных речепреобразующих устройств, в дополнение к финальным аттестационным артикуляционным испытаниям согласно ГОСТ.

4. Разработан метод качественного анализа параметров низкоскоростных систем речепреобразования на основе сравнительной оценки сонограмм речевых сигналов.

5. Разработана методика объективной оценки искажений речи в элементах тракта низкоскоростного речепреобразования, основанная на сравнительном анализе динамических спектрограмм.

6. Разработан программный модуль, реализующий методику объективной оценки качества речепреобразования.

7. Проведены экспериментальные исследования предлагаемой методики на различных типах искажений речевого сигнала. Сравнение полученных данных с субъективной оценкой по методу артикуляционных испытаний подтвердило преимущество предлагаемой методики.

8. Разработанные методики внедрены, проверенны на практике и доказали свою эффективность.

Заключение

Библиография Лихачев, Александр Сергеевич, диссертация по теме Элементы и устройства вычислительной техники и систем управления

1. ГОСТ Р 51061-97 «Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений», М.: Издательство стандартов, 1997 г., 24 стр.

2. ГОСТ Р 50840-95 «Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости», М.: Издательство стандартов, 1995 г., 202 стр.

3. ГОСТ 16600-72 «Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных испытаний», М.: Издательство стандартов, 1972 г., 93 стр.

4. Фант Г. Акустическая теория речеобразования / Пер. с англ. М.: Наука, 1964.-284 с.

5. Фланаган Дж. Л. Анализ, синтез и восприятие речи / Пер. с англ. М.: Связь, 1968.-292 с

6. Калинцев Ю.К., «Разборчивость речи в цифровых вокодерах», М.:, "Радио и связь", 1991 г., 220 стр.

7. Ли Фэйпэн, «Разработка низкоскоростного вокодера»: Дис. канд. техн. наук: 01.04.13 М., 1999г., 150 стр.

8. Алдошина И.А., «Основы психоакустики» // http://auditech.ru/doc/psychoacoustics/indexl.htm

9. Дворянкин C.B., «Цифровая обработка изображений динамических спектрограмм аудио сигналов в задачах безопасности речевой связи», // "Специальная техника" № 3 2000 г., стр. 37 45.

10. Н.И. Серегин, «О собенности использования дискретного преобразования Фурье при спектральном анализе», Екатеринбург, Издательство ГОУ-ВПО УГТУ-УПИ, 36 стр.

11. Скляр Б., «Цифровая связь: теоретические основы и практическое применение (2-е изд)», М: Вильяме, 1104 стр.

12. А. Оппенгейм, Р. Шафер, «Цифровая обработка сигналов», М.: Техносфера, 2006 г., 856 стр.

13. Демидов О.Ф., Ишуткин Ю.М., Лихницкий A.M., «Восприятие фазовых искажений в области частоты основного резонанса головки громкоговорителя» // http://www.aml.nm.ru/perception.htm

14. Сапожков М. А., Михайлов В. Г. Вокодерная связь.-М.: Радио и связь 1983.

15. Иванов П., «Измеряемый голос», // http://www.osp.ru/nets/2004/08/151691/

16. Росляков A.B., Самсонов М.Ю., «Модели и методы оценки качества услуг ip-телефонии», // http://axenet.ru/stat/pokip.shtml

17. А. 10. Виноградов, «Оценка качества передачи речи по низкоскоростным каналам связи» // http://www.commerce.net.ua/news68942.html20. «Введение в QoS/SLM» // http://www.microtest.ru/

18. Дворянкин C.B., Макаров Ю.К., Хорев A.A., «Обоснование критериев эффективности защиты речевой информации от утечки по техническим каналам», // "Защита информации" № 2 2007 г.

19. Горелов Г.В., Ромашкова О.Н., Чан Туан Ань, «Качество управления речевым трафиком в телекоммуникационных сетях», Москва, "Радио и связь", 2001 г., 105 стр.

20. Покровский Н.Б., «Расчет и измерение разборчивости речи», М.: Гос. Издательство литературы по вопросам связи и радио, 1962. 392 с.

21. В.К., Железняк, Ю.К. Макаров, A.A. Хорев «Некоторые методические подходы к оценке эффективности защиты речевой информации» // Специальная техника. М.: 2000. - № 4 - С. 39 - 45.