автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Разработка новых методов и алгоритмов компьютерной обработки речевых данных в информационно-телекоммуникационных системах
Автореферат диссертации по теме "Разработка новых методов и алгоритмов компьютерной обработки речевых данных в информационно-телекоммуникационных системах"
На правах рукописи
ПРОХОРЕНКО Екатерина Ивановна
РАЗРАБОТКА НОВЫХ МЕТОДОВ И АЛГОРИТМОВ КОМПЬЮТЕРНОЙ ОБРАБОТКИ РЕЧЕВЫХ ДАННЫХ В ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫХ
СИСТЕМАХ
по специальности 05.13.01 Системный анализ, управление и обработка информации (информационно-телекоммуникационные системы)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Белгород - 2006
Работа выполнена в Белгородском государственном университете
Научный руководитель: доктор технических наук, профессор
Жиляков Евгений Георгиевич
Официальные оппоненты: доктор физико-математических наук, профессор
Нечаев Юрий Борисович
кандидат технических наук, профессор Санников Владимир Григорьевич
Ведущая организация: Открытое акционерное общество
«НИИ СуперЭВМ», г. Москва
Защита диссертации состоится 21 декабря 2006г. в /7 часов на заседании диссертационного совета Д212.015.04 при Белгородском государственном университете по адресу: 308015, г. Белгород, ул. Победы, 85.
С диссертацией можно ознакомиться в библиотеке Белгородского государственного университета.
Автореферат разослан
2006г.
Ученый секретарь диссертационного совета
С.Е. Савотченко
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. В настоящее время значительно возрос интерес специалистов к проблеме обработки в информационно-телекоммуникационных системах (ИТС) речевых данных, что во многом обусловлено развитием технологий глобальных и корпоративных компьютерных сетей, позволяющих обмениваться речевыми сообщениями, которые часто оказывается целесообразным архивировать.
Необходимость в хранении данных речевого обмена возникает при проведении между удаленными участниками аудиоконференций, которые могут продолжаться длительное время, что требует специальных процедур уменьшения объемов битовых представлений сохраняющихся машинных кодов (сжатие данных). Другим достаточно важным примером может служить хранение звукозаписей выступлений лекторов, театральных постановок и т.п.
Стоит так же отметать развивающуюся в настоящее время такую Интернет-услугу, как голосовая электронная почта, что в целях экономии затрат на реализацию трафика тоже требуют применения сжатия передаваемых данных (сигналов).
Проблема сжатия речевых данных рассматривается в работах многих авторов, особенно специалистов в телекоммуникациях. При этом отмечаются два основных аспекта: необходимость удаления пауз, возникающих между отдельными словами и в режиме диалога занимающих до 60% длительности исходных звукозаписей, и сокращение объемов битовых представлений собственно звуковых данных.
В первом случае задача сводится к построению решающей процедуры, позволяющей на основе предварительно (при отсутствии звуков речи) оцененных вероятностных характеристик последовательностей данных в паузе (шумов) определить является ли анализируемый отрезок порождением шума или содержит аддитивную смесь сигнал+шум.
Применяемые (в основном в телекоммуникациях) в настоящее время решающие процедуры обнаружения пауз основываются на использовании так называемых фильтров линейного предсказания. Среди несовершенств такого подхода можно выделить: принципиальную невозможность построения фильтра линейного предсказания конечного порядка для «белого» шума; наличие в решающей функции «мертвых зон», когда изменение одних параметров компенсируется изменениями других; возможное совпадение максимумов энергетических спектров шума и звука, что приводит к совместному их подавлению и ошибочному отнесению анализируемого участка к паузе и т.д.
Можно указать и другие особенности использования фильтров линейного предсказания, которые для повышения достоверности принятия решения о наличии паузы приводят к необходимости анализа достаточно больших отрезков (до 0,6 с), что не позволяет достигать максимального сжатия данных.
Поэтому целесообразно разработать более совершенный метод обнаружения пауз, что можно сделать за счет более тонкого учета различий в распределении энергий шумов и звуковых данных в частотной области. Для этого необходимо , создать метод точного вычисления долей энергии анализируемых отрезков, соответствующих заданным частотным интервалам.
Другим важным применением этого метода будет служить построение так называемых спектрограмм (сонограмм), которые к настоящему времени приобрели статус стандартных процедур анализа речевых сигналов, в том числе в задачах распознавания.
Для сжатия участков звуковых данных тоже разработаны различные процедуры обработки, обычно применяемые для уменьшения объемов трафика в телекоммуникациях. Основой этих процедур служат необратимые преобразования исходных данных либо за счет более грубого квантования по уровню, либо путем построения моделей генерации, позволяющих осуществить их воспроизведение (вокодеры). Наибольшей степени сжатия удается достичь в случае применения вокодеров. Однако, при этом, наряду с разборчивостью воспроизводимой речи существенно искажается тембр и другие характеристики, что неприемлемо для качественного воспроизведения звукозаписей и аудиоконференций.
Поэтому представляется целесообразным при сжатии звуковых данных использовать процедуру квантования по уровню, т.к. тогда появляется возможность варьирования количеством сохраняемых двоичных разрядов для достижения приемлемого качества звучания воспроизводимой речи. Реализуемость такого подхода обеспечивается тем, что обработку звукозаписей можно осуществлять после их окончания (в отличие от передачи в темпе реального времени).
Существующие методы сжатия звуковых данных с использованием грубого квантования по уровню основываются на психоакустической модели, что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха.
В настоящее время для субполосного преобразования принято использовать процедуру прореживания выходных последовательностей КИХ-фильтров (фильтров с конечной импульсной характеристикой), настроенных на соответствующие участки оси частот. После квантования этих данных по уровню они могут либо сохраняться, либо подвергаться статистическому обратимому кодированию для достижения большей степени сжатия. Восстановление исходных данных для воспроизведения речи принято осуществлять с использованием специально рассчитанных КИХ-фильтров.
Не вдаваясь в подробности, можно отметить, что такая процедура субполосного преобразования не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи.
Поэтому представляется целесообразным разработать метод обратимого субполосного преобразования, оптимальный в смысле минимума погрешностей аппроксимации спектров исходного вектора в выбранных частотных диапазонах.
Дальнейшее заключается в разработке на основе новых подходов к обнаружению пауз и субполосному преобразованию процедуры сжатия речевых данных, позволяющей варьировать количество уровней квантования.
Целью работы является совершенствование методов частотной обработки речевых данных в задачах сжатия объемов их битовых представлений в информационно-телекоммуникационных системах.
Для достижения этой цели на основе анализа состояния вопроса были сформулированы и решены следующие задачи:
1. Разработка метода и алгоритмов точного вычисления долей энергий анализируемых отрезков речевых данных в заданных частотных интервалах.
2. Разработка метода обнаружения пауз в речевых данных на основе сравнения распределения энергий шума и смеси сигнал+шум по заданным частотным интервалам.
3. Разработка оптимальных алгоритмов обратимого субполосного преобразования отрезков речевых данных.
4. Разработка информационной технологии сжатия-воссгановления речевых данных с использованием метода обнаружения пауз и квантования по уровню компонент векторов оптимального субполосного преобразования.
5. Создание программно-алгоритмической поддержки информационной технологии сжатия-восстановления речевых данных.
Методы исследований
— Методы системного анализа и синтеза на основе использования вариационных принципов.
- Методы цифровой обработки сигналов.
— Вычислительный эксперимент.
Научно-практическая значимость работы. Научная новизна работы заключается:
— в новом методе точного вычисления долей энергий анализируемых отрезков речевых данных в заданных частотных интервалах;
- в новом методе обнаружения пауз в речевых данных на основе сравнения распределения энергий шума и смеси сигнал+шум по заданным частотным интервалам;
- в новых методах обратимого субполосного преобразования отрезков речевых данных, которые являются оптимальными в смысле минимума евклидовой нормы погрешности аппроксимации отрезков исходного спектра в заданных частотных полосах.
Практическая значимость диссертационной работы заключается в разработке процедуры обработки речевых данных, позволяющей уменьшить (до 20 раз) объем их битовых представлений (осуществить сжатие), в создании более совершенного (точного) алгоритма построения спектрограмм речевых сигналов, в создании программно-алгоритмической поддержки информационной технологии сжатия-восстановления речевых данных. Положения, выносимые на защиту:
1. Метод и алгоритмы точного вычисления долей энергий анализируемых отрезков речевых данных в заданных частотных интервалах.
2. Метода обнаружения пауз в речевых данных на основе сравнения распределения энергий шума и смеси сигнал+шум по заданным частотным интервалам.
3. Алгоритмы оптимального обратимого субполосного преобразования отрезков речевых данных.
4. Информационная технология сжатия-восстановления речевых данных с использованием метода обнаружения пауз и квантования по уровню компонент векторов оптимального субполосного преобразования.
5. Программно-алгоритмическая поддержка информационной технологии сжатия-восстановления речевых данных.
Достоверность полученных результатов обусловлена корректностью математических выкладок, согласованностью основных теоретических результатов с известными положениями теории цифровой обработки сигналов и результатами достаточно обширных вычислительных экспериментов по тестированию созданных алгоритмов, которые подтверждают непротиворечивость основных теоретических результатов и выводов.
Личный вклад соискателя заключается в том, что все изложенные в диссертационной работе результаты исследований получены либо соискателем лично, либо при его непосредственном участии.
Апробация работы. Основные результаты работы были представлены на следующих научно-технических конференциях:
— 8-я Международная научно-техническая конференция «Цифровая обработка сигналов и ее применение», Москва, 2006 г.
— Постоянно действующий научно-технический семинар Российского научно-технического общества радиоэлектроники и связи имени A.C. Попова «Системы синхронизации, формирования и обработки сигналов для связи и вещания», Белгород, 2006 г,
— Шестая международная научно-техническая конференция «Проблемы техники и технологии телекоммуникаций», Уфа, 2005 г.
— Четвертая международная научно-техническая конференция «Проблемы информатики и моделирования», Харьков, 2004 г.
— Пятая международная научно-техническая конференция «Проблемы информатики и моделирования», Харьков, 2005 г.
Связь с научно техническими программами. Исследования по проблеме частотной обработки речевых сигналов частично финансировались в рамках:
— аналитической ведомственной программы «Развитие научного потенциала высшей школы» федерального агентства по образованию РФ, проект РНП.2.1.2.4974;
— научно-исследовательского проекта в рамках конкурса грантов БелГУ, «Разработка методов и алгоритмов сжатия речевых сигналов для уменьшения объёма трафика при их передаче в пакетном режиме по каналам связи».
Публикации. Основные положения работы изложены в 10 печатных работах, из них статей 8.
Объем и структура работы. Диссертация состоит из введения четырех глав, общих выводов и списка литературы. Работа изложена на 142 страницах машинописного текста, включающего список литературы из 144 наименований.
СОДЕРЖАНИЕ РАБОТЫ
Ведение
Во введении обосновывается актуальность темы диссертационного исследования и формулируется его цель. Дается общий обзор содержания диссертации. Указывается научная новизна и выносимые на защиту положения. Приводятся сведения о публикациях и апробации результатов работы.
Глава 1. Хранение и передача речевых данных в информационно — телекоммуникационных системах
В данной главе основное внимание уделено анализу проблем использования информационно-телекоммуникационных систем для хранения и передачи речевых данных.
Приводятся сведения, показывающие, что интенсивность востребованности этой услуги возрастает. Основным инструментом обеспечения запросов пользователей информационно-телекоммуникационных систем служат компьютерные технологии, в основе которых используются методы цифровой обработки речевых данных.
Анализируются существующие подходы к использованию существующих информационно-телекоммуникационных систем для обмена речевыми сообщениями и хранения речевых данных, свойства речевых сигналов и восприятие звука слухом человека, методы компьютерной обработки речевых сигналов.
На основании проведенного анализа и установленных несовершенств существующих процедур цифровой обработки речевых данных формулируются конкретные задачи диссертационного исследования, решение которых позволяет усовершенствовать методы частотной обработки речевых данных в задачах сжатия объемов их битовых представлений в информационно-телекоммуникационных системах.
Глава 2. Частотный анализ речевых сигналов
В данной главе рассматриваются методы частотного анализа речевых сигналов. Представление речевой информации в частотной области обладает рядом преимуществ. В начальной стадии процесса восприятия ухо производит некоторый грубый частотный анализ. Таким образом, характерные особенности, которые проявляются в результате частотного анализа, играют важную роль в процессах восприятия и воспроизведения речи и, следовательно, содержат в себе возможности для эффективного кодирования. Вычисление мгновенного энергетического спектра, зависящего от времени, позволяет получить представление о распределении энергии отрезка сигнала по частотным интервалам, что является важным, например, в задачах распознавания речи и уменьшения объема звуковых данных за счет удаления малоэнергетических частотных составляющих.
В настоящее время процедура анализа частотных характеристик реализуется на основе алгоритма быстрого преобразования Фурье (БПФ) с равноразнесен-ными частотами анализа.
Кроме того, интенсивно развиваются методы сокращения объемов битовых представлений звуковых файлов (сжатия данных). Для сохранения приемлемого уровня качества воспроизведения звука при кодировании данных с целью сжатия
принято учитывать свойства человеческого слуха, которые описываются с помощью, так называемой, психоакустической модели, основу которой составляют частотные представления, что приводит к необходимости избирательно преобразовывать спектральные компоненты из различных частотных диапазонов. В настоящее время все большее распространение получает подход на основе так называемого субполосного кодирования, существующие положения которого излагаются в разделе 2.1 диссертации.
В разделе 2.2 диссертации предлагается новый метод вычислений долей энергии отрезков речевых сигналов, соответствующим заданным частотным диапазонам. Основная суть метода заключается в следующем.
Пусть компоненты вектора х = (лс,,...,*^представляют собой значения некоторого сигнала (функции времени), которые соответствуют значениям аргумента /Д/, т.е.
х,=х(Ш), / = 1,...,ЛГ, (1)
где Д/- интервал дискретизации по времени. Положим далее
(2)
т.е. -А"(о) представляет собой трансформанту Фурье отрезка отсчетов сигнала (вектора), в качестве области определения которой естественно рассматривать (нормированная частота)
- я £ о £ я, (3)
так что имеет место обратное преобразование (справедливо представление)
= ^ (4)
Отсюда не трудно получить равенство Парсеваля
= (5)
*=1 2тс_ж
так что
= ~ (6)
представляет собой долю энергии отрезка сигнала (евклидовой нормы вектора), соответствующую частотному интервалу
Г = [-и2,-и1)и[и1,и2). (7)
Если в правую часть соотношения (6) подставить определение (2), то в результате преобразований получим
1-1 -¿Я исУ
где
¡е'^е-^ск,, (8)
или, используя матричное обозначение
= хтАуХу
где Ау = {а,к} — симметричная матрица, элементы которой определяются из (8)
5ш[и2(/ - *)] - 51п[о1 (/ - к)] ык
(9)
а,к =
и2-и1
71
(10)
г = к
Таким образом, долю энергий отрезка сигнала в любом частотном интервале можно вычислить на основе представления (9), не вычисляя при этом, согласно (2), соответствующую трансформанту Фурье.
На рис Л для фрагмента сигнала, соответствующего звуку «а» длительностью 68мс (№=512), приведены точные значения долей энергии в каждом из 128 частотных интервалов одинаковой длины (сплошная линия) и оцененные с использованием алгоритма БПФ (пунктирная линия):
Ккш 1
где г =1, 2,..., 128 — номер частотного интервала, V = [-и2г»-о1г)и[о1г>о2(.) которому соответствует коэффициенты БПФ С^, при этом все интервалы имеют одинаковую длину о2/. - о,, = л/128.
Легко видеть, что использование алгоритма БПФ приводит к погрешностям частотного анализа распределения энергии.
р
о.ог 1 -
0.06 11 •
0.05 1
ИМ
0.03 -
0.02
0Д1 Л,Л,. 1А л .иДд
зон ■ 400- газ аоо юио о Л 140®
Рис. 1. Точное распределение энергии по частотным интервалам отрезка сигнала, соответствующего звуку «а» (сплошная линия), оценка распределения энергии на основе алгоритма БПФ (пунктирная линия).
Из теории матриц известно, что если матрица симметрична, то существует N собственных векторов дк, которые соответствуют собственным числам Хк, так что справедливы представления
n
ау = ц^-кякякт ¿=1
где дк — собственный вектор А,,, соответствующий собственному числу Хк.
(И)
Используя определение (10), нетрудно получить соотношение
где трансформанта Фурье соответствующего собственного вектора.
Отсюда, имея в виду свойство ортогональности векторов, нетрудно получить соотношение
= (13)
Соотношение (13) показывает, что величина собственного числа равна доли энергии соответствующего собственного вектора, приходящейся на заданный интервал. Некоторые из собственных чисел матрицы Ау могут быть близки к нулю. Энергия таких векторов распределена по частотному диапазону практически равномерно.
Пусть в дальнейшем
Л- *
где квадратная скобка означает операцию взятия целой части содержимого,
J = Л/ + 2. (15)
Вычисления показывают, что при выполнении неравенства M 2:4собственные числа обладают следующими свойствами
à., « \2 « Xj « Х4 «« 1; (16)
0, к = 1,2,... (17)
Таким образом, в соответствии с (И), с достаточной степенью обоснованности для матрицы Ау можно использовать аппроксимации
4, S , (18)
При этом представление (9) принимает вид
(19)
к= 1
где
°-к =
здесь скобка означает скалярное произведение.
Очевидно, что использование представления (19) позволяет уменьшить объем вычислений по сравнению с вычислением непосредственно квадратичной формы вида (8). Пусть далее
АА =
№№л
(20)
где <2[ = - подматрица собственных векторов, Ц = diag(\lt,.,,XJ) -
подматрица собственных чисел матрицы А.
Матрица АЛ имеет размерность Ш к N = (ИМ + 2Я) х N, т.е. Я! строк и N столбцов. Пусть
уу — ААх —
Ух
(21)
Тогда
(22)
Таким образом, после умножения некоторого вектора х на матрицу АА необходимо вычислить суммы квадратов компонент соответствующих подвекторов. При этом точность вычисления доли энергий отрезка сигнала практически сохраняется на уровне представления (9)
Очевидно, что соотношения (9) и (22) представляют собой новый инструмент, позволяющий анализировать спектральные плотности отрезков звуковых сигналов и реализовать новую процедуру построения спектрограмм. Спектрогам-мы являются удобной формой частотного анализа для многих задач обработки речи, например распознавания.
На спектрограмме, построенной для фрагмента сигнала, соответствующего звуку «а» (рис. 2,а) длительностью 200 мс с использованием предложенного метода отчетливо видны формантные частоты звука при разбиении диапазона на 100 частотных интервалов. Спектрограмма, построенная с использованием алгоритма БПФ с теми же параметрами (рис. 2,6) имеет гораздо менее отчетливый характер. Это свидетельствует о преимуществах разработанного подхода.
а) б)
Рис. 2. Спектрограммы звука «а» построенные с использованием соотношения (22) (а)
и с использованием алгоритма БПФ (б)
В разделе 2.3 изложены принципы подхода к анализу речевых сигналов на основе так называемого субполосного преобразования, когда исходный вектор значений некоторого отрезка сигнала х - заменяется вектором такой
же размерности
^ = (23)
Пусть этот вектор определяется следующим образом
г.
м>А+, , если £ целое число, ^^
О,в противном случае. Отметим, что тогда определенный в (23) вектор имеет структуру
^ = (и',,0,...,0,н'2,0 ... 0,и'Л/Д...,0)г (25)
Вектор
«V =("'.....>™м)т
будем называть субполосным представлением (преобразованием) некоторого отрезка сигнала 5 - (*,,...,хм)т, соответствующего частотному интервалу (и„,о2/). Дня его вычисления предлагается использовать вариационный принцип
ЛХ(и)-^(и)|2Л>=тт, (26)
wk =
*=i
Очевидно, что
- W(u) = £)(*, - ivk .
к=1
Поэтому, в соответствии с (9) условие (26) можно преобразовать к виду хтAvx — 2§тАух + wrAvÜ> - min.
w
С учетом структуры (25), нетрудно получить представление для оптимального в смысле критерия (26) вектора
wV) = AMVj х/ап (27)
где АМУ1 матрица, составленная из строк матрицы вида (10) в заданной частотной полосе (7)
АМУ) =
3&,
аг<
а
n
(28)
Тогда вектор
ум = АМх /ап=(, Ъ>1г )Т ^ (29)
будет оптимальным в смысле того, что каждый из его подвекторов иу( удовлетворяет вариационному принципу вида (26).
Нами показано, что матрицы АМ существует обратная матрица АМ\
Таким образом, для (27) имеет место обратная операция, то есть
5 = АМу^ ч>У) а1, (30)
Иными словами, соотношения (27) и (30) представляют собой прямое и обратное субполосное преобразования.
Если теперь, исходя из некоторых соображений (например, энергетических), в векторе щ обнулить часть компонент, то это будет способствовать сжатию данных, тогда как представление (30) позволит с некоторой погрешностью восстановить исходный вектор.
Пусть далее размерность исходного вектора значений некоторого отрезка сигнала увеличена на один отсчет
соответственно размерность вектора определенного (23) можно увеличить на одно значение, и он принимает вид
§ = (н>,,0,...,0,^,0 ... 0,^,0.....(31)
При этом матрица АМ имеет размерность ЛГх(ЛМ-Л).
Значение вектора х можно точно восстановить, используя представление
М = ЛМгФ„+1Л/и^+1Ф£+1 (32)
где Фдг+1 =(Ф,,Ф2>—>Флг+1) » = d}ag(\x^f...,\xN^) - подматрицы собственных
векторов и всех ненулевых собственных чисел соответственно, матрицы АМ-АМг.
Рассмотрим далее представление (21), которое, учитывая материал, изложенный в 2.2., также можно называть субполосным представлением (преобразованием) некоторого отрезка сигнала х =
уу = ААх = (у},ул ,уп,...,^2. (33)
Подвектор уг = {У\Г,-->У^)Т будет оптимальным в смысле
^(Й-) = - ?г (и)|2 (Л> = тш, (34)
х>еУг
причем аппроксимации отрезков спектров х осуществляются на основе представления ?г (и) = , где £?,Ди) — спектры собственных векторов матрицы
Ы\
А,.
Значение вектора (33) позволяет точно восстановить вектор используя представление
Г -1 т
х - АА ФыМи#Фи уу. (35)
где =(ф,,ф2,...,ф^) , Миы ^diag{\i.u...,\i.N) ~ подматрицы собственных век-
7*
торов и всех ненулевых собственных чисел соответственно, матрицы АА * АА .
С целью сопоставления уровней евклидовых погрешностей, которые возникают при предлагаемых подходах к субполосному представлению и при использовании КИХ-фильтров, были проведены вычислительные эксперименты с различными отрезками речевых данных. Результаты нескольких экспериментов приведены в таблице 1. Здесь: 5олда1 — среднеквадратическая относительная погрешность аппроксимации отрезков спектра исходной последовательности с помощью оптимальных подвекторов вида (25) при //=500; б^,^ — среднеквадратическая относительная погрешность аппроксимации отрезков спектра исходной последовательности с помощью оптимальных подвекторов вида (31) при №=501; б^з — среднеквадратическая относительная погрешность аппроксимации отрезков спектра исходной последовательности с помощью оптимальных подвекторов вида (33) при №=500; 525б, 5т> 5,024 — среднеквадратическая относительная погрешность аппроксимации с помощью прореженных выходных последовательностей КИХ-фильтров с длинной импульсной характеристики равной соответственно 256, 512 и 1024 значениям, причем
. ¡(х-ъ)тА(х-1^ „ " _
Зо^з = ЛГ-- > где = ЦУУшЯи •
V х А х
Таблица I,
Границы частотного интервала г опт2 ^оптЪ 5256 ^1024
О|=0; и2=я/10 0,3662 0,4050 0,5513е-3 0,9767 0,4916 0,4669
и|=я/10; иг-2л/10 0,1051 0,0773 6,2583е-3 0,1897 0,1323 0,1268
О|=2л/10; о2=3я/10 0,2730 0,2299 5,5269е-3 0,6134 0,3563 0,3349
о |=3 л/10; о2=4л/10 0,1977 0,1573 5,3977е-3 0,5442 0,2757 0,2484
и1=4я/10; и2=5л/10 0,2173 0,1764 5,158е-3 0,7624 0,3272 0,2749
о [=5 л/10; и2=6я/10 0,2039 0,1658 5,4694е-3 0,8296 0,3275 0,2611
О|=6я/10;о2=7л/10 0,1887 0,1439 5,5347е-3 0,8749 0,3237 0,2424
О1-7тс/10; ог=8л/10 0,2059 0,1508 5,2341е-3 1,1714 0,3865 0,2635
О|=8тс/10; О2=9Л/10 0,2542 0,1518 5,8355е-3 1,9089 0,5687 03116
и|=9л/10; и2=10л/10 0,5705 0,1702 0,7224е-3 11,594 2,1374 0,6124
Очевидно, что подход на основе вектора (33) позволяет на порядок уменьшить погрешность аппроксимации отрезков спектра исходного вектора по сравнению с прореженными выходными последовательностями КИХ-фильтров, с импульсной характеристикой длиной 1024 отсчета.
Глава 3. Компьютерная обработка речевых сигналов при обнаружении
и кодировании пауз речи
В разделе 3.1 диссертации рассмотрены известные методы сжатия речевых данных с позиций обнаружения и кодирования пауз.
В разделе 3.2, разработана процедура обнаружения участков речевого сигнала, соответствующих паузам речи, на основе модели линейного предсказания с использованием не имеющей «мертвых зон» векторной решающей функции, обладающей максимальной чувствительностью к малым изменениям параметров.
Пусть имеется отрезок сигнала, соответствующий паузе речих„, и=1,2,N. Понятие стационарности отражает предположение о том, что с течением времени вероятностные свойства отсчетов последовательности х„ и статистические связи между ними не изменяются. Для стационарных случайных последовательностей должны быть справедливы равенства:
тк = const;
а* = а2 = const; (36)
К,к
Здесь
/и*=£[д"*] — математическое ожидание,
с2* =E[(xk-mkf'\ - дисперсия,
R„,k=E{(xir-mk)(x„-m„)] — автоковариационная функция, использующаяся для описания статистической связи между последовательностями, где Е — оператор математического ожидания случайной величины.
Сигнал, соответствующий звукам, не является стационарным, так как формируется при активном воздействии речевого аппарата. Процедура обнаружения пауз может бьпъ основана на принципе обнаружения отличий характеристик сигналов на данном интервале по сравнению с характеристиками сигнала в паузе.
Для описания характеристик сигнала в паузе, которые определяются заранее, в данной работе используется модель авторегрессии, которая имеет вид:
х„-т = ~т) + > (37)
м
где т - математическое ожидание v, - некоррелированная последовательность с единичной дисперсией и нулевым математическим ожиданием, со - параметр, определяющий уровень среднеквадратичной погрешности предсказания на основе линейной комбинации вида:
<38)
4=1
Отрезки речевого сигнала, которые не относятся к паузе, будут отличаться по структуре от сигнала в паузе, т.е. для каждого звука возможна своя модель ав-
торегрессии. Оценка параметров сигналов т, аь о2о осуществляется с использованием метода наименьших квадратов.
После оценки параметров модели вида (37) необходимо ввести решающую функцию (РФ), с помощью которой будет решена задача обнаружения изменения вероятностных свойств последовательности х„, так называемой разладки. В данной работе использована методика1 построения не имеющей мертвых зон векторная РФ, использующей в качестве компонент статистики максимальной чувствительности:
5,<Т)-2>4. (39)
*=1
(40)
г+2-1
' = 3,...,т (41)
*=1
Соотношения для границ доверительных интервалов РФ имеют вид
а, (т) - (т), Ь, (т) = кЛ^7+2, (42)
где к - некоторый коэффициент.
Результаты проведенных экспериментов свидетельствуют о том, что предлагаемый метод позволяет достаточно быстро обнаруживать границу пауза/звук с высокой степенью точности, т.е. обнаруживать паузы между фразами, словами и фонемами. При этом можно обеспечить изменение коэффициента сжатия в широких пределах, что позволяет оптимизировать объем данных с закодированными паузами, по критерию качества воспроизведения речи во всем диапазоне экспертных оценок.
Таким образом, применение не имеющей мертвых зон векторной РФ, использующей в качестве компонент статистики максимальной чувствительности, позволяет модифицировать существующие методы обнаружения пауз в речевом сигнале.
Однако, использование такого подхода, наряду с исключением «мертвых зон» и повышением чувствительности не исключает других недостатков модели линейного предсказания, о которых говорилось выше. Поэтому нами разработан новый подход к обнаружению пауз, изложение которого приведено в разделе 3.3 диссертации.
При обнаружении участков речевого сигнала, соответствующих паузам речи, предполагается осуществлять учет различий в распределении энергий шумов и звуковых данных в частотной области.
Частотный диапазон разбивается на К одинаковых частотных интервалов, для каждого из которых необходимо определять долю энергии сигнала соответствующего паузе, приходящуюся на данный интервал.
1 Жиляков Е.Г. Статистики максимальной чувствительности в задаче обнаружения из-
менений параметров процессов авторегрессии / Е.Г. Жиляков, Э.К. Шпилевский // Заводская лаборатория. - 1992. - №7. - С.31-34.
Полученный в гл. 2 новый инструмент частотного анализа, а именно представление (22), позволяет точно вычислить долю энергии отрезка сигнала в определенном частотном диапазоне. Таким образом, если
(43)
*=1
Угк=-1Кк{ягкух), (44)
где г — 1,..., R - частотных интервалов, к -1 собственных чисел то да-
лее для отрезка сигнала соответствующего паузе можно определить
^n=Z(v;J, (45)
где у"к означает компоненты, полученные на участке паузы.
Оценку математического ожидания долей энергии отрезка паузы в г-том частотном интервале получаем путем усреднения значений, определенных для некоторого количества N^ отрезков сигнала соответствующих паузе:
1 Nomp
лп-тr-lLH W
Л
При этом считаем, что R =-= const (для всех г одинаковое), причем
целое и имеет место КМ = четное, М — четное, так что М
— целая часть, ту —^-— — целое число.
2л
Положим
= г = 1, 2.....Я (47)
г
В случае, когда /-тый анализируемый отрезок сигнала х, представляет собой отрезок паузы, правая часть (47) представляет собой случайную величину, распределенную по закону %2
1 / \АУ< 1
Хм ^ \ « 2> (48)
А/, 2 2
т.е. можно установить порог ha, который удовлетворяет неравенству
1 » |
I- ¡у 2 е^йа, (49)
Чт)4"
где а — так называемая вероятность ложной тревоги, М\ — число степеней свобо-
м
ды, которое можно приблизительно вычислить как Л/, =
2 2
Энергия сигнала, соответствующего звуку может быть сосредоточена в сравнительно узком диапазоне частот. Поэтому с целью повышения вероятности правильного обнаружения начала звукового сигнала целесообразно использовать максимальное значение из отношений вида (47).
Таким образом, если имеет место
. шах(5;)<Ла> (50)
то данный отрезок речевого сигнала относим к паузе.
Для установления величины порога были проведены эксперименты, в ходе которых бьшо установлено, что при достаточно малой вероятности ложной тревоги и соответствующей величине порога Иа — 1МХ, выбранной по таблицам вероятностей распределения %2 при N=60, /г=10 число переходов решающей функции
тах(5^ ) через установленный порог на отрезках сигнала соответствующих паузе, не превышает заданную величину. Наиболее типичные результаты приведены в таблице 2. Здесь вероятность ложной тревоги определялась как
где К — длина паузы, ЛГПЧ> — количество переходов решающей функции через по рог.
Таблица 2
Длина паузы, ЛГ„ 30000 25000 14000 6000 14000 20000
Количество переходов решающей функции через порог, Ли 1500 1440 0 120 360 600
Вероятность ложной тревоги, а 0,05 0,0576 0 0,02 0,025714 0,03
С другой стороны, на участках соответствующих звукам речи решающая функция превышала установленный порог с вероятностью 90-95%. В таблице 3 приведены типичные результаты исследования поведения решающей функции на отрезках сигнала, соответствующих слитной речи.
Таблица 3
Длина фрагмента слитной речи, //„ 4516 17672 8451
Количество переходов решающей функции через порог, 4156 16832 7671
Вероятность правильного обнаружения, Рпо 0,92 0,95 0,9077
Причем отрезки сигнала, на которых величина решающей функции не превышала установленный порог, как правило, являлись паузами малой длительности между фонемами или слитно произнесенными словами.
Глава 4. Разработка информационной технологии сжатия-
восстановления речевых данных в ИТС на основе частотной обработки
Разработанные в главах 2 и 3 алгоритмы частотного анализа сигналов, субполосного преобразования и обнаружения пауз были использованы для построения спектрограмм и процедуры сжатия-восстановления речевых данных.
В рамках данной главы разработана процедура сжатия-восстановления речевых данных в ИТС на основе частотной обработки, которая состоит из нескольких этапов:
1. Кодирование пауз за счет учета различий в распределении энергий шумов и звуковых данных в частотной области.
Выбирается последовательность отсчетов, соответствующая периоду молчания диктора, т.е. паузе. Данная последовательность разбивается на отрезки х„, содержащие N отсчетов каждый. Для каждого отрезка определяется доля энергии сигнала в Я одинаковых частотных интервалах, на которые разбивается частотный диапазон, и затем усредняется для каждого из частотных диапазонов для всей последовательности отсчетов, соответствующей паузе. Для вычисления доли энергии сигнала в Л интервалах применяется метод, изложенный в 2.2.
В соответствии с методом, изложенным в 3.3, на всей реализации исходных данных х, которая разбивается на отрезки хп, содержащие N отсчетов каждый, рассчитываются отношения вида (47) и их максимальные значения сравниваются с пороговым значением (50). Если полученное значение не превышает значение порога, то считается, что энергия данного отрезка исходных данных обусловлена шумами (он соответствует паузе) и такой отрезок удаляется из исходной последовательности, таким образом, формируется последовательность речевых данных, не содержащая пауз 1. Для последующего восстановления, формируется массив данных содержащий коды обнаруженных пауз — номер начального отсчета и длину, т.е. количество отсчетов для каждой паузы.
Кодирование пауз позволяет уменьшить объем битового представления речевых данных на 30+60%.
2. Субполосное преобразование векторов исходных звуковых данных.
Используются алгоритмы обратимого субполосного преобразования, оптимальные в смысле минимума погрешностей аппроксимации спектров исходного вектора, в выбранных частотных диапазонах изложенные в 2.3. Вычисляются вектора субполосного преобразования вида (25), (31) или (33). Выбор представления вектора субполосного преобразования осуществляется с учетом сравнения относительных погрешностей аппроксимации отрезков спектров исходных последовательностей в заданных частотных полосах (таблица 1), а также из соображений минимизации избыточности.
Избыточность при выполнении субполосного преобразования зависит от структуры подвекторов н\ Подвектор (25) имеет размерность (1хМ), где
М = 2 , следовательно, вектор субполосного преобразования (29) имеет раз-
мерность (иМЯ) и его длина (количество отсчетов) равна длине исходного отрезка звуковых данных т.о. избыточность отсутствует. Подвектор (31) имеет раз-
мерность (1хМ+1), где М = следовательно, длина вектора субполос-
ного преобразования (29) на Я отсчетов больше длины исходного отрезка звуковых данных ¿V, т.е. второй метод имеет избыточность. Длина вектора субполосного преобразования (33) на 2К отсчетов больше длины исходного отрезка звуковых данных Л^ т.е. третий метод имеет большую избыточность по отношению к двум первым.
Увеличивая избыточность, что незначительно отражается на степени сжатия исходных звуковых данных, можно получить возможность существенно уменьшить погрешность аппроксимации спектра исходных данных используя для субполосного преобразования представление (33).
3. Квантование по уровню компонент векторов субполосного представления.
Исходные данные процедуры квантования представляют отсчеты вектора субполосного преобразования, полученные на предыдущем этапе. В данной работе используется метод равномерного квантования с округлением к ближайшему двоичному уровню с порогом округления 0,5.
При равномерном квантовании используются двоичные шкалы с постоянным шагом квантования А. При этом максимальное число уровней квантования определяет число разрядов т
ЛГ,з=2м-1 (51)
Величина шага квантования Л определяется максимальным из абсолютных значений вектора квантуемой последовательности:
(52)
К.
Квантование осуществляется для каждой субполосы, полученной на преды- ' дущем этапе, отдельно, т.е. шаг квантования вычисляется для каждого подвектора
1?, исходной последовательности уте, и формируется квантованная последовательность:
(53)
где = тах(|я>,|) - максимальное по модулю значение подвектора исходной последовательности, соответствующего г-того частотного интервала. Определяются знаки отсчетов исходной последовательности гп( = -у/£и(>е,).
Таким образом, на выходе квантователя формируется массив данных, содержащий N бит значений знаков отсчетов исходной последовательности Я максимальных значений подвекторов тЫ бит значений квантованной последовательности я, кв и значение, определяющее количество разрядов квантования т.
При таком алгоритме квантования имеется возможность устанавливать любое значение разрядов квантования т.
В данной работе так же рассматривается возможность применения метода знакового квантования, при котором квантованная последовательность формируется как
(54)
В этом случае массив данных будет содержать только N значений знаков
отсчетов исходной последовательности \ги> и Л максимальных значений подвек-ТОрОВ IV.
Квантование по уровню компонент векторов субполосного представления позволяет использовать 2-4 бита для кодирования отсчетов данных векторов. Задавая количество уровней квантования пользователь может получать требуемое качество воспроизведения речи.
Этапы процесса восстановления идут в обратной последовательности, по сравнению с процессом сжатия:
1. Восстановление компонент векторов субполосных преобразований по квантованным значениям.
2. Восстановление звуковых данных.
3. Восстановление пауз.
Программно-алгоритмическая поддержка процедуры сжатия-восстановления речевых данных реализована в виде программного комплекса, включающего в себя модуль построения спектрограмм и модуль сжатия-восстановления речевых данных.
Области применения программного комплекса:
- Частотный анализ речевых данных.
- Хранение речевых файлов на жестких носителях.
Программный комплекс выполняет следующие функции:
1. Построение спектрограмм речевых данных.
2. Сжатие исходных речевых данных, представленных в формате \уау с различными параметрами сжатия.
3. Восстановление сжатых речевых данных и запись их в формат луэу.
В рамках данной главы был проведен ряд вычислительных экспериментов, в ходе которых варьировались длина анализируемого отрезка N> количество частотных интервалов Я и количество уровней квантования Л^, и оценивались:
1. относительные среднеквадратические погрешности представления исходных данных восстановленными значениями;
2. степень сжатия речевых данных;
3. качество воспроизведения восстановленных речевых данных.
Анализ результатов вычислительных экспериментов показывает, что погрешность аппроксимации отрезков спектра исходной последовательности уменьшается при увеличении длины отрезка анализируемого сигнала при всех методах субполосного преобразования. Но поскольку необходимо учитывать то, что с увеличением N возрастает размерность апроскимирующих матриц, следовательно увеличивается объем оперативной памяти, требуемый для их хранения, то для использования могут быть рекомендованы значения N=200-5-500 отсчетов. Качество воспроизведения восстановленных речевых данных существенно улучшается при увеличении значения Я до 50 интервалов, а при дальнейшем увеличении
изменения практически не различимы «на слух». Для практического использования могут быть рекомендованы значения Д=1(й-50 интервалов, в зависимости от требуемого качества восстановления.
Были проведены вычислительные эксперименты по сравнению предлагаемого алгоритма сжатия-восстановления речевых данных с форматами МРЗ и БИб. При сжатии всех рассмотренных файлов степень сжатия предлагаемого алгоритма выше, чем у формата МРЗ и сравнима с форматом 8Р6, но в последнем случае качество воспроизведения файлов речевых данных плеером 8Р6 ниже, чем восстановленный с использованием предложенного в работе алгоритма.
Стоит отметить, что вся служебная информация представляется в виде таблиц, что позволяет получать дополнительное сжатие за счет передачи не самих значений, а их кодов. Кроме того, возможно применение методов статистического кодирования. Таким образом, существует путь для повышения степени сжатия достигаемой данной информационной технологией.
В заключение главы отмечено, что была решена задача создания программно-алгоритмического комплекса сжатия-восстановления речевых данных, применение которого позволяет достичь 20-тикратного уменьшения объемов битового представления речевых данных при достаточно высоком качестве воспроизведения речи. На указанную информационную технологию сжатия-восстановления речевых данных получено свидетельство о регистрации в Отраслевом фонде алгоритмов и программ Федерального агентства по образованию № регистрации 6845.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ
1. Разработан алгоритм точного вычисления долей энергий анализируемых отрезков речевых данных в заданных частотных интервалах, который позволил разработать более совершенный метод обнаружения пауз, за счет тонкого учета различий в распределении энергий шумов и звуковых данных в частотной области и процедуру построения спектрограмм речевых сигналов.
2. Разработан метод обнаружения пауз в речевых данных на основе сравнения распределения энергий шума и смеси сигнал+шум по заданным частотным интервалам.
3. Разработаны оптимальные в смысле минимума погрешностей аппроксимации спектров исходного вектора в выбранных частотных диапазонах алгоритмы обратимого субполосного преобразования отрезков речевых данных, позволяющие минимизировать количество уровней квантования.
4. Разработана информационная технология сжатия-восстановления речевых данных с использованием метода обнаружения пауз и квантования по уровню компонент векторов оптимального субполосного преобразования.
5. Создана программно-алгоритмическая поддержка информационной технологии сжатия-восстановления речевых данных.
6. Исследования с использованием вычислительных экспериментов показали, что указанный подход позволяет достичь 20-тикратного уменьшения объемов битового представления речевых данных при достаточно высоком качестве воспроизведения речи.
7. Использование разработанной процедуры сжатия речевых данных повышает их скрытность, в том смысле, что для их восстановления необходимо использовать специальные алгоритмы и программную поддержку.
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Прохоренко, Е.И. Метод обнаружения пауз в речевых сигналах / Е Й. Прохоренко // Вестник московской академии рынка труда и информационных технологий. - Москва, 2006. №4(26). - С.13-20.
2. Жиляков, Е.Г. Вариационные методы частотного анализа звуковых сигналов / Е.Г. Жиля-ков, С.П. Белов, Е.И. Прохоренко // Труды учебных заведения связи. - СПб, 2006. -№174.-С. 163-170.
3. Белов, С.П. Об уменьшении объема трафика при пакетной передаче речевых сообщений за счет кодирования пауз / С.П. Белов, Е.И.Прохоренко // Научные ведомости Белгородского государственного университета. Серия: информатика и прикладная математика. - Белгород. 2006.-№1(21), выпуск 2. - С. 141-148.
4. Жиляков, Е.Г. Частотный анализ речевых сигналов / Е.Г. Жиляков, Е.И. Прохоренко // Научные ведомости Белгородского государственного университета. Серия: информатика и прикладная математика - Белгород, 2006. - №2(31), выпуск 3. - С. 201-208.
5. Прохоренко, Е.И. О пакетной передаче речи / Е.И. Прохоренко // Вестник национального технического университета «Харьковский политехнический институт». Сборник научных трудов. Тематический выпуск: Информатика и моделирование. - Харьков, 2004. ~ №46. — С.56-61.
6. Жиляков, Е.Г. О сжатии речевых сигналов / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Вестник национального технического университета «Харьковский политехнический институт». Сборник научных трудов. Тематический выпуск: Информатика и моделирование. - Харьков, 2005. - №56. - С. 32-40.
7. Жиляков, Е.Г. О субполосном преобразовании звуковых сигналов / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Труды Российского научно-технического общества радиотехники, электроники и связи имени А.С.Попова. Серия: цифровая обработка сигналов и ее применение. Выпуск VIII-1. - Москва, 2006. - С. 167-169.
8. Жиляков, Е.Г. Метод обнаружения пауз в речевых сигналах / Е.Г. Жиляков, С.П. Белов, Е.И.Прохоренко // Системы синхронизации, формирования и обработки сигналов для связи и вещания. Материалы научно-технического семинара. - Белгород, 2006. - С. 94-98.
9. Жиляков, Е.Г. О кодировании пауз в речевых сигналах / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко II Материалы Шестой Международной научно-технической конференции «Проблемы техники и технологии телекоммуникаций». - Уфа, 2005. - С. 73-74.
10. Жиляков, Е.Г. Программная система цифровой обработки речевых данных / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко. - Отраслевой фонд алгоритмов и программ «Государственный координационный центр информационных технологий», 2006. - №50200601604.
Подписано в печать 03.11.2006. Формат 60*84/16. Гарнитура Times. Усл. п. л. 1,33. Тираж 100 экз. Заказ 268. Оригинал-макет подготовлен и тиражирован в издательстве Белгородского государственного университета 308015 г. Белгород, ул. Победы, 85
Оглавление автор диссертации — кандидата технических наук Прохоренко, Екатерина Ивановна
Введение.
Глава 1. Хранение и передача речевых данных в информационнотелекоммуникационных системах.
1.1. Обзор использования существующих информационно- телекоммуникационных систем для обмена речевыми сообщениями и хранения речевых данных.
1.2. Анализ свойств речевых сигналов и восприятия звука слухом человека.
1.3. Компьютерная обработка речевых сигналов в информационно-телекоммуникационных системах.
1.4. Задачи исследования.
Глава 2. Частотный анализ речевых сигналов.
2.1. Методы частотного анализа-синтеза речевых сигналов.
2.2. Разработка нового алгоритма вычислений долей энергии отрезков речевых сигналов, соответствующих заданным частотным диапазонам (частотный анализ).'.
2.3. Оптимальные алгоритмы субполосного преобразования.
Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Прохоренко, Екатерина Ивановна
В настоящее время значительно возрос интерес специалистов к проблеме обработки в информационно-телекоммуникационных системах (ИТС) речевых данных, это во многом обусловлено развитием технологий глобальных и корпоративных компьютерных сетей, позволяющих обмениваться речевыми сообщениями, которые часто целесообразно архивировать.
Необходимость в хранении данных речевого обмена возникает при проведении между удаленными участниками аудиоконференций, которые могут продолжаться длительное время, что требует специальных процедур уменьшения объемов битовых представлений сохраняющихся машинных кодов (сжатие данных). Другим достаточно важным примером может служить хранение звукозаписей выступлений лекторов, театральных постановок и т.п.
Стоит так же отметить развивающуюся в настоящее время такую Интернет-услугу, как голосовая электронная почта, что в целях экономии затрат на реализацию трафика так же требуют применения сжатия передаваемых данных (сигналов).
Проблема сжатия речевых данных рассматривается в работах многих авторов, особенно специалистов в телекоммуникациях. При этом отмечаются два основных аспекта: необходимость удаления пауз, возникающих между отдельными словами и в режиме диалога занимающих до 60% длительности исходных звукозаписей, и сокращение объемов битовых представлений собственно звуковых данных.
В первом случае задача сводится к построению решающей процедуры, позволяющей на основе предварительно (при отсутствии звуков речи) оцененных вероятностных характеристик последовательностей данных в паузе (шумов) определить является ли анализируемый отрезок порбждением шума или содержит аддитивную смесь сигнал+шум.
Применяемые (в основном в телекоммуникациях) в настоящее время решающие процедуры обнаружения пауз основываются на использовании так называемых фильтров линейного предсказания. Среди несовершенств такого подхода можно выделить: принципиальную невозможность построить фильтр линейного предсказания конечного порядка для «белого» шума; наличие в решающей функции «мертвых зон», когда изменение одних параметров компенсируется изменениями других; возможное совпадение максимумов энергетических спектров шума и звука, что приводит к совместному их подавлению и ошибочному отнесению анализируемого участка к паузе.
Можно указать и другие особенности использования фильтров линейного предсказания, которые для повышения достоверности принятия решения о наличии паузы приводят к необходимости анализа достаточно больших отрезков (до 0,6 с), что не позволяет достигать максимального сжатия данных.
Поэтому целесообразно разрабатывать более совершенный метод обнаружения пауз, что можно сделать за счет более тонкого учета различий в распределении энергий шумов и звуковых данных в частотной области. Для этого необходимо создать метод точного вычисления долей энергии анализируемых отрезков, соответствующих заданным частотным интервалам.
Другим важным применением этого метода будет служить построение так называемых спектрограмм (сонограмм), которые к настоящему времени приобрели статус стандартных процедур анализа речевых сигналов, в том числе в задачах распознавания.
Для сжатия участков звуковых данных так же разработаны различные процедуры обработки, в основном применяемые для уменьшения объемов трафика в телекоммуникациях. Основой этих процедур служат необратимые преобразования исходных данных либо за счет более грубого квантования по уровню, либо путем построения моделей генерации, позволяющих осуществить их воспроизведение (вокодеры). Наибольшей степени сжатия удается достичь в случае применения вокодеров. Однако, при этом, наряду с разборчивостью воспроизводимой речи существенно искажается тембр и другие характеристики, что неприемлемо для качественного воспроизведения звукозаписей и аудиоконференций.
Поэтому представляется целесообразным при сжатии звуковых данных использовать процедуру квантования по уровню, т.к. тогда появляется возможность варьирования количеством сохраняемых двоичных разрядов для достижения приемлемого качества звучания воспроизводимой речи. Реализуемость такого подхода обеспечивается тем, что обработку звукозаписей можно осуществлять после их окончания (в отличие от передачи в темпе реального времени).
Существующие методы сжатия звуковых данных с использованием грубого квантования по уровню основываются на психоакустической модели, что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Именно компоненты этих подвекторов подвергаются квантованию по уровню с различными шагами, чем достигается учет частотно-избирательных свойств человеческого слуха.
В настоящее время для субполосного преобразования принято использовать процедуру прореживания выходных последовательностей КИХ-фильтров (фильтров с конечной импульсной характеристикой), настроенных на соответствующие участки оси частот. После квантования этих данных по уровню они могут либо сохраняться, либо подвергаться статистическому обратимому кодированию для достижения большей степени сжатия. Восстановление исходных данных для воспроизведения речи принято осуществлять с использованием специально рассчитанных КИХ-фильтров.
Не вдаваясь в подробности, можно отметить, что такая процедура субполосного преобразования не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи.
Поэтому представляется целесообразным разработать метод обратимого субполосного преобразования, оптимальный в смысле минимума погрешностей аппроксимации спектров исходного вектора в выбранных частотных диапазонах.
Дальнейшее заключается в разработке на основе новых подходов к обнаружению пауз и субполосному преобразованию процедуры сжатия речевых данных, позволяющей варьировать количество уровней квантования.
Целью работы является совершенствование методов частотной обработки речевых данных в задачах сжатия объемов их битовых представлений в информационно-телекоммуникационных системах.
Для достижения этой цели на основе анализа состояния вопроса были сформулированы и решены следующие задачи:
1. Разработка метода и алгоритмов точного вычисления долей энергий анализируемых отрезков речевых данных в заданных частотных интервалах.
2. Разработка метода обнаружения пауз в речевых данных на основе сравнения распределения энергий шума и смеси сигнал+шум по заданным частотным интервалам.
3. Разработка оптимальных алгоритмов обратимого субполосного преобразования отрезков речевых данных.
4. Разработка информационной технологии сжатия-восстановления речевых данных с использованием метода обнаружения пауз и квантования по уровню компонент векторов оптимального субполосного преобразования.
5. Создание программно-алгоритмической поддержки информационной технологии сжатия-восстановления речевых данных.
Методы исследований
Методы системного анализа и синтеза на основе использования вариационных принципов.
Методы цифровой обработки сигналов.
Вычислительный эксперимент.
СОДЕРЖАНИЕ РАБОТЫ
Диссертация состоит из Введения, четырех глав, Заключения и Приложений, в которых приведены результаты исследования свойств собственных векторов рассматриваемой в работе матрицы специального вида, полученные в результате вычислительных экспериментов спектры различных звуков речи и документы, подтверждающие внедрение результатов работы.
Заключение диссертация на тему "Разработка новых методов и алгоритмов компьютерной обработки речевых данных в информационно-телекоммуникационных системах"
4.5. Основные результаты и выводы главы
1. Разработана процедура сжатия-восстановления речевых данных
Разработка данной процедуры предполагает объединение разработанных в работе методов:
- точного вычисления долей энергии анализируемых отрезков, соответствующих заданным частотным интервалам;
- обнаружения пауз, за счет более тонкого учета различий в распределении энергий шумов и звуковых данных в частотной области;
- обратимых субполосных преобразований, оптимальных в смысле минимума погрешностей аппроксимации спектров исходного вектора в выбранных частотных диапазонах, с квантованием по уровню с различными шагами компонент полученных подвекторов. Указанная процедура состоит из нескольких этапов:
- кодирование пауз с использованием учета различий в распределении энергий шумов и звуковых данных в частотной области;
- обратимого субполосного преобразования, оптимального в смысле минимума погрешностей аппроксимации спектров исходного вектора в выбранных частотных диапазонах;
- квантования по уровню компонент векторов субполосного представления;
- восстановления исходных данных.
2. Разработан программно-алгоритмический комплекс сжатия-восстановления речевых данных состоящий из двух модулей:
- модуля построения спектрограмм, позволяющего осуществлять частотный анализ речевых сигналов;
- модуля сжатия-восстановления речевых данных, позволяющего осуществлять сжатие WAV-файлов с использованием метода кодирования пауз и квантования по уровню компонент подвекторов субполосного преобразования.
3. Проведенные вычислительные' эксперименты показали, что качество воспроизведения восстановленных речевых данных зависит от выбора параметров процедуры сжатия-восстановления - длины анализируемого отрезка N, количества частотных интервалов R и количества разрядов квантования т. Для использования данной процедуры могут быть рекомендованы значения //=200+500 отсчетов, R=\0+50 интервалов и т= 1,2, 3 разряда, а так же знаковое квантование.
4. Применение данного программно-алгоритмического комплекса позволяет достичь 20-тикратного уменьшения объемов битового представления речевых данных при достаточно высоком качестве воспроизведения речи.
5. На указанную информационную технологию сжатия-восстановления речевых данных получено свидетельство о регистрации в Отраслевом фонде алгоритмов и программ Федерального агентства по образованию № регистрации 6845 (приложение 3).
ЗАКЛЮЧЕНИЕ
В ходе выполнения диссертационного исследования были получены следующие результаты:
1. Разработан алгоритм точного вычисления долей энергий анализируемых отрезков речевых данных в заданных частотных интервалах, который позволил разработать более совершенный метод обнаружения пауз, за счет тонкого учета различий в распределении энергий шумов и звуковых данных в частотной области и процедуру построения спектрограмм речевых сигналов.
2. Разработан метод обнаружения пауз в речевых данных на основе сравнения распределения энергий шума и смеси сигнал+шум по заданным частотным интервалам.
3. Разработаны оптимальные, в смысле минимума погрешностей аппроксимации спектров исходного вектора в выбранных частотных диапазонах, алгоритмы обратимого субполосного преобразования отрезков речевых данных, позволяющие минимизировать количество уровней квантования.
4. Разработана информационная технология сжатия-восстановления речевых данных с использованием метода обнаружения пауз и квантования по уровню компонент векторов оптимального субполосного преобразования.
5. Создана программно-алгоритмическая поддержка информационной технологии сжатия-восстановления речевых данных.
6. Исследования с использованием вычислительных экспериментов показали, что указанный подход позволяет достичь 20-тикратного уменьшения объемов битового представления речевых данных при достаточно высоком качестве воспроизведения речи.
7. Использование разработанной информационной технологии сжатия речевых данных повышает их скрытность, в том смысле, что для их восстановления необходимо использовать специальные алгоритмы и программную поддержку.
Библиография Прохоренко, Екатерина Ивановна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Алдошина, И. Основы психоакустики. Слух и речь. Часть 1 Текст. / И. Алдошина // Информационно-технический журнал «Звукорежиссер». -2002. -№1.- С.38-44.
2. Алдошина, И. Основы психоакустики. Слух и речь. Часть 2 Текст. / И. Алдошина // Информационно-технический журнал «Звукорежиссер». 2002. - №3. - С.54-58.
3. Алдошина, И. Основы психоакустики. Слух и речь. Часть 3 Текст. / И. Алдошина // Информационно-технический журнал «Звукорежиссер». 2002. - №4. - С.38-44.
4. Алдошина, И. Основы психоакустики. Слух и речь. Часть 4 Текст. / И. Алдошина // Информационно-технический журнал «Звукорежиссер». 2002. - №5. - С.44-50.
5. Алдошина, И. Основы психоакустики. Слух и речь. Часть4 Текст. / И. Алдошина // Информационно-технический журнал «Звукорежиссер». 2002. - №8. - С.60-68.
6. Андерсон, Т. Статистический анализ временных рядов Текст.: Пер. с англ. / Т.Андерсон; под. ред. Ю. К. Беляева. М.: Мир, 1976. - 755 с.
7. Бабков, В.Ю. Передача информации в системах подвижной связи Текст. /
8. B.Ю.Бабков, М.А. Вознюк, В.А. Петраков, А.Е. Рыжков, М.А. Сивере. СПбГУТ, СПб, 1999.-152 с.
9. Батлук, А.В. Исследование применения банков фильтров для сжатия изображений Текст. / А.В. Батлук, М.К. Чобану // Научно-технический журнал Цифровая обработка сигналов. 2005. - № 4 (16). - С. 29-41.
10. Беллами, Дж. Цифровая телефония Текст.: Пер. с англ. / Дж. Беллами. М.: Радио и связь, 1986. - 544 с.
11. Блейхут, Р. Быстрые алгоритмы цифровой обработки сигналов Текст. / Р. Блейхут; пер. с англ. И. И. Грушко. М.: Мир, '1989. - 448 е.: ил.
12. Быков, С.Ф. Цифровая телефония Текст. / С.Ф. Быков, В.И. Журавлев, И.А. Шалимов. М.: Радио и связь, 2003. - 144 е.: ил.
13. Вайдьнатхан, П.П. Цифровые фильтры, блоки фильтров и полифазные цепи с многочастотной дискретизацией Текст.: метод, обзор / П. П. Вайдьнатхан // ТИИЭР, 1990. Т. 78, № 3. - С. 77-120.
14. Васюков, В.Н. Цифровая обработка сигналов и сигнальные процессоры в системах подвижной радиосвязи Текст. / В.Н. Васюков. Новосибирск: Изд-во НГТУ, 2003. 120 с.
15. Воеводин, В. В. Вычислительные основы линейной алгебры Текст. / В. В. Воеводин. -М.: Наука, 1977.-304 с.
16. Воеводин, В. В. Вычислительные процессы с теплицевыми матрицами Текст. / В. В. Воеводин, Е. Е. Тыртышников. М.: Наука, 1987. - 319 е.: ил.
17. Воеводин, В. В. Матрицы и вычисления Текст. / В. В. Воеводин, Ю. А. Кузнецов. -М.: Наука, 1984.-318 с.
18. Вокодерная телефония. Методы и проблемы Текст. / Под ред. А.А. Пирогова М.: Связь, 1974.-246 с.
19. Вологдин, Э. И. Аналоговая и цифровая звукозапись Текст. / Э. И. Вологдин. СПб.: СТ «Факультет ДВО», 2004. - 52 с.
20. Вологдин, Э. И, Слух и восприятие звука Текст.: учеб. пособие / Э. И. Вологдин. -СПб.: СТ «Факультет ДВО», 2004. 52 с.
21. Воробев, В.И. Теория и практика вейвлет-преобразования Текст. / В.И. Воробев, В.Г. Грибунин. СПб.: Изд-во ВУС, 1999. - 204 с.
22. Ворсано, Д. Кодирование речи в цифровой телефонии Текст. / Д. Ворсано // Сети и системы связи. -1996. №8. - С. 24-27.
23. Галунов, В. И. О моторной теории восприятия звуковых сигналов Текст.: Вопросы бионики / В. И. Галунов, В. В. Люблинская, JI. А. Чистович М.:Наука, 1967. - 286с.
24. Гардишян, Г. Оптимизация обработки данных в реальном масштабе времени для систем VoIP Текст. / Г. Гардишян // Научно-технический журнал Цифровая обработка сигналов. 2005. - № 1 (15) - С. 36-41.
25. Гельфанд, С.А. Слух: Введение в психологическую и физиологическую акустику Текст. / С.А. Гельфанд. М.: Медицина, 1984. - 350 с.
26. Гихман, И. И. Теория случайных процессов Текст. / И. И. Гихман, А.В. Скороход. -М.: Наука, 1971.-644 с.
27. Голд, Б. Цифровая обработка сигналов Текст.: пер. с англ. / Б. Голд, Ч. Рейдер. М.: Сов. радио, 1973.-376 с.
28. Гольденберг, JI. М. Цифровая обработка сигналов Текст.: справочник / JI. М.
29. Гольденберг, Б. Д. Матюшкин, М. Н. Поляк. М.: Радио и связь, 1985. - 308 с.
30. Гольденберг, Л. М. Цифровая обработка сигналов Текст.: учеб. пособие / JI. М. Гольденберг, Б. Д. Матюшкин, М. Н. Поляк. 2-е изд., перераб. и доп. - М.: Радио и связь, 1990.-256 с.: ил.
31. Гольдштейн, B.C. IP-Телефония Текст. / B.C. Гольдштейн, А.В. Пинчук, АЛ.Суховицкий. М.: Радио и связь. 2001. - 336с.: ил.
32. Гантмахер, Ф.Р. Теория матриц Текст. / Ф.Р. Гантмахер. М.: Физматлит, 2004. -560с.
33. Гордиенко, В. Н. Многоканальные телекоммуникационные системы. Учебник для вузов Текст. / В. Н. Гордиенко, М. С. Тверецкий. М: Горячая линия-Телеком, 2005. -416 е.: ил.
34. Гусинская, Е.И. Оптимизация банка фильтров в задачах субполосного кодирования: тематический обзор Текст. / Е.И. Гусинская, А.А. Зайцев // Научно-технический журнал Цифровая обработка сигналов. 2004. - № 3(12). - С. 18-29.
35. Дженкинс, Г. Спектральный анализ и его приложения Текст.: Пер, с англ. / Г.Дженкинс, Д. Ватте; под ред. В. Ф. Писаренко. М.: Мир, 1971. - 316 с.
36. Дьяконов, В.П. MATLAB. Обработка сигналов и изображений. Специальный справочник Текст. / В.П. Дьяконов. СПб.: Питер, 2002. - 608 с.
37. Дьяконов, В.П. Matlab Текст. / В.П. Дьяконов. СПб.: Питер, 2001. - 553 с.
38. Жиляков, Е.Г. Вариационные методы частотного анализа звуковых сигналов Текст. / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Труды учебных заведений связи. СПб, 2006.-№ 174.-С.163-170.
39. Жиляков, Е.Г. О кодировании пауз в речевых сигналах Текст. / Е.Г. Жиляков, С.П.Белов, Е.И. Прохоренко // Материалы Шестой Международной научно-технической конференции «Проблемы техники и технологии телекоммуникаций». -Уфа, 2005.-С. 73-74.
40. Жиляков, Е.Г. Программная система цифровой обработки речевых данных / Е.Г.Жиляков, С.П. Белов, Е.И. Прохоренко. Отраслевой фонд алгоритмов и программ «Государственный координационный центр информационных технологий», 2006.-№50200601604.
41. Жиляков, Е.Г. Методы и алгоритмы обработки экспериментальных данных в атомно-абсорбционной спектрометрии Текст. / Е.Г. Жиляков, Н.И. Корсунов, Д.П. Лагода. -Киев: Наукова думка, 1992. -125 с.
42. Жиляков, Е.Г. О субполосном кодировании сигнала Текст. / Е.Г. Жиляков, И.Г.Попов, И.И. Чижов // Вестник национального технического университета «ХПИ». -2004.-№46.-С.
43. Жиляков, Е.Г. Частотный анализ речевых сигналов Текст. / Е.Г. Жиляков, Е.И.Прохоренко // Научные ведомости Белгородского государственного университета. Белгород, 2006. - №2(31), выпуск 3. - С. 201-208. - (Серия: информатика и прикладная математика).
44. Жиляков, Е.Г. Статистики максимальной чувствительности в задаче обнаружения изменений параметров процессов авторегрессии Текст. / Е.Г. Жиляков, Э.К.Шпилевский // Заводская лаборатория. -1992. №7. - С.31 -34.
45. Загоруйко, Н. Г. Методы распознавания и их применение Текст. / Н. Г. Загоруйко. -М.: Сов. радио, 1972. 206 с.
46. Иконин, С.Ю. Система автоматического распознавания речи SPIRIT ASR Engine Текст. / С.Ю. Иконин, Д.В. Сарана // Научно-технический журнал Цифроваяобработка сигналов. -2003. -№ 4 (10). С. 2-13.
47. Калинцев, Ю.К. Разборчивость речи в цифровых вокодерах. / Ю.К. Калинцев. М.: Радио и связь, 1991. - 220 е.: ил.
48. Кендалл, М. Дж. Многомерный статистический анализ и временные ряды Текст.: Пер. с англ. / М. Дж. Кендалл, А. Стьюарт; под ред. А. Н. Колмогорова, Ю.
49. B.Прохорова. М.: Наука, 1976. - 736 с.
50. Кириллов, С.Н. Проектирование банков фильтров на основе теории кратномасштабного анализа Текст. / С.Н. Кириллов, С.В. Зорин // Научно-технический журнал Цифровая обработка сигналов. 2005. - № 4 (16). - С. 9-16.
51. Ковалгин, Ю.А. Цифровое кодирование звуковых сигналов Текст. / Ю.А. Ковалгин, Э.И. Вологодин. СПб: Корона-принт, 2004. - 240 е.: ил.
52. Кораблин, М.А. Оценка эффективности использования технологий VoIP и VAD в корпоративных IP-сетях Текст. / М.А. Кораблин, А.В. Мороз // Электросвязь. 2004. -№8.-С. 15-18.
53. Коротаев, Г.А. Анализ и синтез речевого сигнала методом линейного предсказания Текст./ Г.А. Коротаев // Зарубежная радиоэлектроника. -1990. №3. - С. 31 -52.
54. Коротаев, Г.А. Некоторые аспекты линейного предсказания при анализе речевого сигнала Текст. / Г.А. Коротаев // Зарубежная радиоэлектроника. 1991. - № 7.1. C.13-31.
55. Куля, В. И. Влияние фазовых соотношений в спектре речи на ее восприятие Текст. / В. И. Куля // Электросвязь. -1970. № 7. - С. 23-31.
56. Куприянов, М.С. Цифровая обработка сигналов Текст. / М.С. Куприянов, Б.А.Матюпткин. С-Пб.: Питер, 1998. - 416 с.
57. Лабутин, В. К. Модели механизмов слуха Текст. / В. К. Лабутин, А. П. Молчанов. -М.: Энергия, 1973. 200 с.
58. Ланнэ, А. А. Передача информации о состоянии фильтра-предсказателя с помощью спектральных пар Текст. / А. А. Ланнэ, Д. А. Улахович // Радиоэлектроника и связь. -1991.-№ 1.-С. 43-47.
59. Ланцош, К. Практические методы прикладного анализа Текст.: справ, рук. / КЛанцош ; пер. с англ. М. 3. Кайнера. М.: Физматгиз, 1961. - 524 с.
60. Линович, А.Ю. Субполосная адаптивная фильтрация в задачах обратногомоделирования Текст. / А.Ю. Линович, В.В. Витязев // Научно-технический журнал Цифровая обработка сигналов. 2004. - № 1 (11). - С. 31-38.
61. Маркел, Дж. Линейное предсказание речи Текст.: Пер. с англ. / Дж. Маркел, А.Х.Грэй; под ред. Ю.Н. Прохорова и B.C. Звездина. М.: Связь, 1980. - 308 с.
62. Мартынович, П.В. Специфика детектора речи для системы верификации диктора по голосу Текст. / П.В. Мартынович // Научно-технический журнал Цифровая обработка сигналов. 2004. - № 3 (12). - С. 43-47.
63. Методы сжатия данных: устройство архиваторов, сжатие изображений и видео Текст. / Д. Ватолин, А. Ратушняк, М. Смирнов, В. Юкин. М.: ДИАЛОГ-МИФИ, 2003.-384 с.
64. Минин, С.А. Кодер АДИКМ аппаратуры цифровой спутниковой связи Текст. / С.А.Минин // Электросвязь. -1992. №11. - С. 32-44.
65. Михайлов, В.Г. Измерение параметров речи Текст. / В.Г.Михайлов, Л.В.Златоустова; под ред. М.А. Сапожкова. М.: Радио и связь, 1987. -168 е.: ил.
66. Назаров, Х.З. Методы цифровой обработки и передачи речевых сигналов Текст. / Х.З. Назаров, Ю.Н. Прохоров. М.: Связь, 1982. - 236с.
67. Никольский, С. М. Квадратурные формулы Текст. / С. М. Никольский. М.: Наука, 1988.-256 е.: ил.
68. Нуссбаумер, Г. Быстрое преобразование Фурье и алгоритмы вычисления сверток Текст. / Г. Нуссбаумер ; ред.: В. М. Амербаев, Т. Э. Кренкель ; пер. с англ.: Ю. Ф. Касимов, И. П. Пчелинцев. М.: Радио и связь, 1985. - 248 с.: ил., табл., граф.
69. Оберхеттингер, Ф. Преобразование Фурье распределений и их обращения Текст.: табл. / Ф. Оберхеттингер; пер. с англ. М. С. Никулина. М.: Наука, 1979. - 248 с.
70. Оппенгейм, А.В. Цифровая обработка сигналов Текст.: Пер. с англ. / А.В.Оппенгейм, Р.В. Шафер; под ред. С.Я. Шаца. М.: Связь, 1979. - 416 с.
71. Основы цифровой обработки сигналов Текст.: курс лекций : учеб. пособие / А.И.Солонина, Д. А. Улахович, С. М. Арбузов и др. СПб.: БХВ-Петербург, 2003. -608 с.: ил.
72. Перцева, Л.В. Качество передачи речи при использовании низкоскоростных кодеков на абонентских линиях Текст. /Л.В. Перцева//Электросвязь. -1987. №8. - С. 48-64.
73. Петленко, Б.И. Речевая связь в искусственных атмосферах Текст. / Б.И. Петленко,
74. JI.C. Бутырский; под ред. И.Т. Турбовича. М.: Связь, 1978. - 144 с.
75. Петровский, А.А. Низкоскоростной вокодер с моделью речеобразования «гармоники + шум» Текст. / А.А. Петровский, В.В. Серков // Цифровая обработка сигналов. -2002. №2. - С.2-12.
76. Применение цифровой обработки сигналов Текст. / С. JI. Фрини, Дж. Ф. Кайзер, X. С. Макдональд и др.; пер. с англ. А. М. Рязанцева; под ред. Э. Оппенгейма. М. : Мир, 1980.-552 с.
77. Прокис, Дж. Цифровая связь Текст. / Дж. Прокис; под ред. Д.Д. Кловского. М.: Радио и связь, 2000. - 800 с.
78. Прохоренко, Е.И. Метод обнаружения пауз в речевых сигналах Текст. / Е.И.Прохоренко // Вестник московской академии рынка труда и информационных технологий. Москва, 2006. - №4(26). - С.13-20.
79. Прохоренко, Е.И. О пакетной передаче речи Текст. / Е.И. Прохоренко // Вестник национального технического университета «ХПИ». Харьков, 2004. - №46. - С. 5661. - (Сборник научных трудов. Тематический выпуск: Информатика и моделирование).
80. Прохоров, Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов Текст. / Ю.Н. Прохоров. М.: Радио и связь, 1986. - 316 с.
81. Рабинер, JI.P. Цифровая обработка речевых сигналов Текст.: Пер. с англ. / Л.Р.Рабинер, Р.В. Шафер; под ред. М. В. Назарова, Ю. Н. Прохорова. М.: Радио и связь 1981.-495 с.
82. Рабинер, Л. Теория и применение цифровой обработки сигналов Текст. / Л. Рабинер, Г. Годц. М.: Мир, 1988. - 512 с.
83. Радзишевский, А. Компьютерная обработка звука Текст. / А. Радзишевский. М.: Нолидж, 2000.-240 с.
84. Рамишвили, Г. С. Автоматическое распознавание говорящего по голосу Текст. / Г. С.Рамишвили. М.: Радио и связь, 1981, - 224 с.
85. Росляков, А.В. IP-телефония Текст. / А.В. Росляков, М.Ю. Самсонов, И.В. Шибаева.- М.: Эко-Тредз, 2001. 250 с.
86. Савченко, В.В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра Текст. / В.В. Савченко // Радиотехника и Электроника. 2005. Том 50. - №3. - С. 309-315.
87. Савченко, В.В. Метод переопределенного словаря в задаче распознавания речевых сигналов Текст. / В.В. Савченко, П.Г. Лукин // Радиотехника и Электроника. 2006.- Том 51. №2. - С. 202-207.
88. Сапожков, М. А. Речевой сигнал в кибернетике и связи Текст. / М. А. Сапожков. -М.: Связьиздат, 1963.-452 с.
89. Сапожков, М.А. Вокодерная связь Текст. / М.А. Сапожков, В.Г. Михайлов. М.: Радио и связь, 1983.-248 с.
90. Себер, Дж. Линейный регрессионный анализ Текст.: Пер. с англ. / Дж. Себер; под ред. М. Б. Малютова. М.: Мир, 1980. - 456 с.
91. Секунов, Н.Ю. Обработка звука на PC Текст. / Н.Ю. Секунов. СПб.: БХВ-Петербург, 2001.-1248 с.
92. Сергиенко, А. Б. Цифровая обработка сигналов Текст.: учеб. пособие для студ. вузов / А. Б. Сергиенко. СПб.: Питер, 2002. - 603с.: ил. - (Учебник для вузов).
93. Сжатие данных в системах сбора и передачи информации Текст. / В.И. Орищенко, В.Г. Санников, В.А. Свириденко; под ред. В.А. Свириденко. М.: Радио и связь, 1985. -184 е., ил.
94. Сиберт, У. Преобразование стимула в периферической слуховой системе Текст. / В кн.: Распознавание образов: Пер. с англ./ У. Сиберт; под ред. Л. И. Титомира. М.: Мир, 1970.-236 с.
95. Слуховая система Текст. / Сб. статей под ред. Я.А. Альтман. Л.: Наука, 1990. -620 с.
96. Смирнов, Д.В. Аудиосистема PC Текст. / Д.В. Смирнов. СПб.: Питер, 1999. -384с.
97. Сорокин, В. Н. О роли подглоточной области в процессе речеобразования Текст. / В кн.: Проблемы построения систем понимания речи. / В. Н. Сорокин. М.: Наука, 1980.-354 с.
98. Сорокин, В. Н. Потери в речевом тракте Текст. / В. Н. Сорокин // Акустический журнал. 1977. - Т. 23. - № 6. - С. 939-946.
99. Спектральные методы сокращения избыточности высококачественных звуковых сигналов Текст. / В. М. Колесников, М. У. Банк, А. М. Синильников, В. А. Сучилин // Радио и телевидение ОИРТ. 1989. -№ 1. - С. 36-39. -№ 2. - С. 35-39.
100. Таблицы математической статистики Текст. / Л.Н. Большее, Н.В. Смирнов. М.: Наука. Главная редакция физико-математической литературы, 1983. - 416с.
101. Титчмарш, Е. Введение в теорию интеграла Фурье Текст. / Е. Титчмарш ; пер. с англ. Д. А. Райкова. М.: ОГИЗ Гостехиздат, 1948. - 479 с.
102. Фант, Г. Акустическая теория речеобразования Текст. / Г. Фант. М.: Наука, 1964. -283 с.
103. Физиология речи. Восприятие речи человеком Текст. / Л. А. Чистович и др.— М.:1. Наука, 1976-386 с.
104. Фланаган, Дж. Анализ, синтез и восприятие речи Текст.: Пер. с англ. / Дж.Фланаган; под ред. А. А. Пирогова. М.: Связь, 1968. - 396 с.
105. Хорн, Р. Матричный анализ Текст. / Р. Хорн, Ч. Джонсон. М.: Мир, 1989. - 395 с.
106. Хургин, Я. И. Финитные функции в физике и технике Текст. / Я. И. Хургин, В. П. Яковлев. М.: Наука, 1971. - 408 е.: ил.
107. Цвикер, Э. Ухо как приемник информации Текст.: Пер. с нем./ Э. Цвикер, Р. Фельдкеллер; под ред. Б. Г. Белкина. М.: Связь, 1971. - 256 с.
108. Шелухин, О.И. Цифровая обработка и передача речи Текст. / О.И. Шелухин, Н.Ф.Лукьянцев; под ред. О.И. Шелухина. М.: Радио и связь, 2000. - 456с.: ил.
109. Шульгин, В.И. Основы теории передачи информации Текст.: Учебное пособие / В.И. Шульгин. Харьков: Нац. аэро-косм. ун-т. «Харьк. авиац. ин-т», 2003. - 102 с.
110. Aikoh, S. 32 kbit/s toll quality ADPCM codec using a single chip processor, IEEE Int. Text. / S. Aikoh, T. Nishitani, K. Ozawa, R. Marita // Conf. Acoust. Speech. Sig. Process. Paris, France, 1982. - Vol. 2. - P. 960-963.
111. Alrera Devices. -15.06.2004. http://www.altera.com/products/devices/dev-index.jsp.
112. Atol, B.S. High quality speech at very low bit rates: multipulse and stochastically excited linear predictive coders Text. / B.S. Atol // Proc. of the Int. Conf. on ASSP, 1986. -P.1065-1069.
113. Alessandro, C. Effectiveness of a periodic and aperiodic decomposition method for analysis of voice sources / C. Alessandro, V. Darsinos, B. Yegnanarayana // IEEE Transactions on Speech and Audio Pr6cessing. -1998. vol.6 - № 1. - P. 12-23.
114. DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, Department of Commerce, NIST. Springfield, Virginia, 1990.
115. Gardner, W.R. Theoretical analysis of the high-rate vector quantization of LPC parameters. / W.R. Gardner, B.D. Rao // IEEE Transactions on Speech and Audio Processing. 1995. - vol.3. - № 5. - P. 367-381.
116. Gersho, A. Vector quantization and signal compression. / A. Gersho, R. Gray. Boston, Kluwer Academic Publishers, 1992.
117. Gray, A.H. Distance measures for speech processing. / A.H. Gray, J.D. Markel // IEEE Transactions on Acoustics, Speech and Signal Processing. 1976. - vol.24. - № 5. - P. 380-391.
118. Griffin, D.W. Multiband excitation vocoder. / D.W. Griffin, J.S. Lim // IEEE Transactions on Acoustics, Speech and Signal Processing. 1988. - vol. 36. -№8. - P. 1223-1235.
119. Itakura, F. Line spectrum representation of linear predictive coefficients of speech signals.
120. F. Itakura, J. Acoust. Soc. America, 1975. - vol. 57. -35 p.
121. ITU-T Recommendation G.721 32 kbit/s Adaptive ADPCM. 1990. - 43 p.
122. ITU-T Recommendation G.726 40, 32, 24, 16 kbit/s Adaptive Embedded ADPCM. -1990.-68 p.
123. ITU-T Recommendation G.726. 40, 32, 24, 16 kbit/s Adaptive Differential Pulse Code Modulation (ADPCM). -1990. 47p.
124. ITU-T Recommendation G.727 5-, 4-, 3-, 2-Bit Sample Embedded ADPCM. -1994. -47p.
125. Jackson, P.J.B. Pitch-scaled estimation of simultaneous voiced and turbulence-noise components in speech. / P.J.B. Jackson, C.H. Shadle // IEEE Transactions on Speech and Audio Processing. 2001. - vol.9. -№ 7. - P. 713-726.
126. Jayant, N. Digital Coding of Waveforms: Principles and Applications to Speech and Video. / N. Jayant, P. Noll. New Jersey, 1984. - 320 p.
127. Kim, S.-J. Split vector quantization of LSF parameters with minimum of dLSF constraint / S.-J. Kim, Y.-H. Oh, // IEEE Signal Processing Letters. 1999. - vol. 6. - № 9. - P. 227229.
128. Kondoz, A.M. Digital speech: coding for low bit rate communication systems. / A.M.Kondoz. John Wiley & Sons, Inc., NY, 1996. - 442 p.
129. Linde, Y. An algorithm for vector quantizer design. / Y. Linde, A. Buzo, R.M. Gray // IEEE Transactions on Communications. -1980. vol. COM-28. - P. 84-95.
130. Mitsubishi Electric Corporation. The characteristics of the turbulences appeared in objective test and voice signal transmission of Rec. G.726, COTT contribution D. 301/XV, 1991.-39 p.
131. National P/N TP11368 Octal Adaptive Differentia. PCM Processor. - 12.08.2003. http://ww.mtioml.com/pfiTP/TPl 1368.html
132. Palival, K.K. Efficient vector quantization of LPC parameters at 24 bits/frame. / K.K.Palival, B.S. Atal // IEEE Transactions on Acoustics, Speech and Signal Processing. 1993. - vol.1.-№1.-P. 3-14.
133. Peifomiance of various ADPCM algorithms with very high speed modems, ITU-T Contribution No. COM 15-D.9,1994. 34 p.
134. Petrovsky, A. Tonal and noise components separation based on a pitch synchronous DFTanalyzer as a speech coding method. / A. Petrovsky, P. Zubricki, A. Savicki //i
135. Proceedings European Conference on Circuit Theory and Design. Cracow, Poland, 2003.-vol.3.-P. 169-172.
136. Stylianou, Y. Applying the harmonic plus noise model in concatenative speech synthesis. / Y. Stylianou // IEEE Transactions on Speech and Audio Processing. 2001. - vol. 9. -№1.-P. 21 -29.
137. Xilinx Home: Products and Services: Spartan-11 fPGAs. 11.06.2004. http://www.xilirLx.com/xlnx/xil prodcat landingpage.jsp?title=Spartan-l 1.
138. Yegnanarayana, B. An iterative algorithm for decomposition of speech signals into periodic and aperiodic components. / B. Yegnanarayana, C. d'Alessandro, V. Darsinos. // IEEE Transactions on Speech and Audio Processing. -1998. vol.6. -№ 1. - P. 1-11.
-
Похожие работы
- Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных
- Модели и методы обработки аудиосигналов телекоммуникационных систем в сложной помеховой обстановке
- Системное моделирование телекоммуникационной технологии на базе интеллектуальной КТ-платформы компьютерной телефонии и автоматизированной системы с принятием решений
- Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий
- Статистический мониторинг и анализ телекоммуникационных сетей
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность