автореферат диссертации по радиотехнике и связи, 05.12.17, диссертация на тему:Повышение вычислительной эффективности и качественных показателей алгоритмов обобщенной спектральной обработки речевых сигналов в радиотехнических системах

кандидата технических наук
Шелудяков, Алексей Сергеевич
город
Рязань
год
1998
специальность ВАК РФ
05.12.17
Автореферат по радиотехнике и связи на тему «Повышение вычислительной эффективности и качественных показателей алгоритмов обобщенной спектральной обработки речевых сигналов в радиотехнических системах»

Автореферат диссертации по теме "Повышение вычислительной эффективности и качественных показателей алгоритмов обобщенной спектральной обработки речевых сигналов в радиотехнических системах"

г г; од

На правах рукописи

Шелудяков Алексей Сергеевич

ПОВЫШЕНИЕ ВЫЧИСШТЕЛЬНОЙ ЭФФЕКТИВНОСТИ И КАЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ АЛГОРИТМОВ ОБОБЩЕННОЙ СПЕКТРАЛЬНОЙ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ В РАДИОТЕХНИЧЕСКИХ СИСТЕМАХ

Специальность: 05.12.17 -"Радиотехнические и телевизионные системы и устройства"

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технически* наук

Рязань -1998

Работа выполнена в Рязанской государственной радиотехнической

академии.

Научные руководители - лауреат Государственной премии СССР,

доктор технических наук, щюфессор Поповкин В.И.

- кандидат технических наук, доцент Кириллов С.Н.

Официальные оппоненты - доктор технических наук,

профессор Пирогов АЛ.

- кандидат технических наук, доцент Кошелев В.И.

Ведущая организация - ОАО "ЭЛЕКТРОСВЯЗЬ"

Рязанской области

Защита состоится " 40" г/кш_1998 г. в /4" часов на

заседании диссертационного совета Д 063.92.01 в Рязанской государственной радиотехнической академии по адрссу 391000, г. Рязань, ГСП, ул. Гагарина, 59/1.

С диссертацией можно ознакомился в библиотеке РГРГА. Автореферат разослан" 30 " а/грем 1998 г.

Ученый секретарь диссертационного совета, кандидат технических наук (В .И. Жулев)

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Спектральные преобразования речевых сигналов (РС) являются удобным аппаратом, позволяющим достигать значительного сокращения избыточности и повышения информативности описания речи. Компактное спектральное представление РС обеспечивают разложения Карупена-Лозва, каноническое разложение и разложения, основанные на синтезированных приспособленных базисных системах. Эти методы позволяют получать оптимальные спектральные представления РС с необходимыми свойствами в заданном классе преобразований, но требуют значительных вычислительных затрат. Для уменьшения объема вычислений при реализации алгоритмов обработки РС целесообразно использовать быстрые разложения по системам базисных функций Уолша и Хаара. Таким образом, аппарат обобщенного спектрального анализа РС позволяет повысить эффективность по заданному показателю качества алгоритмов обработки РС. Основы теории и практические рекомендации по применению обобщенного спектрального анализа сигналов изложены в работах Н.Я. Внленкина, С. Качмажа, Г. Штейнгауза, А.М. Трахтмана, В.А. Трахт-мана, X. Хармута, Н. Ахмеда, К.Р. Pao и др.

Методы спектрального преобразования с восстановлением широко используются при кодировании, передаче и хранении РС. К настоящему времени разработаны и частично внедрены в пракшку системы высококачественной цифровой передачи речевых сигналов со скоростью 16...32 Кбит/с. В развитие теории и практики кодирования и передачи РС существенный вклад внесли работы М.А. Сапожкова, А.А. Пирогова, В.Г. Михайлова, а также работы Дж. Маркела, А. Грея, JI. Рабинера, Р. Шафера и др. Достигнутые успехи выдвинули на первый план задачу устранения ограничений существующих систем обработки и высокоэффективной передачи РС, к которым можно отаести невысокое качество восстановленного РС, а также значительное снижение эффективности кодирования речи при наличии искажений и шумов. Основным требованием к методам обработай в этом случае является уменьшение размерности представления РС при заданном критерии приближения и допустимой величине ошибки аппроксимации. Известные методы спектрального кодирования РС недостаточно полно учитывают особенности слухового восприятия речи и нестационарную структуру РС, что в совокупности с использованием неоптимальных базисных систем снижает эффективность сжатия исходного речевого сообщения при допустимом качестве восстановленной речи. Тем более, что важным условием функционирования систем речевой связи является обработка РС в реальном масштабе времени. Поэтому актуальна проблема снижения вычислительных затрат и улучшения качественных параметров

алгоритмов спектрального кодирования ¿'С.

В работах К.Фукунаги, Р.Дуда, П.Харта, СВатанабэ, В.А.Омельченко и др. показана эффективность применения обобще:пг£х спектральных преобразований исходных сигналов в системах распознавания. В системах распознавания используются спектральные методы без восстановления исходного сигнала. При этом особое значение имеет устойчивость спектральных оценок к мешающим факторам процедуры классификации. К таким факторам относятся вариативность и зашумленность РС, влияние чувствительности алгоритмов формирования признаков к временному сдвигу, изменению продолжительности звучания элементов речи и т.п. Особенно существенно влияние вариативности РС на вероятность правильной классификации первичных элементов речи таких, как фонемы, дифоны, аллофоны и т.п. Вариативность речи обусловлена множеством причин, среди которых возможны позиционные и комбинационные изменения речевого состава, индивидуальные особенности строения голосового аппарата, влияние ситуации и внешнего окружения, вносимые линейные и нелинейные искажения. Использованием методов фильтрации и позиционирования, применением дополнительной нелинейной обработки спектральных компонент РС достигается снижение влияния вариативности речи. Вследствие этого представляют :пггерес разработка и исследование эффективных с точки зрения вычислительных затрат, слабой чувствшй,«.«^!*; к вариативности речи алгоритмов обобщенного спектрального представления РС.

Цель и задачи работы. Основной целью данной работы является разработка эффективных алгоритмов обобщенной спектральной обработки РС, учитывающих специфику речи, в интересах повышения качества функционирования систем передачи и обработки речевой информации.

Поставленная цель работы включает решение следующих задач:

- синтез и анализ базисных систем обобщенного спектрального представления РС, оптимальных по заданным показателям качества в требуемом классе дискретных операторов;

- разработка алгоритма отбора значимых спектральных компонент, учитывающего численную оценку качества восстановленной речи;

- разработка алгоритмов восстановления РС по искаженным спектральным отсчетам быстрого преобразования Уолша;

- разработка алгоритма клишшрования с предварительной обработкой РС для уменьшения общей вычислительной сложности алгоритма расчета параметров авторегрессионной модели речи;

- разработка алгоритма сегментации непрерывного РС на участки акустической однородности;

- разработка алгоритма формирования общих признаков Карунена-Лоэва, слабо чувствительных к индивидуальным особенностям дикторов,

для эффективного распознавания элементов речи;

- разработка алгоритма синтеза спектральных признаков, учитывающего разделимость спектральных признаков элементов речи.

Научная новизна работы состоит в следующем.

1. Предложен алгоритм синтеза базисных систем, учитывающий среднеквадрэтическую ошибку аппроксимации как сигнала, так и его производной.

2. Показана возможность использования численной оценки качества речи в алгоритмах отбора значимых элементов спектра для повышения эффективности кодирования речи.

3. Показана возможность применения методов регуляризации А.Н. Тихонова и модифицированного метода псевдообращений дня высококачественного восстановления речи, кодированной с помощью быстрого преобразования Уолта.

4. Предложен алгоритм клиширования РС для уменьшения вычислительных затрат при вычислении параметров авторегрессионной модели без снижения качества речи.

5. Предложен алгоритм сегментации непрерывного РС па участки акустической однородности, слабо чувствительный к неинформативным флижгуациям параметров РС и с низкими вычислительными затратами.

6. Предложен алгоритм формирования общих признаков Карунена-Лоэва, слабо чувствительных к индивидуальным особенностям дикторов.

7. Предложен алгоритм, повышающий разделимость обобщенных спектральных признаков в условиях значительной вариативности речевого материала.

Практическая значимость диссертационной работы. Представленные в работе алгоритмы обобщенного спектрального представления. РС могут быть использованы в таких радиотехнических системах, как системы передачи информации, системы интерактивного взаимодействия человека и машины, информационно-справочные системы с распознаванием РС, системы экономного хранения РС, медицинские системы диагностики и т.д. Реализация результатов исследований позволит повысить эффективность устройств обработки РС с точки зрения вычислительных затрат, качества восстановления и снижения чувствительности к вариативности речи.

Основные положения, выносимые на защиту.

1. Алгоритм синтеза оптимальных по комбинированному критерию качества базисных систем, слабо чувствительных к вариативности РС и уменьшающих динамический диапазон ошибки аппроксимации.

2. Алгоритмы восстановления PC на основе методов регуляризации А.Н. Тихонова и псевдообращения в кодеках речи, использующих быстрое преобразование Уолша.

3. Алгоритм клиширования РС с предварительной фильтрацией, позволяющий уменьшить вычислительные затраты при оценке параметров авторегрессионной модели без снижения качества речи.

4. Алгоритм сегментации непрерывного РС на участки акустической однородности, слабо чувствительный к неинформативным флюктуациям параметров РС и с низкими вычислительными затратами.

5. Алгоритмы формирования спектрального признакового пространства, позволяющие получать признаки, слабо чувствительные к вариативности речевого материала.

Методы проведения исследований. В работе использовались методы теории обобщенных спектральных разложений, теории вероятности, теории распознавания образов и вычислительной математики.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались: на Международных [3,8,9,10,22,23], Всероссийских [1,2,5,б,7,12,13,18...21,30] научных конференциях и семинарах, а также на 34-й и 35-й конференциях профессорско-преподавательского состава РГРТ А.

Внедрение результатов работы. Результаты диссертационной работы внедрены в учебный процесс РГРТА и Московского технического университета связи и информатики, а также в региональной сети передачи данных "Ринфотелс", что подтвервдено соответствующими актами.

Публикации. По теме диссертации опубликовано 32 работы. Из них 4 статьи в центральной печати, 1 учебное пособие, 7 статей в межвузовских сборниках, 18 тезисов докладов на конференциях и 2 отчета о НИР.

Структура и объем работы. Диссертационная работа состоит из введения, трех глав, заключения, библиографического списка из 123 наименований и 2 приложений. Диссертация содержит 150 е., в том числе 108 с. основного текста, 2 таблицы и 45 рисунков.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность выбранной темы, определены цель и решаемые в работе задачи. Изложены новые научные результаты, полученные в работе, показаны ее практическая ценность и апробация.

Сформулированы основные положения, выносимые на защиту.

В первой главе диссертации рассматриваются вопросы обобщенного спектрального анализа PC с учетом специфики речи.

Как установлено, эффективность обобщенной спектральной обработки PC существенно зависит от выбора длительности интервала анализа. Верхняя граница длительности интервала анализа ограничена акустической однородностью PC. В качестве индикатора акустической однородности предложено использовать модифицированную дискретную фонетическую функцию A.A. Пирогова:

К R --L,

P(n) = X ОД £е т»

к=1 г-0

(1)

А(п,к) +А(п-г,к)

где А(п,к) - текущий амплитудный спектр PC, Q(k) - взвешивающая функция. При этом показано, что предложенная модификация фонетической функции позволяет значительно уменьшить вычислительные затраты и снизить неипформативные флюктуации функции спектральной динамики.

Разработана процедура численного поиска базисных векторов Фш = |<Pj, j = l,m|, оптимальных в произвольной конечномерной метрике.

Для снижения размерности оптимизируемого функционала J(m) использовалось преобразование Гивенса

ф{2 = vee^ij)®^,^,!,..., (2)

J(m) min, 0 = {9ij5 l<i< j<N},

где V - матрица плоских вращений, a öij - угол поворота базисной системы в соответствующих плоскостях. В качестве начального приближения Ф^

использовался базис Карунена-Лоэва.

Так как среднеквадратическая норма полностью адекватна только гауссовым процессам, то применение преобразования Карунена-Лоэва для анализа реальных речевых сигналов сопряжено с вероятностью возникновения нежелательных эффектов. В частности, возможны появления выбросов сигнала ошибки представления е,„, которые могут значительно расширить динамический диапазон и снизить качественные характеристики всей скстемы, исйоЛьзующей ортогоналккос разложение. Предложено исполь-

лА + 1дА3 + ...,

зоватъ комбинированный критерий оптимальности базисных векюров, минимизирующий усредненный по ансамблю реализаций квадрат нормы ошибки аппроксимации в пространстве Соболева :

Да(т) = (а(|Ет|2+а-а)1|ёш||2), (3)

где ¡¿т|2- квадрат нормы производной ошибки аппроксимации г=дх/си, заданной в пространстве ае[0,1] - весовой коэффициент. Здесь при а--1

получается среднеквадратический критерий 11=||бт||2, порождающий раз-

|], ||2

ложение Карунена-Лоэва, а при а=010= е ш .

Установлено, что базисные системы, оптимальные по введенному комбинированному критерию (3), менее чувствительны к точности задания исходного речевого материала. На конкретном примере показано, что предложенный критерий позволяет снизить требования к разрядности представления базисных функций и обеспечивает, в ряде случаев, меньший динамический диапазон ошибки при конечномерном представлении сигнала.

Из анализа известных быстрых алгоритмов спектральной обработки сигпалов следует, что на скорость вычисления спектральных компонент существенное влияние имеют структура матрицы преобразования: разреженность, факторизуемостъ матрицы и вид базисных функций. Произведен синтез ортогональных операторов в классе факгоризуемых операторов, представленных в виде обобщенного кронекерского произведения элементарных матриц. Для синтеза базисной системы в классе у-разрядных векторов предложено использовать ограничение на параметры оптимизационной задачи 9Ц = ± агссо«(1Д), Предложенный алгоритм

позволил в зависимости от заданной разрядности V снизить размерность параметров и соответственно общего времени оптимизации. Анализ полученных результатов показал улучшение по сравнению с косинусным преобразованием избирательных свойств синтезированных факгоризуемых базисов при снижении вычислительной сложности.

Результаты сравнения преобразований Уолша и Хаара с косинусным преобразованием по комплексу показателей качества, включающему среднеквадратический б, равномерный 5 критерии и вычислительные затраты у, позволил сделать следующие выводы. Преобразования Уолша, Хаара уступают по среднеквадратическому критерию косинусному преобразованию на 2-7 % для вокализованных, взрывных звуков и на 5-15 % для фрикативных звуков. При этом базис Хаара обеспечивает почти всюду худшую, чем

базис Уолта, сходимость ортогонального ряда. Установлено, что скорость сходимости по равномерному критерию для взрывных звуков значительно хуже, чем по среднеквадратическому критерию. Тем не менее, проведенные исследования показали более высокую эффективность по комплексу показателен качества £, 8, у преобразований Уолша и Хаара, используемых в системах сжатая РС, по сравнению с косинусным преобразованием.

Во второй главе рассмотрены специфические проблемы, возникающие при использовании обобщенных спектральных преобразований в системах кодирования РС. В известных ортогональных кодеках речи для оценки качества РС и распределения бит между спектральными отсчетами используются среднеквадрэтические критерии, не всегда адекватно характеризующие качество восстановленной речи. Для отбора спектральных отсчётов в ортогональных кодеках РС предложено использовать критерий, основанный на численной оценке качества РС:

где Рк п (х) - модифицированная фонетическая функция А.А. Пирогова, \У0<) - функция равной артикуляции. При этом мера значимости спектральных отсчетов определялась из выражения

где Ц,(к)= ££(у,)рг(х,хк|У1) и ц,(к) = ^1Ху1)рг(х,хк|}1) - средние

взвешенные значения численной оценки качества восстановленного РС при наличии и отсутствии к-го спектрального отсчета.

Исследования показали, что при использовании предложенной меры значимости спектральных отсчётов субъективно-экспертные качественные характеристики восстановленной речи, определенные в соответствии с ГОСТ Р 50840-95, улучшались на 10-20 %. Кроме того, всеми аудиторами на скоростях менее 16 Кбит/с были замечены улучшения в передаче индивидуальных особенностей дикторов.

При восстановлении РС на выходе ортогональных кодеков речи решается обратная задача операторного уравнения Ф8х + б = уе, где е - погрешности задания коэффициентов у. Установлено, что небольшие погрешности в определении правой части уравнения могут приводить к значительным ошибкам в решении хе, вызывая его неустойчивость в метрике чебы-шевского пространства. Произведен анализ эффективности применения

Рр (X, х) = £ Щк)^ |Рк п (х) - Рк 0 (х)р ,

(4)

к

а

(5)

iipü nowiatjuiuictinn « С На выходе upiuiundjibriuiu КОдёКй, иишЛЬ4ум)щС1 и

быстрое преобразование Уолша, метода регуляризации А.Н. Тихонова. Предложена оценка РС методом псевдообращений квадратной матрицы Ф6 с ограничением на гладкость решений:

^ = я-1 Щ [ К"1 Ф8 Уе , (6)

где матрица К = а(ч01 + Ч(О^), а - параметр регуляризации, -

весовые коэффициента, Б - матрица первой конечной разности. При этом значение параметров регуляризации принималось постоянным и выбиралось эмпирически дня заданного качества восстановления РС.

Проведенные исследования показали, что использование методов регуляризации повышает по сравнению с решением, полученным методом наименьших квадратов, качественные характеристики восстановленного на выходе ортогональных кодеков РС, что особенно ощутимо на скоростях передачи менее 16 Кбит/с. Таким образом, применение быстрых спектральных преобразований Уолша в сочетании с рассмотренными методами регуляризации позволило реализовать алгоритм восстановления РС с метшими вычислительными затратами при сохранении высокого качества и разборчивости восстановленной речи.

Широкое использование авторегрессионной модели речи в системах адаптивной дифференциальной импульсно-кодовой модуляции (АДИКМ) и ортогональных кодеках РС наталкивается на значительные вычислительные трудности. В таких системах основные вычислительные затрата связаны с расчетом автокорреляционных или ковариационных матриц и решением матричных уравнений с заданной точностью. Известно, что, несмотря на большие нелинейные искажения, разборчивость, информационное содержание клишированного РС остаются высокими. Если в качестве исходных данных использовать клипшрованный РС, то коэффициенты автокорреляции можно найти из выражения

К Дк) = 2

2у(п) ®у(п-к)

tl»0

- (р-к), (7)

где у(п) - отсчеты клишированного PC, р - порядок предсказателя АДИКМ. В данном выражении отсутствуют наиболее трудоемкие операции умножения. При этом для формирования матриц Ку(к) требуется N(p+1) операций сложения по модулю 2.

Применение при формировании матриц ковариаций клиппированного РС позволило значительно снизить требуемые вычислительные затраты.

Усшнивлени, 4ш слиьссная разборчивость речи на выходе кодеков АДИКМ существенно зависит от обработки PC перед клиппированием. Предложено использовать для предварительной обработки PC постоянный и адаптивный с передаточной характеристикой H(z)=l ^[K/iyK/O^z"1 нерекурсивные фильтры. Показано, что при предварительной обработке PC в адаптивном нерекурсивном фильтре 2-го порядка и при оценке параметров авторегрессионной модели без клиппирования PC словесная разборчивость незначительно изменялась, а для скорости передачи менее 16 Кбит/с применение клиппирования PC давало выигрыш до 23 %. Кроме того, установлено, что применение клиппирования PC при оценке параметров фильтра предсказателя позволило улучшить обусловленность автокорреляционных матриц, приводящую к общему ухудшению качественных характеристик стандартных кодеков АДИКМ.

В третьей главе рассмотрены специфические проблемы применения обобщенных спектральных представлений PC при распознавании фонетических элементов речи.

Основное влияние на эффективность функционирования сложных систем автоматического распознавания речи оказывает качество распознавания первичных элементов речевого сообщения на акустико-фонешческом уровне. Существенного снижения вычислительных затрат можно достичь, используя предварительную сегментацию - разбиение реализаций PC на ряд сегментов, внутри которых акустико-фонетаческие характеристики речи квазистационарны. При этом достигается значительное снижение размерности представления первичных элементов речи и последующих уровней распознавания. Для эффективного использования алгоритмов автоматического распознавания элементов речи требуется производить обработку PC в реальном масштабе времени. Для этой цели предложено использовать в сегментирующей функции, основанной на модифицированной функции спектральной динамики, ортогональное разложение Хаара, имеющее сверхбыстрый алгоритм обработки. Показано, что амплитудный спектр, усредненный по k-м семействам функций Хаара у^, обладает устойчивостью к голосовым вариациям различных дикторов. На основании проведенных исследований предложено производить сегментацию PC по отсчетам сглаженного спектра Хаара У={Ук, к = 1,М}, где количество спектральных параметров определяется размерами окна анализа N как M=logäN.

Результаты исследований показали эффективность применения сглаженных спектров Хаара для сегментирования непрерывного PC на участки акустическо-фонетической однородности. Из анализа полученных результатов следует, что применение модифицированной фонетической функции A.A. Пирогова при построении функции спектральной динамики позволяет

значительно иоьысшь качество сегментирования но сравнению с средне-квадратическим критерием как при применении спектров Фурье, так и при использовании сглаженных спектров Хаара. При использовании спектров Хаара наблюдалось увеличение по сравнению с алгоритмом, использующим спектры Фурье, количества пропусков сегментов на 0.18 и количества ложных сегментов на 0.22.

В основу сегментации положено представление о реализации PC в виде квазистационарного процесса, содержащего на интервале анализа информацию о фонетическом составе речи и индивидуальных особенностях диктора. Поэтому правомерно допустить, что участок PC k-й фонемы i-ro диктора на сегменте анализа является процессом с ковариационной функцией

r^^s) = RW)(t-s) + r*(M)(t,s), t,s € (tk,tk+l], (8)

где R^t-s), r*(k,i)(t,s) - соответственно стационарная и обусловленная вариативностью речи нестационарная части. Методы выделения интервала анализа (tk.tk+1] обеспечивают минимальное значение нестационар»ной час-tht'^'X^s). Тогда общую ковариационную функцию k-го класса фонетических элементов речи, полученную путем усреднения по реализациям различных дикторов, можно представить в виде r^s^R^t - s). В структуре ковариационной функции Rk(ij) вокализованных звуков присутствуют составляющие, определяющие частоту основного тона. Поэтому для построения признаков, слабо чувствительных к изменению параметров основного тона, предложено использовать отсчеты усеченной ковариационной функции. Предложен алгоритм отбора общих спектральных признаков Карунена-Лоэва, учитывающий вероятности перепутывания фонетических элементов речи.-Применение предложенных алгоритмов привело при заданном числе признаков к увеличению общей вероятности правильного распознавания фонетических элементов речи на 15.. ;25 %.

Проведенные исследования выявили влияние на характеристики распознавания разрядности представления базисных векторов. Установлено, что при несущественном уменьшении вероятности распознавания можно использовать 8-разрядное квантование, при этом необходимый для хранения базисных векторов объем памяти составил 30 Кбайт. В целом использование предложенной процедуры отбора базисных векторов преобразования Карунена-Лоэва позволило получить при распознавании 24 основных фонем русской речи вероятность правильного распознавания не менее 0.96.

Показана целесообразность использования комбинированного критерия синтеза базисных систем (3) для формирования устойчивых к мешающим факторам спектральных признаков фонетических элементов русской речи. При этом на основе предложенной процедуры отбора базисных век-

торов показано снижение чувствительности алгоритма распознавания к индивидуальным особенностям дикторов. Определен требуемый объем памяти, позволяющий получить вероятность правильного распознавания фонем на уровне 0.98 при снижении влияния квантования базисных векторов и вариативности исходного речевого материала.

Показано, что для обучающей выборки, состоящей из речевых сигналов разных дикторов, введение критерия, учитывающего как параметры матриц рассеяния , так и верхнюю границу Чернова ошибки классификатора •Г'з'

I00 = ¿а + (1- оОХ^ОО), к = г;ь , (9)

И

позволило значительно улучшить достоверность процедуры распознавания в силу более точного анализа статистических характеристик признаков. Из анализа полученных результатов следует, что нецелесообразно уменьшать долю критерия , основанного на матрицах рассеяния, менее 0.5, так как

при этом резко повышается чувствительность признаков к вариативности речевого материала. Проведенные исследования показали эффективность использования введенной оценки качества признаков для повышения разделимости синтезированных спектральных признаков.

Предложен алгоритм диагностирования заболеваний гортани, основанный на обобщенных спектральных представлениях возбуждающей функции РС. Обоснованы алгоритмы упорядочения и сглаживания спектров. Экспериментальные исследования показали, что предложенный алгоритм позволяет выявлять патологические изменения в условиях значительной вариативности речевого материала. Анализ полученных результатов показал, что достоверность диагностики для одного диктора составляет 0.98, а при увеличении числа дикторов приводит к уменьшению достоверности до 0.88.

В заключении приведены основные научные и практические результаты работы:

1. Разработан алгоритм синтеза базисных систем, учитывающий среднеквадратаческую ошибку аппроксимации как сигнала, так и его производной. Показано, что синтезированные в этом случае базисные системы слабо чувствительны к ошибкам задания элементов базиса и исходного РС. Кроме того, применение синтезированных базисных систем позволило снизить по сравнению с разложением Карунена-Лоэва динамический диапазон ошибки аппроксимации на 10 %.

2. Исследована возможйос+Ь использования численной оценки каче-

ства речи в алгоритмах отьора значимых спектральных отсчетов для повышения эффективности кодирования PC. Введен критерий оценки качества элементов спектра. Определены качественные характеристики базисов косинусного преобразования, преобразований Уолша и Хаара. Показано, что предложенный алгоритм отбора спектральных компонент улучшает качественные характеристики восстановленного PC до 13 % для косинусного преобразования и до 41 % для преобразования Уолша. При этом на скоростях передачи менее 16 Кбит/с быстрое спектральное преобразование Уолша незначительно уступало косинусному преобразованию.

3. Предложены алгоритмы восстановления PC на выходе ортогональных кодеков речи, использующие методы регуляризации А.Н. Тихонова и модифицированный метод псевдообращений. Рассмотрена возможность использования быстрого преобразования Уолша в совокупности с предложенными алгоритмами восстановления PC для высококачественного кодирования речи. Показано, что применение методов регуляризации приближает качественные характеристики восстановленного PC к характеристикам косинусного преобразования, что особенно ощутимо на скоростях передачи менее 16 Кбит/с. Установлено, что вследствие высокой чувствительности алгоритма регуляризации А Н. Тихонова к параметру регуляризации достигаемое при этом качество восстановленного PC на 10-20 % ниже, чем при использовании алгоритма псевдообращения.

4. Обоснована возможность применения клиширования PC для снижения вычислительных затрат при вычислении коэффициентов авторегрессионной модели речи. Определены параметры адаптивного и фиксированного предварительных фильтров, снижающих вносимые клшпшрованием искажения. Показано, что использование клиппирования PC с предварительной фильтрацией позволяет получать устойчивые оценки параметров авторегрессионной модели, обеспечивающие словесную разборчивость близкую к словесной разборчивости стандартных кодеков АДИКМ, при значительном снижении вычислительных затрат. Более того, на скоростях передачи менее 16 Кбит/с применение клиппирования PC улучшает словесную разборчивость восстановленной речи на 23 %.

5. Разработан и исследован алгоритм сегментации PC на участки акустической однородности. Из анализа полученных результатов следует, что применение модифицированной фонетической функции A.A. Пирогова при построении функций спектральной динамики позволило значительно повысить качество сегментирования по сравнению с среднеквадратическим критерием как при применении спектров Фурье, так и при использовании сглаженных спектров Хаара. При этом увеличение количества пропусков сегментов на 0.18 и количества ложных сегментов на 0.22 при использовании спектров Хаара можно объяснить недостаточным учетом алгоритмами обработки спектров Хаара специфики восприятия речи человеком.

1ем ие менее, наличие сверхбыстрого алгоритма вычисления спектров Хаара позволяет рекомендовать его использование в алгоритмах сегментации PC.

6. Предложен алгоритм формирования общих признаков Карунена-Лоэва, слабо чувствительных к индивидуальным особенностям дикторов. Определены требования к процедуре вычисления и упорядочивания признаков Карунена-Лоэва. Применение предложенных алгоритмов формирования признакового пространства привело при заданном числе признаков к увеличению общей вероятности правильного распознавания фонетических элементов речи на 15...25 % и при использовании 5 признаков вероятность составила 0.96.

7. Предложеп алгоритм для повышения разделимости обобщенных спектральных признаков. Введен критерий качества синтезированных спектральных признаков. Из анализа полученных результатов следует, что второй член совместного критерия, учитывающий ошибку классификатора, практически не влияет на характеристики распознавания сигналов одного диктора. Однако при наличии междикторской вариативности введение дополнительного критерия позволило улучшить на 10-20 % достоверность распознавания в силу более точного анализа статистических характеристик признаков.

Список основных работ по теме диссертации.

1. Стукалов Д.Н., Шелудяков А.С. Согласованная фильтрация речевых сигналов //Молодёжная НТК "XXI гагаринские чтения": Тезисы докладов. 4.5. М.: МГАТУ, 1995. С. 66.

2. Кириллов С.Н., Стукалов Д.Н., Шелудяков А.С. Алгоритмы обработки речевых сигналов на фоне акустических шумов //50-я научная сессия, посвященная Дню радио: Тезисы докладов. 4.2. М.: РНТОРЭС им.А.С.Попова, 1995. С. 197-198.

3. Kirillov S.N., Stukalov D.N,, Sheludjakov A.S. Formalisation of primaiy speech signal description in computer mtod language interfaces //The. 5th East-West International Conférence, EWHCI'95: Proceedings. Volume 2, Moscow, ICSTI, 1995. P.177-179.

4. Система предупреждения столкновений воздушных судов на базе многофункциональной метеонавигационной РЛС: Отчет о НИР /РГРТА; Руководитель В.ИЛоповкин. Тема № 37-94F, № ГР 01940003609. Рязань, 1995.21 с. Соисполн.: А.С.Шелудяков.

5. Шелудяков А.С., Халяпин Р.В. Анализ алгоритмов сжатия речевых сигналов в сетях передачи данных //Молодёжная НТК "XXII гагаринские чтения". М.: МГАТУ, 1996. С. 57.

6. Шелудяков Д.С., Васильев А.В. Распознавание фонем в низкоскоростных системах Передачи речевых Сообщений //Молодёжная НТК "ХХП

гагаринские чтения". М.: МГаТУ, 1996. С. 58.

7. Шелудяков А.С., Васильев А.В. Первичное описание речевого сигнала в системах человеко-машинного взаимодействия //ВНТК студентов, молодых ученых и специалистов "Новые информационные технологии в научных исследованиях радиоэлектроники": Тезисы докладов. Рязань: РГРТА, 1996. С. 18-19.

8. Кириллов С.Н., Шелудяков А.С., Васильев А.В. Обобщенные ортогональные представления речевых сигналов //LI научная сессия, посвященная Дню радио: Тезисы докладов. 4.1. М.: РНТОРЭС им. А.С.Попова, 1996. С. 36.

9. Кириллов С.Н., Стукалов Д.Н., Шелудяков А.С., Васильев А.В. Естественно - языковый интерфейс системы информационного обеспечения пилота //МНТК "Современные научно-технические проблемы гражданской авиации". МГТУГА, 1996. С.29.

10.Kirillov S.N., Sheludjakov A.S., Stukalov D.N., Haljapin R.V. The Representation Formalization of the Speech Signal in Interests of the HumanComputer Interaction //The 6th East-West International Conference, EWHCr96: Proceedings. Moscow: ICSTI, 1996. P. 157-159.

11. Система предупреждения столкновений воздушных судов на базе многофункциональной метеонавигационной РЛС: Отчет о НИР /РГРТА; Руководитель В.И.Поповкин. Тема № 37-94Г, № ГР 01940003609. Рязань, 1996. 55 с. Сойсполн.: А.С.Шелудяков.

12.Степанов М.В., Шелудяков А.С. Неинвазивная диагностика заболеваний голосового тракта методом оценки параметров речевого сигнала //ВНТК студентов, молодых ученых и специалистов "Биотехнические, медицинские и экологические системы и комплексы": Тезисы докладов. Рязань: РГРТА, 1996. С.112.

13.Шелудяков А.С., Шустиков О.Е., Куприянов Г.Ю. Исследование обобщенной фильтрации речевых сигналов /ЯП ВНК студентов и аспирантов "Техническая кибернетика, радиоэлектроника и системы управления": Тезисы докладов. Таганрог: ТГРУ. 1996. С.6-7.

14.Кириллов С.Н., Шелудяков А.С. Фонетический анализ речевых сигналов в естественно-языковых интерфейсах //Информационные технологии. Системы обработки и передачи информации: Межвуз. сб. научн. тр. /РГРТА. Рязань, 1996. С.60-64.

15.Кириллов С.Н., Шелудяков А.С., Халяпин Р.В. Эффективное представление речевой информации в системах мультимедиа //Информационные технологии. Системы обработки и передачи информации: Межвуз. сб. научн. тр. /РГРТА. Рязань, 1996. С. 64-67.

16.Кираллов С.Н., Шелудяков А.С., Стукалов Д.Н. Анализ алгоритма оценок параметров авторегрессионной модели клишированного речевого сигнала//Электросвязь. 1996. №12. С. 15-16.

П.Кириллов С.Н., Шелудяков A.C., Шустиков O.E., Куприянов Г.Ю. Комбинированный критерий выбора базиса ортогональных разложений речевых сигналов //Автоматизация испытании Ii измерений: Межвуз. сб. науч. тр. /РГРТА. Рязань, 1996. С. 70-73.

18.Кириллов С.Н., Шелудяков A.C., Шустиков O.A., Нечушкин И.А. Оценка качества ортогональных кодеков на основе упрошенных моделей восприятия речи //Молодежная НТК "XX11I гагаринские чтения": Тезисы докладов. 4.7. М.: РГТУ-МАТИ, 1997. С. 100.

19.Кириллов С.Н., Шелудяков A.C., Шустиков O.E., Нечушкин И.А. Спектральные методы обработки речевых сигналов //V ВНТК "Повышение эффективности методов и средств обработки информации": Тезисы докладов. Тамбов: ТВВАИУ, 1997. С. 8-9.

20.Кириллов С.Н., Шелудяков A.C., Шелковой O.A. Применение преобразования Мелляна для обработки речегнг -г7гг:?л?г "°TJTK студентов, молодых учеотлг « специалистов "Новые информационные технологии в научных исследованиях пятшпздяктпттшги"- ТрЛИГ-И гтпкпялгои Ра-гяигь

РГРТА, 1997. С. 58-59.

21.Кириллов С.Н., Шелудяков A.C., Халяпин Р.В. Особенности кодирования речевых сигналов в системах компьютерной телефонии //LII научная сессия, посвящешгая Дню радио: Тезисы докладов 4.1. М.: РНТОРЗС им. А.С.Попова, 1997. С. 83.

22.Кириллов С.Н., Шелудяков A.C. Восстановление речевых сигналов на выходе ортогональных кодеков космических линий связи //МНТК "К.Э. Циолковский - 140 лет со дня рождения. Космонавтика. Радиоэлектроника. Геоинформатика": Тезисы докладов. Рязань: РГРТА, 1997. С. 98.

23.Кириллов С.Н., Лавров А.М., Шелудяков A.C. К вопросу о выборе оптимального базиса обобщенных рядов Фурье на основе комбинированного критерия //МНТК "Проблемы передачи и обработки информации в информационно-вычислительных сетях": Тезисы докладов. М.: НИЦПрйС, 1997. С. 42-43.

24.Кириллов С.Н., Стукалов Д.Н., Шелудяков A.C. Речевой интерфейс системы информационного обеспечения пилота //Современные научно-технические проблемы гражданской авиации: Межвуз. сб. научн. тр. /МГТУ ГА. М., 1997.4.1. С. 112-115.

25.Кириллов С.Н., Лавров А.М., Шелудяков A.C. Комбинированный критерий выбора оптимального базиса обобщенных рядов Фурье //Вестник РГРТА. Вып.2. Рязань, 1997. С. 19-23.

26.Кириллов С.Н., Шелудяков A.C. Дикторонезависимое распознавание фонем на основе оптимальных ортогональных разложений //Изв. РАН. Теория и системы управления. 1997. № 5. С. 53-55.

27.Метода спектральной обработки речевых сигналов: Учеб. пособие /Кириллов С.Н., Шелудяков А.С; РГРТА. Рязань, 1997. 68 с.

28.Кириллов С.Н., Шелудяков A.C., Шустиков и.Ь. сегментация речевых сигналов в естественно-языковых интерфейсах //Электронные вычислительные машины и информационные технологии: Межвуз. сб. науч. тр. /РГРТА. Рязань, 1997.

29.Кириллов С.Н., Шелудяков A.C. Быстрые алгоритмы обработки речевых сигналов в информационных системах //Новые информационные технологии: Межвуз. сб. науч. тр. /РГРТА. Рязань, 1997. С. 86-90.

30.Шустиков O.E., Шелудяков A.C. Анализ состоятельности обобщенных спектральных оценок речевых сигналов //НТК студентов и аспирантов вузов России. Радиоэлектроника и электротехника в народном хозяйстве. Тезисы докладов. T.l. М.: МЭИ, 1998. С. 132.

31.Кириллов С.Н., Шелудяков A.C. Оптимизация признакового пространства в задачах распознавания элементов речи //Автоматика и телемеханика. 1998. №5. С. 157-161.

32.Кириллов С.Н., Шелудяков A.C. Реализация кодеков речи на основе быстрых ортогональных преобразований //Электросвязь. 1998. №6 (в печати).

Соискатель

(A.C. Шелудяков)

Шелудяков Алексей Сергеевич

Повышение вычислительной эффективности и качественных показателей алгоритмов обобщеттой спектральной обработки речевых сигналов в радиотехнических системах

Автореферат диссертации на соискание ученой степени кандидата технических паук

Подписано в печать 28.04.98. Усл. печ. л. 1,0. Формат бумаги 60x84 1/16. Уч.-изд. л. 1,0. Тираж 100 экз.

Рязанская государственная радиотехническая академия. 391000, Рязань, ГСП, ул. Гагарина, 59/1.

Научно-производственный центр "Информационные технологии" 390035, Рязань, ул. Гоголя, 24, к.34.