Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала

Герасимов, Александр Вячеславович

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала

кандидата физико-математических наук: Герасимов, Александр Вячеславович
город: Нижний Новгород
год: 2007
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала»

Автореферат диссертации по теме "Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала"

На правах рукописи

ГЕРАСИМОВ Александр Вячеславович

МЕТОДЫ ВЫЧИСЛЕНИЯ ПАРАМЕТРОВ УСТОЙЧИВОЙ МОДЕЛИ И ПРИЗНАКОВ В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧЕВОГО СИГНАЛА

05 13 01 - системный анализ, управление и обработка информации по физико-математическим наукам

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

ии3 174207

Нижний Новгород - 2007

003174207

Работа выполнена на кафедре ИТФИ в Нижегородском государственном университете им Н И Лобачевского (г Нижний Новгород)

Научный руководитель

доктор технических наук, профессор В Р Фидельман

Официальные оппоненты доктор физико-математических наук,

профессор В И Есипенко

доктор технических наук, профессор А Л Резник

Ведущая организация

Самарский государственный аэрокосмический университет (СГАУ)

Защита состоится " 8" ноября 2007 г в 15°° часов на заседании специализированного совета Д (215 165 05) в Нижегородском государственном техническом университете (603600, г Нижний Новгород, ул Минина, 24, корп 1,ауд 1258)

С диссертацией можно ознакомиться в библиотеке Нижегородского государственного технического университета

Автореферат разослан " 1 " октября 2007 г

Ученый секретарь диссертационного совета, кандидат технических наук

А С Суркова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Речевой сигнал, как средство передачи информации, используется для создания естественных интерфейсов связи с машиной, что упрощает решение многочисленных задач в разнообразных приложениях Основная задача систем обработки речевого сигнала заключается в распознавании произнесенной фразы и извлечении смысла принятого сообщения

Первичной процедурой в задаче обработки речевого сигнала является акустическая обработка, которая заключается в сопоставлении каждому фрагменту сигнала некоторого набора признаков, в которых закодирована фонетическая информация, содержащаяся в данном фрагменте сигнала Большинство существующих систем обработки речевых данных построены по модульному принципу, поэтому получаемая с помощью процедуры акустического кодирования информация в том или ином виде используется всеми остальными процедурами, и ошибки, допущенные на начальном этапе-обработки, приводят к снижению эффективности работы системы в целом Результат работы методов акустического кодирования определяет качество работы всей системы, поэтому особое внимание уделяется разработке методов, чувствительных к изменениям фонетической структуры, и в то же время устойчивых к шумовым искажениям сигнала Устойчивость к шумовым искажениям означает, что изменение уровня помех не приводит к существенному изменению вычисляемых признаков В случаях, когда в структуре помехи наблюдается некоторая закономерность, достаточно легко подобрать метод компенсации такой помехи в сигнале и отфильтровать ее на этапе предобработки сигнала В случаях, когда данные о помехе отсутствуют, и компенсирующий алгоритм подобрать затруднительно, фильтрация сводится к отбрасыванию всех данных кроме тех, которые соответствуют полезному сигналу Фильтрация помех также является задачей акустической обработки

Известно, что необходимая фонетическая информация в речевом сигнале в значительной степени представлена его вокализованной частью Таким образом, важной задачей алгоритмов акустической обработки является кодирование фонетической информации для вокализованных фрагментов

речевого сигнала, устойчивое к наличию в нем вариаций произношения, а также помех

Современные методы обработки вокализованных сигналов подразумевают использование линейных параметрических моделей, позволяющих эффективно моделировать гармоническую структуру сигнала В данном случае параметры модели рассматриваются как акустические признаки С параметрическими моделями тесно связана задача определения порядка модели Неверные значения порядка приводят к потере полезной либо к внесению паразитной информации в оценки параметров, что отрицательно сказывается как на оценках вычисленных признаков, так и на качестве работы использующих их методов в целом Существующие в настоящее время методы определения порядка модели дают, как правило, заниженные значения и не обеспечивают требуемой точности решения, поэтому в большинстве существующих систем используются некоторые усредненные значения порядков, установленные экспериментально

Таким образом, важной задачей акустической обработки сигнала является формирование устойчивых акустических признаков на основе линейной параметрической модели

Целью диссертационной работы является определение устойчивых акустических признаков речевых сигналов на основе методов линейного предсказания, разработка методов и алгоритмов вычисления этих признаков, исследование эффективности разработанных методов и алгоритмов на модельных и реальных данных В задачи работы входит

1 Разработка метода формирования устойчивых признаков речевых сигналов на основе линейной модели авторегрессии - скользящего среднего (АРСС) и методе модифицированного линейного предсказания

2 Разработка методов определения порядка используемой линейной модели

3 Анализ и алгоритмов устранения искажений признаков, связанных с обработкой немодельных речевых сигналов

4 Исследование эффективности работы реализованных методов и алгоритмов по отношению к помехам высокого уровня для модельных и реальных вокализованных речевых сигналов

Актуальность работы состоит в том, что использование устойчивых акустических признаков в распознающих и кодирующих системах является ключевым фактором повышения эффективности этих систем, что в свою очередь обеспечивает возможность применения этих систем в более широком диапазоне условий Вместе с тем в настоящий момент отсутствует универсальный подход к созданию оптимальной системы акустических признаков Поиск новых методов и алгоритмов формирования акустических признаков, эффективно решающих те или иные классы задач, составляет в настоящее время одно из важных направлений в области обработки речевых данных

Научная новизна работы состоит в том, что создан новый метод формирования и вычисления устойчивых акустических признаков, основанный на представлении вокализованного речевого сигнала в виде суммы гармонических составляющих в белом шуме и использовании модели Писаренко сигнала вместо традиционно используемой авторегрессионной модели Этот метод обладает свойством информационной оптимальности и тем самым гарантирует максимальную информационную эффективность в классе линейных моделей Для данного метода разработан алгоритм определения порядка используемой модели, учитывающий специфику анализируемого сигнала и дающий устойчивый результат

Практическая ценность работы состоит в том, что разработанные методы могут быть использованы в современных системах обработки речевых сигналов, как на основе существующей структуры и состава этих систем, так и путем включения в эти системы дополнительных блоков, реализованных программным или аппаратным образом

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Научной всероссийской конференции «Информационные системы и технологии» (Нижний Новгород, НГТУ, 2002, 2003, 2005 гг ), на Научной конференции «Роль молодых ученых в развитии информационных технологий и подготовке

специалистов» (Нижний Новгород, 2002), на У-й Международной конференции «Цифровая обработка сигналов и ее применение» (Москва, 2003), на П-й Всероссийской научной конференции «Проектирование научных и инженерных приложений в среде МАТЬАВ» (Москва, 2004), на У1-Й, УШ-й, 1Х-й Научной конференции по радиофизике (Нижний Новгород, Радиофизический факультет ННГУ, 2002, 2004, 2005 гг), на Конференции МэИнфо-2005 (Зеленоград, МИЭТ, 2005), на У-й Международной научно-технической конференции «Электроника и информатика - 2005» (Зеленоград, МИЭТ, 2005), на ХХ1У-х научных чтениях имени академика Н В Белова (Нижний Новгород, 2005)

Публикации Основные результаты, полученные в диссертации, опубликованы в 12-ти работах, в том числе в 5-ти статьях, среди которых статьи в рекомендованных ВАК журналах «Вестник нижегородского университета им Лобачевского, серия радиофизика, 2004, в журнале «Радиотехника и электроника», 2005, в журнале «Радиофизика», 2006 Полный список публикаций приведен в конце автореферата

Основные положения, выносимые на защиту

1 Метод формирования устойчивых признаков речевых сигналов на основе модели авторегрессии - скользящего среднего (АРСС)

2 Методы определения порядка используемой АРСС-модели

3 Применения алгоритма фильтрации автокорреляционной функции речевого сигнала на основе сингулярного разложения с целью повышения значения соотношения сигнал/шум, и вычисления коэффициентов АРСС-модели на основе фильтрованной автокорреляционной функции

4 Результаты исследования эффективности разработанных методов в условиях высоких уровней помех и меняющихся помех

Личный вклад автора. Автору принадлежит участие в постановке задачи разработки и реализации метода формирования устойчивых акустических признаков на основе метода модифицированного линейного предсказания, разработка методов оценки порядка вектора коэффициентов предсказания Автору также принадлежит программная реализация используемых алгоритмов и компьютерное исследование эффективности работы разработанных методов и алгоритмов по отношению к аддитивным широкополосным шумам В работах [1,4,8] автором реализован метод расчета коэффициентов модифицированного линейного предсказания, проведено исследование соответствия формантной картине спектральной оценки, рассчитанной на основе этого метода, а также исследование устойчивости полученных результатов от уровня помех в сигнале В работах [2,6] автором разработан и реализован метод оценки порядка линейной модели, соответствующей вокализованному сигналу Проведено сравнение устойчивости предложенного метода со стандартным методом, основанным на информационном критерии Акаике В работах [3,7] автором реализован алгоритм расчета кепстральных признаков по коэффициентам вектора модифицированного линейного предсказания Проведено сравнительное исследование устойчивости к помехам кепстральных признаков, рассчитанных традиционным способом, на основе коэффициентов классического и модифицированного линейного предсказания В работе [5] автором исследовано влияние типичных помех на результаты вычисления коэффициентов модифицированного линейного предсказания Исследована применимость метода фильтрации по собственным числам автокорреляционной матрицы сигнала к увеличению значения соотношения сигнал/шум Предложены способы компенсации нежелательного влияния помех В работе [9] проведено сравнительное исследование достоверности классификации фонем для стандартного и разработанного методов вычисления акустических признаков Обсуждение результатов, полученных в вышеупомянутых работах, проводилось совместно с научным руководителем

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, заключения, списка используемых литературных источников, содержащего 100 наименований, и двух приложений Общий объем работы составляет 150 страниц, включая 31 рисунок

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во Введении описаны основные проблемы, связанные с акустической обработкой речевых сигналов, продемонстрирована актуальность выбранной темы работы, сформулированы цели и задачи работы, отражена научная новизна и практическая ценность результатов работы Определены также основные положения, выносимые на защиту

Первая глава содержит краткий обзор актуальных в настоящее время задач, связанных с акустической обработкой речевых сигналов, а также обзор используемых подходов Рассматривается речевая акустическая модель, представляющая вокализованный речевой сигнал в виде свертки двух компонент, первый представлен сигналом с голосовых связок и характеризует тембр речи, а второй представлен фильтровой функцией речевого тракта и характеризует фонетический состав произносимого сигнала Отмечается значимость информации о формантах для описания речи Далее рассматриваются базирующиеся на описанной модели и традиционно применяющиеся для вычисления акустических признаков методы оценки характеристик речевых сигналов, таких как анализ временных параметров, кратковременный спектральный анализ Особое внимание уделяется кепстральному анализу и параметрическому моделированию, представленному авторегрессионной моделью сигнала и методом линейного предсказания Приводится краткое описание преимуществ и недостатков, присущих данным методам, в основном связанных с наличием помех в сигнале В заключение сделан вывод о перспективности разработки метода вычисления устойчивых признаков

Вторая глава посвящена решению задачи получения устойчивых акустических признаков вокализованных сигналов Так как параметрическое представление сигнала, максимально подходящее для описания содержащейся в нем информации, в общем случае может быть неприменимо для широко используемых процедур сравнения и классификации, предлагается разделить задачу получения акустических признаков на два этапа На первом этапе рассчитывается первичный набор параметров модели, для вычисления которых используется метод модифицированного линейного предсказания На втором этапе на основе полученных параметров рассчитываются кепстральные коэффициенты, которые интерпретируются как акустические признаки

Отказ от использования традиционной модели авторегрессии в задаче вычисления первичного набора параметров обусловлен тем, что передаточная функция, соответствующая модели зашумленного вокализованного сигнала, содержит не только полюсы, но и нули В этих условиях целесообразнее использовать модель Писаренко, которая представляет собой частный случай АРСС-модели, и удобным способом учитывает данную особенность сигнала Показано, что АРСС-процесс, описываемый моделью Писаренко, обладает особым видом симметрии, в результате чего его АР-параметры оказываются идентичными СС-параметрам Это свойство при решении задачи определения вектора коэффициентов соответствующей ему модели позволяют свести задачу к анализу собственных значений разложения его автокорреляционной матрицы (АКМ) и найти вектор коэффициентов с помощью метода модифицированного линейного предсказания Основной особенностью такого подхода является то, что корни характеристического полинома, сформированного на основе коэффициентов используемой модели, лежат на единичной окружности, а процедура нахождения собственного вектора устойчива и может быть выполнена с высокой точностью

Для расчета параметров модели сигнал разбивается на участки, для каждого из которых вычисляется автокорреляционная матрица Базисный набор ее собственных векторов вычисляется с помощью алгоритма сингулярного разложения, представляющего автокорреляционную матрицу Л в виде

Л = и Е £/ 7 , где £ - диагональная матрица собственных чисел, а. и -

унитарная матрица, столбцы которой представляют собой базисный набор собственных векторов Информационная энтропия распределения собственных чисел такого разложения минимальна, что означает оптимальность получаемых данных в информационном смысле Компоненты базисного вектора, соответствующие минимальному собственному числу, являются параметрами модели Писаренко Коэффициенты модифицированного линейного предсказания вычисляются нормировкой первого компонента собственного вектора на единицу График модуля амплитудной оценки спектра вокализованного сигнала, рассчитанный на основе полученных коэффициентов, имеет визуальное сходство с формантной картиной этого сигнала

Для решения задач сравнения и классификации сигналов по их акустическим признакам в качестве таких признаков используются кепстральные коэффициенты, для которых имеются алгоритмы сравнения и большой опыт применения в системах обработки речи Кепстральные коэффициенты вычисляются на основе коэффициентов традиционного линейного предсказания с помощью алгоритма, который может быть легко распространен и на модифицированный метод предсказания Использование в качестве акустических признаков кепстрапьных коэффициентов позволяет применять получаемые результаты в существующих системах обработки речи

Для оценки устойчивости акустических признаков исследовалась зависимость среднеквадратичного рассогласования векторов признаков от уровня шума (рис 1) Для сравнения использовались кепстральные коэффициенты, вычисляемые традиционным способом через обратное Фурье-преобразование логарифма амплитудного Фурье-спектра Использовались также кепстральные коэффициенты, рассчитанные по компонентам векторов традиционного и модифицированного методов линейного предсказания

-1 -1-1-1---1-илБ

15 10 15 20

Рис.1: Зависимость среднеквадратичного рассогласования векторов признаков вычисленных по а) коэффициентам традиционного линейного предсказания, Ь) по временной последовательности, с) по параметрам линейной модели, рассчитанных с помощью предложенного метода, в зависимости от уровня шума.

Результаты исследования показывают, что векторы признаков, рассчитанные на основе предложенного метода, слабо изменяются даже при высоком уровне помех наблюдения. Таким образом, использование акустических признаков соответствующего выбранной модели вокализованного речевого сигнала, рассчитанных в соответствии с предложенным методом, позволит обеспечить стабильность акустического кодирования в широком диапазоне значений соотношения сигнал/шум.

Третья глава посвящена исследованию проблем, связанных с обработкой реальных акустических сигналов. Акустическая модель речи и, тем более, реальный сигнал отличаются от модели, представляющей сигнал как аддитивную смесь гармонической составляющей и шума с нормальным распределением плотности вероятности. Реальный шум, как правило, коррелирован, а гармоническая составляющая вокализованного сигнала за счет амплитудной модуляции имитирует пики с плавно изменяющейся амплитудой. Распределение собственных чисел разложения автокорреляционной матрицы такого сигнала плавно спадает, что сильно осложняет различение его сигнальных и шумовых составляющих. Влияние перечисленных особенностей на распределение собственных значений затрудняет вычисление корректных акустических признаков.

Для ослабления влияния помех используется существующий метод фильтрации собственных чисел автокорреляционной матрицы сигнала. Для этого производится разложение АКМ по собственным векторам и соответствующим им собственным значениям. Ранг АКМ «чистого» сигнала будет равен числу комплексных синусоид в нем. Ранг шумовой матрицы вследствие слабой коррелированности шума всегда равен ее размеру. Зануление собственных чисел, соответствующих шумовому подпространству, приводит к устранению влияния помех, представленных собственными векторами при этих числах, что эффективно способствует увеличению соотношения сигнал/шум, позволяя получать «отфильтрованную» автокорреляционную матрицу, использующуюся в дальнейшем для расчета параметров линейной модели.

Рис.2: Оценка эффективности фильтрации путем зануления собственных чисел автокорреляционной матрицы речевого сигнала, соответствующих шумовому подпространству. Приведена зависимость среднеквадратичного рассогласования от уровня шума для незашумленного и зашумленного сигналов (а), и для незашумленного и отфильтрованного сигналов (Ь). Размер АКМ равен 16, ранг матрицы «чистого» сигнала равен 8.

В качестве критерия оценки эффективности результата фильтрации используется значение квадратичного рассогласования между автокорреляционными последовательностями незашумленного сигнала с фильтрованным и нефильтрованным (рис.2). Результаты проведенного эксперимента показывают, что абсолютное значение среднеквадратичного рассогласования между незашумленным и отфильтрованным сигналом

достаточно мало и меняется слабо даже при большом уровне помех Это говорит об эффективности работы метода фильтрации по собственным числам в задаче ослабления влияния помех наблюдения

В четвертой главе решается проблема определения порядка линейной параметрической АРСС-модели Известно, что число коэффициентов линейной модели сильно влияет на вид спектральной оценки, аппроксимирующей кодируемый сигнал Внесение в оценку лишней информации, связанное с использованием модели завышенного порядка, равно как и получение упрощенной оценки, связанное с заниженным значением порядка модели, приводит к сильным искажениям признаков Для решения задачи выбора порядка модели в работе предложено два метода, ориентированных на специфику речевого сигнала «

Первый метод основан на анализе сходства спектральных оценок, соответствующих смежным порядкам моделей Математически критерий сравнения может быть записан как функционал вида

Ф[Р] = Ф[Р, нр-\п, нр(Л], р=р1 р2,

где Р - оцениваемый порядок модели, Р> Р2 - диапазон, в котором предположительно находится истинное значение порядка модели, Нрф -модуль амплитудной оценки спектра, построенной по Р коэффициентам модифицированного линейного предсказания {арк}

Для оценки степени подобия в работе использовался критерий информационной энтропии Кульбака Применение данного критерия обусловлено тем, что амплитудная оценка спектра имеет характер вероятностного распределения Сам критерий является достаточно чувствительным к различиям сравниваемых распределений, что позволяет регистрировать малые изменения оценок амплитудного спектра с ростом порядка модели для принятия решения о степени вокализованности сигнала Для задачи сравнения спектральных оценок этот критерий предлагается записать в виде

Ф[Р] = ^ \

2 /=о

я''(Я +нр-'(/) 1пЯ"'(/)

»"(/) я (/)

где, Ар - собственные значения при соответствующих собственных векторах разложения В качестве вектора коэффициентов выбирается вектор размерности Р, при котором функционал принимает минимальное значение

Второй метод основан на анализе соответствия векторов коэффициентов линейного предсказания, вычисленных с помощью традиционного и модифицированного методов Установлено, что для вокализованного речевого сигнала параметры линейной модели и соответствующие им спектральные оценки наиболее похожи по своей форме в случае значения порядка модели равного истинному, что также дает возможность построить функционал, принимающий минимальное значение при истинном значении порядка модели В данном случае функционал может быть записан в виде

к=0

где а,[к\ — коэффициенты, полученные с помощью традиционного метода линейного предсказания, ат[к] - коэффициенты, полученные с помощью предложенного метода

Решение о степени вокализованности сигнала при расчете обоими методами может быть принято на основе анализа поведения значений функционала от порядка модели Экспериментально установлено, что для вокализованных фрагментов сигнала функционал имеет явный минимум при оптимальном порядке модели, и его значение достаточно мало Для невокализованных сигналов характерна другая ситуация, когда явный минимум отсутствует, а минимальное значение функционала увеличивается в несколько раз

N 10

б 4

6 В 10 12 14 16 16 20 ЗПГ,С1В

Рис.3: Зависимость значения порядка модели от уровня шумов для (*) -метода ИКА, (о) - предлагаемого метода, основанного на анализе спектральных оценок, вычисленных по векторам коэффициентов модифицированного линейного предсказания смежного порядка, (□) -предлагаемого метода, основанного на анализе векторов коэффициентов, полученных традиционным и модифицированным методами.

Для оценки устойчивости рассматриваемых алгоритмов в зависимости от уровня шума проведен компьютерный эксперимент. Оценивалось отношение числа верных случаев определения порядка модели к числу экспериментов. Это значение вычислялось для метода определения порядка модели на основе информационного критерия Акаике (ИКА) и для предлагаемых методов. Результаты представлены на рис.3. Истинный порядок модели равен 7. Из рисунка видно, что критерий Акаике дает неудовлетворительный результат, сильно зависящий от уровня помех, в то время как предложенные методы дают значения, близкие к истинному.

Пятая глава посвящена анализу эффективности метода акустического кодирования, решающего задачи предварительной фильтрации по собственным числам, определения порядка модели, вычисления набора коэффициентов модифицированного предсказания и расчета на их основе кепстральных признаков для решения дальнейших задач классификации. В случае классификации входного набора акустических признаков для реального сигнала наличие помехи может привести к ошибочному отнесению входных данных другой фонеме. Поэтому имеет смысл не просто оцепить степень искажения вектора признаков, соответствующих определенной фонеме, а провести оценку корректности классификации входных акустических данных сформированным

..:.....+ 4. ..

-■о — *- — Й— -1— -< о : : : <Ь о * —-0---Н5—

вокализованным данным полного фонемного алфавита. Из теории речеобразования известно, что фонетическая информация передается гласными и носовыми звуками. Смычные (взрывные) звуки, соответствующие произношению букв б, п, не содержат фонетической информации и могут быть удалены из сигнала без особых осложнений в разборчивости речи. Вместо них информацию несут следующие за ними гласные, произношение которых отличается от произношения их не в связке, а самостоятельно, в силу так называемого эффекта коартикуляции. Таким образом, фонемный алфавит может быть представлен набором гласных либо носовых звуков: а, е, и, э, о,у, ы, м, н, ...

Рис.4: Зависимость доли ошибки классификации от уровня шумов для метода, используемого в одной из сторонних систем (верхний график) и предлагаемого алгоритма (нижний график) акустического кодирования.

Для проведения исследования эффективности работы блока акустического кодирования, в качестве входного сигнала использовался сформированный фонетический алфавит, состоящий из гласных и носовых звуков. Оценивался процент ошибочных отнесений зашумленного экземпляра фонемы к остальным фонемам сформированного алфавита. Для сравнения был взят метод акустического кодирования, используемый в существующей системе распознавания речи ШР. Результаты исследования, представленные на рис.4, показывают, что процент ошибок классификации фонем для предложенного метода ниже, чем для стороннего метода, что говорит об устойчивости

акустических признаков, вычисленных предложенным методом.

В Заключении содержится сводка основных результатов по всем главам, и даются выводы по работе в целом.

В Приложении 1 приводится вывод формулы разложения по собственным векторам автокорреляционной матрицы сигнала, представляющего собой смесь синусоид в белом шуме

В Приложении 2 рассматривается связь представления сигнала, в виде смеси синусоид в белом шуме с моделью авторегрессии - скользящего среднего Приводится процедура нахождения параметров модели

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1 Разработан и реализован метод формирования устойчивых признаков речевых сигналов на основе модели авторегрессии - скользящего среднего Полученные признаки слабо зависят от уровня помех в сигнале, не содержат паразитной информации и позволяют эффективно кодировать формантную структуру речевых вокализованных сигналов

2 Разработаны и реализованы методы определения порядка АРСС-модели На основании исследования эффективности работы методов в зависимости от уровня шумов показано, что предлагаемые методы дают верное значение порядка модели в широком диапазоне значений соотношения сигнал/шум, что обеспечивает возможность их использования в составе разработанного метода вычисления устойчивых акустических признаков

3 Реализован метод ослабления влияния аддитивных широкополосных помех, основанный на фильтрации автокорреляционной функции речевого сигнала, на базе сингулярного разложения Экспериментально установлено, что использование алгоритма коррекции входного сигнала обеспечивает большую устойчивость работы предлагаемого метода вычисления акустических признаков как по отношению к различным помехам, так и по отношению к отклонениям сигнала от модельного представления

4 Исследована эффективность разработанных методов в условиях высоких уровней помех и меняющихся помех Установлено сходство форм оценок огибающих спектра, вычисленных на основе полученных акустических

признаков, и формантных картин анализируемого сигнала На основании проведенных сравнительных исследований устойчивости кодирования традиционным и предложенным методами показано, что вычисленные предложенным методом акустические признаки менее подвержены изменениям, связанным с наличием в сигнале помех Таким образом, использование акустических признаков, рассчитанных в соответствии с предлагаемым методом, позволит обеспечить стабильность акустического кодирования вокализованного речевого сигнала в широком диапазоне значений соотношения сигнал/шум

СПИСОК РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в изданиях, рекомендованных ВАК

1 Герасимов АВ, Морозов О А, СолдатовЕА, Фидельман В Р Использование разложения автокорреляционной матрицы сигнала по собственным векторам в задаче устойчивого акустического кодирования вокализованных речевых сигналов // Вестник Нижегородского университета им Н И Лобачевского Серия Радиофизика - №1 - 2004 - с 194-199

2 Герасимов А В, Морозов О А , Фидельман В Р Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов // Радиотехника и электроника -№8 -2005 - с 1287-1291

3 Герасимов АВ, Морозов О А , СолдатовЕА, Фидельман В Р Применение метода модифицированного линейного предсказания для устойчивого акустического кодирования речи // Радиофизика - №7 - 2006 - с 593-598

Публикации в сборниках научных трудов, докладов и материалов

конференций

4 Герасимов А В Применение метода формантного анализа для извлечения информации из акустического сигнала в задачах распознавания речи // Доклады 5-й международной конференции Цифровая обработка сигналов и ее применение -Москва -2003 - с 334-337

5 Герасимов А В, Фидельман В Р Фильтрация речевого сигнала на основе анализа собственных чисел его автокорреляционной матрицы // II Всероссийская научная конференция «Проектирование научных и инженерных приложений в среде МаЙаЬ» -Москва -2004 -с 1680-1688

6 Герасимов А В, Фидельман В Р Определение порядка линейной параметрической модели в задаче устойчивого кодирования вокализованных речевых сигналов // Восьмая научная конференция по радиофизике Труды -НижнийНовгород -2004 -с 119-120

7 Герасимов А В Применение метода модифицированного линейного предсказания для повышения устойчивости речевого кодирования //Микроэлектроника и информатика - 2005 12-я Всероссийская межвузовская научно-техническая конференция студентов и аспирантов Тезисы докладов — Зеленоград — 2005 — с 170

8 Герасимов АВ, Морозов О А , Фидельман В Р Акустическое кодирование вокализованного сигнала на основе собственных векторов разложения его автокорреляционной матрицы // Девятая научная конференция по радиофизике Труды - Нижний Новгород - 2005 - с 93

9 Герасимов А В, Фидельман В Р Применение информационного подхода к акустическому кодированию речевых сигналов //Электроника и информатика - 2005 V-« Международная научно-техническая конференция Материалы конференции - Зеленоград - 2005 - с 27

10 Герасимов А В Адаптивная избирательная цифровая фильтрация и анализ речевых сигналов // Сборник научных трудов учащихся физико-математических классов средних школ Нижнего Новгорода, студентов и аспирантов РРГУ - Нижний Новгород - 2002 - с 65-69

11 Герасимов А В Применение методов классического и модифицированного линейного предсказания для определения порядка линейной модели речевого сигнала // Тезисы докладов всероссийской научно-технической конференции "Информационные системы и технологии" - Нижний Новгород -2005 -с 128

12 Герасимов А В, Фидельман В Р Применение методов классического и модифицированного линейного предсказания для определения порядка линейной модели в задаче акустического кодирования речи // XXIV научные чтения имени академика Н В Белова Тезисы докладов - Нижний Новгород -2005 -с 142-144

ГЕРАСИМОВ Александр Вячеславович

МЕТОДЫ ВЫЧИСЛЕНИЯ ПАРАМЕТРОВ УСТОЙЧИВОЙ МОДЕЛИ И ПРИЗНАКОВ В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧЕВОГО СИГНАЛА

05 13 01 - системный анализ, управление и обработка информации по физико-математическим наукам

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

Подписано в печать 25 09 2007 г Формат 60x84 1/16 Бумага офсетная Печать офсетная Уел п л 1 Заказ № 1014 Тираж 100 экз

Отпечатано с готового оригинал-макета в типографии Нижегородского госуниверситета им Н И Лобачевского 603000, г Н Новгород, ул Б Покровская, 37

Оглавление автор диссертации — кандидата физико-математических наук Герасимов, Александр Вячеславович

ВВЕДЕНИЕ.

ГЛАВА 1: МЕТОДЫ АКУСТИЧЕСКОЙ ОБРАБОТКИ СИГНАЛОВ В ЗАДАЧЕ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ (ЛИТЕРАТУРНЫЙ ОБЗОР).

1.1 Архитектура и задачи систем обработки речи. Место алгоритмов акустической обработки.

1.2 Акустическая модель речеобразования.

1.3 Алгоритмы получения акустических признаков.

1.3.1 Анализ временных параметров.

1.3.2 Кратковременный спектральный анализ [29, 30, 38].

1.3.3 Гомоморфная обработка [61].

1.3.4 Параметрическое моделирование: авторегрессионная модель и линейное предсказание [34, 35, 41, 42].

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Герасимов, Александр Вячеславович

Речевой сигнал как средство передачи информации используется для создания естественных интерфейсов связи с машиной, что упрощает решение многочисленных задач в разнообразных приложениях. Одна из главных возникающих при этом трудностей связана с построением комплексной системы обработки речевых данных, дающей корректный устойчивый результат независимо от возможных искажений сигнала. Основной функцией систем обработки речевого сигнала является распознавание произнесенной фразы и извлечение смысла принятого сообщения, достаточного для принятия решения и генерации соответствующего ответа.

Первичной процедурой в задаче обработки речевого сигнала является акустическая обработка, которая заключается в сопоставлении каждому фрагменту сигнала некоторого набора признаков, в которых закодирована фонетическая информация, содержащаяся в данном фрагменте сигнала. Среди вопросов, относящихся к акустической обработке сигналов, одним из важнейших является вопрос устойчивого кодирования сигнала в условиях искажений и различного рода помех[1-9, 34]. Задача обнаружения сигнала в помехах и его извлечения имеет большое практическое значение для проектирования систем обработки речевых данных [10-16, 52]. Большинство существующих систем построены по модульному принципу, поэтому получаемая с помощью процедуры акустического кодирования информация в том или ином виде используется всеми остальными процедурами, и ошибки, допущенные на начальном этапе обработки, приводят к снижению эффективности работы системы в целом [10,13]. Результат работы методов акустического кодирования определяет качество работы всей системы, поэтому особое внимание уделяется разработке методов, чувствительных к изменениям фонетической структуры, и в то же время устойчивых к шумовым искажениям сигнала. Устойчивость к шумовым искажениям означает, что изменение уровня помех не приводит к существенному изменению вычисляемых признаков. В случаях, когда в структуре помехи наблюдается некоторая закономерность, достаточно легко подобрать метод компенсации такой помехи в сигнале и отфильтровать ее на этапе предобработки сигнала. В случаях, когда данные о помехе отсутствуют, и компенсирующий алгоритм подобрать затруднительно, фильтрация сводится к отбрасыванию всех данных кроме тех, которые соответствуют полезному сигналу. Фильтрация помех также является задачей акустической обработки.

Известно, что необходимая для распознавания фонетическая информация в речевом сигнале в значительной степени представлена его вокализованной частью. Таким образом, важной задачей алгоритмов акустической обработки является кодирование фонетической информации для вокализованных фрагментов речевого сигнала, устойчивое к наличию в нем вариаций произношения, а также помех.

Этап акустической обработки в системах распознавания речевого сигнала представлен целым семейством алгоритмов, основная цель которых заключается в оценке огибающей мгновенного спектра сигнала, содержащей фонетическую информацию [10,13,14,35,61]. Современные методы обработки вокализованных сигналов подразумевают использование для этих целей линейных параметрических моделей, позволяющих эффективно моделировать гармоническую структуру сигнала и потому более предпочтительных. В данном случае параметры модели рассматриваются как акустические признаки. С параметрическими моделями тесно связана задача определения порядка модели. Неверные значения порядка приводят к потере полезной либо к внесению паразитной информации в оценки параметров, что отрицательно сказывается как на оценках вычисленных признаков, так и на качестве работы использующих их методов в целом. Существующие в настоящее время методы определения порядка модели дают, как правило, заниженные значения и не обеспечивают требуемой точности решения, потому в большинстве существующих систем используются некоторые усредненные значения порядков, установленные экспериментально.

Таким образом, важной задачей акустической обработки сигнала является формирование устойчивых акустических признаков на основе линейной параметрической модели.

1. Разработка метода формирования устойчивых признаков речевых сигналов на основе линейной модели авторегрессии - скользящего среднего (АРСС) и методе модифицированного линейного предсказания.

2. Разработка методов определения порядка используемой линейной модели.

3. Анализ и алгоритмов устранения искажений признаков, связанных с обработкой немодельных речевых сигналов.

4. Исследование эффективности работы реализованных методов и алгоритмов по отношению к помехам высокого уровня для модельных и реальных вокализованных речевых сигналов.

Актуальность работы состоит в том, что использование устойчивых акустических признаков в распознающих и кодирующих системах является ключевым фактором повышения эффективности этих систем, что в свою очередь обеспечивает возможность применения этих систем в более широком диапазоне условий. Вместе с тем в настоящий момент отсутствует универсальный подход к созданию оптимальной системы акустических признаков. Поиск новых методов и алгоритмов формирования акустических признаков, эффективно решающих те или иные классы задач, составляет в настоящее время одно из важных направлений в области обработки речевых данных.

Научная новизна работы состоит в том, что создан новый метод формирования и вычисления устойчивых акустических признаков, основанный на представлении вокализованного речевого сигнала в виде суммы гармонических составляющих в белом шуме и использовании модели Писаренко сигнала вместо традиционно используемой авторегрессионной модели. Этот метод обладает свойством информационной оптимальности и тем самым гарантирует максимальную информационную эффективность в классе линейных моделей. Для данного метода разработан алгоритм определения порядка используемой модели, учитывающий специфику анализируемого сигнала и дающий устойчивый результат.

Практическая ценность работы состоит в том, что разработанные алгоритмы могут быть использованы в современных системах обработки речевых сигналов, как на основе существующей структуры и состава этих систем, так и путем включения в эти системы дополнительных блоков, реализованных программным или аппаратным образом.

Апробация работы.

Основные результаты диссертационной работы докладывались и обсуждались: на Научной всероссийской конференции «Информационные системы и технологии» (Нижний Новгород, НГТУ, 2002,2003, 2005 гг.), на Научной конференции «Роль молодых ученых в развитии информационных технологий и подготовке специалистов» (Нижний Новгород, 2002), на V-й Международной конференции «Цифровая обработка сигналов и ее применение» (Москва, 2003), на И-й Всероссийской научной конференции «Проектирование научных и инженерных приложений в среде MATLAB» (Москва, 2004), на VI-й, VIII-й, IX-й Научной конференции по радиофизике (Нижний Новгород, Радиофизический факультет ННГУ, 2002, 2004, 2005 гг.), на Конференции МэИнфо-2005 (Зеленоград, МИЭТ, 2005), на V-й Международной научно-технической конференции «Электроника и информатика - 2005» (Зеленоград, МИЭТ, 2005), на XXIV-x научных чтениях имени академика Н.В.Белова (Нижний Новгород, 2005).

Публикации.

Основные результаты, полученные в диссертации, опубликованы в 12-ти работах, в том числе в 5-ти статьях, среди которых статьи в журналах:

Вестник нижегородского университета им. Лобачевского, серия радиофизика, 2004,

Радиотехника и электроника», 2005, «Радиофизика», 2006.

Основные положения, выносимые на защиту.

1. Метод формирования устойчивых признаков речевых сигналов на основе модифицированной линейной модели.

2. Результаты исследования на признаки реальных помех. Применение методов фильтрации в пространстве признаков для повышения их устойчивости.

3. Методы определения порядка используемой линейной модели.

4. Результаты исследования эффективности разработанных методов в условиях высоких уровней помех и меняющихся помех.

Содержание работы.

Диссертационная работа состоит из введения, пяти глав, заключения, списка используемых литературных источников и двух приложений.

Заключение диссертация на тему "Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала"

Заключение

Разработан и реализован метод формирования устойчивых признаков речевых сигналов на основе модифицированной модели авторегрессии -скользящего среднего. В качестве набора параметров этой модели используются значения собственного вектора разложения автокорреляционной матрицы сигнала при минимальном собственном числе. Коэффициенты линейного прогнозирования для этой модели рассчитываются с помощью модифицированного метода линейного предсказания. В качестве акустических признаков используются кепстральные коэффициенты, рассчитываемые на основе полученных коэффициентов прогнозирования. Полученные признаки слабо зависят от уровня помех в сигнале, не содержат лишней информации и позволяют эффективно кодировать формантную структуру речевых вокализованных сигналов.

Исследовано влияние на вычисляемые акустические признаки различных помех и искажений. Установлено, что среди присутствующих в звукозаписи помех, преимущественно выделяются слабокоррелированные широкополосные помехи и линейный тренд, состоящий из постоянной составляющей и гармоник низкой частоты, с периодом, превышающим длину анализируемого фрейма сигнала. Для устранения линейного тренда реализован алгоритм, заключающийся в вычитании из сигнальной последовательности сформированной оценки линейного тренда, вычисляемой по исходному сигналу традиционными методами. Визуальный анализ спектра и распределения собственных чисел сигнала без тренда и сигнала с удаленным трендом показал их неразличимость, что свидетельствует о качественном устранении тренда выбранным алгоритмом.

Для коррекции спектра, в котором энергия сосредоточена преимущественно в низкочастотной области, реализован алгоритм предварительного контрастирования, усиливающего вклад высоких частот. Усиление вклада высоких частот позволяет вскрыть тонкую структуру в автокорреляционной последовательности и построить более точную формантную картину.

Для ослабления влияния широкополосных помех реализован метод фильтрации автокорреляционной функции речевого сигнала на базе сингулярного разложения. Экспериментально установлено, что использование алгоритма коррекции входного сигнала обеспечивает большую устойчивость работы предлагаемого метода вычисления акустических признаков. Таким образом, использование реализованных методов коррекции входного сигнала обеспечивает большую устойчивость работы предлагаемого алгоритма вычисления акустических признаков как по отношению к различным помехам, так и по отношению отклонениям сигнала от модельного представления.

Разработаны и реализованы методы определения порядка АРСС-модели, ориентированные на формантные свойства вокализованного речевого сигнала. Первый метод основан на сравнении амплитудных оценок спектров, построенных по параметрам моделей смежных порядков. В его основу положено наблюдающееся для вокализованных сигналов свойство соответствия спектральных оценок смежных порядков и их соответствие формантной картине при значении порядка, равному истинному порядку модели. Второй метод основан на сравнении набора коэффициентов традиционного линейного предсказания и набора первичных параметров, вычисляемых предлагаемым методом. В его основе лежит свойство сходства векторов коэффициентов традиционного и модифицированного линейного предсказания. На основании исследования эффективности работы методов в зависимости от уровня шумов показано, что предлагаемые методы дают верное значение порядка модели в широком диапазоне значений соотношения сигнал/шум, что обеспечивает возможность их использования в составе разработанного метода вычисления устойчивых акустических признаков. Данные методы могут быть также использованы для определения вокализованных и невокализованных фрагментов речевого сигнала.

Полученный комплексный метод вычисления акустических признаков, имеющий в своем составе все методы, описанные выше, был протестирован на сформированном фонетическом алфавите. На основании проведенных сравнительных исследований устойчивости кодирования традиционным и предложенным методами показано, что акустические признаки, вычисленные предложенным методом, менее подвержены изменениям, связанным с наличием в сигнале помех. Таким образом, использование акустических признаков, рассчитанных в соответствии с предлагаемым методом, позволит обеспечить стабильность акустического кодирования вокализованного речевого сигнала в условиях его искажения и наличия помех различного уровня.

Библиография Герасимов, Александр Вячеславович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Обнаружение радиосигналов. / П.С.Акимов, Ф.Ф.Евстратов, С.И.Захаров и др. — Радио и связь, 1989. -288 с.

2. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов: Пер. с англ. М.: Мир, 1978. -848 с.

3. Голд Б., РэйдерЧ. Цифровая обработка сигналов / Под ред. М. Трахтмана. — М.: Сов. радио, 1973. -367 с.

4. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов. М: Радио и связь, 1981.-496 с.

5. Цемель Г.И. Опознавание речевых сигналов. М.:"Наука", 1971. -с.34-125.

6. Madisetti V.K., Williams D.B. The digital signal processing handbook. CRC Press., 1998.-pp.1500.

7. Назаров M.B., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и связь, 1985. - 176с.

8. Уидроу Б., Гловер Д.Ю., Маккул Д. и др. Адаптивные компенсаторы помех. Принцип построения и применения // ТИИЭР. 1975. -№12. Т.63 -С. 69-98.

9. Загоруйко Н.Г., Волошин Г.Я., Елкина В.Н. Автоматическое опознавание звуковых образов (обзор литературы).: -сб. "Вычислительные системы", Новосибирск, 1964. -с.3-30.

10. Методы автоматического распознавания речи: В 2-х кн./Под. ред.: У.А. Ли, Э.П. Нейбург, Т.Б. Мартин и др.; Под ред.У.Ли; Пер.с англ. О.В.Александровой под ред.А.А.Воронова.-М.:Мир,1983. -327 с.

11. Сердюков В.Д. Опознавание речевых сигналов на фоне мешающих факторов. Тбилиси.: Наука, 1987, -142с.

12. Сапожников М.А. Речевой сигнал в кибернетике и связи. -М.: Связьиздат, 1963.-с.135-357.

13. Редди. Машинное распознавание речи. Обзор. // ТИИЭР. -т.64, № 4. -1976.

14. Reddy D.R. Computer recognition of connected speech. // J. Acoust. Soc. Amer., vol.46, no.2, Aug. 1967. -pp.329-347.

15. Потапова P.K. Речь: коммуникация, информация, кибернетика. Изд. 2-е, доп. М.: Эдиториал УРСС, 2001. - 568с.

16. Rabiner L., Juang В. Fundamentals of Speech Recognition. Prentice Hall PTR, 1993.-p.496.

17. Flanagan J.L. Speech analysis, synthesis and perception, 2-nd ed. Springer-Verlag, New York, 1972. -p.444.

18. Косарев Ю.А. Естественная форма диалога с ЭВМ. -М.: Машиностроение, Ленингр. отд., 1989. -142с.

19. Баранов А. Н. Категории искусственного интеллекта в лингвистической семантике. Фреймы и сценарии. М., 1987.

20. Барченков С.А. Человек разговаривает с машиной. (Автоматическое распознавание и воспроизведение речи) -М.: Воениздат, 1974.-134с.

21. Фант Г. Акустическая теория речеобразования. Пер с англ. М: Наука, 1964.-284с.

22. Фант Г. Анализ и синтез речи. Пер. с англ. B.C. Лозовского и Н.В. Бахмутовой под ред. Н.Г. Загоруйко. Новосибирск, -М.: Наука, 1970. -167с.

23. Сорокин В.Н. Теория речеобразования. -М.: Радио и связь, 1985. -312 с.

24. Гудонавичюс Р.В., Кемешис П.П., Гитавичюс А.Б. Распознавание речевых сигналов по их структурным свойствам. Л.: Энергия, 1977. -148с.

25. Бондарко Л. В. Осциллографический анализ речи. Л., 1965.

26. Динамические спектры речевых сигналов. / Деркач М. Ф. и др. -Л.:Вища школа, 1983.-168с.

27. Деркач М. Ф. и др. Восприятие речи в распознающих моделях. Львов, 1971.-186 с.

28. Voice Extensible Markup Language (VoiceXML) Version 2.0. Scott McGlashan, Daniel C. Burnett, Jerry Carter, et all. http://www.w3 .org/TR/voicexml20/

29. Гольденберг Jl.M., Матюшкин Б.Д., Поляк M.H. Цифровая обработка сигналов. М.: Радио и связь, 1990. -256 с.

30. Голд Б., Рэйдер Ч. Цифровая обработка сигналов: Пер. с англ. М.: Сов. радио, 1973.-368 с.

31. Robinson Т. Speech Analysis. http://svr-www.eng.cam.ac.uk/~ajr/SpeechAnalysis/

32. Венцов А.В., Касевич В.Б. Современные модели восприятия речи: критический обзор.http://www.csa.ru/Minerva/ch9/ch949.html

33. Сергиенко А.Б. Цифровая обработка сигналов. СПб.:Питер, 2002. -608с.

34. Цифровой спектральный анализ и его приложения. Марпл.-мл. С.Л. Пер. с англ. М: Мир, 1990. -584с.

35. Маркел, Джон Д., Грей, Августин.Х. Линейное предсказание речи. М.: Радио и связь, 1980. -248 с.

36. Бочаров И.В., Акатьев Д.Ю. Распознавание речевых сигналов на основе корреляционного метода. // Электронный журнал «Исследовано в России», 148, 2003.http://zhurnal.ape.relarn.ru/articles/2003/148.pdf

37. Савченко В.В. Различение случайных сигналов в частотной области // Радиотехника и электроника.-№4. Т.42. -1997. -с.426-429.

38. Кей С.М, член ИИЭР; Марпл мл. С.Л., член ИИЭР. Современные методы спектрального анализа: Обзор. // ТИИЭР, т.69,№11, ноябрь 1981. - с.5-51

39. Бендат Дж., Пирсол А. Прикладной анализ случайных данных: Пер. с англ. М.: Мир, 1989. -540 с.

40. Макс. Ж. Методы и техника обработки сигналов при физических измерениях: В 2-х томах. Пер. с франц. М.: Мир, 1983. -568с.

41. Макхол Дж. член ИИЭР. Линейное предсказание: Обзор. // ТИИЭР -т.63 №4 апрель 1975.-с.20-44.

42. Маркел Джон Д., Грэй, Августин.Х. Линейное предсказание речи /пер. с англ. под ред. Ю.Прохорова, B.C. Звездина-М.:Мир,1983. -308с.

43. Зиновьева Н.В. Механизмы извлечения лингвистической информации из спектрального представления речевого сигнала. / МГУ им. М.В.Ломоносова. М., 1986.

44. Оппенгейм А.В., Шафер Р.В. Цифровая обработка сигналов: Пер. с англ. -М.: Связь, 1979. —416с.

45. Pisarenko V.F. The retrieval of harmonics from a covariance function. // Geophys. J.R. Astron. Soc. Vol.33, 1973. pp 347-366.

46. Минеев C.A., Морозов O.A., Плеханов A.A., Солдатов Е.А. Линейное предсказание на основе решения задачи на собственные числа автокорреляционной матрицы. //Известия вузов. Радиофизика. -T.XLII. №1.-2000.-С.66

47. Бартлетт М.С. Введение в теорию случайных процессов.-М., 1958. -384с.

48. Harma A., Laine U.K. Linear predictive coding with modified filter structures. // IEEE Trans. Speech and Audio Processing, -vol.9, no.8. -2001. -pp.769777.

49. Прохоров Ю.Н. Статистические модели и рекуррентное предсказаниеречевых сигналов. М.: Радио и связь, 1984, -240 с.

50. Owsley N.L. Adaptive data orthogonalization // Proc. IEEE ICASSP Tulsa, Okla., April 1978.-pp. 109-112.

51. Kay S.M. Modern Spectral Estimation, Theory and Application. Prentice-Hall, Inc. Englewood Cliffs, N.J., 1987.

52. Тюхтин B.C. Теория автоматического опознавания и гносеология. М.: Наука, 1976,-190с.

53. Mansfield A.J., Wayman J.L. Best Practices in Testing and Reporting Performance of Biometric Devices. Report for CESG and Biometrics Working Group, August 2002.http://www.npl.co.uk/scientificsoftware/publications/biometrics/ bestpracv2l.pdf

54. Моррис У.Т. Наука об управлении. Байесовский подход. Пер. с англ. -М.:Мир, 1971.-302с.

55. Рамишвили Г.С. Автоматическое опознавание говорящего по голосу. М.: Радио и связь, 1981, -224 с.

56. Рамишвили Г.С. Речевой сигнал и индивидуальность голоса. Тб.: Мецемереба, 1976. - 183 с.

57. Ватанабе С. Разложение Карунена-Лоэва и факторный анализ. Теория и приложения. Сборник переводов. М: Мир, 1969. -308с.

58. Kumaresan R., Tufts D.W. Data-adaptive principal component signal processing. // in Proc. 19th IEEE Conf. Decision and Control (Albuquerque, NM),-1980.-pp. 949-954.

59. Мартин H., Ингленд Дж. Математическая теория энтропии. Пер. с англ. -М.:Мир, 1998. -350 с.

60. Кульбак С. Теория информации и статистика. М.: Наука, 1967. -408с.

61. Чайлдерс Д. Дж., Скиннер Д.П., Кемерейт Р.Ч. Кепстр и его применение при обработке данных. Обзор. // ТИИЭР. -Т. 65, №10. -1977. -С.5.

62. Atal B.S. Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification. // J. Acoust. Soc. Am. -vol.55, №6. -1974. pp.1304-1312.

63. Акатьев Д.Ю., Бочаров И.В. Распознавание дикторов по методу обеляющего фильтра. // Электронный журнал "Исследовано в России". -№4. -2001.-С. 1693-1700. http://zhurnal.ape.relarn.ru/articles/2001/147.pdf

64. Акатьев Д.Ю., Пучков С.Н. Исследование метода обеляющего фильтра в задаче распознавания речевых сигналов. // Электронный журнал "Исследовано в России". -№5. -2002. -С. 289-294. http://zhurnal.ape.relarn.ru/articles/2002/026.pdf

65. Smaragdis P.J. Efficient blind separation of convolved sound mixtures. // Cambridge; Machine Listening Group. -1992. -pp. 1-5.

66. Smaragdis P.J. Information Theoretic Approaches to Source Separation. Boston; Berklee Colege of Music. -1995. -p.88.

67. Mermelstein P. and Qian Y. Nonlinear filtering of the LPC residual for noise suppression and speech quality enhancement. // IEEE Speech Coding Workshop, -1997, -pp. 49-50.

68. Akaike, H. Power Spectrum Estimation through Autoregression Model Fitting. //Ann. Inst. Stat. Math, -vol.21. -1969. -pp.407-419.

69. Akaike, H. A new look at statistical model identification. // IEEE Trans. Automat. Contr. -vol.AC-19. -1974. -pp.716-723.

70. Rissanen J. A Universal Prior for the Integers and Estimation by Minimum Description Length. // Ann. Stat. -vol. 11, -1983. -pp. 417-431.

71. Ulrych T.J., Clayton R.W. Time Series Modeling and Maximum Entropy. // Phys. Eart Planet Inter, -vol. 12. -1976. -pp. 188-200.

72. Ulrych T.J., Bishop N.N. Maximum entropy spectral analysis and autoregressive decomposition. Rev. // Geophys. Space Phys. -vol. 13. -1975. -pp. 183-200.

73. Berryman J.G. Choice of operator length for maximum entropy spectral analysis. // Geophysics, -vol. 43. 1978. -pp. 1384-1391.

74. Jones R.H. Autoregression order selection. I I Geophysics. vol. 41. -1976. -pp. 771-773.

75. Акустическое кодирование вокализованного сигнала на основе собственных векторов разложения его автокорреляционной матрицы. А.В. Герасимов, О.А. Морозов, В.Р. Фидельман. // Девятая научная конференция по радиофизике. Труды. Нижний Новгород, 2005.

76. Применение факторного анализа для определения и кодирования смысловой составляющей речевого сигнала. А.В.Герасимов. // Тезисы докладов научной всероссийской конференции Информационные системы и технологии ИСТ-2003, Нижний Новгород, 2003

77. Применение метода формантного анализа для извлечения информации из акустического сигнала в задачах распознавания речи. А.В.Герасимов. // Доклады 5-й международной конференции Цифровая обработка сигналов и ее применение, Москва, 2003

78. Применение метода модифицированного линейного предсказания для устойчивого акустического кодирования речи. А.В. Герасимов, О.А. Морозов, Е.А.Солдатов, В.Р. Фидельман. // Радиофизика, 2006. T.XLIX, №7.

79. Адаптивная избирательная цифровая фильтрация и анализ речевых сигналов. А.В.Герасимов // Сборник научных трудов учащихся физико-математических классов средних школ Нижнего Новгорода, студентов и аспирантов РРГУ, Нижний Новгород, 2002.

80. Фильтрация речевого сигнала на основе анализа собственных чисел его автокорреляционной матрицы. А.В.Герасимов, В.Р.Фидельман. // II Всероссийская научная конференция «Проектирование научных и инженерных приложений в среде Matlab», Москва, 2004

81. К проблеме выделения сигнала из общего потока в задачах анализа и распознавания речи. А.В.Герасимов, Н.С.Будников // Доклады секции: Роль молодых ученых в развитии информационных технологий и подготовке специалистов. Нижний Новгород, 2002

82. Определение порядка линейной параметрической модели в задаче устойчивого кодирования вокализованных речевых сигналов. А.В.Герасимов, В.Р.Фидельман. // Восьмая научная конференция по радиофизике. Труды. Нижний Новгород, 2004.

83. Применение методов классического и модифицированного линейного предсказания для определения порядка линейной модели в задаче акустического кодирования речи. А.В. Герасимов, В.Р. Фидельман. //

84. XXIV научные чтения имени академика Николая Васильевича Белова. Тезисы докладов, 2005.

85. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов. А.В.Герасимов, О.А.Морозов, В.Р.Фидельман. // Радиотехника и электроника, 2005. т.50. №8. с.1-5.

86. Применение информационного подхода к акустическому кодированию речевых сигналов. А.В. Герасимов, В.Р.Фидельман. //Электроника и информатика 2005. V-я Международная научно-техническая конференция: Материалы конференции, 2005.

87. Kauppinen I. Methods for detecting impulsive noise in speech and audio signals. // 4th International Conference on Digital Signal Processing, DSP 2002, vol.2, 2002, pp. 967-970.

88. Murhti M.N., Kleijn W.B. Regularized linear prediction all-pole models. In IEEE Workshop on Speech Coding Proceedings, Lake Lawn Resort, Delavan, Wisconsin, USA, Sept. 2000, pp.96-98.

89. Murhti M.N., Rao B.D. All-pole modeling of speech based on the minimum variance distortionless response spectrum. // IEEE Trans. Speech and Audio Processing, -vol.8, no.3, -2000. -pp.221-239.

90. Norden F., Eriksson T. Time evolution in LPC spectrum coding. // IEEE Transactions on Speech and Audio Coding. -2004. pp.290-301.

91. Selouani S., O'Shaugnessy D. Investigation into a mel subspace based front-end processing for robust speech recognition. IEEE-International symposium in signal processing and Information Technology, ISSPIT'04, Roma, -2004. -pp.187-190.

92. Tufts D., Kumaresan R. Singular value decomposition and improved frequency estimation using linear prediction. // IEEE Trans. Acoust. Speech Signal Process, -vol. ASSP-30, No. 4. -1982. -pp.671-675.

93. Алдошина И. Основы психоакустики. Тембр. 4.1. //Звукорежиссер. Информационно-технический журнал. №2. - 2001. - С.40-45.

94. Якобсон Р., Фант Г., Халле М. Введение в анализ речи. Различительные признаки и их корреляты // HJI. Вып. II. М., 1962.

95. Родионова, Г.Г., Трунин-Донской, В.Н. Акустические корреляты фонетических категорий русского языка. М.:ВЦ АН СССР, 1986. -32с.

96. Трахтеров A. JI. Английская фонетическая терминология. М.: Литературы на иностранных языках, 1962. -352с.

97. Трубецкой Н. С. Основы фонологии. М.: Аспект Пресс, 2000. -352с. ЮЬМандель И.Д. Кластерный анализ. М.:Финансы и статистика, 1988.176с.

98. Ю2.Хорн Р., Джонсон Ч. Матричный анализ. Пер с англ. М.: Мир, 1989. -655с.

99. ЮЗ.Кендалл М., Стюарт А. Многомерный статистический анализ ивременные ряды. -М.: Наука, 1976. 736с. Ю4.Кендалл М., Стюарт А. Статистические выводы и связи. - М.: Наука, 1973.-899с.

100. Noble В., Daniel J.W. Applied Linear Algebra. Prentice-Hall, Inc., Englewood Cliffs, 1977. - p.477.

101. ISIP automatic speech recognition system. http://www.isip.msstate.edu/projects/speech/software/asr/download/asr/index. html, Institute for Signal and Information Processing, Mississippi State University, Mississippi State, Mississippi, USA, May 2001.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00