автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка и исследование алгоритмов распознавания речи для голосового управления через телефонную сеть

кандидата технических наук
Кисельман, Бронеслав Арнольдович
город
Нижний Новгород
год
2001
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка и исследование алгоритмов распознавания речи для голосового управления через телефонную сеть»

Оглавление автор диссертации — кандидата технических наук Кисельман, Бронеслав Арнольдович

ВВЕДЕНИЕ

ГЛАВА 1 Обзор основных технологий и алгоритмов распознавания речи для голосового управления в телефонии.

1.1. Общая схема голосового управления через телефонную сеть. Основные ограничения и требования к системе распознавания и постановка задачи ее создания.

1.1.1. Основные ограничения и требования к системе распознавания речи.

1.1.2. Постановка задачи создания системы распознавания речи для голосового управления через телефонную сеть.

1.2. Анализ и сравнение основных технологий и алгоритмов распознавания речи.•.

1.2.1. Вычисление акустических признаков речевых сигналов

1.2.1.1. Расчет акустических признаков речевых сигналов на основе модели линейного предсказания.

1.2.1.2. Метод МРСС.

1.2.1.3. Технология РЬР.

1.2.1.4. Сравнение описанных алгоритмов расчета акустических признаков.

1.2.1.5. Технология вычисления акустических признаков на основе гамматонального фильтрбанка.

1.2.1.6. Дополнительная обработка акустических признаков.

1.2.2. Выделение границ слов.

1.2.3. Алгоритмы распознавания.

1.2.3.1. Динамическое программирование.

1.2.3.2. Скрытые марковские модели.

1.2.3.3. Использование нейронных сетей для автоматического распознавания речи.

1.3. Стратегия алгоритмического построения системы распознавания.

1.4. Выводы.

ГЛАВА 2 Базовые алгоритмы для распознавания малого набора изолированных слов.

2.1. Структурная схема системы автоматического распознавания малого набора изолированных слов.

2.2. Некоторые особенности слухового восприятия человека.

2.2.1. Строение слухового анализатора.

2.2.2. Основные моменты слухового восприятия.

2.3. Вычисление акустических признаков речевых сигналов.

2.3.1. Вычисление акустических признаков на основе БПФ.

2.3.1.1. Метод скользящего окна.

2.3.1.2. Блок-схема алгоритма.

2.3.1.3. Фильтрбанк.

2.3.1.4. Обработка временных траекторий выходов фильтрбанка.

2.3.1.5. Математическое описание вычисления набора АП

2.3.1.6. Пример расчета АП речевого сигнала на основе ВПГФБ.

2.3.1.7. Вычислительные затраты для расчета АП с помощью ВПГФБ.

2.3.2. Вычисление акустических признаков во временной области.

2.3.2.1. Синтез цифрового полюсного гамматонального фильтра.

2.3.2.2. Синтез компенсационного фильтра.

2.3.2.3. Каскадно-параллельный БИХ-фильтрбанк.

2.3.2.4. Необходимые вычислительные ресурсы.

2.3.3. Дополнительная обработка акустических признаков

2.4. Выделение границ слов.

2.4.1. Блок-схема алгоритма.

2.4.2. Динамическая оценка фона.

2.4.3. Разметка сигнала по его кратковременной энергии.

2.4.4. Использование некоторых спектральных признаков фонем.

2.4.5. Уточненная разметка сигнала.

2.5. Алгоритм распознавания.

2.5.1. Пакетное динамическое программирование.

2.5.2. Метод N лучших.

2.5.3. Необходимые вычислительные ресурсы.

2.6. Расчет вычислительных ресурсов, необходимых для работы системы распознавания в режиме реального времени.

2.7. Выводы.

ГЛАВА 3 Экспериментальные исследования системы распознавания.

3.1. Методика проведения экспериментов.

3.2. Выбор параметров.

3.2.1. Параметры вычисления акустических признаков.

3.2.2. Параметры выделения границ слов.

3.2.3. Параметры распознавания.

3.3. Распознавание в дикторозависимом режиме.

3.4. Распознавание в дикторонезависимом режиме.

3.5. Выводы.

ГЛАВА 4 Особенности реализации системы автоматического распознавания малого набора изолированных слов.

4.1. Программная реализация.

4.1.1. Вычисление БПФ.

4.1.2. Цифровая фильтрация во временной области.

4.1.2.1. КИХ-фильтрация.

4.1.2.2. БИХ-фильтрация.

4.1.3. Динамическое программирование.

4.1.4. Программы, реализующие алгоритмы распознавания

4.2. Реализация в виде модуля цифровой обработки.

4.3. Необходимые вычислительные ресурсы.

4.4. Выводы.

Введение 2001 год, диссертация по информатике, вычислительной технике и управлению, Кисельман, Бронеслав Арнольдович

Быстрое развитие коммуникационных систем и особенно телефонии поставило задачу создания максимально удобного и эффективного для пользователя интерфейса. Очевидно, что таким интерфейсом является речевой диалог. В настоящее время все больше компаний предоставляют возможности навигации по различным базам данных и заказа различных услуг посредством голосового управления.

Кроме улучшения интерфейса применение голосового управления в телефонии позволяет автоматизировать работу различных телефонных служб, делая ненужным наличие в них людей, выполняющих работу оператора.

Основа любой системы голосового управления - это система автоматического распознавания речи (АРР).

Система АРР почти полностью определяет качество работы системы голосового управления, которое прежде всего зависит от точности распознавания слов пользователя. Обычно системы голосового управления рассчитаны на использование малого словаря (~10 слов) и работу с изолированными словами (между соседними словами обязательно должна быть сделана пауза). Последние условия позволяют достичь определенного компромисса между удобством интерфейса и точностью распознавания, которой уделяется большее внимание.

Система АРР может работать в двух режимах: дикторозависимом и дикторонезависимом. В дикторозависимом режиме производится настройка системы на определенного диктора, и предполагается, что будут распознаваться слова, произнесенные только этим диктором. В дикторонезависимом режиме такая настройка не требуется, и система должна в идеале "понимать" любого диктора. Последний режим, очевидно, удобнее в использовании, но точность распознавания в нем всегда меньше, чем в первом.

Данная работа посвящена разработке эффективных (как с точки зрения вычислительных затрат, так и с точки зрения точности распознавания) алгоритмов для построения на их основе системы АРР с малым словарем, работающей как в дикторозависимом, так и в дикторонезависимом режимах с изолированными словами.

Актуальность работы

Типичный и злободневный пример необходимости голосового управления - голосовой набор телефонного номера. Эта задача особенно актуальна для мобильных систем связи. Одним из стимулов для обладания телефоном с такой функцией является и то, что во многих странах за пользование сотовым телефоном во время езды в автомобиле налагается весьма солидный штраф, так как отвлечение водителя на разговор и набор номера может привести к созданию аварийной ситуации.

В целом, уже несколько лет назад появилась тенденция выпускать программные и аппаратные продукты типа "Free Hands", обеспечивающие возможность голосового управления. Кроме очевидного удобства в использовании голосовое управление повышает производительность труда и снижает утомляемость пользователя, вызываемую графическим интерфейсом компьютеров (клавиатура - мышка - монитор). В качестве примера можно привести компьютерную программу распознавания голосовых команд Truffaldino, созданную специалистами Speech Technology Center. Она обеспечивает голосовое управление иерархическим меню, на каждом уровне которого есть от двух до восьми команд.

В настоящее время с определенностью можно сказать, что наличие функций голосового управления в том или ином устройстве становится своего рода стандартом, которому стремятся соответствовать в своей продукции все передовые производители.

Технологии автоматического распознавания речи появились весьма давно. Хорошо известны исторические работы Дэвиса, Биддульфа и Балашека (1952), Нагаты, Като и Чибы (1962), Зайцева и Тимофеева (1965), Кинга и Тьюниса (1966), Голда (1966), Величко и Загоруйко (1969) [17]. Особенно быстро развитие технологии распознавания речи получили после появления устройств цифровой обработки, выполненных в виде микросхем и позволивших создать относительно дешевые распознаватели, работавшие в режиме реального времени. По мере роста вычислительной мощности сначала специализированных акустических, а затем и цифровых сигнальных процессоров усложнялись и совершенствовались алгоритмы, использовавшиеся в системах APP. Однако, еще со времен транзисторных ЭВМ одной из актуальных задач оставалась оптимизация этих алгоритмов с точки зрения их вычислительной сложности.

В настоящее время вычислительная оптимизация существующих алгоритмов направлена на возможно более эффективное использование возможностей сигнальных процессоров и создание таким образом коммерчески наиболее выгодных систем АРР для голосового управления. Ведущие производители сотовых телефонов Ericsson, Motorola, Siemens, Philips, Samsung, Nokia продолжают работы по встраиванию систем АРР в программное обеспечение телефонных процессоров, что требует весьма изощренных реализаций известных и создания новых алгоритмов, обеспечивающих качественную работу системы АРР при ограниченных вычислительных ресурсах.

Цели и задачи исследования

Целью диссертационной работы является разработка алгоритмов эффективных по минимуму вычислительных затрат при заданном качестве распознавания для построения системы АРР, рассчитанной на работу с малым словарем и изолированными словами, как в дикторозависимом, так и в дикторонезависимом режимах. Для достижения этой цели необходимо решить следующие задачи:

- Провести обзор применяемых в настоящее время систем АРР для голосового управления. Систематизировать требования, предъявляющиеся к такой системе при реализации ее встроенным модулем цифровой обработки сигналов.

- Исследовать существующие алгоритмы распознавания речи, выявить их преимущества и недостатки.

- Разработать адекватный с точки зрения работы слухового анализатора человека алгоритм вычисления акустических признаков речевого сигнала, эффективно использующий вычислительные ресурсы сигнального процессора.

- Разработать эффективный алгоритм выделения границ изолированных слов.

- Разработать вычислительно эффективный алгоритм распознавания слов по наборам их акустических признаков на основе динамического программирования.

- На основе предложенных алгоритмов разработать систему автоматического распознавания малого набора изолированных слов и реализовать ее в программном (в виде приложения, работающего на ПК) и аппаратном (на DSP) видах.

- Провести экспериментальные исследования качества работы полученной системы АРР в дикторозависимом и дикторонезависимом режимах.

- Исследовать эффективность системы АРР с точки зрения необходимых для ее работы вычислительных ресурсов.

- Выработать рекомендации разработчикам систем АРР для голосового управления.

Научная новизна

1. Предложен и исследован эффективный (с точки зрения вычислительных ресурсов) алгоритм расчета акустических признаков речевого сигнала на основе его кратковременного спектра, получаемого с помощью метода скользящего окна и БПФ.

2. Предложен алгоритм расчета акустических признаков речевого сигнала во временной области, позволяющий эффективно использовать вычислительные возможности высокопроизводительных процессоров для ПК и DSP с плавающей точкой.

3. Предложен и исследован алгоритм выделения границ изолированных слов в речевом сигнале.

4. Предложен и исследован алгоритм распознавания изолированных слов путем сравнения наборов акустических признаков этих слов и слов-шаблонов на основе динамического программирования.

5. На основе предложенных алгоритмов построена и исследована система автоматического распознавания изолированных слов с малым словарем.

Практическая ценность

- Разработаны ориентированные на сигнальные процессоры алгоритмы вычисления акустических признаков речевого сигнала, выделения границ изолированных слов и распознавания последних, реализуемые в системах реального времени с ресурсом не более 10 MIPS.

- Разработаны компьютерные программы для моделирования работы системы АРР, ее отладки и оценки точности распознавания.

- Исследована точность распознавания изолированных слов со словарем из 10 слов в дикторозависимом и дикторонезависимом режимах.

- Система АРР, работающая в режиме реального времени, реализована на цифровом сигнальном процессоре TMS320C5402.

- Выработаны рекомендации разработчикам систем АРР для голосового управления через телефонную сеть.

Апробация и внедрение результатов работы Материалы диссертации докладывались на научно-технической конференции факультета радиоэлектроники и технической кибернетики Нижегородского государственного технического университета, посвященной 60-летию факультета (Н. Новгород, 1996); научно-технической конференции факультета информационных систем и технологий Нижегородского государственного технического университета (Н. Новгород, 1999); десятой Всероссийской научно-практической конференции по графическим информационным технологиям "КОГРАФ 2000" (Н. Новгород 2000); научно-технических семинарах кафедры "Теория цепей и телекоммуникаций" Нижегородского государственного технического университета и опубликованы в пяти работах.

Система автоматического распознавания изолированных слов реализована на основе модуля цифровой обработки с сигнальным процессором ТМ8320С5402 по заказу фирмы ТЕСОМ.

Содержание работы Диссертационная работа состоит из введения, четырех глав, заключения и двух приложений.

Заключение диссертация на тему "Разработка и исследование алгоритмов распознавания речи для голосового управления через телефонную сеть"

4.4. Выводы

В четвертой главе описываются программная (в виде приложения, работающего на ПК) и аппаратная (на основе цифрового сигнального процессора) реализации разработанной системы APP.

ЗАКЛЮЧЕНИЕ

Диссертационная работа посвящена проблеме разработки алгоритмов автоматического распознавания речи для голосового управления в телефонии, эффективных по критерию минимизации вычислительных ресурсов при заданной точности распознавания. Разработанные алгоритмы предназначены для реализации на цифровых сигнальных процессорах. Основные научные и практические результаты работы состоят в следующем:

1. Предложен и исследован эффективный (с точки зрения вычислительных ресурсов) алгоритм расчета акустических признаков речевого сигнала на основе его кратковременного спектра, получаемого с помощью метода скользящего окна и БПФ.

2. Предложен алгоритм расчета акустических признаков речевого сигнала во временной области, позволяющий эффективно использовать вычислительные возможности высокопроизводительных процессоров для ПК и DSP с плавающей точкой.

3. Предложен и исследован алгоритм выделения границ изолированных слов в речевом сигнале.

4. Предложен и исследован алгоритм распознавания изолированных слов путем сравнения наборов акустических признаков этих слов и слов-шаблонов на основе динамического программирования. Y

5. На основе предложенных алгоритмов построена и исследована система автоматического распознавания изолированных слов с малым словарем.

6. Разработаны ориентированные на сигнальные процессоры алгоритмы вычисления акустических признаков речевого сигнала, выделения границ и распознавания изолированных слов, реализуемые в системах реального времени с ресурсом не более 10 MIPS.

167

Необходимые вычислительные ресурсы: минимальная производительность DSP 3 MIPS, объем программного кода 3 К, объем встроенной памяти (для обеспечения обработки сигнала в режиме реального времени) 4 К, объем внешней памяти (для хранения акустических признаков слов-шаблонов) 7.5 К

7. Разработаны компьютерные программы для моделирования работы сис-. темы АРР, ее отладки и оценки точности распознавания.

8. Исследована точность распознавания изолированных слов со словарем из 10 слов в режимах с настройкой и без настройки на диктора. Точность распознавания при настройке на диктора составила 99.8 % при записи речевых сигналов через телефонный канал и 99.95% при записи через микрофон (21 набор слов одного диктора).

Точность распознавания без настройки на диктора 62 % (по одному набору слов от 5 женщин и 5 мужчин)

9. Система АРР, работающая в режиме реального времени, реализована на цифровом сигнальном процессоре TMS320C5402.

10. Выработаны рекомендации разработчикам систем АРР для голосового управления через телефонную сеть.

Библиография Кисельман, Бронеслав Арнольдович, диссертация по теме Теоретические основы информатики

1. Ахмед Н., Pao К. Р. Ортогональные преобразования при обработке цифровых сигналов. - М., Связь, 1980.

2. Беллман Р., Энджел Э. Динамическое программирование и уравнения в частных производных. М., Мир, 1974.

3. Гудонавичюс Р. В., Кемешис П. П., Читавичюс А. Б. Распознавание речевых сигналов по их структурным свойствам. Л., Энергия, 1977.

4. Зуев А. Б., Кисельман Б. А. Новые весовые функции, Вестник ВерхнеВолжского отделения Академии технологических наук РФ 2(4)/97.

5. Калверт Ч. Delphi 4. Самоучитель: Пер. с англ. / Под ред. А. П. Сергеева К., «ДиаСофт», 1999.

6. Кисельман Б. А. Алгоритм оценки фонового уровня энергетических траекторий дискретной речи. // Доклады научно-технической конференции КОГРАФ-2000. Н. Новгород, 2000.

7. Кисельман Б. А. Реализация цифрового полосового фильтра для каскад-но-параллельного фильтрбанка. // Доклады научно-технической конференции КОГРАФ-2000. Н. Новгород, 2000.

8. Ю.Лабунец В. Г. Алгебраическая теория сигналов и систем. Красноярск: Изд-во Краснояр. ун-та, 1984.

9. Ли У. А. Методы автоматического распознавания речи. М., Мир, 1983.

10. Михайлов В. Г., Златоустова Л. В. Измерение параметров речи. М., Радио и связь, 1987.

11. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов: Пер. с англ. / Под ред. Ю. Н. Александрова. М., Мир, 1978.

12. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов. -М., Радио и связь, 1981.

13. Ту Дж., Гонсалес Р. Принципы распознавания образов: Пер. с англ. / Под ред. Ю. Н. Журавлева. М., Мир, 1978.

14. Фаронов В. В. Delphi 4. Учебный курс. М., Нолидж, 1998.

15. Цемелъ Г. И. Опознавание речевых сигналов. М., Наука, 1971.

16. Altschuler R. A., Bobbin R. P., Hoffman D. W., eds, Neurobiology of Hearing: The Cochlea, Raven Press, New York, 1986.

17. Ashmore J. F. The cellular machinery of the cochlea. Exper. Physiol., 79: 113-134, 1994.

18. Bahl, L., Bakis, R., Cohen, P., Cole, A., Jelinek, F., Lewis, В., and Mercer, R. Speech Recognition of a Natural Text Read as Isolated Words. In Proc. IEEE International, 1981.

19. Batlle E., Fonollosa J. A. R., Determining CPU and Memory Requirements for Real-Time Speech Recognition Systems Using the TMS320C3x/4x. -ESIEE, Paris, 1996.

20. Bekesy G von Experiments in hearing. New-York: Mc Graw Hill, 1960.

21. Blomberg M. Towards production-oriented techniques for speech recognition. Royal Institute of Technology, Stockholm, 1994.

22. Blomberg, M., Carlson, R., Elenius, K. & Granstnum, B. Auditory models and isolated word recognition, Proc. of ICASSP '84, San Diego, Vol. 2, pp. 17.9.1-17.9.4.

23. Blomberg M., Elenius K. A device for automatic speech recognition. In Proceedings of the Nordic Acoustical Society, 1982, pp. 383-386.

24. Blomberg, ML, Elenius, K. Automatic time alignment of speech with a phonetic transcription, STL-QPSR 1/1985, KTH, Stockholm, pp. 37-45.

25. Blomberg, M., Elenius, K. Nonlinear frequency warp for speech recognition, Proceedings of the French-Swedish seminar on speech, Grenoble, France, April 22-24, 1985, pp. 435-443.

26. Blomberg M., Elenius K., Lundin F. Voice-controlled dialing in an intercom system. International Symposium on Human factors in Telecommunications, Helsinki, 1983, June, pp. 233-238.

27. Brown, P. The Acoustic-Modeling Problem in Automatic Speech Recognition. Carnegie Mellon University, 1987.

28. Charles R., Jankowsky J., Hoang-Doan H. V., Lippman R. P. A comparison of signal processing frontends for automatic word recognition. IEEE transaction on Speech and Audio Processing, 3: 296-293, 1995.

29. Chistovich L. A. Central auditory processing of peripheral vowel spectra. J. Acoust. Soc. Am., pp. 789 - 805.

30. Ghitza, O. Auditory Nerve Representations as a Basis for Speech Processing, Advances in Speech Processing (Eds. S. Furui, M. Sondhi), Marcel Dekker, NY, 453-485, 1991.

31. Dallos P. The active cochlea. J Neurosci. 1992 Dec; 12(12):4575-85.

32. Dallos, P., Popper, A.N., Fay, R.R. The cochlea. Springer Handbook of Auditory Research Vol. 8, 1996, Springer Verlag, New York.

33. Darling, A. M. Properties and Implementation of the GammaTone Filter: A Tutorial, in Speech Hearing and Language (UCL Work in Progress), 5, 4361, University College London, Department of Phonetics and Linguistics, 1991.

34. Deller J. R., Jr, Hansen J. H. L., Proakis J. G. Discrete-Time Processing of Speech Signals. IEEE Press, USA, 2000.

35. Dillon, H. and Walker, G. Compression in Hearing Aids: An Analysis, a Review, and Some Recommendations. NAL Report No. 90. Australian Government Publishing Service, Canberra, 1982.

36. Furui, S. On the role of spectral transition for speech perception, J.

37. Acoust. Soc. Am. 80, 1016-1025, 1986.

38. Furui S. Speaker-Independent Isolated Word Recognition Using Dynamic Features of the Speech Spectrum, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 34, no. 1, pp. 52-59, Feb. 1986.

39. Glasberg, B. R., Moore, B. C. J., Patterson, R. D., Nimmo-Smith, I. Dynamic range and asymmetry of the auditory filter, J. Acoust. Soc. Am. 76, 419-427,1984.

40. Greenberg S. The ear as a speech analyzer, Journal of Phonetics, vol. 16, pp. 139-146, 1988.

41. Greenberg S. The ears have it: the auditory basis jf speech perception. -Department of Linguistics International Computer Science Institute University of California, Berkeley, CA 94720 USA.

42. Greenberg S. Understanding Speech Understanding: Towards a Unified Theory of Speech Perception. Department of Linguistics International Computer Science Institute University of California, Berkeley, CA 94720 USA.

43. Hanson B. A., Applebaum T.H. Robust Speaker-Independent Word Recognition Using Static, Dynamic and Acceleration Features: Experiments with Lombard and Noisy Speech," in ICASSP, pp. 857-860, 1990.

44. Hassenein, H., Rudko M. On the Use of Discrete Cosine Transform in Cepstral Analysis, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, no. 4, pp. 922-923, Aug. 1994.

45. Hermansky H. Exploring temporal domain for robustness in speech recognition. In proceedings the 15th International Congress on Acoustic, Trondhelm, Norway, 1995.

46. Hermansky H. Perceptual linear predictive (PLP) analysis for speech. J. Acoust. Soc. Am., pp. 1738 - 1752, 1990.

47. Hermansky H., Junqua J. C. Optimization of perceptually based ASR frontend, in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing 88, paper S5.10, pp. 219-222.

48. Hermansky H., Morgan N., RASTA processing of speech. IEEE Transactions on Speech and Audio Processing, 2(4): 578-589, Oct. 1994.

49. Hermansky, H., Morgan, N., Aruna, B., Kohn, P. RASTA-PLP speech analysis technique, Proceedings, 1992 IEEE ICASSP, San Fransisco, 121-124.

50. Hermansky H., Morgan N., Hirsch H. Recognition of speech in additive and convolutional noise based on RASTA spectral processing", Proc ICASSP, vol. 2, pp 83-85, 1993.

51. Hudspeth A. J. How the ear's works work. Nature. 1989 Oct 5;341(6241):397-404.

52. Irino T., Unoki, M. An analysis/synthesis auditory filterbank based on an IIR implementation of the gammachirp. ATR Human Information Processing Research Labs, Japan Advanced Institute of Science and Technology, 1999.

53. Jahn A. F., Santos-Sacchi, J. eds, Cochlear physiology. , Raven Press, New York, 1988.

54. Johnstone, B., Patuzzi, R., and Yates, G. K. Basilar membrane measurements and the travelling wave, Hearing Res., 1986, 22, 147-153.

55. Kates, J. An Adaptive Digital Cochlear Model, Proceedings, 1991 IEEE ICASSP, Toronto, 3621-3624.

56. Kobzyashi, T., Imai S. Spectral Analysis Using Generalized Cepstrum, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, no. 6, pp. 1235-1237, Dec. 1984.

57. Lamel L. F., Rabiner L. R., Rosenberg A. E. An improved endpoint detector for isolated word recognition. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, Atlanta, Ga., vol. 29, pp. 777-785, 1981.

58. Lee, K. F., Hon, H. W., and Huang, X. Speech recognition using Hidden Markov Models: a CMU perspective, Speech Communication, 1991, 9, 497508.

59. Lim D. J. Functional structure of the organ of Corti: a review. Hearing Research 22, 117-146, 1986.

60. Lyon R. F. (1982). A Computational Model of Filtering, Detection, and Compression in the Cochlea, Proceedings, 1982 IEEE ICASSP, Paris, 12821285.

61. Lyon R. F. Automatic Gain Control in Cochlear Mechanics, The Mechanics and Biophysics of Hearing, P. Dallos et al. (eds.), 395-401, Springer-Verlag, 1990.

62. Lyon R. F. The All-Pole Gammatone Filter and Auditory Models. Apple» Computer Inc., 1996.

63. Lyon R. F., Mead C. An Analog Electronic Cochlea, 1988 IEEE Trans. On Acoust., Speech, and Sig. Proc., 36, 1 119-1133.

64. Mahalanobis P. C., On the generalized distance in statistics, Proceedings of the National Institute of Science (India), vol. 12, pp. 49-55, 1936.

65. Moore B. C. J. Psychophysical tuning curves measured in simultaneous and forward masking, J. Acoust. Soc. Am. 63, 524-532, 1978.

66. Moore B. C. J., and Glasberg, B. R. Growth of forward masking for sinusoidal and noise maskers as a function of signal delay; implications for suppression in noise, J. Acoust. Soc. Am. 73, 1249-1259, 1983.

67. Moore B. C. J., Glasberg, B. R., and Roberts, B. Refining the measurement of psychophysical tuning curves, J. Acoust. Soc. Am. 76, 1057-1066, 1984.

68. Myers C. S., Rabiner L. R., Rosenberg A. E. Perfomance tradeoffs in dynamic time warping algorithms for isolated word recognition, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 28, pp. 622-635, Dec. 1980.

69. Nagata K., Kato Y., Chiba S. Spoken digit recognizer for the Japanese language, Proceedings of the 4th International Conference on Acoustics, 1962.

70. Netter F. H. Nervous system, part I: anatomy and physiology. Ciba collection of medical illustration. Ciba, West Caldwell, NJ, 1986.

71. Patterson R., Anderson, T., Allerhand, M. The Auditory Image Model as a Preprocessor for Spoken Language, Proceedings Acoust. Soc. of Japan ICSLP, 1395-1398, 1994.

72. Pickles J. O. Recent advances in cochlear physiology. Prog Neurobiol. 1985;24(1): 1-42.

73. Picone J. Fundamentals of speech recognition: a short course. Institute for Signal and Information Processing, Department of Electrical and Computer Engineering. Mississippi State University, 1996.

74. Picone J. Signal Modeling Techniques in Speech Recognition, Proceedings of the IEEE, vol. 81, no. 9, pp. 1215-1246, Sept. 1993.

75. Rawate B. I., Robinson P. D., Implementation of an HMM-Based, Speaker-Independent Speech Recognition System on the TMS320C2x and ,TMS320C5x. Speech and Image Understanding Laboratory Computer Sciences Center Texas Instruments Incorporated, 1996.

76. Rabiner L. R. On the use of autocorrelation analysis for pitch detection, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 26, pp. 24-33, Feb. 1977.

77. Rabiner L. R. On creating reference templates for speaker independent recognition of isolated words, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 26, pp. 34-42, Feb. 1978.

78. Rabiner L. R., Levinson S. E. Isolated and connected word recognition: Theory and selected applications, IEEE Transactions on Communications, vol. 29, pp. 621-6593, May 1981.

79. Rabiner L. R., Levinson S. E., Sondhi M. M. On the application of vector quantization and hidden Markov models to speaker-independent isolated word recognition, Bell System Technical Journal, vol. 62, pp. 1075-1105, 1983.

80. Rabiner L. R., Rosenberg A. E., Levinson S. E. Considerations in dynamic time warping algorithms for discrete utterance recognition, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 26, pp. 575-582, Dec. 1978.

81. Rabiner L. R., Sambur M. R. An algorithm for determining the endpoints of isolated utterances, Bell System Technical Journal, vol. 54, pp. 297-315, 1975.

82. Robinson A. J. Speech Analysis, lecture course. 1998.

83. Sakoe H. Two-level DP matching: A dynamic programming based pattern recognition algorithm for connected word recognition, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 27, pp. 588-595, Dec. 1979.

84. Sakoe H., Chiba S, Dynamic programming algorithm optimization for spoken word recognition, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 26, pp. 43-49, Feb. 1978.

85. Santos Sacchi J. Cochlear physiology. In: Physiology of the Ear, A.F. Jahn and J. Santos-Sacchi, eds, Raven Press, New York, pp. 271-293, 1988.

86. Slaney M. An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank. Apple Computer Technical Report #35, Perception Group Advanced Technology Group © 1993, Apple Computer, Inc.

87. Slaney M., Auditory Toolbox: A MÂTLAB toolbox for auditory modeling work, Apple Technical Report #45, 1994.

88. Slaney M. Lyon's Cochlear Model. Apple Computer Technical Report #13, Perception Group Advanced Technology Group © 1988, Apple Computer, Inc.

89. Smith S. W. Digital signal processing. California Technical Publishing San Diego, California, 1999.

90. Spoendlin H. Anatomy of cochlear innervation. Am. J. Otolaryngol. 6, 453467,1985.

91. Strope B. P. A Model of dynamic auditory perception and its application to robust speech recognition. University of California, Los Angeles, 1995.

92. Strope B. P., A Model of Dynamic Auditory Perception and its Application to Robust Speech Recognition. University of California, Los Angeles, 1995.

93. Swee L. H., Implementing Speech-Recognition Algorithms on the TMS320C2xx Platform. Texas Instruments Singapore (P&E) Ltd., 1998.

94. Tebelskis J., Speech Recognition using Neural Networks, School of Computer Science, Carnegie Mellon University, 1995.

95. Tohkura, A Weighted Cepstral Distance Measure For Speech Recognition, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 35, no. 10, pp. 1414-1422, Oct. 1987.

96. Zwicker, E., Flottorp, G., and Stevens, S. Critical Band Width in Loudness Summation, J. Acoust. Soc. Am. 29, 548-557, 1957.

97. Zwicker, E. On a psychoacoustical equivalent of tuning curves, Facts and

98. Models in Hearing (Eds. Zwicker, E., Terhardt, E.), Springer, Berlin, 132141, 1974.

99. Zwicker, E. and Schorn, K. Psychoacoustical tuning curves in audiology, Audiology 17, 120-140, 1978.

100. Zwicker, E., Terhardt, E. Analytical expressions for critical-band rate and critical bandwidth as a function of frequency, J. Acoust. Soc. Am. 68, 15231525, 1980.