Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных

Ронжин, Андрей Леонидович

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных

кандидата технических наук: Ронжин, Андрей Леонидович
город: Санкт-Петербург
год: 2003
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных»

Оглавление автор диссертации — кандидата технических наук Ронжин, Андрей Леонидович

Введение.

Положения, выносимые на защиту.

Глава 1. Анализ состояния проблемы автоматического понимания слитной речи.

1.1. Основные проблемы речевого диалога.

Проблема адаптивности системы (к пользователю, окружающей среде, предметной области).

Проблема слитной речи.

Проблемаробастности процесса понимания речи. Последовательная и интегральная модели обработки данных.

1.2. Методы компенсации разнообразия голосов и акустической обстановки

1.3. Основные методы, используемые при распознавании слитной речи.

1.4. Подходы к робастному пониманию речи.

Выводы по главе 1.

Глава 2. Интегральная модель адаптации.

2.1. Интегральная обработка данных в базовой модели понимания речи.

2.2. Интегральный подход к проблеме адаптации.

2.3. Алгоритм интегральной адаптации в модели речевого управления.

2.4. Метод аллофонной адаптации модели к новому голосу и акустической обстановке.

Выводы по главе 2.

Глава 3. Робастное распознавание слитной речи. Модификация базовой модели понимания речи.

3.1. Параметрическое представление речевого сигнала.

3.2. Робастный метод распознавания слитной речи.

Выявление гипотез слов с помощью скользящего ДП-анализа.

Оценка гипотез фраз по акустическим и временным характеристикам.

3.3. Тестирование и оптимизация алгоритма распознавания слитной речи

3.4. Обеспечение адаптивности, робастности и слитного ввода речи в базовой модели понимания.

Выводы по главе 3.

Глава 4. Практическое использование разработанных в диссертации алгоритмов.

4.1. Электронные словари Language Teacher Partner. Функции голосового перевода и коррекции произношения.

4.2. Система голосового управления роботом с использованием сети Интернет.

4.3. Модель голосового управления подвижным объектом.

Описание модели.

Описание диалогового окна модели.

Настройка аудио канала.

Ввод эталонов синтагм.

Режим распознавания синтагм.

Понимание фраз в стандартном режиме.

Режим тестирования модели понимания без микрофона.

Модуль создания и корректировки ситуативной базы данных.

Выводы по главе 4.

Введение 2003 год, диссертация по информатике, вычислительной технике и управлению, Ронжин, Андрей Леонидович

Некоторые определения. В данной, быстроразвивающейся области, используются некоторые термины, заимствованные из смежных областей знаний. Поэтому во избежание недоразумений здесь целесообразно привести некоторые определения.

Пониманием речи называют представление смысла, передаваемого речевым сигналом, в некоторой канонической форме, непосредственно пригодной для вызова действий в автоматической системе, угодных говорящему человеку [3].

Система распознавания речи считается робастной, если она способна противостоять неблагоприятным, но возможным входным акустико-фонетическим отклонениям.

Система понимания речи считается робастной, если она способна противостоять вышеназванным акустическим отклонениям, а также разнообразным грамматическим неточностям входного сообщения.

Актуальность темы диссертации. С развитием современных речевых технологий появляется принципиальная возможность перехода от формальных языков-посредников между человеком и машиной к естественному языку в устной форме, как универсальному средству выражения целей и желаний человека. Речевая форма диалога обладает рядом преимуществ таких, как естественность, оперативность, точность ввода, освобождение рук и зрения пользователя, возможность управления и обработки в экстремальных условиях.

Основные трудности, которые препятствуют внедрению речевых технологий в многочисленные сферы деятельности и быта человека, это недостаточная робастность алгоритмов распознавания и понимания речи к различным возможным искажениям сигнала на входе системы и собственным ошибкам обработки, а также низкая точность традиционных моделей понимания речи. Оба этих недостатка объясняются несовершенством существующих подходов к взаимной обработке разнородной информации, в которых до сих пор преобладают последовательные методы. Более перспективными представляются интегральные подходы [14,30].

Кроме того, использование речевых технологий значительно сдерживается из-за нерешенности проблемы адаптации систем к различным аспектам применения. Наибольшую сложность представляет адаптация к голосу. Система может хорошо понимать голос своего создателя и неудовлетворительно - другие голоса. Не менее важна адаптация к предметной области и лексико-семантическим особенностям прикладной задачи.

Современное развитие речевых технологий позволяет переходить от распознавания изолированных слов к распознаванию слитной речи. Это, как известно, делает диалог более естественным, и характеризуется большей скоростью передачи информации.

На сегодняшний день подходы к распознаванию слитной речи основаны на методах генерации гипотез фраз путем формирования составных эталонов/моделей слов [7,10,96]. Однако это в общем случае приводит к неприемлемому усложнению модели распознавания. Поэтому здесь стали использовать синтаксические или стохастические ограничения в ходе генерации гипотетических фраз, чтобы существенно уменьшить число обрабатываемых гипотез [7,15,40,47,94,100]. Но с другой стороны, такие модели могут распознавать только идеально построенные фразы, т.е. фразы с частичными неточностями отвергаются уже на уровне распознавания цепочек слов и, следовательно, невозможно осуществление дальнейшего робастного понимания. Таким образом, проблема состоит в том, чтобы отказаться от каких-либо синтаксических ограничений в процессе распознавания слов и при этом избежать непомерного роста сложности, свойственного моделям генерации.

Преодолению вышеуказанных недостатков и посвящена данная работа.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка адаптивной модели робастного понимания слитной речи, обеспечивающей интегральную адаптацию к особенностям диктора и предметной области, а также устойчивое понимание фраз слитной речи с возможными семантико-синтаксическими отклонениями. Для достижения поставленной цели в диссертационной работе поставлены и решены следующие задачи:

1. Анализ основных направлений распознавания слитной речи, методов адаптации к акустическим факторам и высокоуровневой информации, методов повышения робастности автоматического понимания речи;

2. Разработка метода адаптации к голосу диктора и акустической обстановке на основе замещения участков речи;

3. Построение модели распознавания слитной речи, робастной к семантико-синтаксическим отклонениям;

4. Разработка интегральной модели адаптации за счет взаимосогласованной работы разнородных баз данных;

5. Модификация базовой модели интегрального понимания речи с целью возможности слитного ввода речи и интегральной адаптации.

Методы исследования. Для решения поставленных задач в работе используются методы теории информации, методы динамического программирования, психоакустики, теория нечетких множеств, методы спектрального, автокорреляционного анализа речи и техника векторного квантования.

Научная новизна. Научная новизна работы состоит в следующем:

1. Предложен метод адаптации к голосу диктора и акустической обстановке на основе замещения участков речи, соответствующих аллофонам.

2. Разработан алгоритм распознавания слитной речи, робастный к семантико-синтаксическим отклонениям.

3. Разработан модуль интегральной адаптации, который осуществляет взаимосогласованную, оперативную корректировку всех баз данных модели понимания и позволяет оперативно настроить параметры системы на конкретную прикладную задачу.

4. На основе разработанных принципов была проведена модификация базовой модели интегрального понимания, в результате создана адаптивная модель понимания слитной речи.

Обоснованность научных положений и выводов обеспечена за счет анализа состояния исследований в данной области, на основании использования гипотез, свойственных живому прототипу, таких как интегральная обработка информации, ассоциативные и сквозные процессы, а также экспериментальной проверкой на модели.

Практическая ценность работы. Алгоритмы и модели, разработанные в данной работе, направлены на повышение точности и преодоление основных неблагоприятных факторов, возникающих в условиях реального применения, чтобы обеспечить необходимую точность и робастность системы понимания речи.

Предложенная процедура адаптации к голосу пользователя и акустической обстановке, позволяет за короткое время оптимизировать акустические параметры системы так, чтобы более точно распознавать речевые сообщения конкретного пользователя в конкретной акустической среде.

Автоматизированная настройка параметров системы понимания речи, предложенная в ходе работы над диссертацией, позволяет легко настроить систему на работу в конкретной предметной области в отношении акустики, лексики, логики задачи и т.д. Это делает систему гибкой по отношению к изменениям исходных данных, которые неизбежны на стадии экспериментальной отработки новой системы (комплекса), а также к смене всей задачи.

Робастность к семантико-синтаксическим отклонениям разработанного алгоритма распознавания слитной речи повышает его ценность в системах понимания естественного языка. Система становится более дружественной, и человек, который непроизвольно совершает отступления от синтаксически жестких фраз, может перейти к более естественному диалогу и работать в условиях более высокого комфорта.

Разработанная модель адаптивной системы автоматического понимания слитной речи может быть использована в различных информационных системах, как основа для создания речевого интерфейса, с помощью которого становится возможным общение пользователя с машиной на естественном языке.

Реализация результатов работы. Разработанные речевые технологии были реализованы в промышленно выпускаемых электронных словарях Language Teacher Partner американской фирмы Ectaco. В частности, раздел «коррекции произношения», а также функция голосового перевода с русского языка на английский в модели 5 86ER v6.

В рамках проекта «Голосовое управление роботом», выполняемого совместно с Мексиканским Университетом Universidad Nacional Autonoma de Mexico (UNAM), была создана реальная модель голосового управления роботом через сеть Интернет на основе алгоритмов робастного понимания речи.

По проекту МНТЦ №1993Р задача 4 создана модель голосового управления летательным объектом, а также разработанных методов, в том числе метода распознавания слитной речи, робастного к семантико-синтаксическим отклонениям.

Исследования, отраженные в диссертации, поддержаны грантом СПбНЦ «Разработка методов автоматического перевода устной речи» в рамках программы на 2002 год, раздел «Комплексные междисциплинарные проекты», выполняемого совместно с Российским государственным педагогическим университетом им. А.И. Герцена, а также грантом ФЦП «Интеграция»: Образовательно-исследовательский центр языка и речи, № 326.81.

Апробация результатов работы. Основные положения и результаты диссертационной работы представлялись на Международных семинарах «Речь и Компьютер» SPECOM (Санкт-Петербург 2000, Москва 2001, Санкт-Петербург 2002), VII международной конференции «Региональная информатика РИ-2000» (Санкт-Петербург 2000), III международной научно-практической конференции «Искусственный Интеллект - 2002» (Кацивели,

Крым, Украина, 2002).

Публикации. Основные результаты по материалам диссертационной работы опубликованы в 6 печатных работах.

Структура и объем работы. Диссертация объемом 122 машинописных страницы, содержит введение, четыре главы и заключение, список литературы (111 наименований), 17 таблиц, 35 рисунков.

Заключение диссертация на тему "Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных"

Выводы по главе 4

Разработанные в диссертации методы позволили осуществить несколько успешных приложений:

1. В промышленно выпускаемых электронных словарях Language Teacher Partner на основе разработанных технологий распознавания речи были созданы раздел коррекции произношения английского языка, а также возможность голосового перевода типовых фраз с русского языка на английский.

2. В рамках проекта «Голосовое управление роботом», выполняемого совместно с мексиканским университетом Universidad Nacional Autonoma de Mexico, была создана реальная модель голосового управления роботом через сеть Интернет на основе алгоритмов робастного понимания речи.

3. По проекту МНТЦ №1993Р, задача 4 создана модель голосового управления летательным объектом, на основе разработанных алгоритмов робастного понимания речи. Представленная ДЕМО-версия модели может быть легко адаптирована к новому объекту голосового управления с помощью модуля интегральной адаптации.

Заключение

На данный момент управление компьютерами осуществляется на основе клавиатуры, мышки и иерархического доступа к информации на основе меню. Этот путь в принципе противоречит природе человека. Поэтому речевые интеллектуальные системы позволят поднять диалог человека с машиной на новую ступень.

В данной диссертационной работе предложены решения важных проблем речевого диалога, таких как обеспечение робастности распознавания/понимания речи, адаптивности к условиям функционирования и естественности формы взаимодействия.

Разработан алгоритм интегральной адаптации «сквозного понимания» речи, позволяющий настроить параметры системы на всех уровнях обработки речевого сообщения. Автоматизированная настройка параметров системы понимания речи позволяет легко настроить систему к предметной области, т.е. к системе ситуаций и особенностям фразеологии. Как важный компонент адаптации предложен метод аллофонной адаптации к голосу диктора и акустической обстановке на основе замещения соответствующих участков речи. Это позволяет за короткое время оптимизировать акустические параметры системы так, чтобы более точно распознавать речевые сообщения конкретного пользователя в конкретной акустической среде.

Естественность взаимодействия обеспечивается разработанным алгоритмом распознавания слитной речи, в которой возможны семантико-синтаксические отклонения.

Робастность понимания обеспечивается за счет двух компонентов: интегральная обработка данных и распознавание слитной речи без синтаксических ограничений.

На основе разработанных принципов была проведена модификация базовой модели интегрального понимания, в результате чего создана адаптивная модель понимания слитной речи. Модель может быть использована в различных речевых человеко-машинных системах, как основа для создания перспективных информационных систем.

Библиография Ронжин, Андрей Леонидович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Беллман Р. Динамическое программирование. — М.: ИЛ, 1960. - 400 с.

2. Винцюк Т. К. Распознавание слов устной речи методами динамического программирования. М.: Кибернетика, 1968. - №1. - С. 15-22.

3. Винцюк Т.К. Куляс А.И. Универсальная программа анализа речи в реальном масштабе времени //10 Всесоюзный семинар «Автоматическое распознавание слуховых образов»: Тез. докл. Тбилиси, 1978.

4. Винцюк Т.К. Два основных пути создания систем распознавания и смысловой интерпретации слитной речи // 11 Всесоюзный семинар «Автоматическое распознавание слуховых образов»: Тез. докл. Ереван, 1980.-С. 221-225.

5. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. — Киев: Наук, думка, 1987. 264 с.

6. Голд Б. Рэйдер Ч. Цифровая обработка сигналов. Пер. с англ. -М.: Советское радио, 1973. 368 с.

7. Джелинек Ф. Распознавание непрерывной речи статистическими методами // ТИИЭР. 1976. - Т. 64. - № 4. - С. 131-160.

8. Дрейфус X. Чего не могут вычислительные машины. Пер. с англ. -М.: Прогресс, 1978. 336 с.

9. Ершов А.П. К методологии построения диалоговых систем: феномен деловой прозы // Вопросы кибернетики: Общение с ЭВМ на естественном языке. -М.: Наука, 1982. Вып. 80. - С. 3-20.

10. Като Я. Система распознавания связной речи фирмы NEC // Зарубежная радиоэлектроника. 1980, № 4. С. 108-120.

11. Кельманов А.В. О некоторых проблемах построения систем распознавания инвариантных к диктору // 15 Всесоюзный семинар «Автоматическое распознавание слуховых образов»: Тез. докл. Таллинн, 1989.-С. 103-104.

12. Классификация и кластер / Под ред. Райзина Дж.В. М.: Мир, 1980 -389 с.

13. Косарев Ю.А. Естественная форма диалога с ЭВМ. -JL: Машиностроение, 1989. 143 с.

14. Косарев Ю.А., Ли И.В., Ронжин A.JL, Savage J. Методы понимания речи и текста. Труды СПИИРАН/Под ред. P.M. Юсупова вып. 1, Т. 2 -СПб.: «Анатолия», 2002. С. 157-195.

15. Левинсон С.Е. Структурные методы автоматического распознавания речи. // ТИЭР. 1985. - Т. 73.-№ 11.- С. 100-129.

16. Линдсей П., Норман Д. Переработка информации у человека: Пер. с англ. -М.: Мир, 1974.-550 с.

17. Макхоул Дж., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИЭР. 1985. - Т. 73. -№11. - С. 19-61.

18. Маркел Д.Д., Грей А.Х. Линейное предсказание речи: Пер. с англ. -М.: Связь, 1980.-308 с.

19. Методы автоматического распознавания речи: в 2-х кн. / Под ред. У. Ли. -М.: Мир, 1983.-716 с.

20. Мясников Л.Л. Объективное распознавание звуков речи // ЖТФ. 1943. -№ 3. - С. 109-115.

21. Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных измерений: ГОСТ 1660072. М.: Изд-во стандартов, 1973. - 90 с.

22. Пиотровский Р.Г. Текст, машина, человек. Л.: Наука, 1975. - 327 с.

23. Покровский Н.Б. Расчет и измерение разборчивости речи. М.: Связь, 1962.-391 с.

24. Рабинер Л., Гоулд Б. Теория и применение цифровой обработки сигналов. — М.: Мир, 1978.

25. Рабинер Л., Шафер Р. Цифровая обработка речевых сигналов. М.: Радио и связь, 1987.

26. Рабинер Л. СММ и их применение в избранных приложениях при распознавании речи: Обзор // ТИИЭР. 1989. - Т. 77. - №2. - С. 86-120.

27. Распознавание слуховых образов. / Под ред. Загоруйко Н.Г. -Новосибирск: «Наука», 1970. 340 с.

28. Ронжин А., Косарев Ю., Ли И., Карпов А. Метод распознавания слитной речи на основе анализа сигнала в скользящем окне и теории размытых множеств. // Научно-теоретический журнал «Искусственный интеллект» -Украина, Донецк, 2002. №4. С. 256-263.

29. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат,1963.-452 с.

30. Селфридж М. Интегральная обработка обеспечивает надежное понимание. // Новое в зарубежной лингвистике. Вып. 24: Пер. с англ. -М.: Прогресс, 1989.-С. 161-208.

31. Скороходько Э. Ф. Семантические сети и автоматическая обработка текста. Киев, 1983. - 112 с.

32. Сорокин В.Н. Теория речеобразования. М.: Радио и связь, 1985.

33. Трунин-Донской В.Н. Опознавание набора слов с помощью цифровой вычислительной машины. // Работы по технической кибернетике. -М.: ВЦ АН СССР, 1967. С. 37-51.

34. Ту Дж., Гонсалес Р. Принципы распознавания образов: Пер. с англ. -М.: Мир, 1978.-416 с.

35. Уоссерман Ф. Нейрокомпьютерная техника. Теория и практика: Пер. с англ. -М.: Мир, 1992.

36. Ушакова Т.Н. Проблема внутренней речи в психологии и психофизиологии // Психологические и психофизиологические исследования речи. М.: Наука, 1985. - С. 13-26.

37. Фант. Г. Акустическая теория речеобразования. Пер. с англ. М.: Наука,1964.-284 с.

38. Шалютин С.М. Искусственный интеллект: гносеологический аспект. -М.: Мысль, 1985.- 199 с.

39. Шенк Р., Бирнбаум JL, Мей Дж. К интеграции семантики и прагматики. // Новое в зарубежной лингвистике. Вып. 24: Пер. с англ. М.: Прогресс, 1989.-С. 32-47.

40. Akinori I., Chiori H., Masaharu K., Masaki K. Language Modeling by Stochastic Dependency Grammar for Japanese Speech Recognition.- In Proceedings of ICSLP'2000, Beijing, China, 2000. pp. 441-444.

41. Allen J., Miller В., Ringger E., Sikorski T. Robust Understanding in a Dialogue System. Proc. ACL, 1996.

42. Ball G., Hall D. ISODATA, A Novel Method of Data Analysis and Patten Classification. (AD 699616) California, Stanford Research Institute, 1965.

43. Bellegarda J., Silverman K. Toward Unconstrained Command and Control: Data-Driven Semantic Interface. In Proceedings of ICSLP'2000, Beijing, China, 2000. - pp. 576-579.

44. Bladon R.A. Problem of normalizing the spectral effects of variations in the fundamental. In Proceedings of the Institute of Acoustics Autumn Conference, 1982.

45. Bocchieri E. and Doddington G. Frame Specific Statistical Features for Speaker-Independent Speech Recognition. In Proc. ICASSP, 1986.

46. Bonneau-Maynard H., DevillersL. A Framework for Evaluating Contextual Understanding. In Proceedings of ICSLP'2000, Beijing, China, 2000. -pp. 1734-1737.

47. Carpenter В., LernerS., PieraccinR. Optimizing BNF Grammars through Source Transformations. In Proceedings of ICSLP'2000, Beijing, China, 2000.-pp. 1218-1221.

48. Chien J. On-line Hierarchical Transformation of Hidden Markov Models for Speaker Adaptation. Proc. 1998 ICSLP.

49. Chomsky N. On certain formal properties of grammars. Inform. Control 2, 1959.

50. Cohen M., Franco H., Morgan N., Rumbelhart D., Abrash V. Hybrid neural network/Hidden Markov Model continuous speech recognition. Proc. ICSLP, 1992.

51. DanejkoM. Maschkina L., Nechaj O., SorkinaW., SaharandaA. Statiatische Untersuchung der lexikalischen Distribution der Wortformen. In Sprachstatistik. Mit zahlreichen Skizzen, Tabellen und Schemata im Text.

52. Uebersetzt von einem Kollektiv unter Leitung von Lothar Hoffman. Wilhelm Fink, Muenchen/Salzburg, 1973.

53. Davis S., Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. — In Proceedings of ASSP'28, 1980.

54. Deese J. On the structure of associative meaning. In Psychological review, 1962.-Vol. 69, No. 2.-pp. 161-175.

55. Fillmore Ch. The Case for case. In Bach, Harms. Universals in Linguistic Theory. New York, 1968.

56. Furui S. and Matsui T. Model-based unsupervised instantaneous speaker adaptation. Proc. Acoustical Society of America 132nd meeting Hawaii, December 1996.

57. Gorski N. Practical Combination of Multiple Classifiers, Proc. of Int. Workshop on Frontiers in Handwriting Recognition 5, Univ. of Essex, England, 1996.-pp. 277-284.

58. Handbook of Human-Computer Interaction, (ed. by J. Jacko & A. Sears), Lawrence Erlbaum: New Jersey, 2002.

59. Hermansky H., Morgan N. RASTA Processing of Speech. IEEE Transactions on Speech and Audio Processing, Vol. 2, No. 4, October 1994. pp. 578-589.

60. Homma S., Takahashi J. and Sagayama S. Iterative Unsupervised Speaker Adaptation for Batch Dictation. Proc. 1996ICSLP.

61. Homma S., Aikawa K., Sagayama S. Improved Estimation of Supervision in Unsupervised Speaker Adaptation Proc. 1997 ICASP.

62. Howes D. On the relation between the probability of a word as an association and in general verbal usage. In Journal of Abnormal and Social Psychology, 1957.-Vol. 54,No. 1.

63. Huang Y., Zheng F., Xu M., Yan P., Wu W. Language Understanding Component for Chinese Dialogue System. In Proceedings of ICSLP'2000, Beijing, China, 2000. - pp. 858-862.

64. Ishii J. Speaker Normalization and Adaptation Based on Linear Transformation. ICASSP'97, Vol. 2, 1997-pp. 1055-1058.

65. JelinekF. A fast sequential decoding algorithm using stack. IBM J. Res. Develop., 1969. - No. 13. - pp. 675-685.

66. JelinekF. The Development of an Experimental of Discrete Dictation Recognizer. In Proceedings of IEEE, No. 11, Vol. 73, 1985.

67. Jelinek F. Statistical methods for speech recognition. Massachusetts Institute of Technology, 1999.

68. Joao P., Neto Ciro, Martins Luris B. Almeida. An Incremental Speaker-Adaptation Technique for Hybrid HMM-MLP Recognizer. Proc. 1996ICSLP.

69. Johnson S. C. Hierarchical clustering schemes. Psychometrika. 1967. - 32.

70. Johnson S. and WoodLand P. Speaker Clustering Using Direct Maximisation of the MLLR-Adapted Likelihood, Proc. 1996 ICSLP.

71. King B. F. Step-wise clustering procedures. Journal of the American Statistical Association, 1967. - 62.

72. Kosaka T. and Sagayama S. Tree-Structured Speaker Clustering for Fast Speaker Adaptation. Proc. 1994ICASSP.

73. Kosarev Yu. A., Jarov P. A. Associations help to recognize words. In Proceedings ofDAGA-95, Saarbruecken, 1995. - pp. 979-982.

74. Kosarev Yu. Spoken language translation model based on the speech understanding in activity context. Proc. International Workshop SPECOM'1996, St. Petersburg, 1996. pp. 57-58.

75. Kosarev Yu., Piotrowski R. Synergetics and 'Insight' Strategy for Speech Processing. Literary and Linguistic Computing Oxford University Press, Vol. 12 , № 2, 1997.

76. Kosarev Yu., Savage J. Realization of some reserves of language and extralinguistic knowledge for the speech dialogue systems improvement. Moscow: Proc. Intern. Workshop "Speech and Computer", SPECOM'1999. -pp. 20-31.

77. Kosarev Yu. Some aspects of Robust Speech Understanding. Invited lecture for the International Workshop SPECOM'2002, St. Petersburg, 2002. pp. 3-8.

78. Kosarev Yu. A., Ronzhin A., Lee I., Karpov A., Savage J., Haritatos F. Robust Speech Understanding for Voice Control System. International Workshop SPECOM'2002, St. Petersburg, 2002. pp. 13-18.

79. Klatt D.H. Prediction of perceived phonetic distance from critical-band spectra: A first step. In Proceedings of the Int. Conf. Acoust. Speech Signal Processing, 1982.

80. Kravez L. G. Quantitative Merkmale englischer Nominalverbindungen. In Sprachstatistik. Mit zahlreichen Skizzen, Tabellen und Schemata im Text. Uebersetzt von einem Kollektiv unter Leitung von Lothar Hoffman. Wilhelm Fink, Muenchen/Salzburg, 1973.

81. Lowerre В., Reddy D. The Harpy speech understanding system. Pittsburgh: Carnegie - Mellon University, 1976.

82. Lucke H. Interface of stochastic context-free grammar rules from example data using the theory of Bayesian belief. In: The Proc. of Eurospeech'93, 1993. -pp. 1195-1198.

83. Lyons J. Introduction to theoretical linguistics. Cambridge: At the University Press, 1972.

84. MacQueenJ. B. Some methods for classification and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. - 1967.

85. Matsui Т., Furui S. N-best Based Instantaneous Speaker Adaptation Method for Speech Recognition. Proc. 1996 ICSLP.

86. Matsuoka T. and Shikano K. Robust HMM Phoneme Modeling for Different Speaking Styles. In Proc. IEEE ICASSP, 1991.

87. Miyazawa Y., Takami J., Sagayama S. and Matsunaga S. All-phoneme Ergodic Hidden Markov Network for Unsupervised Speaker Adaptation. Proc. 1994 ICASSP.

88. Myers C. S., Rabiner L. R. A Level Building Dynamic Time Warping Algorithm for Connected Word Recognition. IEEE Trans. ASSP-29, 1981. -No. 2, pp. 284-297.

89. Myrvoll Т., Siohan О., Lee С., Chou W. Structural Maximum a Posteriori Linear Regression for Unsupervised Speaker Adaptation. In Proceedings of ICSLP'2000, Beijing, China, 2000. - pp. 78-81.

90. Ono Y., Wakita H., Zhao Y. Speaker Normalization Using Constrained Spectra Shifts in Auditory Filter Domain. Eurospeech'93, Vol.1, 1993. pp. 355-358.

91. OaksfordM., ChaterN. Against logistics cognitive science.- In Mind &Language, 1991. Vol. 6, No. 1, pp. 2-37.

92. Paul D. The Lincoln Robust Continuous Speech Recognizer. In Proc. IEEE ICASSP, 1989.

93. Picone J. Continuous Speech Recognition Using Hidden Markov Models. IEEE ASSP Magazine, Vol. 7, No. 3, July 1990.

94. Picone J. Signal Modeling Techniques In Speech Recognition. IEEE Proceedings, Vol. 81, No. 9, 1993.

95. Potamianos A., Kuo H. Statistical Recursive Finite State Machine Parsing for Speech Understanding. In Proceedings of ICSLP'2000, Beijing, China, 2000. -pp. 1237-1240.

96. Rabiner L.R., Wilpon J.G. and Juang B.H., "A Model-Based Connected Digit Recognition System Using Either Hidden Markov Models or Templates", Computer Speech and Language, 1 (2): 167-197, December 1986.

97. Rabiner L., Juang B. Fundamentals of Speech Recognition. New Jersey: Prentice-Hall, Englewood Cliffs, USA, 1993.

98. Ronjin A., Lee I., Kosarev Yu. Quasi-allophone method of acoustic + voice adaptation. Proc. SPECOM 2000. pp. 91-93.

99. Ronzhin A., Lee I., Kosarev Yu., Karpov A. Continuous Speech Recognition Method Suitable for Robust Speech Understanding. International Workshop SPECOM'2002. St. Petersburg, 2002, pp. 47-52.

100. Sakoe H., Chiba S. Recognition of Continuously Spoken Words based on Time-Normalization by Dynamic Programming. J. Acoust. Soc. Japan, 1971 -7, 9.

101. Seward A. A Tree-Trellis N-best Decoder for Stochastic Context-Free Grammars. In Proceedings of ICSLP'2000, Beijing, China, 2000. - pp. 10321035.

102. Strom N. Continuous Speech Recognition in the WAXHOLM Dialogue System. STL QPSR, 1996. - pp. 67-95.

103. Suzuki M., Abe Т., More H., Makino S. and Aso H. High-Speed Speaker Adaptation Using Phoneme Dependent Tree-Structured Speaker Clustering. Proc. 1998 ICSLP.

104. Takahashi J. and Sagayama S. Vector-Field-Smoothed Bayesian Learning for Incremental Speaker Adaptation. Proc. ICASSP' 1995.

105. TuerkC., Robinson T. A new Frequency Shift Function for Reducing Inter-Speaker Variance. Eurospeech'93, Vol.1, 1993. pp. 351-354.

106. Varile G., Zampolli A. Survey of the State of the Art in Human Language Technology. Cambridge University Press, 1997.

107. Wang J., WangH., LeeK., Huang С. Domain-unconstrained language understanding Based on CKIP-Auto Tag, How-net, and ART. In Proceedings of ICSLP'2000, Beijing, China, 2000. - pp. 807-810.

108. Wang Yu and Zhu Xiaoyan. A New Approach for Incremental Speaker Adaptation, Proc. 2000 ICSLP.

109. Wozencraft J., Reiffen. B. Sequential decoding. Technology Press and Wiley, New York, 1961.

110. ZadehL. «А fuzzy-algorithmic approach to the definition of complex or imprecise concepts». In International Journal of Man-Machine Studies. Vol. 8, No. 3, 1976.

111. Zhao Y. Self-Learning Speaker Adaptation Based on Spectral Variation Source Decomposition Eurospeech'93, Vol.l, 1993. pp. 359-362.

112. Р/с № 40702810300000004200 в ЗАО КАБ «Викинг», к/с Ne 30101810200000000869 БИК044030869 ОКНО 54208961 OKQHX82000, 90310, 80300,71200, 72200

113. УТВЕРЖДАЮ Директор центра перфективных разработоккомпании Эктако А.В. Епифанов

114. Х^у ' « 12 » ноября 2002г.1. АКТоб использовании результатов кандидатской диссертационной работыаспиранта Ронжина АЛ. «Разработка адаптивного метода устойчивогопонимания слитной речи на основе интегральной обработки данных»

115. Комиссия в составе: председателя В.В Барышникова, члены комиссии: А.В. Епифанова, МЛ. Кореневский, рассмотрев представленные материалы по теме диссертационной работы Ронжина А.Л, установила, что:

116. Основные положения диссертационной работы были использованы в исследовательском отделе речевых технологий при проведении плановых научно-исследовательских работ.

117. Изложенные в работе методы адаптации к голосу диктора на основе замещения участков речи использованы при создании экспериментальной модели.

118. Использование предложенных алгоритмов распознавания речи, позволило реализовать в мобильных устройствах с ограниченными вычислительными способностями функции распознавания речи.

119. Председатель комиссии, руководитель группы речевых исследований1. Члены комиссии

120. Руководитель отдела лингвистики Руководитель отдела акустики, к.ф-м.н.1. А:В.'Епифанова1. М.Л. Корбневский

121. Departamento de СЧодшйипбп, Facultad de tagemeria UH AM

122. Mexico City, Jatmaiy 19ft 2003,1. STATEMENT

123. After using A.L. Ronйш's thesis;

124. Elaboration of the adaptive method of robust continuous speechmderstandmg based on integral data processing"

125. The ОМАМ: commillee:, formed by Dr. Jesus Savage, Eng. Gabriel Vazquez and Eng. Emmaiiiiel Hernandez considered the presented materials and decided, that

126. The created hardware/software systems are used during research experiments and learning courses in our University.

127. The proposed algorithms and software alow to increase efficiency and speed of the robot operation1. Committee chairman,1. Dr. Jesus Savage1. Committee members:1. Gabriel Vazquez

128. Российская Академия Наук Санкт-Петербургский институт информатики и автоматизации199178, Санкт-Петербург, 14 линия, 39 Телефон: (812)328-33-11

129. Факс: (8!2>328-44-50 E-mail: spiiran@iias.spb.su

130. Комиссия в составе: председателя В.И. Городецкого, членов комиссии: И.П. Поднозовой, Д.В. Бакурадзе, рассмотрев представленные материалы:

131. Диссертационную работу Ронжина A.JI;

132. Отчеты по международному проекту МНТЦ 1993Р, установила, что:

133. Основные положения диссертационной работы Ронжина АЛ. были использованы при проведении плановых научно-исследовательских работ в ходе международного проекта МНТЦ 1993Р часть 4 по теме «Voice operated flying object».

134. Изложенный в работе алгоритм робастного распознавания слитной речи был использован при создании экспериментальной модели голосового управления летательным объектом, которая была продемонстрирована на семинаре в Бингемтоне в начале 2002 г.

135. Созданный комплекс программ используется при проведении экспериментальных исследований по пониманию слитной речи в группе речевой информатики СПИИРАН.

136. Использование разработанных алгоритмов позволило повысить устойчивость модели понимания слитной речи и ускорить процесс корректировки баз данных при адаптации системы к конкретной прикладной области более, чем в 3 раза. .

137. Председатель комиссии, (%!fl-i)',fif1 л

138. Менеджер проекта д.т.н.-проф. ^ЩШЩч ВГородецкий1. Члены комиссии ~~

139. Помощник по международным связям-"//^И.П. Поднозова Ученый секретарь к.т.н. с.н.с .""" Q>(/о Д.В. Бакурадзе

Похожие работы

Информатика, вычислительная техника и управление
05.13.00