автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования
Автореферат диссертации по теме "Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования"
На правах рукописи
4В41ичи
Губочкин Иван Вадимович
разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования
Специальность 05.13.17 - «Теоретические основы информатики» (технические науки)
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Нижний Новгород 2011г.
1 7 МАР 2011
4841043
Работа выполнена на кафедре «Математика и информатика» Государственного образовательного учреждения высшего профессионального образования Нижегородского государственного лингвистического университета им. Н.А. Добролюбова
Научный руководитель: - кандидат технических наук,
доцент Дмитрий Юрьевич Акатьев
Официальные оппоненты: - доктор физико-математических наук,
профессор Владимир Григорьевич Лхно
- доктор технических наук, профессор Владимир Александрович Утробин
Ведущая организация - Саровский государственный физико-технический институт, г. Саров.
Защита состоится "31" марта 2011 г. в 13 часов на заседании диссертационного совета Д.212.165.05 в Нижегородском государственном техническом университете им. Р.Е. Алексеева по адресу: 603950, г. Нижний Новгород, ГСП-41, ул. Минина, 24, ауд. 1258.
С диссертацией можно ознакомиться в библиотеке Нижегородского государственного технического университета им. P.E. Алексеева.
Автореферат разослан li Xt " февраля 2011 г.
Ученый секретарь диссертационного совета, кандидат технических наук
А. С. Суркова
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследований. В современных условиях информационного общества с каждым днем все более актуальным становится использование речевых технологий, таких как, например, распознавание, анализ речи, голосовое управление сложными техническими системами, а также автоматизированная постановка произношения. Данные технологии широко используются при построении справочных и поисковых систем, систем интерактивного обучения иностранным языкам или постановки произношения у глухих или слабослышащих детей, создании разнообразных речевых корпусов, предназначенных как для исследовательских целей (например, сопоставлении различных диалектов), так и для предварительного обучения систем распознавания и синтеза речи.
Одним из основных направлений развития речевых технологий можно считать задачу автоматического распознавания речи (АРР). Для ее решения в настоящее время применяются методы, основанные на искусственных нейронных сетях и скрытых марковских моделях (СММ). Существенный вклад в развитие этих методов внесли работы Баума JI.E., Бейкера Дж.К., Лоуэрра Б.Т., Липорака Л.Р., Жуаня Б., Левинсона С.Е., Рабинера Л. и др.
Следующим практическим применением автоматического анализа речи является задача формирования и обновления речевых корпусов. Такие корпусы находят широкое применение, прежде всего в системах анализа и синтеза речи. Здесь следует упомянуть системы идентификации и верификации говорящего по голосу, идентификации психофизического и эмоционального состояния диктора, а также обучающие системы. Кроме того, речевые корпусы составляют основу автоматизированных систем сбора и хранения речевых сообщений, поиску и выдачу записанных речевых сообщений по запросу.
Большинство современных речевых корпусов сопровождается транскрипцией речевых единиц, т.е. их описанием через последовательность фонем. Основной проблемой при формировании речевых корпусов является вариативность речи дикторов, ее составляющих. В связи с этим до настоящего времени не создано ни одной сколько-нибудь эффективной системы автоматического выделения списка речевых единиц из слитной речи.
Следующим направлением применения автоматического анализа речи является задача постановки произношения с визуализацией результатов, которая предполагает использование компьютеров или других специализированных вычислительных устройств помощи в обучении произношению. Обучение произношению с использованием компьютерных систем проводится как на уровне отдельных звуков, так и на более высоких уровнях (отдельные слова, фразы и даже небольшие диалоги).
Здесь разработано множество подходов, суть большинства которых заключается в сравнении речи обучаемого с некоторым эталоном. Чем больше сходство речи с эталоном, тем лучше считается произношение. Множетсво работ в этом направлении было опубликовано Росситром Д., Кьюли Д., Аграновским A.B. Однако Нери А. было показано, что основной недостаток систем, построенных по принципу сравнения с эталоном, состоит в том, что
даже при очень хорошем произношении речь обучаемого и эталон могут иметь совершенно разные спектры или формы во времени. Кроме того, получаемые результаты достаточно трудно интерпретировать, поскольку нет простого соответствия между артикуляционными движениями и отображаемыми результатами.
В настоящее время наиболее распространенным подходом при решении перечисленных выше задач анализа и распознавания речи является статистический (байесовский) подход. В его рамках речевые единицы представляются гауссовой моделью сигналов и моделируются набором классов. Подобный подход имеет ряд существенных недостатков, таких как недостаточно высокая точность и надежность. Для устранения указанных недостатков проф. В.В.Савченко была разработана новая информационная теория восприятия речи1, основной которой служит критерий минимального информационного рассогласования (МИР) и кластерная модель речевых единиц. Главное преимущество нового подхода состоит в строгом определении понятия «речевая единица».
Можно утверждать, что одноименные реализации хгЯ у = 1,./„ Jr» 1 в сознании человека группируются в соответствующие классы или образы речевых единиц Хг = {х^\ г = 1,Л вокруг некоторого центра - эталонной метки данного образа. В информационной теории восприятия речи указанные эталоны определяются в строгом теоретико-информационном смысле: речевая метка х* с Хг образуется как информационный центр-эталон г-го речевого образа, если в пределах множества Хг она характеризуется минимальной суммой информационных рассогласований по Кульбаку-Лейблеру относительно всех других его меток-реализаций х,_,, )=\ТГ, т. е.
н м
Здесь р(») - информационное рассогласование в метрике Кульбака-Лейблера. На рис. 1 показана иллюстрация сформулированного выше определения кластерной модели речевых единиц.
В рамках информационной теории восприятия речи указанные эталоны определяются в строгом теоретико-информационном смысле: по критерию минимального информационного рассогласования в метрике Кульбака-Лейблера. Показано , что при несущественных ограничениях данная кластерная модель речевых единиц охватывает фонетический (звуковой) строй национального языка. Ее применение в задачах распознавания и
1 Савченко В.В.. Информационная теория восприятия речи // Известия высших учебных заведений России. Радиоэлектроника. 2007. Вып.6, с. 10-14.
2 Савченко В.В. Теоретико-информационное обоснования гауссовой модели сигналов в задачах автоматической обработки речи. // Известия высших учебных заведений России. Радиоэлектроника. 2008, Вып. 1, с. 24 — 33.
О
О О
Рис. 1. Кластерная модель речевых единиц
анализа речи позволило существенно сократить вычислительную сложность3 используемых для этого алгоритмов (по сравнению с СММ и искусственными нейронными сетями) и повысить точность их работы.
Исследованию и практическому применению рассмотренной кластерной модели речевых единиц и посвящена данная диссертационная работа.
Объект исследования. Объектом исследования в диссертационной работе являются устная речь, ее
математические модели и методы обработки.
Предмет исследования.
Предметом исследования в
диссертационной работе выступает кластерная модель элементарных речевых единиц (ЭРЕ) и критерий минимального информационного рассогласования.
Цель диссертационной работы. Целью диссертационной работы является разработка эффективных (по точности и скорости вычислений) алгоритмов автоматического анализа, распознавания и обучения речи на основе кластерных моделей элементарных речевых единиц.
Задачи исследования. Для достижения поставленной цели в ходе выполнения диссертационной работы решались следующие основные задачи:
1. Разработка алгоритма распознавания речи на основе кластерной модели элементарных речевых единиц и исследование его эффективности в задаче распознавания изолированных слов.
2. Экспериментальная оценка выигрыша в скорости вычислений в задаче распознавания речи с использованием кластерной модели элементарных речевых единиц.
3. Разработка адаптивной кластерной модели элементарных речевых единиц и ее экспериментальное исследование в задаче фонетического анализа речи.
4. Разработка новой технологии информационного обеспечения с использованием кластерной модели речевых единиц для решения задачи обучения речи и постановки произношения.
Методы исследования. Для решения поставленных задач в работе используются методы теории информации, теории вероятностей, математической статистики.
Научная новизна работы состоит в следующем:
3 Савченко В.В. Метод фонетического декодирования слов в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования. // Известия высших учебных заведений России. Радиоэлектроника. 2009. Вып. 5, с. 41 - 49.
1. Разработан новый алгоритм распознавания речи, основным отличием которого от существующих аналогов является применение кластерной модели элементарных речевых единиц на основе критерия минимального информационного рассогласования, что позволило повысить эффективность распознавания речи.
2. Предложена кластерная модель элементарных речевых единиц, направленная на решение проблемы вариативности речи, основное отличие которой от существующих аналогов состоит в возможности адаптации (автоматического наполнения) в процессе анализа речи.
3. На основе предложенной адаптивной кластерной модели разработана новая технология информационного обеспечения с визуализацией данных в задаче обучения речи и постановки произношения. Ее основным отличием от существующих аналогов является применение двух разновидностей кластерной модели речевых единиц: фонетической и морфологической.
Практическая ценность диссертации обусловлена рядом обстоятельств, а именно:
1. Разработанный алгоритм распознавания речи может применяться в системах автоматического распознавания речи с большим словарем или в условиях ограниченных вычислительных ресурсов (например, в сотовых телефонах или других встраиваемых платформах).
2. Получены экспериментальные оценки выигрыша по эффективности алгоритма автоматического распознавания речи на основе кластерной модели элементарных речевых единиц по сравнению с распространенными на практике методами на основе скрытых марковских моделей.
3. Предложенная адаптивная кластерная модель элементарных речевых единиц может применяться при создании новых и обновлении существующих фонетических кластерных баз данных, которые, в свою очередь, широко используются в поисковых и справочных системах, системах голосового управления и т.д.
4. Разработанная технология информационного обеспечения задачи обучения речи и постановки произношения может быть использована в процессе реабилитации детей-инвалидов с частичной или полной потерей слуха, а также при изучении иностранных языков.
Результаты внедрения. Полученные в диссертации результаты, в частности, адаптивная кластерная модель элементарных речевых единиц, были использованы в итоговом отчете по проекту РФФИ № 07-07- 12042-офи «Разработка и создание информационной теории восприятия речи на основе критерия минимума информационного рассогласования», а также в итоговом отчете по проекту РГНФ №09-06-12125в «Разработка информационной системы обучения речи глухонемых и слабослышащих». Созданная информационная система прошла апробацию в городской школе-интернате для глухих и слабослышащих детей и подростков г. Нижнего Новгорода.
Решением Ученого совета результаты диссертационной работы внедрены в учебный процесс НГЛУ им. H.A. Добролюбова. Кроме того, результаты диссертационной работы внедрены в учебный процесс НГТУ им. P.E.
Алексеева по дисциплине «Теория сигналов» по темам «Анализ и распознавание речи» и «Адаптивная обработка случайных процессов» в виде компьютерной программы, реализующей разработанные алгоритмы.
Результаты диссертационной работы также внедрены в инновационный проект № 7630р/10278 «Разработка фонетического детектора лжи» при поддержке Фонда содействия развитию малых форм предприятий в научно-технической сфере.
Апробация работы. Материалы диссертационной работы докладывались и обсуждались на трех научных всероссийских конференциях «Информационные системы и технологии» (Нижний Новгород, НГТУ им. P.E.Алексеева, 2007 - 2010 гг.) и на ежегодной международной открытой конференции «Современные проблемы информатизации» (Воронеж, 2010 г.).
Публикации. Результаты исследований опубликованы в 15 работах, в том числе в восьми статьях, пять из которых - статьи в журналах, рекомендованных ВАК: «Известия вузов России. Радиоэлектроника», «Системы управления и информационные технологии», «Вестник Нижегородского университета им. Н.И. Лобачевского». Полный список публикаций приведен в списке литературы.
Основные положения, выносимые на защиту.
1. Алгоритм распознавания речи с нормировкой элементарных речевых единиц и ограничением величины решающей статистики на основе кластерной модели элементарных речевых единиц.
2. Адаптивная кластерная модель элементарных речевых единиц на основе критерия минимального информационного рассогласования, формирование которой происходит в процессе анализа устной речи.
3. Технология информационного обеспечения при обучении речи и постановке произношения, ключевым звеном которой является применение двух разновидностей кластерной модели речевых единиц (фонетической и морфологической), когда речь обучаемого сравнивается не с одним, а с целым набором эталонов.
Структура и объем работы. Диссертационная работа включает введение, четыре главы, заключение, список используемой литературы и заключения. Вся работа изложена на 141 странице текста, включающих в себя 12 страниц приложений, 51 рисунок, 15 таблиц. Количество библиографических ссылок - 118.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении содержится обоснование актуальности, описываются объект, предметы и методы исследования. Отмечена научная новизна и практическая значимость результатов, приведены основные положения диссертационной работы, выносимые на защиту, а также сведения об апробации, реализации и внедрении результатов работы.
В первой главе «Задача автоматического распознавания речи» дается общая постановка задачи АРР в рамках теории распознавания образов. Приведено краткое описание существующих подходов к решению задачи АРР.
Особое внимание уделено наиболее распространенному из них: скрытым марковским моделям. Рассмотрены недостатки данного подхода, основными из которых являются высокие вычислительные затраты и необходимость в обучающей выборке большого объема.
Для преодоления указанных недостатков в рамках теоретико-информационного подхода Савченко В.В. был предложен новый метод автоматического распознавания речи, в основе которого лежит критерий МИР.
В рамках данного метода, выдвигая предположение о гауссовом распределении речевого сигнала, можно получить выражение для взаимного информационного рассогласования:
2 К,
2 2
(2)
Здесь К, и К, - матрицы автоковариации сигналов х и х, соответственно, а /г(...) - операция взятия тренда (следа) матрицы.
Показано, что в асимптотике, когда п -» оо, при гауссовом распределении сигнала з, с автокорреляционной матрицей К, ленточной структуры выражение для оптимальной решающей статистики сводится к виду
_±. £ \ £А1±
р/ = 1{с,(Л
+ -1 елл)
г = 1, В.
(3)
Здесь Ох(/) - выборочная оценка спектральной плотности мощности сигналах в функции дискретной частоты/; Ог(/) - спектральная плотность мощности г-го сигнала из словаря эталонов; ^ - верхняя граница частотного диапазона сигнала или используемого канала связи. Это известная формулировка критерия МИР на основе авторегрессионной (АР) модели речевого сигнала:
1=1
(4)
Здесь х(и) - значение и-го отсчета речевого сигнала, а = {а(г)} - вектор его АР-коэффициентов, Р - порядок АР-модели, а е(п) - порождающий процесс типа белого гауссова шума с нулевым значением математического ожидания и фиксированной дисперсией а1.
При дополнительном условии нормировки АР-модели сигналов типа ЭРЕ по дисперсиям их порождающего шума второе слагаемое в правой части (3) оказывается тождественно равным нулю, и выражение для решающей статистики МИР (3) приобретает следующий вид:
Р I2
1+ Е ог (т )ехР !
т = 1
Р / = 1
1 + X ах (т )ехр (- ]ят/ / ^ ) т = 1
-1,
(5)
Аналогичным образом можно записать выражение для решающей статистики во временной области4:
WVÇS): pM=<7,2(X)-l|r = v=min (6)
где а?(х) - дисперсия отклика r-го обеляющего фильтра на входной сигнал X
Основные преимущества использование кластерной модели ЭРЕ - это сокращение объема обучающей выборки и повышение скорости вычислений. Так, в отличии от СММ, для представления одной элементарной речевой единицы нам достаточно только одного информационного центра-эталона. Кроме того можно показать, что с увеличением словаря при распознавании речи по алгоритму на основе кластерной модели ЭРЕ требуется проводить значительно меньше вычислений, чем при использовании алгоритмов на основе СММ-методов.
В качестве примера использования кластерной модели ЭРЕ в задаче автоматического распознавания речи были рассмотрены результаты математического моделирования алгоритма распознавания речи. При этом в качестве распознаваемых речевых единиц использовались изолированные слова. Для учета их фонемной структуры был применен широко известный метод динамического программирования, а речевой сигнал анализировался по коротким сегментам. С учетом этого, был получен набор минимальных решающих статистик для /-го сегмента слова:
A,;(x) = mm{o;,r(X,fc), Л,,(ХД +1)}, / = k = W, . (7)
Здесь L - число сегментов, на которые разбивается анализируемое слово X, N г - аналогичное число стационарных участков в г-м слове-эталоне, а ри(Х,к ) -решающая статистика (6), вычисленная для 1-го сегмента слова X и ¿-го участка эталона Хг.
В предположении о статистической независимости отдельных сегментов между собой величина информационного рассогласования по слову целиком определяется суммарным выражением вида
WV(X): ЛДХ) = тш£Л;(х)| r = (8)
' M
Распознавание слов по критерию МИР с сегментированием (6)...(8) реализуется на основе многоканальной обработки, в которой число каналов R определяется количеством слов-эталонов. При этом в каждом канале используется набор из Nr обеляющих фильтров, настроенных на последовательные стационарные участки (элементарные речевые единицы) соответствующего эталонного слова. Решение (8) принимается по критерию минимума суммы решающих статистик (6) по всем L сегментам анализируемого слова.
4 Савченко В.В., Акатьев Д.Ю., Карпов Н.В. Автоматическое распознавание речевых единиц методом обеляющего фильтра. II Известия высших учебных заведений России. Радиоэлектроника. 2007. Вып.4. с. 11-19.
Экспериментальные исследования алгоритма (6) - (8) проводились на речевой базе, состоящей из числительных русского языка: «ноль» ... «девять». По каждому слову из словаря было сформировано по 100 реализаций, которые записывались в звуковые файлы с частотой дискретизации 8 КГц и квантованием 8 бит.
При формировании словаря эталонов сначала был записан набор фонем в режиме их продолжительного звучания. После этого по каждой фонеме был вычислен вектор АР-коэффициентов с использованием процедуры Берга-Левинсона в результате чего была сформирована кластерная модель У = <?(хг). Затем каждое слово эталонного словаря {х,},г =1,Я кодировалось с использованием полученной кластерной модели У. В результате этого каждый эталон представлял собой набор векторов авторегрессии ,г =1,л.
Результаты распознавания слов из описанной речевой базы с использованием различных кластерных моделей приведены в таблице 1.
Таблица 1
Модель Кластерная модель 1 Кластерная модель 2 Кластерная модель 3 Кластерная модель 4
Вероятность распознавания 0,894 0,916 0,865 0,875
Из таблицы видно, что качество распознавания слов из экспериментальной речевой базы существенно зависит от выбора эталонных реализаций фонем. В связи с этим возникает проблема выбора оптимальной кластерной модели.
Далее были рассмотрены преимущества разработанного алгоритма с использованием кластерной модели элементарных речевых единиц перед методами распознавания, основанными на аппарате СММ. Для этого было проведено исследование зависимости времени распознавания одного слова от объема словаря для алгоритма (6)...(8) и алгоритма распознавания речи на основе СММ.
На рис. 2 показана решетчатая структура вычисления вероятности появления анализируемой последовательности наблюдений для заданной СММ.
N
3 2 1
2 3 4
Наблюдение
Рис. 2. Решетчатая структура вычисления вероятности распознавания
Из рисунка видно, что в общем случае нам необходимо получить значения вероятностей для всех элементов решетки. Полагая, что Л - число состояний СММ, Ь - число сегментов, на которое разбивается входное слово, п - длина одного сегмента в отсчетах, р - порядок авторегрессионной модели вектора речевых признаков можно показать, что для словаря объемом М слов количество необходимых операций определяется выражением:
У{=ШЬ{п-р1р + \). (9)
С другой стороны, поскольку при использовании кластерной модели ЭРЕ нам не требуется каждый раз проводить вычисления рассогласований для всех элементов решетки (их можно вычислить заранее), то вычислительная сложность алгоритма распознавания определяется формулой:
У1=К1{п-р1р +1), (10)
где Я - число четко проговариваемых фонем в языке. Например, при /,=100 с, и=80 отсчетов, Л=30 и р=20 имеем У[ = 3780 тыс. элементарных операций за секунду. Для сравнения, СММ-методам при М=1000 (соответствует достаточно небольшому словарю), Л =5 и той же длине сигнала £=100 сегментов число выполняемых операций составит почти 630 млн. единиц, т. е. увеличится более чем на два порядка.
Подтвердим теперь сделанные выводы экспериментально. Для сравнительного анализа использовалась неэргодическая СММ с непрерывной плотностью вероятности наблюдений с 7 состояниями. Каждое слово экспериментального словаря было представлено отдельной СММ. Обработка данных велась посегментно. Длительность каждого сегмента, на которые разбивалась входная реализация, составляла 20 мс с перекрытием в 10 мс. В качестве векторов-признаков для представления речи использовались кепстральные коэффициенты 12-го порядка, рассчитанные по каждому анализируемому сегменту. Обучение СММ велось при помощи алгоритма Баума-Уэлча, а распознавание - при помощи алгоритма Витерби.
Речевая база для экспериментальных исследований состояла из 30 числительных русского языка по 100 реализаций каждого слова, записанных в отдельных звуковых файлах. Частота дискретизации записей составляла 8 кГц, 16 бит. Экспериментальные исследования всех алгоритмов проводились на ПК Athlon ХР 1400 MHz, 512 Mb RAM. Полученные результаты представлены на рис. 3.
Рис. 3. Временные затраты на распознавание слова для различных алгоритмов распознавания речи
Здесь СММ - алгоритм на основе аппарата скрытых марковских моделей, МИР - разработанный алгоритм (6)...(8) на основе кластерной модели элементарных речевых единиц и критерия минимального информационного рассогласования. Из рисунка видно, что алгоритм распознавания слов на основе кластерной модели элементарных речевых единиц обладает существенно лучшими характеристиками быстродействия, чем алгоритм на основе скрытых марковских моделей.
Из полученных результатов можно сделать вывод, что использование кластерной модели ЭРЕ и свойств решающей статистики МИР в решении задачи автоматического распознавания речи позволяет существенно (более чем в 6 раз при объеме словаря в 30 слов) сократить объем необходимых вычислений по сравнению с широко используемыми сегодня методами на основе аппарата скрытых марковских моделей.
Во второй главе «Разработка адаптивной кластерной модели речевых единиц» поставлена задача фонетического анализа речи на основе метода переменного дерева. Суть данного метода в формировании списка фонем речи с использованием статистической классификации без учителя.
Обозначим анализируемый речевой сигнал X вектором его отсчетов х = где п - объем выборки. Выделим в нем первые т отсчетов из
соображений сохранения в них свойства приблизительной стационарности (однородности распределения) сигнала. Например, при стандартной частоте дискретизации в 8 кГц полагают т = 100...200. Используем полученный
сегмент данных Х] = .....хт} в качестве обучающей выборки ЛГ, для
оценивания автокорреляционной матрицы первой ЭРЕ из нашего
сигнала: K^! -М'х Е xjxp Соответствующий закон распределения Pj = iV^j) -т-1
это первая из вершин нашего будущего «дерева». После этого приравняем R =1 и возьмем второй сегмент выборки для анализа х2 ={xm+i,...,x2m}. Следуя выражению для решающей статистики (5), определим для него удельную, т.е. на один отсчет данных, величину информационного рассогласования относительно первой ЭРЕ:
р(хьх1)=рх>г\х=х2. (11)
Полученный результат сопоставляется с некоторым пороговым уровнем ра допустимой величины рассогласований между разными реализациями одноименных ЭРЕ устной речи:
р(ХиХ2)*р0. (12)
При условии выполнения неравенства (12) в нашем дереве появится вторая вершина, и вслед за этим приравниваем число его вершин R =2. В противном случае принимается решение об объединении выборок и Х2 в одну расширенную выборку первой ЭРЕ, а равенство R=1 сохраняется. Это типичная формулировка информационного (Л+1)-элемента.
Вычисления по формулам (5), (11)...(12) повторяются циклически для всех последующих сегментов данных из первоначальной выборки наблюдений X, причем повторятся «нарастающим итогом» для переменного R=2,3,... В результате получим дерево с некоторым зафиксированным числом вершин R*.
Для того чтобы выделить из множества найденных ЭРЕ только четкие и информативные, введем ограничение на объем выборки по каждой речевой единице:
о- (13)
Здесь К0 - это некоторый пороговый уровень для минимального объема выборки.
Для экспериментальных исследований метода переменного дерева был выбран текст объемом около одной стандартной машинописной страницы, взятый из первой главы романа A.C. Пушкина "Капитанская дочка". Этот текст был проговорен в среднем темпе группой дикторов. Полученные сигналы сначала записывались в память ПК в виде соответствующих звуковых файлов в формате РСМ 8 кГц, 16 бит. Продолжительность записи по каждому диктору составила около полутора минут.
На рис. 4 показана зависимость от значений р0 и F0 числа выявленных элементарных речевых единиц для первого диктора. Видно, что при увеличении обоих порогов сначала происходит резкое уменьшение количества выделенных ЭРЕ. Проблема выбора их оптимальных значений решается здесь очевидным путем: F0* = 1,0... 1,2 и pj=3...7 - по принципу относительной стабилизации фонетического состава речевого сигнала.
Рис, 4. Число выявленных элементарных речевых единиц при различных значениях У0 и р0
С одной стороны, при малых значениях каждого из порогов мы получаем чрезмерно большое количество элементарных речевых единиц с небольшим различиями между собой в теоретико-информационном смысле. С другой стороны, при слишком больших значениях порогов к одному классу будут, возможно, относиться реализации заведомо разных ЭРЕ. А это безусловная ошибка фонетического анализа. Поэтому значения порогов У0 и р0 следует выбирать в тех точках на графике (рис. 4), где количество выделенных элементарных речевых единиц достаточно представительно.
В ходе экспериментальных исследований сделанные выводы были подтверждены и для остальных дикторов группы. Это говорит об устойчивости оптимальных значений всех основных параметров обработки речи по методу переменного дерева по отношению к разным текстам, разным дикторам и их фонетическим особенностям речи.
В третьей главе «Результаты экспериментальных исследований алгоритма фонетического анализа речи на основе адаптивной кластерной модели» приводятся результаты полевых испытаний разработанной адаптивной кластерной модели ЭРЕ в задаче создания фонетической кластерной базы данных речи жителей Нижегородской области с использованием лабораторного образца информационной системы фонетического анализа слитной речи (ИС ФАР),
Интерфейс применяемой ИС ФАР состоит из главной формы, на этой форме отображаются дикторы, внесенные в базу данных и главное меню программы. При выборе любого диктора из списка в правой части окна отображается краткая информация о нем. Кроме того, при помощи имеющегося меню, можно выбирать различные режимы работы, загрузки, сохранения и отображения данных. Общий вид интерфейса показан на рис. 5.
Рис. 5. Вид пользовательского интерфейса информационной системы фонетического анализа слитной речи
Процесс создания фонетической кластерной базы данных на базе данной ИС выполняется в несколько этапов. На первом этапе формируется группа дикторов, и каждый из них проговаривает в среднем темпе лингвистически сбалансированный текст или отрывок из художественного произведения. Объем текста составляет минимум (1 ... 1,5) тыс. печатных знаков. Каждая такая запись с помощью звукового редактора сохраняется в виде соответствующего звукового файла.
На втором этапе в ИС ФАР производится обработка полученных данных по адаптивному алгоритму (5), (11)...(13). В результате формируется множество персональных фонетических кластерных баз данных {Хг\, учитывающих
особенности разных дикторов.
Разработанная методика в период с 1 по 14 декабря 2008 г. была апробирована в полевых (натурных) условиях Нижегородского языкового ареала. Указанный ареал был предварительно разбит на три зоны: «юг», «центр» и «север». В зону «юг» вошли Арзамасский и Павловский районы, в «центр» - город Нижний Новгород и в зону «север» - Семёновский район. В пределах каждого района были получены записи разговорной речи от представительной группы дикторов, разделенной в две подгруппы по признаку пола и три - возраста. Всего, таким образом, было сформировано 18 групп из общего числа 150 дикторов.
Запись одного образца речи по каждому из них имела продолжительность порядка 2 мин. В пересчете к периоду стационарности речевого сигнала (10 - 15 мс) это составило фонетическую кластерную базу данных элементарных речевых единиц суммарным объемом около 2,5 миллионов звуковых единиц. Все они были в дальнейшем обработаны на персональном компьютере с применением ИС ФАР. В результате по каждому диктору была сформирована индивидуальная фонетическая база данных.
В результате исследований было установлено, что наибольшие фонетические различия у жителей севера и юга Нижегородской области. Интуитивно понятный вывод о том, что произношение дикторов разного пола существенно различается, получил не только дополнительное подтверждение, но и количественную характеристику по результатам полевых испытаний.
На основе описанной выше речевой базы данных были проведены экспериментальные исследования алгоритма автоматического формирования кластерной фонетической базы данных национального языка. В результате было установлено, что для надлежащего выбора оптимального диктора внутри языкового ареала в пределах одного пола достаточно 15-20 дикторов.
В заключении было проведено исследование подходов к повышению точности . распознавания речи с использованием кластерной модели элементарных речевых единиц. Для этого была проведена модификация алгоритма автоматического распознавания речи. При этом главное отличие заключается в формирорании словаря эталонов с использованием адаптивной кластерной модели элементарных речевых единиц.
Также для учета того, что вклад каждого сегмента входного слова X в сумму (8) является существенно неравноценным, было применено амплитудное ограничение на величину решающей статистики (6). В этом случае статистика ) может быть записана следующим образом:
Здесь а^г(Х,к) - выборочные дисперсии откликов обеляющего фильтра Р-го
порядка, настроенного на к-й участок г-го эталонного слова и на 1-й сегмент сигнала на входе, и - пороговое значение.
Было показано, что использование амплитудного ограничения позволяет существенно повысить вероятность правильного распознавания слов. В проведенном эксперименте эта вероятность составила 0,99.
В четвертой главе «Применение адаптивной кластерной модели в новой технологии информационного обеспечения при обучении речи слабослышащих» описываются результаты применения разработанных алгоритмов анализа и распознавания речи, при создании новой технологии информационного обеспечения в обучении речи и постановке произношения. Ее основным отличием от существующих подходов является то, что сравнение речи обучаемого производится не с одним, а с целым набором эталонов. Диктору будет достаточно приблизить свое произношение к любому из них, выбирая в процессе своего обучения наиболее удобный, достижимый вариант из заданного множества альтернатив .
Наглядная геометрическая интерпретация процесса обучения речи представлена на диаграмме (рис. 6). Здесь точками на плоскости обозначено имеющееся множество эталонов рассматриваемой речевой единицы, а каждый кружок - это тестируемый сигнал на очередном шаге обучения диктора.
и,при сг1г(Х,к)-1>и, а*ДХ,*)-1,при а1(Х,к)-1^и
(14)
"Траектория обучения" отображается направленной ломаной линией. Процесс обучения сводится к итеративному (пошаговому) приближению каждого очередного варианта сигнала х к центру "области допустимых решений", обозначенной на рисунке серым фоном. Границу области образует окружность радиусом р0 относительно информационного центра х*.
Множество гипотетических
Регулируя величину порога р0, мы регулируем требования к качеству речи обучаемого. Например, для дикторов с дефектами слуха или речеобразования эта требования могут быть очень низкими (р0 - max). При обучении же профессиональных дикторов они наоборот повышаются до максимума (р0 = min). Кроме того, может меняться и используемая база эталонов {х*}. В одних случаях это образцы высококачественной речи, а в других - речевой материал, несущий в себе типичные черты говора жителей определенной местности, возраста, пола и т.п.
Для апробации и исследования предложенной технологии был разработан лабораторный образец информационной системы обучения речи глухонемых и слабослышащих (ИСОР).
ИСОР может функционировать в двух режимах: фонетическом и морфологическом. При работе в фонетическом режиме проводится обучение произношению отдельных звуков (фонем). Работа в морфологическом режиме позволяет проводить обучение слогам, звукосочетаниям или же изолированным словам.
На рис. 7 показано главное окно разработанного лабораторного образца информационной системы.
Рис. 7. Главное окно информационной системы обучения речи
глухонемых и слабослышащих
Здесь синими стрелками отображено положение эталонов, а красными -результаты обучения. Видно, что, корректируя свое произношения в соответствии с результатами, выдаваемыми системой, диктор в процессе обучения постепенно приближается к эталону.
Для подтверждения работоспособности и практической применимости разработанной технологии обучения речи были проведены ее полевые испытания в период с 14 сентября по 30 октября 2009г. в городской школе-интернате для глухих и слабослышащих детей и подростков г. Нижнего Новгорода. Для проведения полевых испытаний использовались специальные программные и аппаратные средства: динамический микрофон AKG D77 S и ламповый микрофонный предусилитель ART TUBE MP Project Series USB. Частота дискретизации встроенного АЦП была установлена равной 8 кГц.
Контрольная группа для испытаний была сформирована из 5-и глухих школьников, обучающихся в специализированном интернате в возрасте от 8 до 12 лет - 2 мальчика и 3 девочки.
Испытания состояли из двух этапов: формирования базы эталонов и этапа обучения. На первом этапе в режиме подготовки данных в ИСОР вводились эталоны фонем, полученные от слабослышащих с поставленным произношением.
После формирования базы эталонов был проведен второй этап испытаний. Обучение детей из контрольной группы проходило в виде индивидуальных занятий длительностью 10 - 15 минут. Каждое занятие состояло из двух частей. В первой части происходило обучение набору из нескольких звуков. Для этого обучаемый многократно произносил заданную фонему, добиваясь максимального приближения своего произношения к эталонному.
Во второй части занятия обуч'кемый читал одно-два небольших предложения, в которые входили звуки, изученные в первой части занятия.
Произнесенные предложения сохранялись в звуковые файлы, а затем вводились в ИСОР для получения оценок качества произношения.
В результате обучения все дикторы добились положительных результатов: уменьшилась вариативность их произношения, и повысилось его качество.
Для экспериментальной проверки обоснованности применения рассмотренной технологии обучения речи на морфологическом уровне были проведены ее лабораторные исследования. Для этого была выбрана группа дикторов мужского пола в возрасте от 22 до 30 лет, постоянно проживающих в центральном районе Нижегородской области. Каждый диктор проговаривал по пять раз набор из 29 различных слов. В результате была сформирована база эталонов слов.
После формирования базы эталонов был проведен этап обучения. Для этого было выбрано слово «гриб», для которого в базе данных ИСОР хранятся несколько сигналов-эталонов. Диктором последовательно произносились в микрофон различные реализации выбранного слова, а результат отображался на диаграмме главной формы информационной системы. Затем было проведено обучение и по остальным словам, сохраненным в базе данных.
Результаты исследований показали, что разработанная технология пригодна для постановки произношения не только на фонетическом, но и на морфологическом уровне.
В заключении были сформулированы основные результаты работы по теме исследований, сделанные по ним выводы, а также рекомендации по использованию полученных результатов на практике.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИОННОЙ РАБОТЫ
1. Разработан новый алгоритм распознавания речи, особенностью которого является применение кластерной модели элементарных речевых единиц, критерия минимального информационного рассогласования и амплитудного ограничения на величину решающей статистики.
2. Проведены экспериментальные исследования предложенного алгоритма распознавания речи. Показано, что данный алгоритм характеризуется значительным (в 2 - 5 раз) выигрышем по своей вычислительной сложности по сравнению с известными аналогами.
3. На основе критерия минимального информационного рассогласования разработана адаптивная кластерная модель элементарных речевых единиц в информационной метрике Кульбака-Лейблера, формирование которой происходит непосредственно во время анализа потока речи. Ее точность и надежность регулируются выбором двух основных параметров: порога по величине информационного рассогласования и порога по длительности элементарных речевых единиц. С учетом эффекта насыщения, даны экспериментальные оценки их оптимальных
. значений. Показано, что эти оценки распространяются на разных дикторов.
4. В лабораторных и натурных условиях проведено экспериментальное исследование адаптивной кластерной модели элементарных речевых единиц. Создана кластерная фонетическая база данных на основе речи жителей нижегородского языкового ареала. Показано, что наибольшие фонетические различия в произношении наблюдаются у жителей севера и юга Нижегородской области.
5. На основе разработанной адаптивной кластерной модели элементарных речевых единиц и критерия минимального информационного рассогласования создана новая технология информационного обеспечения при обучении речи и постановке произношения у глухих и слабослышащих лиц.
6. Для апробации и исследований предложенной технологии был разработан лабораторный макет информационной системы обучения речи с визуализацией речевого сигнала по критерию минимального информационного, рассогласования. Исследования в натурных условиях подтвердили высокую эффективность разработанной технологии.
СПИСОК ПУБЛИКАЦИЙ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ
Публикации в изданиях, рекомендованных ВАК
1. Савченко, В.В. Автоматическое распознавание изолированных слов методом обеляющего фильтра / В.В. Савченко, Д.Ю. Акатьев, И.В. Губочкин // Известия высших учебных заведений России. Радиоэлектроника. 2007. Вып. 5. с. 11-18. 0,75 п.л. (вклад автора 0,2 п.л.)
2. Савченко, В.В., Губочкин, И.В. Оптимизация авторегрессионной модели сигналов в задаче автоматического распознавания речи / В.В. Савченко, И.В. Губочкин // Известия высших учебных заведений России. Радиоэлектроника. 2008. Вып. 2. с. 26-31. 0,5 п.л. (вклад автора 0,25 п.л.)
3. Савченко, В.В. Фонетический анализ речи методом переменного дерева / В.В. Савченко, И.В. Губочкин // Известия высших учебных заведений России. Радиоэлектроника. 2008. Вып. 3. с. 14-20. 0,5 п.л. (вклад автора 0,2 п.л.)
4. Савченко, В.В. Формирование фонетической базы данных из речевого сигнала на основе информационной теории восприятия речи / В.В. Савченко, Д.Ю. Акатьев, И.В. Губочкин // Системы управления и информационные технологии. 2008. 4.1 (34). с. 193 - 198. 0,75 п.л. (вклад автора 0,2 п.л.)
5. Савченко, В.В. Исследование звукового строя национального языка на основе информационной теории восприятия речи / В.В. Савченко, Д.Ю. Акатьев, И.В. Губочкин // Вестник Нижегородского университета им. Н.И. Лобачевского. № 3(1), 2010, с. 215 - 222. 0,5 п.л. (вклад автора 0,1
,п.л.)
Публикации в других изданиях
6. Савченко, В.В. Автоматизированная система обучения речи на основе теоретико-информационного подхода / В.В. Савченко, Д.Ю. Акатьев, И.В. Губочкин // Исследовано в России, 1243-1252, 2009. http://zhurnal.ape.relarn.ru/articles/2009/099.pdf 1,0 п.л. (вклад автора 0,3 п.л.)
7. Савченко, В.В. Результаты натурных испытаний автоматизированной системы обучения речи слабослышащих на основе информационной теории / В.В. Савченко, Д.Ю. Акатьев, И.В. Губочкин // Исследовано в России, 1441-1449, 2009. http://2hurnal.ape.relarn.ru/articles/2009/109.pdf 0,7 п.л. (вклад автора 0,2 п.л.)
, 8. Акатьев, Д.Ю. Алгоритм автоматического формирования фонетической базы данных национального языка по конечной группе дикторов / Д.Ю. Акатьев, И.В. Губочкин // Материалы конференции Информационные системы и технологии ИСТ - 2009. Н. Новгород, НГТУ им. P.A. Алексеева, 2009. с. 320 - 321. 0,1 п.л. (вклад автора 0,05 п.л.)
9. Губочкин, И.В. Автоматическое распознавание изолированных слов с верификацией диктора на основе критерия минимума информационного рассогласования / И.В. Губочкин // Материалы конференции Информационные системы и технологии ИСТ - 2009. Н. Новгород, НГТУ им. P.A. Алексеева, 2009. с. 319 - 320. 0,1 п.л.
Ю.Акатьев, Д.Ю. Информационная система обучения речи глухих и слабослышащих /- Д.Ю. Акатьев, И.В. Губочкин // Современные проблемы информатизации в моделировании и социальных технологиях: Сб. трудов. Вып. 15 / Под ред. д.т.н., проф., О.Я. Кравца. - Воронеж: «Научная книга», 2010. с. 152 - 157. 0,3 пл. (вклад автора 0,15 пл.)
П.Акатьев, Д.Ю. Распознавание речи по критерию минимума информационного рассогласования с обнаружением ошибок / Д.Ю. Акатьев, И.В. Губочкин // Материалы конференции Информационные системы и технологии ИСТ - 2007. Н. Новгород, НГТУ им. P.A. Алексеева, 2007. с. 225. 0,1 пл. (вклад автора 0,05 пл.)
12.Акатьев, Д.Ю. Информационная система обучения речи глухих и слабослышащих на морфологическом уровне / Д.Ю. Акатьев, И.В. Губочкин // Материалы конференции Информационные системы и технологии ИСТ - 2010. Н. Новгород, НГТУ им. P.A. Алексеева, 2010. 0,1 пл. (вклад автора 0,05 пл.)
13.Губочкин, И.В. Повышение вычислительной эффективности алгоритма распознавания речи на основе метода обеляющего фильтра / И.В. Губочкин // Информационные технологии моделирования и управления. №6,2010, с. 622-632. 1 пл.
14.Савченко, В.В. Автоматизированная система обучения речи глухонемых и слабослышащих / В.В. Савченко, Д.Ю. Акатьев, И.В. Губочкин, Д.А. Пономарёв - Программа для ЭВМ / Роспатент. Свидетельство о гос. регистрации № 2009615092 по заявке 2009613925 от 20.07.2009. 0,1 пл. (вклад автора 20%).
15.Савченко, В.В. Информационная система фонетического анализа слитной речи / В.В. Савченко, Д.Ю. Акатьев, И.В. Губочкин, Н.В. Карпов, Д.А. Пономарёв - Программа для ЭВМ / Роспатент. Свидетельство о гос. регистрации № 2008615442 по заявке 2008614233 от 15.09.2008. 0,1 пл. (вклад автора 20%).
Лицензия ПД № 18-0062 от 20.12.2000
Подписано в печать 22.02.11 Формат 60X90 1/16
Печл. 1,4 Тираж 100 экз.
Цена: бесплатно Заказ №
Типография НГЛУ им. Н.А. Добролюбова
603155, Н.Новгород, ул. Минина, 31а.
Оглавление автор диссертации — кандидата технических наук Губочкин, Иван Вадимович
Список основных сокращений.
Введение.
ГЛАВА 1. Задача автоматического распознавания речи.
1.1. Постановка задачи автоматического распознавания речи. Теоретико-вероятностный подход.
1.2. Теоретико-информационный подход. Критерий минимального информационного рассогласования.
1.3. Алгоритм распознавания изолированных слов.
Выводы по главе.
ГЛАВА 2. Разработка адаптивной кластерной модели элементарных речевых единиц.
2.1. Задача фонетического анализа речи.
2.2. Результаты математического моделирования алгоритма фонетического анализа речи на основе адаптивной кластерной модели.
2.3. Анализ эффективности алгоритма.
Выводы по главе.
ГЛАВА 3. Результаты экспериментальных исследований алгоритма фонетического анализа речи на основе адаптивной кластерной модели.
3.1. Лабораторный образец фонетического анализатора речи.
3.2. Результаты полевых испытаний. Оптимизация фонетической кластерной базы данных.
3.3. Повышение точности алгоритма распознавания речи.
Выводы по главе.
ГЛАВА 4. Применение адаптивной кластерной модели в новой технологии информационного обеспечения при обучении речи слабослышащих.
4.1. Обзор существующих подходов к решению задачи обучения речи с визуализацией речевого сигнала.
4.2. Визуализация речевого сигнала на основе кластерной модели речевых единиц.
4.3. Результаты натурных испытаний.
Выводы по главе.
Введение 2011 год, диссертация по информатике, вычислительной технике и управлению, Губочкин, Иван Вадимович
Актуальность темы исследований. В современных условиях информационного общества с каждым днем все более актуальным становится использование речевых технологий, таких как, например, распознавание, анализ речи, голосовое управление сложными техническими системами, а также автоматизированная постановка произношения. Данные технологии широко используются при построении справочных и поисковых систем, систем интерактивного обучения иностранным языкам или постановки произношения у глухих и слабослышащих детей, создании разнообразных речевых корпусов, предназначенных как для исследовательских целей (например, сопоставлении различных диалектов), так и для предварительного обучения систем распознавания и синтеза речи.
Одним из основных направлений развития речевых технологий можно считать задачу автоматического распознавания речи (АРР). Ее особенностью является то, что обрабатывается мультимедийная информация. Как известно [1], основной характеристикой подобного вида информации является ее протяженность во времени [2]. Указанное обстоятельство накладывает некоторые ограничения на используемые для решения этой задачи методы и подходы [3-9].
Один из таких подходов основан на использовании искусственных нейронных сетей (ИНС), большой вклад в развитие которых внес Минский М. Л. [10]. При применении ИНС в задаче автоматического распознавания аудио и видео образов предпочтение обычно отдается многослойным сверточным искусственным нейронным сетям [11]. Они реализуют собой детерминистский подход. При использовании таких сетей во входном объекте выделяются так называемые карты признаков. В задаче распознавания ИНС позволяют автоматически настроить систему для эффективного различения набора распознаваемых слов, однако цепочки слов, а также слова, произносимые с разным темпом, нейронные сети идентифицируют плохо.
При быстром произношении слова некоторые фонемы могут пропадать («проглатываться»). Поэтому следующий этап классификации представляет собой выравнивание [12] элементарных единиц тестируемого объекта с каждым из объектов-эталонов. Математическим аппаратом, который позволяет выполнить указанный выше процесс выравнивания, является аппарат скрытых Марковских моделей (СММ) [3]. СММ являются одним из способов получения математической модели (описания свойств) некоторого наблюдаемого случайного процесса. Данный математический аппарат был предложен Баумом Л.Е. и его коллегами [13 - 15] и впервые был использован в задаче распознавания речи в работах Бейкера Дж.К. [16, 17] и Лоуэрра Б.Т. [18]. Дальнейшее свое развитие применительно к задаче АРР аппарат СММ получил в работах многих ученых. Так Липорак Л.Р. [19] предложил обобщение метода оценки параметров непрерывных СММ на случай использования смесей логарифмически вогнутых и/или эллиптически симметричных распределений. Жуань Б. и др. [20] получили формулы переоценки параметров СММ для случая аддитивной суммы гауссовых распределений. Левинсоном С.Е. [21] была предложена параметрическая модель длительности состояний. Существенный вклад в развитие систем распознавания на основе скрытых марковских моделей внес Рабинер Л., впервые опубликовавший описание масштабированного прямого-обратного метода обучения СММ [3]. Под его руководством было создано множество автоматизированных систем голосового сервиса, которые смогли заменить живых операторов.
Следующим практическим применением автоматического анализа речи является задача формирования и обновления речевых корпусов (РК) — структурированных совокупностей речевых фрагментов, обеспеченных программными средствами доступа к ним. Такие корпуса находят широкое применение, прежде всего, в системах анализа и синтеза речи [22]. Здесь следует упомянуть системы идентификации и верификации говорящего по голосу [23 - 28], идентификации психофизического и эмоционального состояния диктора, а также обучающие системы [29 — 38]. Также РК составляют основу автоматизированных систем сбора и хранения речевых сообщений, поиска и выдачи записанных речевых сообщений по запросу.
Большинство современных РК сопровождается транскрипцией речевых единиц (РЕ), т.е. их описанием через последовательность фонем, аллофонов, дифонов и т.д. Основной проблемой при формировании РК является вариативность речи дикторов, ее составляющих. В связи с этим до настоящего времени не создано ни одной сколько-нибудь эффективной системы автоматического выделения списка РЕ из слитной речи. Например, в информационной системе Nuance speech recognition - 8,0 все основные операции над РК, связанные с транскрибированием, выполняются «вручную». Это весьма трудоемкая и дорогостоящая процедура, особенно при учете очевидной необходимости периодического обновления или модернизации существующих баз данных.
Следующим направлением применения автоматического анализа речи является задача автоматизированной постановки произношения, которая предполагает использование компьютеров или других специализированных вычислительных устройств для помощи в обучении произношению. Обучение произношению при помощи компьютерных систем проводится как на уровне отдельных звуков, так и на более высоких уровнях (отдельные слова, фразы и даже небольшие диалоги).
Здесь разработано множество подходов [29 — 38], суть большинства которых заключается в сравнении речи обучаемого с некоторым эталоном. Чем больше сходство речи с эталоном, тем лучше считается произношение. В частности, Росситром Д. [29], была разработана система, использующая коэффициенты линейного предсказания для приближенного отображения формы речевого тракта. Одной из лучших на сегодняшний день является система «Видимая речь III», разработанная фирмой IBM [30]. Кьюли Д. и др. [31 - 33] разработали систему ISTRA, которая работает на принципах, схожих с системой «Видимая речь», но имеет плату распознавания изолированных слов с настройкой на диктора. Среди отечественных ученых можно отметить работу Аграновского A.B. [38], который разработал систему «Контроль произношения». Данная система постановки произношения также проводит сравнение речи диктора с некоторым эталоном.
Однако, как было выяснено Нери А. [39], основной недостаток систем, построенных по принципу сравнения с эталоном, состоит в том, что даже при очень хорошем произношении речь обучаемого и эталон могут иметь совершенно разные спектры или формы во времени. Кроме того, получаемые результаты достаточно трудно интерпретировать, поскольку нет простого соответствия между артикуляционными движениями и отображаемыми результатами.
Перечисленные выше направления автоматического анализа и распознавания речи в настоящее время реализуются при помощи теории распознавания образов [40]. В рамках данной теории решаются следующие основные задачи: классификация, распознавание и группирование образов. Основное различие между данными задачами заключается в доступной априорной информации.
Задача классификации (распознавания без обучения) заключается в определении по описанию объекта того класса, к которому он принадлежит. При этом решающие правила считаются известными. В рамках дискриминантного [41, 42] подхода это означает, что известны поверхности, разделяющие классы в пространстве признаков, так что для любого объекта, представленного точкой в этом пространстве, можно определить, в какой области он расположен. В рамках синтаксического (лингвистического) подхода [43 - 46] эта задача соответствует ситуации, в которой известны грамматики для соответствующих классов и требуется провести грамматический разбор: определить, является ли структурное описание объекта предложением, синтаксически правильным по отношению к какой-либо из этих грамматик.
Задача распознавания (обучения с учителем) заключается в построении решающих правил, которые считались известными в задаче классификации. В качестве исходной информации здесь выступает обучающая выборка. Каждый элемент выборки представляет собой описание объекта и соответствующий этому объекту класс. В дискриминантном подходе задача распознавания сводится к построению поверхностей в пространстве признаков, разделяющих заданные в обучающей выборке множества точек. В синтаксическом методе обучения эта задача превращается в задачу обучения грамматикам, т.е. восстановлению грамматик по заданным наборам правильно и неправильно построенных предложений. Решение задачи распознавания должно быть таковым, чтобы обеспечить наиболее высокое качество дальнейшей классификации неизвестных объектов.
Задача группирования (кластеризации) заключается в определении пространства классов, которое требуется сформировать, опираясь на заданный набор образов, не разбитый на классы в отличие от задачи распознавания с учителем. Одной из первых работ, посвященной данной проблеме, была работа Тайрона Р.К. [47].
Формирование классов в задаче группирования соответствует разбиению исходного множества образов на подмножества согласно некоторому критерию качества. Критерий качества группирования должен отвечать на вопросы: почему нельзя объединить все объекты в один класс, или, напротив, ввести для каждого объекта собственный класс? Чем хуже такие разбиения некоторого разбиения с промежуточным числом классов?
Для ответа на эти вопросы необходимо определить понятие близости или сходства образов, поскольку требуется, чтобы подмножества, на которые производится разбиение, включали в себя объекты в некотором смысле более похожие на объекты того же подмножества, чем на объекты, отнесенные к другим подмножествам. В дискриминантом подходе близость объектов трактуется как расстояние между соответствующими точками в пространстве а группирование — как выделение кластеров — компактно расположенных наборов точек. В связи с этим в рамках дискриминантного подхода задача группирования часто называется задачей кластеризации.
В настоящее время наиболее распространенным подходом при решении перечисленных выше задач анализа и распознавания речи является статистический (байесовский) подход [48]. В его рамках РЕ представляются гауссовой моделью сигналов и моделируются набором классов. Подобный подход имеет ряд существенных недостатков, таких как невысокая точность и надежность. Для устранения указанных недостатков проф. Савченко В.В. была разработана новая информационная теория восприятия речи (ИТВР) [49], основной которой служит критерий минимального информационного рассогласования (МИР) [50] и кластерная модель речевых единиц. В настоящее время ИТВР можно считать одной из наиболее перспективных ветвей развития акустической теории речеобразования [59 - 69].
Информационная теория восприятия речи в своей идеологии следует в русле гипотезы Л.А. Варшавского и И.М. Литвака о том, что качество звуков зависит, в основном, от уровня соотношений мощности в разных спектральных полосах, а форманты (максимумы в спектре) являются лишь доступным способом достижения необходимых межполосных соотношений. Проблема состоит в том, что особенности частотных спектров сильно варьируются (изменяются произвольным образом) не только от одной речевой единицы к другой, но и от одного диктора к другому в пределах одной и той же речевой единицы и даже в пределах одного диктора в зависимости от времени суток, его эмоционального состояния и других второстепенных факторов. Данный эффект в теории обработки речи известен как проблема вариативности устной речи. Информационная теория восприятия речи предлагает строгий подход к ее решению — на основе теоретико-информационного определения самого понятия «фонема».
Можно утверждать, что одноименные реализации хгу, у = 1,Jr »1 в сознании человека группируются в соответствующие классы или образы речевых единиц Хг = [хг;}, г = 1, Я вокруг некоторого центра - эталонной метки данного образа [70, 71]. В информационной теории восприятия речи указанные эталоны определяются в строгом теоретико-информационном смысле [72]: речевая метка х* с Хг образуется как информационный центр-эталон г-го речевого образа, если в пределах множества Хг она характеризуется минимальной суммой информационных рассогласований (ИР) по Кульбаку-Лейблеру относительно всех других его меток-реализаций хг ;, / = 1,3г, т. е. = (0.1) Здесь р(*) - информационное рассогласование по Кульбаку-Лейблеру [50].
Таким образом, именно в понятии информационного центра (ИЦ) г-го множества реализаций Хг дается наиболее информативное описание свойств соответствующей речевой единицы. Само же множество формируется путем разбиения анализируемого речевого сигнала Х{{) на ряд последовательных сегментов данных х(?) длительностью 10 — 15 мс [73]. Именно на таких временных интервалах речевой сигнал можно считать стационарным. После этого каждый такой парциальный сигнал рассматривается в пределах конечного списка фонем {Хг} и отождествляется с той Ху из них, которой отвечает минимум информационного рассогласования между вектором х(/) и соответствующим эталоном х*, у<К. На рис. 0.1 показана иллюстрация сформулированного выше определения кластерной модели речевых единиц. О
О о
Рис. 0.1 — Кластерная модель
Показано [51, 52], что при несущественных ограничениях данная кластерная модель РЕ охватывает фонетический (звуковой) строй национального языка. Ее применение в задачах распознавания и анализа речи позволило существенно сократить вычислительную сложность используемых для этого алгоритмов (по сравнению с СММ и ИНС) и повысить точность их работы.
Кроме того, кластерная модель позволяет существенно снизить требования к объему обучающей выборки в задаче автоматического распознавания речи. Если скрытой марковской модели для уверенного обучения требуется не менее 20 реализаций каждого слова из распознаваемого словаря, то при использовании кластерной модели для обучения достаточно всего нескольких (в идеальном случае одного) эталонных реализаций каждого слова. Это позволяет не только существенно снизить требования к объему обучающей выборки, но и сократить временные затраты на обучение системы распознавания речи.
Исследованию и практическому применению рассмотренной кластерной модели речевых единиц посвящена данная диссертационная работа.
Объект исследования. Объектом исследования в диссертационной работе является устная речь, ее математические модели и методы обработки.
Предмет исследования. Предметом исследования в диссертационной работе выступает кластерная модель элементарных речевых единиц (ЭРЕ) и критерий минимального информационного рассогласования.
Цель диссертационной работы. Целью диссертационной работы является разработка эффективных (по точности и скорости вычислений) алгоритмов автоматического анализа, распознавания и обучения речи на основе кластерных моделей элементарных речевых единиц.
Задачи исследования. Для достижения поставленной цели в ходе выполнения диссертационной работы были решены следующие основные задачи:
1. Разработка алгоритма распознавания речи на основе кластерной модели элементарных речевых единиц и исследование его эффективности в задаче распознавания изолированных слов.
2. Экспериментальная оценка выигрыша в скорости вычислений в задаче распознавания речи с использованием кластерной модели элементарных речевых единиц.
3. Разработка адаптивной кластерной модели элементарных речевых единиц и ее экспериментальное исследование в задаче фонетического анализа речи.
4. Разработка новой технологии информационного обеспечения с использованием кластерной модели речевых единиц для решения задачи обучения речи и постановки произношения.
Методы исследования. Для решения поставленных задач в работе используются методы теории информации, теории вероятностей, математической статистики.
Научная новизна работы состоит в следующем:
1. Разработан новый алгоритм распознавания речи, основным отличием которого от существующих аналогов является применение кластерной модели элементарных речевых единиц на основе критерия минимального информационного рассогласования, что позволило повысить эффективность распознавания речи.
2. Предложена кластерная модель элементарных речевых единиц, направленная на решение проблемы вариативности речи, основное отличие которой от существующих аналогов состоит в возможности адаптации (автоматического наполнения) в процессе анализа речи.
3. На основе предложенной адаптивной кластерной модели разработана новая технология информационного обеспечения с визуализацией данных в задаче обучения речи и постановки произношения. Ее основным отличием от существующих аналогов является применение двух разновидностей кластерной модели речевых единиц: фонетической и морфологической.
Практическая ценность диссертации обусловлена рядом обстоятельств, а именно:
1. Разработанный алгоритм распознавания речи может применяться в системах автоматического распознавания речи с большим словарем или в условиях ограниченных вычислительных ресурсов (например, в сотовых телефонах или других встраиваемых платформах).
2. Получены экспериментальные оценки выигрыша по эффективности алгоритма автоматического распознавания речи на основе кластерной модели элементарных речевых единиц по сравнению с распространенными на практике методами на основе скрытых марковских моделей.
3. Предложенная адаптивная кластерная модель элементарных речевых единиц может применяться при создании новых и обновлении существующих фонетических баз данных, которые, в свою очередь, широко используются в поисковых и справочных системах, системах голосового управления и т.д. 4. Разработанная технология информационного обеспечения задачи обучения речи и постановки произношения может быть использована в процессе реабилитации детей-инвалидов с частичной или полной потерей слуха, а также при изучении иностранных языков.
Результаты внедрения. Полученные в диссертации результаты, в частности, адаптивная кластерная модель ЭРЕ, были использованы в итоговом отчете по проекту РФФИ № 07-07-12042-офи «Разработка и создание информационной теории восприятия речи на основе критерия минимума информационного рассогласования», а также в итоговом отчете по проекту РГНФ №09-06-12125в «Разработка информационной системы обучения речи глухонемых и слабослышащих». Созданная информационная система прошла апробацию в городской школе-интернате для глухих и слабослышащих детей и подростков г. Нижнего Новгорода.
Решением Ученого совета результаты диссертационной работы внедрены в учебный процесс НГЛУ им. H.A. Добролюбова. Кроме того, результаты диссертационной работы внедрены в учебный процесс НГТУ им. P.E. Алексеева по дисциплине «Теория сигналов» по темам «Анализ и распознавание речи» и «Адаптивная обработка случайных процессов» в виде компьютерной программы, реализующей разработанные алгоритмы.
Результаты диссертационной работы также внедрены в инновационный проект № 7630р/10278 «Разработка фонетического детектора лжи» в ООО «Системы речевых коммуникаций». Разработка ведется при поддержке Фонда содействия развитию малых форм предприятий в научно-технической сфере.
Апробация работы. Материалы диссертационной работы докладывались и обсуждались на трех научных всероссийских конференциях «Информационные системы и технологии» (Нижний Новгород, НГТУ им.
Р.Е.Алексеева, 2007 — 2010 гг.) и на ежегодной международной открытой конференции «Современные проблемы информатизации» (Воронеж, 2010 г.).
Публикации. Результаты исследований опубликованы в пятнадцати работах, в том числе в восьми статьях, пять из которых - статьи в журналах, рекомендованных ВАК: «Известия вузов России. Радиоэлектроника», «Системы управления и информационные технологии», «Вестник Нижегородского университета им. Н.И. Лобачевского». Полный список публикаций приведен в списке литературы.
Основные положения, выносимые на защиту.
1. Алгоритм распознавания речи с нормировкой элементарных речевых единиц и ограничением величины решающей статистики на основе кластерной модели элементарных речевых единиц.
2. Адаптивная кластерная модель элементарных речевых единиц на основе критерия минимального информационного рассогласования, формирование которой происходит в процессе анализа устной речи.
3. Технология информационного обеспечения при обучении речи и постановке произношения, ключевым звеном которой является применение двух разновидностей кластерной модели речевых единиц (фонетической и морфологической), когда речь обучаемого сравнивается не с одним, а с целым набором эталонов.
Структура и объем работы. Диссертационная работа включает введение, четыре главы, заключение, список используемой литературы и приложения. Вся работа изложена на 141 странице текста, включающих в себя 12 страниц приложений, 51 рисунок, 15 таблиц. Количество библиографических ссылок - 118.
Заключение диссертация на тему "Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования"
Выводы по главе
Благодаря применению кластерной модели РЕ была разработана новая технология информационного обеспечения в задаче обучения речи людей с дефектами в органах слуха. На рис. 4.20 представлена схема учебного процесса на ее базе.
Рис. 4.20 - Схема обучения произношению при помощи разработанной технологии
Особенностью данной технологии является новый метод визуализации данных в информационной метрике Кульбака-Лейблера, основанный на двух разновидностях кластерных моделей речи: фонетической и морфологической. При смене этих двух моделей кардинально не меняется ни интерфейс, ни схема обучения. Меняется лишь содержание эталонной базы данных: вместо отдельных звуков-фонем в нее войдут отдельные звукосочетания, целые слова и даже короткие фразы. Критерий МИР (1.7) в принципиальном отношении также не изменится: в нем в качестве интегрального показателя величины информационного рассогласования по каждому слову целиком используется суммарная величина ИР (1.14) по группе всех фонем слова [106]. При этом дополнительно применяется лишь стандартная процедура выравнивания темпа речи диктора-обучаемого и диктора-эталона [83].
Было показано, что обучение глухих детей произношению по разработанной технологии позволяет им улучшить собственно произношение. Об этом наглядно свидетельствуют показатели качества речи каждого из них. У всех обучаемых уровень нечеткости речи (процент ошибок) к концу обучения снизился на 10 — 20%.
Рассмотренная технология может использоваться не только при обучении речи глухих и слабослышащих, но и при решении задачи обучения иностранным языкам и диалектам. Одна из основных проблем при изучении иностранного языка заключается во влиянии звуков национального языка на произношение звуков изучаемого языка. Все это оказывает негативное влияние как на восприятие, так и на артикуляцию. Разработанная система может быть успешно использована при решении данной проблемы. Кроме того, с помощью режима тестирования качества речи обучаемый может контролировать произношение не только отдельных звуков, но так же и общее качество своей речи.
Заключение
Рассмотренный теоретико-информационный подход в задачах фонетического анализа речи, по-видимому, не имеет серьезных альтернатив ввиду острейшей проблемы вариативности устной речи. Данная проблема заключается, прежде всего, в особенностях речевого механизма человека. У разных людей речевой механизм сильно разнится по своим параметрам, например, по частотным характеристикам его модели «акустической трубы». Последняя, кроме того, может сильно варьироваться под действием целого ряда факторов: времени суток, эмоционального состояния диктора и т.п. Как результат, даже одноименные речевые метки от одного и того же диктора, разнесенные между собой во времени и в пространстве, могут иметь существенно разные автокорреляционные (статистические) свойства. И здесь логично возникает идея объединения близких друг другу по своему звучанию, однородных в теоретико-информационном смысле элементарных речевых единиц в соответствующие фонемы-кластеры. Это базовое положение информационной теории восприятия речи.
Благодаря проведенным исследованиям в диссертации получены следующие основные результаты:
1. Разработан новый алгоритм распознавания речи, особенностью которого является применение кластерной модели элементарных речевых единиц, критерия минимального информационного рассогласования и амплитудного ограничения на величину решающей статистики.
2. Проведены экспериментальные исследования предложенного алгоритма распознавания речи. Показано, что данный алгоритм характеризуется значительным (в 2 - 5 раз) выигрышем по своей вычислительной сложности по сравнению с известными аналогами.
3. На основе критерия минимального информационного рассогласования разработана адаптивная кластерная модель элементарных речевых единиц в информационной метрике Кульбака-Лейблера, формирование которой происходит непосредственно во время анализа потока речи. Ее точность и надежность регулируются выбором двух основных параметров: порога по величине информационного рассогласования и порога по длительности элементарных речевых единиц. С учетом эффекта насыщения, даны экспериментальные оценки их оптимальных значений. Показано, что эти оценки распространяются на разных дикторов.
4. В лабораторных и натурных условиях проведено экспериментальное исследование адаптивной кластерной модели элементарных речевых единиц. Создана кластерная фонетическая база данных на основе речи жителей нижегородского языкового ареала. Показано, что наибольшие фонетические различия в произношении наблюдаются у жителей севера и юга Нижегородской области.
5. На основе разработанной адаптивной кластерной модели элементарных речевых единиц и критерия минимального информационного рассогласования создана новая технология информационного обеспечения при обучении речи и постановке произношения у глухих и слабослышащих лиц.
6. Для апробации и исследований предложенной технологии был разработан лабораторный макет информационной системы обучения речи с визуализацией речевого сигнала по критерию минимального информационного рассогласования. Исследования в натурных условиях подтвердили высокую эффективность разработанной технологии.
На основании полученных результатов можно сделать следующие выводы:
1. Использование ограничения в решающей статистике позволяет учитывать только информативные сегменты, что повышает надежность работы систем автоматического распознавания речи.
2. Благодаря направленным свойствам решающей статистики МИР можно значительно сократить вычислительные затраты в системах автоматического распознавания речи.
3. Разработанная адаптивная кластерная модель элементарных речевых .единиц может найти широкое применение при создании новых и обновлении существующих речевых баз данных.
4. Разработанная информационная система обучения речи может найти практическое применение не только при постановке речи и обучении языкам, но и в исследовательских целях, например, при сравнительном анализе качества произношения разных дикторов, анализе зависимости их произношений от внешних факторов, в частности, эмоционального состояния и т.п.
Из сделанных выводов следует, что предложенные в диссертационной работе алгоритмы на основе кластерной модели элементарных речевых единиц могут иметь практическое применение при решении широкого круга актуальных задач в области анализа, распознавания и обработки речи. Например, это задача разработки разнообразных речевых корпусов в пределах национального языка - как от отдельных его носителей, так и их групп, объединенных по признакам пола, года рождения, места жительства и т.п. с автоматическим наполнением и непрерывным развитием (модернизацией) во времени. На этом примере проявляются все основные преимущества кластерной модели элементарных речевых единиц: высокая чувствительность к рассогласованию данных, способность к эффективной выборочной адаптации, минимум вычислительных затрат и требований к объему запоминающих устройств и другие. Сама идея информационного центра-эталона речевого образа здесь приобретает очевидный практический смысл и дополнительное обоснование.
К числу приоритетных направлений практического применения принадлежит также область современной прикладной лингвистики в части теории и практики преподавания иностранных языков. Разработанная информационная система обучения речи позволяет существенно расширить арсенал используемых здесь технических и программных средств, особенно для самостоятельной работы учащихся.
Библиография Губочкин, Иван Вадимович, диссертация по теме Теоретические основы информатики
1. Ли У.А. и др. Методы автоматического распознавания речи: В 2-х книгах.
2. Пер. с англ. /Под ред. У. Ли. М.: Мир, 1983. - Кн. 1. 328 е., ил.
3. Потапова Р. К. Речь: коммуникация, информатика, кибернетика. М.: Радиои связь, 2003. 563 с.
4. Rabiner L. A tutorial on Hidden Markov Models and Selected Applications in
5. Speech Recognition // Proceedings of the IEEE, 1989, Vol. 77 no. 2, pp. 257285.
6. Винцюк Т.К. Распознавание слов устной речи методом динамическогопрограммирования. // Кибернетика, 1968, № 1, с. 81 — 88.
7. Sakoe, Н., Chiba, S., "Dynamic Programming Algorithm Optimization for
8. Spoken Word Recognition", IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. 26, 1978, pp. 43-49.
9. M.M. Hochberg, L.T. Niles, J.T. Foote, and H.F. Silverman, "Hidden Markov
10. Model/Neural Network Training Techniques for Connected Alphadigit Speech recognition" in Proceedings IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 109-112, Toronto, Ontario, Canada, April 1991.
11. P. Haffner, M. Franzini, and A. Waibel, "Integrating Time Alignment and
12. Neural Networks for High Performance Continuous Speech Recognition," in Proceedings IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 105-109, Toronto, Ontario, Canada, April 1991.
13. J. Picone, "Continuous Speech Recognition Using Hidden Markov Models,"
14. EE ASSP Magazine, vol. 7, no. 3, pp. 26-41, July 1990.
15. Галунов В.И., Соловьев A.H. Современные проблемы распознавания речи
16. Информационные технологии и вычислительные системы, 2004, №2.
17. Минский М. Л., Пейперт С. Персептроны. -М.: Мир. 1971.
18. Головко В. Нейроинтеллект: Теория и применения. Книга 1. Организация и обучение нейронных сетей с прямыми и обратными связями Брест: БПИ, 1999, — 260С.
19. В.И.Левенштейн, Двоичные коды с исправлением выпадений, вставок и замещений символов, Докл. АН СССР, 163, 4, 1965, 845-848. р.
20. Baum L.E., Petrie Т. Statistical inference for probabilistic functions of finite state Markov chains. // Ann. Math. Stat. Vol. 37, pp. 1554 1563, 1966.
21. Baum L.E., Egon J.A. An inequality with application to statistical estimation for probabilistic functions of Markov process and to a model for ecology. // Bull. Amer. Meteorol. Soc., vol. 73, pp. 360 363, 1967.
22. Baum L.E., Sell G.R. Growth functions for transformations on manifolds. // Рас. J. Math., vol. 27, no. 2, pp. 211 227, 1968.
23. Baker J.K. "Stochastic modeling for automatic speech understanding" in Speech Recognition, D.R. Reddy, Ed. New York: Academic Press, 1975, pp.521 -542.
24. Baker J.K. The DRAGON system An overview. // IEEE Trans. Acoust. Speech, Signal Processing, vol. ASSP-23, pp. 24 - 29, 1975.
25. Lowerre B.T. The HARPY speech understanding system. Unpublished Ph.D. dissertation, Dept. of Comput. Sci., Carnegie-Mellon Univ., Pittsburg, PA, 1976.
26. Liporace L.R. Maximum likelihood estimation for multivariate observations of Markov sources. // IEEE Trans. Inform. Theory, IT-28:729 734, September 1982.
27. Juang B.H., Levinson S.E., Sondhi S.M. Maximum likelihood estimation for multivariate mixture observations of Markov chains. // IEEE Trans. Inform. Theory, Vol. IT-32, No.2, pp.307-309, Mar. 1986.
28. Левинсон C.E. Структурные методы автоматического распознавания речи. // ТИИЭР, т. 73, № 11, 1985. с. 100 128.
29. Потапова Р.К. Основные тенденции многоязычной корпусной лингвистики. // Речевые технологии. № 2, 2009. с. 92 — 114.
30. Е.В. Бенедиктова, Д.Н. Лавров Идентификация диктора по фиксированному набору частот с помощью линейного классификатора. // Математические структуры и моделирование. 2008, вып. 18, с. 108-115.
31. Campbell J. P. Speaker recognition: a tutorial. Proc. IEEE. Vol. 85, N. 9. 1997. P. 1437-1462.
32. B. S. Atal, "Automatic recognition of speakers from their voices," Proc. IEEE, vol. 64, pp. 460—475, 1976.
33. G. R. Doddington, "Speaker recognition—Identifying people by their voices," Proc. IEEE, vol. 73, pp. 1651-1664, Nov. 1985.
34. S. Furui, "Speaker-dependent-feature extraction, recognition and processing techniques," Speech Commun., vol. 10, pp. 505—520, 1991.
35. A. E. Rosenberg and F. K. Soong, "Recent research in automatic speaker recognition," in Advances in Speech Signal Processing, S. Furui and M. M. Sondhi, Eds. New York: Marcel Dekker, 1992, pp. 701-738.
36. Rossiter D., Howard D.M., Downes M. "A realtime LPC based vocal tract area display for voice development", 1993, Voice Foundation's 22nd Anniversary Symposium: Care of the Professional Voice, June, Philadelphia, Pennsylvania.
37. Benedetto M.D., Destombes F., Merialdo В., and Tubach J.P. "Phonetic recognition to assist lipreading for deaf children", 1982, Proc. IEEE ICASSP-82.
38. Kewley Port D., Watson C.S., and Cromer P.A "The Indiana Speech Training Aid ISTRA: A microcomputer-based aid using speaker-dependent speech recognition". Synergy '87, The 1987 ASHF Computer Conference, Proceedings, pp. 94 - 99.
39. Kewley-Port D., Watson C.S., Elbert M., Maki K., Reed D. "The Indiana Speech Training Aid ISTRA II : training curriculum and selected case studies", 1991, Clinical Linguistics and Phonetics, vol. 5.
40. Watson C.S., Kewley-Port D. "Advances in Computer-based speech training (CBST): Aids for the profoundly hearing impaired", in Research on the Use of Sensory Aids for Hearing-Impaired Persons, N. McGarr, (Ed.), Volta Review, 91(4), 29-45, 1989.
41. Fitzgerald M., Gruenwald A., Stoker R., "Software review Video Voice Speech Training System", 1989, Review, vol. 89, pp. 171-173.
42. Rodellar V., Nieto V., Gomez P., Martinez D., and Perez M. (1994), "A Neural Network for Phonetically Decoding the Speech Trace". Proc. 1994 International Conference on Spoken Language Processing (ICSLP94) pp 1575 1578.
43. Rooney E., Jack M., Lefevre J., and Sutherland A. "HARP A speech training aid for the hearing impaired", 2nd TIDE Congress, La Villette, Paris, 26th-28th April 1995.
44. A. Neri, С. Cucchiarini, Н. Strik. Feedback in Computer Assisted Pronunciation Training: technology push or demand pull? Proceedings of ICSLP 2002, Denver, USA, pp. 1209-1212.
45. Потапов A.C. Распознавание образов и машинное восприятие: Общий подход на основе принципа минимальной длины описания. СПб.: Политехника, 2007. - 548 с.
46. Нильсон Н. Обучающиеся машины, «Мир», 1967.
47. Meisel W. Computer-Oriented Approaches to Pattern Recognition, Academic Press, New York, 1972.
48. Narasimhan R. A Linguistic Approach to Pattern Recognition // Rep. 121, Digital Computer Lab., Univ. of Illinois, Urbana, 1962.
49. Miller W.F., Shaw A.C. Linguistic methods in picture processing A survey // Proc. AFIPS Fall Joint Comput. Conf. 1968. - pp. 279 - 290.
50. Завалишин H.B., Мучник И.Б. Лингвистический (структурный) подход к проблеме распознавания образов. // Автоматика и телемеханика. 1969, № 8. сс. 86-118.
51. Фу К. Структурные методы в распознавании образов. М.: Мир, 1977. -320 с.
52. Tyron R.C. Cluster Analysis: Ann Arbor, MI, Edwards Brothers, 1939.
53. Фукунага К. Введение в статистическую теорию распознавания образов. Пер. с англ. -М.: Наука. 1979, 368 с.
54. Савченко В.В. Информационная теория восприятия речи // Известия вузов. Радиоэлектроника. 2007. Вып.6. С. 10-14.
55. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.
56. Савченко В.В. Фонема как элемент информационной теории восприятия речи. // Известия вузов России. Радиоэлектроника. 2008. Вып.4.
57. Савченко В.В. Теоретико-информационное обоснование гауссовой модели сигналов в задачах автоматической обработки речи. // Известия вузов России. Радиоэлектроника. 2008. Вып.1. с. 24-33.
58. Rabiner L.R., Juang В.-Н. Fundamentals of speech recognition. Prentice Hall, Englewood Cliffs, NJ, 1993.
59. Komanski R., Macukow B. Problems Connected with Application of Neural Networks in Automatic Face Recognition // ICAISC 2004, LNAI 3070, pp. 736-741, 2004.
60. Dempster A.P. Laird N.M., Rubin D.B. Maximum likelihood from incomplete data via the EM algorithm. // J. Roy. Stat. Soc., vol. 39, no. 1, pp. 1 38, 1977.
61. Zica Valsan, Inge Gavat, Bogdan Sabac и др. Statistical and Hybrid Methods for Speech Recognition in Romanian // International Journal of Speech Technology 5, 259-268, 2002.
62. Винцюк, Т. К. Организация вычислений при распознавании больших словарей // Автоматическое распознавание и синтез речевых сигналов: Сб. науч. тр. Киев, 1989.
63. Nuance speech recognition system, Version 8.0. Introduction to the Nuance system. / Nuance Communications, Inc. 2001. 122 p.
64. Helmholtz H. Die Lehre von der Tonempfindungen als physiologische Graudlage fur die Theorie der Musik, Brounschweig, 1870.
65. Chiba Т., Kajiama M. The vowel, its nature and structure. Tokyo, 1941.
66. Фант Г. Акустическая теория речеобразования. — М.: Наука, 1964.
67. Kent R.D. at al.(Eds) Papers in Speech Communication: Speech Production, Ac. Soc. of America, 1991.
68. Sondhi M.M. Model for wave propagation in a lossy vocal tract. J. Acoust. Soc. Amer., 55: 1070 1075, 1974.
69. Portnoff M.R. A quasi-one-dimensional digital simulation for the time varying vocal tract. Master's thesis, MIT, 1973.
70. Dunn H.K. The Calculation of Vowel Resonances and an Electrical Vocal Tract. J. Acoust. Soc. Amer., 22: 740 753, 1950.
71. Рабинер Л.Р., Шафер P.B. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. М.В. Назарова и Ю.Н. Прохорова. М.: Радио и связь, 1981.
72. Makhoul J. Linear prediction: A Tutorial Review. Proc. IEEE, vol. 63, pp. 561 -580, April 1975.
73. Makhoul J. Lattice Methods in Spectral Estimation, in Applied Time Series II, D.F. Findley, ed., Academic Press, Inc., New York, 1981. pp. 301 324.
74. Маркел Дж. Д., Грей А.Х. Линейное предсказание речи: Пер. с англ. / Под ред. Ю.Н. Прохорова и B.C. Звездина. М.: Связь, 1980.
75. Савченко В.В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т50. №3. С.309-314.
76. Савченко В.В., Акатьев Д.Ю., Шерстнев С.Н. Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования // Известия вузов. Радиоэлектроника. 2006. Вып.5. С. 10-14 .
77. Picone J. Signal Modeling Techniques in Speech Recognition Proceedings of the IEEE, vol.81, no 9, pp. 1215-1246, Sept. 1993.
78. Савченко В.В. Автоматическое распознавание речи методом .дерева на основе информационного (i? +1)-элемента // Изв. вузов России. Радиоэлектроника. 2006. Вып.4. С. 13 -22.
79. Савченко В.В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т.42. №4. С. 426-431.
80. Савченко В.В., Акатьев Д.Ю., Карпов Н.В. Автоматическое распознавание речевых единиц методом обеляющего фильтра. // Известия вузов. Радиоэлектроника. 2007. Вып.4. С.11-19.
81. Савченко В.В. Метод фонетического декодирования слов в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования. // Известия вузов России. Радиоэлектроника. 2009. Вып.5. с. 41 -49.
82. Марпл С.Л.-мл. Цифровой спектральный анализ и его приложения: Пер. с англ. М.: Мир, 1990. 584с.
83. Сорокин В.Н. Теория речеобразования. М.: Радио и связь, 1985.
84. Фланаган Дж.Л. Анализ, синтез и восприятие речи. Связь., М., 1968.
85. Levinson, S.C. Mathematical models for speech technology. Chichester, England: John Wiley & Sons Ltd, 2005, 261p.
86. Потапова P.K. Речь: коммуникация, информация, кибернетика: Учебное пособие: Изд. 2-е, доп. М.: Эдиториал УРСС, 2001.
87. Савченко В.В. Акатьев Д.Ю. Губочкин И.В. Автоматическое распознавание изолированных слов методом обеляющего фильтра // Изв. высших учебных заведений России. Радиоэлектроника. 2007. Вып. 5. С. 11-18.
88. Финк Л. М. Теория передачи дискретных сообщений. М.: Советское радио, 1970, 727с.
89. Levy С., Linares G., Nocera P., Bonastre J.-F. Reducing computational and memory cost for cellular phone embedded speech recognition system. IEEE International conf. on Acoust., Speech and Signal Processing. 2004. vol. 5, pp. 309-312.
90. Винцюк Т.К. Сравнение ИКДП- и НММ-методов распознавания речи. // Методы и средства информатики речи. Киев, 1991. с. 4 9.
91. Савченко А. В. Метод направленного перебора словаря в задаче автоматического распознавания речи на основе информационной теории восприятия // Сист. упр. и инф. технол. 2009. № 1. С. 44-54.
92. Drake A.W. Discrete-state Markov processes. Chapter 5 in Fundamentals of Applied Probability Theory. New York, NY: McGraw-Hill, 1967.
93. Viterbi A.J. Error bounds for convolutional codes and asymptotically optimal decoding algorithm. // IEEE Trans. Informat. Theory, vol. IT-13, pp. 260 — 269, Apr. 1967.
94. Савченко B.B., Акатьев Д.Ю. Автоматическое распознавание случайных сигналов по критерию минимального информационного рассогласования с переспросом. // Известия вузов России. Радиоэлектроника. 2006. Вып.1. С. 20-29.
95. Акатьев Д.Ю., Губочкин И.В. Распознавание речи по критерию минимума информационного рассогласования с обнаружением ошибок. Материалы конференции Информационные системы и технологии ИСТ 2007. Н. Новгород, НГТУ им. P.A. Алексеева, 2007. с. 225.
96. Савченко В.В., Акатьев Д.Ю., Губочкин И.В. Формирование фонетической базы данных из речевого сигнала на основе информационной теории восприятия речи. // Системы управления и информационные технологии. 2008. 4.1 (34). С. 193-198.
97. Савченко В.В., Губочкин И.В. Фонетический анализ речи методом переменного дерева. // Изв. вузов России. Радиоэлектроника. 2008. Вып. 3. С. 14-20.
98. Савченко В.В., Губочкин И.В. Оптимизация авторегрессионной модели сигналов в задаче автоматического распознавания речи. // Изв. вузов России. Радиоэлектроника. 2008. Вып. 2. С. 26-31.
99. Савченко В.В., Акатьев Д.Ю. Теоретико-информационное обоснование метода обеляющего фильтра в задачах автоматической обработки речи. // Системы управления и информационные технологии. 2008. №1 (31). С. 21-30.
100. Таблицы по математической статистике // П. Мюллер, П. Нойман, Р. Шторм. Пер. с нем. под ред. В.М. Ивановой. М.: Финансы и статистика, 1982.-278 с.
101. Савченко В.В., Акатьев Д.Ю., Губочкин И.В., Карпов Н.В., Пономарёв Д.А. Информационная система фонетического анализа слитной речи: Программа для ЭВМ. / Роспатент. Свидетельство о гос. регистрации № 2008615442 по заявке 2008614233 от 15.09.2008.
102. Савченко В.В., Акатьев Д.Ю., Губочкин И.В. Исследование звукового строя национального языка на основе информационной теории восприятия речи. // Вестник Нижегородского университета им. Н.И. Лобачевского. № 3(1), 2010. с. 215 222.
103. Pay Ф. Ф., Слезина Н. Ф. Методика обучения произношению в школе глухих.-М.: Просвещение. 1981.
104. Комаров К.В. Методика обучения русскому языку в школе для слабослышащих детей. М.: Оникс 21 век. 2005.
105. Кукушкина О.И., Королевская Т.К., Зеленская Ю.Б. Информационные технологии в обучении произношению. М.: Полиграф-Сервис. 2004.
106. Hartis A. Computer-Based Audio-Visual Feedback Using Interactive Visual Displays for Speech Training. PhD thesis. Department of Computer Science, University of Sheffield, 1999.
107. Brooks S., Fallside F., Gulian E., Hinds P. "Teaching vowel articulation with the computer vowel trainer: Methodology and results", 1981, British Journal of Audiology, vol. 15, pp. 151-163.
108. Савченко B.B. Информационная теория обучения речи // Изв. вузов России. Радиоэлектроника. 2009. Вып. 3. С. 3-12.
109. Савченко В. В., Савченко А. В. Принцип минимального информационного рассогласования в задаче распознавания дискретных объектов // Изв. вузов России. Радиоэлектроника. 2005. Вып. 3. С. 10-18.
110. Пономарев Д.А. Двухэтапный алгоритм обучения речи слабослышащих на основе информационной теории восприятия речи. // Информационные технологии. № 9, 2009. с. 73 77.
111. Савченко В.В., Акатьев Д.Ю., Губочкин И.В., Пономарёв Д.А. Автоматизированная система обучения речи глухонемых и слабослышащих: Программа для ЭВМ. / Роспатент. Свидетельство о гос. регистрации № 2009615092 по заявке 2009613925 от 20.07.2009.
112. Савченко В.В., Акатьев Д.Ю., Губочкин И.В. Автоматизированная система обучения речи на основе теоретико-информационного подхода. // Исследовано в России, 1243-1252, 2009. URL: http://zhurnal.ape.relarn.ru/articles/2009/099.pdf.
113. Акатьев Д.Ю., Губочкин И.В. Информационная система обучения речи глухих и слабослышащих на морфологическом уровне. Материалы конференции Информационные системы и технологии ИСТ — 2010. Н. Новгород, НГТУ им. P.A. Алексеева, 2010.
114. Макхоул Дж., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИИЭР, т. 73, № 11, 1985. с. 19 -61.
115. Губочкин И.В. Повышение вычислительной эффективности алгоритма распознавания речи на основе метода обеляющего фильтра. // Информационные технологии моделирования и управления. №6, 2010.
116. Винцюк Т.К. Анализ, синтез и интерпретация речевых сигналов. / Киев: Наук, думка, 1987. 264 с.
117. Gray A., Markel J. Distance measures for speech processing. // IEEE Trans. On Acoust., Speech and Lang, processing. Vol. 24 (5), oct. 1976. p. 380 291.
-
Похожие работы
- Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи
- Разработка метода направленного перебора альтернатив в задачах классификации объектов на основе теоретико-информационного подхода
- Разработка системы автоматического формирования фонетической базы данных на основе информационной теории восприятия речи
- Алгоритмы распознавания типов комбинированных помех для обнаружителей радиосигналов
- Повышение показателей качества радиотехнических устройств обобщённой спектрально-корреляционной обработки речевых сигналов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность