автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи
Автореферат диссертации по теме "Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи"
На правах рукописи
Нгуен Ван Хунг
Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи
Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
2 5 НОЯ 2010
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Москва-2010
004614239
Работа выполнена в ГОУ ВПО «Московский энергетический институт (технический университет)» на кафедре Вычислительных машин систем и сетей (ВМСиС) института Автоматики и вычислительной техники (АВТИ).
Научный руководитель: кандидат технических наук, доцент
Евсеев Анатолий Ильич Официальные оппоненты: доктор технических наук, профессор
Вагин Вадим Николаевич, кандидат технических наук, с.н.с. Жигулевцев Юрий Николаевич Ведущая организация: Вычислительный Центр Российской Академий
Наук (г. Москва)
Защита состоится «¿6» н.ая^Я, 2010 г. в час. по мин. На заседании диссертационного совета Д 212.157.01 при Московском энергетическом институте (техническом университете) по адресу: Москва, Красноказарменная ул., д. 17, ауд.
Г-310.
С диссертацией можно ознакомиться в библиотеке Московского энергетического института (технического университета).
Отзывы в двух экземплярах, заверенные печатью, просим направлять по адресу: 111250, Москва, Красноказарменная ул., д. 14, Учёный совет МЭИ (ТУ).
Автореферат разослан «_» ОМя.>с[р.$, 2010 г.
Учёный секретарь
диссертационного совета Д 212.157.01 кандидат технических наук, доцент
М. В. Фомина
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
ктуальность темы
Естественное, языковое общение является для человека самым удобным и ривычным. Поэтому неудивительно, что учёные и инженеры на протяжении многих лет ешают проблему речевого общения человека и машины. Основная задача речевого штсрфейса - понимать человеческую речь и правильно реагировать на нее. Проблема остоит в том, чтобы научить устройство понимать без посредника тот язык, на котором оворят люди между собой, то есть придумать алгоритм распознавания звукового сигнала ечи. Этим и занимается технология распознавания речи.
Эта задача поставлена более 60 лет назад, но полученные решения ещё не овершенны. Это показывает, что распознавание речи является сложной проблемой. Таким бразом, проблема исследования распознавания речи человека является актуальной с рактическим применением даже в частных решениях, ель диссертационной работы
Основная цель диссертационной работы заключалась в исследовании методов аспознавания речи и разработке программ автоматического распознавания ограниченного абора команд вьетнамской речи. Для достижения этой цели в ходе выполнения иссертационной работы решались следующие основные задачи:
1. Обзор существующих методов автоматического распознавания речи.
2. Исследование особенностей произношения вьетнамской речи, влияющих на методы распознавания речи.
3. Разработка методов и алгоритмов распознавания вьетнамской речи.
4. Программная реализация предлагаемых алгоритмов и демонстрация результатов поэтапной обработки речевого сигнала.
етоды исследований
В работе использовались методы математического анализа, методы цифровой бработки сигнала, теории распознавания образов и теории вероятностей, аучная новизна
Научная новизна диссертационной работы заключается в том, что предложено ескольких новых методов:
1. Проведена модернизация алгоритма обнаружения речи (начала и конца речевого сигнала) на фоне шума.
2. Предложен метод сегментации слитных речевых словосочетаний вьетнамского языка на отдельные слоги, соответствующие вьетнамским словам.
3. Предложен метод разбиения голосовых участков речи на квазипериоды, равные периодам основного тона.
4. Предложен метод формирования динамики формант по результатам спектрального анализа. Отображение их в графическом виде может применяться для изучения произношения и разработки методов распознавания слов и фраз.
5. Предложен метод формирования эталонов для распознавания слов и фраз, основанный на особенностях вьетнамской речи. На его основе, предложены и реализованы два метода сравнения параметров входного сигнала с эталонами, хранящимися в базе данных, для распознавания команд вьетнамской речи.
Практическая ценность диссертации
Предложены новые методы анализа речевого сигнала, новые методы распознавания ограниченного набора речевой команд на вьетнамском языке. Пока фундаментальные исследования по анализу вьетнамской речи ещё не публиковались.
Разработаны программы отображения звукового сигнала и результатов его анализа. Она позволяет экспортировать выходные параметры, полученные в результате анализа в файлы Excel и автоматически строить соответствующие графики. Программы могут быть полезны исследователям речевого сигнала и преподавателям, ведущим занятия в этой области.
Апробация работы
Полученные в работе научные и практические результаты докладывались на двух международных научно-технических конференциях «Информационные средства и технологии» (Москва, 2008 и 2009 г.г.). Личный вклад диссертанта
Все методы разработаны совместно диссертантом и его руководителем, а алгоритмы и программы, их реализация и проверка работоспособности реализованы лично диссертантом. Публикации
По материалам диссертации опубликовано 3 печатных работ, в том числе одна в журнале, входящем в список изданий, рекомендованных ВАК РФ. Список опубликованных работ приведён в конце автореферата.
Структура и объём работы
Диссертация состоит из введения, пяти глав, заключения, одного приложения и
библиографического списка использованных источников из 47 наименований. Общий объём работы составляет 128 страницы, в том числе 89 рисунков и 10 таблиц.
СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность темы диссертационной работы, поставлены цели и задача исследований, сформулированы научная новизна и практическая значимость, приведено краткое содержание работы по главам. В первой главе обоснованы:
- Проблема распознавания речи.
- Обзор методов распознавания речи и их классификации.
- Знакомство с особенностями вьетнамского языка, влияющими на проблему распознавания вьетнамской речи.
- Обоснованы конкретизация задачи и схема решения основных проблем диссертационной работы.
Целью исследования является разработка методов анализа речевых сигналов, применительно к распознаванию ограниченного набора команд вьетнамской речи. Исходные данные для разработки темы:
- словарь для распознавания состоит из 74 команд;
- каждая команда содержит 1, 2, 3 или 4 вьетнамского слова;
- команды произносятся слитно.
Из методов анализа выбираем метод спектрального преобразования Фурье. В области бработки звука преобразование Фурье является важным и наиболее часто используемым •шструментом.
Вьетнамский язык является односложным языком. Каждое отдельное слово оответствует лишь одному слогу. Система алфавита вьетнамского языка относится к истеме латинского языка. Всего вьетнамский алфавит содержит 29 букв:
А, А, А, В, С, Б, В, Е, Ё, й, Н, I, К, Ь, М, N. О, О, 0, Р, (2, Я, в, Т, и, Ц", V, X, У. Во вьетнамском языке существуют надстрочные знаки (над гласным), носителями ,оторых служат гласные, которые придают слову разнообразные тона - мелодии и мысловые значения.
Анализ и распознавание вьетнамской речи имеют свои особенности:
• слово состоит из одного ударного слога;
• слова не склоняются и не спрягаются, т.е. не изменяются в разных фразах;
• щелевой звук может быть лишь в начале слова.
На основе стандартного произношения, можно разделить страну Вьетнам на три сновных региона: северный (центр - столица Ханой), средний (центр - город Хуе) и
южный (центр - город Хо Ши Мин). Письменность в трёх регионах полностью идентична, но произношение в этих трёх регионах различно. Одно и то же слово имеет особенности произношения. В рамках данной темы, рассматриваем только проблему стандартного произношения в северной области Вьетнама.
Схема решения задачи показана на рисунке:
БЛОК 1 Получение и обработка входных сигналов.
БЛОК 2 БЛОК 3
Обнаружением Анализ и обработка
сегментация речевого речевого сигнала и
сигнала на слова. формирование эталонов.
БЛОК 4 Сравнение и показ результатов распознавания
Блок 1 выполняет функции получения входного сигнала от микрофона через звуковую
карту, сохранения в файл и в базу данных для обработки в последующем блоке.
Блок 2 обнаружение речевого сигнала на фоне шума и сегментирование его на слоги,
которые соответствуют вьетнамским словам.
Блок 5 используется для следующих функций:
- сегментация речевого сигнала слова на сегменты голосовых и шипящих звуков речи;
- голосовые звуки речи разбиваются на интервалы, равные длительности основного тона (квазипериоды);
- шипящие звуки речи анализируются на интервалах длительностью в 23,2 мс (соответствует 256 отсчётам сигнала при взятии отсчётов с частотой 11025 Гц);
- анализируются интервалы с помощью преобразования Фурье;
- вычисляются форманты и их динамика.
- образуются эталоны для распознавания.
Блок 4 реализует функцию сравнения входной фразы с эталонами, лежащими в базе данных, чтобы получить результат распознавания.
Во второй главе представлен метод получения звукового сигнала от микрофона. Представлен алгоритм обнаружения речи на фоне шума путём сравнения энергетических характеристик шума и речи.
Процесс ввода речевого сигнала в ЭВМ осуществляется параллельно с процессом его бработки. Звуковые данные входа записываются со стандартной частотой 11025 Гц, азрядностью 16 бит, типа моно.
Используется алгоритм для определения крайних точек речи на фоне шума. Он снован на сравнении изменений амплитуд сигнала с амплитудным порогом фонового ума. Определение момента окончания речи определяется из условия, что окончание лова можно принимать на уровне 1/30 от максимальной энергии в пределах 256 отсчётов или 23 мс.).
Входной сигнал записывается как последовательность отсчётов x¡.
Х=ха x¡, ... , х„ ... где / = 0, 1,2,...;
Значения отсчётов изменяются от -215 до 2|5-1 (-32768 -+32767).
Допустим, чю в интервале 25имс (2560 отсчетов) с момента включения микрофона меется только шум (на практике такое допущение обычно выполняется), тогда на этом частке можно определить характеристики шума. Используем 10 первых фреймов F°, F1, .., F9, где Fp=[xpX25(W), xpx256+iv, V256+255]; Р=0+9. Проведём для них быстрое реобразование Фурье (БПФ), получим 10 спектров А0, А1, ..., А9, где Ар=[АР(0), А„(1)„.., р(255)]. Из-за симметрии спектра, рассмотрим только Ар=[Ар(0), Ар(1),..., Ар(127)]. Порог для она шумов ПА = {п0, ni,..., п127} для каждого канала считаем по формуле:
n¡ = т\ + A(cr) х а-
де i = 0, 1,..., 127; а = 0,95; ¿(а) = 2,33; т", =
IM
- г-0.-
;1
10 ' )19 í \
Получим 128 значений амплитудного порога шума.
Речевой сигнал разобьём на фреймы по 256 отсчетов. Проведём для них реобразование БПФ. Если в спектре 15 амплитуд превышают порог, то считаем, что в том фрейме происходит начало слова.
Определим значения спектральных составляющих для всех фреймов после фрейма, оответствующего началу слова (A/i)), энергию фрейма (Су) и максимальную энергию реймов (С).
255 127
Z_ .2ЯХ1ХТП 1
*256хр+тХе J 256 ;Cf = 2JA}(.0\; C = max(Cf)
m=0 i=0
ели [с >£.|afc <—)иГс <£.), то это соответствует фрейму окончания слова. I M"30j 1 > 30j l 30J
Оценка поведения этого алгоритма, проводилась на нескольких вьетнамских словах и словосочетаниях. Ошибок в определении начала и конца речи не было.
В третьей главе, на основе особенностей вьетнамского языка, представлен новый алгоритм сегментации слитно произносимых речевых команд на слоги, соответствующие отдельным словам путём сравнения энергии короткого времени. Алгоритм основан на следующих положениях:
• вьетнамский язык является слоговым языком, каждое отдельное слово соответствует лишь одному слогу;
• каждый слог имеет слоговой пик, где энергия короткого времени сигнала достигает самой большой величины;
• дистанция между двумя ближайшими слоговыми пиками во вьетнамском словосочетании всегда сып:с 64 - 25 = 1600 шсчешв, что соответствует промежутку времени (1600 / 11025) х 1000 = 145,125 (мс);
• между двумя слоговыми пиками имеется точка, соответствующая границе, которая разделяет слоги. Точка границы соответствует самой малой энергии между пиками. Имеют место случаи, когда точка границы, где энергия сигнала имеет самое малое значение, является точкой окончания глухого шипящего, а не слога. В этом случае, исходя из того, что число переходов через нуль глухого шипящего согласного большое, можно определить точку его начала и эта точка является точкой-границей между слогами. Во вьетнамском языке глухой шипящий согласный всегда стоит в начале слова;
• число переходов через нуль глухого шипящего согласного во вьетнамском языке при принятой частоте дискретизации 11025 Гц всегда больше 17 переходов через нуль на 100 отсчетов.
Алгоритм проверен на 59 командах (словосочетаниях) содержащих 140 слогов произносимых на вьетнамском языке. Среди них были 40 команд, состоящих из двух слогов, 16 команд из 3 слогов и 3 команды из 4 слогов. В результате были разделены словосочетания на слоги, соответствующие отдельным словам.
Граничные точки словосочетания «Hien th'i trang in». Из-за сложности произношения и существования шум, иногда алгоритм даёт ошибки сегментации слов. В хорошем условии, точность алгоритма достигает до 95%. Чтобы
иметь возможность использовать его в условиях с большим уровнем шума, необходимо добавить функции по устранению помех.
В четвёртой главе речевой сигнал слова разделяется на шипящие и голосовые звуки путём вычисления значения числа переходов через нуль. Щелевой сигнал разбивается на интервалы длительностью в 256 отсчётов. Предложен новый метод разбиения голосовых участков речи на квазипериоды, равные периодам основного тона (о.т.) путём вычисления суммы последовательности отсчётов голосового сигнала.
Допустим, что голосовой звук находится в интервале #;, АО: X = Хщ, хН1+1, ...,х„ ..., вд где г = Н,,..., К,.
Вычислим суммарную последовательность {5у} из последовательности значений олосового сигнала {х,} по формуле:
Г, / ............«и = Хи
Ч ~ ¿;=Н! Хь1 = иь к.1- или в другом выражении: 5 х\ } = + 1.....
На рисунке (а и Ь) показаны неполный голосовой сигнал слова "Ва" и его суммарная оследовательность.
(а) 15000 1СЮОО
(Ь)
5000
о
-5000 ■10000 ■15000 ■70000
100000 80000 60000 40000 20000 О
-гоооо •40000 ■60000
■I • \.
? а а:
? 15 5. ¡8338 я
к ?: И Е
« е
) у ~ Ч ■«
•#
»> г. .. л а, & л ч .-V м -1 о. Я » .
■ > Л & >4 • & ** О О к I) ^ 4> 14 » ■
I .1 ^ ^ V Ч Л Л О О К Ъ к н,|| Ь 9 ,
Пример голосового речевого сигнала (а) и график его суммы (Ь). Точки локального максимума отмечены (*). Среди них ищутся свои локальные аксимумы отмечены (®). Разбиение речевых сигналов на квазипериоды определяется очками локальных максимумов
Разбиение производим тремя циклами. Первый цикл используется для удаления начений сумм слева от локального максимума. Второй цикл используется для удаления начений сумм справа. После этих двух циклов, получим все точки локальных
максимумов. Затем удалим ненужные локальные максимумы по следующему условию: Продолжительность интервалов о.т. попадает в диапазон от 3,7 до 14,5 миллисекунд, что соответствует от 41 до 160 отсчётов, или диапазону частот о.т. от 70 до 300 Гц.
На интервалах о.т. или 256 отсчётов рассчитываем спектры по дискретному преобразованию Фурье. Предложен новый метод формирования динамики формант по результатам спектрального анализа.
Для голосового сигнала, на каждом спектральном срезе (амплитудный спектр периода о.т.) найдем точки локального максимума и локального минимума. Если две точки локального максимума расположены близко друг к другу (расстояние их индексов равно 2), то они объединяются в одну зону. Затем, вычислим форманты каждой частотной зоны i-го среза по формуле:
Z'XfjXej) ,
г. __"1 Hv 1 I' „ _ v/к а
п (Зона) — е.(3она) и eiC3om)-lfvej
В вышеприведенной формуле, f„nfK: частоты начало и конца зоны, ej - доля энергии j-ой амплитуды в срезе. На спектральном срезе выделяются не более 4 зон с максимальной энергией.
Кроме того, было рассчитано среднее значение частоты i-ro спектрального среза в зонах Fj0 по формуле:
р _ fj х ej
г ¡° Среза _т-,/2
е)
Для щелевого сигнала, вычисляется только одна средневзвешенная частота по всему диапазону частот спектра.
Таким образом, речевой сигнал трансформируется в последовательность частотных срезов, а каждый срез состоит из формант и их энергии. Будем называть его формантный срез. Последовательность формантных срезов слова назовём формантной картиной слова. Из неё сформируем текущий спектр формант по всему слову по формуле:
XLifr" xekix e(k) х Fk ,) . Tk x 1000 = k'>--■ Где Tk = k ; i = 1,2.....n; j = 1,2,3,4.
ZUi(j*xewxe(k)) 11025
lk^(Tkxek,jXe(.k)) jk x 1000
вц = ZUT'xeW) :ЩеТ = ; = ".....- ' = ^
Речевой сигнал слога
Периоды (о.т. или 256 отсчётов)
П
-ч-
лосле
преобразования Фурье
Разбиение сигнала на пеойодь! о.т. или 256 отсчётоз
Д П: ... К - О* Ц= П. -( Г*
-4 " 1*1-*:.....
Г., количество отсчётоз
Л,..4;.....
ПресбрззсазнифПурье периодов Спектр периодов д: д; ^ _ дс.5 Д1
<-*->-<-»-<-X->
Расчёт частот и энергий пе)с
Комплекты Параметров (од, энергия,частота)
Комплекты параметров (0;Т, энергия,частота) после
нормирования
Комплекты параметров,
Д' Л' <-X-
V
я--<-у-
иплитуд внутри каждого
ода
Л" Л* ,
-х-И
НормнрОЕ
Е(к) .....
.....Ет„'
ие энеогии
0= 0= <-К->-
V
<У -
е(к)
СГ'^^П.....Рт*
*-> к-.....«г.
п
Определение <|>6р№знтш и их зон
(форманты, их зоны
относительные энергии)
■X-ь-
\/ й-
-<-->
I ЯЕ(Среза
Расчёт текущего спер}рз формант по слозу
Комплекте! параметров (текущие форманты, их_ энергии, зоны)
<-*-V-
у
л«
-Ч-*->
ей
О г.
г*
гг
е;0,е;1, е:2,е'3,г;4
Схема формантного анализа. После завершения процесса вычисления, получается комплект параметров соответствующих каждому слову. Ниже приводится таблица параметров слова "Ва".
¡ег^япа! 61
1епРепос1 46
¡51пуо|уе(1 РаГ5е
N0 Епег^у Регюйэ Р0 п Г2 РЗ Р4 еО е1 е2 еЗ е4
1 0.000 23.22 0 0 0 0 0 0 0.000
0 0.000 0.00 0 0 0 0 0 0 0.000 0.000 0.000 0.000
1 0.009 5.80 345 346 0 0 0 1 0.999 0.001 0.000 0.000
2 0.008 6.71 344 344 0 0 0 1 1.000 0.000 0.000 О.000
3 0.012 6.80 349 349 0 0 0 1 1.000 0.000 0.000 0.000
4 0.016 6.98 346 347 0 0 0 1 0.997 0.001 0,001 0.000
5 0.023 7.26 334 337 0 0 0 1 0.993 0.007 0.000 0.000
6 0,037 7,35 355 357 0 0 0 1 0.993 0.006 0.001 С.000
7 0.062 7.53 347 352 0 0 0 1 0.987 0.010 0.003 0,000
8 0.175 6.44 508 505 865 0 0 1 0.909 0.056 0.029 0.005
э 0.495 8.53 681 548 951 1357 0 1 0.803 0.043 0.148 0.006
10 0.415 8.07 1091 421 873 1478 2674 1 0.300 0.186 0.479 0.03S
11 0.647 7.98 1201 404 886 1528 2617 1 0.229 0.222 0.484 0.066
12 0.695 7.98 1024 431 900 1536 0 1 0.252 0.305 0.417 0.026
13 0.804 7.80 1113 415 889 1497 2651 1 0.264 0.270 0.410 0.056
14 0.672 7.89 841 416 890 1447 0 1 0.386 0.296 0.288 0.029
15 0.885 7.71 1063 420 900 1461 2624 1 0.250 0.316 0.400 0.034
16 0.903 7.80 940 392 894 1453 0 1 0,264 0.339 0.367 0.030
17 1.000 7.80 1031 404 900 1430 2598 1 0.249 0.348 0.368 0.035
18 0.919 7.71 962 417 906 1453 0 1 0.261 0.324 0.385 0.030
19 0.758 7.71 1074 426 909 1464 2624 1 0.294 0.265 0.387 0.054
20 0.758 7.62 1060 430 919 1500 2640 1 0.265 0.340 0.359 0.036
21 0.777 7.71 961 414 909 1494 0 1 0.247 0.382 0.343 0.029
22 0.573 7.62 994 438 921 1478 2711 1 0.316 0.363 0.283 0.038
23 0.487 7.62 342 446 537 1493 2669 1 0.379 0.351 0.235 0.035
24 0.424 7.71 863 440 907 1477 2669 1 0.442 0.352 0.169 0.037
25 0.379 7.62 904 442 912 1472 2699 1 0.426 0,351 0.167 0.055
26 0.315 7.71 741 431 S06 1490 0 1 0.500 0.305 0.167 0.028
27 0.276 7.62 730 429 918 1438 0 1 0.504 0.295 0.169 0.032
28 0.221 7.62 709 427 918 1400 0 1 0.520 0.287 0.159 0.033
29 0.187 7.71 660 404 910 1390 0 1 0.572 0.266 0.135 0.028
30 0.163 7.71 772 398 908 1423 2765 1 0.559 0.245 0.160 0.036
31 0.141 7.71 825 382 qfl5 276S 1 0.524 0.222 0.211 U.042
32 0.136 7.71 889 376 904 1507 2712 1 0.508 0.165 0.280 0.047
33 0.104 7.71 869 359 909 1514 2716 1 0.547 0.116 0.289 0.048
34 0.083 7.71 948 344 907 1553 2752 1 0.505 0.118 0.308 0.069
35 0.067 7.71 774 332 907 1563 0 1 0.530 0.148 0.297 0.025
36 0.050 7.71 820 314 916 1576 0 1 0.482 0.199 0.309 0.011
37 0.033 7.80 601 294 915 1551 0 1 0.637 0.202 0.147 0.014
38 0.027 7.71 521 269 917 1554 0 1 0.678 0.199 0.101 0.023
39 0.021 7.71 504 256 907 1552 0 1 0.706 0,168 0.110 0.016
40 0,016 8.89 399 232 882 1556 0 1 0.827 0.083 0.086 0.004
41 0.010 7.62 424 279 908 1605 0 1 0.843 0,078 0.074 0.006
42 0.010 7.80 297 262 899 0 0 1 0.906 0,066 0.021 0.006
43 0.006 8.62 342 247 909 1500 0 1 0.888 0.065 0.042 0.005
44 0.004 7.62 361 244 904 1571 0 1 0.866 0.086 0.046 0.003
45 0.001 5.53 608 412 940 1644 0 1 0.755 0.146 0.097 0.002
Описание параметров: lenSignal: длительность речевого сигнала. На этапе сегментации, входной сигнал делится на фреймы длиной 64 отсчёта. В приведенном выше примере, длительность сигнала будет 61 х 64 = 3904 отсчёта. lenPeriod: количество периодов основного тона.
islnvolved: если слово связанно с предыдущим, значение будет True, иначе False. №: номера частотных срезов, соответствующих периодам.
Energy: относительная энергия участков после их нормализации относительно участков с максимальной энергией.
Periods: длина участка квазипериода, рассчитанная в миллисекундах. F0: среднее значение частоты спектрального среза.
еО: доля энергии спектрального среза, вычисленная для частотных составляющих, вошедших в четыре формантные зоны. Fi: частота i-ой форманты.
ек доля энергии, приходящаяся на форманту / в данном спектральном срезе. Диаграмма распределения формант в приделах участков, равных о.т. для слова «Ва»:
зооо 2500 2000 1500 1000
Хх X х X XX Хххх
ХХХХХ
500
0 ^ШННИИКИХ-Х—■Х-'-Х—Х--Х-—Х-—г---ХХ-ХХ----г-ХХХХХХ-ХХХ-ХХ-— 1
5 10 15 20 25 30 35 40 45 50
Диаграмма таспоеделения текущих формант для слова «Ва»:
3000 2500
2000 1500 1000 500 0
ХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХХ
-ШГШШЖШйХ-------:----,------.--------.------т-------т-------.----
10
15
20
25
30
35
40
45
50
В пятой главе проведена организация базы данных для хранения входного сигнала, распознаваемого словаря и эталонов слов. Предложены новые методы формирования эталонов слов. Предложены и реализованы два метода сравнения параметров входного слова с эталонами, хранящимися в базе данных для распознавания слов и фраз.
База данных построена на основе системы управления данными Microsoft Access. Связь между программой распознавания и базой данных осуществляется с помощью стандартной библиотеки Microsoft ADO (ActiveX Data Objects).
Рассмотрены две идеи формирования эталона из полученного комплекта параметров, соответствующих одному слогу.
Первая идея заключается в выборе трёх текущих формантных отчётов, или характеристик, соответствующих трём основным компонентам слога: первому компоненту, последнему компоненту, и пику слога, где энергия достигает максимального
значения. На каждом компоненте, вычисляем среднее значение р-го отсчёта соответствующих текущих формант трёх срезов по формуле: уз_ pi х
aF? = ' ,. ' ; где ¿ = ОД,2,3,4;р = 1,2,3.
1 уз Р1
Л;=1
В случае если имеется щелевой звук в нач&те слова, то выбираем параметры щелевого согласного вместо первого текущего формантного отчёта.
Вторая идея была разбить слог на три участка и считать усредненные фонемные характеристики этих участков. Это разделение реализовано на основе сравнения соседних текущих формантных срезов по формуле:
(I1'"¡SÄ)х " I«? - * W + 'Г)}
Где, на /-ой форманте ¿-ого текущего формантного среза:
, /с—2,___<- 1,...,4 - частота,
eki, k=2,... ,n; i= 1,... ,4 - энергия.
После сравнения всех смежных текущих формантных срезов между собой получим последовательность коэффициентов подобия (Дь Дг,..., An.i).
Деление слогов на участки реализовано следующими шагами:
- Определим значение Н такое, что Д1(= min (Дг, &2> —, An-i).
2
- Определим значение К такое, что Лк= min (An-i,...,
2
Слот (соответствующий вьетнамскому слову) разделится на три участка: (1, 2, ..., Н), (Н+1, ..., К), (К+1, ..., п). Затем рассчитываются средние значения текущих формант на этих участках по формуле:
V? еу V« ?> х е'
э'е^Цр- и э/^1 — „ ' где« = 0,1,2.3.4.
, 2 £j=H+lei „2 xei . п 1 о п л
эе'=-пГИ) и эР> у*—7~ =
v ' А/'=я+1 i
, з 2>=аг+1 е/ „з И1=к+1 Fi х е1 . _ . „ _ .
зв« =-лггж- и aF< —w6^0'1-2'3'4-
В случае если имеется щелевой звук, выбираем параметры щелевого согласного вместо первого текущего формантного отчёта.
Рассматриваются два метода сравнения и распознавания Первый метод основан на сравнении отклонения частот соответствующих текущих формантных отчётов между параметрами входного сигнала слова с эталонами.
Параметры входного сигнала слова, соответствующие первому методу его формирования имеют следующий вид:
£={(э Л,)
(ЭГ'о, ЭР1,. 3^2, (ЭЭ?,, 0^2, (э^о, эЛ 3^2, 3^3, эР3,)}.
Каждая команда будет иметь соответствующий комплект эталонов £ь £2,..., £т - где Т максимальное значение равно 4 (команда имеет не более 4 слов). Поставим символ эталона, который записан в базу данных:
п £={(Л
и7 0> Л пР 2. гР 3, гР 4) (ЛУ; > п Р22, /р23, п^24)
(п^30, пР3/> гр32. п
Метод сце:;;:;: получение результата распознавания команды, используя эталоны сформированные по первому способу, состоят из следующих этапов:
1. Определить, сколько слов в распознаваемой команде. Из базы данных выбираются команды, содержащие данное количество слов.
2. Для каждого слова определяется наличие шипящего согласного в начале слова. Если эР°0 > 0, то существует шипящий согласный в начале слова, а если эР°0 = 0, то отсутствует.
3. Формула для оценки отклонения между введённым словом, которое необходимо распознать, и эталонами, взятыми из базы данных принимается следующей:
_у / №-пП\ \ ..у / И-ПРЛ \ у / |эР?-пР,з] \ 1 2 ¿¿{тах^.п??))' 3 ¿^{тах^.пф}
если оЛ = 0;
„ - ( ~у[ )и. у( ^
0 \тох(эРр, пР§)/' Л\тах(эР?,пРР)У' 3 \тах(э?1,пф) = если
где у;0 (или н'/), - суммарное отклонение формантных частот в каждом из 3х текущих формантных отсчётов;
^аова ~ среднее отклонение формантных частот по всем трём формантным отсчётам у входного слова с эталоном. 5. Формула для расчёта отклонения формантных частот у входного команды и эталона команды имеет следующий вид:
... И'1+И'2+...-НУт
"команды ----; где т равно количеству слов в команде;
(Команды ~ среднее отклонение формантных частот по всем словам команды, имеющих одинаковое количество слов. 6. Наконец, после рассмотрения и сопоставления по всем эталонам, выбираем образец, у которого значение отклонения наименьшее и этот образец принимается за результат распознавания.
Второй метод основан на сравнении подобия усредненных фонемных характеристик участков (включают частоту и относительную энергию) между параметрами сигнала входного слова с эталонами.
Параметры входного сигнала слова в этом случае имеет следующий вид: £' = {(э'Л э'е°0)
(э 'F'o, э 'е'о, э 'F11, э 'е'h э 'F12, э 'е12, э 'F'3, э 'е'3> э Т14, э 'е'4) (я 'F2с, э 'р2о. э 'F2!, э 'е2:, ? 'F22, э 'е22, э 'F2* з 'г23, з 'F2* з г2,) (э 'F\ з 'е3о, з 'F3!, э 'е3¡, э 'F^, э 'е32, э 'F3}, э 'е33, э 'F34, э 'е34)}. Поставим символ эталона, который записан в базу данных:
„£' = {(п 'F°о, п 'е°о)
Сn'F1 о, п'е'о> n'F1h п'е'ь n'F1ъ п'е'г, n'F13, „'е1 ¡, „'F!4, „'е14) (п'F2о, п'е2о, n'F2/, п'e2i, „'F22, „'ê2, „'F1}, „'е23, „'F24, „'е24) (У о, п & 0> п 'F3,, п 'е3ь „ :F32, „ 'е32, „ 'F33, „ 'е33, „ ,F34, „ 'е34)}.
Метод оценки и распознавания команды используя эталоны, сформированные по второму способу, включает следующие этапы:
1. Этапы 1 и 2 те же, что и при первом способе формирования эталона.
2. Формулы для оценки подобия между введенным словом, которое необходимо распознать, и эталонами, взятыми из базы данных:
v/7 Is'Ff-n'Ffl \ , ,,, . ... (э'е' + п'е})\
v/7 la'F? - n'Ffl \ , , ,, , ,,, (a'ef + n'ef)\ v/7 b'Ff-n'Fpl N . . „, (э'е? + n'e?)\
■'^-JU'F.vAJ xd-l^-nefDxi^-iij
П = maXj n2;+maxy ^^ ^^ = 0; j - число реализаций одного и того же слова
в эталоне,
тахупц.'+тах, п2/+тах1п3| ^ И =-^—-, если эг о > О;
Где на /-ой форманте г-ых участков входного слова и эталона х = О,1,2, 3
(предполагаем, что 0-ой участок - это щелевой участок слова):
тси(э'р[,п1р[)
- различие частот;
la'FT—n'FÎI _
1--, ' , - подобие частот;
1 - |э'е[ - n'efl - подобие относительных энергий;
(э'е|+пе,) _ весовод коэффициент для рассматриваемых формант;
(. la'FÎ-n'Ffl \ , , t , г in (s'ef+n'ef) . .
! ---! Pt Pti х v1 _ t5 ei ~~ " êi\) a ———- коэффициент подобия формант;
\ 7nax^3'Fj,n'rj Jy 2
п, - коэффициент подобия формантных срезов; П - коэффициент подобия входного слова и эталона.
Основной сложностью при таком методе распознавания является сопоставление формантных частот в спектрах входного слова и эталона.
Сравниваются между собой только те форманты, что расположены в одних и тех же зонах спектрального среза. Если же зоны не совпадают, то подобие считается равным нулю. Это приводит к изменению количества формант в спектрах сравниваемых участков и изменению их номеров.
Другой особенностью рассматриваемого метода является представление слова усреднёнными характеристиками участков.
Здесь возможны два вида источников ошибок распознавания: неточное определение границ звуков в слове и усреднение характеристик по всему участку, а не в характерных точках этих участков.
Следует подчеркнуть, что коэффициент подобия каждого из 3х срезов выбирается, как максимальный среди всех реализаций, вошедших в эталон данного слова.
3. Формула для расчета подобия команды (словосочетания), у которого имеются соответствующие комплекты эталонов (£/, £2,..., £„,):
П1 + П2 + - + Пт m
где m равно количеству слов в команде.
4. После рассмотрения и сопоставления по всем эталонам, выбираем образец, у которого значение подобия наибольшее и принимаем его за результат распознавания.
По окончании процесса распознавания получим два результата, соответствующие двум методам формирования эталонов.
CililHl - 11
ж а - А"
Л п
Даппь.» Общий
$ - % т.
.. ъ ■
С гили
«••эоы.чиг E¡ '_"') -tc-t-iar ■
¿f >
L Command I Command ! Command r Command : Command ) Command ? Command i Command ! Command
0 Command
1 Command ? CcrTimrd
5 Command
6 Command
7 Command ? Command 3 ■ Command С Command
1 Command
2 Command
3 Command
8 Command > Command i Command
7 Command S Command ï Command
»......£ : »сумму изо)
С D S Г
1. Words=I-Khcn¿|i<bong(Eir:C.13|0.97¡ ■•â:53;C7PM
2. Wordsal-ecnjMoî (£rr:C.03|0.97} - 4;5S:31 PM
3. V/ords=L-Hâj|Hal <errr0.21|G.8S) -4:SS:14 PM Words=l-Be|8ay<trr:0.1S|C.Wl -4-.5Sa3 PM
5. Words=l-Son|gon (Err:C.04 j 0 92j • 4:5S:2î PM
6. WoTdl=i-N!âmI Nam |ïn:Q.07|û.96j - .«2:25 PVI
7. Word$»l.Sau|$au (Егг;0.09]С,92} • 4:58:23 PM S. Word$=l-Bay¡5av (=rr:0.06|0.96) -4;53:32 PM
9. Woi,d$«l-Tôfn}Tam(grr.0.20|0.Î7]-4:58:36
10. Wordssl-Hai I Chn (2it:C.27|0.SC¡ - 4:5в:41 ?M
H. Wordssl-K;hong|<honf {-ггС.ЩС.Эб} -4:5Sv45 PM
12. Werö:«I -Vcr¡ Mot ;£tC.C7¡ Z.77-, • «tf
13.\Vords=i-Hai|Ha!¡Err:C.22|C.39)-4:52:5iPM
14. Word$=l-Ba|3â ISrr:C.C5|0.95) - 4:5S:5S PM
15. Words=l-Bon| Bon (ErriO.CS |0.97¡ - <:5S:53 PM
16. Words=l-Nam | Nam (Srr:0.c7|0.97) - 4:59:02 PM
17. W'crds=Mau ] Sau (Err-:0.14¡C.83} -4-59:06 PM 'ord5=l-Sa|eíy <trr:0.27|C.9í¡ -4:59:09 PM
19.VVordsci-TaT|Tim(en':C.56|û.84j -4:59:12 PM
20. V;ords=i-CHI.i\ Chin (£rr;C.C610.97) - 4:59:16 PM VVords=l-i<hcng| <hcng :£rr:C.Il|0.95J-4:59:20 PM
22. WordS=l-Mot|Mot ÍErr:0.C2}0.96} -4:55:24 PM
23. Words=l-Hai|Ha< |frr:0.26|0.8S¡ • 4:59:27 PM
24. Worrfs=X-8a I Sa (Err:D.C4 [ 0.95) - 4:59:30 ?M
25. Words=l-Bon[ Son (=rr:0.09 ¡0-97) • 4:59:34 PM
26. I \am ¡ Err:C.0f¡10.97; - 4-59:37 PM :7. Worös=l-5aj]5au (Err:C.20ja£l) • 4:59:41 PM :в. WoreJs«i'Ba ¡азу {ÇrnÛ.15 |0.97j - 4:59:44 PM
29. Words=i-Tam|Tôrn i Err :0.22 ¡0.90' - 4:59:47 PM
30. Words»i-Cb!n |Chin (Err.-0.3310.93) - 4:59:5C PM
Xhorig
Mot
Hai
6a
Son
Nam
Sag
Bay
Tari
Son \am
Ta m
Cf.ln 4honf
Bon Nan,
Ta m
Chin
С
Результаты распознавания слов.
Для оценки надежности распознавания, запишем эталоны 10 слов. Для каждого из них сделаем 10 образцов от одного диктора. Это слова Không, Mot, Hai, Ва, Bon, Näm, Sáu, Báy, Tám, Chin (0, 1, 2, 3,4, 5, 6, 7, 8, 9).
После формирования эталонов 10 слов (по 10 произношений каждого слова) провели
Зем
произношениям каждого слова.
При распознавании отдельных слов по первому методу формирования эталонов достигнут результат около 90% правильного распознавания, а по второму методу результат около 95%. Тестовая программа распознавания словосочетаний, дала результаты с более высокой точностью. Ошибки в распознавании команд определялись в основном ошибками сегментации слов во фразе.
В заключении сформулированы основные теоретические и практические результаты диссертационного исследования.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИОННОЙ РАБОТЫ
В процессе решения задач, поставленных в диссертационной работе, получены
ледующие основные результаты:
. Проведён краткий обзор современных методов построения систем распознавания речи.
. Рассмотрены особенности вьетнамского языка, связанные с проблемой распознавания речи.
. Модернизирован алгоритм обнаружения речи (начала и конца речевого сигнала) на фоне шума.
. Предложен новый метод сегментации слитных речевых команд вьетнамского языка на отдельные слова.
. Предложен новый метод разбиения голосовых участков речи на квазипериоды, равные периодам основного тона.
. Предложен новый метод формирования динамики формант по результатам спектрального анализа
. Предложен новый метод формирования эталонов для распознавания команд вьетнамской речи.
. Для распознавания команд проведена организация базы данных на основе системы управления данными Microsoft Access.
. Предложен и реализован метод сравнения параметров входного слова с эталонами, хранящимися в базе данных.
0. Построена программа автоматического распознавания ограниченного набора команд вьетнамской речи, использующая выше приведенные методы. Надёжность программы по двум методам распознавания соответствует около 90% и 95%.
1.Построена программа отображения звукового сигнала и результатов его анализа. Она позволяет экспортировать выходные параметры, полученные в результате анализа в файлы Excel и автоматически строить соответствующие графики. Программа может быть полезна исследователям речевого сигнала и преподавателям, ведущим занятия в этой области.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
1. А.И. Евсеев, Нгуен Ван Хунг. Обнаружение начала и конца слов и пауз на изолированных словах и в словосочетаниях вьетнамского языка. // Информационные средства и технологии. Том 1. 2008. стр. 119-124.
2. А.И. Евсеев, Нгуен Ван Хунг. Разбиение входных сигналов ограниченного набора команд вьетнамской речи на слоги. // Информационные средства и технологии. Том 2. 2009. Стр. 206-211.
3. А.И. Евсеев, Нгуен Ван Хунг. Исследование и разработка методов обработки речевого сигнала для получения формангных характеристик спектральных срезов.// Вестник МЭИ, №4, 2010, с. 45-49.
Подписано в печать /9 . {О . 2010 Зак. Ш Тир. п.л. 1, Ао Полиграфический центр МЭИ (ТУ) Г. Москва, Красноказарменная ул., д. 13
Оглавление автор диссертации — кандидата технических наук Нгуен Ван Хунг
ВВЕДЕНИЕ.
Актуальность темы.
Цель диссертационной работы.
Методы исследований.
Научная новизна.
Практическая ценность диссертации.
Апробация работы.
Личный вклад диссертанта.
Публикации.
Структура и объём работы.
1. ПРОБЛЕМА РАСПОЗНАВАНИЯ РЕЧИ И ОСОБЕННОСТИ ВЬЕТНАМСКОЙ РЕЧИ.
1.1 — Проблема распознавания речи.
1.2 - Обзор и классификации методов распознавания речи.
1.3 - Специфика вьетнамского языка, связанная с распознаванием речи.
1.4 - Конкретизация задачи и схема её решения.
1.5 Выводы.
2. ПОЛУЧЕНИЕ ВХОДНОГО ЗВУКОВОГО СИГНАЛА И ОБНАРУЖЕНИЕ РЕЧЕВОГО СИГНАЛА НА ФОНЕ ШУМОВ.
2.1 Получение входного звукового сигнала.
1.2 Проблема обнаружения речевого сигнала на фоне шумов.
2.3 Алгоритм определения крайних точек речи.
2.4 Результаты экспериментов.
2.5 Выводы.
3. СЕГМЕНТАЦИЯ РЕЧЕВЫХ СИГНАЛОВ ВЬЕТНАМСКОГО ЯЗЫКА НА ОТДЕЛЬНЫЕ СЛОВА.
3.1 Проблема слога во вьетнамском языке.
3.2 Алгоритм сегментации речевого сигнала на слоги.
2.3 Результаты экспериментов.
2.4 Оценка точности алгоритма сегментации фраз на слова.1.
3.5 Выводы.
4. ФОРМИРОВАНИЕ ДИНАМИКИ ФОРМАНТ РЕЧЕВОГО СИГНАЛА.
4.1 Проблема разбиения голосовых участков речи на квазипериоды равные периодам основного тона.
4.2 Алгоритм разбиения голосовых участков речи на квазипериоды, равные периодам основного тона.
4.3 Оценка точности работы алгоритма.
4.4 Спектральный анализ и формирование динамики формант.
4.5 Результаты экспериментов.
4.6 Выводы.
5. ОРГАНИЗАЦИЯ БАЗЫ ДАННЫХ. ВЫБОР ЭТАЛОНОВ И РАСПОЗНАВАНИЕ РЕЧЕВЫХ КОМАНД.
4.1 Организация базы данных для хранения словаря распознавания, входного сигнала и эталонов.
5.2 Формирование эталонов для распознавания слов и сохранение их в базе данных.
5.3 Распознавание речевых команд.
5.4 Оценка результатов распознавания.
5.5 Программа поэтапного просмотра результатов обработки речевого сигнала и распознавания.
5.6 Выводы.
Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Нгуен Ван Хунг
Актуальность темы
Естественное, языковое общение является для человека самым удобным и привычным. Поэтому неудивительно, что учёные и инженеры на протяжении многих лет решают проблему речевого общения человека и машины. Основная задача речевого интерфейса понимать человеческую речь и правильно реагировать на неё. Проблема состоит в том, чтобы научить машину понимать без посредника тот язык, на котором говорят люди между собой, то есть придумать алгоритм распознавания звуковых сигналов речи. Этим и занимается технология распознавания речи.
Эта задача поставлена более 60 лет назад, но полученные решения ещё не совершенны. Это показывает, что распознавание речи является сложной проблемой. Сложность определяется в значительной степени следующими факторами:
- вариативностью и нестабильностью источников речевого сигнала;
- различием амплитудно-частотных характеристик микрофонов;
- наличием различного рода шумов как окружающей среды, так и аппаратуры;
- наличием многих уровней обработки сигнала.
Таким образом, проблема исследования распознавания речи человека является актуальной с практическим применением даже в частных решениях.
Цель диссертационной работы
Разработка программы распознавания речи является сложной задачей, требующей много времени. Так как время аспирантуры ограничено 3-мя годами, то было принято решение по разработке программ для распознавания ограниченного числа вьетнамских команд, опиралась на особенности вьетнамской речи. Тема называется: "Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи".
Основная цель диссертационной работы заключалась в исследовании методов распознавания речи и разработке программы автоматического распознавания ограниченного набора команд вьетнамской речи.
Для достижения этой цели в ходе выполнения диссертационной работы решались следующие основные задачи:
• Исследование существующих методов моделирования и автоматического распознавания речи.
• Исследование особенностей произношения вьетнамской речи, влияющих на методы распознавания речи.
• Разработка методов и алгоритмов для распознавания вьетнамской речи.
• Программная реализация предлагаемых алгоритмов и демонстрация результатов поэтапной обработки речевого сигнала.
Методы исследований
В работе использовались методы математического анализа, методы цифровой обработки сигнала, теории распознавания образов и теории вероятностей.
Научная новизна
Научная новизна диссертационной работы заключается в том, что предложено нескольких новых методов:
1. Проведена модернизация алгоритма обнаружения речи (начала и конца речевого сигнала) на фоне шума.
2. Предложен новый метод сегментации слитных речевых словосочетаний вьетнамского языка на отдельные слоги, соответствующие вьетнамским словам.
3. Предложен новый метод разбиения голосовых участков речи на квазипериоды, равные периодам основного тона. 4. Предложен новый метод формирования динамики формант по результатам спектрального анализа. 5. Предложены методы формирования эталонов для распознавания слов и фраз, основанные на особенностях вьетнамской речи. На его основе, предложены и реализованы два метода сравнения параметров входного сигнала с эталонами, хранящимися в базе данных, для распознавания команд вьетнамской речи.
Практическая ценность диссертации
Предложены новые методы анализа речевого сигнала и новые методы распознавания ограниченного команд вьетнамской речи. Пока фундаментальные исследования по анализу вьетнамской речи ещё не публиковались.
Построена программа отображения звукового сигнала и результатов его анализа. Она позволяет экспортировать выходные параметры, полученные в результате анализа в файлы Excel и автоматически строить соответствующие графики. Программа может быть полезна специальным исследователям речевого сигнала и преподавателям, ведущим занятия в этой области.
Апробация работы
Полученные в работе научные и практические результаты докладывались на двух международных научно-технических конференциях «Информационные средства и технологии» (Москва, 2008 и 2009 г.г.).
Личный вклад диссертанта
Все методы разработаны совместно диссертантом и его руководителем, а алгоритмы и программы, их реализация и проверка работоспособности реализованы лично диссертантом.
Публикации
По материалам диссертации опубликовано 3 печатных работы, в том числе одна в журнале, входящем в список изданий, рекомендованных ВАК РФ. Список опубликованных работ приведён в конце диссертации.
Структура и объём работы
Диссертация состоит из введения, пяти глав, заключения, одного приложения и библиографического списка, использованных источников из 47 наименований. Общий объём работы составляет 128 страницы, в том числе 89 рисунков и 10 таблиц.
Заключение диссертация на тему "Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи"
5.6 Выводы
Рассмотрена организация системы баз данных, которая использована в программе распознавания. Она построена на основе системы управления данными Microsoft Access и позволяет обрабатывать до несколько миллионов записей. В ней хранены библиотека распознаваемых команд и библиотека эталонов. Связь между программой распознавания и базой данных осуществляется с помощью стандартной библиотеки Microsoft ADO (ActiveX Data Objects).
Представлены две идеи формирования эталона из полученного комплекта параметров, соответствующих одному слогу. На их основе, построены два метода распознавания по сравнению входного сигнала эталонами. Показаны результаты распознавания в таблице данных окна
Microsoft Excel. Рассмотрены так же недостатки методов, которые показаны t выше. I I
Рассмотрена программа для пошагового просмотра и отображения результатов обработки речевого сигнала. Программа позволяет выявлять причины ошибок.
ЗАКЛЮЧЕНИЕ J
В процессе решения задач, поставленных в диссертационной работе, ! получены следующие основные результаты: I I 1. Проведён краткий обзор современных методов построения систем распознавания речи.
2. Рассмотрены особенности вьетнамского языка, связанные с проблемой автоматического распознавания речи.
3. Модернизирован алгоритм обнаружения речи (начала и конца речевого сигнала и пауз в нём) на фоне шума.
4. Предложен новый метод сегментации слитных речевых фраз (команд) вьетнамского языка на отдельные слова.
5. Предложен новый метод разбиения голосовых участков речи на интервалы (квазипериоды), равные периодам основного тона.
6. Предложен новый метод формирования динамики формант по результатам спектрального анализа. Перевод речевых сигналов в форманты и выражение их в графиках является новым, может применяться для изучения произношения и распознавания. Это имеет большое значение, особенно во Вьетнаме. Хотя имели место некоторые применения распознавания речи (см. стр. 29), но фундаментальных исследований по этому вопросу ещё не было объявлено.
7. Предложены новые методы (два метода) формирования эталонов для распознавания слов и фраз.
8. Проведена организация базы данных на основе системы управления данными Microsoft Access для хранения входного сигнала, словаря распознавания и эталонов слов (команд). 1
9. Предложены и реализованы два метода сравнения параметров входного слова с эталонами, хранящимися в базе данных, для распознавания слов и команд (словосочетаний).
10.Построена программа автоматического распознавания ограниченного набора команд (словосочетаний) вьетнамской речи, использующая выше приведенные методы. Точность программы по двум методам распознавания соответствует около 87% и 95% на изолированных словах.
11.Построена программа отображения данных звукового сигнала и результатов его анализа. Она позволяет экспортировать выходные параметры, полученные в результате анализа в файлы Excel и автоматически строить соответствующие графики. Программы могут быть полезны исследователям речевого сигнала и преподавателям, ведущим занятия в этой области.
Однако предложенные решения имеют свои недостатки:
- Определение щелевого сигнала в начале слова на основе только числа переходов через нуль иногда даёт ошибки. Согласные, например "Т", "Н", "С" в нескольких случаях не могут быть определены. Результаты сопоставления образцов "Hai" и "Tarn" показывают, что стабильность образцов не высока (см. рис. 5.11-3, 5.11-9).
- Алгоритм сегментации фразы на отдельные слова иногда даёт ошибки. Основной причиной является следующая: Во вьетнамском языке, в словах, добавленных знаком (например «Chü»), при произношении иногда слог может быть разделён предложенным алгоритмом на два слога. Чтобы устранить эти недостатки, необходимо ввести минимальное расстояние между двумя слогами для фраз, состоящих из двух слов.
- Распознавание по предложенным методам не учитывает фактор движения формант в слогах.
Несмотря на существующие недостатки в предложенных методах распознавания, но точность распознавания достаточно высокая. Это позволяет сделать вывод, что методы анализа являются правильными.
По теме достигнуты определенные результаты, они имеют определенное значение для изучения и разработки проблемы распознавания речи особенно во Вьетнаме.
Библиография Нгуен Ван Хунг, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
1. A.B. Фролов, Г.В. Фролов. Синтез и распознавание речи. Современные решения. (http://www.frolov-lib.ru/books/hi/index.html). 2003.
2. Бондарко JI.B. Звуковой строй современного русского языка. М.: Просвещение, 1997.
3. Лекции по языкознанию ("http://www.tula.net/tgpu/resources/yazykozn/index.htm). Составитель Г.Н. Мерцалова. Тульский государственный педагогический университет им JI.H. Толстого.
4. A.M. Москаленко. Использование нейросетей для анализа звуковой информации (http://alexmoshp.chat.ru/index.htm). Дипломная работа. Кубанский государственный университет.
5. В. Алексеев. Услышь меня, машина. Компьютерра, №49, 1997 г.
6. JI. Захаров. Проблемы создания аллофонной базы автоматического синтеза речи (http://art.bdk.com.ru/govor/rasp.htm).
7. М.В. Панов. Русский язык. История русского литературного языка. Еженедельник «Русский язык», №26, 2002.
8. В. Ф. Ундриц, К. Л. Хилов, Н. Н. Лозанов, В. К. Супрунов. Болезни уха, горла и носа (руководство для врачей). Медицина, 1969.
9. Г. Бекеши, В. А. Розенблит. Механические свойства уха. Гарвардский университет. Издательство иностранной литературы, Москва, 1963.
10. П. Хоровиц, У. Хилл. Искусство схемотехники: В 2-х т. Пер. с англ. -М: Мир, 1984.
11. A.B. Фролов, Г.В. Фролов. Мультимедиа для Windows. Библиотека системного программиста, т. 15 -М: Диалог-МИФИ, 1994 (http://info.datarecovery.ru).
12. Ф. Уоссермен. Нейрокомпьютерная техника: Теория и практика. —М: Мир, 1992.
13. В.А. Головко. Нейронные сети: обучение, организация и применение. — М.: ИПРЖР, 2001.
14. А.И. Галушкин. Нейрокомпьютеры. М.: ИПРЖР, 2000.
15. В.В. Круглов, В.В. Борисов. Искусственные нейронные сети. Теория и практика. М.: Горячаялиния-Телеком, 2002.
16. B.C. Медведев, В.Г. Потемкин. Нейронные сети. MATLAB 6.— М.: Диалогt1. МИФИ, 2002.
17. Speech Analysis FAQ. ("http://svr-www.eng.cam.ac.uk/~air/SA95/ SpeechAnalysis.html').
18. Э.М. Куссуль. Ассоциативные нейроподобные структуры. Киев.: Наукова думка, 1990.
19. Г. Нуссбаумер. Быстрое преобразование Фурье и алгоритмы вычисления сверток. — М.: Радио и связь, 1985.
20. Н.М. Астафьева. Вейвлет-анализ: основы теории и примеры приведения. Успехи физических наук, т. 166, № 11. — М.: ИКИ РАН, 1996.
21. У Веньцань. Разработка алгоритмов для распознавания речи. Диссертация на соискание учёной степени кандидата технических наук. Московский Энергетический Институт (ТУ). 2001.
22. JT. Рабинер, Б. Гоулд. Теория применение цифровой обработки сигналов. 394 -483. Перевод с английского A. JI. Зайцева, Э. Г. Назаренко, Н. Н. Тетёкина. Изд. «Мир», Москва 1978.
23. Е.С. Вентцель, J1.A. Овчаров. Теория вероятностей и её инженерные приложения. 2-ое изд. Стереопим. Москва, Высшая школа, 2000.
24. А.И. Евсеев, Нгуен Ван Хунг. Обнаружение начала и конца слов и пауз на изолированных словах и в словосочетаниях вьетнамского языка. // Информационные средства и технологии. Том 1. 2008. с. 119-124.
25. А.И. Евсеев, Нгуен Ван Хунг. Разбиение входных сигналов ограниченного набора команд вьетнамской речи на слоги. // Информационные средства игтехнологии. Том 2. 2009. с. 206-211.
26. Специализированный сайт в области лингвистики вьетнамского языка. (http://ngonngu.net/index.php?p=305).
27. Общие вопросы в области лингвистики, словари вьетнамского языка. (http://www.vietlex.com/).
28. Вьетнамский язык, (http://vietsciences.org).
29. В.Ю. Шелепов. Новые методы в пофонемном распознавании речи. Статья УДК 681.142.66. Институт проблем искусственного интеллекта, 2001.
30. Грабовая В.А., Федоров Е.Е., Шелепов В.Ю. О системе распознавания русской речи с автоматическим построением эталонов // Искусственный интеллект. 2000. -№ 1.
31. Дорохин O.A., Федоров Е.Е., Шелепов В.Ю. Некоторые подходы к пофонемному распознаванию русской речи и распознаванию больших словарей // Искусственный интеллект. №2. - 2000. - С. 329-333.
32. Дорохин O.A., Засыпкин A.B., Червин H.A., Шелепов В.Ю. О некоторых подходах к проблеме компьютерного распознавания устной русской речи // Труды Международной конференции «Знания, диалог, решение». Том 1. - Ялта. - 1997. - С.234-240.
33. Божко Д.В., Грабовая В .А., Шелепов В.Ю. Интерпретатор распознанной цепочки фонем, которая может содержать ошибки // Искусственный интеллект. -2001.-№3.
34. Дорохин O.A., Старушко Д.Г., Федоров Е.Е., Шелепов В.Ю. Сегментация речевого сигнала // Искусственный интеллект. № 3. - 2000. - С. 450-458.
35. Федоров Е.Е., Шелепов В.Ю. Защита речевых распознавателей от шума и посторонней речи // Искусственный интеллект. 2001. - № 3.
36. А.Н. Огородников. Выбор интервалов анализа сигнала при распознавании речи. Статья УДК 681.142.2 http://www.ict.edu.ru/ft/004452/38.pdf. Томского государственного университета, 2003.
37. Фант Г. Акустическая теория речеобразования: Пер. с англ. М.: Наука, 1964. 284 с.
38. Кодзасов C.B., Кривнова О.Ф. Общая фонетика. М.: Рос. гос. гуманит. ун-<2001.592 с.
39. Голд Б., Рэйдер Ч. Цифровая обработка сигналов: Пер. с англ. М.: Сов. радио, 1973. 368 с.
40. Гоноровский И.С. Радиотехнические цепи и сигналы. М.: Радио и связь, 1986. 512 с.
41. Оппенгейм A.B., Шафер Р.В. Цифровая обработка сигналов: Пер. с англ. М.: Связь, 1979. 416 с.
42. Рабинер JI.P. Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. М.: Радио и связь, 1981. 496 с.
43. Рабинер JI. Гоулд Б. Теория и применение цифровой обработки сигналов: Пер. с англ. М.: Мир, 1978. 848 с.
44. Толстов Г.П. Ряды Фурье. М.: Наука, 1980. 384 с.
45. Речевые технологии. (http://speech2b.com/rus/technologies/voice-recognitiön/).
46. Искусственный интеллект, (http://habrahabr.ru/blogs/artificial intelligence/ 64572/).
47. А.И. Евсеев, Нгуен Ван Хунг. Исследование и разработка методов обработки речевого сигнала для получения формантных характеристик спектральных срезов. Вестник МЭИ, № 4, 2010, с. 45-49.
48. СПИСОК КОМАНД ДЛЯ РАСПОЗНАВАНИЯ1. СловарьvJ
49. Can giCra Расположи посредине20 can deu Расположи равномерно
50. Chpn phong Выбрать шрифт (Font)22 C& chO Кегль (Font size)
51. Danh dau tu> Выделить слово24 eanh dau d6ng Выделить строку
52. Danh dau doan Выделить абзац26 СЬ&1о Неличить шрифт27 Chu- nho Уменьшить шрифт28 ChQ- dam Полужирный шрифт29 ChO thu-ang Светлый шрифт
53. Lgn trang Прошлая страница
54. Xuong trang Следующая страница32 Vedau В начало33 . , X A . Ve cuoi В наконец34 Dau dbng Начальная строка35 Cuoi ddng Конечная строка36 Xuong d6ng Новая строка37 Tim kiem Найти38 ТИау Заменить39 1ЧИау йгапд Выбирать страницу40 1п Печать
55. В^И 1гапд Создать страницу42 ' Хет 1гапд Открыть страницу43 Мб" РНе Открыть файл44 Вбпд РНе Закрыть файл45 вы Сохранить46 Тдо Ьапд Создать таблицу
56. Уё Ьйпд Нарисовать таблицу48 СИрп Ьгёпд Выбрать строку49 СИ<?п cфt Выбрать столбец50 вфрб Объединить ячейки51 СЫа б Разделить ячейки52 СИфП Ьапд Выбрать таблицу
57. С1к?п т1и Ьапд Выбрать образец таблицы
58. СЫа Ьапд Разделить таблицы
59. Эйр хер Ьапд Упорядочивать таблицы
60. Сбпд Ишс Ьапд Формулы таблицы
61. ТЬифс Ьапд Свойство таблицы
62. СИфп кЬипд Ьйпд Выбрать рамки таблицы
63. С1пёп пд£К1гапд Создать новую страницу
64. СИёп бо 1гапд Поставить номер страницы
65. СИёп пдйу Нгёпд Поставить даты
66. СИёп апЬ Создать фотографию (рисунок)
67. СЬёп кЬипд сЬй" Поставить рамки для буквы64 СИёп РНе Поставить файл65 сбпд ШСрс Вводить формулу
68. СИёп Пёп к& Ввести соединение67 СИёп ку Ввести символ
69. СИёп 16ч ЫпЬ Ввести комментарии
70. Нгёп ИМ ЫпЬ №иФпд Обычный вид
71. Нгёп и^ 1гапд ¡п Вид для печати
72. Нгёп <3ау 1гапд Вид полной страницы72 РЬбпд № Увеличивать73 Бао сИёр Копировать74 Вставитьэм<1
-
Похожие работы
- Построение математического обеспечения систем распознавания речи на основе нелинейных методов сравнения образов
- Математическое обеспечение методов распознавания образов при обработке текстов на вьетнамском языке
- Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд
- Выделение и предобработка сигналов в системах автоматического распознавания речевых команд
- Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность