автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Стохастические параметры сообщения устной мьянманской речи
Автореферат диссертации по теме "Стохастические параметры сообщения устной мьянманской речи"
На правах рукописи
0050095^/
Вин Хан
СТОХАСТИЧЕСКИЕ ПАРАМЕТРЫ СООБЩЕНИЯ УСТНОЙ МЬЯНМАНСКОЙ РЕЧИ
05.13.17 «Теоретические основы информатики»
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
2 6 Я Н В 2С12
Москва-2011
005009527
Работа выполнена в Федеральном государственном бюджетно образовательном учреждении высшего профессионального образована «Московский государственный университет путей сообщения» (МИИТ) * кафедре «Радиотехника и электросвязь».
доктор технических наук, профессор Горелов Георгий Владимирович
доктор технических наук, профессор Алексеев Виктор Михайлович
кандидат физико-математических наук, Мельников Сергей Юрьевич
Федеральное государственное бюджет» образовательное учреждение высшего профессионального образования «Петербургский государственный университет путей сообщения (ПГУПС)»
Защита диссертации состоится « 15 » февраля 2012 г. в "11" часов заседании диссертационного совета Д218.005.04 в Московск государственном университете путей сообщения (МИИТ) по адресу: 1279! г. Москва, ГСП-4, ул. Образцова, д. 9, стр.9, ауд. 2505.
С диссертацией можно ознакомиться в библиотеке МИИТа.
Отзывы на автореферат в двух экземплярах, заверенных печатью, прось направлять по адресу Совета университета.
Научный руководитель: Официальные оппоненты:
Ведущая организация:
Автореферат разослан «12» января 2012 г.
Ученый секретарь диссертационного совета Д218.005.04, д.т.н.
В.Г.Сидоренко
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время в телекоммуникационных сетях возрастает речевой трафик, увеличивается число потребителей речевых услуг, расширяются сферы их предоставления, что приводит к необходимости увеличения числа и эффективности использования имеющихся каналов.
В лингвистике наметился особый интерес к фонологии слоговых языков, существенно отличающихся в плане организации звукового строя от русского.
Структурно-типологическая характеристика мьянманского языка, в основном, связана с его принадлежностью к агглютинативным языкам.
Мьянманский язык относится к лоло-бирманской группе тибето-бирманской ветви китайско-тибетской (сино-тибетской) семьи языков. Мьянманский язык народа мьянма (бирманцев, самоназвание - «мран»), основного населения Мьянмы (бывшей Бирмы), занимающей северозападную часть Индокитайского полуострова и ряд прибрежных островов.
В условиях интенсивного развития телекоммуникационных сетей практически отсутствует информация о стохастических параметрах сообщения устной мьянманской речи, аналитические модели этих характеристик.
Цель работы состоит в определении вероятностных характеристик сообщения устной мьянманской речи, их аналитических моделей и разработке методов оценки качества стохастической цифровой передачи сообщения устной мьянманской речи.
Реализуется следующая последовательность решения задач диссертационной работы:
1.Обзор существующих аналитических моделей речевого сообщения,
его вероятностных характеристик.
2.Экспериментальное определение характеристик сообщения мьянманской речи, их аналитическое моделирование, сопоставление аналитических моделей сообщения мьянманской речи с моделями сообщений на других языках.
З.Учет специфики сообщения мьянманской речи на примере оценки качества воспроизведения сообщения при его пакетной передаче. Исходная основа диссертации. В основе диссертации лежат:
- фундаментальные работы теории информации Н-Винера, В.А. Котельникова, К.Шеннона и др.;
- теоретические и прикладные исследования по цифровой обработке и передаче непрерывных, в том числе речевых сообщений Л.А.Баранова, Дж.Беллами, А.И.Величкина, Г.В.Вемяна, М.Д.Венедиктова, В.Н.Гордиенко, Г.В.Горелова, А.Г.Зюко, И.П.Кнышева, И.А.Лозового, АЛ.Мановцева, М.В.Назарова, ШШилипчук, ЛРабинера, О.Н.Ромашковой (Луковой), П.Н.Толмачева, А.Ф.Фомина и др.;
- теоретические и прикладные исследования средств и систем передачи информации В.П.Багуц, А.Н.Голубева, Д.В.Дьякова, ВА-Новикова, В.Л.Тюрина, В.ПЛковлева и др.
Методы исследования. В работе использованы методы теории вероятностей, математического анализа, теории случайных процессов.
Научная новизна. Степень научной новизны диссертации определяется тем, что в ней впервые решаются вопросы определения характеристик и моделирования сообщения устной речи на мьянманском языке. Диссертационная работа развивает теорию восстановления речевых сообщений в направлении разработки методики аналитической оценки качества воспроизведения сообщений устной мьянманской речи в стохастических
цифровых системах передачи информации, учета специфики сообщения мьянманской речи на примере оценки качества воспроизведения сообщения при его пакетной передаче.
Практическая ценность результатов диссертации заключена в предоставленной возможности получения аналитическими методами объективных результатов оценки качества устной мьянманской речи, которые использованы при анализе и проектировании конкретных стохастических цифровых систем, реализующих передачу и восстановление речевых сообщений.
Апробация работы выполнена на заседаниях кафедры радиотехники и электросвязи МИИТа, а также - на Научно-практической конференции Неделя науки-2010 «Наука транспорту» Москва, 2010 г.
Результаты работы использованы в НИР - Перспективные технологии средств передачи информации железнодорожного транспорта. № 1.005.11,МИИТ, 2011г., атакже в учебном процессе МИИТа.
Публикации. Основные результаты диссертации изложены в трех опубликованных работах, перечень которых представлен в конце автореферата.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 87 наименований. Основная часть диссертации изложена на 91 страницах машинописного текста, содержит 36 рисунка, 23 таблицы.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертационной работы,
приводится краткий анализ современного состояния исследуемых вопросов, формулируются цель и задачи исследования, дан алгоритм их решения и анонсированы основные положения диссертации.
Первая глава содержит обзор существующих аналитических моделей речевого сообщения, его вероятностных характеристик.
Сделан вывод, что для получения оценок спектральной плотности мощности (СПМ) и корреляционной функции сообщения устной речи на мьянманском языке целесообразно использовать методику, изложенную в работах Е.А. Бахтияровой.
Во второй главе впервые определена СПМ сообщения устной мьянманской речи.
Для экспериментального определения характеристик сообщения устной мьянманской речи в качестве реализации использованы записи продолжительностью 1 час, с частотой дискретизации 44100 Гц и разрешением 16 бит. При вычислении экспериментальных характеристик динамический диапазон разбивался на 216=65536 уровней.
Для определения оценок СПМ сообщали устной мьянманской речи применена программа Adobe Audition 3.0. В качестве входных данных использованы файлы типа «WAV».
Получены усредненные СПМ сообщения устной мьянманской речи для полосы телефонного канала 300 - 3400 Гц (рисунок 1), а также для полос 88,88 - 3400 Гц, 88,88 - 8888,88 Гц, 0 - 16000 Гц и 280 - 3500 Гц.
Определены оценки нормированной СПМ Sx(fl речевого сообщения устной мьянманской речи для полосы телефонного канала 300 - 3400 Гц (рисунок 2), а также для полос 88,88 - 3400 Гц, 88,88 - 8888,88 Гц, 0 - 16000 Гц и 280 - 3500 Гц.
Значения оценок нормированной СПМ, и доли мощности на центральных частотах/ц полос Д/* =1/3 октавы, представлены в таблицах 1 и 2 соответственно.
Логарифмическое суммирование данных второго, четвертого и шестого столбцов таблицы 2 предоставляет величину 1 (0 дБ).
Рисунок 1
Сигяж 309.1 №.-«.« ЙВ Ргеаиепсу: 521.14 Н2(С5-7)
Ш«Т» РгТ5сг: 65536 » 'В1кктврп...... > ^егевм: С .......ЙЕРЭ СоруЬС!!рЬмй
; 5сгп 5е1ей'оп
Рисунок 2
Центральная Нормированная спектральная плотность s,(f) при
частота /ч области определения
полосы Af-1/З 300- :3400 Гц 88,88- 8888,88 Гц 0-16000 Гц
октавы, Гц ДБ раз/Гц ДБ раз/Гц ДБ раз/Гц
100 - - -41,40 0,000072 -37,40 0,000182
125 - - -32,13 0,000613 -31,14 0,000769
160 - - -32,84 0,000521 -32,43 0,000571
200 - - -32,06 0,000623 -31,69 0,000678
250 - - -30,53 0,000885 -30,16 0,000963
315 -28,57 0,001389 -28,97 0,001267 -28,60 0,001382
400 -27,27 0,001874 -28,32 0,001474 -27,94 0,001606
500 -26,74 0,002117 -27,79 0,001662 ■27,41 0,001814
630 -27,03 0,001980 -28,10 0,001549 -27,70 0,001697
800 -32,38 0,000579 -33,45 0,000452 -33,04 0,000496
100© -36,53 0,000222 -37,64 0,000172 -37,20 0,000191
1250 -38,33 0,000147 -39,45 0,000114 -39,00 0,000126
1600 -41,19 0,000076 -42,28 0,000059 -41,86 0,000065
2000 -43,85 0,000041 -44,94 0,000032 -44,52 0,000035
2500 -47,45 0,000018 -48,53 0,000014 -48,12 0,000015
3150 -52,74 0,000005 -53,06 0,000005 -52,70 0,000005
4000 - - -55,43 0,000003 -55,04 0,000003
5000 - - -68,86 0,000000 -68,58 0,000000
6300 - - 0 0 0 0
8000 - - 0 0 0 0
Центральная частота f4 полосы &f*=l/3 октавы, Гц Уровень в полосе Л/* при области определения
300-3400 Гц 88,88-8888,88 Гц 0-16000 Гц
ДБ раз ДБ раз ДБ Раз
100 - - -27,93 0,001610 -23,93 0,004048
125 - - -17,69 0,017024 -16,71 0,021347
160 - - -17,33 0,018504 -16,93 0,020297
200 - - -15,58 0,027671 -15,21 0,030138
250 - - -13,08 0,049188 -12,72 0,053486
315 -11,58 0,069474 -11,98 0,063334 -11,61 0,069089
400 -7,78 0,166563 -8,83 0,131004 -8,45 0,142776
500 -6,29 0,235165 -7,34 0,184620 -6,96 0,201579
630 -5,57 0,277153 -6,64 0,216926 -6,24 0,237571
800 -9,88 0,102879 -10,95 0,080338 -10,55 0,088186
1000 -13,06 0,049409 -14,17 0,038294 -13,73 0,042353
1250 -13,89 0,040807 -15,01 0,031542 -14,56 0,034980
1600 -15,68 0,027050 -16,77 0,021015 -16,35 0,023187
2000 -17,37 0,018319 -18,46 0,014254 -18,04 0,015703
2500 -20,01 0,009988 -21,08 0,007797 -20,67 0,008562
3150 -24,96 0,003194 -24,61 0,003462 -24,25 0,003760
4000 - - -25,94 0,002548 -25,55 0,002784
5000 - - -38,40 0,000145 -38,13 0,000154
6300 - - 0 0 0 0
8000 - - 0 0 0 0
Всего 1,0 1,0 1,0
Полученные результаты хорошо корреспондируются с данными,
представленными в рекомендации Р.51 ITU-T.
Таблица 3 объединяет данные для телефонных сигналов на русском и мьянманском языках и иллюстрирует различия полученных для этих видов речи результатов.
Таблица 3
Центральная частота f4 полосы Дf*=l/3 октавы, Гц Спектральная плотность (нормированная) Бхф для устной русской речи, дБ Спектральная плотность (нормированная) Sx(/) для устной мьянманской речи, дБ
315 -25,01 -28,57
390 -23,05 -
400 -23,06 -27,27
500 -26,54 -26,74
630 -33,66 -27,03
800 -41,98 -32,38
1000 -42,84 -36,53
1250 -41,99 -38,33
1600 -42,57 -41,19
2000 -45,79 -43,85
2500 -47,01 -47,45
3150 -46,35 -52,74
Максимумы оценок энергетического спеетра сообщения устной мьянманской речи (в полосе 0 - 16000 Гц), а также в полосе телефонного канала 300 - 3400 Гц и полосах 88,88 - 3400 Гц, 88,88 - 8888,88 Гц, 280 -3500 Гц), реализуются на частоте 500 Гц.
Из работ Е.А. Бахтияровой известно, что максимум энергетического спектра сообщения устной русской речи реализуются на частоте 390 Гц.
Для определения достаточной продолжительности реализации сообщения устной речи на мьянманском языке использованы результаты
развития (при увеличении длины реализации) оценок математического ожидания тх и среднеквадратического отклонения ах, (таблица 4, рисунок 3 а и б.).
Значения ох и тх практически стабилизируются при г > 30 мин.
Таблица 4
Оценки математического ожидания тх и среднеквадратического отклонения ох при продолжительности реализаций речевого сигнала Ь, отсчет и ^ мин
Ь 13230000 26460000 52920000 79380000 119070000 158760000
1 5 10 20 30 45 60
шх -0,0072274 -0,0008598 -0,0012670 -0,0000674 -0,0000526 0,00000562
ох 3616,095 3493,4033 3489,826 3501,695 3442,133 3358,978
В третьей главе впервые решаются вопросы моделирования стохастических параметров сообщения устной мьянманской речи.
Получены аналитические модели СПМ и корреляционной функции (КФ) речевого сообщения устной речи на мьянманском языке.
В качестве аналитической модели СПМ выбрана предложенная О.Н.Ромашковой (Луковой) модель, успешно использованная ранее при моделировании СПМ сообщений устной речи на русском, английском, испанском, вьетнамском и казахском языках:
0.004
0.002
X 0
-0.002
-0.004
-0.006
-0.008
10
20 30
t, МИН
40
50
60
Рисунок 3. а
20
30 t, мин
40
50
60
Рисунок 3. б
1
1
a +4ít (/-/0) а2+4г^(/+/оГ
м = 1-
где Г„ я нижнее и верхнее значения полосы частот, занимаемой речевым сообщением;
а и /о- коэффициенты.
С использованием сделанного во второй главе вывода о том, что максимальное значение 0,002117 экспериментально полученной нормированной СПМ реализуется на частоте 500 Гц, получены значения параметров аппроксимации а = 1173,98 1/с, /о =500 Гц и М = 0,2015.
На рисунке 4 представлены графики СПМ сообщения устной речи на мьянманском языке на частотах, в пределах полосы телефонного канала (сплошная линия) и ее аппроксимации (штриховая линия).
0.0025
0.00225
0.002
0.00175
£ 0.0015
1 0.00125
А
е и 0.001
и
0.00075
0.0005
0.00025
0
/Ч 1,002 117
г к
1
\
\
0 200 400 600 800 1000120014001600180020002200240026002800300032003400
/.Гц
Рисунок 4
Значения экспериментальной нормированной СПМ (на частотах 300 -3400 Гц) и ее аппроксимации представлены в таблице 5.
Центральная частота /ц полосы У =1/3 октавы, Гц 300-3400 Гц Экспериментальная СПМ 300-3400 Гц Аппроксимация СПМ
дБ раз/Гц дБ раз/Гц
315 -28,57 0,00121 -29,20 0,00119
400 -27,27 0,001874 -27,49 0,00178
500 -26,74 0,002117 -26,74 0,002117
630 -27,03 0,001980 -27,64 0,00172
800 -32,38 0,000579 -33,10 0,000489
1000 -36,53 0,000222 -35,80 0,000261
1250 -38,33 0,000147 -38,30 0,000145
1600 -41,19 0,000076 -41,19 0,000076
2000 -43,85 0,000041 -43,87 0,000041
2500 -47,45 0,000018 -46,98 0,00002
3150 -52,74 0,000005 -48,2 0,000015
С использованием положений теоремы Винера-Хинчина и коэффициентов аппроксимации СПМ выражение для корреляционной функции (КФ) телефонного сигнала на мьянманском языке записано в виде (для наглядности использования коэффициентов в формуле выполнены не все арифметические преобразования):
г„(г)= 12.(1 + 0,2015). 1173,98
300
3
1173 ,982 + 4л2(/ + 500 У _
1173,982 +4л2Ог-500)2 ад* 2я-./.т)4Г.
С использованием численного интегрирования при вычисления интеграла в последнем выражении, определена нормированная КФ телефонного сигнала на мьянманском языке, график которой представлен сплошной линией на рисунке 5 (для сравнения штриховой линией на рисунке 5 представлена полученная Е.А.Бахтиярсвой нормированная КФ телефонного сигнала на русском языке).
Рисунок 5
Определена аппроксимация нормированной КФ телефонного сигнала на мьянманском языке
( je"598,75r соь(1000лт), прит < 0,0lj (0, при г >0,01 J
Значения нормированной экспериментальной КФ телефонного сигнала на мьянманском языке и ее аппроксимации приведены в таблице 6. Для сравнения в таблице 6 приведены значения нормированной
экспериментальной КФ телефонного сигнала на русском языке и ее аппроксимации.
Графики нормированной экспериментальной КФ телефонного сигнала на мьянманском языке (штриховая линия) и ее аппроксимации (сплошная линия) приведены на рисунке 6.
Таблица 6
Значения г/х) при значениях т, мс
0,1 0,3 0,5 2,0 5,0 9,0
Мьян-ман-ская речь Экспериментальная КФ 0,8331 0,3086 -0,1691 0,1750 0,0014 0,0179
Аппроксимация КФ 0,8958 0,4911 0,0000 0,3019 -0,0501 -0,0046
Русская речь Экспериментальная КФ 0,9384 0,6714 0,1358 0,1975 0,1196 0,0226
Аппроксимация КФ 0,8915 0,5587 0,2869 0,0965 0,1808 -0,0503
Рисунок 6
Корреляционные связи сечений сообщения устной речи на мьянманском языке по мере увеличения временного интервала между сечениями затухают быстрее по сравнению с сообщением устной речи на русском языке.
В четвертой главе произведена оценка качества воспроизведения речи в IP-телефонии с учетом специфики сообщения устной речи на мьянманском языке.
Известно, что основное влияние на качество воспроизведения речи в системах с пакетной коммутацией оказывают потери речевых пакетов при их передаче.
Рассмотрены высокоскоростные кодеки - кодеки, описанные рекомендацией G.711 МСЭ с функцией маскирования потерянных кадров (PLC), в которых производится замена потерянного фрагмента речи предыдущим той же длительности (функция PLC типа «Repeat 1/Silence», определенная МСЭ в исправлениях Рекомендации G.113 (ITU-T Recommendation G.113 Amendment 2 (01/2007): Revised Appendix 1).
Из исследований кодеков G.711 с функцией PLC (на кафедре радиотехники и электросвязи МИИТа) известно, что при отбраковке последовательности i=l,2,3,..., N пакетов отношение сигнал/шум воспроизведения (в децибелах) можно определить с использованием формулы
осш = ioig[i/[2
i=!
где r,(.) - нормированная КФ речевого сообщения;
W - длительность пакета;
P,-(i) - распределение вероятностей отбраковки подряд i речевых пакетов;
Л<0=аЛ(0, /=1,2,...,*, где У, (г) ~ условное распределение вероятностей отбраковки подряд 1 речевых пакетов при условии, что отбраковка происходит; рп - вероятность отбраковки.
Известно, что в качестве аппроксимации распределения наиболее целесообразно и наиболее часто используется геометрическое распределение.
С использованием этой аппроксимации и полученных в главе 3 данных о КФ получены зависимости значений ОСШ от длительности пакета, представленные в таблице 7 при различных вероятностях отбраковки пакета в случае речевого сообщения на мьянманском языке (ОСШм). Для сравнения в таблице 7 представлены и известные сведения об этой зависимости для речевого сообщения на русском языке (ОСШр).
Таблица 7
Рп ОСШ Значения отношения сигнал/шум ОСШРи ОСШм. дБ при значениях длительности пакета 1па1<. мс
0,0001 0,8 5,0 10,0 20,0
0,3 ОСШр 13,784 1,1187 2,757 2,272 2,219
ОСШм 15,9961 0,4645 2,0163 2,2178 2,2286
0,03 ОСШр 23,784 13,613 12,757 12,272 12,219
ОСШм 25,9862 10,4545 12,0063 12,2078 12,2186
0,01 ОСШр 28,555 18,384 17,529 17,043 16,990
ОСШм 30,7616 15,2300 16,7818 16,9832 16,9941
0,001 ОСШр 38,555 28,384 27,529 27,043 26,990
ОСШм 40,7572 25,2256 26,7774 26,9789 26,9897
Графики зависимости оценок ОСШ от длительности пакета 1вщ! представлены на рисунке 7 (при рп =0,01) для речевых сообщений на русском (сплошная линия) и мьянманском (штриховая линия) языках.
-
1 \
\
V'/
О 1 2 3 4 5 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 Длительность пакета 1,шк, МС
Рисунок 7
При уменьшении длительности пакета и фиксированном значении вероятности его потери качество воспроизведения речи повышается за счет увеличения корреляционных связей между потерянным фрагментом речевого сообщения и фрагментом, используемым для восстановления. Например, при рп=0,01 оно увеличивается с «хорошего» (ОСШ=16дБ) при ^=20 мс до «отличного» (ОСШ=20 дБ) при 1ПМ=0,8 мс (для сообщения на русском языке) и 1пак= 0,5 мс (для сообщения на мьянманском языке).
При увеличении и уменьшении длительности пакета и фиксированном значении вероятности различие в оценках качества воспроизведения устной речи на русском и мьянманском языках стремится к нулю. В первом случае -за счет затухания до нуля корреляционных связей между потерянным фрагментом и фрагментом, используемым для восстановления. Во втором случае - за счет нивелирования различий (в характере изменения корреляционной функции сообщения при малых значениях аргумента) между сообщениями на русском и мьянманском языках.
Заключение
На основании исследований, представленных в диссертации, получены следующие результаты.
1.Получены первые оценки усредненной по времени СПМ сообщения устной речи на мьянманском языке (для полосы телефонного канала 300 -3400 Гц и для полос 280 - 3500 Гц, 88,88 - 3400 Гц, 88,88 - 8888,88 Гц, 0 -16000 Гц).
Установлено, что СПМ сообщения устной речи и телефонного сигнала на мьянманском языке имеет максимальное значение при частоте 500 Гц в отличие от известных результатов для, например, устной английской, русской и казахской речи, максимальные значения СПМ сообщений которых наблюдаются на частотах 220,390 и 300 Гц соответственно.
2. Впервые для речевого сообщения устной речи на мьянманском языке выполнено аналитическое моделирование усредненной по времени СПМ и корреляционной функции.
3. Впервые в качестве модели корреляционной функции и СПМ речевого сообщения устной речи на мьянманском языке предложено использовать экспоненциально-косинусную корреляционную функцию и соответствующую ей модель СПМ, использованные ранее при аналитическом моделировании стохастических характеристик сообщений устной речи на русском, английском, испанском, вьетнамском и казахском языках.
Определены коэффициенты (/0=500 Гц, а = 1173,98 1/с и М = 0,2015) аппроксимаций корреляционной функции и СПМ телефонного сигнала и сообщения устной речи на мьянманском языке.
4. Установлена продолжительность реализации сообщения устной речи на мьянманском языке, достаточная для экспериментальных оценок. Показано, что значения оценок математического ожидания и дисперсии реализаций стабилизируются при г > 30 мин.
5. Определены зависимости оценок ОСШ воспроизведения речевого сообщения на мьянманском языке от длительности пакета при различных вероятностях потери пакета в системах, использующих высокоскоростные кодеки G.711 с функцией маскирования потерянных кадров типа «Repeat 1/Silence».
При уменьшении длительности пакета и фиксированном значении вероятности рп его потери качество воспроизведения сообщения на мьянманском языке повышается за счет усиления корреляционных связей между потерянным и используемым для восстановления фрагментами речи. Например, при рп=0,01 оно увеличивается с «хорошего» (ОСШ=16дБ) при W~20 мс до «отличного» (ОСШ=20 дБ) при tn(Ut= 0,5 мс.
При увеличении и уменьшении длительности пакета и фиксированном значении вероятности различие в оценках качества воспроизведения устной речи на русском и мьянманском языках стремится к нулю. В первом случае -за счет затухания до нуля корреляционных связей между потерянным фрагментом и фрагментом, используемым для восстановления. Во втором случае - за счет нивелирования различий (в характере изменения корреляционной функции сообщения при малых значениях аргумента) между сообщениями на русском и мьянманском языках.
Основные положения диссертации опубликованы в работах:
1. Горелов Г.В., Житнов A.A., Вин Хан Пакетная передача речи с использованием динамической беспроводной сети AD-НОС NETWORK стандарта 802.11.// Информационно-управляющие системы на железнодорожном транспорте. Украина - Харьков.-2010, №4. - с.64-68.
2. Горелов Г.В., Житнов A.A., Вин Хан Мощность речевого сопровождения: проверка расстоянием // Мир транспорта. - 2010. - №3. -С. 46-49.
3. Горелов Г. В., Житков А. А., Вин Хан Сопоставление оценок энергетических спектров устной руссхой и мьянманской речи //Телекоммуникации 2010. М8.С.8-11.
Вин Хан
05.13.17 - Теоретические основы информатики
Стохастические параметры сообщения устной мьянманской речи
Подписано к печати ЗХ /2 //
Объем 1,5 п.л. Печать офсетная.
Формат 60x80 1/16 Тираж 80 экз. Заказ № 3 60
Типография МИИТа, 127994, Москва, ул. Образцова, д.9, стр. 9
Текст работы Вин Хан, диссертация по теме Теоретические основы информатики
61 12-5/1472
Федеральное агентство железнодорожного транспорта
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Московский государственный университет путей сообщения»
(МИИТ)
СТОХАСТИЧЕСКИЕ ПАРАМЕТРЫ СООБЩЕНИЯ УСТНОЙ
МЬЯНМАНСКОЙ РЕЧИ 05.13.17 - Теоретические основы информатики
Диссертация на соискание ученой степени кандидата технических наук
Научный руководитель: д.т.н., профессор Горелов Георгий Владимирович
Москва-2011
СОДЕРЖАНИЕ
стр.
ВВЕДЕНИЕ 4
1. АНАЛИТИЧЕСКИЕ МОДЕЛИ РЕЧЕВОГО СООБЩЕНИЯ 10
1.1. Аналитическое моделирование речевого сообщения 10
1.2. Характеристики аналитических моделей речевого сообщения 12
1.3. Спектральная плотность мощности и корреляционная функция 13 речевого сообщения
1.4. Выводы 38
2. ЭКСПЕРИМЕНТАЛЬНОЕ ОПРЕДЕЛЕНИЕ ХАРАКТЕРИСТИК СООБЩЕНИЯ МЬЯНМАНСКОЙ РЕЧИ 40
2.1. Сведения об используемых реализациях 40
2.2. Сведения об используемом аппарате определения характеристик 40 сообщения
2.3. Оценки спектральной плотности мощности и корреляционной 41 функции
2.4. Выводы 53
3. АНАЛИТИЧЕСКОЕ МОДЕЛИРОВАНИЕ РЕЧЕВОГО СООБЩЕНИЯ УСТНОЙ РЕЧИ НА МЬЯНМАНСКОМ ЯЗЫКЕ 55
3.1. Аналитические модели спектральной плотности мощности и
корреляционной функции речевого сообщения устной речи на мьянманском языке 55
3.2. Выводы 60
4. УЧЕТ СПЕЦИФИКИ РЕЧЕВОГО СООБЩЕНИЯ УСТНОЙ РЕЧИ НА МЬЯНМАНСКОМ ЯЗЫКЕ ПРИ ОЦЕНКЕ КАЧЕСТВА СТОХАСТИЧЕСКОЙ ЦИФРОВОЙ ПЕРЕДАЧИ РЕЧИ 62
4.1. Критерии и методы оценки качества передачи речи 62
4.2. Качество восстановления речи в 1Р-телефонии 67
4.3. Выводы 75
5. ЗАКЛЮЧЕНИЕ 77
СПИСОК ЛИТЕРАТУРЫ ПРИЛОЖЕНИЕ
80 92
ВВЕДЕНИЕ
Актуальность темы. В настоящее время в телекоммуникационных сетях возрастает речевой трафик, увеличивается число потребителей речевых услуг, расширяются сферы их предоставления, что приводит к необходимости увеличения числа и эффективности использования имеющихся каналов.
В условиях интенсивного развития телекоммуникационных сетях практически отсутствует информация о стохастических параметрах сообщения устной мьянманской речи, аналитические модели этих характеристик.
В лингвистике наметился особый интерес к фонологии слоговых языков, существенно отличающихся в плане организации звукового строя от русского [57].
Структурно-типологическая характеристика мьянманского языка, в основном, связана с его принадлежностью к агглютинативным языкам [57].
Мьянманский язык относится к лоло-бирманской группе тибето-бирманской ветви китайско-тибетской (сино-тибетской) семьи языков. Мьянманский язык народа мьянма (бирманцев, самоназвание - «мран»), основного населения Мьянмы (бывшей Бирмы), занимающей северозападную часть Индокитайского полуострова и ряд прибрежных островов.
Существует официальный язык Мьянмы, а также язык межнационального общения большинства народностей Мьянмы [57].
Мьянманский язык использует письменность, основанную на модифицированном древнеиндийском алфавите брахми, который существовал в Индии примерно с 500 г. до н.э. Языки построены с компонентами, состоящими из согласных, комбинаций согласных символов, гласных символов, связанных с соответствующими согласными, и диакритических знаков, указывающих уровень тона. Современный мьянманский язык включает 33 буквы (рис.В.1).
СО 0 о ш с
© зо 41 Е
я § ч о сю
со оо 3 © *
о о оо
со п со о оо
со 9 39
Рис.В.1
Для словопроизводства дополнительные знаки включают 14 знаков (рис.В.2).
J 1 ж 11 6
о © о 11 -о Б
Рис.В.2
и другие специальные символы [58].
Мьянманский - слоговой язык границы слогов и морфем обычно совпадают, морфема не может быть меньше слога. Максимально слог может состоять из четырех компонентов: начальной согласной, полугласной,
гласной и завершающей согласной, которой могут быть только носовой или гортанная смычка [62].
Мьянманский язык - тоновый. Обычно в нем выделяют четыре тона (или пять, если учитывается так называемый «нейтральный тон»). Гласные представлены монофтонгами и дифтонгами. В системе согласных представлены триады фонем, противопоставленные по звонкости/глухости/придыхательности, имеются глухие носовые. В лексике большой слой заимствований составляют палийские и монские слова. В мьянманский язык вошли также слова из санскрита и отдельные заимствования из английского языка. Исконная мьянманская лексика представлена в основном односложными словами. В современном языке большинство составляют многосложные слова. Основными средствами словообразования являются словосложение и аффиксация. Редупликация (повтор) является слово и формообразующим средством. Грамматический строй - изолирующий с элементами агглютинации. В связи с отсутствием морфологического словоизменения при выделении частей речи особую роль приобретают словообразовательные, сочетаемостные и функционально-синтаксические свойства слов. Агглютинативные аффиксы и постпозитивные служебные слова используются для выражения грамматических значений и указания на синтаксические функции слов. Порядок слов в предложении грамматически значим. В связи с наличием показателей синтаксических функций члены предложения, за исключением сказуемого, приобретают определенную позиционную подвижность. Основной порядок -
«подлежащее - дополнение - сказуемое» (8УО). Определение обычно предшествует определяемому. Счетные слова (или классификаторы) стоят после числительных, которые в свою очередь следуют за определяемым существительным [63].
Цель работы состоит в определении вероятностных характеристик сообщения устной мьянманской речи, их аналитических моделей и разработке методов оценки качества стохастической цифровой передачи сообщения устной мьянманской речи.
Реализуется следующая последовательность решения задач диссертационной работы:
1. Обзор существующих аналитических моделей речевого сообщения, его вероятностных характеристик.
2. Экспериментальное определение характеристик сообщения мьянманской речи, их аналитическое моделирование, сопоставление аналитических моделей сообщения мьянманской речи с моделями сообщений на других языках.
3.Учет специфики сообщения мьянманской речи при оценке качества примеров реализации стохастической цифровой передачи речи, с использованием критериев отношения мощности речевого сигнала к мощности шумов дискретизации и восстановления и разборчивости.
Исходная основа диссертации. В основе диссертации лежат:
фундаментальные работы теории информации Н.Винера, В. А. Котельникова, К.Шеннона и др.;
- теоретические и прикладные исследования по цифровой обработке и передаче непрерывных, в том числе речевых сообщений Л.А.Баранова, Дж.Беллами, А.И.Величкина, Г.В.Вемяна, М.Д.Бенедиктова, В.Н.Гордиенко, Г.В.Горелова, А.Г.Зюко, И.П.Кнышева, И.А.Лозового, А.П.Мановцева, М.В.Назарова, Н.И.Пилипчук, Л.Рабинера, О.Н.Ромашковой (Луковой), П.Н.Толмачева, А.Ф.Фомина и др.;
- теоретические и прикладные исследования средств и систем передачи информации В.П.Багуц, А.Н.Голубева, Д.В.Дьякова, В.А.Новикова, ВЛТюрина, В.П.Яковлева и др.
Методы исследования. В работе использованы методы теории вероятностей, математического анализа, теории случайных процессов.
Научная новизна. Степень научной новизны диссертации определяется тем, что в ней впервые решаются вопросы определения характеристик и моделирования сообщения устной речи на мьянманском языке.
Диссертационная работа развивает теорию восстановления речевых сообщений в направлении разработки методики аналитической оценки качества передачи и восстановления сообщений устной мьянманской речи в стохастических цифровых системах передачи информации, применения разработанных моделей при анализе и проектировании
телекоммуникационных систем реализующих передачу и восстановление дискретизированных речевых сообщений.
Практическая ценность результатов диссертации заключена в предоставленной возможности получения аналитическими методами объективных результатов оценки качества устной мьянманской речи, которые использованы при анализе и проектировании конкретных стохастических цифровых систем, реализующих передачу и восстановление речевых сообщений.
Апробация работы выполнена на заседаниях кафедры радиотехники и электросвязи МИИТа, а также - на Научно-практической конференции Неделя науки-2010 «Наука транспорту» (неделя науки-2010. МИИТ) Россия. Москва. 2010 г.
Результаты работы использованы в НИР - Перспективные технологии средств передачи информации железнодорожного транспорта. №1.005.11,МИИТ, 2011 г., а также в учебном процессе МИИТа.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 87 наименований. Основная часть диссертации изложена на 91 страницах машинописного текста, содержит 36 рисунок, 23 таблицы, приложение.
1. АНАЛИТИЧЕСКИЕ МОДЕЛИ РЕЧЕВОГО СООБЩЕНИЯ 1.1. Аналитическое моделирование речевого сообщения Различные абстрактные модели речевого сообщения, соответствующие реальной действительности, используются при анализе и синтезе современных телекоммуникационных сетей. Наиболее адекватна модель нестационарного случайного процесса с медленно меняющимися дисперсией и спектральной плотностью мощности. При использовании такой модели можно синтезировать информационную систему с наилучшими характеристиками. Однако система получается весьма сложной и самонастраивающейся, синтез ее затруднен отсутствием многих статистических характеристик модели [30,66].
Менее точной моделью речевого процесса является нестационарный случайный процесс с медленно меняющейся дисперсией и постоянной средней спектральной плотностью, определяемой экспериментально с использованием усреднения по времени.
Однако, на достаточно продолжительных отрезках времени речевой сигнал может удовлетворять условиям стационарности, что позволяет рассматривать его как квазистационарный. В литературе приводятся примеры применения таких характеристик, как усредненный энергетический спектр (спектральная плотность мощности), математическое ожидание и среднеквадратическое отклонение, предполагающих использование стационарной модели [10,13,30,66].
Использование таких характеристик позволяет получать результаты
анализа систем передачи речевой информации с достаточной для инженерной практики точностью. Более тонкое моделирование речевого сигнала существенно усложняет и часто делает невозможным применение аппарата аналитического исследования [30,66].
Одной из форм моделирования речевого сообщения является создание моделей «искусственного рта», «искусственного голоса» [1]. При правильно выбранном расстоянии от источника звука до микрофона акустические параметры должны быть близки к соответствующим параметрам человеческого голоса (рта). При проведении измерений с несколькими источниками звука, прежде всего, необходимо определить, какие параметры будут использованы для сравнения, а какие будут являться базовыми. По данным ITU-T считается, что расстояние 25 мм от плоскости рта (губ) является наиболее приемлемым [1].
Предполагается, что источник звука должен развивать звуковое давление не менее 90 дБ (2x10 Па) в частотном диапазоне 200-4000 Гц (в диапазоне 100-8000 Гц желательно звуковое давление 100 дБ.) [1].
Искусственный голос - это модель, которая может быть определена математически (задана в аналитическом виде) и которая воспроизводит временные и спектральные характеристики речевого сигнала, что важно при моделировании и проектировании информационной системы.
Искусственный голос предназначен для воспроизведения характеристик звучания реального голоса в полосе 100 Гц - 8 кГц. Он может применяться для исследования различных устройств, таких как микрофоны,
1 и и
телефонные громкоговорящие устройства, нелинейные кодеры, слоговые компандеры и др. Конечно, в каждом конкретном случае при исследовании следует внести корректирующие поправки. «Искусственный голос» может являться как электрическим, так и акустическим сигналом [1,30,74].
Искусственный голос, рассматриваемый как электрический сигнал, применяется для исследования и тестирования каналов передачи речи, а также других электрических устройств.
Акустический искусственный голос обладает характеристиками реального человеческого голоса [30,74].
1.2. Характеристики аналитических моделей речевого сообщения
Речь как акустический процесс характеризуется физическими параметрами. Основными параметрами, используемыми при описании речевого сигнала, являются:
- статистическое распределение звуков, слогов и слов при произношении речи;
- временные характеристики звуков;
- основной тон речи;
- усредненный за длительное время спектр;
- распределение формантных частот;
- мгновенное амплитудное распределение речи.
При построении различных систем обработки речи эти параметры играют важную роль [12].
При нормальных условиях передачи суммарный уровень громкости речевых сигналов у рта говорящего принимается равным 97 дБ, что соответствует звуковому давлению примерно 2 Па.
1.3. Спектральная плотность мощности и корреляционная функция речевого сообщения
При анализе качества передачи речи в телекоммуникационных системах возникает задача оценки вероятностных характеристик речевого сообщения и, прежде всего, его усредненного по времени энергетического спектра (спектральной плотности мощности (СПМ)).
В работе [74] на основании данных, содержащихся в рекомендации Р.51 ITU-T [1], для акустического речевого сообщения (первичного речевого сигнала на выходе микрофона) на английском языке предложено выражение нормированной СПМ (в децибелах по отношению к суммарному уровню, то есть к мощности сигнала):
S(f) = -465,75+465,441g(/) -157,751g2 (/)+16,7 llg3 (/). (1.1)
При нормировке спектральной плотности (1.1) в полосе 280-3500 Гц $x(f) = _463,80 + 465,44 lg(/)-157,75 lg2 (/) + 16,71 lg3 (/). (1.2) Значения нормированной спектральной плотности, вычисленные по формуле (1.2), представлены в табл. 1.1 [30,74]
Центральная частота/, полосы А/"* =1/3 октавы, Гц Спектральная плотность (нормированная), дБ Уровень в полосе А/*, дБ
315 -24,96 -6,53
400 -26,31 -6,86
500 -28,10 -7,58
630 -30,41 -8,89
800 -33,15 -10,87
1000 -35,95 -12,40
1250 -38,90 -14,35
1600 -42,20 -16,57
2000 -45,13 -18,55
2500 -47,92 -20,37
3150 -50,55 -22,01
В [30] отмечено, что поскольку нижняя и верхняя границы полосы А/* составляют от ее центральной частоты соответственно 8/9 и 10/9, то все приведенные в рекомендации [1] и приведенные выше зависимости предполагают рассмотрение частотной полосы от 88,9 Гц до 8888,9 Гц. В
и II О II
этой частотной полосе и сосредоточен суммарный уровень , по отношению к которому осуществляется нормировка спектральной плотности. Если речь
идет, например, о нормированной СПМ, то в качестве этого "суммарного уровня" выступает мощность сигнала.
Спектральные плотности (1.1) и (1.2) представлены на рис. 1.1 (кривые 2 и 1 соответственно) [30,74].
0.005-
0.004"
1.003-"
0.002"
0.001-
.,1
,г
ц \\
\
О 300 600 900 1200 1500 1800 2100 2400 2700 3000 3400 £ Гц
Рис. 1.1 Нормированная в полосе 280-3500 Гц (1) и исходная (2) СПМ
сигнала
В работе [14] предложена аппроксимация нормированной в области положительных частот средней спектральной плотности мощности речи на
русском языке
+
а2+4ж2{/-/0)2 а2 +4л-2(/ + /0)
(1.3)
где а=1000 1/с и /0 =400 Гц. Там же отмечается, что в разных системах связи
эти два параметра могут меняться из-за частотных искажений без ущерба для
1
разборчивости, что объясняется адаптацией слуха. Отметим, что в [4,30] приведены значения а и /0 для речевых сообщений на английском, испанском вьетнамском и казахском языках.
Аппроксимации (1.3) соответствует двусторонная СПМ [30]
SA(a) = aaj
(1.4)
а2 +(ф-б)0)2 а2 +(о) + со0)' где адисперсия (мощность) сообщения (сигнала); со0 = 2л/0 •
Очевидно, что выполняются условия
со со
oî = — Js»fo = \cr\SHx(f)df. (1.5)
Поскольку в реальных условиях преднамеренно или непреднамеренно полоса спектра частот, занимаемая сигналом, ограничена нижним FH и верхним Fe значениями, в работе [39] предложена аппроксимация (1.4), откорректированная с учетом нормировки при условии FH =0 и Fe=Fcp (Fcp-частота среза ФНЧ, осуществляющего предварительное ограничение), то есть при выполнении условия
1 2 xFCP
<rl=— \sx{a>)d(o. (1.6)
-2 itF ср
В результате
11 1
,(1-7)
о2+4Я2(/-/о)2 О2+4Я2(/+/О) где значение коэффициента M определяется по формуле [39]:
Рв
М = 1- / = 1-
Рн
2яРв -соо
а
2яРи - со()
+ агс/^
2 7СрВ + СО о
а
V а /
+
(1.8)
V
а
где а =1000 1/с и /0 =400 Гц для русскоязычного сообщения (определены значения этих коэффициентов и для речевых сообщений на английском, испанском вьетнамском и казахском языках).
В результате такой нормировки выполняется условие
(1.9)
В табл.1.2 [30,74] приведены значения коэффициента 1+М для некоторых комбинаций значений Рн и /V
Таблица 1.2
/
л
Нижняя частота спектра ¥н, Гц Верхняя частота спектра Рв, Гц Значение 1+М
0 ос 1
0 3400 1,0299770
0 8888,889 1,0113412
0 200000 1,0005031
88,889 3400 1,0811732
88,889 8888,889 1,0625374
Значения нормированной спектральной плотности, вычисленные по формуле (1.7), предста�
-
Похожие работы
- Вероятностные характеристики сообщения устной казахской речи
- Методы определения качества стохастической передачи испанской речи в цифровых сетях интегрального обслуживания
- Исследование психофизиологического состояния человека на основе эмоциональных признаков речи
- Анализ качества стохастической цифровой передачи речевой информации (методика и ее использование при разработке информационных систем)
- Речевая коммуникация в системах ввода сообщений для автоматизации рабочих мест оперативно-диспетчерского персонала
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность