автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Стохастические параметры сообщения устной мьянманской речи

кандидата технических наук
Вин Хан
город
Москва
год
2011
специальность ВАК РФ
05.13.17
Диссертация по информатике, вычислительной технике и управлению на тему «Стохастические параметры сообщения устной мьянманской речи»

Автореферат диссертации по теме "Стохастические параметры сообщения устной мьянманской речи"

На правах рукописи

0050095^/

Вин Хан

СТОХАСТИЧЕСКИЕ ПАРАМЕТРЫ СООБЩЕНИЯ УСТНОЙ МЬЯНМАНСКОЙ РЕЧИ

05.13.17 «Теоретические основы информатики»

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

2 6 Я Н В 2С12

Москва-2011

005009527

Работа выполнена в Федеральном государственном бюджетно образовательном учреждении высшего профессионального образована «Московский государственный университет путей сообщения» (МИИТ) * кафедре «Радиотехника и электросвязь».

доктор технических наук, профессор Горелов Георгий Владимирович

доктор технических наук, профессор Алексеев Виктор Михайлович

кандидат физико-математических наук, Мельников Сергей Юрьевич

Федеральное государственное бюджет» образовательное учреждение высшего профессионального образования «Петербургский государственный университет путей сообщения (ПГУПС)»

Защита диссертации состоится « 15 » февраля 2012 г. в "11" часов заседании диссертационного совета Д218.005.04 в Московск государственном университете путей сообщения (МИИТ) по адресу: 1279! г. Москва, ГСП-4, ул. Образцова, д. 9, стр.9, ауд. 2505.

С диссертацией можно ознакомиться в библиотеке МИИТа.

Отзывы на автореферат в двух экземплярах, заверенных печатью, прось направлять по адресу Совета университета.

Научный руководитель: Официальные оппоненты:

Ведущая организация:

Автореферат разослан «12» января 2012 г.

Ученый секретарь диссертационного совета Д218.005.04, д.т.н.

В.Г.Сидоренко

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время в телекоммуникационных сетях возрастает речевой трафик, увеличивается число потребителей речевых услуг, расширяются сферы их предоставления, что приводит к необходимости увеличения числа и эффективности использования имеющихся каналов.

В лингвистике наметился особый интерес к фонологии слоговых языков, существенно отличающихся в плане организации звукового строя от русского.

Структурно-типологическая характеристика мьянманского языка, в основном, связана с его принадлежностью к агглютинативным языкам.

Мьянманский язык относится к лоло-бирманской группе тибето-бирманской ветви китайско-тибетской (сино-тибетской) семьи языков. Мьянманский язык народа мьянма (бирманцев, самоназвание - «мран»), основного населения Мьянмы (бывшей Бирмы), занимающей северозападную часть Индокитайского полуострова и ряд прибрежных островов.

В условиях интенсивного развития телекоммуникационных сетей практически отсутствует информация о стохастических параметрах сообщения устной мьянманской речи, аналитические модели этих характеристик.

Цель работы состоит в определении вероятностных характеристик сообщения устной мьянманской речи, их аналитических моделей и разработке методов оценки качества стохастической цифровой передачи сообщения устной мьянманской речи.

Реализуется следующая последовательность решения задач диссертационной работы:

1.Обзор существующих аналитических моделей речевого сообщения,

его вероятностных характеристик.

2.Экспериментальное определение характеристик сообщения мьянманской речи, их аналитическое моделирование, сопоставление аналитических моделей сообщения мьянманской речи с моделями сообщений на других языках.

З.Учет специфики сообщения мьянманской речи на примере оценки качества воспроизведения сообщения при его пакетной передаче. Исходная основа диссертации. В основе диссертации лежат:

- фундаментальные работы теории информации Н-Винера, В.А. Котельникова, К.Шеннона и др.;

- теоретические и прикладные исследования по цифровой обработке и передаче непрерывных, в том числе речевых сообщений Л.А.Баранова, Дж.Беллами, А.И.Величкина, Г.В.Вемяна, М.Д.Венедиктова, В.Н.Гордиенко, Г.В.Горелова, А.Г.Зюко, И.П.Кнышева, И.А.Лозового, АЛ.Мановцева, М.В.Назарова, ШШилипчук, ЛРабинера, О.Н.Ромашковой (Луковой), П.Н.Толмачева, А.Ф.Фомина и др.;

- теоретические и прикладные исследования средств и систем передачи информации В.П.Багуц, А.Н.Голубева, Д.В.Дьякова, ВА-Новикова, В.Л.Тюрина, В.ПЛковлева и др.

Методы исследования. В работе использованы методы теории вероятностей, математического анализа, теории случайных процессов.

Научная новизна. Степень научной новизны диссертации определяется тем, что в ней впервые решаются вопросы определения характеристик и моделирования сообщения устной речи на мьянманском языке. Диссертационная работа развивает теорию восстановления речевых сообщений в направлении разработки методики аналитической оценки качества воспроизведения сообщений устной мьянманской речи в стохастических

цифровых системах передачи информации, учета специфики сообщения мьянманской речи на примере оценки качества воспроизведения сообщения при его пакетной передаче.

Практическая ценность результатов диссертации заключена в предоставленной возможности получения аналитическими методами объективных результатов оценки качества устной мьянманской речи, которые использованы при анализе и проектировании конкретных стохастических цифровых систем, реализующих передачу и восстановление речевых сообщений.

Апробация работы выполнена на заседаниях кафедры радиотехники и электросвязи МИИТа, а также - на Научно-практической конференции Неделя науки-2010 «Наука транспорту» Москва, 2010 г.

Результаты работы использованы в НИР - Перспективные технологии средств передачи информации железнодорожного транспорта. № 1.005.11,МИИТ, 2011г., атакже в учебном процессе МИИТа.

Публикации. Основные результаты диссертации изложены в трех опубликованных работах, перечень которых представлен в конце автореферата.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 87 наименований. Основная часть диссертации изложена на 91 страницах машинописного текста, содержит 36 рисунка, 23 таблицы.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы,

приводится краткий анализ современного состояния исследуемых вопросов, формулируются цель и задачи исследования, дан алгоритм их решения и анонсированы основные положения диссертации.

Первая глава содержит обзор существующих аналитических моделей речевого сообщения, его вероятностных характеристик.

Сделан вывод, что для получения оценок спектральной плотности мощности (СПМ) и корреляционной функции сообщения устной речи на мьянманском языке целесообразно использовать методику, изложенную в работах Е.А. Бахтияровой.

Во второй главе впервые определена СПМ сообщения устной мьянманской речи.

Для экспериментального определения характеристик сообщения устной мьянманской речи в качестве реализации использованы записи продолжительностью 1 час, с частотой дискретизации 44100 Гц и разрешением 16 бит. При вычислении экспериментальных характеристик динамический диапазон разбивался на 216=65536 уровней.

Для определения оценок СПМ сообщали устной мьянманской речи применена программа Adobe Audition 3.0. В качестве входных данных использованы файлы типа «WAV».

Получены усредненные СПМ сообщения устной мьянманской речи для полосы телефонного канала 300 - 3400 Гц (рисунок 1), а также для полос 88,88 - 3400 Гц, 88,88 - 8888,88 Гц, 0 - 16000 Гц и 280 - 3500 Гц.

Определены оценки нормированной СПМ Sx(fl речевого сообщения устной мьянманской речи для полосы телефонного канала 300 - 3400 Гц (рисунок 2), а также для полос 88,88 - 3400 Гц, 88,88 - 8888,88 Гц, 0 - 16000 Гц и 280 - 3500 Гц.

Значения оценок нормированной СПМ, и доли мощности на центральных частотах/ц полос Д/* =1/3 октавы, представлены в таблицах 1 и 2 соответственно.

Логарифмическое суммирование данных второго, четвертого и шестого столбцов таблицы 2 предоставляет величину 1 (0 дБ).

Рисунок 1

Сигяж 309.1 №.-«.« ЙВ Ргеаиепсу: 521.14 Н2(С5-7)

Ш«Т» РгТ5сг: 65536 » 'В1кктврп...... > ^егевм: С .......ЙЕРЭ СоруЬС!!рЬмй

; 5сгп 5е1ей'оп

Рисунок 2

Центральная Нормированная спектральная плотность s,(f) при

частота /ч области определения

полосы Af-1/З 300- :3400 Гц 88,88- 8888,88 Гц 0-16000 Гц

октавы, Гц ДБ раз/Гц ДБ раз/Гц ДБ раз/Гц

100 - - -41,40 0,000072 -37,40 0,000182

125 - - -32,13 0,000613 -31,14 0,000769

160 - - -32,84 0,000521 -32,43 0,000571

200 - - -32,06 0,000623 -31,69 0,000678

250 - - -30,53 0,000885 -30,16 0,000963

315 -28,57 0,001389 -28,97 0,001267 -28,60 0,001382

400 -27,27 0,001874 -28,32 0,001474 -27,94 0,001606

500 -26,74 0,002117 -27,79 0,001662 ■27,41 0,001814

630 -27,03 0,001980 -28,10 0,001549 -27,70 0,001697

800 -32,38 0,000579 -33,45 0,000452 -33,04 0,000496

100© -36,53 0,000222 -37,64 0,000172 -37,20 0,000191

1250 -38,33 0,000147 -39,45 0,000114 -39,00 0,000126

1600 -41,19 0,000076 -42,28 0,000059 -41,86 0,000065

2000 -43,85 0,000041 -44,94 0,000032 -44,52 0,000035

2500 -47,45 0,000018 -48,53 0,000014 -48,12 0,000015

3150 -52,74 0,000005 -53,06 0,000005 -52,70 0,000005

4000 - - -55,43 0,000003 -55,04 0,000003

5000 - - -68,86 0,000000 -68,58 0,000000

6300 - - 0 0 0 0

8000 - - 0 0 0 0

Центральная частота f4 полосы &f*=l/3 октавы, Гц Уровень в полосе Л/* при области определения

300-3400 Гц 88,88-8888,88 Гц 0-16000 Гц

ДБ раз ДБ раз ДБ Раз

100 - - -27,93 0,001610 -23,93 0,004048

125 - - -17,69 0,017024 -16,71 0,021347

160 - - -17,33 0,018504 -16,93 0,020297

200 - - -15,58 0,027671 -15,21 0,030138

250 - - -13,08 0,049188 -12,72 0,053486

315 -11,58 0,069474 -11,98 0,063334 -11,61 0,069089

400 -7,78 0,166563 -8,83 0,131004 -8,45 0,142776

500 -6,29 0,235165 -7,34 0,184620 -6,96 0,201579

630 -5,57 0,277153 -6,64 0,216926 -6,24 0,237571

800 -9,88 0,102879 -10,95 0,080338 -10,55 0,088186

1000 -13,06 0,049409 -14,17 0,038294 -13,73 0,042353

1250 -13,89 0,040807 -15,01 0,031542 -14,56 0,034980

1600 -15,68 0,027050 -16,77 0,021015 -16,35 0,023187

2000 -17,37 0,018319 -18,46 0,014254 -18,04 0,015703

2500 -20,01 0,009988 -21,08 0,007797 -20,67 0,008562

3150 -24,96 0,003194 -24,61 0,003462 -24,25 0,003760

4000 - - -25,94 0,002548 -25,55 0,002784

5000 - - -38,40 0,000145 -38,13 0,000154

6300 - - 0 0 0 0

8000 - - 0 0 0 0

Всего 1,0 1,0 1,0

Полученные результаты хорошо корреспондируются с данными,

представленными в рекомендации Р.51 ITU-T.

Таблица 3 объединяет данные для телефонных сигналов на русском и мьянманском языках и иллюстрирует различия полученных для этих видов речи результатов.

Таблица 3

Центральная частота f4 полосы Дf*=l/3 октавы, Гц Спектральная плотность (нормированная) Бхф для устной русской речи, дБ Спектральная плотность (нормированная) Sx(/) для устной мьянманской речи, дБ

315 -25,01 -28,57

390 -23,05 -

400 -23,06 -27,27

500 -26,54 -26,74

630 -33,66 -27,03

800 -41,98 -32,38

1000 -42,84 -36,53

1250 -41,99 -38,33

1600 -42,57 -41,19

2000 -45,79 -43,85

2500 -47,01 -47,45

3150 -46,35 -52,74

Максимумы оценок энергетического спеетра сообщения устной мьянманской речи (в полосе 0 - 16000 Гц), а также в полосе телефонного канала 300 - 3400 Гц и полосах 88,88 - 3400 Гц, 88,88 - 8888,88 Гц, 280 -3500 Гц), реализуются на частоте 500 Гц.

Из работ Е.А. Бахтияровой известно, что максимум энергетического спектра сообщения устной русской речи реализуются на частоте 390 Гц.

Для определения достаточной продолжительности реализации сообщения устной речи на мьянманском языке использованы результаты

развития (при увеличении длины реализации) оценок математического ожидания тх и среднеквадратического отклонения ах, (таблица 4, рисунок 3 а и б.).

Значения ох и тх практически стабилизируются при г > 30 мин.

Таблица 4

Оценки математического ожидания тх и среднеквадратического отклонения ох при продолжительности реализаций речевого сигнала Ь, отсчет и ^ мин

Ь 13230000 26460000 52920000 79380000 119070000 158760000

1 5 10 20 30 45 60

шх -0,0072274 -0,0008598 -0,0012670 -0,0000674 -0,0000526 0,00000562

ох 3616,095 3493,4033 3489,826 3501,695 3442,133 3358,978

В третьей главе впервые решаются вопросы моделирования стохастических параметров сообщения устной мьянманской речи.

Получены аналитические модели СПМ и корреляционной функции (КФ) речевого сообщения устной речи на мьянманском языке.

В качестве аналитической модели СПМ выбрана предложенная О.Н.Ромашковой (Луковой) модель, успешно использованная ранее при моделировании СПМ сообщений устной речи на русском, английском, испанском, вьетнамском и казахском языках:

0.004

0.002

X 0

-0.002

-0.004

-0.006

-0.008

10

20 30

t, МИН

40

50

60

Рисунок 3. а

20

30 t, мин

40

50

60

Рисунок 3. б

1

1

a +4ít (/-/0) а2+4г^(/+/оГ

м = 1-

где Г„ я нижнее и верхнее значения полосы частот, занимаемой речевым сообщением;

а и /о- коэффициенты.

С использованием сделанного во второй главе вывода о том, что максимальное значение 0,002117 экспериментально полученной нормированной СПМ реализуется на частоте 500 Гц, получены значения параметров аппроксимации а = 1173,98 1/с, /о =500 Гц и М = 0,2015.

На рисунке 4 представлены графики СПМ сообщения устной речи на мьянманском языке на частотах, в пределах полосы телефонного канала (сплошная линия) и ее аппроксимации (штриховая линия).

0.0025

0.00225

0.002

0.00175

£ 0.0015

1 0.00125

А

е и 0.001

и

0.00075

0.0005

0.00025

0

/Ч 1,002 117

г к

1

\

\

0 200 400 600 800 1000120014001600180020002200240026002800300032003400

/.Гц

Рисунок 4

Значения экспериментальной нормированной СПМ (на частотах 300 -3400 Гц) и ее аппроксимации представлены в таблице 5.

Центральная частота /ц полосы У =1/3 октавы, Гц 300-3400 Гц Экспериментальная СПМ 300-3400 Гц Аппроксимация СПМ

дБ раз/Гц дБ раз/Гц

315 -28,57 0,00121 -29,20 0,00119

400 -27,27 0,001874 -27,49 0,00178

500 -26,74 0,002117 -26,74 0,002117

630 -27,03 0,001980 -27,64 0,00172

800 -32,38 0,000579 -33,10 0,000489

1000 -36,53 0,000222 -35,80 0,000261

1250 -38,33 0,000147 -38,30 0,000145

1600 -41,19 0,000076 -41,19 0,000076

2000 -43,85 0,000041 -43,87 0,000041

2500 -47,45 0,000018 -46,98 0,00002

3150 -52,74 0,000005 -48,2 0,000015

С использованием положений теоремы Винера-Хинчина и коэффициентов аппроксимации СПМ выражение для корреляционной функции (КФ) телефонного сигнала на мьянманском языке записано в виде (для наглядности использования коэффициентов в формуле выполнены не все арифметические преобразования):

г„(г)= 12.(1 + 0,2015). 1173,98

300

3

1173 ,982 + 4л2(/ + 500 У _

1173,982 +4л2Ог-500)2 ад* 2я-./.т)4Г.

С использованием численного интегрирования при вычисления интеграла в последнем выражении, определена нормированная КФ телефонного сигнала на мьянманском языке, график которой представлен сплошной линией на рисунке 5 (для сравнения штриховой линией на рисунке 5 представлена полученная Е.А.Бахтиярсвой нормированная КФ телефонного сигнала на русском языке).

Рисунок 5

Определена аппроксимация нормированной КФ телефонного сигнала на мьянманском языке

( je"598,75r соь(1000лт), прит < 0,0lj (0, при г >0,01 J

Значения нормированной экспериментальной КФ телефонного сигнала на мьянманском языке и ее аппроксимации приведены в таблице 6. Для сравнения в таблице 6 приведены значения нормированной

экспериментальной КФ телефонного сигнала на русском языке и ее аппроксимации.

Графики нормированной экспериментальной КФ телефонного сигнала на мьянманском языке (штриховая линия) и ее аппроксимации (сплошная линия) приведены на рисунке 6.

Таблица 6

Значения г/х) при значениях т, мс

0,1 0,3 0,5 2,0 5,0 9,0

Мьян-ман-ская речь Экспериментальная КФ 0,8331 0,3086 -0,1691 0,1750 0,0014 0,0179

Аппроксимация КФ 0,8958 0,4911 0,0000 0,3019 -0,0501 -0,0046

Русская речь Экспериментальная КФ 0,9384 0,6714 0,1358 0,1975 0,1196 0,0226

Аппроксимация КФ 0,8915 0,5587 0,2869 0,0965 0,1808 -0,0503

Рисунок 6

Корреляционные связи сечений сообщения устной речи на мьянманском языке по мере увеличения временного интервала между сечениями затухают быстрее по сравнению с сообщением устной речи на русском языке.

В четвертой главе произведена оценка качества воспроизведения речи в IP-телефонии с учетом специфики сообщения устной речи на мьянманском языке.

Известно, что основное влияние на качество воспроизведения речи в системах с пакетной коммутацией оказывают потери речевых пакетов при их передаче.

Рассмотрены высокоскоростные кодеки - кодеки, описанные рекомендацией G.711 МСЭ с функцией маскирования потерянных кадров (PLC), в которых производится замена потерянного фрагмента речи предыдущим той же длительности (функция PLC типа «Repeat 1/Silence», определенная МСЭ в исправлениях Рекомендации G.113 (ITU-T Recommendation G.113 Amendment 2 (01/2007): Revised Appendix 1).

Из исследований кодеков G.711 с функцией PLC (на кафедре радиотехники и электросвязи МИИТа) известно, что при отбраковке последовательности i=l,2,3,..., N пакетов отношение сигнал/шум воспроизведения (в децибелах) можно определить с использованием формулы

осш = ioig[i/[2

i=!

где r,(.) - нормированная КФ речевого сообщения;

W - длительность пакета;

P,-(i) - распределение вероятностей отбраковки подряд i речевых пакетов;

Л<0=аЛ(0, /=1,2,...,*, где У, (г) ~ условное распределение вероятностей отбраковки подряд 1 речевых пакетов при условии, что отбраковка происходит; рп - вероятность отбраковки.

Известно, что в качестве аппроксимации распределения наиболее целесообразно и наиболее часто используется геометрическое распределение.

С использованием этой аппроксимации и полученных в главе 3 данных о КФ получены зависимости значений ОСШ от длительности пакета, представленные в таблице 7 при различных вероятностях отбраковки пакета в случае речевого сообщения на мьянманском языке (ОСШм). Для сравнения в таблице 7 представлены и известные сведения об этой зависимости для речевого сообщения на русском языке (ОСШр).

Таблица 7

Рп ОСШ Значения отношения сигнал/шум ОСШРи ОСШм. дБ при значениях длительности пакета 1па1<. мс

0,0001 0,8 5,0 10,0 20,0

0,3 ОСШр 13,784 1,1187 2,757 2,272 2,219

ОСШм 15,9961 0,4645 2,0163 2,2178 2,2286

0,03 ОСШр 23,784 13,613 12,757 12,272 12,219

ОСШм 25,9862 10,4545 12,0063 12,2078 12,2186

0,01 ОСШр 28,555 18,384 17,529 17,043 16,990

ОСШм 30,7616 15,2300 16,7818 16,9832 16,9941

0,001 ОСШр 38,555 28,384 27,529 27,043 26,990

ОСШм 40,7572 25,2256 26,7774 26,9789 26,9897

Графики зависимости оценок ОСШ от длительности пакета 1вщ! представлены на рисунке 7 (при рп =0,01) для речевых сообщений на русском (сплошная линия) и мьянманском (штриховая линия) языках.

-

1 \

\

V'/

О 1 2 3 4 5 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 Длительность пакета 1,шк, МС

Рисунок 7

При уменьшении длительности пакета и фиксированном значении вероятности его потери качество воспроизведения речи повышается за счет увеличения корреляционных связей между потерянным фрагментом речевого сообщения и фрагментом, используемым для восстановления. Например, при рп=0,01 оно увеличивается с «хорошего» (ОСШ=16дБ) при ^=20 мс до «отличного» (ОСШ=20 дБ) при 1ПМ=0,8 мс (для сообщения на русском языке) и 1пак= 0,5 мс (для сообщения на мьянманском языке).

При увеличении и уменьшении длительности пакета и фиксированном значении вероятности различие в оценках качества воспроизведения устной речи на русском и мьянманском языках стремится к нулю. В первом случае -за счет затухания до нуля корреляционных связей между потерянным фрагментом и фрагментом, используемым для восстановления. Во втором случае - за счет нивелирования различий (в характере изменения корреляционной функции сообщения при малых значениях аргумента) между сообщениями на русском и мьянманском языках.

Заключение

На основании исследований, представленных в диссертации, получены следующие результаты.

1.Получены первые оценки усредненной по времени СПМ сообщения устной речи на мьянманском языке (для полосы телефонного канала 300 -3400 Гц и для полос 280 - 3500 Гц, 88,88 - 3400 Гц, 88,88 - 8888,88 Гц, 0 -16000 Гц).

Установлено, что СПМ сообщения устной речи и телефонного сигнала на мьянманском языке имеет максимальное значение при частоте 500 Гц в отличие от известных результатов для, например, устной английской, русской и казахской речи, максимальные значения СПМ сообщений которых наблюдаются на частотах 220,390 и 300 Гц соответственно.

2. Впервые для речевого сообщения устной речи на мьянманском языке выполнено аналитическое моделирование усредненной по времени СПМ и корреляционной функции.

3. Впервые в качестве модели корреляционной функции и СПМ речевого сообщения устной речи на мьянманском языке предложено использовать экспоненциально-косинусную корреляционную функцию и соответствующую ей модель СПМ, использованные ранее при аналитическом моделировании стохастических характеристик сообщений устной речи на русском, английском, испанском, вьетнамском и казахском языках.

Определены коэффициенты (/0=500 Гц, а = 1173,98 1/с и М = 0,2015) аппроксимаций корреляционной функции и СПМ телефонного сигнала и сообщения устной речи на мьянманском языке.

4. Установлена продолжительность реализации сообщения устной речи на мьянманском языке, достаточная для экспериментальных оценок. Показано, что значения оценок математического ожидания и дисперсии реализаций стабилизируются при г > 30 мин.

5. Определены зависимости оценок ОСШ воспроизведения речевого сообщения на мьянманском языке от длительности пакета при различных вероятностях потери пакета в системах, использующих высокоскоростные кодеки G.711 с функцией маскирования потерянных кадров типа «Repeat 1/Silence».

При уменьшении длительности пакета и фиксированном значении вероятности рп его потери качество воспроизведения сообщения на мьянманском языке повышается за счет усиления корреляционных связей между потерянным и используемым для восстановления фрагментами речи. Например, при рп=0,01 оно увеличивается с «хорошего» (ОСШ=16дБ) при W~20 мс до «отличного» (ОСШ=20 дБ) при tn(Ut= 0,5 мс.

При увеличении и уменьшении длительности пакета и фиксированном значении вероятности различие в оценках качества воспроизведения устной речи на русском и мьянманском языках стремится к нулю. В первом случае -за счет затухания до нуля корреляционных связей между потерянным фрагментом и фрагментом, используемым для восстановления. Во втором случае - за счет нивелирования различий (в характере изменения корреляционной функции сообщения при малых значениях аргумента) между сообщениями на русском и мьянманском языках.

Основные положения диссертации опубликованы в работах:

1. Горелов Г.В., Житнов A.A., Вин Хан Пакетная передача речи с использованием динамической беспроводной сети AD-НОС NETWORK стандарта 802.11.// Информационно-управляющие системы на железнодорожном транспорте. Украина - Харьков.-2010, №4. - с.64-68.

2. Горелов Г.В., Житнов A.A., Вин Хан Мощность речевого сопровождения: проверка расстоянием // Мир транспорта. - 2010. - №3. -С. 46-49.

3. Горелов Г. В., Житков А. А., Вин Хан Сопоставление оценок энергетических спектров устной руссхой и мьянманской речи //Телекоммуникации 2010. М8.С.8-11.

Вин Хан

05.13.17 - Теоретические основы информатики

Стохастические параметры сообщения устной мьянманской речи

Подписано к печати ЗХ /2 //

Объем 1,5 п.л. Печать офсетная.

Формат 60x80 1/16 Тираж 80 экз. Заказ № 3 60

Типография МИИТа, 127994, Москва, ул. Образцова, д.9, стр. 9

Текст работы Вин Хан, диссертация по теме Теоретические основы информатики

61 12-5/1472

Федеральное агентство железнодорожного транспорта

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Московский государственный университет путей сообщения»

(МИИТ)

СТОХАСТИЧЕСКИЕ ПАРАМЕТРЫ СООБЩЕНИЯ УСТНОЙ

МЬЯНМАНСКОЙ РЕЧИ 05.13.17 - Теоретические основы информатики

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель: д.т.н., профессор Горелов Георгий Владимирович

Москва-2011

СОДЕРЖАНИЕ

стр.

ВВЕДЕНИЕ 4

1. АНАЛИТИЧЕСКИЕ МОДЕЛИ РЕЧЕВОГО СООБЩЕНИЯ 10

1.1. Аналитическое моделирование речевого сообщения 10

1.2. Характеристики аналитических моделей речевого сообщения 12

1.3. Спектральная плотность мощности и корреляционная функция 13 речевого сообщения

1.4. Выводы 38

2. ЭКСПЕРИМЕНТАЛЬНОЕ ОПРЕДЕЛЕНИЕ ХАРАКТЕРИСТИК СООБЩЕНИЯ МЬЯНМАНСКОЙ РЕЧИ 40

2.1. Сведения об используемых реализациях 40

2.2. Сведения об используемом аппарате определения характеристик 40 сообщения

2.3. Оценки спектральной плотности мощности и корреляционной 41 функции

2.4. Выводы 53

3. АНАЛИТИЧЕСКОЕ МОДЕЛИРОВАНИЕ РЕЧЕВОГО СООБЩЕНИЯ УСТНОЙ РЕЧИ НА МЬЯНМАНСКОМ ЯЗЫКЕ 55

3.1. Аналитические модели спектральной плотности мощности и

корреляционной функции речевого сообщения устной речи на мьянманском языке 55

3.2. Выводы 60

4. УЧЕТ СПЕЦИФИКИ РЕЧЕВОГО СООБЩЕНИЯ УСТНОЙ РЕЧИ НА МЬЯНМАНСКОМ ЯЗЫКЕ ПРИ ОЦЕНКЕ КАЧЕСТВА СТОХАСТИЧЕСКОЙ ЦИФРОВОЙ ПЕРЕДАЧИ РЕЧИ 62

4.1. Критерии и методы оценки качества передачи речи 62

4.2. Качество восстановления речи в 1Р-телефонии 67

4.3. Выводы 75

5. ЗАКЛЮЧЕНИЕ 77

СПИСОК ЛИТЕРАТУРЫ ПРИЛОЖЕНИЕ

80 92

ВВЕДЕНИЕ

Актуальность темы. В настоящее время в телекоммуникационных сетях возрастает речевой трафик, увеличивается число потребителей речевых услуг, расширяются сферы их предоставления, что приводит к необходимости увеличения числа и эффективности использования имеющихся каналов.

В условиях интенсивного развития телекоммуникационных сетях практически отсутствует информация о стохастических параметрах сообщения устной мьянманской речи, аналитические модели этих характеристик.

В лингвистике наметился особый интерес к фонологии слоговых языков, существенно отличающихся в плане организации звукового строя от русского [57].

Структурно-типологическая характеристика мьянманского языка, в основном, связана с его принадлежностью к агглютинативным языкам [57].

Мьянманский язык относится к лоло-бирманской группе тибето-бирманской ветви китайско-тибетской (сино-тибетской) семьи языков. Мьянманский язык народа мьянма (бирманцев, самоназвание - «мран»), основного населения Мьянмы (бывшей Бирмы), занимающей северозападную часть Индокитайского полуострова и ряд прибрежных островов.

Существует официальный язык Мьянмы, а также язык межнационального общения большинства народностей Мьянмы [57].

Мьянманский язык использует письменность, основанную на модифицированном древнеиндийском алфавите брахми, который существовал в Индии примерно с 500 г. до н.э. Языки построены с компонентами, состоящими из согласных, комбинаций согласных символов, гласных символов, связанных с соответствующими согласными, и диакритических знаков, указывающих уровень тона. Современный мьянманский язык включает 33 буквы (рис.В.1).

СО 0 о ш с

© зо 41 Е

я § ч о сю

со оо 3 © *

о о оо

со п со о оо

со 9 39

Рис.В.1

Для словопроизводства дополнительные знаки включают 14 знаков (рис.В.2).

J 1 ж 11 6

о © о 11 -о Б

Рис.В.2

и другие специальные символы [58].

Мьянманский - слоговой язык границы слогов и морфем обычно совпадают, морфема не может быть меньше слога. Максимально слог может состоять из четырех компонентов: начальной согласной, полугласной,

гласной и завершающей согласной, которой могут быть только носовой или гортанная смычка [62].

Мьянманский язык - тоновый. Обычно в нем выделяют четыре тона (или пять, если учитывается так называемый «нейтральный тон»). Гласные представлены монофтонгами и дифтонгами. В системе согласных представлены триады фонем, противопоставленные по звонкости/глухости/придыхательности, имеются глухие носовые. В лексике большой слой заимствований составляют палийские и монские слова. В мьянманский язык вошли также слова из санскрита и отдельные заимствования из английского языка. Исконная мьянманская лексика представлена в основном односложными словами. В современном языке большинство составляют многосложные слова. Основными средствами словообразования являются словосложение и аффиксация. Редупликация (повтор) является слово и формообразующим средством. Грамматический строй - изолирующий с элементами агглютинации. В связи с отсутствием морфологического словоизменения при выделении частей речи особую роль приобретают словообразовательные, сочетаемостные и функционально-синтаксические свойства слов. Агглютинативные аффиксы и постпозитивные служебные слова используются для выражения грамматических значений и указания на синтаксические функции слов. Порядок слов в предложении грамматически значим. В связи с наличием показателей синтаксических функций члены предложения, за исключением сказуемого, приобретают определенную позиционную подвижность. Основной порядок -

«подлежащее - дополнение - сказуемое» (8УО). Определение обычно предшествует определяемому. Счетные слова (или классификаторы) стоят после числительных, которые в свою очередь следуют за определяемым существительным [63].

Цель работы состоит в определении вероятностных характеристик сообщения устной мьянманской речи, их аналитических моделей и разработке методов оценки качества стохастической цифровой передачи сообщения устной мьянманской речи.

Реализуется следующая последовательность решения задач диссертационной работы:

1. Обзор существующих аналитических моделей речевого сообщения, его вероятностных характеристик.

2. Экспериментальное определение характеристик сообщения мьянманской речи, их аналитическое моделирование, сопоставление аналитических моделей сообщения мьянманской речи с моделями сообщений на других языках.

3.Учет специфики сообщения мьянманской речи при оценке качества примеров реализации стохастической цифровой передачи речи, с использованием критериев отношения мощности речевого сигнала к мощности шумов дискретизации и восстановления и разборчивости.

Исходная основа диссертации. В основе диссертации лежат:

фундаментальные работы теории информации Н.Винера, В. А. Котельникова, К.Шеннона и др.;

- теоретические и прикладные исследования по цифровой обработке и передаче непрерывных, в том числе речевых сообщений Л.А.Баранова, Дж.Беллами, А.И.Величкина, Г.В.Вемяна, М.Д.Бенедиктова, В.Н.Гордиенко, Г.В.Горелова, А.Г.Зюко, И.П.Кнышева, И.А.Лозового, А.П.Мановцева, М.В.Назарова, Н.И.Пилипчук, Л.Рабинера, О.Н.Ромашковой (Луковой), П.Н.Толмачева, А.Ф.Фомина и др.;

- теоретические и прикладные исследования средств и систем передачи информации В.П.Багуц, А.Н.Голубева, Д.В.Дьякова, В.А.Новикова, ВЛТюрина, В.П.Яковлева и др.

Методы исследования. В работе использованы методы теории вероятностей, математического анализа, теории случайных процессов.

Научная новизна. Степень научной новизны диссертации определяется тем, что в ней впервые решаются вопросы определения характеристик и моделирования сообщения устной речи на мьянманском языке.

Диссертационная работа развивает теорию восстановления речевых сообщений в направлении разработки методики аналитической оценки качества передачи и восстановления сообщений устной мьянманской речи в стохастических цифровых системах передачи информации, применения разработанных моделей при анализе и проектировании

телекоммуникационных систем реализующих передачу и восстановление дискретизированных речевых сообщений.

Практическая ценность результатов диссертации заключена в предоставленной возможности получения аналитическими методами объективных результатов оценки качества устной мьянманской речи, которые использованы при анализе и проектировании конкретных стохастических цифровых систем, реализующих передачу и восстановление речевых сообщений.

Апробация работы выполнена на заседаниях кафедры радиотехники и электросвязи МИИТа, а также - на Научно-практической конференции Неделя науки-2010 «Наука транспорту» (неделя науки-2010. МИИТ) Россия. Москва. 2010 г.

Результаты работы использованы в НИР - Перспективные технологии средств передачи информации железнодорожного транспорта. №1.005.11,МИИТ, 2011 г., а также в учебном процессе МИИТа.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы, включающего 87 наименований. Основная часть диссертации изложена на 91 страницах машинописного текста, содержит 36 рисунок, 23 таблицы, приложение.

1. АНАЛИТИЧЕСКИЕ МОДЕЛИ РЕЧЕВОГО СООБЩЕНИЯ 1.1. Аналитическое моделирование речевого сообщения Различные абстрактные модели речевого сообщения, соответствующие реальной действительности, используются при анализе и синтезе современных телекоммуникационных сетей. Наиболее адекватна модель нестационарного случайного процесса с медленно меняющимися дисперсией и спектральной плотностью мощности. При использовании такой модели можно синтезировать информационную систему с наилучшими характеристиками. Однако система получается весьма сложной и самонастраивающейся, синтез ее затруднен отсутствием многих статистических характеристик модели [30,66].

Менее точной моделью речевого процесса является нестационарный случайный процесс с медленно меняющейся дисперсией и постоянной средней спектральной плотностью, определяемой экспериментально с использованием усреднения по времени.

Однако, на достаточно продолжительных отрезках времени речевой сигнал может удовлетворять условиям стационарности, что позволяет рассматривать его как квазистационарный. В литературе приводятся примеры применения таких характеристик, как усредненный энергетический спектр (спектральная плотность мощности), математическое ожидание и среднеквадратическое отклонение, предполагающих использование стационарной модели [10,13,30,66].

Использование таких характеристик позволяет получать результаты

анализа систем передачи речевой информации с достаточной для инженерной практики точностью. Более тонкое моделирование речевого сигнала существенно усложняет и часто делает невозможным применение аппарата аналитического исследования [30,66].

Одной из форм моделирования речевого сообщения является создание моделей «искусственного рта», «искусственного голоса» [1]. При правильно выбранном расстоянии от источника звука до микрофона акустические параметры должны быть близки к соответствующим параметрам человеческого голоса (рта). При проведении измерений с несколькими источниками звука, прежде всего, необходимо определить, какие параметры будут использованы для сравнения, а какие будут являться базовыми. По данным ITU-T считается, что расстояние 25 мм от плоскости рта (губ) является наиболее приемлемым [1].

Предполагается, что источник звука должен развивать звуковое давление не менее 90 дБ (2x10 Па) в частотном диапазоне 200-4000 Гц (в диапазоне 100-8000 Гц желательно звуковое давление 100 дБ.) [1].

Искусственный голос - это модель, которая может быть определена математически (задана в аналитическом виде) и которая воспроизводит временные и спектральные характеристики речевого сигнала, что важно при моделировании и проектировании информационной системы.

Искусственный голос предназначен для воспроизведения характеристик звучания реального голоса в полосе 100 Гц - 8 кГц. Он может применяться для исследования различных устройств, таких как микрофоны,

1 и и

телефонные громкоговорящие устройства, нелинейные кодеры, слоговые компандеры и др. Конечно, в каждом конкретном случае при исследовании следует внести корректирующие поправки. «Искусственный голос» может являться как электрическим, так и акустическим сигналом [1,30,74].

Искусственный голос, рассматриваемый как электрический сигнал, применяется для исследования и тестирования каналов передачи речи, а также других электрических устройств.

Акустический искусственный голос обладает характеристиками реального человеческого голоса [30,74].

1.2. Характеристики аналитических моделей речевого сообщения

Речь как акустический процесс характеризуется физическими параметрами. Основными параметрами, используемыми при описании речевого сигнала, являются:

- статистическое распределение звуков, слогов и слов при произношении речи;

- временные характеристики звуков;

- основной тон речи;

- усредненный за длительное время спектр;

- распределение формантных частот;

- мгновенное амплитудное распределение речи.

При построении различных систем обработки речи эти параметры играют важную роль [12].

При нормальных условиях передачи суммарный уровень громкости речевых сигналов у рта говорящего принимается равным 97 дБ, что соответствует звуковому давлению примерно 2 Па.

1.3. Спектральная плотность мощности и корреляционная функция речевого сообщения

При анализе качества передачи речи в телекоммуникационных системах возникает задача оценки вероятностных характеристик речевого сообщения и, прежде всего, его усредненного по времени энергетического спектра (спектральной плотности мощности (СПМ)).

В работе [74] на основании данных, содержащихся в рекомендации Р.51 ITU-T [1], для акустического речевого сообщения (первичного речевого сигнала на выходе микрофона) на английском языке предложено выражение нормированной СПМ (в децибелах по отношению к суммарному уровню, то есть к мощности сигнала):

S(f) = -465,75+465,441g(/) -157,751g2 (/)+16,7 llg3 (/). (1.1)

При нормировке спектральной плотности (1.1) в полосе 280-3500 Гц $x(f) = _463,80 + 465,44 lg(/)-157,75 lg2 (/) + 16,71 lg3 (/). (1.2) Значения нормированной спектральной плотности, вычисленные по формуле (1.2), представлены в табл. 1.1 [30,74]

Центральная частота/, полосы А/"* =1/3 октавы, Гц Спектральная плотность (нормированная), дБ Уровень в полосе А/*, дБ

315 -24,96 -6,53

400 -26,31 -6,86

500 -28,10 -7,58

630 -30,41 -8,89

800 -33,15 -10,87

1000 -35,95 -12,40

1250 -38,90 -14,35

1600 -42,20 -16,57

2000 -45,13 -18,55

2500 -47,92 -20,37

3150 -50,55 -22,01

В [30] отмечено, что поскольку нижняя и верхняя границы полосы А/* составляют от ее центральной частоты соответственно 8/9 и 10/9, то все приведенные в рекомендации [1] и приведенные выше зависимости предполагают рассмотрение частотной полосы от 88,9 Гц до 8888,9 Гц. В

и II О II

этой частотной полосе и сосредоточен суммарный уровень , по отношению к которому осуществляется нормировка спектральной плотности. Если речь

идет, например, о нормированной СПМ, то в качестве этого "суммарного уровня" выступает мощность сигнала.

Спектральные плотности (1.1) и (1.2) представлены на рис. 1.1 (кривые 2 и 1 соответственно) [30,74].

0.005-

0.004"

1.003-"

0.002"

0.001-

.,1

ц \\

\

О 300 600 900 1200 1500 1800 2100 2400 2700 3000 3400 £ Гц

Рис. 1.1 Нормированная в полосе 280-3500 Гц (1) и исходная (2) СПМ

сигнала

В работе [14] предложена аппроксимация нормированной в области положительных частот средней спектральной плотности мощности речи на

русском языке

+

а2+4ж2{/-/0)2 а2 +4л-2(/ + /0)

(1.3)

где а=1000 1/с и /0 =400 Гц. Там же отмечается, что в разных системах связи

эти два параметра могут меняться из-за частотных искажений без ущерба для

1

разборчивости, что объясняется адаптацией слуха. Отметим, что в [4,30] приведены значения а и /0 для речевых сообщений на английском, испанском вьетнамском и казахском языках.

Аппроксимации (1.3) соответствует двусторонная СПМ [30]

SA(a) = aaj

(1.4)

а2 +(ф-б)0)2 а2 +(о) + со0)' где адисперсия (мощность) сообщения (сигнала); со0 = 2л/0 •

Очевидно, что выполняются условия

со со

oî = — Js»fo = \cr\SHx(f)df. (1.5)

Поскольку в реальных условиях преднамеренно или непреднамеренно полоса спектра частот, занимаемая сигналом, ограничена нижним FH и верхним Fe значениями, в работе [39] предложена аппроксимация (1.4), откорректированная с учетом нормировки при условии FH =0 и Fe=Fcp (Fcp-частота среза ФНЧ, осуществляющего предварительное ограничение), то есть при выполнении условия

1 2 xFCP

<rl=— \sx{a>)d(o. (1.6)

-2 itF ср

В результате

11 1

,(1-7)

о2+4Я2(/-/о)2 О2+4Я2(/+/О) где значение коэффициента M определяется по формуле [39]:

Рв

М = 1- / = 1-

Рн

2яРв -соо

а

2яРи - со()

+ агс/^

2 7СрВ + СО о

а

V а /

+

(1.8)

V

а

где а =1000 1/с и /0 =400 Гц для русскоязычного сообщения (определены значения этих коэффициентов и для речевых сообщений на английском, испанском вьетнамском и казахском языках).

В результате такой нормировки выполняется условие

(1.9)

В табл.1.2 [30,74] приведены значения коэффициента 1+М для некоторых комбинаций значений Рн и /V

Таблица 1.2

/

л

Нижняя частота спектра ¥н, Гц Верхняя частота спектра Рв, Гц Значение 1+М

0 ос 1

0 3400 1,0299770

0 8888,889 1,0113412

0 200000 1,0005031

88,889 3400 1,0811732

88,889 8888,889 1,0625374

Значения нормированной спектральной плотности, вычисленные по формуле (1.7), предста�