автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Комплекс программ синтезирования таджикской речи по тексту

кандидата физико-математических наук
Худойбердиев, Хуршед Атохонович
город
Душанбе
год
2009
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Комплекс программ синтезирования таджикской речи по тексту»

Автореферат диссертации по теме "Комплекс программ синтезирования таджикской речи по тексту"

003466418

На правах рукописи

Худойбердиев Хуршед Атохонович

КОМПЛЕКС ПРОГРАММ СИНТЕЗИРОВАНИЯ ТАДЖИКСКОЙ РЕЧИ ПО ТЕКСТУ

05.13.18 - Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук

0 9АПР2Ш

ДУШАНБЕ-2009

003466418

Работа выполнена в Худжандском филиале Технологического Университета Таджикистана

Научный руководитель: доктор физико-математических наук,

академик АН РТ, профессор Усманов Зафар Джураевич

Официальные оппоненты: доктор технических наук, профессор

Мирзоахмедов Фахриддин

Защита состоится 13 мая 2009 г., в 11 час. 00 мин. на заседании диссертационного совета К.047.007.01 при Институте математики Академии наук Республики Таджикистан по адресу: 734063, г. Душанбе, ул. Айни, 299/1.

С диссертацией можно ознакомиться в научной библиотеке Института математики Академии наук Республики Таджикистан. С авторефератом можно ознакомиться на сайте www.mitas.tj-

кандидат физико-математических наук Хаитов Тельман Ишанович

Ведущая организация: Таджикский национальный университет

Автореферат разослан «№ » 2009

г.

Ученый секретарь диссертационного совета

У. X. Каримов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Настоящая диссертация посвящена разработке и созданию прототипа компьютерного синтезатора таджикской речи по тексту. Потребность в таком синтезаторе обуславливается тем, что его аналоги для других языков не только оказывают помощь людям с дефектами зрения и речи, но также находят все большее применение в технике связи, в информационно-справочных системах, а в обозримом будущем займут надлежащее место в широком акустическом диалоге человека с автоматами и робототехникой в разнообразных сферах человеческой деятельности.

Синтезируемая речь ныне воспроизводится различными методами, обладающими как определенными достоинствами, так и недостатками. Всякий речевой синтезатор оценивается по двум основным характеристикам - естественности звучания и разборчивости воспроизводимой им речи. При проектировании синтезаторов пытаются учесть именно эти две характеристики. Одни синтезаторы речи лучше передают естественность звучания, другие -понятность. В зависимости от того, для каких целей они предназначаются, в основу их проектирования закладываются различные методы синтеза речи.

Методы эти обычно разделяются на три группы, называемыми артикуляционном, формантньш и конкатенативным синтезами. Представители артикуляционного синтеза в Европе и США пытаются численно смоделировать работу человеческой гортани и происходящих в ней артикуляторных процессов настолько точно, насколько это возможно с тем, чтобы воспроизвести высококачественную синтетическую речь. Формантный синтез, не используя никаких образцов человеческой речи, подражает ей, производя искусственные спектрограммы. Речевое сообщение синтезированной речи создается им при помощи акустической модели. В основе конкатенативного синтеза лежит соединение (или же конкатенация) заранее записанных сегментов естественной речи. Такой синтез является самым простым способом воспроизведения понятной и естественно звучащей синтетической речи.

Различные методы синтеза речи положены в основу компьютерных программ - синтезаторов речи. Относящиеся к разряду

"text-to-speech" такие программы по желанию пользователя могут мигать мужским или женским голосом тексты, записанные в электронную память, делать прп этом интонационные паузы, изменять топ п тембр речи в холе прослушивания, передавать озвученные тексты через сен.. Вот список наиболее известных компьютерных синтезаторов речи - Reader TTS, Govorilka, То\1 Reader, Sakrament, Talk-To-Me, Tcxt Aloud MP3 , SNAT, Book Reader, Speech2, Фонемафон, MP3book2005. Sakrament Talker. Infovox, DECTalk, Bell Labs Text-to-Speech, Laureate, Soi'tVoice, CNET PSOLA, ORATOR, l 'urovocs, Lemout & Hauspies, Apple Plain Talk, Acu Voice, CyberTalk, L:.T1 Eloquence, Festival TTS System, ModelTalker, MBROLA,'\Vhistler, NeuroTalker. Listen2, SPRUCE, HADIF1X, SVOX Pfister 1995. SYNTE2 and SYNTE3, Timehouse Mikropuhe, Sanosse, Speaking Mouse, ARGUS, АГАФОН.

О некоторых программах, например, таких как Sakrament Talker, Govorilka, Talk-To-Me. Text Aloud, Speech2 сообщается, что они приспособлены читать вслух тексты на любом языке. Однако при непосредственной работе с ними обнаруживается, что приписываемое им умение на самом-то деле не подтверждается, гак как высокое качество синтезируемой речи напрямую связано с учетом специфики озвучиваемого языка, вследствие чего программная система, разработанная для конкретного языка, не может столь же успешно выполнять свои функции по отношению к любому другому языку. Однако не только это, но также и существенные недостатки, определяемые либо неестественностью звучания, либо недостаточной разборчивостью сообщений, обуславливают актуальность проведения дальнейших исследований по проектированию синтезаторов речи для естественных языков.

Цель работы - создать программный комплекс Tajik Text-to-Speech для автоматического преобразования таджикского текста в озвученную человеческую речь.

Методы исследования. В диссертации синтез таджикской речи основывается на конкатенации озвученных слогов. Для изучения статистических закономерностей таджикского языка, а также для выявления н описания всего многообразия слогов использованы методы системного анализа, математической статистики и статистической лингвистики. При формировании программного

комплекса Tajik Text-to-Speech применялись методы проектирования БД. цифровом обработки звуковой информации и программирования.

Научная новизна работы определяется следующими результатами:

• Разработан программный комплекс Tajik Text-to-Speech -прототип компьютерного синтезатора таджикской речи по тексту, учитывающий такие характеристики воспроизводимой им речи как естественность звучания и разборчивость.

• Установлены статистические закономерности, свойственные многообразию слоговых структур таджикских слов и структур сами слогов;

• Дано исчерпывающее описание многообразия всех слогов таджикского языка.

Теоретическая значимость работы состоит в том, что разработанные в ней подходы и алгоритмы эффективно приспосабливаются к решению проблемы синтеза речи по тексту, прежде всего, для индоевропейских, а также для других языков, в которых просодия слова строится по принципу словесною ударения.

Кроме того, в работе создана основа для проведения дальнейших исследований по совершенствованию компьютерного синтезатора таджикской речи.

Практическая значимость программного комплекса Tajik Text-to-Speech подтверждается:

• его использованием людьми с дефектами '.рения в НПО ПК «Сигма» при Центральном правлении Таджикского общества слепых (после 3-х месяцев предварительного испытания);

• его внедрением в учебный процесс на кафедре гуманитарных наук, Худжандского филиала Технологического университета Таджикистана, для углубленного изучения основ грамматики и фонетики таджикского языка.

Практическая значимость работы состоит также в том, ч го в ней установлена перспективность дальнейшего развития программного комплекса Tajik Text-to-.Speech

• в синтезатор таджикской речи с русизмами;

• в синтезатор таджикской речи на основе морфемного лексикона.

л

Комплекс зарегистрирован Национальным патентно-информационным центром Министерства экономического развития и торговли Республики Таджикистан в качестве интеллектуального продукта 04 Ш 04.09.2007 и передан посредническим фирмам для распространения.

Апробация работы. Основные результаты диссертации обсуждались на научно-исследовательских семинарах Института математики АН РТ, а также на научных конференциях Худжандского филиала Технологического университета Таджикистана.

Публикации. Основные результаты диссертации опубликованы в 4-х статьях, из них 2 в соавторстве с научным руководителем З.Д.Усмановым, которому принадлежат постановки задач и обсуждение результатов. Решения задач выполнены автором диссертации.

Структура работы. Диссертация изложена на 113 страницах компьютерного набора, состоит из введения, 3-х глав, 13 таблиц, 8 рисунков, списка литературы из 146 наименований и 4 приложений.

СОДЕРЖАНИЕ РАБОТЫ

Во Введении формулируется цель работы, вкратце характеризуется имеющийся опыт решения проблемы компьютерного озвучивания текстов, излагаются основные результаты диссертации и способы их получения.

В параграфе Концептуальная модель синтеза речи по тексту излагается в виде блок-схемы основная идея построения синтезатора речи по тексту. В нем использованы обозначения: рх - пауза между

слогами при произношении слова; р№ - пауза между словами при

чтении предложения (соответствует пробелу между словами); р1 -

пауза, отмечающая внутренний знак препинания (запятая, двоеточие, точка с запятой, тире): ре - пауза, отмечающая внешний знак

препинания (точка, многоточие, знак вопросительный, знак восклицательный); ра - пауза, отмечающая конец абзаца.

Рис.1. Принципиальная блок-схема синтеза речи по тексту.

Изложенная идея заключена в специальный параграф для того, чтобы помочь восприятию содержания последующих глав, в которых описывается решение задач, возникающих в связи с созданием компьютерного синтезатора речи.

Глава 1.0 многообразии слогов таджикского языка

В этой главе излагаются лингвистические основы синтеза таджикской речи по произвольному тексту. В качестве минимально произносимого элемента речи выбирается слог. Это определяет основную цель настоящей главы - описать в явном виде все многообразие слогов таджикского языка. Достижение этой цели основывается на применении статистических методов обработки текстовой информации. В качестве последней в § 1.2 используется репрезентативная выборка объёмом в 3800 страниц, извлеченная из художественных произведений, газетных статьей и специальной литературы на таджикском языке.

В § 1.3 для изучения закономерностей таджикского языка, связанных с понятием слога, вводится понятие слоговой структуры слова. Пусть какое-либо слово, представляющее собой

определенную цепочку букв. Замещая в ней гласные буквы цифрой 1, а согласные - цифрой 0 (буква "й" считается согласной), мы, тем самым, преобразуем слово Ш в упорядоченную совокупность

нулей и единиц. Такое преобразование назовем кодированием слова IV, а получаемый результат, т.е. запись и^, - слоговой структурой

слова IV.

Размерностью структуры [К0', будем называть число букв, составляющих слово \¥, или же число символов (двоичных знаков), которые используются в записи 1¥0,. Структуры двух слов назовем

одинаковыми, если их представления в двоичной записи тождественны, в противном случае - различными. Вполне понятно, что структуры могут быть одинаковыми только при условии, что они обладают одинаковой размерностью. Очевидно также, что всякому слову IV ставится в соответствие один и только один образ В

свою очередь, по существу для любого естественного языка, всякому W0, соответствует одновременно несколько слов W. Это значит, что

различные слова с одинаковым числом букв могут обладать одинаковой слоговой структурой. Например, словам "дилшод" (радостный), "кардан" (делать) и т.п. соответствует одна и та же структура"010010".

В § 1.4 изучаются статистические закономерности текстовой информации, представленной репрезентативной выборкой § 1.2 объемом в 1724472 слов, каждое из которых предварительно

кодируется в форму W^, показывающую его слоговую структуру.

На множестве {W^} обнаружено 274 различных слоговых

структур таджикских слов, при этом 1 и 14 - размерности минимальной и максимальной структур слов, соответственно.

Получено статистическое распределение структур, т.е. установлено соответствие между слоговыми структурами слов и частотами их встречаемости в текстах на таджикском языке.

Обнаружено, что 8 структур осуществляют 50%-е, а 23 структуры - 75%-е покрытия таджикских текстов. Эти данные представлены в таблице 1 (в первой колонке дается номер структуры в порядке убывания частоты её встречаемости, во второй - запись самой структуры и в третьей - процент её встречаемости в текстах).

Таблица

Частота встречаемости слоговых структур

№ W* "0.1 % № W' "0.1 % № W* "0.1 %

1 01 11,006 9 010010 3,684 17 1010 1,192

2 010 8.849 10 0101010 3.258 18 01001010 1,142

j 01010 6,781 11 0100 2.799 19 010100 1,087

4 01001 5,486 12 01010101 1.735 20 01001011 1,053

5 10 5,096 13 01011 1,711 21 100 0,986

6 0101 5,066 14 1001 1.280 22 10101 0.960

7 010101 4,773 15 010011 1.226 23 10010 0,957

8 0100101 3,787 16 0101001 1,218

Установлено также, что 51 структура осуществляют 90%-е, а 76 структур - 95%-е покрытие таджикских текстов.

Таблица 2.

Частота встречаемости таджикских слов в зависимости от числа букв

Длина слова 1 2 3 4 5 6 7

Частота в % 0,87 16,14 10,94 11,32 16,95 13,95 12,81

Длина слова 8 9 10 11 12 13 14

Частота в % 8,88 4,98 2,92 1,00 0,57 0,10 0,02

Из этой таблицы видно, что 2-х и 5-и буквенные слова - наиболее часто встречающиеся в таджикских текстах. Слова с числом букв более 12 - довольно редкие события. Слова с числом букв более 14 в обработанных текстах не встретились, хотя таковые и имеются в таджикском языке.

В § 1.5 выявленные в предыдущем параграфе 274 слоговые структуры таджикских слов разделялись на слоги "вручную" (в согласии с разделением на слоги тех слов, которые подпадали под те или иные структуры). В результате обнаружено всего лишь 9 различных структур слогов - 1, 10, 01, 010, 100, 0100 и 001, 0010, 00100. Из них первые шесть свойственны природе таджикского языка, а три последние заимствованы из других языков.

Таблица 3.

Частота встречаемости структур слогов, в %__

Слоги 1 10 01 100 010 0100 001 0010 00100

Частота 8.10 5.74 56.56 0.78 25.75 2.95 0,05 0,06 0,01

Из таблицы видно, что двухбуквенные слоги типа да, ба, ро, на, ни, та, ме, ва, ки (в символьной записи - 01) и т.п. являются наиболее часто встречающимися, а трехбуквенные слоги типа абр, илм, ашк, шик, умр, орд (в символьной записи - 100) и т.п. - особо редкими. Кроме того, слоги 001, 0010 и 00100, заимствованные из других

языков, эпизодически появляются в таджикских текстах.

В § 1.6 описывается алгоритм сегментации таджикских слов на слоги. В нем каждое слово IV предварительно кодируется в форму 1¥0,, а затем с помощью слоговых "шаблонов" таблицы 3 слово

разрезается на сегменты.

В § 1.7 изложены результаты автоматической обработки исходной текстовой информации с целью определения всего многообразия таджикских слогов. На 3800 страницах случайной выборки выявлено 3259различных слогов.

Установлено статистическое распределение слогов в текстах на таджикском языке, т.е. эмпирическое соответствие V = V («) между номером каждого из 3259 различных слогов, расположенных в порядке убывания их частот встречаемости, и отвечающей этому номеру частотой V (в процентах) встречаемости соответствующего слога. Обнаружено, что 41 слогов, приведенных в таблице 4, покрывают 50% таджикского текста:

Таблица 4.

п слог V

1 и 4,210

2 Да 2,447

3 ро 2,347

4 ба 2,235

5 2,022

6 ни 1,827

7 на 1,796

8 ти 1,665

9 ри 1,612

10 та 1,552

11 ме 1,508

12 ва 1,500

13 бо 1,355

14 дар 1,325

Частота встречаемости таджикских слогов

п слог V

15 ДИ 1,277

16 ки 1,189

17 о 1,156

18 МО 1,149

19 до 1,112

20 ра 1,077

21 ма 1,071

22 аз 0,986

23 му 0,968

24 ли 0,951

25 а 0,914

26 со 0,833

27 си 0,823

28 но 0,766

п слог V

29 ми 0,760

30 би 0,727

31 то 0,722

32 я 0,697

33 ин 0,693

34 х,а 0,673

35 са 0,647

36 за 0,611

37 ло 0,602

38 во 0,562

39 ла 0,552

40 ё 0,548

41 хо 0,523

Кроме того, 148 слогов покрывают 75% таджикского текста, 204 слога - 80%, 418 слогов - 90%, а 683 слога покрывают 95% текста. Отметим, что все остальные слоги в совокупности (от номера 684 до 3259) покрывают всего лишь 5% текста. Следовательно, появление каждого отдельно взятого слога из такой совокупности представляет собой чрезвычайно редкое событие.

§ 1.8 посвящен распознаванию ударного слога в таджикском слове. Здесь используются два основополагающих утверждения:

• в таджикском языке ударение, в основном, падает на последний слог слова;

• неподчиняющиеся основному правилу исключения описываются грамматико-алгоритмическими процедурами.

В § 1.9 дано описание алгоритма автоматического морфемного анализа таджикских слов. Применение морфемного лексикона позволяет обратиться к альтернативному методу синтеза речи, основанному на соединении озвученных морфем, и сравнить качество полученной таким образом синтетической речи с речью, синтезируемой путем конкатенации озвученных слогов.

В § 1.10 изучается слоговая структура русских слов. Потребность в таком исследовании обусловлена тем, что в таджикском языке присутствует большое . количество слов, заимствованных из русского языка, в основном - от имен существительных. В этой связи синтезатор речи, настроенный на озвучивание только таджикских слов, неизбежно может столкнуться с такой ситуацией, когда послоговое фрагментирование встретившегося по тексту русского слова произвести не удается.

Глава 2. Компьютерные основы синтеза таджикской речи

Цель этой главы - охарактеризовать базу данных и алгоритмическое обеспечение программного комплекса Tajik Text-to-Speech, реализующего синтез таджикской речи конкатенацией слогов. В § 2.1 описывается формирование базы слог-звук. Она составляется из 2 X 3259 таджикских слогов § 1.7, озвученных двумя профессиональными дикторами - мужчиной и женщиной и сохраненными в формате WAV. В связи с необходимостью

оперирования со "стандартизованным" (единообразным) звучанием слогов, с помощью компьютерной программы Cool Edit Pro выполнено редактирование полученных фонем по 3 признакам - по тону, определяемому частотой колебания голосовых связок, громкости, зависящей от интенсивности звука и его частоты, и длительности звучания.

В § 2.2 приводится общая характеристика базы слог-звук. Она занимает 263 Мб памяти на жестком диске, в среднем - 40 Кб на 1 слог. Интервал времени звучания одного слога варьируется в пределах - 250-400 мс, длительности межслоговой и межсловной пауз могут составлять соответственно 20 - 200мс и 200 - 2000мс.

В § 2.3 описан алгоритм озвучивания слова. Поначалу исходное слово с помощью алгоритма § 1.6 сегментируется на слоги. Затем для каждого слога из базы "слог-звук" выделяется соответствующий звуковой файл и затем с их помощью синтезируется звучание слова с расстановкой межслоговых пауз.

В § 2.4 описан алгоритм озвучивания чисел. В связи с тем, что список наименований числовых разрядов незначительный, в рассматриваемом случае вместо базы "слог-звук" используется база озвученных наименований разрядов чисел и соединительные окончания "у" и "ю". Это позволяет заметно повысить качество восприятия синтезируемой речи в сравнении со способом синтеза путем конкатенации озвученных слогов.

В § 2.5 приведен алгоритм озвучивания таджикского текста. По существу он представляет собой циклическое применение алгоритма озвучивания слова с добавлением междусловных пауз.

В § 2.6 в виде блок-схемы описан алгоритм ударного озвучивания текста. Алгоритм учитывает особенность расположения ударного слога в таджикском слове. Для большинства слов он является последним слогом основы слова, который и отыскивается с помощью алгоритма. Что касается слов-исключений, то для них сформирована база с указанием позиции ударного слога.

В §§ 2.7 и 2.8 дополнения к главе 2 характеризуются алгоритмы морфемного озвучивания слова и озвучивания таджикского текста с русизмами.

Глава 3. Программный комплекс Tajik Text-to-Speech

В § 3.1 дается описание структурной схемы программного комплекса, написанного на языке программирования Visual Basic 6.0.

В § 3.2 приводятся основные функциональные характеристики программы, в которой реализованы следующие возможности:

• создание текстового окна для ввода текстовой информации;

• открытие текстового файла до 10Мб размера памяти;

• поддержка (в виде текста) форматов TXT, RTF, HTML, MS'Word;

• сохранение информации как в формате простого текста, так и в формате RTF;

• редактирование текста;

• выбор между мужским или женским синтезируемыми голосами;

• озвучивание чисел в интервале от 0 до 1012;

• настройка параметров скорости и громкости чтения синтезируемым голосом;

• перемещение курсора по озвучиваемому тексту и др.

Разработанный интерфейс программы выполнен в виде текстового редактора, см. рис. 1: сверху расположена строка меню с функциями программы, ниже - панель управления, текстовое окно и строка состояния. Пользователю предоставляется возможность создать или открыть текстовый файл и затем озвучить содержащийся в нем текст.

Строка меню содержит команды: File - работа с файлами, Edit -редактирование текста в окне, View - настройка вида интерфейса, Format - форматирование шрифта в тексте, настройка озвучивания текста, Tools - управление озвучиванием текста и Help - справка о программе. Основные команды меню дублируются кнопками "Панели инструментов" и сочетаниями клавиш. Можно использовать мышь.

Панель инструментов содержит следующие функциональные кнопки: создать текстовое окно, открыть файл, сохранить файл, отмена последнего действия, работа с буфером обмена - вырезать, копировать и вставить текст, старт, пауза, стоп и справка о программе.

Рис. 2. Интерфейс программы Tajik Text-to-Speech.

Панель с дополнительными инструментами содержит возможность форматирования шрифта (название и размер), настройки озвучивания (скорость и громкость), выбор голоса (мужского или женского).

В текстовом окне возможны выделения текста как с использованием клавиатуры, так и с помощью мыши, а также навигационные действия с курсором.

Строка состояния указывает дату и время системы, в каком месте находится курсор и на какую раскладку (стандартную или оптимальную) настроена клавиатура.

В состав программного комплекса Tajik Text-to Speech входят:

• установочный пакет комплекса;

• база слог-звук с мужским голосом;

• база слог-звук с женским голосом;

• руководство пользователя;

• пакет программы для активизации Tajik Text-to-Speech.

В § 3.3 перечисляются системные требования, при выполнении которых обеспечивается работоспособность программного комплекса:

• операционная система Microsoft Windows 98 / ME и 2000 / ХР;

• минимум 350 Мб свободной памяти на жестком диске;

• процессор с тактовой частотой не ниже 500 МГц, оперативная память - не менее 64 Мб;

• как минимум 16-разрядная звуковая карта, а так же динамик или наушники устройства мультимедиа (для более устойчивой работы подходят звуковые карты типа Realtek Audio, Sound Blaster и т.д.).

В § 3.4 приводятся такие количественные показатели акустических параметров, которые обеспечили удовлетворительное качество озвучивания таджикских слогов и слов.

В § 3.5 приведены результаты тестирования программного комплекса. Вычислительные эксперименты с разнообразной текстовой информацией показали, что среди массива слов, предъявленных компьютеру для озвучивания, отказ, составивший менее 1.5 %, пришелся в основном на тексты из INTERNET и газетные статьи, в которых особенно заметно использование слов иностранного происхождения с непривычной для таджикского языка слоговой структурой. В иных случаях, как правило, осуществлялся звуковой синтез таджикских слов удовлетворительного качества.

Вычислительные эксперименты, результаты которых приводятся в § 3.6, имели целью подобрать такие характеристики звучания таджикских ударных слогов, которые, по возможности, наилучшим образом способствовали восприятию генерируемой компьютером синтетической речи. Ударный слог на фоне других слогов выделялся особыми значениями трех акустических параметров: гы-длительности

звучания, Va - частоты основного тона, Аа - амплитуды (силовой

характеристики звука).

Если аналогичные параметры для безударного слога обозначить соответственно через ти, Vu. A.t и в качестве их количественных

значений принять те значения, которые даны в § 3.4, то для наилучшего звучания оказались подходящими следующие соотношения параметров ударных и безударных слогов:

г„/г„ -- 1.5, vjvu = 1.4, А„ / Аи = 3-

Н §§ 3.7 и 3.8 дополнения к главе 3 по результатам вычислительных экспериментов по морфемному озвучиванию слов и озвучиванию таджикского текста с русизмами сделаны выводы:

• компьютерный синтезатор речи, построенный на таджикском морфемном лексиконе, можно принять в качестве альтернативы синтезатору, осуществляющему нослоговую конкатенацию;

• компьютерный синтезатор речи, основанный на конкатенации слогов, вполне пригоден для озвучивания таджикских текстов с русизмами.

СПИСОК РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

КУсманов З.Д., Худойбердиев Х.А. О слоговой структуре слов таджикского языка // ДАН РТ, Т.49, № 6, 2006, с. 489-492.

2.Худойбердиев Х.А., О многообразии слогов таджикского языка /,' Известия АН РТ, № 2 (127), 2007, с. 31-34.

3.Усманов З.Д., Худойбердиев Х.А. Алгоритм безударного озвучивания таджикского текста // ДАН РТ, Т.50, № 4,2007, с. 302-305.

4. Худойбердиев Х.А., Об автоматическом разложении слов на слоги // ДАН РТ, Т.50, № 5, 2007, с. 417-419.

5.Уеманов З.Д., Худойбердиев Х.А. Компьютерное озвучивание таджикского текста // Патент (интеллектуальный продукт) зарегистрирован 041Т.1 04.09.2007 Национальным патентно-информационным центром Министерства экономического развития и торговли РТ.

Сдано в 2.03.09 г. Подписано в печать б. 03.09 г. Формат 60x84. Гарнитура литературная. Тираж ¡00 экз. Цена договорная

Отпечатано в типографии ООО «Ховарон» ул.Дж.расулов 6/1

Оглавление автор диссертации — кандидата физико-математических наук Худойбердиев, Хуршед Атохонович

Введение.

Концептуальная модель синтеза речи по тексту.

Глава 1. О многообразии слогов таджикского языка.

§1.1. Краткие сведения о таджикском языке.

§ 1.2. Случайная выборка текстовой информации.

§ 1.3. Слоговая структура слов.

§ 1.4. Статистические закономерности текстовой информации.

§ 1.5. Многообразие структур слогов.

§ 1.6. Алгоритм разбиения слова на слоги.

§ 1.7. Многообразие слогов таджикского языка.

§ 1.8. О распознавании ударного слога в таджикском слове.

Дополнение к главе

§ 1.9. Алгоритм морфоанализа таджикских слов.

§ 1.10. О слоговой структуре русских слов.

Глава 2. Компьютерные основы синтеза таджикской речи.

§ 2.1. Формирование базы "слог-звук".

§ 2.2. Описание базы "слог-звук".

§ 2.3. Алгоритм озвучивания слова.

§ 2.4. Алгоритм озвучивания чисел. Озвучивание символов.

§ 2.5. Алгоритм безударного озвучивания текста.

§ 2.6. Алгоритм ударного озвучивания текста.

Дополнение к главе

§ 2.7. Алгоритм морфемного озвучивания слова.

- § 2.8. Об алгоритме озвучивания таджикского текста с русизмами.

Глава 3. Программный комплекс Tajik Text-to-Speech.

§ 3.1. Структурная схема программного комплекса.

§ 3.2. Интерфейс программного комплекса.

§ 3.3. Технические средства озвучивания.

§ 3.4. Настройка качества озвучивания слогов и слов.

§ 3.5. Вычислительные эксперименты. Оценка полноты множества слогов для формирования синтетической речи.

§ 3.6. Вычислительные эксперименты. Реализация просодического облика таджикского слова.

Дополнение к главе

§ 3.7. Вычислительные эксперименты. Морфемное озвучивание.

§ 3.8. Вычислительные эксперименты. Озвучивание таджикского текста с русизмами.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Худойбердиев, Хуршед Атохонович

Настоящая диссертация посвящена разработке и созданию прототипа компьютерного синтезатора таджикской речи по тексту. Потребность в таком синтезаторе обуславливается тем, что его аналоги для других языков не только оказывают помощь людям с дефектами зрения и речи, но также находят все большее применение в технике связи, в информационно-справочных системах, а в обозримом будущем займут надлежащее место в широком акустическом диалоге человека с автоматами и робототехникой в разнообразных сферах человеческой деятельности.

1. Обзор исследований. Синтезируемая речь ныне воспроизводится различными методами, обладающими как определенными достоинствами, так и недостатками. Всякий речевой синтезатор оценивается по двум основным характеристикам - естественности звучания и разборчивости воспроизводимой им речи. При проектировании синтезаторов пытаются учесть именно эти две характеристики. Одни синтезаторы речи лучше передают естественность звучания, другие - понятность. В зависимости от того, для каких целей они предназначаются, в основу их проектирования закладываются различные методы синтеза речи. Методы эти обычно разделяются на три группы, называемыми

• артикуляционным синтезом,

• формантным синтезом,

• конкатенативным синтезом.

Артикуляционный синтез считается одним из самых трудных методов. Его представители [1-11] в Европе и США пытаются численно смоделировать работу человеческой гортани и происходящих в ней артикуляторных процессов настолько точно, насколько это возможно с тем, чтобы воспроизвести высококачественную синтетическую речь. До не давнего времени артикуляционный синтез развивался в основном для научных целей и не привлекал особого внимания коммерческих организаций. И лишь недавно некоторые из разработанных моделей начали появляться в речевых синтезированных системах. Определенное представление о ранних и более поздних моделях артикуляционного синтеза можно получить из [12-16].

Формантный синтез, не используя никаких образцов человеческой речи, подражает ей, производя искусственные спектрограммы. Речевое сообщение синтезированной речи создается им при помощи акустической модели. Параметры такие, как собственная частота, озвончение и уровни шума варьируются со временем и создают форму сигнала искусственной речи. Многие системы, в основе которых лежат технологии формантного синтеза, генерируют искусственную речь с "роботоподобным" звучанием, так что синтезированное речевое сообщение никак нельзя спутать с естественной человеческой речью. Системы формантного синтеза имеют некоторые преимущества перед конкатенативными системами, поскольку в них, во-первых, формантно-синтезированная речь может быть очень понятной по причине того, что в ней нет акустических шумов, присущих конкатенативным системам. Во-вторых, формантные синтезаторы - это часто программы, меньшие по размеру, чем конкатенативные системы, так как у них нет базы речевых образцов. Они могут использоваться во встроенных компьютерных системах, требующих минимальную память и мощность процессора. И, наконец, так как формантный синтез осуществляет общий контроль всех аспектов создаваемого речевого сообщения, то его достижением может стать широкое разнообразие просодии (систем произношения ударных и неударных, долгих и кратких слогов в речи) или интонации, передающей не только вопросы и утверждения, но и спектр эмоций и тонов голоса.

Самые известные из Аэгтаг^-синтезаторов связаны с именем Клатта (Б. Н.КЛаИ), [17-23], определенные представления о более ранних £огтап1-синтезаторах можно получить из работ [24-26].

В основе конкатенативного синтеза лежит соединение (или же конкатенация) заранее записанных сегментов естественной речи. Такой синтез является, вероятно, самым простым способом воспроизведения понятной и естественно звучащей синтетической речи. В нем одним из самых важных моментов является выбор звуковых фрагментов подходящей длины. Такой выбор производится между короткими и длительно звучащими единицами. С более длинными единицами достигается хорошая артикуляция и высокая степень естественности речи, уменьшается число потребных соединений в пунктах стыковки звуковых единиц. Вместе с тем проявляется и недостаток -неизбежное увеличение изначально резервируемой памяти компьютера. Работа с более короткими звуковыми единицами (фрагментами) требует меньше памяти, однако процесс автоматического синтезирования их становится более трудным и сложным. В существующих конкатенативных синтезаторах в качестве звуковых единиц используются фонемы, дифоны, слоги, морфемы, слова, фразы и даже предложения. На первый взгляд может показаться, что в сравнении с другими именно слову следует отдать преимущество, однако, из-за наличия в каждом языке необозримого множества различных слов и имен собственных, а также из-за неодинакового звучания слова в непрерывной речи и изолированно, нельзя признать такой выбор приемлемым.

Идеи, положенные в основу конкатенативного синтеза, потвидимому, впервые были высказаны Харрисом (С.М. Harris ) в его статье о строительных блоках разговорной речи, см. [27]. Современное состояние вопроса можно получить из работ [28-39].

Наиболее распространенными вариантами конкатенативного синтеза являются параметрический синтез и синтез по правилам. Первый из них является более гибким в силу параметризации на основе мелких фонетических единиц (аллофонов, дифонов, слогов.). Он позволяет манипулировать параметрами, которые отвечают за качество речи (значение формант, ширина полос, частота основного тона, амплитуда сигнала). Это дает возможность склеивать сигналы, так что переходы на границах становятся незаметными. Варьирования такого параметров как частота основного тона на протяжении всего сообщения дают возможность существенно изменять интонацию и временные характеристики сообщения. Для синтеза используются единицы речи различной длины: параграфы, предложения, фразы, слова, слоги, полуслоги, дифоны. Чем меньше единица синтеза, тем меньшее их количество требуется1 для синтеза. При этом требуется больше вычислений, и возникают трудности коартикуляции на стыках. Преимущества этого метода: гибкость, немного памяти для хранения исходного материала, сохранение индивидуальных характеристик диктора.

Синтез по правилам работает с так называемым "неограниченным словарем". Его элементами являются фонемы или слоги, которые соединяются по вполне определенным правилам. Обнаружено, что для синтеза речи высокого качества необходимо иметь несколько различных произношений единицы синтеза (например, слога), что ведет к увеличению словаря исходных единиц без каких бы то ни было сведений о контекстной ситуации. По этой причине процесс синтеза приобретает абстрактный характер и переходит от параметрического представления к разработке набора правил, по которым вычисляются необходимые параметры на основе вводного фонетического-описания. Это вводное представление содержит само по себе мало информации. Это обычно имена фонетических сегментов (например, гласные и-согласные) со знаками ударения, обозначениями тона и временных характеристик. Этот метод предоставляет свободу моделирования параметров, хотя сами правила моделирования остаются несовершенными. Синтезированная речь хуже натуральной, тем не менее, она удовлетворяет тестам по разборчивости и понятности.

Следует отметить, что среди упомянутых синтезов формантный и конкатенативный нашли себе широкое применение, причем первый из них доминировал в течение долгого времени в прошлом, однако сегодня более популярным становится синтез конкатенативный. На их фоне артикуляционный синтез представляется слишком сложным для высококачественного воспроизведения, но не исключено, что он может оказаться особо перспективным методом в недалеком будущем.

Другими менее популярными синтезами речи являются гибридный и синтез на основе НММ (Hidden Markov Models - НММ). Гибридный синтез объединил в себе черты формантного и конкатенативного синтеза с целью максимального уменьшения акустических шумов в процессе звучания речевых сегментов. В системе синтеза на основе НММ речевой частотный спектр (речевой тракт), собственная частота (синтезатор речи) и длительность (просодия) моделируются одновременно при помощи скрытых марковских моделей. Речевые формы сигнала генерируются из скрытых марковских моделей, которые в свою очередь базируются на критерии максимального правдоподобия.

В России наиболее заметные достижения в области автоматического синтезирования речи связаны с Вычислительным центром РАН (Ю. И. Журавлев, В. Я. Чучупал); Институтом проблем передачи информации РАН (В. Н. Сорокин), Институтом математики СО РАН и Новосибирским государственным университетом (Н. Г. Загоруйко и В. М. Величко), МГУ им. М. В. Ломоносова (О. Ф. Кривнова), МГТУ им. Н. Э. Баумана (Ю. Н. Жигулевцев), МЭИ (А. И. Евсеев), Московским государственным лингвистическим университетом (Р. К. Потапова), Московским техническим университетом связи и информатики (Ю. Н. Прохоров) и Санкт-Петербургским государственным университетом (В. И. Галунов), [40-70]. Из стран СНГ определенные достижения представлены в Белоруссии, [71-76].

Различные методы синтеза речи положены в основу компьютерных программ - синтезаторов речи. Относящиеся к разряду "text-to-speech" такие программы по желанию пользователя могут читать мужским или женским голосом тексты, записанные в электронную память, делать при этом интонационные паузы, изменять тон и тембр речи в ходе прослушивания, передавать озвученные тексты через сеть. Далее приводится список наиболее известных компьютерных синтезаторов речи: Reader TTS, Govorilka, ТоМ Reader, Sakrament, Talk-To-Me, Text Aloud МРЗ , SNAT, Book Reader, Speech2, Фонемафон, MP3book2005, Sakrament Talker, Infovox, DECTalk, Bell Labs Textto-Speech, Laureate, SoftVoice, CNET PSOLA, ORATOR, Eurovocs, Lernout & Hauspies, Apple Plain Talk, Acu Voice, CyberTalk, ËTI Eloquence, Festival TTS System, ModelTalker, MBROLA, Whistler, NeuroTalker, Listen2, SPRUCE, HADIFIX, SVOX Pfister 1995. SYNTE2 and SYNTE3, Timehouse Mikropuhe, Sanosse, Speaking Mouse, ARGUS, АГАФОН, [77-104].

О некоторых программах, например, таких как Sakrament Talker, Govorilka, Talk-To-Me, Text Aloud, Speech2, сообщается, что они приспособлены читать вслух тексты на любом языке. Однако1 при непосредственной работе с ними обнаруживается, что приписываемое им умение на самом-то деле не подтверждается, так как высокое качество синтезируемой речи напрямую связано с учетом специфики озвучиваемого языка, вследствие чего программная система, разработанная для конкретного языка, не может столь же успешно выполнять свои функции по отношению ю любому другому языку. Однако не только это, но также и существенные недостатки, определяемые либо неестественностью звучания, либо недостаточной разборчивостью сообщений, обуславливает актуальность дальнейших исследований по проектированию синтезаторов речи для естественных языков.

2. Обзор диссертации. В настоящей диссертации дается описание разработанного автором прототипа компьютерного синтезатора таджикской речи по тексту. Он построен по принципу конкатенативного синтезатора, в котором в качестве речевой единицы выбран слог, что, в свою очередь, указывает на необходимость наиболее полного описания многообразия слогов таджикского языка. Решение этой проблемы приводится- в первой главе диссертации и основывается на статистическом исследовании случайной выборки из таджикских текстов объемом в 3800 страниц, содержавших 1 724 472 слов.

Для изучения закономерностей таджикского языка, связанных с понятием слога, введено понятие слоговой структуры слова. Суть его состоит в следующем. Пусть W какое-либо слово, представляющее собой определенную последовательность букв. Замещая в ней гласные буквы цифрой 1, а согласные цифрой 0 (букву, "й" считается согласной), мы, тем самым, преобразуем слово W в упорядоченную совокупность JV0'j нулей и единиц. Такое преобразование названо кодированием слова W, а получаемый результат, т.е. запись JV0'J} слоговой структурой слова W.

Размерностью структуры JV0\ названо число букв, составляющих- слово

W, или число символов (двоичных знаков), которые используются в записи fV0*,.

Установлено, что - на множестве {W^} обнаружено 2978 различных слоговых структур таджикских слов, при этом 1 и 14 - размерности минимальной и максимальной структур слов, соответственно.

Получено статистическое распределение структур, т.е. установлено соответствие между слоговыми структурами слов и частотами их встречаемости в текстах на таджикском языке. Обнаружено, что 17 наиболее часто встречающихся, структур осуществляют 50%-е, 34 структуры - 75%-е, а 89 структур 90%-е покрытия таджикских текстов. Кроме того, 170 структур встретились 429 843 раз и составили 95%-е покрытие текстов.

Далее каждая из 170 структур разделялась на слоги, "вручную" (в согласии с разделением на слоги тех слов, которые подпадали под те или иные структуры). Выявлено всего лишь шесть различных структур таджикских слогов-1, 10,01,010, 100 и 0100.

Частота встречаемости упомянутых структур среди 985 768 слогов, полученных при разбиении на слоги 429 843 слов, принадлежавших 170 различным слоговым структурам таджикских слов, указана в таблице.

Слоги в Частота Частота символьной встречаемости встречаемости, записи в % абс. величина 1 7,958 78 452

10 5,802 57 199

01 55,463 546 732

010 25,964 255 945

100 0,943 9 292

0100 3,870 38 148

Из представленных в таблице результатов следует, что 2 двухбуквенных слога 10 и 01 совместно с трехбуквенным слогом 010 составляют подавляющую часть слогов таджикского языка. Кроме того, 2,3 — средняя размерность слогов в таджикском слове.

На основе проведенных исследований в § 1.6 предложен алгоритм для разбиения таджикских слов на слоги, реализованный в виде компьютерной программы. С помощью этой программы, путем обработки упомянутой ранее случайной выборки был получен главный результат главы 1 — исчерпывающее на сегодняшний день описание многообразия из 3259 различных таджикских слогов.

Среди дополнений к главе 1 отметим § 1.10, в котором анализируется слоговая структура русских слов. Потребность в рассмотрении этого вопроса была связана с тем, что в таджикском языке появилось большое число заимствований русских слов, и потому возникла необходимость их озвучивания в рамках синтеза таджикской речи. Предварительными исследованиями в § 1.10 установлено, что в русском языке имеется не менее 20 различных слоговых структур, которые, в частности, содержат в себе 6 таджикских слоговых структур. Из этого сделан вывод о возможности реализации таджикско-русского компьютерного синтезатора, основанного на конкатенативном синтезе речи.

Основным результатом главы 2 является описание того, каким образом в диссертации решена проблема синтеза таджикской речи по произвольному тексту. В §§ 2.3 — 2.6 описываются компьютерно реализованные алгоритмы озвучивания слов, чисел, символов и текста. Алгоритмы §§ 2.5 и 2.6 содержат в себе в качестве составных частей алгоритмы двух предыдущих параграфов. Они по существу и выражают принципиальную схему озвучивания текста, реализованную в диссертации, см. рис. 2 и 3 главы 2. В соответствии с ней очередное слово, подлежащее озвучиванию, разделяется на слоги. Для каждого слога из базы "слог-звук" извлекается соответствующая звуковая реализация, затем из извлеченных элементов синтезируется звучание i слова. Вполне понятно, что между слогами и между словами устанавливаются паузы, величины которых подобраны экспериментально с учетом двух параметров - естественности звучания (получаемые звуки приближены к естественной речи человека) и разборчивости (легкости понимания искусственной) речи.

Начинается глава 2 с §§ 2.1 и 2.2, в которых многообразие слогов таджикского языка используется для формирования базы слог-звук. Эта база занимает 263 Мб памяти на жестком диске, в среднем - 40 Кб на 1 слог. Интервал времени звучания одного слога варьируется в пределах - 250^00 мс. Длительности межслоговой и межсловной пауз могут составлять соответственно 20 - 200мс и 200 - 2000мс., для границ абзацев - 900 мс, для границ предложений - 600 мс, паузы-"запятые" внутри предложений - 400 мс. Ударный слог на фоне других слогов выделялся особыми значениями трех акустических параметров - длительностью звучания, частотой основного тона и амплитудой (силовой характеристикой звука). Для наилучшего звучания оказались подходящими следующие соотношения параметров ударных и безударных слогов: rjru= 1Д vjvu = 1.4, AJAU = 3.

База "слог-звук" составлена из звуковых файлов формата WAV, озвученных 3259 слогов мужским и женским голосом соответственно. Общие характеристики базы приведены в следующей таблице.

Голос озвучивания Общее количество слогов Общий объем памяти (Мб) Средний объем памяти 1 слога (Кб) Минимальный объем памяти 1 слога (Кб) Максимальный объем памяти 1 слога (Кб)

Мужской 3259 130 40 13 60

Женский 3259 133 41 16 65

ИТОГО 6518 263 1

Среди дополнений к главе 2 отметим § 2.7, в котором приведен алгоритм^ озвучивания слова на основе его предварительного морфоанализа. В-таджикском языке порядка 150 префиксов, (простых и составных)-, и 250' постфиксов. Кроме того, для целей озвучивания можно ограничиться словарем основ объемом в 50Ю00 слов-. Для реализации синтеза речи требуется создание-баз данных - "префикс-звук", "корень-звук" и "постфикс-звук". Несложными' вычислениями устанавливается, что для» таких баз требуется зарезервировать около 15 Гб памяти. В том случае, когда слово не удается проанализировать,как последовательность морфов, применяется правило послогового озвучивания.

Другое дополнение представлено в § 2.8 алгоритмом озвучивания таджикского текста, содержащего слова, заимствованные из русского языка. В; основном это относится к именным словам. Осуществляя-фрагментирование их на слоги и дополняя последними таджикскую базу "слог-звук", мы получаем возможность синтезировать таджикские тексты с включениями.русских слов.

В главе 3 дается описание основного результата диссертации — программного комплекса Tajik Text-to-Speech - компьютерного синтезатора таджикских текстов с его структурной схемой, функциональными-возможностями, пользовательским интерфейсом, порядком его установки и настройки. Здесь же в § 3.5 излагаются результаты экспериментов, нацеленных на установление полноты- базы «слог-звук». Полученные данные показали вполне удовлетворительное качество работы комплекса программ Tajik Text-to-Speech по озвучиванию таджикского текста. В-отдельных случаях не удавалось получить 100% озвучивания, слов, что происходила по двум-причинам. Первая причина состояла в том, что слово таджикского происхождения могло содержать в себе такой слог, структура которого хотя и принадлежала одной из шести выявленных структур, тем не менее его конкретная буквенная-реализация не содержалась в базе «слог-звук». Следовательно, такой слог не имел своего звукового образа. Другая причина состояла в том, что слово из текста оказывалось заимствованным из другого языка и при фрагментировании на слоги могло выдавать такой слог, структура которого была не свойственна таджикскому языку.

Другие эксперименты носили публичный; характер. Они проводились > на научных семинарах Института, математики АН РТ. Его участники по собственному усмотрению: вводили в; компьютер таджикские тексты и затем оценивали: естественность и разборчивость, звучания-; синтетической речи: Общее мнение семинара - компьютерный: синтезатор; построенный по принципу конкатенации; 3259-таджикских слогов;, вполне успешно выполняет функции: озвучивания,таджикских текстов;.

В § 3.6 главы 3 основной: результат состоит в учете ударного слога: при: озвучивании, что приводит к заметному повышению: естественности и разборчивости звучания синтетической речи. В этом- параграфе приводятся, количественные характеристики акустических параметров; выделяющих ударный слог на фоне безударных.

В § 3.7 излагаются результаты экспериментов по озвучиванию текста путем конкатенации морфем - минимальных синтаксических единиц языка, извлекаемых, из базы "морфема-звук". - Здесь, удалось установить, что? качество-звучания синтетической речи - выше, чем в случае конкатенации таких звуковых единиц как слоги. Из этого сделан вывод; что компьютерный синтезатор построенный} на морфемном лексиконеу, следует принять в качестве альтернативы синтезатору, осуществляющему послоговую конкатенацию: Конечно, надо иметь в виду, что такой; синтезатор нуждается:в резервировании достаточно большой памяти, порядка 15 Гб:

Другая особенность такого синтезатора заключается в том, что ему не удается в полном объеме справиться с решением задачи озвучивания всех слов, ибо он не может содержать в себе исчерпывающий словарь морфов и потому не может представить некоторые слова как,последовательность морфов^ Выход, из положения видится, в использовании гибридного "морфемно-послогового" синтезатора, который каждое слово поначалу пытается проанализировать с помощью морфемного лексикона, а если это не: получается,. осуществить его озвучивание путем послогового синтеза. Последнее не применяется, если морфемный анализ удается выполнить.

В § 3.8 дано описание экспериментов с озвучиванием таджикского текста с русскими заимствованиями. Установлено, что компьютерный синтезатор, основанный на послоговой конкатенации и содержащий в базе "слог-звук" необходимые русские слоги, вполне успешно справляется с озвучиванием смешанного текста.

Теоретическая значимость работы состоит в том, что разработанные в ней подходы и алгоритмы эффективно приспосабливаются к решению проблемы синтеза речи по тексту, прежде всего, для индоевропейских, а также для других языков, в которых просодия слова строится по принципу словесного ударения.

Кроме того, в работе создана основа для проведения дальнейших исследований по совершенствованию компьютерного синтезатора таджикской речи.

Практическая значимость программного комплекса Tajik Text-to-Speech подтверждается

• его использованием людьми с дефектами зрения в НПО ПК «Сигма» при Центральном правлении Таджикского общества слепых (после 3-х месяцев предварительного испытания);

• его внедрением в учебный процесс на кафедре гуманитарных наук, Худжандского филиала Технологического университета Таджикистана, для углубленного изучения основ грамматики и фонетики таджикского языка.

Практическая значимость работы состоит также в том, что в ней установлена перспективность дальнейшего развития программного комплекса Tajik Text-to-Speech

• в синтезатор таджикской речи с русизмами,

• в синтезатор таджикской речи на основе морфемного лексикона.

Комплекс зарегистрирован Национальным патентно-информационным центром Министерства экономического развития и торговли Республики

Таджикистан в качестве интеллектуального продукта 041Т1 04.09.2007 и передан посредническим фирмам для распространения.

Апробация работы. Основные результаты диссертации обсуждались на научно-исследовательских семинарах Института математики АН РТ, а также на научных конференциях Худжандского филиала Технологического университета Таджикистана.

Публикации. Основные результаты диссертации опубликованы в 4-х статьях [142-145], из них 2 - в соавторстве с научным руководителем З.Д.Усмановым, которому принадлежат постановки задач и обсуждение результатов. Решения задач выполнены диссертантом.

КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ СИНТЕЗА РЕЧИ ПО ТЕКСТУ

1. В настоящем параграфе излагается основная идея синтеза речи по тексту, которая находит свою реализацию в диссертационной работе и помогает восприятию содержания последующих глав. Напомним ряд понятий, используемых в дальнейшем.

Текст — это последовательность предложений, построенных согласно правилам данного языка и данной знаковой системы и образующая сообщение, [122].

В свою очередь, предложение будем рассматривать как совокупность упорядоченных элементов 7 типов, называемых словом, числом, символом, пробелом, внутренним знаком препинания (запятая, двоеточие, точка с запятой, тире), внешним знаком препинания (точка, многоточие, знак вопросительный, знак восклицательный) и, наконец, служебным символом окончания абзаца (в письменном тексте его нет, но он появляется в компьютерном тексте).

Отметим, что смысл, который мы заключаем в названия элементов, следует понимать в общепринятых значениях. Подчеркнем также, что в конкретном предложении некоторые элементы могут отсутствовать (например, числа, символы, внутренние знаки препинания и т.д.) в то время как присутствие других - обязательно (например, внешний знак препинания).

Нам понадобятся 5 типов пауз, используемых в речи: р5 - пауза между слогами при произношении слова; р„ - пауза между словами при чтении предложения (соответствует пробелу между словами); р, - пауза, отмечающая внутренний знак препинания; ре - пауза, отмечающая внешний знак препинания; ра - пауза, отмечающая конец абзаца.

Теперь мы имеем возможность описать идею синтезирования речи по тексту в виде принципиальной блок-схемы, см. рис.1.

Рис. 1. Принципиальная блок-схема синтеза речи по тексту.

Работа синтезатора происходит следующим образом. После ввода очередного предложения оно анализируется по составу своих элементов. Если очередной элемент - слово, то в блоке 1 оно разделяется на слоги с указанием ударного слога и затем осуществляется его озвучивание с использованием базы "слог-звук".

Если очередной элемент - число, то оно в блоке 2 преобразуется в текст и затем его озвучивание происходит через блок 1.

Если очередной элемент - символ, то его озвучивание происходит в блоке 3 путем извлечения соответствующего звучания из базы "символ-звук".

Если очередной элемент — пробел, внутренний или внешний знак препинания или же знак окончания- абзаца, то для них из соответствующего блока извлекается соответствующая пауза.

2. Синтезатор речи, представленный в виде блок-схемы, подсказывает, что в его основу закладывается принцип конкатенации озвученных слогов.

Поскольку слог выступает в качестве основной звуковой единицы речи, то для реализации синтезатора требуется описать многообразие все слогов соответствующего естественного языка (задача 1).

Поскольку каждый слог, представленный в виде цепочки букв, нуждается в его звуковом образе, то требуется создание базы "слог-звук" (задача 2).

Поскольку синтезатор предусматривает озвучивание чисел и символов, то в первом случае требуется трансформирование числа в текст (задача 3), а во втором случае - создание базы "символ-звук " {задача 4).

Поскольку в каждом слове выявляется ударный слог, то требуется разработать автоматическую систему морфоанализа слов (задача 5).

И, наконец, требуется настроить длительности пауз р5, рк, р,, ре и ра таким образом, чтобы получить, по-возможности, естественную и разборчивую синтетическую речь.

Решение перечисленных задач приводится в трех последующих главах.

Заключение диссертация на тему "Комплекс программ синтезирования таджикской речи по тексту"

ЗАКЛЮЧЕНИЕ

Таким образом, на защиту диссертации выносятся следующие результаты.

1. Разработан программный комплекс Tajik Text-to-Speech - прототип компьютерного синтезатора таджикской речи по тексту, получивший положительную оценку по двум основным характеристикам - естественности звучания и разборчивости воспроизводимой им речи.

2. В основу его разработки положен метод конкатенативного синтеза таджикских слогов, выбранных в качестве основных звуковых единиц для формирования синтетической речи.

3. Путем статистической обработки репрезентативной выборки объемом в 3800 страниц получено исчерпывающее на сегодняшний день описание многообразия из 3259 различных таджикских слогов, использованных для формирования базы данных "слог-звук".

4. В синтезаторе реализованы такие элементы просодического синтеза как расстановка ударений, учет интонационной паузы между абзацами, после запятой внутри предложений и точки в конце предложения.

5. Вычислительными экспериментами установлена перспективность дальнейшего развития программного комплекса Tajik Text-to-Speech в синтезатор таджикской речи с русизмами

6. Вычислительными экспериментами обоснована также перспективность разработки синтезатора таджикской речи на основе морфемного лексикона.

Библиография Худойбердиев, Хуршед Атохонович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Klatt D. (1987) Review of Text-to-Speech Conversion for English. Journal of the Acoustical Society of America, JASA vol. 82 (3), pp. 737-793.

2. Beslcow J. (1996). Talking Heads Communication, Articulation and animation. Proceedings of Fonetik-96: pp. 53-56.

3. Klatt D., Klatt L. (1990). Analysis, Synthesis, and Perception of Voice Quality Variations Among Female and Male Listeners. Journal of the Acoustical Society of America, JASA vol. 87 (2): pp. 820-857.

4. Cohen M., Massaro D. (1993). Modelling Coarticulation in Synthetic Visual Speech. Proceedings of Computer Animation 93, Suisse.

5. Kleijn K., Paliwal K. (Editors) (1998). Speech Coding and Synthesis. Elsevier Science B.V., The Netherlands.

6. Kortekaas R., Kohlrausch A. (1997). Psychoacoustical Evaluation of the Pitch-Synchronous Overlap-and-Add Speech-Waveform Manipulation Technique Using Single-Formant Stimuli. Journal of the Acoustical Society ofAmerica, JASA, Vol. 101 (4): pp. 2202-2213.

7. Kraft V., Portele T. (1995). Quality Evaluation of Five German Speech Synthesis Systems. Acta Acustica 3 (1995): pp. 351-365.

8. Kröger B. (1992). Minimal Rules for Articulatory Speech Synthesis. Proceedings ofEUSJPC092 (1): pp. 331-334.

9. Laine U. (1982). PARCAS, a New Terminal Analog Model for Speech Synthesis. Proceedings oflCASSP 82 (2).

10. Klatt, D. H. (1979). Synthesis by rule of segmental durations in English sentences. In Lindblom, B. E. F. and Ohman, S. (Eds.), Frontiers of Speech Communication Research, pp. 287-299.

11. Stevens, K. N., Kasowski, S., and Fant, G. M. (1953). An electrical analog of the vocal tract. Journal of the Acoustical Society of America, 25(4), 734-742.

12. Flanagan, J. L., Ishizaka, K., and Shipley, K. L. (1975). Synthesis of speech from a dynamic model of the vocal cords and vocal tract. The Bell System Technical Journal, 54(3), pp. 485-506.

13. Fant, G. M. (1986). Glottal flow: Models and interaction. Journal of Phonetics, 14, pp. 393-399.

14. Flanagan, J. L. (1972). Speech Analysis, Synthesis, and Perception. SpringerVerlag, Berlin-Heidelberg-New York.

15. Klatt D. (1980). Software for a Cascade/Parallel Formant Synthesizer. Journal of the Acoustical Society of America, JASA, Vol. 67: pp. 971-995.

16. Allen, J:, Hunnicut, M. S., and Klatt, D. H. (1987). From Text to Speech: The MITalk system. Cambridge University Press.

17. Klatt, D. H. (1982). The Klattalk text-to-speech conversion system. In IEEE ICASSP-82, pp. 1589-1592.

18. Klatt, D. H. (1979). Synthesis by rule of segmental durations in English sentences. In Lindblom, B. E. F. and Ohman, S. (Eds.), Frontiers of Speech Communication Research, pp. 287-299. Academic.

19. Galanes F., Savoji M., Pardo J. (1995). Speech Synthesis System Based on a Variable Decimation. Proceedings oflCASSP 95: 636-639.

20. Holmes W., Holmes J., Judd'M. (1990). Extension of the Bandwith of the JSRU Parallel-Formant Synthesizer for High Quality Synthesis of Male and Female Speech. Proceedings oflCASSP 90 (1): pp. 313-316.

21. Cooper, F. S., Liberman, A. M., and Borst, J. M. (1951). The Interconversion of Audible and Visible Patterns as a Basis for Research in the Perception of Speech. Proceedings of the National Academy of Sciences, 37(5), pp. 318-325.

22. Lawrence, W. (1953). The synthesis of speech from signals which have a low information rate. In Jackson, W. (Ed.), Communication Theory, pp. 460-469. Butterworth.

23. Fant, C. G. M. (1953). Speech communication research. Ing. Vetenskaps Akad. Stockholm, Sweden, 24, pp. 331-337.

24. Harris, C. M. (1953). A study of the building blocks in speech. Journal of the Acoustical Society of America, 25(5), pp. 962-969.

25. Peterson, G. E., Wang, W W.-Y, and Sivertsen, E. (1958). Segmentation techniques in speech synthesis. Journal of the Acoustical Society of America, 30(8), pp. 739-742.

26. Dixon, N. and Maxey, H. (1968). Terminal analog synthesis of continuous speech using the diphone method of segment assembly. IEEE Transactions on Audio andElectroacoustics, 16(\),pp. 40-50.

27. Olive, J. P. (1977). Rule synthesis of speech from dyadic units. In ICASSP77, pp. 568-570.

28. Olive, J. and Liberman, M. (1979). A set of concatenative units for speech synthesis. Journal of the Acoustical Society of America, 65, S130.

29. Sagisaka, Y (1988). Speech synthesis by rule using an optimal selection of nonuniform synthesis units. In IEEE ICASSP-88, pp. 679-682.

30. Sagisaka, Y, Kaiki, N., Iwahashi, N., and Mimura, K. (1992). Atr v-talk speech synthesis system. In ICSLP-92, Banff, Canada, pp. 483-486

31. Hunt, A. J. and Black, A. W (1996b). Unit selection in a concatenative speech synthesis system using a large speech database. In IEEE ICASSP-06, Vol. 1, pp. 373-376.

32. Black, A. W. and Taylor, P. (1994). CHATR: a generic speech synthesis system. In COLING-94, Kyoto, Vol. II, pp. 983-986.

33. Nakajima, S. and Hamada, H. (1988). Automatic generation of synthesis units based on context oriented clustering. In IEEE ICASSP-88, pp. 659-662.

34. Donovan, R. E. (1996). Trainable Speech Synthesis. Ph.D. thesis, Cambridge University Engineering Department.

35. Syrdal, A. K., Wightman, С W., Conkie, A., Stylianou, Y, Beutnagel, M., Schroeter, J., Strom, V., and Lee, K.-S. (2000). Corpus-based techniques in the AT&T NEXTGEN synthesis system. In ICSLP-00, Beijing.

36. Syrdal, A. K. and Conkie, A. (2004). Data-driven perceptually based join costs. In Proceedings of Fifth ISCA Speech Synthesis Workshop.

37. Журавлев Ю.И. Избранные научные труды. //Магистр. М., 1998.

38. Чучупал В.Я., Маковкин К.А., Чичагов А.В. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи //Искусственный интеллект, том 4, №1, Киев, 2002. - с. 575-579.

39. В.Я. Чучупал, К.А. Маковкин.,- А.В. Чичагов. Адаптация к голосу и среде в системе распознавания речи. Математические методы распознавания образов. М., 2003. - 485 с.

40. Будянов В.П, Загоруйко Н.Г., Луценко Б.Н., Хамидуллин С.А. Пакет прикладных программ для статистической обработки сигналов (СИГНАЛ). Аннотация // Информационный бюллетень "Алгоритмы и программы" № 6, 1986. с. 5.

41. Величко В.М., Загоруйко Н.Г., Кельманов A.B., Хамидуллин С.А. и др. Система понимания слитной речи на базе ЕС ЭВМ // Тез. докл. и сообщений Всесоюз. Школы-семинара APCO-XIII, Новосибирск, 1984. -с. 131-132.

42. Плотников В.Н., Белинский A.B., Суханов В.А., Жигулевцев Ю.Н. Цифровые анализаторы спектра. М.: Радио и связь, 1990.

43. Плотников В.Н., Суханов В.А., Жигулевцев Ю.Н. Речевой диалог в системах управления. М.: Машиностроение, 1988. - 224 с.

44. Харламов A.A., Жигулевцев Ю.Н. Микропроцессорные средства построения встраиваемых речевых приложений "Искусственный интеллект" №.4, 2006.

45. Потапова Р.К. Основные современные способы анализа и синтеза речи.-М., 1971.

46. Потапова Р.К. Речевое управление роботом. М., 1989.

47. Потапова Р.К. Речь: Коммуникация, информация, кибернетика. М.,1997. (2-е доп. изд. -М., 2001).

48. Потапова Р.К. Новые информационные технологии и лингвистика. М., 2002.

49. Потапова Р.К. Экспериментально-фонетическое исследование сегментного уровня языков. М., 1979.

50. Потапова Р.К. Слоговая фонетика германских языков. М., 1986.

51. Потапова Р.К. Новые информационные технологии и лингвистика. М.: МГЛУ, 2002.

52. Потапова Р.К., Блохина Л.П., Собакин А.И. Методы математической статистики в прикладной лингвистике. М., 1999.

53. А. С. Леонов, И. С. Макаров, В. Н. Сорокин, А. И. Цыплихин, Артикуляторный ресинтез гласных. Информационные процессы, Т. 3, №. 2, 2003. -с. 73-82.

54. В. Н. Сорокин, И. С. Макаров, "Обратная задача для голосового источника", Информационные процессы, Т. 6, №. 4, 2006. с. 375-395.

55. Л.М.Захаров, Н.В.Зиновьева, О.Ф.Кривнова. Программный синтез русской речи (синтезатор "АГАФОН") // Труды Международного семинара по компьютерной лингвистике и ее приложениям. Диалог'95, -Казань, 1987.

56. Т. Dutoit. An Introduction to Text-to-Speech Synthesis. Dordrecht-Boston-London, 1997.

57. Количественная оценка воздействия супрасегментных факторов на длительность ударных гласных в синтагме // Всес. школа-семинар "АРСО-12". Новосибирск, 1984.

58. O.F.Krivnova. Durational Patterns of Russian Syntagma: The Standard Scheme and its Modifications // Proc.of the Xl-th Int. Congr.of Ph. Sc. Tallinn, 1987.

59. Моделирование и синтез фразовой интонации на основе особых точек тонального контура // Труды Международного семинара по компьютерной лингвистике и ее приложениям. Диалог'97. М., 1997.

60. O.F. Krivnova. Automatic synthesis of Russian speech II Proceedings of the XIV International Congress of Phonetic Sciences, Vol.1, San Francisco, 1999. pp. 507-510.

61. Л.В.Златоустова, С.В.Кодзасов, О.Ф.Кривнова, И.Г.Фролова. Алгоритмы преобразования русских орфографических текстов в фонетическую запись. М., МГУ, 1970.

62. Галунов В.И, Королева И.В. Обеспечение помехоустойчивости при обработке информации в слуховой системе. // Сенсорные системы т. 2 № 2, 1988.

63. Галунов В.И., Гарбарук В.И. Акустическая теория речеобразования и система фонетических признаков. // 100 лет экспериментальной фонетике в России. Материалы международной конференции. СПб, 2001. -с. 58-60.

64. Галунов В.И. Помехоустойчивость как системообразующий фактор речи. Проблемы и методы экспериментально-фонетических исследований.- СПб, 2002. 327 с.

65. Лобанов Б.М. Цирульник Л.И. Жадинец Д.В. Сизонов О.Г. Алгоритмы синтеза просодических характеристик речи по тексту в системе «Мультифон». Объединённый институт проблем информатики НАЛ Беларуси, Минск. 2007.

66. Лобанов Б.М., Карневская Е.Б., Левковская Т.В. Синтезатор речи по тексту как компьютерное средство «клонирования» персонального голоса // Тр. Международной конференции Диалог-2001 / -М., 2001. -с. 265-272.

67. Людовик Т.В., Сажок Н.Н. Использование речевых баз данных большого объема при синтезе речи в системах искусственного интеллекта // Проблемы управления и информатики. №6. 2003. с. 82-87.

68. Лобанов Б.М. Анализ и синтез речи. Сборник научных трудов /АН БССР Институт технической кибернетики. Науч. Ред. Лобанов Б.М. Минск, 1991,-86 с.

69. Т.В.Людовик. Синтез речи с моделированием особенностей произношения на основе анализа индивидуальных речевых баз данных большого объема.

70. Lyudovyk, T., Sazhok, M. Unit Selection Speech Synthesis Using Phonetic-Prosodic Description of Speech Databases // Proceedings of the 9-th International Conférence Speech and Computer SPECOM'2004, St.Petersburg, Russia.

71. Reader TTS. Сайт программы http://www.speech-soft.ru

72. Govorilka. Сайт программы http://www.vector-ski.ru/vecs/govorilka/

73. ToM Reader. Сайт программы http://tomreader.narod.ru

74. Sakrament. Контактная информация www.sakrament.com

75. Talk-To-Me. Официальная страница поддержки http://www.talk-to-me.net/

76. Text Aloud МРЗ. Официальная страница поддержки http://nextup.com/TextAloud/ index.html

77. SNAT. Программа Speechable Network Administrator Tool Официальная страница поддержки: http://iclub.kemsu.ru/

78. Book Reader. Официальная страница поддержки: http://iclub.kemsu.ru/ts

79. Speech2. Официальная страница поддержки: http://speech.narod.ru

80. Фонемафон. Официальная страница поддержки: http://farc.webservis.ru/

81. MP3book2005. Сайт программы: http://www.mp3book2005.narod.ru

82. Sakrament Talker. Контактная информация: www.sakrament.com

83. Infovox. Контактная информация: http://www.infovox.se

84. DECTalk. Официальная страница поддержки программы: http://www.crl.research.digital.com/proiects/facial/facialdoc.html91. Bell Labs Text-to-Speech:

85. Sami Lemmetty. Review of Speech Synthesis Technology. Helsinki. 199992. Laureate:

86. Gaved M. (1993). Pronunciation and Text Normalisation in Applied Text-to-Speech Systems. Proceedings ofEurospeech 93 (2): pp. 897-900.

87. Morton K. (1987). The British Telecom Research Text-to-Speech Synthesis System -1984-1986. Speech Production and Synthesis. Unpublished PhD Thesis. University of Essex, pp. 142-172.

88. Контактная информация: http://wrangler.essex.ac.uk/speech/archive/bt93. ORATOR:

89. Santen J., SproatR., Olive J., Hirschberg J. (editors) (1997). Progress in Speech Synthesis, Springer-Verlag New York Inc. (Includes CD-ROM).94 Lernout & Hauspies:1.rnout & Hauspies (L&H) Speech Technologies Homepage (1998).

90. Контактная информация: http://www.lhs.com/speechtech/

91. CyberTalk. Контактная информация: http://www.research.panasonic.com/pti/stl web demo/demo.html96. ETI Eloquence:

92. Hertz S. (1997). The ETI-Eloquence Text-to-Speech System. White Paper, Eloquent Technology Inc.

93. Контактная информация: http: www.eloq.com/Whitel297-l.htm97. MBROLA:

94. Dutoit Т., Leich H. (1993). MBR-PSOLA: Text-to-Speech Synthesis Based on an MBE Re-Synthesis of the Segments Database. Speech Communication, vol. 13: pp. 435-440.

95. Dutoit Т., Pagel V., Pierret N., Bataille F., Vrecken O. (1996). The MBROLA Project: Towards a Set of High Quality Speech Synthesizers Free of Use for Non Commercial Purposes. Proceedings oflCSLP 96 (3).98. Whistler:

96. Acero A. (1998). Source-Filter Models for Time-Scale Pitch-Scale Modification of Speech. Proceedings ofICASSP98.

97. Huang X., Acero A., Adcock J., Hon H., Goldsmith J., Liu J., Plumpe M. (1996). Whistler: A Trainable Text-to-Speech System. Proceedings ofICSLP96 (4).99. SPRUCE:1.wis E., Tatham M. (1997). SPRUCE High Specification Text-to-Speech Synthesis.

98. Контактная информация: http://www.cs.bris.ac.uk/~eric/research/spruce97.html100. HADIFIX:

99. Karjalainen M., Laine U., Toivonen R. (1980). Aids for the Handicapped Based on "SYNTE 2" Speech Synthesizer. Proceedings oflCASSP 80 (3): pp. 851-854.102. Sanosse:

100. Hakulinen J. (1998). Suomenkielisetpuhesynteesiohjelmistot (The Software Based Speech Synthesizers for Finnish). Report Draft, University of Tampere, Department of Computing Science, Speech Interfaces, 26.8.1998.

101. Speaking Mouse. Контактная информация: http://www.speech-soft.ru104. АГАФОН:

102. Л.М.Захаров, Н.В.Зиновьева, О.Ф.Кривнова. Программный синтез русской речи (синтезатор "АГАФОН") // Труды Международного семинара по компьютерной лингвистике и ее приложениям. Диалог'95, Казань.

103. B.C. Расторгуева. Краткий очерк грамматики таджикского языка, с. 529 - 570. В книге «Таджикско-русский словарь» под редакции М.В. Рахими и JI.B. Успенской, Госиздат иностранных и национальных словарей, - М., 1954. - 789 с.

104. Абу-али ибни Сино. К^онуни тиб. Китоби V. Андар баёноти дорух,ои мураккаб. Душанбе: Сарредаксияи илмии энсиклопедияи миллии тоцик. 2005.-216 с.

105. А. Фирдавсй. Шохдома: Иборат аз нух, чилд. Душанбе: Адиб, 1989. -656 с.

106. С. Айнй. Ёдоштх.0, кцсми 1. Душанбе: Адиб, 1990. - 352 с.

107. С. Айнй. Ятим. Повеет, Душанбе: Нашриёти давлатии Точшсистон, 1940. - 140 с.

108. С. Айни. Кахрамони халк;и точик Темурмалик. - Душанбе: Маориф, 1978. - 168 с.

109. Б. F. Еафуров. Точикон. Таърихи кддимтарин, кдцим ва асри миёна. Китоби 1 -2. Душанбе: Ирфон, 1998. - 416 с.

110. С. Улугзода. Пири хдкимони машрик;замин. Душанбе: Маориф, 1980.-200 с.

111. Н. О. Турсунов. Таърихи точикон. Хучанд, 2001. - 788 с.

112. Ф. Мух,аммадиев. Кулиёт. Душанбе. 1990. - 384 с.

113. Икромй. Асархои мунтахаб. Иборат аз 3 цилд. Ч^илди 1. Тирмор. -Душанбе: Адиб, 1987. 352 с.

114. А. Бахорй. Бозгашт. Душанбе: Ирфон, 1973. - 120 с.

115. А. Бахорй. Сохдли мурод. К^иссах;о. Душанбе: Адиб, 2000. - 368 с.

116. Р. Чалил. Одамони човид. Роман. Душанбе: Нашриёти давлатии Точикистон, 1954. - 478 с.

117. Еаниев M.F. MS Word: аз хуччати намуди содда то VBA: Васоити таълимй. ФХДТТ. Хучанд, 2004. - 204 с.

118. XЛ. Рах;имзод. Асос^ои оила ва оиладорй. Хучанд: Рах;им Чалил, 2005. - 158 с.

119. Фархднги забони точ;икй. Аз асри X то ибтидои асри XX. Иборат аз 2 Чилд. М.: Советская энциклопедия. 1969. - 961 с.

120. Советский энциклопедический словарь. М.: Советская энциклопедия, 1980. - 1600 с.

121. С.И.Ожегов. Словарь русского языка. М.: Русский язык, 1984. - 816 с.

122. Исмаилов М.А. Доклады АН РТ, 2000, т.43, № 3. с. 95-99.1253.Д. Усманов, A.A. Абдухамидов, М.А. Исмоилов // Доклады АН РТ, 2002, Т. 45, №5-6,-с. 9-14.

123. О. Ф. Кривнова. Ритмо-ударная форма синтагмы в научном тексте // Просодия текста. Тез. докладов научно-метод. конф. М., 1982.

124. Исмаилов М.А. Основы автоматизированного морфологического анализа слов таджикского языка. Институт математики АН РТ. -Душанбе. 1994. - 156 с.

125. Серия "Знаменитые писатели России". Автобиография Тургенева И. С. Электронный ресурс.: http://turgenev.info/turgenev bio.htm

126. Серия "Знаменитые писатели России". Тургенев И. С. Первая любовь. Электронный ресурс.: http://turgenev.info/pervaya lubov.htm

127. Серия "Знаменитые писатели России". Автобиография Пушкина A.C. Электронный ресурс.: http://pushkina.com/pushkin bio.htm

128. Серия "Знаменитые писатели России". Пушкина A.C. Медный всадник. Электронный ресурс.: http://pushkina.com/mednuj vsadnik.htm

129. Серия "Знаменитые писатели России". Автобиография Лермонтова М.Ю. Электронный ресурс.: http://leimontov.name/lermontov bio.htm

130. Серия "Знаменитые писатели России". Лермонтова М.Ю. Смерть поета. Электронный ресурс.: http://lermontov.name/smert poeta.htm

131. Серия "Знаменитые писатели России". Автобиография Чехова А.П. Электронный ресурс.: http://chehov.org/chehovbiography.htm

132. Серия "Знаменитые писатели России". Чехов А.П. Благодарый. Электронный ресурс.: http ://cheho v.org/blagodarnyj .htm

133. Серия "Знаменитые писатели России". Автобиография Булгакова М.А. Электронный ресурс.: http://bulgakov.info/bulgakov biography.htm

134. Серия "Знаменитые писатели России". Булгаков М.А. Чемпион. Электронный ресурс.: http://bulgakov.info/chempion.htm

135. Серия "Знаменитые писатели России". Автобиография Есенина С.А. Электронный ресурс.: http://esenin.name/eseninbio.htm

136. Серия "Знаменитые писатели России". Есенина С.А. Черный человек. Электронный ресурс.: http://esenin.name/blackman.htm

137. Тим Кинтцель. Программирование звука на ПК. Пер. с анг. М.: ДМК Пресс, 2005. - 432 с.

138. Баландюк Ю. В. Просодическое устройство слова в корейском языке (на материале двуслога). Автореферат диссертации на соискание ученой степени кандидата филологических наук, Институт стран Азии и Африки при МГУ им. М.В.Ломоносова, М., 2003.

139. Усманов З.Д., Худойбердиев Х.А. О слоговой структуре слов таджикского языка // ДАН РТ, Т.49, № 6, 2006. с. 489-492.

140. Худойбердиев Х.А., О многообразии слогов таджикского языка // Известия АН РТ, № 2 (127), 2007. с. 31-34.

141. Усманов З.Д., Худойбердиев Х.А. Алгоритм безударного озвучивания таджикского текста // ДАН РТ, Т.50, № 4, 2007. с. 302-305.

142. Худойбердиев Х.А., Об автоматическом разложении слов на слоги // ДАНРТ, Т.50, № 5, 2007. с. 417-419.

143. Усманов З.Д., Худойбердиев Х.А. Компьютерное озвучивание таджикского текста // Патент (интеллектуальный продукт) зарегистрирован 041Т1 04.09.2007 Национальным патентно -информационным центром Министерства экономического развития и торговли РТ.