автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Исследование и разработка метода сжатия речевых данных при передаче экспресс-сообщений по телекоммуникационным каналам

кандидата технических наук
Зернов, Павел Сергеевич
город
Санкт-Петербург
год
2009
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка метода сжатия речевых данных при передаче экспресс-сообщений по телекоммуникационным каналам»

Автореферат диссертации по теме "Исследование и разработка метода сжатия речевых данных при передаче экспресс-сообщений по телекоммуникационным каналам"

На правах рукописи

ЗЕРНОВ ПАВЕЛ СЕРГЕЕВИЧ

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДА СЖАТИЯ РЕЧЕВЫХ ДАННЫХ ПРИ ПЕРЕДАЧЕ ЭКСПРЕСС-СООБЩЕНИЙ ПО ТЕЛЕКОММУНИКАЦИОННЫМ КАНАЛАМ

Специальность 05.13.01 - Системный анализ, управление и обработка информации

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2009

003474050

Работа выполнена в Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича

Научный руководитель

кандидат технических наук, доцент Юрий Тихонович Бутыльский

Официальные оппоненты

доктор технических наук, профессор Дегтярев Владимир Михайлович

кандидат технических наук Гусев Михаил Николаевич

Ведущее предприятие

Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»

Защита состоится « 2 » июля 2009 года в 10 часов на заседании диссертационного совета Д 219.004.02 при Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича по адресу: 191186 Санкт-Петербург, наб. р. Мойки, д.61.

С диссертацией можно ознакомиться в библиотеке университета.

Отзыв на автореферат в двух экземплярах, заверенных печатью учреждения, просим направлять по указанному адресу на имя ученого секретаря диссертационного отдела.

Автореферат разослан « 1 » июня 2009 г.

Ученый секретарь диссертационного совета

кандидат технических наук, до В.Х. Харитонов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время, как средства общения и обмена информацией, широкое распространение получили системы экспресс-сообщений (ЭС). ЭС являются видом оперативных коммуникационных услуг, позволяющим двум пользователям создавать в сети Интернет сессии обмена информацией на основе текстовых сообщений. Дополнительно, некоторые из систем ЭС позволяют передавать голосовую информацию, на базе технологии VoIP. В качестве терминалов могут использоваться персональные компьютеры (стационарные, ноутбуки), беспроводные устройства (сотовые телефоны, КПК) или другое интернет оборудование. Возможны различные комбинации этих устройств.

ЭС имеют две основные особенности: предоставляют возможность обмена текстовыми сообщениями в реальном масштабе и передают информацию о присутствии пользователя. Высокой популярностью ЭС обязаны этим двум особенностям, отличающим их от электронной почты и SMS сообщений и позволяющим клиентам систем вести диалог путем набора текста на клавиатуре терминала (ПК, КПК, мобильного телефона и т.д.). Для пользователей, работающих в системе ЭС, характерно употребление единой терминологии. Разговоры связаны общими интересами и обычно происходят на одном языке.

Для системы ЭС использование технологии VoIP, зачастую является избыточным. Анализ существующих разновидностей технологий ЭС, показывает возможность использования словаря для преобразования, как текстовых сообщений, так и речи на передающей стороне и передаче в канал связи индекса каждого обработанного слова. На приемной стороне по словарю можно синтезировать в естественную речь индексы полученных из канала связи слов. Таким образом, на базе системы ЭС возможно предоставление услуги передачи речи, отличающейся сниженным объемом передаваемых в канал связи данных, по сравнению с технологией VoIP.

Своими исследованиями в области цифровой обработки речевых сигналов известны JI. Рабинер, Р. Шафер, С. Левинсон, А. Ланнэ (RusVox). Вопросы синтеза речи освещены в работах В. Кучерова, Б. Лобанова, Г. Фанта, Дж. Фланагана, М. Сапожникова. Теории обработки разговорной речи посвящены работы X. Хуанга, А. Асеро, X. Хона. Все эти наработки в области распознавания и синтеза речи могут быть применены в системах ЭС, порождая тем самым новый метод передачи речи, исключающий избыточность существующих подходов.

Поэтому поставленная и решенная в диссертационной работе задача является актуальной.

Целью работы и задачей исследования является повышение эффективности использования канала связи, путем снижения объема передаваемых в системе ЭС данных. Цель достигается путем решения нижеперечисленных основных задач.

1. Анализа систем ЭС и выявления проблем связанных с избыточностью применения существующих методов передачи речи в системах ЭС.

2. Исследования и разработки метода сжатия речевых сообщений в системе ЭС.

3. Исследования и разработки модели обработки информации на передающей и приемной сторонах в системе ЭС.

4. Исследования и разработки алгоритмов модели обработки информации в системе ЭС.

5. Экспериментальной проверки разработанного метода, модели, алгоритмов и сравнения с существующим методом.

Методы исследования. При проведении исследований в диссертационной работе использовались методы теории обработки речевых сигналов, вычислительной математики, программирования, теории телетрафика, теорий вероятностей.

В качестве инструмента исследования автором было разработано приложение для обмена речевой информацией в системе ЭС. Данное приложение использовалось для получения количественных оценок объема передаваемых в канал связи данных и времени доставки пакетов ЭС, было экспериментальной платформой для внедрения и применения разработанного метода передачи речи.

Научная новизна. В данной работе предложен новый метод передачи ЭС, модель обработки информации, модель процесса преобразования речи и ее алгоритмы. Научная новизна заключается в разработке для систем ЭС нового подхода, основанного на применении систем распознавания и синтеза речи, функционирующих по словарю. Словарь позволяет преобразовывать поступающую на передающей стороне речь в индексы слов, а на приемной стороне, переданные через канал связи индексы слов синтезировать в речевой сипнал. Исследование систем ЭС и разработка метода передачи речи, дает толчок к созданию лингвистических моделей языка общения пользователей, в рамках этих систем, тем самым, расширяя возможности систем ЭС.

Практическая ценность работы. К практической ценности разработанного метода можно отнести:

1. уменьшение объема передаваемой в канал связи информации и снижение нагрузки на сеть;

2. обеспечения более эффективного, по сравнению с набором на клавиатуре, способа ввода ЭС и более эффективного, по сравнению с чтением на дисплее, способа восприятия ЭС;

3. совместная передача на базе протоколов системы ЭС как речевой, так и текстовой информации в едином цифровом потоке.

Разработчикам, инженерам, операторам предоставляется новый инструмент, позволяющий обмениваться как текстовой, так и голосовой информацией в реальном масштабе времени. Математическим аппарат, представленный в работе в виде модели обработки информации удобен и доступен для инженерных расчетов в системах обмена информацией. Разработанные средства также могут быть использованы в системах требующих низкую скорость передачи данных, к примеру: в системах передачи данных на подводных лодках, в шахтах или в туннелях.

Апробация работы. Результаты работы докладывались на:

• 59 (май 2005) и 60 (май 2006) научно-технических конференциях студентов, аспирантов и молодых специалистов СПбГУТ;

• 58 (январь 2006), 59 (январь 2007), 60 (январь 2008), 61 (январь 2009) научно-технических конференциях профессорско-преподавательского состава, научных сотрудников и аспирантов СПбГУТ.

Основные практические результаты работы демонстрировались на ежегодной конференции IBM Lotus Forum 25 сентября 2008 в городе Москве.

Основные положения, выносимые на защиту. К основным научным результатам, которые получены лично автором, включены в диссертацию и выносятся на защиту, относятся:

1. результаты анализа существующих систем ЭС и их особенностей;

2. предложенный метод передачи речи на базе системы ЭС;

3. разработанная модель обработки информации в системе ЭС;

4. созданные алгоритмы для модели обработки информации в системе

ЭС;

5. результаты экспериментальных проверок работы предложенного метода для системы ЭС в режиме реального времени и оценок объема данных, передаваемого в канал связи;

6. дальнейшие пути исследований:

• построение лингвистической модели языка, используемого в системе ЭС;

• снижение требований к вычислительной мощности аппаратуры клиентской части системы, за счет распознавания речи на выделенном сервере;

• создание клиентской части системы на базе программируемой логики в виде аппаратного решения;

• разработка клиентской части системы, работающей на мобильных устройствах;

• исследования по применению созданной системы в работе на низкоскоростных каналах связи, например инфразвуковых.

Личный вклад автора. Основные научные положения, теоретические и практические выводы и результаты экспериментов, содержащиеся в диссертационной работе, получены автором самостоятельно.

Публикации. По теме диссертации опубликовано 13 научных работ, в том числе в 4 изданиях го перечня, рекомендуемого ВАК.

Структура и объем работы. Работа состоит из введения, 4 глав, заключения, списка литературы, включающего 106 наименований. Работа содержит 150 страниц машинописного текста, 34 рисунка, 12 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении проведено обоснование актуальности, научной и практической ценности решения задач связанных с ЭС, в основе архитектуры

которых заложено преобразование речевой информации на передающей и приемной сторонах по словарю.

В первой главе вводится ряд определений и классификаций, проводится анализ существующих систем ЭС. Исследуются особенности передачи речи на базе ЭС. Рассматриваются используемые в системах ЭС протоколы, производится их сравнение.

Сделаны выводы об актуальности рассмотрения систем ЭС и выявлен круг проблем связанных с ними. Определена возможность сокращенной передачи информации от отправителя к получателю с использованием выявленного словаря. Отмечена проблема неэффективного ввода и восприятия информации в системе ЭС. Намечены пути устранения избыточности существующих методов передачи речи, предполагающие обработку информации на передающей и принимающей сторонах по словарю. Отмечена необходимость обеспечения совместной передачи как речевой, так и текстовой информации в едином цифровом потоке.

Во второй главе рассматривается предложенный метод передачи речи для системы ЭС (МПРЭС) в рамках ее архитектуры. Базовые положения МПРЭС для передающей стороны:

• формирование входной информации в виде отдельных слов по словарю;

• введение в структуру передающей стороны словаря, достаточного для обмена ЭС между определенной группой пользователей (словарь должен присутствовать как на передающей, так и на приемной сторонах);

• определение произнесенного пользователем слова по словарю как наиболее вероятного с помощью речевого распознавателя с большим словарем, основанного на использовании лексических единиц размером меньше слова (Sphinx4), разработанного в Университете Карнеги-Меллон (CMU), группой Sphinx Group;

• формирование пакета ЭС, содержащего преобразованный по кодовой таблице индекс слова (последовательность индексов слов).

Базовые положения МПРЭС для приемной стороны:

• преобразование переданного по каналу связи индекса (последовательности индексов) по кодовой таблице;

• извлечение текстового представления слова из словаря, согласно полученному индексу;

• преобразование слова в речевой сигнал по словарю с помощью речевого синтезатора, основанного на использовании лексических единиц размером меньше слова (Festival), разработанного в Эдинбургском Университете, в Центре Исследования Речевых Технологий (CSTR).

Для МПРЭС описан процесс преобразования речи. На рис. 1 .а изображена модель процесса преобразования речи (МППР) в ASCII коды, на рис. 1.6 МППР ASCII кодов в речь.

Словарь

а)

Кодовая таблица

о &

Пользователь

Кодовая таблица Словарь

б)

Рис. 1. Предложенная МППР: а - речь в ASCII коды, б - ASCII коды в речь

На основе МПРЭС разработана сетевая архитектура системы ЭС (САЭС). В САЭС выделяются четыре основные задержки:

• задержка на обработку речи;

• задержка синтеза речи;

• задержка помещения пакета в очередь;

• задержка очереди.

Проанализированы существующие системы распознавания и синтеза речи, сформулированы требования для таких систем в рамках ЭС.

Требования, предъявляемые к системе распознавания речи:

• работа в реальном масштабе времени, т.е. распознавание речи в темпе поступающего речевого сигнала;

• низкий процент ошибок распознавания слов (5% неверно распознанных слов, является минимальным приемлемым для систем распознавания речи процентом);

• словарь, достаточный для распознавания слов, используемых в общих разговорах (по расчетам лингвистов, объем активного словаря, для образованного человека составляет в среднем в 5000-10000 слов);

• распознавание слитной речи, т.е. возможность автоматического разделения произнесенной фразы или предложения на слова с последующим распознаванием по словарю;

• наличие в публичном доступе баз для распознавания русской речи;

• наличие в публичном доступе исходных кодов системы распознавания для их модификации и адаптации под задачи ЭС, т.е. система должна быть некоммерческой.

Требования, предъявляемые к системе синтеза речи:

• работа в реальном масштабе времени, т.е. синтез речи в темпе поступающих индексов слов в словаре;

• синтез речи с качеством близким к реальной человеческой речи;

• клиент-серверная архитектура системы синтеза;

• наличие в публичном доступе баз, для синтеза русской речи;

• наличие в публичном доступе исходных кодов системы синтеза, для их модификации и компиляции под задачи ЭС.

Согласно сформулированным выше требованиям произведен выбор системы распознавания речи с большим словарем (Sphinx4) и системы синтеза речи (Festival), основанные на использовании лексических единиц размером меньше слова.

Сделаны выводы о необходимости создания модели обработки информации на передающей и приемной сторонах для определения возможности работы предлагаемой архитектуры в масштабе реального времени и вычисления объема, передаваемых в канал связи данных.

В третьей главе рассмотрена модель обработки информации в системе ЭС (МОИЭС) построенной согласно предлагаемому методу.

МОИЭС на передающей стороне является представлением процесса преобразования речи в ASCII коды для системы ЭС. В настоящее время в обработке речи успешно применяются стохастические модели сигнала, а именно скрытые марковские модели (СММ). В основе выбранной в главе 2 системы распознавания речи Sphinx4, также заложены принципы описания речевого сигнала с помощью СММ.

На рис. 2 изображен фрагмент МОИЭС на передающей стороне. Предположим, что имеется некоторый словарь W из V слов, которые нужно распознавать, и что каждое слово нужно моделировать отдельной СММ.

Предположим также, что для каждого слова из словаря имеется некоторое обучающее множество, состоящее из К реализаций каждого слова (произнесенного одним или несколькими дикторами). Реализация слова представляет собой последовательность наблюдений, а сами эти наблюдения являются некоторым подходящим представлением характеристик данного слова (спектральных и/или временных). Для каждого такого слова v словаря строится СММ А, т.е. определяется значения параметров модели (А,В,тс), которые оптимизируют правдоподобия векторов наблюдения обучающей последовательности для v-ro слова.

Входным параметром МОИЭС является речевой сигнал S (сигнал, формирующийся через микрофон на передающей стороне из слов, произнесенных пользователем) длиной Т и интенсивностью Npc4H. Поступающий речевой сигнал проходит предварительный спектральный анализ, с целью получения векторов наблюдений О по его отсчетам.

Процесс распознавания речи, характеризующейся коэффициентом реального времени яг

СММ слова №1 из словаря

Послед-сть наблюдений (индексы спектров)

о={о„ог.....От}

Вычисление вероятности

_ 'Р(ОМГ)__

СММ слова №2 из словаря

г

Вычисление вероятности

Р(0|Я?)„ . '

СММ слова №У из словаря-

Вычисление вероятности" Р(01ДГ)

Выбор по максимуму .: гоах{р(О.Щ ■

Индекс распоз. слова

А М

Словарь распознаваемых системой слов 1Г . , объемом У слов. Для каждого слова в словаре описана " последовательность символов наблюдения (кодов его спектра), согласно акустической модели,

Рис. 1. Фрагмент МОИЭС на передающей стороне

На основе полученной после спектрального анализа последовательности наблюдений 0 = {01,01,...,0Т), инициируется процесс распознавания. При этом выполняются следующие шага:

вычисляются вероятности правдоподобия всех возможных моделей

р{0\г),1<у<У, (1)

относительно последовательности наблюдений О произнесенного слова; осуществляется выбор слова, вероятность правдоподобия модели которого наибольшая, т. е.

где v - распознанное слово по словарю W.

Перед передачей в канал связи, индекс распознанного слова v проходит специальное преобразование. Если произнесенное слово не распознано системой, то преобразование производится над последовательностью индексов О его спектров. Значения индекса слова или индексов спектров пересчитываются по модулю 64, согласно (3)

v = vmod(64). (3)

В дальнейшем это преобразование позволит заменить любой числовой индекс на ASCII символ из кодовой таблицы, используемой в методе кодирования base64.

Система распознавания речи Sphinx4 позволяет задать параметр Киов, количество одновременно выдаваемых индексов обработанных слов поступившего речевого сигнала. Таким образом, при параметре Кио, равном 1, система распознавания речи выдает индекс каждого обработанного слова отдельно. Если параметр Кмов больше 1, то система выдает последовательности индексов обработанных слов. В последовательности индексов обработанных слов, могут входить как индексы распознанных слов, так и индексы спектров нераспознанных слов.

Таким образом - объем передаваемой в канал связи

последовательности индексов распознанных слов вычисляется по формуле:

V = г * к + V т * \у. (4)

послед. к.расп. ' рая. / . кмерасп, 1 > V V

¡-1

где К.роа. ~ размер закодированного по кодовой таблице индекса распознанного слова (для словаря размером 4096 слов - 2 байта); К^ - количество индексов распознанных слов в последовательности; Ь,,жржп - размер закодированного по кодовой таблице индекса спектра нераспознанного слова (для словаря размером 4096 слов - 1 байт); Щ ~ количество индексов спектров в нераспознанном 1-м слове; Ккраа, ~ количество нераспознанных слов в последовательности.

Выразим и - объем данных, передаваемый в канал связи процессом преобразования речи за единицу времени, как отношение объема сформированного на выходе процессом преобразования речи пакета = ко времени его формирования Т^ (5):

N *(У +Ь *К + У £

* речи \ служ. к.расп. расп. ' / л х.иепасп. '1 /

и =-и-, (5)

где - темп речи на входе процесса преобразования речи; Уагж - размер блока служебных данных в передаваемом пакете ЭС; ЯТ - коэффициент реального времени, описывающий отношение времени распознавания фрагмента речевого сигнала, к его длине.

В случае, когда в процессе преобразования речи по словарю были определены все произнесенные слова, объем передаваемых в канал связи данных вычисляется по формуле (6).

Согласно требованиям, предъявляемым к системам распознавания речи, процент нераспознанных слов не должен превышать 5%, что задает вероятность распознавания слова равную р = 0,95 и вероятность не распознавания ^ = 0,05. Тогда согласно биномиальному распределению, Р^ (Красп ) - вероятность распознавания К^ слов из последовательности размером К^, определяется по формуле (7).

при этом математическое ожидание (7) записывается как тк = К^ * р, а дисперсия ПКгт = Кт *д*р

Время обработки пакета ЭС Тткша, характеризующее промежуток времени с момента произношения пользователем на передающей стороне первого звука из последовательности слов размером К^, до момента начала воспроизведения на приемной стороне синтезированной последовательности слов, можно записать как (8).

передающей стороне, Тсетнаа - время задержки пакета в сети IP, Тстт - время формирования синтезируемой последовательности К^ слов на приемной стороне.

Сравним объемы передаваемых данных существующего метода и предлагаемого для случая распознавания всех слов (6). Оптимальное количество слов, в пакете ЭС, составляется 11-12 слов. При таком размере пакета ЭС, объем передаваемых данных в единицу времени составляет порядка 0,13-0,12 кбит/с, что в 140 раз меньше величины объема данных, передаваемого в канал связи с использование кодека на основе существующего метода (17,92 кбит/с). При инкапсуляции в пакет ЭС индекса одного распознанного слова, объем данных увеличивается до 1,23 кбит/с, что в 14,5 раз меньше объема данных существующего способа передачи речи. Анализируя время доставки пакетов, можно обратить внимание на большую задержку доставки пакетов для предложенного метода, относительно требований рекомендации G. 114, которая гласит, что для хорошего качества голоса значение односторонней сквозной задержки не должно превышать 150 мс. Время доставки пакета с одним индексом распознанного слова, составляет для темпа речи 80 слов в минуту - 1,57 секунд, а для 120 слов в минуту - 1,11 с. При увеличении количества индексов слов в пакете ЭС, время доставки линейно увеличивается.

Согласно МОИЭС на передающей стороне, в процессе распознавания речи, на этапе акустического моделирования производится оценка вероятностей правдоподобия всех возможных моделей (1) выбор слова, вероятность

(7)

^Д® ^формир.

Kao.*(\ + RT)

правдоподобия модели которого наибольшая (2). Эти вероятности обычно вычисляются с помощью алгоритма Витерби (т. е. используется наиболее правдоподобный путь), что требует выполнения количества вычислений, выраженных формулой (9). При этом каждое вычисление подразумевает выполнение операции умножения, операции сложения и операции вычисления плотности наблюдений Ь(0):

(9)

где V — объем словаря, N — число состояний в СММ слова, Т — число сегментов или кадров речевого сигнала для неизвестного слова.

МОИЭС на приемной стороне является представлением процесса преобразования ASCII кодов, поступающих из канала связи, в речевой сигнал для системы ЭС. Компонент, реализующий процесс преобразования, включает в себя систему синтеза речи. В качестве системы синтеза речи, для построения модели, будет использоваться выбранная в гл. 2 система Festival.

На рис. 3 представлен фрагмент МОИЭС на приемной стороне. Входным параметром МОИЭС является последовательность ASCII символов, поступающих из канала связи. Согласно таблице, используемой в методе кодирования/декодирования информации base64, каждый символ последовательности преобразуется в числовой код. Таким образом, вся пришедшая из канала связи последовательность текстовых символов преобразуется в последовательность числовых кодов. Числовой код может представлять как часть индекса слова в словаре W, так и часть последовательности индексов спектров из акустической модели. В любом случае, каждый числовой код приводится к десятичному значению, а затем вся последовательность числовых кодов, в зависимости от содержащейся информации, либо преобразуется в последовательность индексов спектров О, либо в индекс слова v из словаря W.

Если получена последовательность индексов спектров 0-\рх,0г,-,0т}, то она синтезируется в слово по акустической базе, как объединение всех спектров в речевой сигнал. Если получен индекс слова v по словарю W, то происходит извлечение представления слова в текстовом виде. Затем слово проходит текстовый и фонетический анализ. Текстовый анализ подразумевает проверку структура слова, нормализацию слова и его лингвистический анализ. Фонетический анализ производит разбиение слова на фонетические единицы по словарю, выделяет важные реплики в слове и проверяет корректность слова, для получения максимально точного произношения.

Затем необходимо произвести оценку полученной последовательности фонетических единиц слова, с точки зрения максимальной приближенности к описывающему ее речевому сигналу из акустического словаря.

Пусть в - речевой сегмент, чья фонетическая транскрипция р = р(в). Пусть

© = {в1,в2.....вобъединение N речевых сегментов, общая фонетическая

транскрипция которых P = {p1,p2,-,pN}- р является последовательностью М фонетических единиц, и так как у каждого сегмента есть, по крайней мере, одна фонетическая единица, считается что M>.N.

Дисторсия или функция стоимости между последовательностью сегментов ® и целью Т может быть выражены как сумма соответствующей стоимости речевого сегмента и затрат перехода следующим образом:

d(0,T) ^dje]tT) +1[dje^h (10)

H J'l

где dJdj,T) - стоимость речевого сегмента в пределах цели Т, d,(0y,0J+1) является стоимостью перехода в объединении речевых сегментов и .

Оптимальная последовательность сегментов © может быть найдена как минимум полной стоимости:

0 = argmini/(0,:r), (11)

©

по последовательностям со всем возможным числом сегментов.

Согласно МОИЭС на приемной стороне, в процессе синтеза речи, производится оценка реализации последовательности сегментов ® и выбирается наименьшая (11). Оценки наиболее эффективно проводить с использованием алгоритма Витерби, что требует выполнения количества вычислений, выраженных формулой (12).

Cem_=V*N*M2*K, (12)

где У - количество слов в словаре системы, N - число возможных разложений сегментов синтезируемого слова, М - число состояний в СММ синтезируемого слова (количество фонетических единиц слова), К - число кандидатов из базы системы для фонетической единицы.

При этом каждое вычисление (12) представляет расчет стоимости перехода между соседними сегментами (операция вычитания и умножения),

расчет стоимость речевого сегмента в пределах цели Т du(dj,T) (несколько операций сложения, число зависит от количества признаков, которые описывают сегмент) и выбор кандидата для фонетической единицы (несколько операций сравнения, число зависит от количества параметров, которые описывают кандидата). Формула (12) не учитывает технику отсечения, применяемую для уменьшения количества рассматриваемых последовательностей сегментов.

Результатом исследований является разработка МОИЭС на передающей и приемной сторонах, в основу которой заложена система распознавания речи Sphinx4 и система синтеза речи Festival. В рамках МОИЭС была доказана возможность распознавания речи в системе ЭС в реальном масштабе времени, а также произведен расчет объема передаваемых в канал связи данных и времени доставки пакета ЭС. Сделаны выводы о возможности реализации МПРЭС на

существующей элементной базе. Разработанные алгоритмы для МОИЭС дают возможность построения программы на языке Java реализующей практически МПРЭС.

В четвертой главе показаны результаты экспериментальной проверки разработанного на основе предлагаемого МПРЭС программно-аппаратного комплекса. В главе приводятся результаты мониторинга объема передаваемых данных в территориально распределенной сети компании ЗАО «Поликом Про», где производилось внедрение комплекса. На рис. 4 представлен отчет об объеме полученной и отправленной информации за ноябрь 2008 года, построенный в программе Netflow Analyzer, на основе статистических данных с Интернет Контроль Сервера, на сетевом интерфейсе Cisco в направлении города Москва. Делаются выводы о снижении общего объема передаваемой и получаемой по сети информации, за счет перехода пользователей от VoIP телефонии к голосовому общению на базе более экономного способа передачи речи, основанного на предлагаемом методе для системы ЭС (см. таблицу).

Consolidated Report

Router Name : 172.16.0.1 Report Start time : 2008-11-01 00:00

interface Name: IfMSK Report End time : 2008-12-01 00:00

Traffic Graph - Speed

В Traffic IN МЖ. -

□Traffic OUT MM: -

MAX. 10.86 Mbpi MAX'. 1121Mbps

AVG: 1.04 Mbp. AVG: 189.35 Kbpi

95th Par 2.21 Mbps 93th Per: 591.81 Kbpi

Top ten reports ApplvcationlN

sametnjre ,. voij) ^

Traffic % Traffic

116.22 MB 1%.. 418 01 MB 1%-, г

ApplicationOUT lamefitiff,, ,

Traffic % Traffic

147 01 MB-2°6 % v 222.94 MB 4% -

Рис. 4. Объем переданных и полученных данных через московский сетевой интерфейс (ноябрь 2008г.)

Объем вход, и иех. информации в сети ЗАО «Поляком Про» через сетевые интерфейсы

в г. Москва и Челябинск по портам IBM Lotus Sametime и VoIP за три месяца

Сетевой интерфейс Cisco Порт сетевого интерфейса Тип информации Объем данных, Мб

Сентябрь %от всего объема Октябрь % от всего объема Ноябрь %от всего объем а

MSK ЮМ Lotus Sametime вх. 31,19 <1 90,98 1 116,22 1

исх. 40,54 <1 100,11 2 147,01 2

VoIP вх. 1596,01 25 800,53 12 418,01 7

исх. 2001,14 37 501,29 9 222,94 4

CHL IBM Lotus Sametime вх. 5,14 <1 20,13 <1 34,78 1

исх. 2,01 <1 15,95 <1 27,69 1

VoIP вх. 580,66 19 250,36 9 200,61 7

исх. 201,37 9 115,89 4 110,34 4

В результате функционирования внедренного программно-аппаратного комплекса в территориально распределенной сети компании ЗАО «Поликом Про» (Санкт-Петербург, Москва, Челябинск) в течение трех месяцев, было зафиксировано увеличение объема передаваемых и получаемых данных в системе ЭС ШМ Lotus Sametime, по исходящим данным на 2%, а по входящим на 1%. Это свидетельствует об активном использовании комплекса для передаче речи. При этом были получены следующие результаты (общее время голосового общения сотрудников компании за период сентябрь-ноябрь 2008 постепенно возрастало):

• объем входящих голосовых VoIP данных по сетевому интерфейсу московского офиса компании сократился в 3,8 раза, а исходящих в 9 раз;

• объем входящих VoIP данных в ноябре стал составлять 7% от общего объема (против 25% в сентябре), а исходящих 4% (против 37% в сентябре);

• в челябинском офисе компании, объем входящих VoIP данных снизились в 2,9 раза, а исходящих в 2 раза и составляет соответственно 7% и 4% от общего объема.

В заключении перечисляются основные результаты диссертационной работы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИОННОЙ РАБОТЫ

В процессе исследований в диссертационной работе проведены следующие работы и получены основные результаты.

1. Анализ систем экспресс-сообщений, позволивший выявить метод решения проблемы избыточности для существующей технологии передачи речи в IP сети.

2. Предложен метод передачи речи в системе экспресс-сообщений (МПРЭС), основанный на преобразовании речи по словарю, достаточного объема для обмена сообщениями между определенной группой пользователей.

3. Разработана модель обработки информации в системе экспресс-сообщений (МОИЭС), основанная на речевом распознавателе с большим словарем (Sphinx4) и речевом синтезаторе (Festival), использующими лексические единицы размером меньше слова.

4. Проведено вычисление объема передаваемых в канал связи данных для предложенного метода и его сравнение с объемом передаваемых в канал связи данных для используемой в настоящее время технологии VoIP.

5. Доказана возможность работы модели обработки информации в масштабе реального времени на существующей элементной базе.

6. Разработаны алгоритмы функционирования модели обработки информации, создано программное и информационное обеспечение.

7. Произведена экспериментальная проверка разработанного на основе предложенного метода программно-аппаратного комплекса, позволившего в сети компании ЗАО «Поликом Про» на направлении Санкт-Петербург-Москва снизить объем передаваемых голосовых данных с 37 до 6%, (в 9 раз), а получаемых с 25 до 8% (в 3,8 раза) относительно общего объема.

8. Разработана концептуальная модель развития предложенного метода передачи речи, связанная с построением лингвистической модели используемого в системе экспресс-сообщений языка и исследованиями по применению созданного программного и информационного обеспечения для работы на низкоскоростных каналах связи.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Зернов, П.С. Передача мультимедийной информации в системе экспресс сообщений на базе протокола ХМРР / П.С. Зернов II 59-я СНТК: материалы / ГОУВПО СПбГУТ.- СПб, 2005. - С. 27 - 31.

2. Зернов, П.С. Проблемы безопасности алгоритма md5 при аутентификации в системе экспресс сообщений на базе протокола ХМРР / П.С. ЗерновII 59-я СНТК: материалы /ГОУВПО СПбГУТ.-СПб, 2005. -С. 3437.

3. Зернов, П.С. Методы формирования информационного контента для мобильных устройств на базе экспресс сообщений / U.C. Зернов // 58-я НТК: материалы / ГОУВПО СПбГУТ,- СПб, 2006. - С. 27 - 28.

4. Зернов, П.С. Новый принцип формирования текстовых сообщений для системы экспресс сообщений / П.С. Зернов II 60-я СНТК: материалы / ГОУВПО СПбГУТ.- СПб, 2006. - С. 8 - 12.

5. Зернов, П.С. Особенности передачи бинарных данных в системе экспресс сообщений на базе протокола ХМРР / П.С. Зернов И 59-я НТК: материалы / ГОУВПО СПбГУТ.- СПб, 2007. - С. 35 - 36.

6. Зернов, П.С. Подходы к обоснованию математической модели системы экспресс сообщений / Ю.ТБутылъский, П.С. Зернов И 59-я НТК: материалы / ГОУВПО СПбГУТ.- СПб, 2007. - С. 36 - 37.

7. Зерное, П.С. Технология быстрого формирования текстовых сообщений для системы экспресс сообщений / П.С. Зернов И Техника Связи. - 2007. - № 6. -С. 52-55.

8. Зернов, П.С. Математическая модель системы экспресс сообщений с совместной передачей текста и голосовой информации / П.С. Зернов // 60-я НТК: материалы / ГОУВПО СПбГУТ,- СПб, 2008. - С. 34 - 35.

9. Зернов, П.С. Новый подход к передаче речи / П.С. Зернов // Технологии и средства связи. - 2008. - № 2. С. 104 - 105 (из перечня ведущих рецензируемых научных журналов и изданий, рекомендованных ВАК Минобрнауки России).

10. Зернов, П.С. Синтез русской речи в системе экспресс-сообщений. / П.С. Зернов II Технологии и средства связи. - 2008. - № 3. С. 58 - 60 (из перечня ведущих рецензируемых научных журналов и изданий, рекомендованных ВАК Минобрнауки России).

11 .Зернов, П.С. Быстро и просто. / П.С. Зернов II Технологии и средства связи - 2008. - № 4. С. 92 - 94 (из перечня ведущих рецензируемых научных журналов и изданий, рекомендованных ВАК Минобрнауки России).

12. Зернов, П.С. Передача речи в системе экспресс-сообщений. / П.С. Зернов II Технологии и средства связи - 2008. - № 5. С. 82 - 85 (из перечня ведущих рецензируемых научных журналов и изданий, рекомендованных ВАК Минобрнауки России).

13. Зернов, П.С. Математическая модель оценки трафика процесса преобразования голосовых сообщений в системе экспресс-сообщений / П.С. Зернов //61-я НТК: материалы / ГОУВПО СПбГУТ.- СПб, 2009. - С. 57.

Подписано к печати 29.05.2009 Объем 1 печ. л. Тираж 80 экз. Зак. 22 Тип. СПбГУТ. 191186 СПб, наб. р. Мойки, 61

Оглавление автор диссертации — кандидата технических наук Зернов, Павел Сергеевич

Введение.

1. Принципы построения современных систем ЭС.

1.1. Основные понятия систем ЭС.

1.2. Особенности передачи речи на базе систем ЭС в настоящее время.

1.3. Протоколы систем ЭС.

1.3.1. Особенности протоколов SIMPLE и ХМРР.

1.3.2. Базовые принципы протоколов SIMPLE и ХМРР.

1.3.3. Требуемая полоса пропускания для систем ЭС на базе SIMPLE и ХМРР

1.3.4. Безопасность в системах ЭС на базе SIMPLE и ХМРР.

1.3.5. Выявленные преимущества и недостатки протоколов SIMPLE и ХМРР

1.4. Выводы по главе 1.

2. Предлагаемый метод передачи речи на базе ЭС.

2.1. Архитектура системы ЭС.

2.2. Системы распознавания и синтеза речи.

2.2.1. Системы распознавания речи.

2.2.2. Системы синтеза речи.

2.3. Выводы по главе 2.

3. Модели обработки информации в системе ЭС, построенной согласно предлагаемому методу.

3.1. Обработка информации на передающей стороне.

3.1.1. Модель обработки информации на передающей стороне.

3.1.2. Оценка объема передаваемых в канал данных и времени обработки пакета на основе модели обработки информации на передающей стороне

3.1.3. Оценка возможности обработки информации на передающей стороне в реальном масштабе времени.

3.1.4. UML диаграммы МОИЭС на передающей стороне для их реализации на языке программирования.

3.2. Обработка информации на приемной стороне.

3.2.1. Модель обработки информации на приемной стороне.

3.2.2. Оценка возможности обработки информации на принимающей стороне в реальном масштабе времени.

3.3. Выводы по главе 3.

4. Реализация системы ЭС, основанной на распознавании и синтезе речи по словарю.

4.1. Платформа для реализации предложенного метода передачи речи на базе ЭС в компании ЗАО «Поликом Про».

4.2. Архитектура программно-аппаратного комплекса созданного на основе предложенного МПРЭС и реализованного в компании ЗАО «Поликом Про».

4.3. Результаты внедрения системы.

4.4. Выводы по главе 4.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Зернов, Павел Сергеевич

В настоящее время на основе различных технологий, разработан целый ряд услуг обмена информацией. Среди них определенное место занимают системы экспресс-сообщений (ЭС). ЭС являются видом оперативных коммуникационных услуг, позволяющим двум пользователям создавать в сети Интернет сессии обмена информацией на основе текстовых сообщений. В период сессии возможен обмен данными о присутствии пользователя у терминала. В качестве терминалов могут использоваться персональные компьютеры (стационарные, ноутбуки), беспроводные устройства (сотовые телефоны, КПК) или другое интернет - оборудование. Возможны различные комбинации этих устройств.

Система ЭС объединяет в себе два компонента: серверный и клиентский. Клиентский компонент реализуется в виде программного обеспечения, которое может взаимодействовать с серверами ЭС и имеет графический пользовательский интерфейс. Серверный компонент представляет собой программное обеспечение, которое устанавливается на выделенный компьютер сервер, способное обрабатывать запросы пользователей, а также взаимодействовать с аналогичными серверами ЭС.

Архитектура ЭС схожа с архитектурой электронной почты, где клиент отправляет созданное письмо на свой сервер исходящей почты. Отличительной особенностью системы ЭС от электронной почты является то, что почта не может обеспечить взаимодействия пользователей в реальном времени, т.е. не возможен диалог. Кроме того, пользователи не могут обмениваться информацией о своем состоянии, т.е. нет возможности определить, находиться ли оппонент за компьютером или он покинул свое рабочее место.

Пользователи, работающие в системе ЭС, обычно используют единую терминологию. Часто разговоры связаны общими интересами и, как правило, происходят на одном языке. Эта специфика позволяет выявить словарь, который будет присутствовать как на передающей, так и приемной сторонах в системе ЭС. Тем самым, появляется возможность сокращенной передачи информации по словарю.

Ввод информации в системе ЭС связан с ее набором на клавиатуре вычислительного средства. Учитывая факт возможности работы клиентского программного обеспечения даже на таком миниатюрном устройстве как мобильный телефон, возникает потребность в облегчении процедуры создания сообщений. Поэтому появляется мысль об использовании для ввода информации, системы распознавания речи, функционирующей по выявленному словарю и способной преобразовать поступающую речь в последовательности слов, представленные в текстовой форме. Для упрощения восприятия входящей информации, было бы удобно производить ее воспроизведение в виде речевого сигнала посредством системы синтеза речи.

В диссертационной работе рассматривается новая архитектура системы ЭС, построенная согласно предлагаемому методу. Архитектура предполагает преобразование речевой информации на передающей стороне по словарю с помощью системы распознавания речи, передачу в канал связи кода слова из словаря и обратное преобразование кода по словарю на приемной стороне с последующим синтезом слова в речевой сигнал посредством системы синтеза речи. Для предложенной архитектуры системы ЭС оценивается объем передаваемых в канал данных и время доставки пакета ЭС в сети на базе протокола IP. Анализируется возможность функционирования архитектуры в реальном масштабе времени на современной элементной базе. Рассматривается реализация программно-аппаратного комплекса, построенного по предлагаемому методу и приводится информация о его внедрении в компании ЗАО «Поликом Про».

Заключение диссертация на тему "Исследование и разработка метода сжатия речевых данных при передаче экспресс-сообщений по телекоммуникационным каналам"

4.4. Выводы по главе 4.

На основании теоретических данных и расчетов, проведенных в предыдущих главах, была доказана возможность создания комплекса, в основе которого лежит предложенный МПРЭС. Итогом дальнейшей работы является действующая модель программно-аппаратного комплекса, созданная с учетом существующей сетевой инфраструктуры компании ЗАО «Поликом Про», на базе корпоративной платформы IBM Lotus Notes.

Согласно полученным результатам работы комплекса, объем входящих голосовых VoIP данных по сетевому интерфейсу московского офиса компании . упал в 3,8 раза, а исходящих в 9 раз. В результате, объем входящих VoIP данных в ноябре стал составлять 7% от общего объема (против 25% в сентябре), а исходящих 4% (против 37% в сентябре). На менее интенсивном направлении, в челябинском офисе компании, объем входящих VoIP данных снизились в 2,9 раза, а исходящих в 2 раза и на данный момент он составляет соответственно 7% и 4% от общего объема. Вместе с тем, во всех офисах компании, наблюдался незначительный рост (относительно общего объема информации) объема данных передаваемых через систему ЭС IBM Lotus Sametime, что свидетельствует о ее активном использовании. Необходимо отметить, что общее время голосового общения сотрудников компании за период сентябрь-ноябрь 2008 постепенно возрастало, что связано с предновогодней активностью.

Внедрение разработанного программно-аппаратного комплекса в компании ЗАО «Поликом Про», привело к снижению общего объема передаваемой и получаемой по сети информации. Снижение произошло за счет перехода пользователей от VoIP телефонии к голосовому общению на базе более экономного способа передачи речи, основанного на предлагаемом МПРЭС.

Заключение

На базе предложенного в диссертационной работе МПРЭС, была разработана архитектура системы ЭС. Архитектура предполагает преобразование речевой информации на передающей стороне по словарю с помощью системы распознавания речи, передачу в канал связи кода слова из словаря и обратное преобразование кода по словарю на приемной стороне с последующим синтезом слова в речевой сигнал посредством системы синтеза речи [102-106]. Были разработаны МОИЭС на передающей и приемной сторонах, на их основе проведена оценка возможности функционирования архитектуры в реальном масштабе времени и вычислен объем передаваемых в канал связи данных. Разработка UML диаграмм описанных моделями процессов, позволило для платформы IBM Lotus Notes, разработать программный модуль «ru.polikom.lensk». Модуль представляет собой плагин для клиента IBM Lotus Sametime, реализующий функционал по передаче речи на базе системы ЭС.

Разработанная архитектура была внедрена в рамках программно-аппаратного комплекса в компании ЗАО «Поликом Про». Его внедрение привело к снижению общего объема передаваемой и получаемой по сети информации. Снижение произошло за счет перехода пользователей от VoIP телефонии к голосовому общению на базе более экономного способа передачи речи, основанного на предлагаемом МПРЭС.

Созданный программно-аппаратный комплекс, позволяет осуществлять обмен голосовой информацией между сотрудниками компании, не увеличивая пропускную способность каналов, сократив при этом, расходы на покупку дополнительных телефонный линий и сопутствующей дорогостоящей аппаратуры. При этом комплекс представляет собой дополнение существующей в компании ЗАО «Поликом Про» системы ЭС IBM Lotus Sametime, что позволяет, сохранив текущую инфраструктуру сети с минимальными финансовыми и временными затратами, получить дополнительные сервисы. Использование разработки дало большое количество информации для научных исследований связанных с распознаванием и синтезом речи.

Предлагаемый МПРЭС, в основном, ориентирован на системы ЭС, объединяющие большей частью однородный состав пользователей и позволяющие построить словарь обмена информацией. Такой метод актуален и для других приложений, не обязательно связанных с системами ЭС. Подобные системы будут внедряться все шире и шире с развитием аппаратных средств.

Библиография Зернов, Павел Сергеевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. JIe-Бодик Г. Мобильные сообщения. Службы и технологии SMS, EMS и MMS / Г. Ле-Бодик. М.: Техносфера, 2008.

2. Гольдштейн Б. IP-телефония / Б. Гольдштейн, А. Пинчук, А. Суховицкий. -М.: Радио и связь, 2006.

3. Основы передачи голосовых данных по сетям IP / Д. Дэвидсон, Д. Питере, Бхатия М., Калидинди С., Мукхержи С. 2-е изд., М., СПб., Киев.: Вильяме,2007.

4. Зернов, П. С. Быстро и просто. / П. Зернов // Технологии и средства связи2008.-№4.

5. Система экспресс-сообщений ICQ. Электронный ресурс. — Режим доступа: http://www.icq.com, свободный.

6. Система экспресс-сообщений America Instant Messaging. Электронный ресурс. Режим доступа: http://www.aim.com, свободный.

7. Система экспресс-сообщений The Microsoft Network. Электронный ресурс. -Режим доступа: http://download.live.com/?sku=messenger, свободный.

8. Система экспресс-сообщений IBM Lotus Sametime. Электронный ресурс. -Режим доступа: http://www-01.ibm.com/software/lotus/sametime, свободный.

9. Система экспресс-сообщений Yahoo! Электронный ресурс. Режим доступа: http://messenger.yahoo.com, свободный.

10. Система экспресс-сообщений Jabber. Электронный ресурс. Режим доступа: http://www.jabber.org/web/MainPage, свободный.

11. Система экспресс-сообщений Google Talk. Электронный ресурс. Режим доступа: http://www.google.com/talk/intl/ru, свободный.

12. RFC 791: Internet Protocol. Darpa Internet Program Protocol specification. C.: Information Sciences Institute University of Southern California, 1981.

13. Shutko A. OSCAR (ICQ v7/v8/v9) protocol documentation. Электронный ресурс., 2005 Режим доступа: http://iserverd.khstu.ru/oscar/, свободный.

14. Strait М. AIM, OSCAR and Tic/Toc. Электронный ресурс., 2002 Режим доступа: http://gridley.res.carleton.edu/~straitm/final, свободный.

15. Fritzler A. AIM/Oscar Protocol Specification. Электронный ресурс., 2002 -Режим доступа: http://www.oilcan.org/oscar, свободный.

16. MSN Messenger Service 1.0 Protocol. Microsoft, expired IETF Internet Draft. Электронный ресурс., 1999 Режим доступа: http://www.hypothetic.org/docs/msn/ietfdraft.txt, свободный.

17. Venkat. Yahoo Messenger Protocol. Электронный ресурс. — Режим доступа: http://www.venkydude.com/articles/yahoo.htm, свободный.

18. Saint-Andre P. RFC 3920: Extensible Messaging and Presence Protocol (XMPP): Core / P. Saint-Andre. Jabber Software Foundation, 2004.

19. RFC 3428: Session Initiation Protocol (SIP) Extension for Instant Messaging. -Network Working Group, 2002.

20. Postel J. RFC 768: User Datagram Protocol / J. Postel ISI, 1980.

21. RFC 793: Transmission Control Protocol. Darpa Internet Program Protocol specification. — C.: Information Sciences Institute University of Southern California, 1981.

22. RFC 3550: RTP: A Transport Protocol for Real-Time Applications. H. Schulzrinne, S. Casner, R. Frederick, V. Jacobson. Network Working Group, 2003.

23. RFC 3559: RTP: A Transport Protocol for Real-Time Applications. Network Working Group, 2003.

24. Гольдштейн. Б. Протокол SIP. / Б. Гольдштейн, А. Зарубин, В. Саморезов — СПб.: БХВ, 2005.

25. RFC 3261: SIP: Session Initiation Protocol. / J. Rosenberg, H. Schulzrinne, G. Camarillo, A. Johnston, J. Peterson, R. Sparks, M. Handley, E. Schooler. Network Working Group, 2002.

26. RFC 3489: STUN Simple Traversal of User Datagram Protocol (UDP) Through Network Address Translators (NATs) / J. Rosenberg, J. Weinberger, C. Huitema, R. Mahy - Network Working Group, 2003.

27. RFC 3951: Internet Low Bit Rate Codec (iLBC) / S. Andersen, A. Duric, H. Astrom, R. Hagen, W. Kleijn, J. Linden Network Working Group, 2004.

28. RFC 1945: Hypertext Transfer Protocol HTTP/1.0. / T. Berners-Lee, R. Fielding, H. Frystyk. - Network Working Group, 1996.

29. W3C: Extensible Markup Language (XML) 1.0 / T. Bray, J. Paoli, C. Sperberg-McQueen, E. Maler, F. Yergeau. Fifth Edition - W3C Recommendation, 2008.

30. Myers J. RFC 2222: Simple Authentication and Security Layer (SASL) / J. Myers. Network Working Group, 1997.

31. Dierks T. RFC 2246: The TLS Protocol Version 1.0. / T. Dierks, C. Allen. -Network Working Group, 1999.

32. Curtis, F. Enterprise instant messengers make the grade / F. Curtis, Chee В., Heck M. // Info World. 2004.

33. Caton, M. Jabber XCP 5.1 / Caron M. // EWeek. 2006.

34. Hinden R. RFC 3513: Internet Protocol Version 6 (IPv6) Addressing Architecture / R. Hinden, S. Deering. Network Working Group, 2003.

35. Klensin J. RFC 2821: Simple Mail Transfer Protocol / J. Klensin. Network Working Group, 2001.

36. Cerf V. RFC 20: ASCII format fro network interchange / V. Cerf. Network Working Group, 1969.

37. Huang X. Spoken Language Processing: A Guide to Theory, Algorithm and System Development / X. Huang, A. Acero, H. Hon. N.J.: Prentice Hall PTR, 2001.

38. Lindholm T. The Java Virtual Machine specification Second edition / T. Lindholm, F. Yellin. -P.A.: Addison-Wesley, 1999.

39. The Java language specification Third edition / J. Gosling, B. Joy, G. Steele, G. Bracha. -P.A.: Addison-Wesley, 2005.

40. Горыныч, система автоматического распознавания речи. Электронный ресурс. Режим доступа: http://www.rusdoc.ru/material/manual/gor/gor.html, свободный.

41. Vocative Russian ASR Engine. Электронный ресурс. Режим доступа: http://www.vocative.ru, свободный.

42. Sakrament ASR Engine. Электронный ресурс. Режим доступа: http://www.sakrament.com, свободный.

43. Sphinx-4: A Flexible Open Source Framework for Speech Recognition / W.Walker, P. Lamere, P. Kwok, B. Raj, R. Singh, E. Gouvea, P. Wolf, J. Woelfel. -S.C.: Sun Microsystems inc, 2004.

44. Linguistic Data Consortium. Электронный ресурс. Режим доступа: http://www.ldc.upenn.edu, свободный.

45. CMU Sphinx. Электронный ресурс. Режим доступа: http://cmusphinx.sourceforge.net/html/cmusphinx.php, свободный.

46. Lee, К. An overview of the Sphinx speech recognition system / K. Lee, H. Hon, R. Reddy // IEEE Transactions on Acoustics, Speech and Signal Processing. 1990. -vol. 38.-№ 1.

47. Design of the CMU Sphinx-4 decoder / P. Lamere, P. Kwok, W. Walker, E. Gouvea, R. Singh, B. Raj, P. Wolf // Proceedings of the 8th European Conference on Speech Communication and Technology — Geneve, Switzerland, 2003.

48. Kwok, P. A technique for the integration of multiple parallel feature streams in the Sphinx-4 speech recognition system / P. Kwok // Master's Thesis (Sun Labs TR-2003-0341).-2003.

49. Large vocabulary continuous speech recognition using НТК. Acoustics, Speech, and Signal Processing / P. Woodland, J. Odell, V. Valtchev, S. Young // IEEE International Conference on Volume ii, Issue. 1994. - vol. 2.

50. Young S. НТК: Hidden Markov Model Toolkit VI.5 / S. Young, P. Woodland, W. Byrne. W.: Entropic Research Laboratories Inc., 1993.

51. НТК Hidden Markov Model Toolkit / S. Young, J. Jansen, J. Odell, D. Ollason, P. Woodland. - C.: Cambridge University, 1995.

52. Akinobu, L. Julius an Open Source Real-Time Large Vocabulary Recognition Engine / L. Akinobu, K. Tatsuya, K. Shikano // In Proc. European Conference on Speech Communication and Technology. - 2001.

53. Embedded Julius: Continuous Speech Recognition Software for Microprocessor / T. Kawahara, A. Lee, K. Takeda, K. Itou, K. Shikano. // In Proc. International Workshop on Multimedia Signal Processing (MMSP). 2006.

54. Recent Progress of Open-Source LVCSR Engine Julius and Japanese Model Repository / T. Kawahara, A. Lee, K. Takeda, K. Itou, K. Shikano. // In Proc. International Conference on Spoken Language Processing 2004.

55. Performances analyze for Sphinx4. Электронный ресурс. Режим доступа: http://cmusphinx.sourceforge.net/sphinx4/#sphinxjproperties, свободный.

56. Davis, S. Comparison of parametric representations for monosyllable word recognition in continuously spoken sentences / S. Davis, P. Mermelstein // IEEE Transactions on Acoustic, Speech and Signal Processing. 1980. - vol. 28. - № 4.

57. Hermansky H. Perceptual linear predictive (PLP) analysis of speech / H. Hermansky // Journal of the Acoustical Society of America. 1990. - vol. 87. — № 4.

58. Java speech API grammar format (JSGF). Электронный ресурс. Режим доступа: http://java.sun.com/products/java-media/speech/forDevelopers/JSGF, свободный.

59. Mohri М. Finite-state transducers in language and speech processing / M. Mohri // Computational Linguistics. 1997. — vol. 23. - № 2.

60. Clarkson, P. Statistical language modeling using the CMU-cambridge toolkit / P. Clarkson, R. Rosenfeld // Proceedings of the 5th European Conference on Speech Communication and Technology Rhodes. Greece, 1997.

61. Walker W. FreeTTS A Performance Case Study / W. Walker, P. Lamere, P. Kwok. - P.A.: Sun Microsystems. - 2002.

62. Schroder M. The German text-to-speech synthesis system MARY: A tool for research, development and teaching / M. Schroder, J. Trouvain // International Journal of Speech Technology. 2006. - vol. 14. - № 4.

63. Black, A. Building Voices in the Festival Speech Synthesis System / A. Black, K. Lenzo//DRAFT-2000.

64. Taylor, P. The architecture of the Festival Speech Synthesis System / P. Taylor, A. Black, R. Caley // 3rd ESCA Workshop on Speech Synthesis Jenolan Caves, Australia - 1998.

65. Black, A. Festival Speech Synthesis System: system documentation (1.1.1) / A. Black, P. Taylor. // Human Communication Research Centre Technical Report HCRC/TR-83. 1997.

66. Festival multisyn voices for the 2007 blizzard challenge / K. Richmond, V. Strom, R .Clark, J. Yamagishi, S. Fitt. // In Proc. Blizzard Challenge Workshop (in Proc. SSW6) Bonn, Germany. - 2007.

67. Multisyn: Open-domain unit selection for the Festival speech synthesis system / A. Robert, J. Clark, K. Richmond, S. King. // Speech Communication. 2007. - № 4.

68. Robert, A. Festival 2 build your own general purpose unit selection speech synthesizer / A. Robert, J. Clark, K. Richmond, S. King // In Proc. 5th ISCA workshop on speech synthesis. — 2004.

69. Edinburgh Speech Tools Library / S. King, A. Black, P. Taylor, R. Caley, R. Clark. E.: Centre for Speech Technology, University of Edinburgh, 1994-2004.

70. Carrett G. The Scheme interpreter (SIOD ~ Scheme In One Defun 3.0) / G. Carrett. -C.: Paradigm associates incorporated, 1988-1994.

71. Шмырёв, H. Свободные речевые базы данных Voxforge.org, / Н. Шмырёв // НИИСИ РАН. М.: Диалог. - 2008. (доступно по http://festlang.berlios.de/docu/doku.php?id=russianru)

72. Рабинер, J1. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: обзор / JI. Рабинер // ТИИЭР. 1989. - т. 77. - № 2.

73. Tokhura, Y. A weighted cepstral distance measure for speech recognition / Y. Tokhura // IEEE Trans. Acoust. Speech Signal Processing. 1987. - vol. ASSP-35. -№ 10.

74. Juang, H. On the use of bandpass liftering in speech recognition / H. Juang, L. Rabiner, J. Wilpon // IEEE Trans. Acoust. Speech Signal Processing. 1987. - vol.1. ASSP-35.-№7.

75. Furui, S. Speaker independent isolated word recognition based on dynamics emphasized cepstrum/ S. Furui // Trans. IECE of Japan. 1986. - vol. 69. - № 12.

76. Soong, F. On the use of instantaneous and transitional spectral information in speaker recognition / F. Soong, A. Rosenberg // In Proc. ICASSP '86 Tokyo, Japan - 1986.

77. Макхоул, Дж. Векторное квантование при кодировании речи / Макхоул Дж., Рукос С, Гиш Г. // ТИИЭР. 1985. - т. 73. - №11.

78. Josefsson S. RFC 3548: The Basel6, Base32, and Base64 Data Encodings / S. Josefsson. Ed., 2003.

79. Yergeau F. RFC 2279: UTF-8, a transformation format of ISO 10646 / F. Yergeau. Alis Technologies, 1998.

80. The Unicode Standard, Version 5.0. The Unicode Consortium. Addison-Wesley Professional, 5th edition, 2006.

81. Hoffman P. RFC 2781: UTF-16, an encoding of ISO 10646 / P. Hoffman, F. Yergeau Internet Mail Consortium, Alis Technologies. 2000.

82. Шаров С. Частотный словарь Электронный ресурс. / С. Шаров. Режим доступа: http://www.artint.ru/projects/frqlist.asp, свободный.

83. Аграев В. Частотный словарь русского языка / В. Аграев, В. Бородин, Л. Засорин. М.: Русский язык, 1977.

84. Введенская Л. Культура и искусство речи / Л. Введенская, Г. Павлова. Ростов-на-Дону.: Феникс, 1996.

85. Зернов, П. Новый подход к передаче речи / П. Зернов // Технологии и средства связи. 2008. - № 2.

86. G.114: One-way transmission time. ITU-T. telecommunication standardization sector of ITU, 2003.

87. Филимонов А. Построение мультисервисных сетей Ethernet / А. Филимонов. СПб.: БХВ, 2007.

88. Зернов, П.С. Передача речи в системе экспресс-сообщений. / П.С. 'Зернов // Технологии и средства связи 2008. — № 5.

89. Speech Silicon: An FPGA Architecture for Real-Time Hidden Markov-Model-Based Speech Recognition / J. Schuster, K. Gupta, R. Hoare, A. Jones. // EURASIP Journal on Embedded Systems. 2006. - vol. 2006. - Art. ID 48085.

90. Lai, С. Performance analysis of speech recognition software / C. Lai, S. Lu, Q. Zhao. // In Proceedings of the 5th Workshop on Computer Architecture Evaluation Using Commercial Workloads. Cambridge, 2002.

91. Nouza, J. Feature selection methods for hidden Markov model-based speech recognition / J. Nouza // In Proceedings of the 13th International Conference on Pattern Recognition. — Vienna, 1996.

92. Dongarra, J. Performance of Various Computers Using Standard Linear Equations Software / J. Dongarra // University of Manchester. -2009.

93. Linpack User's Guide / J. Dongarra, J. Bunch, C. Moler, G. Stewart. SIAM, Philadelphia, 1979.

94. Открытое хеширование. Теория. Электронный ресурс. Режим доступа: http://algolist.manual.ru/ds/shas.php, свободный.

95. The Java Developer's Guides to Eclipse, Second Edition. / J. D'Anjou, S. Fairbrother, D. Kehn, J. Kellerman, P. MvCarthy. В.: Addison-Wesley, 2005.

96. SWT/JFace in action / M. Scarpino, S. Holder, S. Ng, L. Mihalkovic. -MANNING, 2005.

97. Gutz S. Up to speed with Swing, Second Edition / S. Gutz. MANNING, 2000.

98. RFC 1157: A Simple Network Management Protocol (SNMP) / J. Case, M. Fedor, M. Schoffstall, J. Davin. Network Working Group, 1990.

99. Claise B. RFC 3954: Cisco Systems NetFlow Services Export Version 9 / D. Claise. Network Working Group, 2004.

100. Зернов, П.С. Новый принцип формирования текстовых сообщений для системы экспресс сообщений / П.С. Зернов // 60-я СНТК: материалы / ГОУВПО СПбГУТ. СПб, 2006.

101. Зернов, П.С. Особенности передачи бинарных данных в системе экспресс сообщений на базе протокола ХМРР /П.С. Зернов // 59-я НТК: материалы / ГОУВПО СПбГУТ. СПб, 2007.

102. Зернов, П.С. Подходы к обоснованию математической модели системы экспресс сообщений / Ю.Т Бутыльский, П.С. Зернов // 59-я НТК: материалы / ГОУВПО СПбГУТ. СПб, 2007.

103. Зернов, П.С. Технология быстрого формирования текстовых сообщений для системы экспресс сообщений / П.С. Зернов // Техника Связи. 2007. - № 6.

104. Зернов, П.С. Синтез русской речи в системе экспресс-сообщений. / П.С. Зернов // Технологии и средства связи. 2008. - № 3.