автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.05, диссертация на тему:Специализированное вычислительное устройство фонемной классификации речевых сигналов в реальном времени
Автореферат диссертации по теме "Специализированное вычислительное устройство фонемной классификации речевых сигналов в реальном времени"
На правах рукописи
БЕЛИКОВ Иван Юрьевич
СПЕЦИАЛИЗИРОВАННОЕ ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ФОНЕМНОЙ КЛАССИФИКАЦИИ РЕЧЕВЫХ СИГНАЛОВ В РЕАЛЬНОМ ВРЕМЕНИ
Специальность 05.13.05 Элементы и устройства вычислительной техники и систем управления
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
1 з июн гт
Новочеркасск — 2013
005061515
Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Южно-Российский государственный технический университет (Новочеркасский политехнический институт)»
Научный руководитель: доктор технических наук, профессор
Ковалев Олег Федорович
Официальные оппоненты: Гузик Вячеслав Филиппович,
доктор технических наук, профессор, ФГАОУ ВПО «Южный федеральный университет», заведующий кафедрой «Вычислительная техника»
Гавриков Михаил Михайлович,
кандидат технических наук, доцент, ФГБОУ ВПО «Южно-Российский государственный технический университет (Новочеркасский политехнический институт)», доцент кафедры «Программное обеспечение вычислительной техники»
Ведущая организация: ФГБОУ ВПО «Донской государственный технический университет» (г. Ростов-на-Дону)
Защита диссертации состоится 21 июня 2013 г. в 10 часов на заседании диссертационного совета Д 212.304.02 в ФГБОУ ВПО «Южно-Российский государственный технический университет (Новочеркасский политехнический институт)» по адресу: 346428, Ростовская обл., г. Новочеркасск , ул. Просвещения, 132.
С диссертацией можно ознакомиться в Научно-технической библиотеке «Южно-Российского государственного технического университета (Новочеркасского политехнического института)». Автореферат диссертации размещен на официальном сайте ВАК vak.ed.gov.ru и на сайте ФГБОУ ВПО ЮРГТУ (НПИ) \vww.npi-tu.ru.
Автореферат разослан 16 мая 2013 г.
Ученый секретарь диссертационного Совета кандидат технических наук, профессор
А.Н. Иванченко
Общая характеристика работы
Актуальность темы. В настоящее время активно развиваются информационные системы на основе устройств автоматического анализа речевых сигналов в реальном времени. Одним из эффективных инструментов в развитии информационных систем является использование естественной речи человека при реализации систем голосового управления техническими устройствами и систем преобразования речи в текст. За последние десятилетия исследований были достигнуты определенные успехи в этой области, однако задача в целом все еще далека от своего решения. Существующие на данный момент устройства не имеют возможности для широкого применения, так как работают в режиме классификации небольшого количества отдельных команд. Значительные временные затраты на выполнение процедуры обработки сигнала и его классификации не позволяют применять их в системах реального времени. Также существуют трудности описания фонемных параметров речи из-за сложного процесса речеобразования. Большинство известных коммерческих продуктов с аппаратной реализацией являются дорогостоящими и узкоспециализированными. Для эффективного решения представленных проблем необходим широкий спектр методов и алгоритмов, различающихся по объёму вычислений, качеству получаемых результатов, количеству используемых ресурсов, способам представления данных. Перспективным вариантом развития анализа естественной речи являются системы с фонемным анализом звуков и их последующей интерпретацией. Следует учесть, что в настоящий момент на мировом рынке получили широкое распространение программируемые логические интегральные схемы (ПЛИС), потенциально подходящие для реализации подобных систем. Вышеизложенные обстоятельства позволяют отметить актуальность научно-технического решения, которое заключается в разработке специализированного вычислительного устройства, ориентированного на увеличение эффективности классификации речи на аппаратном уровне. В диссертации рассматриваются теоретические и практические аспекты разработки специализированного вычислительного устройства фонемной классификации речевых сигналов. Диссертационная работа выполнена в соответствии с НИР по заказу №325 (отчет №140/НИР/1 от 16.01.2013) Федерального государственного унитарного предприятия «Ростовский-на-Дону научно-исследовательский институт радиосвязи»; приоритетным направлением развития науки, технологий и техники РФ «Информационно-телекоммуникационные системы» (утверждено указом Президента РФ №899 от 7 июля 2011 г.); научным направлением ЮРГТУ (НПИ) «Теория, принципы и технологии построения информационно-вычислительных и измерительных систем» (утверждено решением ученого совета университета от 20.09.11 г.).
Объект исследования. Элементы и устройства цифровой обработки сигналов, методы и алгоритмы классификации непрерывной речи, методы параллельных вычислений.
Целью диссертационной работы является повышение эффективности существующих методов и алгоритмов для классификации речевых сигналов и их реализация в виде специализированного вычислительного устройства фонемного анализа речи в реальном времени.
Для достижения поставленной цели в работе решаются следующие задачи: - Анализ современных методов и устройств классификации речи;
- Анализ фонемной модели речевого сигнала;
- Разработка метода частотно-временного анализа речевого сигнала в реальном времени на аппаратном уровне;
- Разработка инвариантного метода классификации речевого сигнала;
- Экспериментальное исследование и практическая реализация предложенных методов и алгоритма в виде специализированного устройства на базе программируемых интегральных схем.
Основные положения, выносимые на защиту:
1. Алгоритм частотно-временного анализа речевого сигнала на основе материнской функции Хаара, повышающий эффективность вычисления вейвлет-коэффициентов.
2. Метод аппаратной реализации частотно-временного анализа на основе сигма-дельта модуляции речевого сигнала, позволяющий улучшить технические характеристики специализированного вычислительного устройства.
3. Метод фонемной классификации речевых сигналов на фонемные группы на основе бинарного дерева решений с последующим определением фонемы с использованием аппарата нечеткой логики, позволяющий выполнять инвариантную классификацию фонем.
4. Специализированное вычислительное устройство фонемной классификации речи на основе программируемых логических интегральных схем, позволяющее выполнять фонемную классификацию в режиме реального времени.
Научная новизна:
- Предложен новый алгоритм вычисления вейвлет-коэффициентов на основе материнской функции Хаара, отличающийся от существующих тем, что использует целочисленные операции и рекурсивную форму вычислений, что позволяет повысить эффективность работы специализированного вычислительного устройства за счет существенного сокращения выполняемых арифметических операций;
- Предложен метод аппаратной реализации частотно-временного анализа речи на основе сигма-дельта модуляции, отличающийся от существующих тем, что позволяет выполнять вейвлет-анализ на основе однобитового потока с предельной частотой вдвое меньшей частоты работы сигма-дельта модулятора;
- Предложен метод фонемной классификации речи на основе бинарного дерева решений, который отличается от существующего тем, что использует инвариантную относительно оператора классификацию фонемы к одной из пяти фонемных групп и позволяет улучшить эксплуатационные характеристики устройства;
- Предложен принцип аппаратной реализации специализированного вычислительного устройства фонемной классификации речи, который отличается использованием разработанных методов и позволяет повысить качественные и эксплуатационные показатели подобного рода устройств.
Практическая ценность:
1. Предложен алгоритм частотно-временного анализа на основе функции Хаара, который позволяет сократить время на вычисление вейвлет-коэффициентов в исследуемом окне более чем в 5 раз по сравнению с традиционным.
2. Предложен метод аппаратной реализации вейвлет-анализа с использованием сигма-дельта модуляции речевого сигнала, который позволяет вычислять вейвлет-коэффициенты в реальном времени и сократить объём используемых ресурсов в 4.8 раз по сравнению с традиционным (Патент РФ №121616).
3. Предложен метод фонемной классификации на основе усовершенствованного бинарного дерева, который позволяет улучшить эксплуатационные характеристики устройства за счет инвариантной фонемной классификации на отдельные группы, с последующим определением фонемы с использованием аппарата нечеткой логики. Точность фонемной классификации достигает 84 %.
4. Разработано специализированное вычислительное устройство фонемной классификации речи, которое за счет существенного сокращения используемых ресурсов, возможно реализовать на множестве широко распространенных кристаллов программируемых логических интегральных схем, что подчеркивает экономическую эффективность его реализации.
5. Разработано специализированное вычислительное устройство фонемной классификации, которое используется в качестве интерфейса фонемного анализа речи в реальном времени, а так же может являться элементом стандартного интерфейса ПК и использоваться для расширения его функциональных возможностей по предварительной обработке речевых сигналов, снижая нагрузку на центральный процессор и повышая эффективность работы программного обеспечения.
Методы исследования. При выполнении данной работы использовались методы цифровой обработки сигналов, теории алгоритмов и численных методов, общей фонетики, методы проектирования элементов и устройств, методы математического моделирования, объектно-ориентированного программирования. Проводились исследования на модельных и реальных сигналах.
Достоверность научных результатов и выводов подтверждается корректным применением метода частотно-временного анализа речевых сигналов; применением фундаментальной теории речеобразования; подтверждением теоретических положений результатами экспериментов; критическим обсуждением полученных результатов на Всероссийских и международных научных конференциях и внедрением разработанного устройства; основные положения работы хорошо согласуются с опубликованными материалами других авторов.
Апробация работы. Результаты работы обсуждались на: ежегодных конференциях профессорско-преподавательского состава, научных работников, аспирантов и студентов ЮРГТУ(НПИ) (Новочеркасск, 2010-2011 гг.); Всероссийской научной школе «Микроэлектронные информационно-управляющие системы и комплексы» (Новочеркасск, 2011 г.); Международной научно-практической конференции «Микропроцессорные, аналоговые и цифровые системы: проектирование и схемотехника, теория и вопросы применения» (Новочеркасск, 2011-2012 гг.); Всероссийском ежегодном конкурсе научно-исследовательских работ студентов, аспирантов и молодых ученых «ЭВРИКА» (Новочеркасск, 2011-2012 гг.); Международной научно-практической конференции «Информационные технологии. Радиоэлектроника. Телекоммуникации » (Тольятти, 2012 г.); Всероссийской научной конференции молодых ученых, аспирантов и студентов «ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА, РАДИОЭЛЕКТРОНИКА И СИСТЕМЫ» (Таганрог,2012 г.); Международной молодежной конференции «Академические фундаментальные исследования молодых ученых России и Германии в условиях глобального мира и новой культуры научных публикаций» (Новочеркасск, 2012 г.); Международной научно-практической конференции «МОДЕЛИРОВАНИЕ. ТЕОРИЯ, МЕТОДЫ И СРЕДСТВА» (Новочеркасск, 2013 г.).
Публикации. По теме диссертации опубликовано 25 печатных работ, в том числе: 5 статей в ведущих рецензируемых изданиях, рекомендованных ВАК РФ; 14
статей опубликованных по результатам научно-практических конференций; 5 свидетельств о государственной регистрации программы для ПЭВМ; 1 патент РФ на полезную модель.
Внедрение. Результаты работы внедрены в ОАО «Мобильные ТелеСистемы» и в ФГУГТ «Ростовский-на-Дону научно-исследовательский институт радиосвязи» г. Ростов-на-Дону, а так же в учебном процессе при выполнении научных исследований и выпускных квалификационных работ студентов и магистров ЮжноРоссийского государственного технического университета.
Структура работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 108 наименований, содержит 11 таблиц, 47 рисунков, и 10 приложений на 29 листах. Общий объём диссертации составляет 159 страниц.
Содержание работы
Во введении приводится обоснование актуальности работы, определяются цели и задачи исследования, научная новизна полученных результатов и их теоретическая и практическая значимость, формулируются положения, выносимые на защиту, приводятся основные характеристики работы.
В первой главе «Анализ современных методов и систем классификации речевых сигналов» представлен анализ существующих методов и систем классификации речевых сигналов, уделено внимание физиологическим особенностям формирования речи, методам спектрального анализа речевых сигналов и методам классификации речевых признаков. Формирование звуков представляет собой сложный динамический процесс, характеризующийся изменяющимся спектром сигнала. Основной задачей фонемного анализа является выделение информативных признаков фонем. В качестве инструмента анализа используется непрерывное вейвлет-преобразование, которое позволяет выполнять анализ речевых сигналов с высокой точностью по частоте и хорошей локализацией во времени
ТУ (а, Ь) - ^(0, у(а, Ь,1))= ¡¡(Оу/(а,Ь, г) А , где
а,ЬеЯ, где Я действительная ось значений, у(а,Ь,1)~ масштабированные и сдвинутые во времени материнские функции вейвлета. Анализ современного состояния речевых технологий показал, что точность аппаратных систем классификации речи составляет 80 %. Точность программных систем находится на уровне 94 %. Однако, программные средства пригодны для классификации команд и не применяются в системах реального времени. Предлагается разработать специализированное устройство, выполняющее фонемный анализ речи в реальном времени. Устройство предлагается использовать в качестве интерфейса для множества прикладных задач в области вычислительной техники и систем управления (рис.1). Анализ полученных фонемных символов является отдельной научной задачей и не решается в данной работе.
оператор системы
Смысл
Звуки
Речь
Эфир
-на
Специализированное вычислительное устройство на основе ПЛИС (реальное время работы)
Электрический сигнал
Фонемы
Прикладной уровень в системе
} Управления техническими устройствами | Интерактивного ввода речевой информации
Преобразования речи в текст
| Поиска фразы в потоке непрерывной речи | Управления робототехникой
Рис.1. Область применения устройства
Вторая глава «Частотно-временной анализ речевых сигналов» посвящена применению вейвлет-преобразования в практических задачах анализа речевых сигналов. Обоснован выбор материнской функции Хаара для реализации целевого устройства. Совокупность коэффициентов вейвлет-преобразования в каждый момент времени определяет частотно-временные особенности, порождаемые речевым трактом человека. Для анализа речевого сигнала используется непрерывно-дискретное вейвлет-преобразование. Материнскую функцию предлагается нормировать для реализации вычислений в базисе целочисленных операций. Предлагается центральную часть каждой из масштабированных функций расположить в нулевой точке отсчета, г =0. Выражение для функции имеет вид:
1, -1<г<0,
-1. 0<г<1, (1)
О, иначе.
Для вычисления коэффициентов вейвлет-преобразования в рассматриваемом случае требуются только операции целочисленного сложения и вычитания. Расчет
на следующем временном шаге схематично можно представить сдвигом вправо на один
ЧЧа.Ь) 1
-Ь -Ь+1 -3-2-1 0 1 2 3 Ь-1 Ь Ь+1 Рис. 2. Уровни вейвлет-преобразования
отсчет положения вейвлет-функций (обозначены пунктиром на рис. 2). Очевидно, что для областей, показанных штриховкой, перерасчет не требуется, и суммарные значения интеграла свертки для них могут быть использованы из предыдущего шага. Следовательно, коррекция коэффициентов вейвлет-преобразования может быть выполнена только для граничных и центральных отсчетов для каждого из уровней преобразования. Данный подход позволяет существенно сократить количество вычислительных операций. Формула расчета коэффициента вейвлет-преобразования для уровня а будет иметь вид:
ЦГ(а,Ь) = Ща,Ь-1) - - + Ь), (2)
где ]У(а,Ь),1У(а,Ь-1)- значение коэффициента вейвлет-преобразования на расчетном и предыдущем шаге времени соответственно, у/^+Ь)- значение функции Хаара на данном отсчете сигнала, г- положение центральной части материнской функции.
Результатом вейвлет - преобразования является двумерный массив коэффициентов преобразования, одна из размерностей соответствует частотным уровням преобразования, вторая - последовательности временных отсчетов. Предлагаемый алгоритм вычисления вейвлет-коэффициентов показан на рис. 3. Исходя из анализа формы строения основного частотно-избирательного сенсора человеческо-
^ Начало ^
Ввод данных: ,.пк), к, йт
/ обработка —^ /г-отсчетов у-
Вычисление: В(1)=В!П)+Ы(т-0-ЫШП:
Сдвиг центральной части: ¡=т+1.1=1
< Обработка /(-отсчетов У-Ы+1; ¡<к: /
Вычисление
п+гыт-ып+п:
Сдвиг центральной части: ¡=т+1. ¡=1 I -
Нормализация коэффициентов: Ш.Ш^ЗПУвт:
^ Конец ^^
Рис. 3. Предлагаемый алгоритм вычисления вейвлет-коэффициентов
го уха - базилярной мембраны предложено использовать 24 уровня спектрального анализа вейвлет-преобразования. Исходя из предположения о том, что преобладающими являются полезные частотные компоненты сигнала, в качестве основной информации для фонемного анализа выделяются экстремумы в массиве коэффициен-
Аналоговый вход
СДМ
Г
Вейвлет-коэффициент 1
Вейвлет-коэффициент 2"
Вейвлет-коэффициент N"
1 бит
Сумматор
Первый частотный _уровень
Второй частотный __уровень
Упакованный битовый поток
1
Сдвиговый регистр
N-ый частотный _уровень
ПЛИС
тов вейвлет-преобразования. Исходя из максимальной длительности низкочастотных компонент речевой информации, предлагается установить фиксированный размер временного окна для фонемного анализа, равный 30 мс. Входные данные для классификации, в виде фонемного признака, формируются путем
Рис.4. Структурно-функциональная схема анализа
суммирования всех экстремумов на каждом из частотных уровней. Представленный алгоритм вейвлет-преобразования на основе функции Хаара сокращает время вычисления спектра сигнала в окне на основе математического пакета ЯсИаЬ более чем в 5 раз по сравнению с исходным вариантом. Структурно-функциональная схема метода аппаратной реализации частотно-временного анализа на основе сигма-дельта модуляции входного речевого сигнала показана на рис. 4. Сигма-дельта модулятор (СДМ) представляет сигнал в виде однобитового потока непосредственно используемого вычислительным устройством. Метод позволяет вычислять коэффициенты вейвлет-преобразования в режиме реального времени и уменьшить количество используемых логических ячеек в 4.8 раз по сравнению с исходным вариантом. Временем работы сумматора устанавливается время фильтрации данных сигма-дельта модулятора. При установке времени работы сумматора, равного периоду сигма-дельта модулятора, максимальная частота вейвлет-преобразования будет соответствовать половине частоты работы СДМ (Патент РФ №121616).
Третья глава «Фонемная модель русского языка и метод фонемной классификации» посвящена фонемной модели речевого сигнала и методам классификации речевых образов. Фонема представляет собой условно неделимую единицу речи. Обозначим через Т наблюдаемый речевой сигнал, тогда модель имеет вид:
Т=/(к,У/,<1) + 11, (3)
где к - искомая фонема, кв(\..26); \У- фонемный признак, числовые значения которого определяются по спектру сигнала; /(к,ТУ,О)- функция, устанавливающая детерминированную зависимость эталонных фонем от искомых; <1 - индивидуальные особенности оператора; Я - влияние окружающей среды (шум, помехи). Параметрами ¿ий можно объяснить все разнообразие речевых сигналов. В сигнале в один и тот промежуток времени может находиться несколько трудноразличимых фонем.
Русский язык характеризуют основные 26 фонем, из них 6 фонем гласных: {а, и, о, у, ы, э}; 20 фонем согласных: {б, в, г, д, ж, з, к, л, м, н, п, р, с, т, ф, х, ц,
Д7; I ! дг, ' ! дт. !
Рис. 5. Фонемная структура речевого сигнала
ч, ш, щ}. В речевом сигнале предлагается выделять участки двух видов: квазистационарные и переходные. Квазистационарные участки соотносятся к области нахождения фонемных образов с большей вероятностью, а переходные - те участки, на которых могут присутствовать несколько фонем с равной степенью вероятности. Предлагается фонемная структура речевого сигнала, представленная на рис. 5. В качестве единиц структуры используется фонемный элемент, имеющий семантическое обозначение КГп, где яе(1Д)Д- количество различных звуков речевого сигнала. Элементы структуры А7;,АГ3,Д7; соответствуют полезному сигналу - некоторым фонемам. Элемент ДГ2 может быть шумом или отсутствием сигнала. Внутренние фонемные переходы /> ,Р2 характеризуют неустойчивое состояние фонемы на данном участке структуры. Участок К является квазистационарным. Учитывая что АГ1 = р' лК1 'Р1< Д72=0' ДЗ", = />,3 . К} . Ръ2, АТ„ = Р" • Кп*Р2", указанную на рис.5 фонемную структуру сигнала можно представить с помощью операции конкатенации:
Т = А^ • &Т2 • Д7"3 •... • АТп . (4)
После анализа существующих фонемных признаков русского языка, представленных на рис. 6, и бинарного дерева разделения фонем по артикуляционным признакам была предложена структура бинарного дерева, разделяющая фонемы на фо-
Предложенная структура позволила выделить 5 инвариантных от оператора фонемных групп. Для каждой из фонем были получены параметры на основе анализа формантной структуры и частотных областей спектра. В качестве меры соответствия фонемного признака к искомой фонеме предлагается использовать степень принадлежности треугольной функции:
. Ь-х .,
1--,а<х<Ь
Ь-а
хЛ±*<х<с, (5)
с-Ь 0,иначе
где х- значение фонемного параметра, Ь- значение, указывающее на максимальную степень принадлежности, а,с - граничные значения фонемного параметра. Для голосовых фонем на основе отношений формантных частот параметры имеют вид:
1 (6)
г0 М
где /■"„- частота основного тона, - первая формантная частота, Г2- вторая формантная частота. Степень принадлежности каждой из фонем, с учетом (5) определяется выражением:
я=е(*,)+е(*2) <7)
Для остальных фонемных групп, кроме сонорных, параметры рассчитывались по отношению частотных областей. В результате анализа таблицы фонемных признаков (рис. 6) были получены признаки инвариантной классификации на фонемные группы на основе бинарного дерева решений. Классификация внутри фонемных групп на основе треугольной функции принадлежности происходит с учетом спектральных признаков фонем русского языка. В зависимости от качества фонемной классификации может быть произведена дополнительная настройка на определенного оператора.
Фонемный признак
Глухие
|-8-1 К[Ц> 1-0.1 К1 141--|
Шипящие 8л 6 кГц > 1-05 кГц | нет Не шипящие Не шумные Да| 1 5.1 кГц 1-0 7 кГц | «<"" Шумные
Ж,3,б,Д,Г,В I
^Голосовые 1ч)7кГц> р.фр.^-р^-С°"°РНЬ*
Га'оУ; [мГнТл^и.уГы]
Рис. 7. Бинарное дерево классификации фонем В данной главе подробно описаны признаки всех фонемных групп, а так же приведен один из этапов разработки специализированного вычислительного устройства - программная реализация фонемной модели (внедрено в ФГУП «Ростовский-на-Дону научно-исследовательский институт радиосвязи» г. Ростов-на-Дону).
Четвертая глава «Разработка специализированного вычислительного устройства фонемного анализа речи» посвящена разработке специализированного вычислительного устройства фонемной классификации на основе цифровой логики и экспериментальной проверке его работоспособности. Предлагаемые методы и алгоритм в диссертационной работе являются основой для создания элементов цифрового устройства, реализованных с помощью языка описания электронных схем УИБЬ. Разработана структурно-функциональная схема, которая показана на рис.8. АЦП и УВИ представляют собой дополнительные периферийные устройства. Все остальные элементы предлагается реализовать внутри кристалла ПЛИС.
CLOCK_5QO
60MNZ
CLOCK CLOCK_50C END DATA| 23.0)
CLOCK
I2C_DATA[23..Q| GO
RESET
Kt-огГ
"OC/TRlT
AS28
driver
MCLK50 С
ADCDAT 0iscr|7 0| BCUi
ADCDLRK ampi|l5-.0] pushKEY
clk50
MCLK
IN DATA) 7, 0| EN DATA
hex7|6 oj" hEX6|S 0| h EX5[6 0|
.output
OUTPUT
-алeuL ■OUPuT
HEX4|r> OJ
hi x3|6 0| hfcx2(6 0|
H HXtJjÊ 0| L£OG|7 0)
KtYON
КС VON
Out rit .
шил:
key xey I
сюск counte<13 OJ
traismi
KEYON
IW?
mm
АЦП
I
Буфер
I I J 1ЯЖ |11
Блок ВВК
Блок ПУБД
Блок ВПК
Блок ИКС
Блок ФК
Блок ФФПС
УВИ
Рис.8. Структурно-функциональная схема устройства: MB - микрофонный вход; ЛВ - линейный вход; АЦП - аналого-цифровой преобразователь; ВВК - вычисления вейвлет-коэффициентов; ПУБД - проверки условий бинарного дерева; ВПК - вычисления параметров классификации; ИКС - нормализации коэффициентов спектра; ФК - фонемной классификации; ФФПС - формирования фонемной последовательности символов; УВИ - устройства вывода информации
Разработанная диаграмма процессов устройства, указанная на рисунке 9, позволяет выполнять классификацию фонем за 13 тактов времени. Диаграмма включает в себя 16 процессов: S1 - счетчик сигма-дельта АЦП; S2 - процесс вычисления коэффициентов вейвлет-преобразования Хаара; S3 - процесс сдвига буфера отсчетов сигнала; S4 - процесс нормализации вейвлет-коэффициентов; S5 - счетчик сдвига временного окна; S6 - сдвиг
регистров для поиска экс- m ——sj—^sïs)
тремумов спектра; S7 - про- —-----------Гл. L\
цесс поиска экстремумов в ^^^ tioV~n\
столбце матрицы вейвлет- 13 14 №/^ЛР и хЗ ]
коэффициентов; S8 - про- 'v^'T^^ цесс поиска экстремумов в TssV-S—_
строке матрицы вейвлет- .....——-
коэффициентов; S9 - процесс усреднения экстрему- Рис. 9. Диаграмма процессов
мов; S10 - процесс вычисления фонемных признаков; S11 - процесс вычисления параметров классификации; S12 - процесс определения фонемной группы; S13 - процесс вывода на семисегментные индикаторы; S14 - процесс фонемного анализа; SI5 - процесс вывода кода фонемного символа; S16 - счетчик вывода кода символа по последовательному интерфейсу. На основе представленных данных была реализована схема специализированного вычислительного устройства фонемной классификации (рис. 10).
SS7j6 0| SS6IS..01 SS5[6 .01 SSd[6. 0| SS3I6..01 SS2|6. 0] SSOjS 0J OUTDA1AG|7 0]
pSR232tlk DATAra2344..01
EnRS2320Jt 5S1I6..01
in-.^i.
Рис. 10. Схема специализированного вычислительного устройства
1Л_60 M
ix_scm end АСК
¡0_с01штея;5 oj
SDO
Общее количество параллельных операций выполненных за интервал времени г, -г,з составляет более двух тысяч. Предлагаемое устройство состоит из 6 основных элементов: формирователя тактирующих частот «CWCK_500», интерфейса PC «i2c», формирователя дискретных отсчетов «driver», фонемной классификации речевого сигнала «haar», клавиш и переключателей «keytr», вывода фонемного символа на внешние периферийные устройства «rs232». Предлагаемые в диссертационной работе методы фонемной классификации и алгоритм частотно-временного анализа реализуются на основе элемента «haar», на который приходится порядка 92 % от общего количества разработанного исходного кода на языке описания электронных схем. Остальные элементы реализуются на основе стандартных протоколов передачи информации с соответствующей надстройкой. Результатом синтеза является файл конфигурирования ПЛИС. В результате, время на формирование фонемного кода при тактовой частоте работы схемы CLK=50 МГц составляет:
13
Гл — = 1576/50 106 =3.15 10 5 с (8)
ф CLK У '
Синтезируемая схема имеет сложную организацию, поэтому ее изображение не приводится. Специализированное вычислительное устройство реализовано на основе элементов 1-3 отладочной платы Terasic De2-115 с ПЛИС Cyclone ЕР4СЕ115,
которая представлена на рис. 10. Результатом работы устройства является символьная последовательность фонем в реальном времени. После проведения многочисленных экспериментов, было определено средне выборочное значение правильно классифицируемых фонем, представленных на рис. 11. Точность фонемной классификации оценивается математическим ожиданием М и составляет порядка 84 %, а доверительный интервал результата с вероятностью 0.95 составляет Рис. 10. Устройство фонемной 80.4<М<87.6. Современные устройства класси-классификации речи фикации речи на основе фонемного анализа по-
зволяют получить результат с точностью порядка 80 %. Большинство из них не работают в реальном времени и определяют ограниченный набор команд.
100
« во 1 и - 1
■§.70 g 60 « 50 I 1 УШ
* 40 м С зо о 5 го г ю 0 А Я Род! 98 о 3 м л ; и у 98 98 86 8S : 86 85 ш ы ; ш щ(ч) qu) ф з ж > 86 89 88 89 88 90 88 (К) Н Р П Т 6 | Д . Г в j 88 87 68 64 65 68 ; 66 78 87
Рис.11. Результат фонемной классификации Предлагаемое устройство имеет более сложный уровень и позволяет формировать большое количество слов (команд) на основе фонем в реальном времени.
Специализированное вычислительное устройство внедрено и успешно используется в ОАО «Мобильные ТелеСистемы» г. Ростов-на-Дону в отделе единого диспетчерского центра для смыслового анализа переговоров абонента с оператором в реальном времени. Над формируемым результатом работы вычислительного устройства реализована программная надстройка, которая позволяет анализировать фонемный поток символов в реальном времени на наличие заранее определенного слова. Каждому заранее определенному слову можно назначить действие на уровне процессов операционной системы, тем самым добавив функцию голосового управления программным обеспечением. Технические характеристики и условия эксплуатации: допустимый уровень шума - 35 дБ; температура окружающей среды от -45 С° до 50 С°; устройство должно иметь корпус, защищающий его от пробоя статическим напряжением; входное напряжение питания - 1.2 в.; максимальная потребляемая мощность - 1.5 вт.; анализируемый частотный диапазон речевого сигнала 0.1-8 кГц. Специализированное вычислительное устройство использует порядка 21 тыс. эквивалентных логических ячеек и 33 тыс. бит блочной памяти кристалла ПЛИС.
В заключении излагаются основные результаты диссертационной работы.
В приложениях приведены примеры программной реализации разработанных методов и алгоритма на языке описания электронных схем, а так же акты об использовании результатов диссертационной работы, свидетельства на регистрацию программ для ЭВМ и патент на полезную модель.
Основные результаты диссертационной работы:
1. Предложен алгоритм частотно-временного анализа на основе функции Хаа-ра, который позволяет сократить время на вычисление вейвлет-коэффициентов в исследуемом окне более чем в 5 раз по сравнению с традиционным.
2. Предложен метод аппаратной реализации вейвлет-анализа с использованием сигма-дельта модуляции речевого сигнала, который позволяет улучшить технические характеристики устройства за счет вычисления вейвлет-коэффициентов в реальном времени и сократить объём используемых ресурсов в 4.8 раз по сравнению с традиционным (Патент РФ №121616).
3. Предложен метод фонемной классификации на основе усовершенствованного бинарного дерева, который позволяет улучшить эксплуатационные характеристики устройства за счет инвариантной фонемной классификации на отдельные группы, который имеет простую реализацию на базе устройств с программируемой логикой.
4. Разработано специализированное вычислительное устройство фонемной классификации речи, которое за счет существенного сокращения используемых ресурсов, возможно реализовать на множестве широко распространенных кристаллов программируемых логических интегральных схем, что подчеркивает экономическую эффективность его реализации. Устройство внедрено и успешно используется в ОАО «Мобильные ТелеСистемы» г. Ростов-на-Дону в качестве опытного образца, а так же при выполнении научных исследований и выпускных квалификационных работ студентов и магистров Южно-Российского государственного технического университета.
5. Разработано специализированное вычислительное устройство, которое используется в качестве интерфейса фонемного анализа речи в реальном времени, а так же может являться элементом стандартного интерфейса ПК и использоваться для расширения его функциональных возможностей по предварительной обработке
речевых сигналов, снижая нагрузку на центральный процессор и повышая эффективность работы программного обеспечения.
6. В результате экспериментальных исследований установлено, что точность фонемной классификации достигает 84 %. Такой результат подтверждает обоснованность и достоверность принятых решений, а так же эффективность использования устройства для множества прикладных задач в области вычислительной техники и систем управления.
Основное содержание диссертации опубликовано в следующих работах: Публикации в изданиях, рекомендованных перечнем ВАК РФ
1. Беликов, И.Ю. Метод поиска формантных частот в речевом сигнале на основе быстрого алгоритма вейвлет-преобразования Хаара / И.Ю. Беликов, О.Ф. Ковалев // Изв. вузов Сев.-Кав. per. Техн. науки. - 2012. -№1 - С. 13-16.
2. Беликов, И.Ю. Математические методы фонемной классификации речевых команд / И.Ю. Беликов, О.Ф. Ковалев // Вестник СГТУ - 2011. -№4(62) -С. 229-232.
3. Беликов, И.Ю. Анализ формантных признаков речевого сигнала в квазиреальном времени на программируемых логических интегральных схемах / И.Ю. Беликов, О.Ф. Ковалев // Электромеханика. 2012. -№5 -С. 78-80.
4. Беликов, И.Ю. Математическое моделирование речевых сигналов на основе нечеткой логики / И.Ю. Беликов // Изв. вузов Сев.-Кав. per. Техн. науки. - 2012. -№5 -С. 20-24.
5. Беликов, И.Ю. Особенности классификации голосовых и глухих фонем русского языка / И.Ю. Беликов // Изв. вуз. Сев.-Кав. per. Техн. науки. -2013. -№1 -С. 15-17
Публикации в других изданиях
6. Беликов, И.Ю. Алгоритм поиска резонансных частот в одномерных сигналах / И.Ю. Беликов, О.Ф. Ковалев // Результаты исследований - 2011 : материалы 60-й науч.-техн. конф. профессорско-преподавательского состава, науч. работников, аспирантов и студентов / Юж.-Рос. гос. техн. ун-т (НИИ). - Новочеркасск : ЮР-ГТУ (НПИ), 2011. -С. 25-26
7. Беликов, И.Ю. Классификация одномерных сигналов / И.Ю. Беликов, О.Ф. Ковалев // Студенческая научная весна - 2010 : материалы регион, науч.-техн. конф. студентов, аспирантов и молодых ученых вузов Ростовской обл. / Юж.-Рос. гос. техн. ун-т (НПИ). - Новочеркасск : ЮРГТУ -2010. -С. 8-9
8. Беликов, И.Ю. Метод поиска общих признаков в одномерных сигналах / И.Ю. Беликов, О.Ф. Ковалев // Результаты исследований - 2010 : материалы 59-й науч.-техн. конф. профессорско-преподавательского состава, науч. работников, аспирантов и студентов ЮРГТУ (НПИ) / Юж.-Рос. гос. техн. ун-т (НПИ). - Новочеркасск : ЮРГТУ, 2010. - С. 214-215
9. Беликов, И.Ю. Реализация цифровых мультипроцессорных систем управления на базе встраиваемых систем программируемых логических интегральных схем / И.Ю. Беликов, О.Ф. Ковалев, М.О. Ковалева и др., // Микроэлектронные информационно-управляющие системы и комплексы : сб. тез. и статей Всерос. науч. шк„ Новочеркасск, 5-7 сент.2011г. / Юж.-Рос. гос. техн. ун-т (НПИ). - Новочеркасск : ЛИК, -2011. -С.18-21
Ю.Беликов, И.Ю. Фонемный анализ речевых сигналов на ПЛИС / И.Ю. Беликов, О.Ф. Ковалев // Микропроцессорные, аналоговые и цифровые системы : проектирование и схемотехника, теория и вопросы применения : материалы XI Между-
нар. науч.-практ.'конф., г Новочеркасск, 22 апр. 2011г. / Юж.-Рос. гос. техн. ун-т (НПИ). - Новочеркасск : ЮРГТУ (НПИ), -2011. -С. 7-8
П.Беликов, И.Ю. Формирование фонемного кода на базе цифровой логики в квазиреальном времени /И.Ю. Беликов// Академические фундаментальные исследования молодых ученых России и Германии в условиях глобального мира и новой культуры научных публикаций: материалы международной молодежной конференции, г. Новочеркасск, 2012 г. / Юж.-Рос. гос. техн. ун-т (НПИ). - Новочеркасск: ЛИК,-2012. - С. 142-144.
12.Беликов, И.Ю. Анализ речевого сигнала на основе сигма-дельта модуляции /И.Ю. Беликов, О.Ф. Ковалев// Информационные технологии. Радиоэлектроника. Телекоммуникации. - Тольятти: Издательство ПВГУ, -2012. -С.183-186
13.Беликов, И.Ю. Фонемная классификация речевых сигналов / И.Ю. Беликов, О.Ф. Ковалев // Сборник работ победителей отборочного тура Всероссийского конкурса научно-исследовательских работ студентов, аспирантов и молодых ученых по нескольким междисциплинарным направлениям [Эврика 2012], г. Новочеркасск, 2012г./ Юж.-Рос. гос. тех. ун-т (НПИ). - Новочеркасск : ЛИК, -2012. - С. 3-5.
14.Беликов, И.Ю. Метод автоматической классификации непрерывной речи / И.Ю. Беликов, О.Ф.Ковалев // Сборник работ победителей отборочного тура Всероссийского конкурса научно-исследовательских работ студентов, аспирантов и молодых ученых по нескольким междисциплинарным направлениям [Эврика 2011], г. Новочеркасск, окт.-нояб. 2011г./ Юж.-Рос. гос. тех. ун-т (НПИ). - Новочеркасск : Ж, -2011. -г С. 3-4.
15. Беликов, И.Ю. Методы и алгоритмы фонемного анализа речевых сигналов /И.Ю. Беликов, О.Ф. Ковалев // Методы и алгоритмы прикладной математики в технике, медицине и экономике: материалы XII Междунар. научно-практ. конф., г. Новочеркасск-2011,-С. 19-21.
16. Базаров, Р.В. Анализ современного состояния речевых технологий / И.Ю. Беликов, Р.В. Базаров // Студенческая научная весна - 2012 : материалы регион, науч,-техн. конф. студентов, аспирантов и молодых ученых вузов Ростовской обл. / Юж.-Рос. гос. техн. ун-т (НПИ). - Новочеркасск : ЮРГТУ, -2012. -С. 4-5.
17. Беликов, И.Ю. Фонемный анализ речи в цифровых системах /И.Ю. Беликов// XI Всероссийская науч. конф. молодых ученых, аспирантов и студентов «Техническая кибернетика, радиоэлектроника и системы управления». Сборник материалов - Таганрог: Изд-во ЮФУ, 2012. - Т.-1,- С.50-51
18. Беликов, И.Ю. Вейвлет анализ речевых сигналов на ПЛИС в квазиреальном времени /И.Ю. Беликов, О.Ф. Ковалев // Микропроцессорные, аналоговые и цифровые системы : проектирование и схемотехника, теория и вопросы применения : материалы XII Междунар. науч.-практ. конф., г Новочеркасск, 23 апр. 2012г. / Юж.-Рос. гос. техн. ун-т (НПИ). - Новочеркасск : ЮРГТУ (НПИ), -2012. -С. 6-8
19.Беликов, И.Ю. Аппаратная реализация параметров фонемной модели на основе языка УНБЬ/ И.Ю. Беликов// Моделирование теория, методы и средства: материалы XIII Междунар. науч.-практ. конф., г Новочеркасск, 27 февр. 2013г. / Юж.-Рос. гос. техн. ун-т (НПИ). - Новочеркасск : ЮРГТУ (НПИ), -2013. -с. 16-17.
1 Патент и свидетельства о регистрации программ
20. Патент на полезную модель № 121616 РФ МПК СОбИ 17/00. Устройство определения частотно-временного спектра на основе вейвлет-преобразований / О.Ф. Ковалев, И.Ю. Беликов. - № 2011117139; заявл. 28.04.11; опубл. 27.10.2012, Бюл. № 30.
2¡.Свидетельство о государственной регистрации программы для ЭВМ № 2010616988. Программа классификации одномерных сигналов на базе ПЛИС Altera с использованием нейронной сети Кохонена / О.Ф. Ковалев, И.Ю. Беликов - Дата поступления
25.08.2010. Дата регистрации 19.10.2010.
22. Свидетельство о государственной регистрации программы для ЭВМ № 2011614904. Программа для конфигурирования программируемых логических интегральных схем / О.Ф. Ковалев, И.Ю. Беликов - Дата поступления 04.05.2011. Дата регистрации 22.06.2011.
23. Свидетельство о государственной регистрации программы для ЭВМ № 2011617161. Программа для поиска резонансных частот в речевом сигнале / О.Ф. Ковалев, И.Ю. Беликов - Дата поступления 15.07.2011. Дата регистрации
14.09.2011.
24. Свидетельство о государственной регистрации программы для ЭВМ № 2011617160. Программа для синтеза гласных фонем / О.Ф. Ковалев, И.Ю. Беликов -Дата поступления 15.07.2011. Дата регистрации 14.09.2011.
25. Свидетельство о государственной регистрации программы для ЭВМ № 2012614314. Фонемный анализ речевого сигнала / О.Ф. Ковалев, И.Ю. Беликов -Дата поступления 23.03.2012. Дата регистрации 15.05.2012.
Личный вклад автора в работы, опубликованные в соавторстве: [1] - разработка алгоритма эффективного вычисления вейвлет-коэффициентов, проведение экспериментальных исследований; [2] - разработка метода фонемной классификации;[3] - разработка элементов устройства и проведение экспериментальных исследований, программирование; [6,7,8] - разработка алгоритма анализа речевых сигналов; [9,10] - исследования по применимости программируемых логических интегральных схем в задаче классификации речевых сигналов; [12,14, 18] - разработка устройства фонемного классификации речи, проведение экспериментальных исследований; [13,15] - разработка инвариантного метода классификации на фонемные группы;[16] - анализ современного состояния систем классификации речевых сигналов.
Беликов Иван Юрьевич СПЕЦИАЛИЗИРОВАННОЕ ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ФОНЕМНОЙ КЛАССИФИКАЦИИ РЕЧЕВЫХ СИГНАЛОВ В РЕАЛЬНОМ ВРЕМЕНИ
Автореферат
Подписано в печать 14.05.2013 г. Формат 60х 84 1/16. Бумага офсетная. Печать цифровая. Усл. печ. л. 1,6. Тираж 100 экз. Заказ № 1405001 ООО НПП «НОК». 346430, г. Новочеркасск, ул. Дворцовая, 1 Тел. (8635) 29-85-51
Текст работы Беликов, Иван Юрьевич, диссертация по теме Элементы и устройства вычислительной техники и систем управления
Южно-Российский государственный технический университет (Новочеркасский политехнический институт)
На правах рукописи
04201358515
БЕЛИКОВ Иван Юрьевич
СПЕЦИАЛИЗИРОВАННОЕ ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ФОНЕМНОЙ КЛАССИФИКАЦИИ РЕЧЕВЫХ СИГНАЛОВ
В РЕАЛЬНОМ ВРЕМЕНИ
Специальность: 05.13.05 -
Элементы и устройства вычислительной техники и систем управления
ДИССЕРТАЦИЯ На соискание ученой степени кандидата технических наук
Научный руководитель:
доктор технических наук, профессор
Ковалёв Олег Фёдорович
Новочеркасск 2013 г.
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ.........................................................................................5
ГЛАВА 1. АНАЛИЗ СОВРЕМЕННЫХ МЕТОДОВ И СИСТЕМ КЛАССИФИКАЦИИ РЕЧЕВЫХ СИГНАЛОВ.............................................12
1.1 Физиологические особенности формирования речевых сигналов...........12
1.2 Виды систем классификации речи....................................................16
1.3 Методы спектрального анализа речевых сигналов..............................18
1.4 Методы классификации речевых сигналов........................................21
1.5 Анализ современного состояния речевых технологий.........................33
1.6 Анализ возможной реализации устройства классификации речевых сигналов..................................................................................37
Выводы по первой главе.......................................................................39
ГЛАВА 2. ЧАСТОТНО-ВРЕМЕННОЙ АНАЛИЗ РЕЧЕВЫХ СИГНАЛОВ.......41
2.1 Анализ и выбор материнской функции вейвлет-преобразования............41
2.2 Алгоритм вычисления вейвлет-коэффициентов на основе материнской функции Хаара..........................................................................47
2.3 Методика формирования речевых признаков....................................50
2.3.1 Выбор количества частотных уровней вейвлет-анализа................50
2.3.2 Алгоритм формирования фонемных признаков...........................53
2.4 Метод аппаратной реализации частотно-временного анализа................55
2.5 Результаты практической реализации частотно-временного анализа.......58
Выводы по второй главе........................................................................60
ГЛАВА 3. ФОНЕМНАЯ МОДЕЛЬ РУССКОГО ЯЗЫКА И МЕТОД ФОНЕМНОЙ КЛАССИФИКАЦИИ ..........................................................61
3.1 Фонемная модель речевого сигнала..........................................................61
3.2 Определение фонемных групп на основе бинарного дерева решений.......66
3.3 Параметрическое представление фонем на основе нечеткой логики.........72
3.4 Алгоритм программной реализации фонемной модели........................78
3.5 Программная реализация фонемной модели......................................79
Выводы по третьей главе.......................................................................82
ГЛАВА 4. РАЗРАБОТКА СПЕЦИАЛИЛЗИРОВАННОГО ВЫЧИСЛИТЕЛЬНОГО УСТРОЙСТВА ФОНЕМНОЙ КЛАССИФИКАЦИИ.....................................83
4.1 Постановка задачи аппаратной реализации предложенных методов и алгоритмов................................................................................83
4.2 Структурно-функциональная схема устройства.................................87
4.3 Диаграмма процессов устройства......................................................88
4.4 Разработка устройства фонемной классификации................................93
4.5 Результат работы специализированного вычислительного устройства фонемного анализа речевых сигналов..............................................103
4.6 Технические характеристики устройства и условия эксплуатации.........111
Выводы по четвертой главе...................................................................112
ЗАКЛЮЧЕНИЕ.................................................................................114
ЛИТЕРАТУРА..................................................................................118
ПРИЛОЖЕНИЕ А. Акт внедрения результатов диссертационной работы в ОАО «Мобильные Телесистемы»...................................................................130
ПРИЛОЖЕНИЕ Б. Свидетельство о государственной регистрации программ
для ЭВМ № 2011617161.......................................................................131
ПРИЛОЖЕНИЕ В. Патент на полезную модель №121616...........................132
ПРИЛОЖЕНИЕ Г. Программный листинг алгоритма вейвлет-преобразования в среде Scilab 5.2...................................................................................133
ПРИЛОЖЕНИЕ Д. Свидетельство о государственной регистрации программ
для ЭВМ №2011617160.......................................................................134
ПРИЛОЖЕНИЕ Е. Экранная форма программы «Phoneme synthesizer 1.0»..........135
ПРИЛОЖЕНИЕ Ж. Свидетельство о государственной регистрации программ
для ЭВМ №2012614314.......................................................................136
ПРИЛОЖЕНИЕ К. Свидетельство о государственной регистрации программ
для ЭВМ № 2011614904.......................................................................137
ПРИЛОЖЕНИЕ Л. Акт внедрения результатов диссертационной работы в ФГУП «РНИИРС».......................................................................................138
ПРИЛОЖЕНИЕ М. Программный листинг элемента устройства фонемной классификации «haar».........................................................................139
ВВЕДЕНИЕ
Актуальность темы.
В настоящее время активно развиваются информационные системы на основе устройств автоматического анализа речевых сигналов в реальном времени. Одним из эффективных инструментов в развитии информационных систем является использование естественной речи человека при реализации систем голосового управления техническими устройствами и систем преобразования речи в текст. За последние десятилетия исследований были достигнуты определенные успехи в этой области, однако задача в целом все еще далека от своего решения. Существующие на данный момент устройства не имеют возможности для широкого применения, так как работают в режиме классификации небольшого количества отдельных команд. Значительные временные затраты на выполнение процедуры обработки сигнала и его классификации не позволяют применять их в системах реального времени. Также существуют трудности описания фонемных параметров речи из-за сложного процесса речеобразования. Большинство известных коммерческих продуктов с аппаратной реализацией являются дорогостоящими и узкоспециализированными. Для эффективного решения представленных проблем необходим широкий спектр методов и алгоритмов, различающихся по объёму вычислений, качеству получаемых результатов, количеству используемых ресурсов, способам представления данных. Перспективным вариантом развития анализа естественной речи являются системы с фонемным анализом звуков и их последующей интерпретацией. Следует учесть, что в настоящий момент на мировом рынке получили широкое распространение программируемые логические интегральные схемы (ПЛИС), потенциально подходящие для реализации подобных систем. Вышеизложенные обстоятельства позволяют отметить актуальность научно-технической задачи разработки специализированного вычислительного устройства, ориентированного на увеличение эффективности классификации речи на аппаратном уровне. В диссертации рассматриваются теоретические и практические аспекты разработки специализированного вычислительного
устройства фонемной классификации речевых сигналов. Диссертационная работа выполнена в соответствии с НИР по заказу №325 (отчет №140/НИР/1 от 16.01.2013) Федерального государственного унитарного предприятия «Ростовский-на-Дону научно-исследовательский институт радиосвязи»; приоритетным направлением развития науки, технологий и техники РФ «Информационно-телекоммуникационные системы» (утверждено указом Президента РФ №899 от 7 июля 2011 г.); научным направлением ЮРГТУ (НПИ) «Теория, принципы и технологии построения информационно-вычислительных и измерительных систем» (утверждено решением ученого совета университета от 20.09.11 г.).
Объект исследования.
Элементы и устройства цифровой обработки сигналов, методы и алгоритмы классификации непрерывной речи, методы параллельных вычислений.
Целью диссертационной работы является повышение эффективности существующих методов и алгоритмов для классификации речевых сигналов и их реализация в виде специализированного вычислительного устройства фонемного анализа речи в реальном времени.
Для достижения поставленной цели в работе решаются следующие задачи:
1. Анализ современных методов и устройств классификации речи.
2. Анализ фонемной модели речевого сигнала.
3. Разработка метода частотно-временного анализа речевого сигнала в реальном времени на аппаратном уровне.
4. Разработка инвариантного метода классификации речевого сигнала.
5. Экспериментальное исследование и практическая реализация предложенных методов и алгоритмов в виде специализированного устройства на базе программируемых интегральных схем.
Основные положения, выносимые на защиту:
1. Алгоритм частотно-временного анализа речевого сигнала на основе материнской функции Хаара, повышающий эффективность вычисления вейвлет-коэффициентов.
2. Метод аппаратной реализации частотно-временного анализа на основе сигма-дельта модуляции речевого сигнала, позволяющий улучшить технические характеристики специализированного вычислительного устройства.
3. Метод фонемной классификации речевых сигналов на фонемные группы на основе бинарного дерева решений с последующим определением фонемы с использованием аппарата нечеткой логики, позволяющий выполнять инвариантную классификацию фонем.
4. Специализированное вычислительное устройство фонемной классификации речи на основе программируемых логических интегральных схем, позволяющее выполнять фонемную классификацию в режиме реального времени.
Научная новизна:
1. Предложен новый алгоритм вычисления вейвлет-коэффициентов на основе материнской функции Хаара, отличающийся от существующих тем, что использует целочисленные операции и рекурсивную форму вычислений, что позволяет повысить эффективность работы специализированного вычислительного устройства за счет существенного сокращения выполняемых арифметических операций;
2. Предложен метод аппаратной реализации частотно-временного анализа речи на основе сигма-дельта модуляции, отличающийся от существующих тем, что позволяет выполнять вейвлет-анализ на основе однобитового потока с предельной частотой вдвое меньшей частоты работы сигма-дельта модулятора;
3. Предложен метод фонемной классификации речи на основе бинарного дерева решений, который отличается от существующего тем, что использует инвариантную относительно оператора классификацию фонемы к одной из пяти фонемных групп и позволяет улучшить эксплуатационные характеристики устройства;
4. Предложен принцип аппаратной реализации специализированного вычислительного устройства фонемной классификации речи, который отличается
использованием разработанных методов и позволяет повысить качественные и эксплуатационные показатели подобного рода устройств.
Практическая ценность:
1. Предложен алгоритм частотно-временного анализа на основе функции Хаара, который позволяет сократить время на вычисление вейвлет-коэффициентов в исследуемом окне более чем в 5 раз по сравнению с традиционным.
2. Предложен метод аппаратной реализации вейвлет-анализа с использованием сигма-дельта модуляции речевого сигнала, который позволяет вычислять вейвлет-коэффициенты в реальном времени и сократить объём используемых ресурсов в 4.8 раз по сравнению с традиционным (Патент РФ №121616).
3. Предложен метод фонемной классификации на основе усовершенствованного бинарного дерева, который позволяет улучшить эксплуатационные характеристики устройства за счет инвариантной фонемной классификации на отдельные группы, с последующим определением фонемы с использованием аппарата нечеткой логики. Точность фонемной классификации достигает 84 %.
4. Разработано специализированное вычислительное устройство фонемной классификации речи, которое за счет существенного сокращения используемых ресурсов, возможно реализовать на множестве широко распространенных кристаллов программируемых логических интегральных схем, что подчеркивает экономическую эффективность его реализации.
5. Разработано специализированное вычислительное устройство фонемной классификации, которое используется в качестве интерфейса фонемного анализа речи в реальном времени, а так же может являться элементом стандартного интерфейса ПК и использоваться для расширения его функциональных возможностей по предварительной обработке речевых сигналов, снижая нагрузку на центральный процессор и повышая эффективность работы программного обеспечения.
Методы исследования.
При выполнении данной работы использовались методы цифровой обработки сигналов, теории алгоритмов и численных методов, общей фонетики, методы проектирования элементов и устройств, методы математического моделирования, объектно-ориентированного программирования. Проводились исследования на модельных и реальных сигналах.
Достоверность подтверждается корректным применением метода частотно-временного анализа речевых сигналов; применением фундаментальной теории речеобразования; подтверждением теоретических положений результатами экспериментов; критическим обсуждением полученных результатов на Всероссийских и международных научных конференциях и внедрением разработанного устройства; основные положения работы хорошо согласуются с опубликованными материалами других авторов.
Апробация работы.
Результаты работы докладывались и обсуждались на различных научно-технических конференциях: ежегодных конференциях профессорско-преподавательского состава, научных работников, аспирантов и студентов ЮРГТУ(НПИ) (Новочеркасск, 2010-2011 гг.); Всероссийской научной школе «Микроэлектронные информационно-управляющие системы и комплексы» (Новочеркасск, 2011 г.); Международной научно-практической конференции «Микропроцессорные, аналоговые и цифровые системы: проектирование и схемотехника, теория и вопросы применения» (Новочеркасск, 2011-2012 гг.); Всероссийском ежегодном конкурсе научно-исследовательских работ студентов, аспирантов и молодых ученых «ЭВРИКА» (Новочеркасск, 2011-2012 гг.); Международной научно-практической конференции «Информационные технологии. Радиоэлектроника. Телекоммуникации» (Тольятти, 2012 г.); Всероссийской научной конференции молодых ученых, аспирантов и студентов «ТЕХНИЧЕСКАЯ КИБЕРНЕТИКА, РАДИОЭЛЕКТРОНИКА И СИСТЕМЫ» (Таганрог, 2012 г.); Международной молодежной конференции «Академические фундаментальные исследования молодых ученых России и Германии в условиях
глобального мира и новой культуры научных публикаций» (Новочеркасск, 2012 г.); Международной научно-практической конференции «МОДЕЛИРОВАНИЕ. ТЕОРИЯ, МЕТОДЫ И СРЕДСТВА» (Новочеркасск, 2013 г.).
Публикации.
По теме диссертации опубликовано 25 печатных работ, в том числе: 5 статей в ведущих рецензируемых изданиях, рекомендованных ВАК РФ; 14 статей опубликованных по результатам научно-практических конференций, 5 свидетельств о государственной регистрации программы для ПЭВМ, 1 патент РФ на полезную модель.
Внедрение.
Результаты работы в виде опытного образца устройства фонемной классификации речи внедрены в ОАО «Мобильные ТелеСистемы» г. Ростов-на-Дону (ПРИЛОЖЕНИЕ А), в виде комплекса программ по результатам НИР по заказу №325 (отчет №140/НИР/1 от 16.01.2013) в Федеральном государственном унитарном предприятии «Ростовский-на-Дону научно-исследовательский институт радиосвязи», г. Ростов-на-Дону (ПРИЛОЖЕНИЕ Л). Результаты работы так же используются в учебном процессе при выполнении научных исследований и выпускных квалификационных работ студентов и магистров ЮжноРоссийского государственного технического университета, г. Новочеркасск.
Структура работы.
Материал основной части диссертационной работы изложен на 129 страницах машинописного текста. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 108 наименований, содержит 11 таблиц, 47 рисунков, и 10 приложений на 29 листах. Общий объём диссертации составляет 159 страниц.
Содержание работы.
В первой главе работы выполнен аналитический обзор существующих методов и алгоритмов, а так же устройств классификации речевых сигналов. Проанализированы достоинства, недостатки, а также перспективы реализации
специализированного вычислительного устройства фонемной классификации речевых сигналов.
Во второй главе выполняется анализ и выбор материнской функции вейвлет-преобразования. Описывается предлагаемый алгоритм вычисления вейвлет-коэффициентов на основе материнской функции Хаара и его применение в задаче анализа речевых сигналов на аппаратном уровне. Предлагается алгоритм формирования фонемного признака. Анализируется эффективность алгоритма частотно-временного анализа по сравнению с традиционным.
В третьей главе анализируется фонемная модель речевого сигнала. Предлагается метод классификации на отдельные инвариантные фонемные группы на основе бинарного дерева решений. Предлагается метод классификации на основе степени принадлежности фонем внутри группы с использованием треугольной функции нечеткой логики. Предлагается структура речевого сигнала, учитывающая межфонемные переходы. Предложены параметры фонем для каждой из фонемных групп.
В четвертой главе рассматриваются особенн�
-
Похожие работы
- Исследование и разработка элементов и устройств для систем фонемного декодирования речи
- Исследование и разработка методов автоматического синтеза речи по фонемному тексту
- Исследование и разработка элементов и устройств для систем фонемного декодирования речи
- Разработка метода автоматической фонетической сегментации и маркировки речевого сигнала
- Алгоритмы и конвейерное вычислительное устройство помехоустойчивой сегментации вокализованных участков речевого сигнала
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность