автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.05, диссертация на тему:Алгоритмы и конвейерное вычислительное устройство помехоустойчивой сегментации вокализованных участков речевого сигнала

кандидата технических наук
Панов, Александр Ефимович
город
Курск
год
2008
специальность ВАК РФ
05.13.05
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Алгоритмы и конвейерное вычислительное устройство помехоустойчивой сегментации вокализованных участков речевого сигнала»

Автореферат диссертации по теме "Алгоритмы и конвейерное вычислительное устройство помехоустойчивой сегментации вокализованных участков речевого сигнала"

На правах рукописи

СЮ345732Э

Панов Александр Ефимович

Алгоритмы и конвейерное вычислительное устройство помехоустойчивой сегментации вокализованных участков речевого сигнала

Специальность 05.13.05 - Элементы и устройства вычислительной техники и систем управления

Автореферат диссертации на соискание ученой степени кандидата технических наук

1 2 ДЕК 2008

Курск - 2008

003457329

Работа выполнена в ГОУ ВПО «Курский государственный технический университет» на кафедре вычислительной техники в совместной научно-исследовательской лаборатории Центра информационных технологий в проектировании РАН и Курского государственного технического университета: «Информационные распознающие телекоммуникационные системы»

Научный руководитель: доктор технических наук, профессор Типикин А.П.

Официальные оппоненты: доктор технических наук, профессор Филист С.А.

Ведущая организация: ФГУП «Курский НИИ» МО РФ

Защита состоится 25 декабря 2008г. в 14 часов на заседании диссертационного совета Д.212.105.02 в Курском государственном техническом университете по адресу: 305040, г. Курск, ул. 50 лет Октября, 94, конференц-зал.

С диссертацией можно ознакомиться в библиотеке КурскГТУ.

Автореферат разослан 24 ноября 2008 года.

кандидат технических наук Старков Е.Ф.

Ученый секретарь диссертационного совета

Титенко Е.А.

Актуальность работы. Первичная обработка речевого сигнала (РС) существенно влияет на качество функционирования информационно-речевых систем. При выделении содержащейся в РС информации необходимо располагать как можно большим количеством сведений о его структуре. Вероятность правильного распознавания речи и идентификации диктора зависит от точности определения траектории основного тона и сегментирования РС, то есть разделения его на вокализованные и невокализованные участки, разделения вокализованных участков на интервалы смежных вокализованных фонем, выделения самых коротких фонемных интервалов длительностью около четырех квазипериодов тональных колебаний. Эти же данные необходимы для повышения степени сжатия речевой информации. Причем эти процедуры первичной сегментации должны выполняться в реальном времени в темпе поступления в инструментальную ЭВМ оцифрованного РС.

Неразборчивость и шумовой фон реальной речи, большая нестабильность формирования звуковых колебаний речевым аппаратом существенно усложняют решение названных выше задач сегментации РС. В связи с этим известные методы и алгоритмы первичной обработки и сегментации РС имеют большую математическую и вычислительную сложность. Они ориентированы в основном на программную реализацию и пока имеют недостаточные помехоустойчивость и скорость работы. Необходимость дальнейшего повышения помехоустойчивости требует еще большего увеличения сложности названных алгоритмов, что при программной реализации приведет к дополнительному снижению скорости первичной обработки и сегментации РС.

В тоже время успехи микроэлектроники в повышении степени интеграции элементной базы ЭВМ позволяют аппаратно реализовать в одной специализированной СБИС очень сложные вычислительные алгоритмы и достичь требуемой высокой производительности за счет параллельной организации вычислений. Для этого требуется разработать метод повышения помехоустойчивости первичной обработки РС путем усовершенствования вычислительных алгоритмов сегментации и способ увеличения ее производительности за счет параллельной аппаратной реализации основных ее процедур оценивания мгновенных значений квазипериодов основного тона и сегментации вокализованных фонем.

В связи с вышеизложенным актуальной является научно-техническая задача: повышение помехоустойчивости аппаратно-ориентированных алгоритмов выделения в реальном времени траектории основного тона и вокализованных фонем.

Объект исследования: специализированное вычислительное устройство предварительной обработки речевого сигнала.

Предмет исследования: помехоустойчивые алгоритмы и устройство сегментации вокализованных участков РС в реальном времени.

Работа выполнена 8 2005-2008 г.г. по плану совместных НИР научно-исследовательской лаборатории Центра информационных технологий в проектировании РАН и Курского государственного технического университета: «Ин-

формационные распознающие телекоммуникационные интеллектуальные системы».

Цель работы: разработка методов, алгоритмов и конвейерного устройства помехоустойчивого выделения основного тона и вокализованных фонем речевого сигнала.

Для достижения поставленной цели решены следующие задачи.

1. Анализ методов, алгоритмов и устройств помехоустойчивого оценивания основного тона и сегментации вокализованных участков речевого сигнала.

2. Модификация корреляционного метода оценивания основного тона путем введения многооконной скользящей обработки сигнала с целью повышения помехоустойчивости определения траектории основного тона.

3. Разработка метода сегментации вокализованных участков речи на фонемы, позволяющего повысить вероятность нахождения границ между ними.

4. Разработка вычислительного алгоритма потокового нахождения множества корреляционных функций в нескольких, разных по длительности, окнах скользящей обработки, как предпосылки для конвейеризации процедур определения траектории основного тона.

5. Разработка алгоритмов, структурной и функциональных схем специализированного конвейерного вычислительного устройства сегментации вокализованных участков речевого сигнала, работающего в реальном масштабе времени.

6. Программное моделирование алгоритмов функционирования разработанного устройства и оценка выигрыша по скорости и помехоустойчивости разработанных методов, алгоритмов и устройства. Оценка аппаратной сложности устройства при реализации на ПЛИС.

Научная новизна результатов работы состоит в следующем:

1. Разработан модифицированный корреляционный метод оценивания мгновенных значений квазипериодов основного тона речевого сигнала, отличающийся применением при скользящей обработке нескольких временных окон различных длительностей и отслеживанием переменного квазипериода наиболее подходящим по длительности окном, позволяющий повысить помехоустойчивость воспроизведения траектории основного тона.

2. Разработан метод сегментации вокализованных участков речи на фонемы, основанный на вычислении расстояния между нормализованными по частоте спектральными плотностями речевого сигнала в разных его квазипериодах, отличающийся учетом непостоянства тональной частоты, ограничением диапазона усреднения спектров по числу квазипериодов, специальными правилами локализации переходного участка между фонемами и позволяющий повысить вероятность нахождения границ между ними и помехоустойчивость процедур сегментации.

3. Разработан рекурсивный вычислительный алгоритм потокового нахождения множества корреляционных функций сигнала в нескольких разных окнах скользящей обработки, позволивший аппаратно совместить их одно-

временное определение и организовать конвейерное выполнение всех процедур определения траектории основного тона. 4. Разработаны алгоритмы, структурная и функциональные схемы специализированного вычислительного устройства сегментации вокализованных участков речевого сигнала, отличающегося двухкаскадной аппаратно-программной конвейерной организацией с программной реализацией в цифровом процессоре сигналов во втором каскаде заключительной процедуры сегментации на фонемы и аппаратной реализацией первого каскада в виде шестиступенчатого конвейера процедур оценивания тона, позволяющего достичь быстродействия, достаточного для выполнения предварительной обработки сигнала в реальном времени.

Практическая ценность.

1. Разработанное устройство может быть встроено в звуковую плату ПЭВМ для расширения ее функциональных возможностей по предварительной обработке речевых сигналов, разгружая центральный процессор. Выходные данные устройства являются необходимыми исходными данными для определения признаков при распознавании речи и идентификации диктора на программном уровне ПЭВМ, а также при сжатии речевой информации.

2. Разработанная структурно-функциональная организация устройства позволяет не менее чем в 30 раз повысить производительность по сравнению с программной реализацией в многоядерных микропроцессорах и цифровых процессорах сигналов и обрабатывать речевые сигналы в реальном масштабе времени на тактовой частоте 50-400 МГц.

3. В результате экспериментальных исследований функционирования программной модели устройства на фонотеке, включающей до 100 слов и фраз, показано, что разработанные методы и алгоритмы обеспечивают следующие показатели помехоустойчивости. Траектория основного тона воспроизводится с вероятностью 0.4...0.96 и погрешностью 0.02...0.015, границы между вокализованными фонемами находятся с вероятностью от 0.4 до 0.95 с погрешностью не более двух квазипериодов основного тона в диапазоне отношения сигнал/шум от -ЗдБ до 8дБ, что в среднем в 2 раза лучше показателей помехоустойчивости известных методов и алгоритмов.

Реализация и внедрение. Результаты работы использованы в ОКБ «Авиаавтоматика» (г. Курск), в ООО «ЮнионСофт технолоджиз», а также е учебном процессе Курского государственного технического университета.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на международных конференциях: МНТК «Распознавание-2003» (г. Курск, 2003), МНТК «Распознавание-2005» (г. Курск, 2005), МНТК «Распознавание-2008» (г. Курск, 2008), 22 межвузовской научно-технической конференции «Молодежь и XXI век» (г. Курск, 2003), МНТК «Information and telecommunication technologies in intelligent systems» (Mallorca, Spain, 2007), а также на научных семинарах кафедры ВТ КурскГТУ.

Публикации. По материалам диссертации опубликовано 10 работ, в том числе 3 статьи, 2 из которых - в журналах, входящих в перечень ВАК, 5 тезисов докладов и 2 свидетельства об официальной регистрации программ для ЭВМ.

Личный вклад автора. В работах, опубликованных в соавторстве, лично автором в [1,3,4] разработан модифицированный корреляционный метод оценивания мгновенных значений квазипериодов основного тона; в [2,5] разработан метод сегментации вокализованных участков речи на фонемы; в [6,8] проведена оценка помехоустойчивости названных методов сегментации вокализованных участков речевого сигнала; в [7] разработан рекурсивный алгоритм потокового вычисления множества корреляционных функций, структурные и функциональные схемы специализированного вычислительного устройства сегментации вокализованных участков речевого сигнала.

На защиту выносятся следующие результаты:

1. Модифицированный корреляционный метод определения траектории основного тона речевого сигнала, отличающийся применением нескольких, убывающих по длительности временных окон скользящей обработки, позволяющий повысить помехоустойчивость и создать предпосылки для параллельного выполнения процедур оценивания основного тона.

2. Метод сегментации вокализованных участков речи на фонемы, основанный на вычислении расстояния между нормализованными по частоте спектральными плотностями речевого сигнала в разных его квазипериодах и позволяющий повысить вероятность нахождения границ между ними и помехоустойчивость процедур сегментации.

3. Рекурсивный вычислительный алгоритм потокового нахождения множества корреляционных функций сигнала в нескольких разных окнах скользящей обработки, позволивший аппаратно совместить их одновременное определение и организовать конвейерное выполнение всех процедур определения траектории основного тона.

4. Алгоритмы, структурная и функциональные схемы специализированного вычислительного устройства сегментации вокализованных участков речевого сигнала, отличающегося двухкаскадной аппаратно-программной конвейерной организацией и аппаратной реализацией первого каскада в виде шестиступенчатого конвейера процедур оценивания тона, позволяющего достичь быстродействия, достаточного для выполнения предварительной обработки сигнала в реальном времени.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложений. Список литературы включает 83 наименования.

Содержание работы

Во введении обоснована актуальность, научная новизна исследований, определена цель работы и задачи исследований, дана общая характеристика работы, сформулированы основные положения, выносимые на защиту.

В первой главе проведен анализ методов, алгоритмов и быстродействующих устройств помехоустойчивого оценивания основного тона и сегментации вокализованных участков речевого сигнала.

Среди методов оценивания частоты основного тона следует отметить эмпирические, корреляционные, спектральные, гомоморфные (кепстральные) методы, а также метод наименьших квадратов. В некоторых работах предлагается одновременное использование нескольких методов, например, анализ поведения определителя автокорреляционной матрицы, пиковый метод, метод аппроксимации временной функции основного тона. При этом достоверное значение принимается мажоритарно.

Анализ корреляционных методов оценивания частоты основного тона, как наиболее устойчивых к шумам, показал, что все они работают в ограниченном диапазоне частот и не могут восстановить непрерывную траекторию основного тона в широком диапазоне частот человеческого голоса. Для расширения рабочего диапазона частот обрабатываемого сигнала и дальнейшего повышения помехоустойчивости целесообразно перейти от скользящей обработки сигнала в окне фиксированной длительности к многооконной обработке с отслеживанием переменного квазипериода наиболее подходящим по длительности окном, позволяющей повысить помехоустойчивость воспроизведения траектории основного тона.

Обзор методов сегментации показал, что известные методы сегментации РС являются обособленными и работают независимо от алгоритмов определения траектории частоты основного тона, требуют ресурсоемких процедур вычисления, имеют низкую вероятность сегментации и неустойчивы к внешним помехам.

Поэтому для повышения помехоустойчивости предварительной обработки речи, в том числе определения траектории частоты основного тона и выделения вокализованных фонем из речевого сигнала, необходимо создание комплексного алгоритма сегментации РС, с аппаратно-программной поддержкой процедур расчета значений корреляционной функции и принятия решений, а также выделения лучших усредненных спектральных характеристик фонем, необходимых для дальнейшей обработки РС в информационно-речевых системах.

Во второй главе разрабатываются новые методы определения траектории частоты основного тона (ЧОТ) и сегментации РС на вокализованные фонемы.

Сегментация выполняется в два этапа:

1. Определение частоты основного тона в вокализованных сегментах РС и

построение траектории основного тона по найденным значениям.

2. Сегментация вокализованной речи на вокализованные фонемы по траектории основного тона. На первом этапе происходит дополнительная селекция по признаку вокализо-ванный/невокализованный участок РС (рис. 1).

Речевой Вокализованные

сигнал фонемы

Рис. 1. Сегментация речевого сигнала на вокализованные фонемы.

Для определения частоты основного тона используется модифицированный корреляционный метод, основанный на скользящей обработке сигнала рядом убывающих по длительности окон, размеченных рабочими и штрафными зонами.

Корреляционный метод определения квазипериода колебаний основного тона (ОТ) оцифрованного речевого сигнала основан на выделении максимумов корреляционной функции, соответствующих границам квазипериодов.

Автокорреляционная функция речевого сигнала вычисляется в скользящем прямоугольном окне обработки по следующей формуле.

г(к) = - т){хик - т), (1)

где т = ^Йи - математическое ожидание сигнала в окне обработки;

а = — среднеквадратическое отклонение;

к = 0, N — дискретные значения аргумента корреляционной

функции, М - число дискретных отсчетов времени в окне обработки.

Однако, из-за большой нестабильности речевого сигнала величины названных пограничных максимумов автокорреляционной функции изменяются в широком диапазоне, что приводит к снижению помехоустойчивости.

Влияние нестабильности формы и размаха квазипериодических тональных колебаний, а также биений речевого сигнала на величины пограничных максимумов автокорреляционной функции может быть уменьшено путем автономного центрирования и нормализации каждого к-го коррелирующего отрезка сигнала с длиной (Ы-к) дискретных отсчетов времени. Соответствующая модификация выражения автокорреляционной функции (1) заключается в следующем:

= МП* „ - т1к)(х1+к - т2к), (2)

где т1к = XI ,т2к = - матожидания первого и

второго коррелирующих отрезков сигнала в окне обработки;

Ък = ^]~^=1к(х1-т1к)21ст2к = -

среднеквадратичные отклонения;

к = О, N — дискретные значения аргумента корреляционной функции, N - число дискретных отсчетов времени в окне обработки.

Из-за убывания величин пограничных максимумов исходной автокорреляционной функции к концу окна обработки по формуле (1), достоверному оцениванию частоты основного тона по первому максимуму Аг (рис. 2, б) препятствуют максимумы вложенных колебаний, которые могут превышать первый тональный максимум.

а)

б)

рМ

В)

Тфч • гуф1 м Ш Ч-ч,мс

_ г ^ -—я »—---- къ. —

!а!------~»А1 ,д2

>П , ц .'4

1, мс

г*.—ле—-ш-—и—с*---¡.V—--—----— —

А,

-,н2 ,

*................—..........................,.

|Г В '"•'I" '''1? д!"Ц

И/ 41" V V ^ НА/ }УУ

?

Рис. 2. Пример корреляционной обработки речевого сигнала: а - речевой сигнал; б - автокорреляционная функция; в - модифицированная корреляционная

функция.

Применение модифицированной формулы (2) позволяет повысить стабильность и величины пограничных максимумов корреляционной функции (рис. 2, в). При этом существенно снижается вероятность влияния вложенных максимумов Ав на достоверность оценки периода Г, так как при обработке по формуле (2) обычно А1>Ав. Однако нестабильность речевого сигнала столь высока, что даже при его обработке по формуле (2) пограничные максимумы корреляционной функции изменяются в широком диапазоне [0,5;1] (рис. 2, в). Достоверность оценки можно существенно повысить путем следующей многооконной скользящей обработки и разбиения окон на несколько рабочих и штрафных зон.

Частота основного тона изменяется в широком диапазоне (бас 75-330 Гц, тенор 120-500 Гц, меццо-сопрано 170-700 Гц, сопрано 230-1100 Гц), поэтому целесообразно выполнять многооконную скользящую обработку сигнала, а длительности окон выбрать таким образом, чтобы самое короткое окно содержало не более 2-х периодов самого высокого сопрано, а самое длинное - не более 2-х периодов самого низкого баса. Всего разных окон обработки, длительности которых определяются рекуррентным соотношением Мк+1—Мк-^2' необходимо тридцать пять. Нумерация окон осуществляется от большего к меньшему. Длительность первого окна = 40 мс (рис. 3). Размеченные окна (рис. 3, б) используются при обработке модифицированной корреляционной функции (рис. 2, в).

2.5 мс 32.7 мс ■О 2.9 мс

"и "и

-о 9 мс

-О10 мс

-□ 1.1

мс

1*г Л'п

33

-а 36 мс

0 1/12 1/6 1/4 1/3 5/12 1/2 7/12 2/3 3/4 5/6 11/12 1

^-—I

— 1Ш вгш лгп

вг! эгп 1

кгп 1 ка2 0 1 кип I щш 2 3 нал I ют 4 5

92.

Рис. 3. Временные окна скользящей обработки сигнала (а) и разметка окна на рабочие кг и штрафные зоны (б).

Рабочие зоны и Кгп делятся на подзоны ЯШ, 1^12 и РШИ, (^112 соответственно и образует рабочую зону Рй. Каждая подзона составляет одну двенадцатую часть окна. Штрафные зоны - 521, 5211, 11. Поиск глобального, в пределах окна, максимального экстремума корреляционной функции в штрафных зонах или БИН не выполняется. Штрафная зона БгпI состоит из двух подзон -521111, 521112.

Новизна разработанного метода оценивания длительности квазипериода Г состоит в применении многооконной скользящей обработки и анализе попадания тональных максимумов {Л;} в рабочие и штрафные зоны окон обработки.

Разработанный метод сегментации состоит в следующем. На вокализованных участках речи после оценки квазипериода ОТ начальное положение всех окон сдвигается во времени на величину найденного квазипериода pitch. При обработке невокализованных участков сдвиг окон осуществляется на постоянную минимальную величину, равную 1 мс.

Обработка речевого сигнала алгоритмом сегментации на вокализованные фонемы выполняется синхронно меткам основного тона. При этом вокализованные участки, длительность которых меньше минимальной длительности фонемы, отбрасываются и в дальнейшей обработке не участвуют. Минимальная длительность вокализованной фонемы принята равной 40 мс.

Начало и конец работы алгоритма сегментации задаются алгоритмом определения траектории тона по начальной отметке выхода на квазипериодический участок и конечной отметке прекращения квазипериодических колебаний. Границей предыдущей вокализованной фонемы считается начало текущего вокализованного участка.

В третьей главе разрабатываются алгоритмы, структурная и функциональные схемы устройства определения траектории основного тона и сегментации PC на вокализованные фонемы.

Конвейерное вычислительное устройство помехоустойчивой сегментации вокализованных участков речевого сигнала состоит из двух каскадов: устройства определения траектории основного тона (УОТ) и устройства сегментации вокализованных участков на вокализованные фонемы (УСВУ) (рис. 4).

Рис. 4. Структурная схема конвейерного вычислительного устройства помехоустойчивой сегментации вокализованных участков РС

На основе описанных выше методов разработаны следующие алгоритмы функционирования устройств УОТ и УСВУ.

Алгоритм определения траектории частоты основного тона в каждый момент времени может находиться в одном из двух режимов: режим подбора оптимального окна (С) или режим адаптации (А).

Режим подбора оптимального окна (окно обработки установлено в начало обрабатываемого речевого сегмента):

СО. Текущий режим алгоритма curjnode - running. Номер текущего окна обработки curjwinjium - 0.

С1. Вычислить корреляционную функцию в прямоугольном окне длительности win_len_tab[cur_winjium], где winjenjium - таблица длительностей окон обработки.

С2. Если номер окна обработки cur_win_num > 34, то перейти к п. СИ.

СЗ. Найти значения и аргументы экстремумов корреляционной функции в рабочих подзонах RZI1, RZI2, RZII1, RZII2 и штрафной зоне SZIII: max 11 = maxXÊRZn(x),maxl2 = maxXERZi2(x),max21 = maxxeRzin(x),max22 = maxxeRZII2(x), max3 = maxxesz„,(x). C4. maxl = max(maxll,maxl2);max2 - max(max21,max22). Если max 1 < max2, то п. Сб.

C5. Еслитах11 > max 12,то max 1 = maxll,max2 = max21, иначе max 1 = maxl2,max2 = max22, п. C7.

Сб. Если max21 > max22, то maxi: maxll,max2 = max21, иначе maxi - maxl2,max2 = max22.

C7. Если в окне более одного периода, т.е. если max3 > 0.75 • max 1, то п. СЮ.

_ abs(maxl-max2)+2-maxl-max2 „ ^ _„ „

С8. Если —i--> 9.6, то п. СЮ.

тах23 '

С9. Период основного тона pitch = arg(maxl), оптимальное окно, содержащее только два периода основного тона optjvinjium = cur_winjium, участок речи, соответствующий метке периода, признается вокализованным vocal = true, а алгоритм переходит в режим адаптации curjnode = adapt. Окно обработки сдвигается на pitch. Перейти к п. AI.

СЮ. Перейти к следующему окну curjvinjium = curjvinjium + 1, п. С2. СИ. Период основного тона pitch = 1 мс, vocal = false,

curjnode = running. Окно обработки сдвигается на pitch. Перейти в п. СО.

Режим адаптации:

АО. Количество проходов алгоритма cntjun = 0.

Al. Если cntjun > 2 или если optjvinjium < 0 или optjvinjium > 34, то перейти к п. СО, иначе вычислить корреляционную функцию в прямоугольном окне длительности win_len_tab[optjvinjium].

А2. Найти значения и аргументы экстремумов в рабочих зонах RZI, RZII и подзонах штрафной зоны SZIII: maxi = maxxeRZ((x), max2 = maxxeRZi/(x), max31 = maxxeszmi ( x), max32 = maxxsszm2(x).

A3. max3 = max (max31,max32). Если max3>maxl и тахЗ>тах2, то п. A4, иначе п. A5.

A4. Если max31 > тпах32,то opt_win_num = optjvinjium — 1, иначе

optjvinjium = optjvinjium + 1, cntjun = cntjun 4- 1. Перейти к п. Al.

А5. Если тахЗ > 0.9 • maxi, то п. СО.

А6. Если 1 - *rg0na*2)-arg(m<m) > tq r ^ arg(max2)

А7. pitch = arg(maxl), vocal = true, curjnode = adapt, окно обработки сдвигается на pitch, перейти к п. АО.

Алгоритм сегментации вокализованных участков на вокализованные фонемы: S1. Для каждого к-ого квазипериода ОТ вычислить спектральную плотность Sfc(w) и среднюю спектральную плотность (w). При расчете 5fe_1(w) выполнить интерполяцию сплайнами каждого квазипериода ОТ так, чтобы их границы соответствовали к —ому квазипериоду ОТ. При вычислении средней

спектральной плотности первые Q^in/2 квазипериодов пропускаются: Öw) =-¡-о^ /2 ^ + 1 = О^-1-

к 1 Qmin 1 "min'

52. Определить значения сегментирующей функции как значение корреляции между текущей и средней спектральными плотностями:

(p(ti) = r(5i(w),5l_1(w)), где г — коэффициент взаимной корреляции.

53. На каждом шаге, после вычисления i — ой ординаты сегментирующей функции cp(ti) выполнить проверку условия:

если |ту - min (<p(ti+2), min (iJ(ti),<p(ti+1))| > 4 • a^ + с, то границей b считается (arg (<p(ti ) ) + 2)-ой квазипериод ОТ. При этом - •

к -текущий обрабатываемый период, причем к > Q^in;c-некоторая малая величина, исключающая появление ложной границы в случае малого а^. Дальнейший поиск границ продолжается с текущей границы, найденной в п. S3, при этом значения сегментирующей функции обнуляются. Алгоритм выполняется до тех пор, пока есть вокализованные участки, формируемые алгоритмом определения траектории основного тона.

В алгоритме используется относительная минимальная длительность фонемы Q^in =^min ' Fo> где Fo - среднее значение частоты основного тона диктора, вычисленное по всем текущим значениям периодов траектории основного тона обрабатываемого PC.

Новизна разработанного метода и алгоритма сегментации заключается в нормализации спектральных плотностей S(w) по частоте (п. S1), автоматическом подборе интервала усреднения спектральных плотностей квазипериодов (п.п. S1,S2) и специальных правилах локализации границы между соседними фонемами (п. S3).

На рис. 5 показана структурно-функциональная схема устройства определения траектории основного тона, представляющего собой шестиступенчатый конвейер. Условные обозначения входных и выходных линий связи в блоках схемы соответствуют наименованиям переменных, принятых в приведенных формулах и алгоритмах, и показывают последовательность их конвейерного вычисления и способ аппаратной ориентации алгоритмов.

Новизна устройства состоит в том, что вторая и третья ступени конвейера синтезированы в виде параллельных пятиканальных вычислителей на основе следующего преобразования выражения модифицированной корреляционной функции (2), позволившего составить следующий рекурсивный вычислительный алгоритм потокового нахождения множества корреляционных функций сигнала в нескольких разных окнах скользящей обработки:

S5(N,k)-~Sl(N,k)-S2(N,k)

где Б^Ы.к) ...55(//, к) - частичные суммы, определяемые следующими формулами: ЗД к) = Б2(Ы,к) = *£+*:

= ЕГЛЧ2; = ЖгкхЪк; =

Таким образом, к) = /(^ДО, /ОЛМ. Аг),53(^, /с),^^, /с)), а

51(Л/,/с) = ^(ЛГ - 1,/с) + х^, /с) = 52(ЛГ- 1, /с) + хг+(с; /с) = 53(ЛГ - 1,/с) + х?; 54(МД) = 54(К - 1,к) + 55(М,к) = 53(Л/ - 1,/с) + ^¡^г+к- Соответственно, по каждому текущему значению к модифицированная корреляционная функция к~) может быть вычислена сразу для всех Л/, а затраты на вычисление к) для следующего к сводятся к минимуму.

Основные временные затраты при вычислении значения каждого очередного квазипериода приходятся на блок 2 вычисления частичных сумм и блок 3 вычисления автокорреляционной функции (рис. 5). Для вычисления корреляционной функции в окнах, с максимальной длительностью окна, равной Мтах> требуется (}согг = \ мтах(Итах — 3) тактов. Суммарное количество тактов, необходимых для нахождения одного периода основного тона РС устройством: (}Ша1 = (?согг + <?БВМ + <?бпр/ где <2бвм - количество тактов, необходимое для нахождения зональных максимумов в текущем окне (блок 5); <2БПР -количество тактов, необходимое для принятия решения о наличии периодичности в текущем окне обработки (блок 6). В худшем случае при работе на шумовом сигнале для обработки одной ординаты сигнала требуется (¿1о(а1/М1т5 тактов, где Л[1гп5 - количество точек РС, соответствующего минимальной величине сдвига начала окон, равной одной миллисекунде. Для различных значений частоты дискретизации РС величины отношения (Змм/Мщи приведены в таблице 1.

Таблица 1. Оценка быстродействия УОТ, требуемого для обработки в реальном времени при разных частотах дискретизации входного РС_

Частота ^тах Qtotal/Nlms Требуемая тактовая

дискретизации, Гц частота, МГц

22050 900 17582 388

11025 450 8443 93

8000 326 6397 51

Для сравнения показателей производительности был использован современный персональный компьютер с процессором Intel Pentium Dual-Core 1.73 ГГц. Для оценки быстродействия в качестве экспериментального сигнала использовался розовый шум с частотой дискретизации 22050Гц и длиной выборки 220000 точек. Среднее время выполнения алгоритма составило 85.141 секунд. Исходя из этого, расчетное количество тактов с учетом тактовой частоты процессора составило 668409 тактов на одну ординату сигнала. Моделирование алгоритма определения траектории частоты основного тона на сигнальном процессоре TMS320VC5402 с тактовой частотой 100 МГц проведено для РС с частотой дискретизации 8КГц и длиной выборки 22000 точек. Время работы составило 199.829 секунд, соответственно, количество тактов, необходимых для обработки одной точки РС, составило 918317 тактов на одну ординату сигнала.

Блок хранения данных

Входные данные

pitch

®

Kik

data ext_cfk int_dk tail_op process_op initj

me i data_size

init_k

inc_k

elk

N'•1

сиг к

end j end_k

Блок вычисления частичных сумм

«,к (2) 51

52

S3

S4

S5

с1к

1П|1

Блок вычисления корреляционной функции

Устройство управления

Блок принятия решения

(б) get_max win_num zone_num

max_rho

max_k pitch vocal end_alg

elk start vocal jn cur win num

Выходные данные

Рис. 5. Структурно-функциональная схема устройства определения траектории частоты основного тона

Таким образом, по соотношению чисел тактов работы, требуемых в худшем случае для обработки одной ординаты оцифрованного РС, разработанный параллельно-конвейерный вычислитель позволяет во-первых повысить производительность не менее чем в 30 раз, по сравнению с программной реализацией этих же алгоритмов в многоядерных микропроцессорах или цифровых процессорах сигналов и во-вторых выполнять первичную обработку РС в реальном времени при тактовых частотах 50..А00МГц, существенно снизив за счет этого нагрев микросхем.

При реализации разработанного устройства УОТ для обработки речевых сигналов с частотой дискретизации 22КГц на современных ПЛИС семейств XI-Ппх \Zirtex-4, ХШпх \Л|Чех-5. Аппаратная сложность УОТ составит 3805 слайсов и 34 матричных умножителя 18x18. Емкость требуемой памяти для УОТ - 84690 бит (рис. 5).

В устройстве УСВУ используются базовые алгоритмы цифровой обработки сигналов, такие как: вычисление спектральной плотности, интерполяция сплайнами и т.д. Поэтому УСВУ целесообразно реализовать на процессорах цифровой обработки сигналов.

В четвертой главе представлены результаты программного моделирования разработанных алгоритмов и проведена оценка помехоустойчивости сегментации РС на базе данных реальных речевых сигналов.

Выходные данные программной модели приведены на рис. 6. Квадратами отмечены границы вокализованных фонем, вертикальными линиями - границы квазипериодов. Траектория частоты основного тона представлена на графике ступенчатой линией.

(мс|

Рис. 6. Траектория частоты основного тона и разметка речевого сигнала на квазипериоды и вокализованные фонемы

Вычислительные эксперименты были поставлены на фонотеке реальных речевых сигналов, состоящей из 100 различных слов, произнесенных десятью дикторами мужского и женского полов. На каждое слово фонотеки накладывался «розовый» шум при отношении сигнал/шум 3, 0, -3 дБ. Начальный уровень шума в словах, использованных для восстановления эталонной траектории ОТ, соответствовал отношению сигнал/шум 8-10дБ. Оценка отношения сигнал/шум производилась по формуле:

SNR = 10 • 1оя10

ЮеЧп)

где 5 - ордината реального сигнала с начальным уровнем шума, е - ордината сигнала шума. Помехи типа «розового» шума (шума с тенденцией спада спектральной плотности 3 дБ на октаву в сторону высоких частот) использовались для зашумления исходных речевых сигналов в связи с тем, что они приводят к наибольшему снижению разборчивости речи.

Правильность функционирования системы определения мгновенных значений тональной частоты, множество значений которой образует траекторию ОТ, определялась следующими двумя показателями:

1. Погрешность восстановления траектории ОТ (й).

2. Вероятность нахождения всех квазипериодов вокализованной фонемы (р).

Показатели оценивались по формулам:

О - эталонное количество квазипериодов, п0 - количество выделенных квазипериодов ОТ с заданной погрешностью е, ¡-ое эталонное значение ординаты траектории ОТ, ¡-ое измеренное значение ординаты траектории ОТ на заданном соотношении сигнал/шум, МР-- математическое ожидание эталонной траектории ОТ, 6Г модуль отклонения ¡-х значений ординат и Результаты эксперимента приведены в таблице 2 ^та - условное обозначение разработанного метода, грс1 - условное обозначение лучшего из известных методов, разработанного в центре цифровой обработки сигналов при Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича, в 2005 году).

Таблица 2. Сравнительные результаты оценки помехоустойчивости методов определения траектории основного тона_

дБ §та грс!

6 Р 5 Р

8 0.0150 0.96 0.0330 0.71

3 0.0177 0.69 0.0431 0.43

0 0.0187 0.51 0.0460 0.35

-3 0.0202 0.36 0.0580 0.26

По сравнению с известными методами и алгоритмами погрешность восстановления траектории ОТ снижена не менее чем в 2 раза, а вероятность ненахождения квазипериодов, равная (1 -р) - в 1.7...7 раз при отношении сигнал/шум БМК=3...8дБ и в 1.16...1.33 раза при 5МИ=-3...0дБ, или в среднем в 2 раза.

Оценка помехоустойчивости алгоритма сегментации вокализованных участков речевого сигнала приведена в таблице 3. Эталонная разметка речевых

сигналов в фонотеке была выполнена вручную. Фонема считалась найденной, если ее границы определены с точностью не менее чем в 2 квазипериода основного тона. Вероятность нахождения вокализованных фонем определялась как отношение количества найденных фонем к общему количеству фонем в фонотеке.

Таблица 3. Вероятность нахождения вокализованных фонем

5Щ дБ всего вокализованных фонем найдено вокализованных фонем вероятность нахождения вокализованных фонем

8 498 473 0.95

3 498 354 0.71

0 498 319 0.64

-3 498 199 0.40

Вероятность определения ложных границ внутри участков вокализованных фонем - 0.11. Таким образом, разработанные методы и алгоритмы позволяют определять границы вокализованных фонем с вероятностью 0.4..0.95 и погрешностью не более двух квазипериодов основного тона в диапазоне изменения отношения сигнал/шум от — ЗдБ до 8дБ.

В заключении приведены основные результаты диссертационного исследования. В приложении приведены программы моделирования алгоритмов функционирования устройства, результаты тестирования помехоустойчивости алгоритма сегментации вокализованных участков на вокализованные фонемы, изображения речевых сигналов с восстановленной траекторией основного тона и изображения речевых сигналов, размеченных на вокализованные фонемы.

Основные результаты работы

В диссертации решена актуальная научно-техническая задача повышение помехоустойчивости аппаратно-ориентированных алгоритмов выделения в реальном времени траектории основного тона и вокализованных фонем. Получены следующие результаты:

1. Разработан модифицированный корреляционный метод определения траектории частоты основного тона речевого сигнала, отличающийся применением нескольких, убывающих по длительности, временных окон скользящей обработки, отслеживанием мгновенного значения квазипериода оптимальным окном и адаптацией его длительности к нестабильности частоты основного тона, позволяющий повысить помехоустойчивость и создать предпосылки для параллельного выполнения процедур оценивания основного тона.

2. Разработаны метод и вычислительный алгоритм сегментации вокализованных фонем, основанные на вычислении расстояния между нормализованными по частоте спектральными плотностями речевого сигнала в разных его квазипериодах и совместном использовании процедур определения траектории основного тона и сегментации фонем, позволившие повысить помехоустойчивость и вероятность нахождения границ между разными вокализованными фонемами.

3. Разработана структурно-функциональная организация специализированного вычислительного устройства помехоустойчивого определения траектории основного тона, отличающаяся параллельно-конвейерным вычислением нескольких корреляционных функций в 35 окнах скользящей обработки, позволяющая не менее чем в 30 раз повысить производительность по сравнению с программной реализацией в многоядерных микропроцессорах и цифровых процессорах сигналов.

4. Выполнено программное моделирование алгоритмов функционирования разработанного устройства. Проведены статистические исследования основных показателей их помехоустойчивости. Траектория основного тона воспроизводится с вероятностью 0.4...0.96 и погрешностью 0.02...0.015, границы между вокализованными фонемами находятся с вероятностью от 0.4 до 0.95 с погрешностью не более двух квазипериодов основного тона в диапазоне отношение сигнал/шум от -ЗдБ до 8дБ, что в среднем в 2 раза лучше показателей помехоустойчивости известных методов и алгоритмов.

Основные результаты диссертации опубликованы в следующих работах.

В изданиях из перечня ВАК:

1. Панов, А.Е. Расширение допустимых диапазонов искажения формы и изменения частоты тональных колебаний, выделяемых в речевом сигнале корреляционным методом [Текст] / А.Е. Панов, А.П. Типикин // Телекоммуникации. - 2003. - №11. - С. 13-16.

2. Типикин, А.П. Алгоритм определения границ между вокализованными фонемами [Текст] / А.П. Типикин, А.Е. Панов // Известия ТулГУ Серия выч. техн. Информационные технологии. Системы управления. Вып. 1. Вычислительная техника.-Тула: Изд-во:ТулГУ, 2006.-С. 16-21.

В других изданиях:

3. Панов, А.Е. Метод выделения мгновенных значений квазипериода основного тона речевого сигнала [Текст]/ А.Е. Панов, А.П. Типикин // Методы и средства систем обработки информации: сб. науч. ст. Вып. 4 Курск: Курск-ГТУ, 2007. - С. 70-76.

4. Панов, А.Е. Широкодиапазонное оценивание тона речевого сигнала корреляционным методом [Текст] / А.Е. Панов, А.П. Типикин // Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Сб. мат-лов 6-й межд. конф. "Распознавание 2003" - Курск: 2003. - С.95-97.

5. Панов, А.Е. Метод определения границ вокализованных фонем по критерию грубого выброса [Текст] / А.Е. Панов, А.П. Типикин // Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Сб. мат-лов 7-й межд. конф. "Распознавание 2005" - Курск: 2005. - С.42-44.

6. Panov, А.Е. More robust pitch determination on speech signals [Текст] / А.Е. Pa-nov, A.P. Tipikin // Материалы международной конференции Information and telecommunication technologies in intelligent systems. ITT'IS 07 - Mallorca, 2007. - C.83-85.

7. Панов, А.Е. Параллельное вычислительное устройство определения траектории основного тона [Текст]/ А.Е. Панов, А.П. Типикин // Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Сб. мат-лов 8-й межд. конф. "Распознавание 2008" - Курск: 2008. - С.41-43.

8. Панов, А.Е. Алгоритм помехоустойчивой сегментации речевого сигнала на вокализованные фонемы [Текст]/ А.Е. Панов, Е.Ю. Емельянова // Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Сб. мат-лов 8-й межд. конф. "Распознавание 2008" - Курск: 2008. - С.40-41.

Свидетельства о регистрации программ для ЭВМ:

9. Панов, А.Е. Программный комплекс с открытой архитектурой для широкодиапазонного выделения основного тона речевого сигнала // Свидетельство об официальной регистрации программ для ЭВМ №2006612757.

10. Панов, А.Е. Программный комплекс с открытой архитектурой для сегментации речевого сигнала на вокализованные фонемы // Свидетельство об официальной регистрации программ для ЭВМ №2006612549.

Соискатель

А.Е. Панов

Подписано в печать 2/.//.08. Формат 60x84 1/16. Гарнитура СаНЬп. Печать офсетная. Усл. печ. л. . Тираж 100 экз. Заказ_.

Курский государственный технический университет. Издательско-полиграфический центр Курского государственного технического университета. 305040, г. Курск, ул. 50 лет Октября, 94.

Оглавление автор диссертации — кандидата технических наук Панов, Александр Ефимович

Введение.

Глава 1. Анализ методов, алгоритмов и быстродействующих устройств помехоустойчивого оценивания основного тона и сегментации вокализованных участков речевого сигнала.

1.1. Методы оценивания основного тона речевого сигнала.

1.2. Методы сегментации речевого сигнала на фонемы.

1.3. Устройства сегментации речевого сигнала.

1.4. Выводы.

Глава 2. Корреляционные методы сегментации речевого сигнала.

2.1. Корреляционный метод оценивания мгновенных значений квазипериодов основного тона речевого сигнала.

2.2. Метод сегментации речевого сигнала на вокализованные фонемы.

2.3. Выводы.

Глава 3. Алгоритмы и устройство определения траектории основного тона и сегментации речевого сигнала на вокализованные фонемы.

3.1. Алгоритм определения траектории частоты основного тона.

3.2. Алгоритм сегментации вокализованных участков на вокализованные фонемы.

3.3. Рекурсивный алгоритм потокового вычисления множества корреляционных функций.

3.4. Структурно-функциональная организация устройства сегментации.

3.4.1. Блок хранения данных.

3.4.2. Блок вычисления корреляционной функции.

3.4.3. Селектор данных.

3.4.4. Блок выделения максимумов.

3.4.5. Блок принятия решения.

3.5. Расчет сложности и быстродействия устройств УОТ и УСВУ.

3.5. Выводы.

Глава 4; Программное моделирование разработанных алгоритмов.

4.1. Выводы.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Панов, Александр Ефимович

Актуальность работы. Первичная обработка речевого сигнала (PC) существенно влияет на качество функционирования информационно-речевых систем. При выделении содержащейся в PC информации необходимо располагать как можно большим количеством сведений о его структуре. Вероятность правильного распознавания речи и идентификации диктора зависит от точности определения траектории основного тона и сегментирования PC, то есть разделения его на вокализованные и невокализованные участки, разделения вокализованных участков на интервалы смежных вокализованных фонем, выделения самых коротких фонемных интервалов длительностью около четырех квазипериодов тональных колебаний. Эти же данные необходимы для повышения степени сжатия речевой информации. Причем эти процедуры первичной сегментации должны выполняться в реальном времени в темпе поступления в инструментальную ЭВМ оцифрованного PC.

Неразборчивость и шумовой фон реальной речи, большая нестабильность формирования звуковых колебаний речевым аппаратом существенно усложняют решение названных выше задач сегментации PC. В связи с этим известные методы и алгоритмы первичной обработки и сегментации PC имеют большую математическую и вычислительную сложность. Они ориентированы в основном на программную реализацию и пока имеют недостаточные помехоустойчивость и скорость работы. Необходимость дальнейшего повышения помехоустойчивости требует еще большего увеличения сложности названных алгоритмов, что при программной реализации приведет к дополнительному снижению скорости первичной обработки и сегментации PC.

В тоже время успехи микроэлектроники в повышении степени интеграции элементной базы ЭВМ позволяют аппаратно реализовать в одной специализированной СБИС очень сложные вычислительные алгоритмы и достичь требуемой высокой производительности за счет параллельной организации вычислений. Для этого требуется разработать метод повышения помехоустойчивости первичной обработки PC путем усовершенствования вычислительных алгоритмов сегментации и способ увеличения ее производительности за счет параллельной аппаратной реализации основных ее процедур оценивания мгновенных значений квазипериодов основного тона и сегментации вокализованных фонем.

В связи с вышеизложенным актуальной является научно-техническая задача: повышение помехоустойчивости аппаратно-ориентированных алгоритмов выделения в реальном времени траектории основного тона и вокализованных фонем.

Объект исследования: специализированное вычислительное устройство предварительной обработки речевого сигнала.

Предмет исследования: помехоустойчивые алгоритмы и устройство сегментации вокализованных участков PC в реальном времени.

Работа выполнена в 2005-2008 г.г. по плану совместных НИР научно-исследовательской лаборатории Центра информационных технологий в проектировании РАН и Курского государственного технического университета: «Информационные распознающие телекоммуникационные интеллектуальные системы».

Цель работы: разработка методов, алгоритмов и конвейерного устройства помехоустойчивого выделения основного тона и вокализованных фонем речевого сигнала.

Для достижения поставленной цели решены следующие задачи.

1. Анализ методов, алгоритмов и устройств помехоустойчивого оценивания основного тона и сегментации вокализованных участков речевого сигнала.

2. Модификация корреляционного метода оценивания основного тона путем введения многооконной скользящей обработки сигнала с целью повышения помехоустойчивости определения траектории основного тона.

3. Разработка метода сегментации вокализованных участков речи на фонемы, позволяющего повысить вероятность нахождения границ между ними.

4. Разработка вычислительного алгоритма потокового нахождения множества корреляционных функций в нескольких, разных по длительности, окнах скользящей обработки, как предпосылки для конвейеризации процедур определения траектории основного тона.

5. Разработка алгоритмов, структурной и функциональных схем специализированного конвейерного вычислительного устройства сегментации вокализованных участков речевого сигнала, работающего в реальном масштабе времени.

6. Программное моделирование алгоритмов функционирования разработанного устройства и оценка выигрыша по скорости и помехоустойчивости разработанных методов, алгоритмов и устройства. Оценка аппаратной сложности устройства при реализации на ПЛИС.

Научная новизна результатов работы состоит в следующем:

1. Разработан модифицированный корреляционный метод оценивания мгновенных значений квазипериодов основного тона речевого сигнала, отличающийся применением при скользящей обработке нескольких временных окон различных длительностей и отслеживанием переменного квазипериода наиболее подходящим по длительности окном, позволяющий повысить помехоустойчивость воспроизведения траектории основного тона.

2. Разработан метод сегментации вокализованных участков речи на фонемы, основанный на вычислении расстояния между нормализованными по частоте спектральными плотностями речевого сигнала в разных его квазипериодах, отличающийся учетом непостоянства тональной частоты, ограничением диапазона усреднения спектров по числу квазипериодов, специальными правилами локализации переходного участка между фонемами и позволяющий повысить вероятность нахождения границ между ними и помехоустойчивость процедур сегментации.

3. Разработан рекурсивный вычислительный алгоритм потокового нахождения множества корреляционных функций сигнала в нескольких разных окнах скользящей обработки, позволивший аппаратно совместить их одновременное определение и организовать конвейерное выполнение всех процедур определения траектории основного тона.

4. Разработаны алгоритмы, структурная и функциональные схемы специализированного вычислительного устройства сегментации вокализованных участков речевого сигнала, отличающегося двухкаскадной аппаратно-программной конвейерной организацией с программной реализацией в цифровом процессоре сигналов во втором каскаде заключительной процедуры сегментации на фонемы и аппаратной реализацией первого каскада в виде шестиступенчатого конвейера процедур оценивания тона, позволяющего достичь быстродействия, достаточного для выполнения предварительной обработки сигнала в реальном времени.

Практическая ценность.

1. Разработанное устройство может быть встроено в звуковую плату ПЭВМ для расширения ее функциональных возможностей по предварительной обработке речевых сигналов, разгружая центральный процессор. Выходные данные устройства являются необходимыми исходными данными для определения признаков при распознавании речи и идентификации диктора на программном уровне ПЭВМ, а также при сжатии речевой информации.

2. Разработанная структурно-функциональная организация устройства позволяет не менее чем в 30 раз повысить производительность по сравнению с программной реализацией в многоядерных микропроцессорах и цифровых процессорах сигналов и обрабатывать речевые сигналы в реальном масштабе времени на тактовой частоте 50-400 МГц.

3. В результате экспериментальных исследований функционирования программной модели устройства на фонотеке, включающей до 100 слов и фраз, показано, что разработанные методы и алгоритмы обеспечивают следующие показатели помехоустойчивости. Траектория основного тона воспроизводится с вероятностью 0.4.0.96 и погрешностью 0.02.0.015, границы между вокализованными фонемами находятся с вероятностью от 0.4 до 0.95 с погрешностью не более двух квазипериодов основного тона в диапазоне отношения сигнал/шум от-ЗдБ до 8дБ, что в среднем в 2 раза лучше показателей помехоустойчивости известных методов и алгоритмов. Реализация и внедрение. Результаты работы использованы в ОКБ «Авиаавтоматика» (г. Курск), в ООО «ЮнионСофт технолоджиз», а также в учебном процессе Курского государственного технического университета. Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на международных конференциях: МНТК «Распознавание-2003» (г. Курск, 2003), МНТК «Распознавание-2005» (г. Курск, 2005), МНТК «Распознавание-2008» (г. Курск, 2008), 22 межвузовской научно-технической конференции «Молодежь и XXI век» (г. Курск, 2003), МНТК «Information and telecommunication technologies in intelligent systems» (Mallorca, Spain, 2007), а также на научных семинарах кафедры ВТ КурскГТУ. Публикации. По материалам диссертации опубликовано 10 работ, в том числе 3 статьи, 2 из которых - в журналах, входящих в перечень ВАК, 5 тезисов докладов и 2 свидетельства об официальной регистрации программ для ЭВМ. Личный вклад автора. В работах, опубликованных в соавторстве, лично автором в [1,3,4] разработан модифицированный корреляционный метод оценивания мгновенных значений квазипериодов основного тона; в [2,5] разработан метод сегментации вокализованных участков речи на фонемы; в [6,8] проведена оценка помехоустойчивости названных методов сегментации вокализованных участков речевого сигнала; в [7] разработан рекурсивный алгоритм потокового вычисления множества корреляционных функций, структурные и функциональные схемы специализированного вычислительного устройства сегментации вокализованных участков речевого сигнала. На защиту выносятся следующие результаты:

1. Модифицированный корреляционный метод определения траектории основного тона речевого сигнала, отличающийся применением нескольких, убывающих по длительности временных окон скользящей обработки, позволяющий повысить помехоустойчивость и создать предпосылки для параллельного выполнения процедур оценивания основного тона.

2. Метод сегментации вокализованных участков речи на фонемы, основанный на вычислении расстояния между нормализованными по частоте спектральными плотностями речевого сигнала в разных его квазипериодах и позволяющий повысить вероятность нахождения границ между ними и помехоустойчивость процедур сегментации.

3. Рекурсивный вычислительный алгоритм потокового нахождения множества корреляционных функций сигнала в нескольких разных окнах скользящей обработки, позволивший аппаратно совместить их одновременное определение и организовать конвейерное выполнение всех процедур определения траектории основного тона.

4. Алгоритмы, структурная и функциональные схемы специализированного вычислительного устройства сегментации вокализованных участков речевого сигнала, отличающегося двухкаскадной аппаратно-программной конвейерной организацией и аппаратной реализацией первого каскада в виде шестиступенчатого конвейера процедур оценивания тона, позволяющего достичь быстродействия, достаточного для выполнения предварительной обработки сигнала в реальном времени.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложений. Список литературы включает 83 наименования.

Заключение диссертация на тему "Алгоритмы и конвейерное вычислительное устройство помехоустойчивой сегментации вокализованных участков речевого сигнала"

4.1. Выводы

1. Разработаны программные модели описанных выше алгоритмов функционирования устройства.

2. Выполнена оценка помехоустойчивости разработанных методов и алгоритмов определения частоты основного тона и сегментации речевого сигнала на вокализованные фонемы. Экспериментально определены показатели помехоустойчивости: погрешность восстановления траектории основного тона 0.02.0.015, вероятность нахождения всех квазипериодов вокализованной фонемы 0.4.0.96. Границы между вокализованными фонемами находятся с вероятностью от 0.4 до 0.95 с погрешностью не более двух квазипериодов основного тона в диапазоне отношения сигнал/шум от -ЗдБ до 8дБ. Вероятность определения ложных границ внутри участков вокализованных фонем - 0.11.

Заключение

В диссертации решена актуальная научно-техническая задача повышение помехоустойчивости аппаратно-ориентированных алгоритмов выделения в реальном времени траектории основного тона и вокализованных фонем. Получены следующие результаты:

1. Разработан модифицированный корреляционный метод определения траектории частоты основного тона речевого сигнала, отличающийся применением нескольких, убывающих по длительности, временных окон скользящей обработки, отслеживанием мгновенного значения квазипериода оптимальным окном и адаптацией его длительности к нестабильности частоты основного тона, позволяющий повысить помехоустойчивость и создать предпосылки для параллельного выполнения процедур оценивания основного тона.

2. Разработаны метод и вычислительный алгоритм сегментации вокализованных фонем, основанные на вычислении расстояния между нормализованными по частоте спектральными плотностями речевого сигнала в разных его квазипериодах и совместном использовании процедур определения траектории основного тона и сегментации фонем, позволившие повысить помехоустойчивость и вероятность нахождения границ между разными вокализованными фонемами.

3. Разработана структурно-функциональная организация специализированного вычислительного устройства помехоустойчивого определения траектории основного тона, отличающаяся параллельно-конвейерным вычислением нескольких корреляционных функций в 35 окнах скользящей обработки, позволяющая не менее чем в 30 раз повысить производительность по сравнению с программной реализацией в многоядерных микропроцессорах и цифровых процессорах сигналов.

4. Выполнено программное моделирование алгоритмов функционирования разработанного устройства. Проведены статистические исследования основных показателей их помехоустойчивости. Траектория основного тона воспроизводится с вероятностью 0.4.0.96 и погрешностью 0.02.0.015, границы между вокализованными фонемами находятся с вероятностью от 0.4 до 0.95 с погрешностью не более двух квазипериодов основного тона в диапазоне отношение сигнал/шум от-ЗдБ до 8дБ, что в среднем в 2 раза лучше показателей помехоустойчивости известных методов и алгоритмов.

5. Результаты диссертационной работы в виде пакета специализированных программ внедрены на ОАО ОКБ «Авиаавтоматика» (г.Курск) и ООО «Юнионсофт Технолоджиз» (г. Курск). В результате экспериментальных исследований получено подтверждение основных теоретических положений диссертационной работы.

Библиография Панов, Александр Ефимович, диссертация по теме Элементы и устройства вычислительной техники и систем управления

1. Панов, А.Е. Расширение допустимых диапазонов искажения формы и изменения частоты тональных колебаний, выделяемых в речевом сигнале корреляционным методом Текст. / А.Е. Панов, А.П. Типикин // Телекоммуникации. 2003. - №11. - С. 13-16.

2. Панов, А.Е. Метод выделения мгновенных значений квазипериода основного тона речевого сигнала Текст./ А.Е. Панов, А.П. Типикин // Методы с средства систем обработки информации: сб. науч. ст. Вып. 4 Курск: КурскГТУ, 2007. С. 70-76.

3. Panov, А.Е. More robust pitch determination on speech signals Текст. / А.Е. Panov, A.P. Tipikin // Материалы международной конференции Information and telecommunication technologies in intelligent systems. lTT'lS 07 -Mallorca, 2007. C.83-85.

4. Фант, Г. Акустическая теория речеобразования Текст. / Г. Фант // М.: Наука, 1964. 284 с.

5. Flanagan, J. L. Speech Analysis, synthesis, and Perception / J. L. Flanagan // New York: Springer-Verlag, 1972.

6. Бондаренко, В.П. Обработка речевых сигналов в задачах идентификации Текст. / В.П.Бондаренко, А.А.Конев, Р.В.Мещеряков // Известия ВУЗов «Физика», 2006. -Т.49. вып.9. - С.207-210.

7. Васильев, К.К. Фильтрация и распознавание речевых сигналов на фоне помех Текст. / К.К. Васильев, С.Л. Афонин, И.В.Крашенинников //Тезисы докладов 51-й научной конференции, посвященной Дню радио. Москва: РНТО РЭС им. А.С.Попова, 1996. - С.143-144.

8. Гудонавичус, Р.В. Распознавание речевых сигналов по их структурным свойствам Текст. / Р.В. Гудонавичус, П.П. Кемешис, А.Б. Читавичус // Л.: Энергия, 1977.-64 с.

9. Крашенинникова, Н.А. К вопросу о распознавании речевых команд в информационно-управляющих системах Текст. / Н.А. Крашенинникова // Электронная техника: Межвузовский сборник научных трудов. Выпуск 8-й. Ульяновск: УлГТУ, 2006. - С.77-83.

10. Методы автоматического распознавания речи Текст. /Под. ред. У.Ли. -М.: Мир, 1983. Т.1. -326 с.

11. Rabiner, L. R. Some preliminary experiments in the recognition of connected digits Текст. / L. R. Rabiner and M. R. Sambur// IEEE Trans. A coust., Speech, Signal Processing, vol. ASSP-24, pp. 170—182, Apr. 1976.

12. Rabiner, L. R. Applications of a nonlinear smoothing algorithm to speech processing Текст./ L. R. Rabiner, M. R. Sambur, and С. E. Schmidt // IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-23, pp. 552—557, Dec. 1975.

13. Levitt, H. Speech Processing Aids for the Deaf: An Overview Текст. / H. Levitt // IEEE Trans. Audio and Electroacoustics, 1973 г. Vol. AU-21. - стр. 269-273.

14. Крашенинников, И.В. Системы анализа речевых сигналов Текст. / И.В.Крашенинников, А.И.Горбунов // Тезисы докладов 31-й научно-технической конференции УлГТУ. Ульяновск: УлГТУ, 1997. - Часть 2. -С.20-22.

15. Косарев, Ю.А. Естественная форма диалога с ЭВМ Текст. / Ю.А. Косарев //М.: Машиностроение, Ленингр. отд., 1989. -142 с.

16. Плотников, В. Н. Речевой диалог в системах управления Текст. / В. Н. Плотников, В. А. Суханов, Ю. Н. Жигулевцев// М.: Машиностроение, 1988. 224 с.

17. Atal, В. S. Automatic speaker recognition based on pitch contours Текст. / В. S. Atal // J. Acoust. Soc. Amer., vol. 52, pp. 687—1697, Dec. 1972.

18. Rosenberg, A. E. New Techniques for Automatic Speaker Verification Текст. /

19. A. E. Rosenberg, M. R. Sambur // Speech, and Signal Proc. : IEEE Trans. Acoust., 1975 r. - Vol. ASSP-23. - стр. 169-176.

20. Бабкин, В.В. Помехоустойчивый выделитель основного тона речи Текст. /

21. B.В. Бабкин // 7-ая Международная Конференция и Выставка Цифровая Обработка Сигналов и ее Применение DSPA-2005. Москва, 2005.

22. Арлазаров, В.Л. Методы выделения периодов основного тона в речевомсигнале Текст. / Арлазаров В.Л, Богданов Д.С., Розанов А.О., Финкель-штейн Ю.Л. //

23. Крашенинников, И.В. Методы определения периода речевых сигналов Текст. / И.В. Крашенинников // Труды Ульяновского научного центра «Ноосферные знания и технологии» РАЕН. Том 2. Выпуск 1. Ульяновск, 1999. - С.111-116.

24. Gold, В. Parallel Processing Techniques for Estimating Pitch Periods of Speech in the Time Domain Текст. / В. Gold and L. R. Rabiner //J. Acoust. Soc., Am., Vol. 46, No. 2, Pt. 2, pp. 442-448, August 1969.

25. Gold, B. Computer Program for Pitch Extraction Текст./ Gold B. // J. Acoust. Soc. Am, Vol. 34, No. 7, pp. 916-921, 1962.

26. McGonegal, C. A. A semiaptomatic pitch detector (SAPD) Текст. / С. A. McGonegal, L. R. Rabiner, and A. E. Rosenberg // IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-23, pp. 570—574, Dec. 1975.

27. Markel, J. D. The SIFT algorithm for fundamental frequency estimation / J. D. Markel // IEEE Trans. Audio Electroacourt., vol. AU-20, pp. 367—377, Dec. 1972.

28. Dubnowski, J. J. Real-time digital hardware pitch detector / J. J. Dubnowski, R. W. Schafer and L. R. Rabiner // IEEE Trans. Acoust., Speech, Signal Processing, pp. 2-8, vol ASSP-24, feb 1976.

29. NoB, A. M. Cepstrum pitch determination Текст. / A. M. NoB // Acoust. Soc. Amer, vol. 41, pp. 293—309, Feb. 1967.

30. Rabiner, L. R. On the Use of Autocorrelation Analysis for Pitch Detection /

31. R. Rabiner // IEEE Trans. Acoust., Speech and Signal Proc., Vol. ASSP-25, No. 1, pp. 24-33, February 1977.

32. Cheng, M. J. A comparative performance study of several pitch detection algorithms Текст. / M. J. Cheng // M. S. thesis, Mass. Inst. Technol., Cambridge, June 1975.

33. Ross, M. J. Average Magnitude Difference Function Pitch Extractor Текст. / M. J. Ross, H. L. Shaffer, A. Cohen, R. Freudberg, and H. J. Manley // IEEE Trans. Acoust., Speech and Signal/ Proc., Vol., ASSP-22, pp. 353-362, October 1974.

34. Sondhi, M. M. New Methods of Pitch Extraction Текст. / M. M. Sondhi // IEEE Trans. Audio and Electroacoustics, Vol. AU-16, No. 2, pp. 262-266, June 1968

35. Miller, N. J. Pitch detection by data reduction Текст. / N. J. Miller // IEEE-Trans, Acoust., Speech, Signal Processing (Special Issue on IEEE Symposium on Speech Recognition), vol. ASSP-23, pp. 72-79, Feb. 1975.

36. Barnwell, T. P. Pitch and Voicing in Speech Digitization Текст. / Т. P. Barnwell, J. E. Brown, A. M. Bush, and C. R. Patisaul // Res. Rep. No. E-21-620-74-B4-1, Georgia Inst, of Tech., August 1974.

37. Cheveigne, A. YIN, a fundamental frequency estimator for speech and music Текст. / A. Cheveigne, H. Kawahara // Journal of the Acoustical Society of America, Vol 111(4), pp 1917-30, April 2002.

38. Sun, X. Pitch determination and voice quality analysis using subharmonic-to-harmonic ratio Текст. / X. Sun // Proc. of IEEE International Conference on

39. Acoustics, Speech, and Signal Processing, Orlando, Florida, May 13-17, 2002.

40. Рабинер, Л.Р. Цифровая обработка речевых сигналов, пер. с англ Текст. / Л.Р. Рабинер, Р.В. Шафер // М : Радио и связь, 1981. стр. 496.

41. Лурия, А. Р. Высшие корковые функции человека и их нарушения при локальных поражениях мозга / А. Р. Лурия // М., 1962.

42. Правдина, О. В., Логопедия / Правдина, О. В. // М., 1969;

43. Travis, L. Е. Handbook of speech pathology ed. by L. E. Travis / N. Y. Luchsinger R., Arnold G. E. // Lehrbuch der Stimm- und Sprach-heilkunde, 2 Aufl., W., 1959.

44. Хорев, A.A. Системы виброакустической маскировки Текст. / А.А. Хорев // Специальная техника. №6, - 2006.

45. Сорокин, В.Н. Сегментация и распознавание гласных. Текст. / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы, 2004 г. 2 : Т. 4. -стр. 202-220.

46. Кринов, С.Н. Сегментация речевых сигналов Текст. / С.Н. Кринов, Г.И. Цемель // Речевое общение в автоматизированных системах. М.: Наука, 1975.-С. 14-24.

47. Потапова, Р.К. Лингвистические ограничения и сегментация слитной речи / Р.К. Потапова // Проблемы построения систем понимания речи. М.: Наука, 1980.-С. 18-30.

48. Кириллов, С.Н. Алгоритмы сегментации речевых сигналов в естественноязыковых интерфейсах / С.Н. Кириллов, А.С. Шелудяков, О.Е. Шустиков. // ЭВМ и информационные технологии. Межвузовский сборник научных трудов. Рязань, 1998. - С. 4-8.

49. Конев, А.А. Выделение вокализованных звуков в слитной речи Текст. / А.А.Конев, В.И.тихонова // Сборник трудов Х\/1сессии Российского акустического общества. Том III. Москва: ГЕОС, 2005. - С.47-50.

50. Ермоленко, Т. Алгоритмы сегментации с применением быстрого вейвлет-преобразования / Т. Ермоленко, В. Шевчук //Статьи, принятые к публикации на сайте международной конференции Диалог^ООЗ. www.dialog-21.ru

51. Kamakshi, Prasad Automatic segmentation of continuous speech using minimum phase group delay functions Текст. / Prasad Kamakshi, Nagarajan, Mur-thy Hema // Speech Communication, 2004, vol. 42, PP. 429-446.

52. Van Hemert, J.P. Automatic segmentation of speech Текст. / J.P. Van Hemert // IEEE Transactions on Signal Processing, 1991, vol. 39, PP. 1008-12.

53. Патент № 5942709 США. МПК G10H 1/057. Audio processor detecting pitch and envelope of acoustic signal adaptively to frequency / Andreas Szalay . -заявлено 07.03.1997; N813549; опубл. 24.08.1999.

54. Патент № 4845753 США. МПК G01L 7/02. Pitch detecting device / Satoshi Ya-sunaga. заявлено 18.04.1986; N943217; опубл. 4.07.1989.

55. Патент № 1895507A1 ЕР. МПК G10H 3/12. Pitch estimation, apparatus, pitch estimation method, and program / Masataka Shizuoka, Tajuya Shizuoka, Keita Shizuoka. заявлено 03.09.2007; N943217; опубл. 05.03.2008.

56. Цилькер, Б. Я. Организация ЭВМ и систем / Б. Я. Цилькер, С. А. Орлов // Учебник для вузов СПб.: Питер, 2004. 668 с.

57. Hung, P. Fast division algorithm with a small lookup table Текст. / P. Hung, H. Fahmy, 0. Mencer, and M. J. Flynn // in Asilomar Conference on Signals,Systems and Computers, vol. 2, pp. 1465-1468, November 1999.

58. Belanovic, P. A library of parameterized modules for floating-point arithmetic and their use Текст. / P. Belanovic and M. Leeser // in High Performance Embedded Computing, September 2002.

59. Sorokin, N. Implementation of high-speed fixed-point dividers on FPGA Текст. / N. Sorokin //JCS&T Vol. 6 No. 1, April 06.

60. Бибило, П.Н. Основы языка VHDL Текст. / П.Н. Бибило // М.: СОЛОН-Р, 2000. 208 е.: ил.

61. Бибило, П.Н. Синтез логических схем с использованием языка VHDL Текст. / П.Н. Бибило // М.: СОЛОН-Р, 2002. 384 с.

62. Суворова, Е.А. Проектирование цифровых систем на VHDL Текст. / Е.А. Суворова, Ю.Е. Шейнин // СПб.: БХВ-Петербург, 2003. 576 с.

63. Leeser, М. Variable Precision Floating Point Division and Square Root / M. Leeser, X. Wang // Proceedings of the 14th Annual IEEE Symposium on Field-Programmable Custom Computing Machines, 2006, pp. 249-258.

64. Панов, A.E. Программный комплекс с открытой архитектурой для широкодиапазонного выделения основного тона речевого сигнала // Свидетельство об официальной регистрации программ для ЭВМ N92006612757.

65. Панов, А.Е. Программный комплекс с открытой архитектурой для сегментации речевого сигнала на вокализованные фонемы // Свидетельство об официальной регистрации программ для ЭВМ №2006612549.

66. Таланов, А. программа EDSW / А. Таланов // http://www.dsp-sut.spb.ru/edsw/