автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка и математическое моделирование алгоритмов обнаружения речевой активности на фоне интенсивных шумов
Автореферат диссертации по теме "Разработка и математическое моделирование алгоритмов обнаружения речевой активности на фоне интенсивных шумов"
На правах рукописи
Хвостов Алексей Васильевич
РАЗРАБОТКА И МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ АЛГОРИТМОВ ОБНАРУЖЕНИЯ РЕЧЕВОЙ АКТИВНОСТИ НА ФОНЕ ИНТЕНСИВНЫХ ШУМОВ
Специальность: 05.13.18 - Математическое моделирование,
численные методы и комплексы программ
Автореферат
диссертации на соискание ученой степени кандидата технических наук
0034Э ' ~
Ульяновск - 2008
003457289
Работа выполнена на технического университета.
кафедре САПР Ульяновского государственного
Научный руководитель - доктор технических наук, профессор
Крашенинников Виктор Ростиславович
Официальные оппоненты - доктор технических наук, профессор
Кумунжиев Константин Васильевич,
кандидат технических наук, доцент Тетерко Вадим Владимирович
Ведущая организация - ОАО «Ульяновское конструкторское бюро
приборостроения»
Защита диссертации состоится 26 декабря 2008 г. в 12 часов на заседании диссертационного совета Д212.277.02 при Ульяновском государственном техническом университете по адресу: 432027, г. Ульяновск, ул. Северный Венец, 32 (ауд. 211).
С диссертацией можно ознакомиться в библиотеке Ульяновского государственного технического университета.
Автореферат разослан « » ноября 2008 г.
Ученый секретарь диссертационного совета,
доктор технических наук, профессор
В.Р. Крашенинников
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время, в силу значительного развития наземных, водных и воздушных транспортных систем, с целью обеспечения их надежной и безаварийной работы большое внимание уделяется оптимизации контроля и управления этими системами. В связи с этим активно ведется разработка технических средств, позволяющих повысить управляемость транспортных систем и снизить нагрузку на оператора (водителя или пилота). В частности, в авиации очень остро стоит вопрос о снижении эмоциональной и физической нагрузки летчиков. В большой степени решению этого вопроса способствует разработка систем, позволяющих осуществлять управление и контроль над бортовым оборудованием с помощью естественного для пилота языка - речевых команд (РК). Подобные системы должны функционировать в условиях интенсивных помех (шума двигателя, ветра, системы воздухообеспечения и т.д.). Исследования показывают, что качество распознавания очень сильно зависит от точности определения моментов начала и конца РК. Особенно это важно при распознавании РК по их эталонам, так как в случае неточного определения границ РК их сравнение с эталонами (а границы эталонов определены точно, поскольку они записаны без шума) происходит несогласованно - сопоставляются разные звуки эталона и РК. Поэтому весьма актуальными являются исследования в области обнаружения РК на фоне интенсивных шумов. В системах сотовой связи преимуществом системы кодирования речи GSM является использование того, что в условиях обычного разговора каждый человек в среднем говорит менее чем 40% длительности разговора. При использовании детектора речевой активности система GSM работает в режиме прерывистой передачи. Благодаря тому, что на интервалах тишины не осуществляется передача, экономится заряд аккумулятора. Детекторы речевой активности используются в системах подавления шума, явления эхо, а также в системах голосового набора номера.
Первые работы по обнаружению разладки принадлежат А.Н. Колмогорову, А.Н.Ширяеву и А.Вальду. Большой вклад в решение этой проблемы внесли А.А. Бутов, Э.Л. Пресман, Г.Роббинс, И.В. Семушин, А.И. Яшин и другие. Обнаружению именно речевого сигнала препятствует сложная структура и высокая нестационарность. Этой проблеме посвящены работы Ю. Жао, Ф.Мекурла, О. Мизуно, Д. Нельсона, В.Г. Санникова и других. Однако проведенные испытания предложенных в этих работах алгоритмов показали, что они дают неудовлетворительные результаты на малых отношениях сигнал/шум. Поэтому тема диссертации, направленной на развитие методов обнаружения речевой активности (РА), является актуальной.
Об актуальности темы диссертации свидетельствует ее связанность с направлением ряда научных федеральных программ, в частности, «Исследования и разработки по приоритетным направлениям развития науки и техники» Федерального агентства по науке и инновациям, «Теория человеко-машинных систем управления» РФФИ и др.
Цель и задачи работы. Целью диссертации является разработка эффективных алгоритмов обнаружения границ РА на фоне интенсивных шумов для повышения качества распознавания РК.
Для достижения поставленной цели решаются следующие задачи:
• Математическое моделирование существующих алгоритмов обнаружения РА с целью определения их эффективности;
• Разработка более эффективных алгоритмов обнаружения РА и их статистическое моделирование;
• Разработка комплекса программ для ЭВМ, реализующего предложенные алгоритмы.
Методы исследования. При решении поставленных задач применялись методы теории вероятностей, математической статистики, теории обработки изображений, математического и статистического моделирования с применением вычислительной техники.
Научная новизна положении, выносимых на защиту.
1. Методом статистического моделирования определены характеристики РС, использование которых в алгоритмах обнаружения РА дает наилучшие результаты. Построенный на основе этих характеристик комплексный алгоритм позволяет существенно снизить дисперсию ошибки оценки границ РК.
2. Предложен ряд новых алгоритмов обнаружения РА с использованием двух микрофонов: в одном только шум, в другом шум и речевой сигнал (РС). Наилучший из них, использующий адаптивную калмановскую фильтрацию, на реальных РС и шумах имеет в несколько раз меньшее СКО ошибки, чем одноканальные алгоритмы.
3. На реальном речевом материале показано, что вероятность правильного распознавания РК можно повысить не только за счет повышения точности определения границ РК, но и за счет согласования оценок границ эталонов и границ распознаваемой РК. Последнее достигается путем повторного применения процедуры обнаружения границ к искусственно зашумленным эталонам.
Достоверность. Достоверность положений диссертации обеспечивается корректным использованием математических методов и подтверждается результатами статистических экспериментов на реальном речевом материале.
Практическая значимость. Представленное описание алгоритмов дает разработчикам возможность их применения при проектировании систем, требующих обнаружения РА в реальном времени, в частности, систем распознавания РК на фоне интенсивных шумов.
Реализация работы. Результаты работы использованы в госбюджетных и хоздоговорных НИР Ульяновского государственного технического университета и в разработках Ульяновского конструкторского бюро приборостроения, что подтверждено актом внедрения.
Апробация работы. Основные результаты работы докладывались на 5-й Всероссийской с участием стран СНГ научно-практической конференции «Современные проблемы создания и эксплуатации радиотехнических систем» (Ульяновск, 2007); Международной конференции «Континуальные алгебраические логики, исчисления и нейроииформатика в науке и технике»
(Ульяновск, 2007); 19-й Международной конференции по исследовательским системам, информатике и кибернетике «InterSymp-2007» (Германия, Баден-баден, 2007); 4-й Международной конференции по проблемам прикладной математики и вычислениям «FICAMC-2007» (Болгария, Пловдив, 2007); 8-й Международной научно-техн. конф. PRIA-8-2007 «Распознавание образов и анализ изображений: новые информационные технологии» (Йошкар-Ола, 2007); 63-й научной сессии Российского научно-технического общества радиотехники, электроники и связи им. Л.С.Попова, посвященной Дню радио (Москва, 2008); 9-й Международной научно-техн. конф. PRIA-9-2008 «Распознавание образов и анализ изображений: новые информационные технологии» (Нижний Новгород, 2008) и на ежегодных конференциях профессорско-преподавательского состава Ульяновского государственного технического университета (2006-2008 гг.).
Публикации. По теме диссертации опубликовано 12 статей, 3 из них опубликованы в изданиях из перечня ВАК.
Объем п структура диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы из 108 наименований и приложений. Общий объем 129 страниц.
СОДЕРЖАНИЕ РАБОТЫ
Во введении раскрыта актуальность темы и сформулированы цели и задачи работы, указывается научная новизна и практическая значимость полученных результатов, дается краткое содержание и структура диссертации.
В первой главе делается краткий обзор сведений о речевом сигнале, его основных характеристиках и математических моделях. Отмечаются различия при использовании разных типов временных скользящих окон. Рассматриваются следующие характеристики:
• кратковременная энергия и кратковременное среднее значение сигнала;
• кратковременная функция среднего числа переходов через нуль;
• кратковременный Фурье-спектр;
• кратковременные кепстральные коэффициенты;
• кратковременный вейвлет-спектр.
Дается обзор методов обнаружения разладки процесса. Они используют вышеперечисленные характеристики и делятся на две группы: использующие априорные сведения о речевой активности и не использующие их. Применение методов первой группы затруднено априорной неопределённостью и нестационарностью РС. Поэтому в диссертации рассматриваются только методы второй группы.
Для ряда методов второй группы проведен их сравнительный анализ для отбора наиболее эффективных. Эксперименты для всех методов проводились на одном и том же материале - реальные РК на фоне трех видов шумов: белый шум, звуки электродвигателя и авиамотора при различных отношениях сигнал/шум.
Эксперименты на белом шуме и шуме электрического двигателя показывают, что лучше с обнаружением команд, начинающихся на вокализованные звуки, а также на звонкие согласные, справляется алгоритм,
вычисляющий сумму амплитуд спектра на разных полосах частот, и алгоритм, основанный на средней амплитуде и количестве пересечений нуля. Команды, начинающиеся на фрикативные звуки, лучше поддаются обнаружению с использованием вейвлет-преобразования. Максимальная среднеквадратическая ошибка обнаружения начала команды на отношении сигнал/шум 1 не превышает 100 мс, завершения команды - 180 мс. Эксперименты с использованием шума самолета показывают, что более эффективно для команд, начинающихся на вокализованные звуки, использовать алгоритм обнаружения с вычислением сумм спектральных амплитуд на разных полосах частот. Для команд, начинающихся на фрикативные согласные, особенно на низких отношениях сигнал/шум, с меньшей среднеквадратической ошибкой определяет начало речевой команды алгоритм с совместным вычислением средней амплитуды и количества пересечений нуля. Завершение команды звучит обычно тише, чем ее начало. В этом случае суммы спектральных амплитуд менее четко реагируют на изменения. Более эффективно, даже для гласных звуков, работают методы с вейвлет-преобразованием и совместным вычислением средней амплитуды и количества пересечений нуля. Максимальная среднеквадратическая ошибка лучшего для каждой команды метода обнаружения начала (на отношении сигнал/шум=1) составляет 1500 отсчетов (136 мс), конца команды - 3000 отсчетов (272 мс).
Проведенные испытания показывают, что ни один из этих перечисленных методов не даёт стабильных результатов для РК, начинающихся и заканчивающихся на разные типы звуков. В условиях интенсивных шумов эти методы дают очень большие ошибки. Это приводит к обрезанию РК и ее несоответствию записанному в обычных условиях эталону. Данный факт сильно снижает вероятность правильного распознавания РК по их эталонам. Поэтому необходима разработка новых алгоритмов, способных в реальном времени более точно обнаруживать границы РК в сильных шумах.
Во второй главе разрабатываются новые методы обнаружения РК и проводится их сравнительный анализ.
Метод 1.1. Комбинация характеристик. Из рассмотренных в главе 1 одноканальных методов были отобраны три наиболее эффективных. Это методы, основанные на спектральном анализе, вейвлет-анализе и совместном изменении амплитуды и количества пересечений нуля. Предлагаемый комбинированный метод заключается в одновременном использовании этих трех методов. Ошибка обнаружения начала команды, как правило, положительная, то есть обнаружение происходит с запаздыванием. Сохраняя даваемые этими тремя методами номера отсчетов начала и конца команды, будем считать началом РК тот отсчет, который имеет меньший номер, т.е. наиболее ранний момент. Ошибка обнаружения конца команды является положительной или отрицательной приблизительно с равной вероятностью для всех трех методов, поэтому для определения конца команды вычисляется усредненный номер отсчета среди полученных этими методами.
Из проведенных экспериментов с этим методом следует, что он является более точным, чем отдельные методы. Среднеквадратическая ошибка для комбинации, особенно на низких отношениях сигнал/шум, заметно ниже, чем
для каждого метода в отдельности. В частности, в условиях шума самолета на отношении сигнал/шум 1 среднеквадратическая ошибка обнаружения начала РК не превышает 1000 отсчетов или 90 мс. Это в 1,5 раза меньше, чем при обнаружении лучшим для конкретной команды некомбинированным методом.
Алгоритм обнаружения начала команды, использующий комбинацию, показывает сопоставимые результаты на любых командах, т.е. не зависит от того, на какой тип звука начинается команда. Для обнаружения конца команды можно использовать какой-либо из некомбинированных методов, но он может быть эффективным для одной команды и совсем неэффективным для другой. Так как неизвестно, какая команда произносится, лучше использовать комбинацию методов. Алгоритм, определяющий среднюю точку конца команды из предлагаемых каждым из методов в отдельности, показывает, что среднеквадратическая ошибка обнаружения конца команды на отношении сигнал/шум двигателя самолета, равном 1, не превышает 3000 отсчетов при частоте дискретизации 11025 Гц (272 мс). В отличие от отдельных методов, использование комбинации позволяет добиться стабильных результатов обнаружения конца РК для любых команд.
Кроме описанного комбинированного метода, для одноканальной схемы разработан метод, основанный на фильтрации Калмана. Предположим, что модель шума в дискретном времени описывается выражениями
хЛм) = РяхМ + аяу>я(ах.еЛ\ (1)
z„{tl) = H„x„{tl) + vn{tl),znzR\ (2)
где {^('ЛКО)} являются независимыми одинаково распределенными последовательностями с нулевым средним и ковариационной матрицей 0„ > 0 и дисперсией /?„ > 0. Полезный сигнал представляется в виде спиральной авторегрессионной модели Хабиби х5 = р + г х!_т - рг х;_т] + /? £, где з = кТ + 1, к- номер витка спирали и 1- номер узла в витке. Переходя к векторно-матричным обозначениям
" 0 1 0 ■ • 0 о' х,-т "0
0 0 1 • • 0 0 0
0 0 0 • • 0 1 *н 0
-гр р 0 • • 0 р. . - А
= Н, =[0 0 0 ••• 0 1], получаем следующую запись
Следует различать гипотезы:
Я0: *(г,) = [о #„] Я,: 2(Г,) = [Я, Н„]
*М
(3)
(4)
Гипотезы Я0 и Я, переключаются с одной на другую в неизвестные моменты времени и как показано на рис. 2. Но II! Но II, Иц И, Пи
J.OI1 .off ¿an ,о(Г +OU ,oir tunc
4—1 4-1 lk tk tk+1 lfc-1
Рис.2. Переключение гипотез Для гипотезы Я0 используется фильтр Калмана в установившемся режиме:
(Q)=FX (К), (К)=5 (О + К At,) Mt,)=z(t,) - нх (Г ),к„ = Рнх:,
C„=H„P„Hl+Rn, Рп=Рп-Р„Нт„С~:НпР, P„=F„PX+GnQnGl. Данный фильтр будет оптимальным для гипотезы Я0 и неоптимальным для Я,, поэтому
1 *
основанная на ошибках прогноза v(?,) сигнальная функция Sk = --¡-"Zs, > где
VA: /=1
A =¿»'v(0, L2„=C„, S, =(м? — 1)/л/2 , £6Л\ S0 =0, будет принимать при гипотезе Я0 меньшие значения, чем при Я,, что и используется для различения этих гипотез:
H0:\Sk\<h,
Hr.\Sk\>h.
(6)
Применение этого алгоритма затрудняется неизвестностью параметров модели. Однако этот алгоритм определяет вид решающего правила. А именно, решение принимается в зависимости от величины ошибок г>(/,) оптимального прогноза. Отсюда можно получить упрощённые алгоритмы, основанные на минимизации этих ошибок. В диссертации предлагается 3 таких алгоритма по одноканальной схеме и 3 - по двухканальной.
Метод 1.2. Адаптивная псевдоградиентная интерполяция с использованием фильтра Калмана. Будем минимизировать ошибки прогноза с помощью подбора коэффициентов фильтра Калмана псевдоградиентным способом. Используем упрощенную запись фильтра Калмана со сглаживанием:
^=с5с^+Ь(х)-сан), (7)
(8)
Построение адаптивного варианта этой процедуры основано на том, что если вектор параметров а={а,Ь)т оптимален в смысле минимума средних квадратов ошибок оценок х], то он же оптимален и в смысле минимума средних квадратов ошибок прогнозов Д] = г] -сгх]_,, и наоборот. Поэтому подстройка а может быть осуществлена по наблюдаемым Д;. Остатки А; зависят от параметра Ъ через хн:
-агхн-аЬ&г (9)
Для минимизации Д;+| применяется алгоритм псевдоградиентной адаптации. Рассчитанные на очередном шаге коэффициенты и Ь. 1,
используются для вычисления очередного прогноза Зс .+| и уточнения Д/+1.
Для текущего скользящего окна применятся подобранные в предыдущем окне коэффициенты а и Ь. Сумма ошибок прогноза в текущем окне будет являться статистикой, сравниваемой с заранее подобранным порогом. Если в текущем окне появится речь, то эта статистика значительно увеличится в силу неоптимальности коэффициентов интерполяции. Если в текущем окне принимается гипотеза Я0, то подобранные в этом окне коэффициенты используются для вычисления ошибок прогноза в следующем окне. Вектор а не меняется, если была принята гипотеза Я,.
Метод 1.3. Интерполяция с использованием оптимальных коэффициентов. Пусть хп~ акустический сигнал, который будем считать центрированным случайным процессом, и
Зс„=ШП- (10)
оптимальная линейная интерполяция процесса, то есть оценка хп по некоторому шаблону . На рис.3 жирными точками показан шаблон г„ = из четырех ближайших соседей оцениваемой точки.
Оптимальный весовой вектор а в (10) находится как
(п)
где Ях,~соу(хп,г)1) - вектор ковариаций хп с вектором наблюдений гп и Ягг = со\(2п,гп) - матрица автоковариаций наблюдений.
« «-•-О-С-О О « I
Рис.3. Шаблон линейной оценки
Для текущего скользящего окна применяется подобранный в предыдущем окне вектор а. Сумма ошибок прогноза в текущем окне будет являться статистикой и сравниваться с заранее подобранным порогом. Если в текущем окне принимается гипотеза Н0, то подобранный в этом окне вектор а используется для вычисления ошибок прогноза в следующем. Вектор а не меняется, если была принята гипотеза Я,.
Метод 1.4. Адаптивная интерполяция с псевдоградиентным подбором коэффициентов. В отличие от предыдущего метода коэффициенты вектора а подбираются псевдоградиентным методом. В этом случае не требуется поиск обратной матрицы, который может быть затруднен в случае плохой обусловленности Л,г. Весовой вектор а находится с помощью псевдоградиентной процедуры:
sign( Дх„) ■ г„, (12)
где гй - наблюдения, sign(&xn) - знак ошибки интерполяции Дх„ = агп ~ хп.
Результаты испытаний одноканальиых методов. В табл. 1 приведены СКО ошибок 4 методов обнаружения начала и конца 114 команд авиационной тематики, выраженные в отсчетах при частоте дискретизации 11025 Гц.
Таблица 1. СКО ошибки обнаружения начала и конца PK
№ метода 1.1 1.2 1.3 1.4
95% дов. инт. СКО начала PK (805;1024) (1006;1280) (1210;1540) (1277; 1626)
95% дов. инт. СКО конца PK (2519;3205) (2930;3729) (3077;3916) (2916;3711)
Двух канальные алгоритмы. В некоторых системах распознавания PK на фоне интенсивных шумов, предназначенных для авиации, используется двухканальная схема из двух микрофонов. Один микрофон расположен в маске пилота и принимает сигнал У, содержащий в себе произносимый речевой сигнал (PC) 5 на фоне шума в в кабине самолета. Другой микрофон расположен на некотором удалении от первого и принимает шум в кабине в. Из-за физических свойств распространения звуковых волн в акустической среде кабины шумы вив отличаются друг от друга, однако зарегистрированы от одного источника, поэтому в рассматривается в дальнейшем как оценка шумового фона PC в.
Общая идея заключается в использовании разницы процессов в двух каналах. Для гипотезы Я0 характеристики процессов в обоих каналах приблизительно одинаковые, для гипотезы Я, появляется заметное различие из-за добавки PC. Преимуществом такой системы является анализ окон, выделенных из параллельных процессов в один и тот же временной отрезок, в отличие от одноканальиых систем, в которых сравниваются смежные или пересекающиеся окна, т.е. выделенные в разные временные отрезки.
Метод 2.1. Изменение оценки квазипериодов. Идея данного метода заключается в следующем. Введем для процесса х„ понятие квазипериода Т, т.е. количество отсчетов последовательности, на которое нужно сдвинуться,
чтобы получить максимально схожее с исходным окно: Т = arg min £ |xnH+i - |.
1 /
Так как процессы хп и уп происходят от одного источника, то их квазипериоды будут приблизительно одинаковыми при гипотезе Я0, а при Я, в одном из каналов эти квазипериоды должны значительно различаться, если речь сильно отличается от шума. Применяется решающее правило
Ак <= Л => НЛ речи нет),
(13)
Як > А => Наречь есть),
где Лк = \тк - Тк,Тк - квазипериоды в к -ом окне процессов хп, уп,
Л = /иЛ + 3(Тд - порог, mi и сгх - среднее значение и СКО статистики Л среди тех
окон, для которых была принята гипотеза Нй,
Метод 2.2. Изменение количества переходов через ноль в двух каналах. Введем для каждого скользящего окна статистику, равную отличию числа переходов через ноль в двух каналах:
Я* = —
I х(.) - 5ЁП(х,_, )| - X ) - БВП)'
------- .. .-.„ „ ________________(14)
/ / /
которая при изменении сигнала в одном из каналов должна возрастать.
Решающее правило:
Я* <= Л => На{речи нет), Я* > Л Нх{речь есть), где А = тЛ + 3ах) тя . среднее значение статистики Я среди тех окон, для которых была принята гипотеза Н0) ах. среднеквадратическое отклонение Я. Метод 2.3. Изменение кросскорреляции Пирсона меаду двумя
соу(х у )
процессами. В скользящем окне вычисляется статистика Я =-——. В
моменты наличия речи данная величина должна снижаться, так как процессы хп и уп становятся еще более различными. Решающее правило:
Я А Н0(речи нет),
Я<А=> Наречь есть), ^^
где А = тг- Зет,. Показатели алгоритма улучшаются, если на этапе инициализации, на котором гарантированно отсутствует РА, определить расстояние г между отсчетами этих процессов, при котором корреляция максимальная, и в дальнейшем рассчитывать статистику на этом расстоянии между последовательностями.
Метод 2.4. Изменение кросскорреляцнн Спирмена менаду двумя процессами. Практический расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:
1) Сопоставление каждому отсчету его порядкового номера (ранга) по возрастанию (или убыванию).
2) Определение - разности рангов каждой пары сопоставляемых отсчетов для г = 1,...^, где N - размер окна.
3) Вычисление коэффициента корреляции рангов по формуле:
Я = 1-61</(^-Аг). (17)
Данный метод отличается от предыдущего только способом расчета статистики Я.
Метод 2.5 Вейвлет - декомпозиция. В этом методе используется разложение в скользящих окнах последовательностей хп и уп по схеме дерева с использованием вейвлетов Добеши. Из разложений в двух каналах берется по одному вектору X и У из разложений окон хп и уп. Статистика
Я = ~ К )2 сравнивается с порогом А = тл+ Зсгл.
Метод 2.6. Спектральное разложение Фурье. В данном методе используется быстрое преобразование Фурье скользящих окон последовательностей х„ и УВ области разложения, отвечающей за частоты 300 - 3400 Гц, вычисляется статистика Я = - ^ )2 , где X и У -
амплитудные спектры. Порог определяется из условия Л = тк + Зст; и сравнивается со статистикой Я.
Метод 2.7. Отношение энергнй. В скользящем окне между двумя процессами хп и уп вычисляется статистика Я = £(•*,-)2/£(.У,)2 и сравнивается с
1 I
порогом Л = тх + Зстя.
Метод основывается на изменении энергии в канале при появлении в нем речи. Так как второй канал уп не регистрирует РК, данная статистика должна повыситься при появлении в первом канале х„ РА.
Метод 2.8. «Сумма квадратов разностей». В скользящем окне между двумя процессами хп и уп вычисляется статистика Я = £ (х, - У, )2 и
I
сравнивается с порогом Л = тк + Зсгя. Метод основан на том, что при появлении речи амплитуда во втором канале изменится, разность амплитуд также увеличится.
Метод 2.9. «Линейная интерполяция с оптимальным весовым вектором». Метод работает аналогично соответствующему одноканальному методу 1.3, но для оценки оптимальных параметров вместо предыдущего окна будет использоваться параллельное окно из опорного шума.
Подобранные в опорном шуме хп коэффициенты вектора а в тех участках процесса у„, где есть речь, будут давать большие ошибки прогноза. Будем использовать этот факт для обнаружения моментов речевой активности в процессе у„. Статистикой Я будет являться отношение средних модулей ошибок прогноза для каждого процесса в текущем окне.
Метод 2.10. Линейная интерполяция, псевдоградиентный вариант. В отличие от метода 2.9 коэффициенты а подбираются псевдоградиентным методом, как в методе 1.4 . В этом случае не требуется поиск обратной матрицы, который может быть затруднен в случае плохой обусловленности Л2.. Весовой вектор а находится с помощью псевдоградиентной процедуры: ап+[=ап- fJ•sign(Axn)■z„, где - наблюдения, sign(Лxr¡) - знак ошибки интерполяции. Элементы корректируются на протяжении всего процесса х в каждом отсчете в отличие от оптимального способа подбора, который подразумевает их вычисление для всего окна.
Метод 2.11. «Адаптивная псевдоградиентная калмановская фильтрация»
Метод работает аналогично соответствующему одноканальному методу 1.2, но для оценки оптимальных параметров вместо предыдущего окна будет использоваться параллельное окно из опорного шума.
Подобранные в опорном шуме хП коэффициенты а ~{а,Ь)Т в тех участках процесса у„, где есть речь, будут давать большие ошибки прогноза. Будем использовать этот факт для обнаружения моментов речевой активности в процессе у„. Статистикой Я будет являться отношение средних модулей ошибок прогноза для каждого процесса в текущем окне.
Результаты экспериментов с двухкапальнымн методами. В табл. 2 приведены СКО ошибок 11 описанных методов обнаружения начала и конца тех
же команд, что и в табл. 1.
____Таблица 2. СКО ошибки обнаружения начала и конца РК
№ метода 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 | 2.10 2.11
СКО н. РК 726 1391 2100 745 867 624 662 944 283 356 138
СКО к. РК 1874 986 1700 1078 1102 921 991 1343 909 917 708
Из таблицы видно, что наименьшее СКО ошибки имеет метод, основанный на фильтрации Калмана, и эта величина в 3-4 раза меньше, чем для лучшего одноканального метода.
Улучшение качества распознавания при персобнаруженни границ эталонов. Видимо, невозможно создать метод абсолютно точного обнаружения границ РК. Поэтому всегда будет некоторое снижение качества распознавания из-за несогласованности распознавания РК с эталонами. Для ослабления этого отрицательного фактора используем то, что при распознавании РК по их эталонам не так уж и необходима высокая точность определения границ распознаваемой РК. Достаточно, чтобы границы распознаваемой РК и эталона были хорошо согласованы. Например, если в распознаваемой РК и ее эталоне пропущена первая фонема, то это сказывается на качестве распознавания значительно меньше, чем если бы эта фонема отсутствовала только в РК или в эталоне. Таким образом, при распознавании достаточно добиться, чтобы границы РК и ее эталона были как можно лучше согласованы.
Для этого искусственно сформируем сигналы
, (18)
где 5, - эталоны и д - шум с микрофона 2. Применим к У1 тот же детектор РА, который используется для обнаружения границ распознаваемых РК. Можно ожидать, что детектор, примененный к сигналу с микрофона 1 и к сигналам (18), определит на них границы, достаточно согласованные для целей распознавания. Дальнейшее распознавание основывается на сравнении распознаваемой РК с переобнаруженными эталонами из (18).
Для подтверждения предложенной возможности получения согласованности границ РК и эталонов приведем результаты серии экспериментов, заключающихся в обнаружении и распознавании РК на фоне шумов. Для определения согласованности обнаружения были выполнены следующие исследования. В качестве распознаваемых и эталонных РК использовались 23 одинаковых команды, произнесенных диктором 10 раз. В качестве шумового фона использовался реальный шум авиационного двигателя. В ходе эксперимента находилась разница Д между моментами обнаружения начала на РК и на ее зашумленном эталоне. Эта разность выражена в количестве отсчетов сигналов. Величина Д характеризует несогласованность в определении начала команды и ее эталона. То же самое было сделано и для концов команд и эталонов. В табл. 3 приведены СКО этих разностей для некоторых из упомянутых выше методов детектирования речевой активности.
№ метода 1.2 1.3 1.4 2.9 2.10 2.11
ад начала РК 367 338 338 276 288 129
Стд конца РК 494 494 405 354 315 253
Из табл. 1, 2 и 3 видно, что предлагаемый подход повышает временную согласованность концов РК в 3-4 раза и немного улучшает согласованность начал РК.
Проверка влияния предложенной методики на качество распознавания была проведена следующим образом. Реальные команды были записаны в условиях шума при отношениях сигнал/шум 1,5 дБ, 3 дБ и 6 дБ (на каждом из них по 69 команд). Эталоны (23 команды) были записаны в условиях тишины и их границы определены точно. Сначала были распознаны РК с использованием обычных эталонов, затем с использованием переобнаруженных эталонов. Применялся алгоритм распознавания, основанный на сравнении автокорреляционных портретов РК. На рис.4 представлены графики зависимости вероятности правильного распознавания Р от отношения
сигнал/шум q (1- без переобнаружения, 2-е переобнаружением).
РрУ° 90 80 ТО 60 50 40 30 20 10 о
0 1 2 3 4 5 6 7
Я
Рис.4. Зависимость вероятности правильного распознавания от отношения сигнал/шум
Как видно из графика, предложенный метод улучшает качество распознавания, и, что особенно важно, - наибольшее увеличение процента верно распознанных РК достигается именно в условиях сильных шумов.
В третьей главе представлена программная реализация предложенных алгоритмов. Комплекс состоит из двух программных изделий, выполненных в среде Delphi на языке программирования высокого уровня Object Pascal. Первое позволяет формировать сигнал, аддитивно смешивая в заданном отношении сигнал/шум файл РК с файлом шума, сравнивать результаты одноканальных алгоритмов обнаружения РК. Второе изделие позволяет работать с готовыми файлами MONO или STEREO, а также в режиме реального времени. В нем реализованы одноканальные и двухканальные методы обнаружения РК, вычисление ошибок обнаружения при наличии текстового файла с истинными границами РК.
В первой программе реализованы известные одноканальные методы, описанные в первой главе диссертации, а также их комбинация. Во второй
программе реализованы методы, описанные во второй главе диссертации. На рис. 5 приведено главное окно программы. _
Параметры ; Результаты! Таблицы Обнаружение в реальном времени ! Delta 1010LT 3/4 j 11 025 kHz, mono. 8-М 411 025 kHz, mono, 15-bit
[Уровень т
0 Показать анализируемый звук
Выбрать режим
Размер буфера в отсчетах ;300
l_A6aKOB_l.wav 1_Абаков_3 wav 1_Бондаренко_7 wav 1_Бондаренко_ 3.wav 1_.Лошак.ов^3.1Л>ау
И Остановить наблюдение Канал речи
Oi ©2
Обработка
J
: Методы обнаружения Вкладка 1 ! Методы обнаружения Вкладка 2
; О Кросскорреляция Пирсона
N=1200 | Подбор порога, сек 15 1 Шаг! 40 |
Усл. обнар. начала.мс 130 j конца| 200 j
2
□ Кросскорреляция Слирмена N-¡200 ] Подбор порога, сек!5 j Шаг-40 |уся обмар мачала,мс[зПконцаj200]
П Отношение сумм квадратов Ц Сумма модулей разностей
14-0 "] усл обнар мачала.мс 130 | N=[¿00" | усл о5нар начала.мс'ЗО \
Шаг ¡40 ! конца. мо{2001 Шаг[50 ] конца, мс Ж |
4 6
□ Сумма квадратов разностей О Корень из суммы квадр разностей N^200 | Усл. обнар. начала.мс[30 | 1200 : усл. обнар. начала,мс[ЗО |
Шаг[50 ] конца, МС12001 Шаг;50 _ ; конца. мс[200~
□ Вейвлет Добеши (US Б182035)
N= 2Л I? )Усл. обнар. нзчала.мс[30 ;
Шаг|зГ~] конца, мс [200|
Обнаруживать по коэффициентам
1 □ е □ и □
2 О 7 □ 12 □
3 □ 8 □ 13 □
4 □ 9 0 14 □
5 □ 10 □
П Непрерывное вейвлет-преобразование D Ошибки шгерполяцми (коэфф. пооптим} N=2" : Усл. обнар начала.мс| 30 N=¡300 j Усл. обнар начала.мС]30
ШагШГП конца, мсИ
D Квадраты рази, амплитуд БПФ N=[256 j Усл. обнар. начала.мс [ 30 Шаг [70 |
В
□ Ошибки ингерлоляцш [коз фф. поПГглг)
.------------------Усл. <*>нар. начала.мс[30 j
— 42Lj«b»> «2нач. м»__конца Я
конца. Mcf200j Шаг ГЙ ] ¡0.39 | [ftflTj [О.ОООТ] L- 1
Рис.5. Главное окно программы
Программа может работать в двух режимах:
1) вести непрерывную обработку поступающего со звуковой карты потока данных в реальном времени;
2) работать с готовыми файлами формата WAV PCM.
Для каждого метода на главном окне программы отведена своя рамка, в которой доступны для изменения параметры соответствующего алгоритма. Пользователь выбирает процедуры, которые будут использоваться для обнаружения. Для этого ему необходимо поставить галочку «Активизировать» в соответствующей рамке.
Для работы в режиме реального времени предусмотрена двойная буферизация. Это позволяет исключить потерю отсчетов: одновременно один буфер обрабатывается, а другой заполняется новыми значениями с источника записи звуковой карты. Это может быть любое устройство (микрофон, линейный вход и др.). Если в системе установлено несколько звуковых карт, то
выбор нужной карты также доступен пользователю. Количество отсчетов в буфере может задаваться произвольно. Тем не менее, слишком большое значение приведет к задержке в принятии решения о наличии РК. Это произойдет в связи с тем, что обработка буфера начинается после его полного заполнения. При активной опции «Показать анализируемый звук» отображается график отсчетов заполненного буфера.
Для каждого алгоритма предусмотрен ввод размера окна, выделяемого из получаемой последовательности, и шага. Шаг может быть произвольным, т.е. допускаются окна с перекрытием. Оптимальные значения этих параметров, минимизирующие временные затраты и ошибки обнаружения 1раниц, были подобраны опытным путем.
Для всех алгоритмов первые 5 секунд работы отводятся на этап инициализации. В этот период времени вычисляются статистики для выбранных методов обнаружения. После получения последней статистики из накопленных величин формируются пороги. Обнаружитель переходит в состояние обнаружения начала команды. В случае выполнения для активного окна гипотезы Я0 полученные статистики используются для обновления порогов. Этот способ позволяет системе адаптироваться к изменению акустической обстановки. При выполнении гипотезы Я, обнаружитель начала РК тестирует следующие окна на временном интервале 30 мс. Если на каждом из них будет принята гипотеза Я,, то начало первого окна будет принято за начальный отсчет РК. Система переходит в поиск конца команды.
Поиск конца команды осуществляется аналогично. Но так как конец команды обычно произносится гораздо тише, непрерывное выполнение гипотезы Я0 должно произойти на интервале 200 мс. Эта величина подобрана опытным путем, исходя из минимизации ошибок обнаружения конца команды. Далее система формирует результат обнаружения в виде отдельного файла в формате WAV PCM и снова переходит в состояние поиска начала следующей команды.
Полученные статистики помещаются на графики. Одновременно может работать 4 метода. При обработке графики обновляются после каждого нового значения. В конце обработки доступны графики статистик за весь период наблюдения, которые можно масштабировать (рис. 6).
В случае выбранной опции сглаживания дополнительно отображается сглаженный график. Сплошными вертикальными линиями обозначаются обнаруженные границы РК, пунктирными - истинные (если заранее известны).
Для сравнения методов предусмотрена работа с заранее подготовленными записями формата WAV PCM MONO или STEREO, 8 или 16 bit. В этом случае данные из такого файла загружаются блоками, подобно заполнению буферов в реальном времени, т.е. выполняется полная имитация работы в реальном времени.
При наличии заранее подготовленного файла (*.txt) с совпадающим именем, содержащем номера отсчетов границ РК, которые определены аудиовизуальным способом, выполняется вычисление ошибок. Под ошибкой обнаружения понимается разница между номером отсчета границы
обнаруженной РК и номером отсчета истинной границы РК. Определяется количество необнаруженных и ложно обнаруженных границ РК, средняя положительная и отрицательная ошибка, средняя ошибка, среднеквадратическое отклонение ошибки (СКО). _
Параметры] Результаты [Таблицы Масштабирование графиков Установка начальной точки
а......-............
Установка количества точек
Кросскорреляция Спирмена
О 500 10ОО 1500 2000 2500 3000 3500 4000 4500 5000 5SOO 6000 8500 7000 7500
Ошибки интерполяции (коэфф. по оптим.)
Ж
О 500 1 000 1500 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500 7QO0 7500
Оиибпи интерполяции (коэфф по ЛГ а л г)
У!
О 500 1000 1 500 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500 7000 7500 Фильтр Кялмана
П од бор ci Вовиммвп корреляция
FA
0 20 40 Мах»;084; Мин см. 27
Смеш ; 23 ; Мах. см. 31 Параметры команд MINдлит.. с[0,3 ! МАХ длит, с [1.5 j Сглаживание графиков Окно
® Прямоугольное С'Хеммикга
| О Нет
| ,_
: Размер окив'
Ойиар^хояь по грмч. P.SM
я . 5Г/1 ■пгл -^т тощ : innrj '">« jririi ¿<л: vm -^Ti РЗШ ■Я'л ;rir'
Выполнено за 70188 ниллисехунд
Рис.6. Окно с графиками некоторых статистик
В заключении подведены основные итоги работы.
1. Разработаны новые эффективные алгоритмы обнаружения РА по одномикрофонной схеме. В частности, моделирование алгоритма, основанного на комбинации характеристик процессов (Фурье-спектр, вейвлет-спектр, амплитуда и число пересечений нуля) показало, что он примерно в 1.5 раза снижает СКО ошибки оценки момента начала РК.
2. Предложенные алгоритмы по двухмикрофонной схеме имеют СКО ошибки определения границ РК в 3-4 раза меньшую по сравнению с одномикрофонной схемой.
3. Разработан способ повышения качества распознавания РК за счет улучшения согласованности оценок границ эталонов и границ распознаваемых команд.
4. Разработан комплекс программ для математического моделирования алгоритмов обнаружения РА. Этот комплекс позволяет также производить обнаружение РА в реальном времени.
В приложении содержится акт внедрения результатов диссертационной работы, а также графики, не вошедшие в основной текст.
Основные результаты диссертации изложены в следующих публикациях:
В изданиях из перечня ВАК:
1. Крашенинников В.Р., Армер А.И., Крашенинникова Н.А., Хвостов А.В. Распознавание речевых команд на фоне интенсивных помех с помощью авторегрессионных портретов // Наукоемкие технологии. - Москва, 2007, № 9. -С. 65-74.
2. Крашенинников В.Р., Хвостов А.В., Армер А.И., Кузнецов В.В. Некоторые задачи, связанные с распознаванием речевых команд на фоне шумов // «Инфокоммуникационные технологии». Периодический научно-технический и информационно-аналитический журнал. Том 6, №1, 2008 - С. 72-75.
3. Krasheninnikov V.R., Khvostov A.V., Armer A.I. Preparation of Templates in Speech Command Recognition by Single- and Double-Channel Scheme in Background Noise // Pattern Recognition and Image Analysis, Pleiades Publishing, Ltd, 2008. Vol. 18, No. 4. pp. 580-583.
В других изданиях:
4. Крашенинников В.Р., Хвостов А.В. Комбинированный детектор речевой активности // «Электронная техника». Межвузовский сборник научных трудов. Выпуск седьмой. Ульяновск, 2005.-С. 45 - 48.
5. Крашенинников В.Р., Хвостов А.В., Армер А.И. Адаптация детектора речевой активности к алгоритму распознавания речевых команд. // «Современные проблемы проектирования, производства и эксплуатации радиотехнических систем». Сборник научных трудов. Выпуск пятый. Ульяновск, 2006.-С. 122-125.
6. Крашенинников В.Р., Хвостов А.В., Армер А.И. Двухканальный комбинированный детектор речевой активности // «Современные проблемы проектирования, производства и эксплуатации радиотехнических систем». Труды Пятой Всероссийской научно-практической конференции (с участием стран СНГ), посвященной 50-летию УлГТУ. Ульяновск, 2007. - С. 60 - 63.
7. Хвостов А.В., Армер А.И. Детектор речевой активности для эталонов в задаче распознавания речевых команд на фоне шумов // Математические методы и модели в науке, технике, естествознании и экономике. Труды международной конференции по логике, информатике, науковедению. Ульяновск, 2007. Том 4. -С. 31-34.
8. Semoushin I.V., Krasheninnikov V.R., Sunoplya M.S., Martyanov A.I., Khvostov A.V. Kalman Filter Based Speech-Like Signal Detection Within a Noisy Environment // Proceedings of the 19th International Conference on Systems Research, Informatics and Cybernatics, InterSymp-2007. Advances in Intelligent Decision Systems, vol. VIII, No.l, pp. 59 - 66.
9. Krasheninnikov V.R., Khvostov A.V., Semoushin I.V., Armer A.I., Martyanov A.I., Sunoplya M.S. Decrease of errors influence in speech activity detection in speech recognition on the background of noise // Fourth International Conference of Applied Mathematics and Computing. Volume 3. Plovdiv, Bulgaria 2007. p. 299.
10. Krasheninnikov V.R., Armer A.I., Khvostov A.V. The Method of Patterns
Preparing for Recognition of Speech Signals on the Background of Noise // Proceedings of the 8lh International Conference on Pattern Recognition and Image Analysis: New Information Technologies, PRIA-8-2007. Volume 1. Yoshkar-Ola,
2007.-pp. 36-38.
11. Крашенинников В.P., Хвостов А.В. Обнаружение речевой активности в двухканальной системе распознавания речевых команд // Труды Российского научно-технического общества радиотехники, электроники и связи имени А.С. Попова. Серия: Научная сессия, посвященная Дню радио. Выпуск LXIII. Москва,
2008. С. 121 - 123.
12. Хвостов А.В. Методы обнаружения речевых команд в условиях сильных шумов, основанные на двух каналах // «Электронная техника». Межвузовский сборник научных трудов. Выпуск десятый. Ульяновск, 2008. -С. 97-101.
Хвостов Алексей Васильевич
Разработка и математическое моделирование алгоритмов обнаружения речевой активности на фоне интенсивных шумов
Автореферат
Подписано в печать 19.11.2008. Формат 60x84/16. Бумага писчая. Усл. печ. л. 1,17. Уч.-изд. л. 1,00. Тираж 100 экз. Заказ f¡cy
Типография УлГТУ, 432027, г. Ульяновск, Северный Венец, 32.
Оглавление автор диссертации — кандидата технических наук Хвостов, Алексей Васильевич
Список сокращений, принятых в диссертации.
ВВЕДЕНИЕ.
ГЛАВА 1. ЗАДАЧА ОБНАРУЖЕНИЯ РЕЧЕВОЙ АКТИВНОСТИ И ОБЗОР МЕТОДОВ ЕЕ РЕШЕНИЯ.
1.1. Постановка задачи.;.
1.2. Речевой сигнал.
1.2.1. Представление речевого сигнала дискретными отсчетами.
1.2.2. Механизм речеобразования.
1.2.3. Математические модели речевых сигналов.
1.3. Основные характеристики речевых сигналов.
1.3.1. Общие сведения.
1.3.2. Кратковременная энергия и кратковременное среднее значение сигнала.
1.3.3. Кратковременная функция среднего числа переходов через нуль.
1.3.4. Кратковременный Фурье-анализ.
1.3.5. Кепстральный анализ.
1.3.6. Кратковременный вейвлет-анализ.
1.4. Известные подходы к решению задачи обнаружения разладки процесса.
1.4.1. Общий вид оптимального решающего правила различения двух гипотез.
1.4.2. Известные одноканальные методы обнаружения речевой активности, не использующие вероятностные характеристики.
1.4.3. Связь вероятности обнаружения с дисперсией ошибки оценки границ.
1.4.4. Сравнительный анализ известных методов.Г.
1.5. Выводы.
ГЛАВА 2. РАЗРАБОТКА И ИСПЫТАНИЕ АЛГОРИТМОВ ОБНАРУЖЕНИЯ РЕЧЕВОЙ АКТИВНОСТИ.
2.1. Комбинация одноканальных методов.
2.2. Другие одноканальные алгоритмы.
2.3. Двухканальные алгоритмы.
2.3.1. Метод, основанный на изменении оценок квазипериодов.
2.3.2. Метод, основанный на изменении количества переходов через нуль.
2.3.3. Методы, основанные на изменении кросскорреляции.
2.3.4. Метод, основанный на вейвлет-декомпозиции.
2.3.5. Метод, основанный на разложении Фурье.
2.3.6. Методы, основанные на энергетических характеристиках.
2.3.7. Методы, основанные на интерполяции.
2.4. Сглаживание статистик.
2.5. Сравнительные испытания двухканальных методов.
2.6. Улучшение качества распознавания при переобнаружении границ эталонов.
2.7. Выводы.
ГЛАВА 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ АЛГОРИТМОВ ОБНАРУЖЕНИЯ РЕЧЕВОЙ АКТИВНОСТИ.
3.1. Структура комплекса программ.
3.2. Описание программы анализа одноканальных методов.
3.3. Описание и возможности программы обнаружения речевых команд и анализа двухканальных методов.
3.4. Аппаратные требования для комплекса.
3.5. Выводы.
Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Хвостов, Алексей Васильевич
Актуальность темы. В настоящее время, в силу значительного развития наземных, водных и воздушных транспортных систем, с целью обеспечения их надежной и безаварийной работы большое внимание уделяется оптимизации контроля и управления этими системами. В связи с этим активно ведется разработка технических средств, позволяющих повысить управляемость транспортных систем и снизить нагрузку на оператора (водителя или пилота). В частности, в авиации очень остро стоит вопрос о снижении эмоциональной и физической нагрузки летчиков. В большой степени решению этого вопроса способствует разработка систем, позволяющих осуществлять управление и контроль над бортовым оборудованием с помощью естественного для пилота языка - речевых команд (РК). Подобные системы должны функционировать в условиях интенсивных помех (шума двигателя, ветра, системы воздухообеспечения и т.д.). Поэтому весьма актуальными являются исследования в области обнаружения РК на фоне интенсивных шумов. Исследования показывают, что качество распознавания очень сильно зависит от точности определения моментов начала и конца РК. Особенно это важно при распознавании РК по их эталонам, так как в случае неточного определения границ РК их сравнение с эталонами (а границы эталонов определены точно, поскольку они записаны без шума) происходит несогласованно - сопоставляются разные звуки эталона и РК. В системах сотовой связи преимуществом системы кодирования речи GSM является использование факта о том, что в условиях обычного разговора каждый человек в среднем говорит менее чем 40 % длительности разговора. При использовании детектора речевой активности система GSM работает в режиме прерывистой передачи. Благодаря тому, что на интервалах тишины не осуществляется передача, экономится заряд аккумулятора. Детекторы речевой активности используются в системах подавления шума, явления эхо, а также в системах голосового набора номера.
Первые работы по обнаружению разладки принадлежат А.Н. Колмогорову, А.Н.Ширяеву [70, 71, 72] и А.Вальду [7]. Большой вклад в решение этой проблемы внесли А.А. Бутов [6], Э.Л. Пресман [47], Г.Роббинс [53], И.В. Семушин [58], А.И. Яшин [73] и другие. Обнаружению именно речевого сигнала препятствует сложная структура и высокая нестационарность. Этой проблеме посвящены работы Ю. Жао [108], Ф.Мекурла [96], О. Мизуно [97], Д. Нельсона [98], В.Г. Санникова [55] и других. Однако проведенные испытания предложенных в этих работах алгоримтов показали, что они дают неудовлетворительные результаты на малых отношениях сигнал/шум. Поэтому тема диссертации, направленной на развитие методов обнаружения речевой активности (РА), является актуальной.
Об актуальности темы диссертации свидетельствует ее связанность с направлением ряда научных федеральных программ, в частности, «Исследования и разработки по приоритетным направлениям развития науки и техники» Федерального агентства по науке и инновациям, «Теория человеко-машинных систем управления» РФФИ и др.
Цель н задачи работы. Целью диссертации является разработка эффективных алгоритмов обнаружения границ РА на фоне интенсивных шумов для повышения качества распознавания РК.
Для достижения поставленной цели решаются следующие задачи:
• Математическое моделирование существующих алгоритмов обнаружения РА с целью определения их эффективности;
• Разработка более эффективных алгоритмов обнаружения РА и их статистическое моделирование;
• Разработка комплекса программ для ЭВМ, реализующего предложенные алгоритмы.
Методы исследования. При решении поставленных задач применялись методы теории вероятностей, математической статистики, теории обработки изображений, математического и статистического моделирования с применением вычислительной техники.
Научная новизна положений, выносимых на защиту.
1. Методом статистического моделирования определены характеристики PC, использование которых в алгоритмах обнаружения РА дает наилучшие результаты. Построенный на основе этих характеристик комплексный алгоритм позволяет существенно снизить дисперсию ошибки оценки границ РК.
2. Предложен ряд новых алгоритмов обнаружения РА с использованием двух микрофонов: в одном только шум, в другом шум и PC. Наилучший из них, использующий адаптивную калмановскую фильтрацию, на реальных PC и шумах имеет в несколько раз меньшее СКО ошибки, чем одноканальные алгоритмы.
3. На реальном речевом материале показано, что вероятность правильного распознавания РК можно повысить не только за счет повышения точности определения границ РК, но и за счет согласования оценок границ эталонов и границ распознаваемой РК. Последнее достигается путем повторного применения процедуры обнаружения границ к искусственно зашумленным эталонам.
Достоверность. Достоверность положений диссертации обеспечивается корректным использованием математических методов и подтверждается результатами статистических экспериментов на реальном речевом материале.
Практическая значимость. Представленное описание алгоритмов дает разработчикам возможность их применения при проектировании систем, требующих обнаружения речевой активности в реальном времени, в частности, систем распознавания РК на фоне интенсивных шумов.
Реализация работы. Результаты работы использованы в госбюджетных и хоздоговорных НИР Ульяновского государственного технического университета и в разработках Ульяновского конструкторского бюро приборостроения, что подтверждено актом внедрения.
Апробация работы. Основные результаты работы докладывались на 5-й Всероссийской с участием стран СНГ научно-практической конференции систем» (Ульяновск, 2007); Международной конференции «Континуальные 7 алгебраические логики, исчисления и нейроинформатика в науке и технике» (Ульяновск, 2007); 19-й Международной конференции по исследовательским системам, информатике и кибернетике «InterSymp-2007» (Германия, Баден-баден, 2007); 4-й Международной конференции по проблемам прикладной математики и вычислениям «FICAMC-2007» (Болгария, Пловдив, 2007); 8-й Международной научно-техн. конф. PRIA-8-2007 «Распознавание образов и анализ изображений: новые информационные технологии» (Йошкар-Ола, 2007); 63-й научной сессии Российского научно-технического общества радиотехники, электроники и связи им. А.С.Попова, посвященной Дню радио (Москва, 2008); 9-й Международной научно-техн. конф. PRIA-9-2008 «Распознавание образов и анализ изображений: новые информационные технологии» (Нижний Новгород, 2008) и на ежегодных конференциях профессорско-преподавательского состава Ульяновского государственного технического университета (2006-2008 гг.).
Публикации. По теме диссертации опубликовано 12 статей, 3 из них опубликованы в изданиях из перечня ВАК.
Объем и структура диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы из 108 наименований и приложения. Общий объем 129 страниц.
Заключение диссертация на тему "Разработка и математическое моделирование алгоритмов обнаружения речевой активности на фоне интенсивных шумов"
Основные результаты диссертации заключаются в следующем.
1. Разработаны новые эффективные алгоритмы обнаружения РА по одномикрофонной схеме. В частности, моделирование алгоритма, основанного на комбинации характеристик процессов (Фурье-спектр, вейвлет-спектр, амплитуды и число пересечений нуля) показало, что он примерно в 1.5 раза снижает СКО ошибки оценки момента начала РК.
2. Предложенные алгоритмы по двухмикрофонной схеме имеют СКО ошибки определения границ РК в 3-4 раза меньшую по сравнению с одномикрофонной схемой.
3. Разработан способ повышения качества распознавания РК за счет улучшения согласованности оценок границ эталонов и границ распознаваемых команд.
4. Разработан комплекс программ для математического моделирования алгоритмов обнаружения РА. Этот комплекс позволяет также производить обнаружение РА в реальном времени.
ЗАКЛЮЧЕНИЕ
Проведенные исследования позволили повысить качество распознавания РК за счет уменьшения дисперсии ошибки обнаружения РА и повышения согласованности обнаруженной РК и эталонов. Таким образом, поставленная цель диссертации может считаться достигнутой.
Библиография Хвостов, Алексей Васильевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ
1. Альтман Я.А. Слуховая система. — JL: Наука, 1990. 620 с.
2. Бабин Д.Н., Уранцев А.В., Мазуренко И.Л., Холоденко А.Б. Способ идентификации факта речевой активности оператора. Патент RU 2148505 С1
3. Беллман Р., Заде JI. Принятие решений в расплывчатых условиях. // Вопросы анализа и процедуры принятия решений. — М. Мир, 1976. С. 172 — 215.
4. Блауэрт И. Пространственный слух. М.: Энергия, 1979. - 224 с.
5. Богуславский И.А., Владимиров И.Г. Адаптивное оценивание вектора сдвига // Техническая кибернетика, N4, 1990. с. 47-64.
6. Бутов А.А., Волков М.А., Санников И.А. Математические модели биологических процессов. Ульяновск: УлГУ, 2001. — 37 с.
7. Вальд А. Последовательный анализ. — М.: Наука, 1960.
8. Васильев К.К., Крашенинников В.Р. Статистический анализ многомерных изображений. Ульяновск, УлГТУ, 2007. — 170 с.
9. Вартанян И.А. Слуховой анализ сложных звуков. JL: Наука, 1978. -151 с.
10. Воробейчиков С.Э., Кабанова Т.В. Обнаружение момента разладки последовательности независимых случайных величин // Радиотехника и электроника, 2002, том 47, №10. с. 1198 1203.
11. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. С-Пб.: ВУС, 1999. - 204 с.
12. Галунов В.И. Речь как система. // Труды XIII сессии РАО, т. 3, 2003. -С. 19-21.
13. Гмурман В.Е. Теория вероятностей и математическая статистика. — М.: Высш. шк., 1998. 479с.
14. Горелик A.JL, Скрипкин В.А. Методы распознавания. М: Высшая школа, 2004.-261 с.
15. Добеши И. Десять лекций по вейвлетам. Ижевск: НИЦ "Регулярная и хаотическая динамика", 2001. - 464 с.
16. Зубов А.Г., Петров А.И. Оценивание в нелинейных стохастических системах при внезапных изменениях структуры и координат состояния // Изв. АН СССР. Техн. киберн. 1990. №4. С.64 77.
17. Калинин Л.В. Последовательное обнаружение и диагностика нарушений в гауссовской марковской модели движения. // Диссертация на соискание ученой степени кандидата технических наук. Ульяновск, 1997. -124 с.
18. Клигене Н.И., Телькснис Л.А. Методы обнаружения моментов свойств случайных процессов // АиТ. 1983. №10. С. 5 — 56.
19. Крашенинников В.Р. Основы теории обработки изображений. -Ульяновск: УлГТУ, 2003. 151 с.
20. Крашенинников В.Р., Армер А.И. Зашумление эталонов в задачах обнаружения и распознавания сигналов на фоне помех // Вестник УлГТУ. Апрель-июнь (26) 2/2004, Ульяновск: УлГТУ, 2004. С. 54 - 57.
21. Крашенинников В.Р., Армер А.И. Распознавание речевых сигналов на фоне шумов // «Распознавание образов и анализ изображений: новые информационные технологии». Труды седьмой международной конференции РОАИ-7, С-Пб, 2004. С. 752 - 755.
22. Крашенинников В.Р., Армер А.И., Крашенинникова Н.А., Хвостов А.В. Распознавание речевых команд на фоне интенсивных помех с помощью авторегрессионных портретов // Наукоемкие технологии. — Москва, 2007, № 9.-С. 65-74.
23. Крашенинников В.Р., Калинов Д.В. Спиралевидная авторегрессионная модель квазипериодического сигнала, связанная с изображением на106цилиндре // Вестник УлГТУ. Сер. Информационные технологии, №3, 2000. -С. 4- 10.
24. Крашенинников В.Р., Ташлинский А.Г., Армер А.И. Устройство распознавания речевых команд в условиях шумов // Патент РФ № 2267820 от 10.01.2006.
25. Крашенинников В.Р., Хвостов А.В. Комбинированный детектор речевой активности. // «Электронная техника». Межвузовский сборник научных трудов. Выпуск седьмой. Ульяновск, 2005.-С.45 — 48.
26. Крашенинников И.В. Периодическое комплексирование речевых сигналов в изображение // Труды Международной конференции "Методы исредства преобразования и обработки аналоговой информации", т. 3. -Ульяновск: УлГТУ, 1999. С. 56 - 58.
27. Лабутин В.К., Молчанов А.П. Слух и анализ сигналов. М.: Энергия, 1967.-79 с.
28. Лабутин В.К. Молчанов А.П. Модели механизмов слуха. — М.: Энергия, 1973.- 200 с.
29. Левин Б.Р. Совместно оптимальные алгоритмы обнаружения сигналов и оценивания их параметров // Радиотехника и электроника. 1994. Т.22. №11. С.2239-2256.
30. Липейка А.К. Об определении момента изменения свойств авторегрессионной последовательности // Статистические проблемы управления. Вильнюс: Институт математики и кибернетики АН Лит.ССР, 1979. Вып. 39. С.9-23.
31. Мазуренко И.Л. Компьютерные системы распознавания речи. // Интеллектуальные системы, т.З. вып. 1 2 - Москва, 1998. - С. 117 - 134.
32. Мазуренко И.Л. Одна модель распознавания речи. В сб.: Компьютерные аспекты в научных исследованиях и учебном процессе М.: Издательство Московского университета, 1996. — с. 136 — 147.
33. Маркел Дж. Д., Грэй А.Х. Линейное предсказание речи / Пер. с англ. -М.: Связь, 1980.-308 с.
34. Михайлов В.Г. К теории восприятия звучащей речи: соотношение акустических и перцептивных параметров // Акустический журнал, т. 43, №2, 1997.-С. 219-224.
35. Михайлов В.Г., Златоустов Л.В. Измерение параметров речи. М.: Радио и связь, 1987. — 167 с.
36. Моттль В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов. М.: Физматлит, 1999. — 352 с.
37. Никифоров И.В. Последовательное обнаружение изменения свойств временных рядов. М.: Наука, 1985. 276 с.
38. Обнаружение изменения свойств сигналов и динамических систем: Пер с англ. /М.Бассвиль, А.Вилски, А.Банвенист и др.; Под ред. М.Бассвиль, А. Банвениста.- М.: Мир, 1989. 278 с.
39. Обработка нечеткой информации в системах принятия решений / Борисов А.В., Алексеев А.В., Меркурьева Г.В. и др. — М.: Радио и связь, 1989 -304 с.
40. Поляк Б.Т., Цыпкин Я.З. Оптимальные псевдоградиентные алгоритмы адаптации // Автоматика и телемеханика, N 8, 1980. — с. 74-84.
41. Потапова Р.К. Речь: коммуникация, информация, кибернетика. М.: Радио и связь, 1997. — 568 с.
42. Пресман Э.Л., Сонин И.М. Последовательное управление по неполным данным. -М.: Наука, 1982.
43. Проблемы построения систем понимания речи. // Под ред. Цемель Г.И., Сорокина В.Н. М.: Наука, 1980. - 144 с.
44. Прохоров Ю.Н. Статистические методы и рекуррентное предсказание речевых сигналов. — М.: Радио и связь, 1984. — 240 с.
45. Прохоров Ю.Н. Рекуррентное оценивание параметров. В кн.: Проблемы построения систем понимания речи — М.: Наука, 1980. - С. 97 — 109.
46. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. под ред. М.В. Назарова, Ю.Н. Прохорова. М.: Радио и связь, 1981.-495 с.
47. Репин В.Г., Тартаковский Г.П. Стохастический анализ при априорной неопределенности и адаптация информационных систем. М.: Советское радио, 1977.-432 с.
48. Роббинс Г., Сигмунд Д. Чао И. Теория оптимальных правил остановки.-М.: Наука, 1977.
49. Розов А.К. Обнаружение, классификация и оценивание сигналов: Последовательные процедуры. — СПб.: Политехника, 1999. 206 е.: ил.
50. Санников В.Г. Устойчивый алгоритм статистической идентификации авторегрессионной модели речевого сигнала. // Цифровая обработка сигналов №2, 2001. С. 10-14.
51. Сапожков М.А. Речевой сигнал в кибернетике и связи. — М.: Связьиздат, 1963.-452 с.
52. Сорокин В.Н. Теория речеобразования. — М.: Радио и связь, 1985. -312 с.
53. Семушин И.В. Адаптивные схемы идентификации и контроля при обработке случайных сигналов. — Саратов: СГУ, 1985. — 180 с.
54. Серебренников М.Г., Первозванский А.А. Выявление скрытых периодичностей. М.: Наука, 1965. — 244 с.
55. Торговицкий И.Ш. Методы определения моментов изменения вероятностных характеристик случайных величин // Зарубежная радиоэлектроника. 1976. №1. С. 3 52.
56. Уидроу Б., Стирнз С. Адаптивная обработка сигналов / Пер. с англ. под ред. В.В. Шахгильдяна. М.: Радио и связь, 1989. - 440 с.
57. Фант Г. Акустическая теория речеобразования. — М.: Наука, 1964. — 283 с.
58. Физиология речи. Восприятие речи человеком / Под ред. JI.A. Чистович. Д.: Наука, 1976. - 386 с.
59. Фланаган Дж. Анализ, синтез и восприятие речи // Пер. с англ. М.: Связь, 1968.-396 с.
60. Хабиби А. Двумерная байесовская оценка изображений // ТИИЭР, 1972, №5, с. 113-120.
61. Хайдер А.С. Математические модели и комплекс программ для автоматического распознавания дикторов // Автореферат диссертации на соискание ученой степени кандидата технических наук. — Санкт-Петербург: ЛЭТИ, 2004.- 17 с.
62. Харкевич А.А. Борьба с помехами. М.: Наука, 1965. - 277 с.
63. Чучупал В .Я., Чиганов А.С., Маковкин К.А. Цифровая фильтрация зашумленных речевых сигналов. — М.: Вычислительный центр РАН, 1998. -51 с.
64. Ширяев А.Н. Некоторые точные формулы в задаче о разладке // Теория вероятности и ее применение. — М: ТВП, т.10,в.2, 1965. -С.380 385.
65. Ширяев А.Н. Об оптимальных' методах в задачах скорейшего обнаружения// Теория вероятности и ее применение. М: ТВП, т.8,в.1, 1963. -С.26 - 51.
66. Ширяев А.Н. Статистический последовательный анализ. М.: Наука, 1976.
67. Яшин А.И. Теоретические и прикладные задачи оценивания скачкообразных процессов. —М.: Институт проблем управления, 1978.
68. Allen, G. D. (1973) 'Segmental Timing in Speech Production', J. Phonetics, Vol. 1, No. 3. pp. 219 237.
69. Atal B. Effectiveness of Linear Prediction Characteristics of the Speech Wave for Automatic Speaker Identification and Verification // J. Acoust. Soc. Amer., Vol. 55, 1974.-pp. 1304- 1312.
70. Anderson D.V., McGrath S., Truong. K. Speech activity detector for use in noise reduction system, and methods therefor. US Patent № 6,453,285 B1
71. Brodsky B.E. and Darkhovsky B.S. "Nonparametric Methods in Change-Point Problems". Kluwer Academic Publishers,The Netherlands, 1993.
72. Basseville M., Nikiforov I. Detection of Abrupt Changes: Theory and Application. IRISA/CNRS, Rennes, France, 1999. 447 p.
73. Benyassine A., Shlomot E. System for detecting voice activity and background noise/silence in a speech signal using pitch and signal to noise ratio information. US Patent № 6,275,794
74. Chow Y-L., Staats E.P. Method and appratus for detecting speech activity using cepstrum vectors. US № 5,596,680.
75. Chow Y-L., Staats E.P. Method and appratus for detecting end points of speech activity. US Patent № 5,692,104.
76. Duncan A.J. Quality control and industrial statistics. N.Y.: Irwin, 1974.
77. Endo K., Ota Y. Speech detecting device and speech detecting method. US2002/0138255 Patent Al.
78. Gass R., Atzenhoffer R. Method of detecting voice activity in a signal, and a voice signal coder including a device from implementing the method. US2002/0188442 Patent Al.
79. Girshick M.A. and Rubin H. A Bayes approach to a quality control model. Annals Mathematical Statistics, vol.23, 1952, pp.114-125.
80. Graumann D.L. Voice activity detector for half-duplex audio communication system. US Patent № 5,737,407.
81. Kelleher H.L., Pearce D.J.B. Voice activity detector and validator for noisy environments. WO 03/063138 Al.
82. Krishnaiah P. and Miao B. Review about estimation of change-points. In: Handbook of Statistics, 1988, v.7. pp.375 -402
83. LaMarche R.E., May C.J., Zebo T.J. Digital Speech Detector. US Patent № 4,028,496.
84. Lockwood P., Lubiarz S. Method for detecting speech activity. US № 6,658,380 Bl.
85. Marchall P.T. Audio and amplitude modulated photo data collection for speech recognition. US Patent № 5,473,726.
86. Mekurla F. Method and apparatus for detecting voice activity. US Patent №6,182,035.
87. Mizuno O. Method for speech detection in a high-noise environment US Patent № 5,732,392.
88. Nelson D.J., Smith D.C., Townsend J.L. Voice activity detector. US Patent № 6,556,967 Bl.
89. Page E.S. Continuous inspection schemes. Biometrika, 1954, v.41, No.l, pp.100-115.
90. Page E.S. "A test for a change in a parameter occurring at an unknown point". Bioinetrica, 1955, v.42, No.4, pp.523-527.
91. Robbe F., Dartois L. Method of using a dominant angle of incidence to reduce acoustic noise in a speech signal. US Patent № 5,539,859.
92. Semoushin I.V., Krasheninnikov V.R., Sunoplya M.S., Martyanov A.I.,
93. Khvostov A.V. Kalman Filter Based Speech-Like Signal Detection Within a Noisy• th
94. Environment // Proceedings of the 19 International Conference on Systems Research, Informatics and Cybernatics, InterSymp-2007. Advances in Intelligent Decision Systems, vol. VIII, No.l, pp. 59-66.
95. Shaban S. Change-point problem and two-phase regression: annotated bibliography. International Statistical Review, 1980, v.48, pp.83-86
96. Shannon С. E. "A Mathematical theory of communication", Bell System Tech. J., Vol.27, October, 1968. pp. 623 656.
97. Sonale E. Method and device for detecting voice activity. US Patent № 6,154,721.
98. Valve P., Hakkinen J. Detection of the speech activity of a source. US Patent № 6,707,910 Bl.
99. Zhao Y., Junqua J-C. Speech detection for noisy conditions. US Patent № 6,480,823 Bl.
-
Похожие работы
- Выделение и предобработка сигналов в системах автоматического распознавания речевых команд
- Разработка и исследование системы распознавания речевых сигналов, искаженных вибропомехами и фоновыми шумами
- Разработка метода многоканальной автоматической компенсации помех в зашумленных речевых сигналах
- Моделирование и распознавание речевых сигналов на фоне интенсивных помех
- Предобработка речевых сигналов в системах автоматической идентификации диктора
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность