автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Анализ и автоматическая сегментация речевого сигнала

кандидата технических наук
Цыплихин, Александр Иванович
город
Москва
год
2006
специальность ВАК РФ
05.13.01
Диссертация по информатике, вычислительной технике и управлению на тему «Анализ и автоматическая сегментация речевого сигнала»

Автореферат диссертации по теме "Анализ и автоматическая сегментация речевого сигнала"

На правах рукописи

Цышшхин Александр Иванович

Анализ и автоматическая сегментация речевого сигнала

05.13.01 - Системный анализ, управление и обработка информации

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва - 2006

Работа выполнена в Институте проблем передачи информации РАН.

Научный руководитель:

доктор физ.-мат. наук,

ведущий научный сотрудник В.Н. Сорокин

Официальные оппоненты:

доктор техн. наук, профессор

В.Р. Женило

кандидат физ.-мат. наук

В.Я. Чучупал

Ведущая организация - Акустический институт им. академика Н.Н. Андреева.

Защита состоится « 3 » 2006 года в 11 часов на заседании

диссертационного совета Д002.077.01 при Институте проблем передачи информации РАН по адресу: 127994 Москва, Большой Каретный пер., д. 19, конференц-зал.

С диссертацией можно ознакомиться в библиотеке Института проблем передачи информации РАН по адресу: 127994 Москва, Большой Каретный пер., д. 19.

Автореферат разослан ■■. ~ 1» лл.<Я. 2006 года.

Ученый секретарь диссертационного совета

д.ф.-м.н.

И.И. Цитович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность диссертации. Для решения многих речевых задач требуется проведение предварительной сегментации речи, то есть разделения речевого сигнала на сегменты, соответствующие квазистационарным и переходным процессам речеобразования. Среди таких задач большой практический интерес представляют задачи распознавания речи и верификации диктора, а также так называемая обратная задача для слитной речи, то есть задача восстановления формы речевого тракта и движений артикуляторов по акустическому речевому сигналу. Для решения этих задач необходимо провести анализ речевого сигнала и вычислить его акустические параметры. К таким параметрам относятся: информация о типе источника (голосовой, фрикативный) на данном участке речевого сигнала, о наличии смычки и назализации.

Эта задача может быть сформулирована как задача распознавания кардинальных типов речевых сегментов. Кардинальные типы речевых сегментов — это группы звуков, созданных с использованием существенно различающихся механизмов речеобразования. Рассматривается шесть кардинальных типов: гласноподобные, назальные, фрикативные глухие и звонкие, а также смычные глухие и звонкие звуки речи. Необходимость распознавания кардинальных типов продиктована, в частности, тем, что в обратной задаче для каждого кардинального типа используются свои акустические параметры и свой критерий оптимизации. Для распознавания типов речевых сегментов необходимо предварительно сегментировать речевой сигнал, то есть выполнить поиск моментов времени, в которые происходит существенное изменение свойств сигнала.

К акустическим параметрам также относятся спектрально-временные характеристики сегментов, положения импульсов голосовых складок и фор-мантные частоты речевого сигнала, которые в большинстве случаев соответствуют резонансным частотам речевого тракта. Для вычисления этих параметров также требуется предварительная сегментация речевого сигнала и распознавание кардинальных типов сегментов, так как, например, анализ голосовых импульсов и формантных частот следует производить только на огласованных участках сигнала.

Известные по литературе методы поиска границ сегментов (Винцюк, Ду-кельский, Bojan, Mermelstein, Kim, Zue) обладают значительными недостатками. В частности, эти методы неприемлемы для решения обратной задачи: они либо используют априорную информацию о содержании речевого сигнала, которая обычно недоступна, либо производят поиск границ слишком грубых элементов — слогов, слов, предложений, либо дают слишком большие погрешности, В свою очередь, описанные в литературе методы распознавания типа сегментов (Amit, Sondhi, Stivens, Wang) также обладают различными недос-

татками и не позволяют решать реальные речевые задачи: они не обладают достаточной точностью, не выполняют распознавания кардинальных типов речевых сегментов.

В практических речевых задачах требуется определение треков формант-ных частот в речевом сигнале. Например, при распознавании речи треки резонансных частот дают информацию о месте артикуляции, при голосовой верификации позволяют оценить индивидуальные динамические характеристики голоса диктора, при решении обратной задачи греки используются для восстановления формы речевого тракта по речевому сигналу. В литературе описано большое число методов определения треков формантных частот (Atal, Flanagan, Hermansky, Markel, Schafer), однако все они имеют недостатки, что заставляет продолжать исследования в этой области.

Известно, что резонансные частоты речевого тракта необходимо вычислять на тех участках голосовых импульсов, где голосовые связки сомкнуты, так как частоты, вычисленные на интервале открытой щели, испытывают влияние подсвязочной области и могут отличаться от резонансных частот тракта на величину до 20%. Это определяет актуальность исследований в области анализа голосовых импульсов, в частности, определения положений голосовых импульсов на речевом сигнале и оценки частоты основного тона. Описанные в литературе методы оценки частоты основного тона (de Cheveigne, Liu, Rabiner, Shimamura) не обладают достаточной точностью и устойчивостью к шумам и искажениям в канале. Кроме того, эти методы не позволяют определять положения голосовых импульсов на сигнале, и, следовательно, выполнять синхронный анализ формантных частот.

Всё это определяет актуальность исследований в области анализа и автоматической сегментации речевого сигнала.

Основная цель исследования заключается в разработке устойчивого метода точной сегментации речевого сигнала и распознавания типов полученных сегментов, вычислении акустических параметров сегментов, а также в разработке методов определения положения импульсов голосового источника и вычисления треков формантных частот.

Достижение этой цели предполагает решение следующих задач:

• обзор и систематизация описанных в литературе методов сегментации и распознавания типов сегментов;

• исследование различных сегментирующих функций и создание алгоритма сегментации на их основе;

• исследование и выбор параметров, позволяющих наилучшим образом распознавать типы сегментов;

• оценка качества нахождения границ и распознавания типов сегментов;

• создание и тестирование метода определения положения голосовых импульсов;

• создание и тестирование метода вычисления треков формантных частот.

Цель и задачи обусловили выбор методов исследования.

В качестве методов исследования использовались методы математического анализа, цифровой обработки сигналов, теории речеобразования и восприятия речи, спектрального анализа речи, линейного предсказания, динамического программирования, аппроксимации плотностей многомерных выборок, теории вероятностей, теории оптимизации и оптимального управления. Оценка работоспособности и эффективности разработанных методов осуществлялась путем численных экспериментов с использованием реальных данных.

Материалом исследования послужили пять различных баз речевых данных.

Одна из них была собрана в Институте проблем передачи информации и содержала образцы речи русскоязычных дикторов общей длительностью около 30 часов, записанные в естественных условиях на микрофоны различных типов. База данных была размечена на фонетико-артикуляторные сегменты опытными лингвистами вручную и использовалась в данной работе для тестирования качества сегментации.

Три другие базы данных содержали ларингографические сигналы, записанные синхронно с фонетически сбалансированными фразами на английском и японском языках, произнесенными дикторами-носителями, общей длительностью примерно 60 минут. Эти базы данных использовались для тестирования метода определения положения голосовых импульсов.

Пятая база данных содержала измерения на микролучевой рентгеноскопической установке и включала в себя образцы речи и артикуляции около полусотни дикторов - носителей американского английского языка.

Научная новизна заключается в установлении признаков, позволяющих распознать тип сегментов речевого сигнала, в разработке алгоритма поиска границ сегментов, основанного на степени изменения кратковременного спектра, а также в создании метода определения положения голосовых импульсов.

Теоретическая значимость диссертации состоит в определении акустических параметров и формировании решающих правил для распознавания переходных процессов и квазистационарных сегментов речевого сигнала. В задаче поиска голосовых импульсов теоретическую значимость представляет

применение к различным классам сигналов разных способов анализа: по огибающей и по самому сигналу. В задаче отслеживания формантных треков -сформированный набор ограничений, основанный на свойствах артикуляции, позволяющий выполнять построение треков.

Практическая ценность диссертации. Предложенные методы и алгоритмы показали высокую эффективность при анализе реальных речевых сигналов. Они позволили автоматизировать решение обратной задачи для слитной речи, существенно улучшить характеристики систем распознавания речи и верификации диктора. Результаты работы были использованы при выполнении темы ОКР «Разработка помехоустойчивой системы автоматического распознавания речи», государственный контракт № 2-01-СТ. Часть исследований была выполнена в рамках работы по проекту «Исследование динамических обратных задач для речевого тракта», грант РФФИ № 03-01-00116.

Положения диссертации, выносимые на защиту: разработанные алгоритмы и программное обеспечение, реализующие в реальном времени на современных ПК решение перечисленных ниже фундаментальных речевых проблем, в частности:

1. Алгоритм сегментации речевого сигнала, основанный на свойствах процесса речеобразования, и позволяющий определять границы стационарных и переходных сегментов для распознавания их типов.

2. Метод распознавания шести классических типов сегментов в определенных проведенным исследованием подпространствах спектрально-временных характеристик.

3. Алгоритм оценивания частоты основного тона и положений голосовых импульсов, основанный на свойствах процесса речевосприятия, и используемый для отслеживания треков формантных частот речевого сигнала.

4. Метод отслеживания треков формантных частот речевого сигнала синхронно с интервалами закрытого положения голосовой щели для вычисления значений формант с достаточной точностью, чтобы обеспечить качественное решение обратной задачи и задачи голосовой верификации.

Апробация работы. Основные положения и результаты диссертации докладывались на международном семинаре «Диалог-2002» (Протвино, 2002) и «Диалог-2003» (Протвино, 2003), на 13-й и 16-й сессиях Российского Акустического Общества (Москва, 2003 и 2005), на международной конференции "1п-terSpeech-2005" (Лиссабон, 2005), а также на постерной сессии международного семинара NATO ASI "Dynamic speech production and perception" (Италия,

2002).

Публикации. По результатам диссертационной работы опубликовано 6 статьей [6 - 11] в ведущих научных журналах, а также 5 докладов [1 - 5] на международных конференциях.

Структура работы. Диссертационная работа состоит из введения, пяти глав, заключения и библиографического списка использованных источников. Она содержит 149 страниц основного текста, 52 рисунка и 22 таблицы, расположенных в тексте диссертации. Список литературы включает 162 наименования.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы диссертации, ее научная новизна, теоретическая значимость и практическая ценность, указывается предмет исследования, экспериментальный материал, определяется цель работы, раскрываются задачи и методы исследования, приводится краткое содержание работы по главам.

Первая глава диссертации является обзорной. В ней рассмотрены основные известные в мировой литературе методы поиска границ сегментов на речевом сигнале: методы, использующие скрытые Марковские модели, динамическое программирование, функции, основанные на форме спектра, энергии в различных полосах и на других акустических параметрах. Также проведен обзор подходов к распознаванию типа сегментов: подходы, основанные на распознавании характерных для сегмента фонетических элементов или артикуля-торных состояний, использующие различные виды кластеризации и классификаторы, детекторы акустических событий, нейронные сети, скрытые Марковские модели. Проведен анализ достоинств и недостатков этих подходов.

Большинство встречающихся в мировой литературе методов нацелено на поиск границ сегментов при известной орфографической записи фразы, что используется при построении компиляционных синтезаторов речи. Часто производится разделение на предложения, слова и слоги.

Показано, что для решения обратной задачи для слитной речи должен использоваться метод, позволяющий сегментировать речевой сигнал на кардинальные элементы: гласноподобные, фрикативные, смычные и назальные звуки речи. Это обусловлено тем, что при решении речевой обратной задачи минимизируется невязка между измеренными и вычисленными акустическими параметрами, а каждый тип сегментов характеризуется своими, отличными от других акустическими параметрами. При этом метод не должен требовать ни-

какой дополнительной информации о сигнале, в том числе орфографической зашей фразы. Методы, описанные в мировой литературе, из-за присущих им принципиальных недостатков не могут быть использованы на практике для решения обратной задачи. К таким недостаткам относятся: использование дополнительной информации о сигнале, недостаточная точность детектирования и расстановки границ сегментов, разделение на слишком грубые классы.

В главе также рассматриваются наиболее известные в мировой литературе методы анализа основного тона и формантных частот.

Среди методов анализа основного тона выделяются два типа: спектральные и временные. Спектральные обычно основаны на анализе квазилинейчатой структуры спектра, а временные используют, как правило, автокорреляционный подход. Среди спектральных методов наилучшими характеристиками обладает алгоритм TEMPO (Kawahara), среди временных - YJN (de Cheveigni). Показана необходимость улучшения характеристик этих методов, а также разработки способа поиска голосовых импульсов на сигнале, что требуется для вычисления резонансных частот речевого тракта.

Среди методов оценки формантных частот наиболее известны методы, основанные на линейном предсказании, на извлечении пиков спектра и на использовании гребенок фильтров. Проведен анализ этих методов. Показано, что предпочтительным является использование метода, в котором формалт-ные частоты вычисляются синхронно с интервалами закрытой голосовой щели на голосовых импульсах.

Для построения треков формантных частот чаще всего используются методы, основанные на механизме динамического программирования с введенными ограничениями непрерывности, наложенными на соседние отсчеты. Показана необходимость более точного учета ограничений возможных траекторий формантных треков.

По результатам обзорной главы делается вывод о необходимости создания нового метода сегментации речи на кардинальные элементы, а также методов поиска голосовых импульсов и построения формантных треков.

Вторая глава. В этой главе исследуются различные акустические параметры речевых сигналов: частота основного тона и положение импульсов голосового источника, мера периодичности, измеренные синхронно с основным тоном формантные частоты и их треки, а также параметры, позволяющие определять типы сегментов. Оценивается эффективность различных параметров для распознавания типов.

Для определения длительности интервалов между импульсами голосового источника и положения импульсов на речевом сигнале разработан алгоритм, состоящий из двух блоков: блока оценки частоты основного тона F0 и блока

локализации импульсов на основе .

Блок оценки Гй использует нормированную разностную функцию:

А(г)=1-4(г)/

№1,1.0)

Рис. 1. (а) Пример осциллограммы речевого сигнала, (Ь) Разностная функция Л, (г). (с) Нормированная разностная функция Ц (г),

здесь г - текугции момент времени, г - смещение, й, (г) = "

разностная функция для сигнала х,. Принимается О, (0) = 0. Вид этих функций показан на рис. 1. Функция (г) эквивалентна автокорреляционной функции, нормированной относительно энергии сигнала, и обладает малой чувствительностью к медленным изменениям амплитуды сигнала. Значение 1-Х), (г) пропорционально отношению энергии апериодической компоненты сигнала к общей энергии.

Для обеспечения точности и устойчивости при построении блока оценки Р0 была принята во внимание способность слухового аппарата человека приписывать звуку, состоящему из отдельных периодических импульсов, некоторую высоту (которая и является основным тоном). Свойства такого звука существенно отличаются от свойств звука, содержащего только одну доминирующую частоту, поэтому для его анализа следует использовать особые методы. Для вычисления периода импульсов на таком звуке целесообразно использовать не сам сигнал, а его огибающую, которая скрывает внутреннюю структуру импульсов и подчеркивает, таким образом, сами импульсы. В речевом сигнале такая ситуация возникает, когда частота ударов голосовых складок значительно ниже частоты первого резонанса речевого тракта. Огибающая функция скрывает внутреннюю структуру импульсов и подчеркивает, таким образом, сами импульсы. Для сигнала и (г) огибающая вычисляется как Е({) = %/и2(г) + у2(г), где у (г) - мнимая компонента аналитического сигнала, связанная с «(<) преобразованием Гильберта

у(г) = — Г . При анализе каждого участка речевого сигнала необходи-

к / — £

мо принять решение, является ли данный участок квазимонохроматическим сигналом или последовательностью импульсов, и выбрать соответствующий способ предварительной обработки. Таким образом, ключевая особенность предложенного алгоритма состоит в выполнении параллельного анализа как

самого сигнала, так и его огибающей и в наличии правила выбора одного из получаемых значений Fa,

Блок локализации импульсов на основе F0 выполняет поиск на сигнале моментов максимального возбуждения резонансных колебаний в речевом тракте (т. е. максимумов энергии) при известном периоде импульсов. В этих условиях задача поиска импульсов сводится к определению смещения начала последовательности этих импульсов, то есть фазы. Для каждого огласованного (периодичного) участка ищется такое смещение первого импульса, при котором последовательность всех приходящихся на этот интервал импульсов даёт в среднем наибольшую энергию. При этом допускается дрожание периода на ±5%.

Алгоритм был протестирован на трех речевых базах данных, содержавших ларингографические сигналы. В качестве критерия качества использовался процент отсчетов, в которых ошибка определения частоты основного тона превышала 20%. Выполнялось сравнение с четырьмя алгоритмами: TEMPO, YIN, классическими кепстральным и автокорреляционным. Тестирование показало, что по точности представленный в работе алгоритм в среднем в два раза опережает лучший из конкурирующих алгоритмов. Алгоритм более устойчив к искажению спектра в телефонном канале, к различным видам шума, к нестабилыюстям длительности и амплитуды импульсов голосового источника. Точность определения положений импульсов достаточна для выполнения синхронного анализа речевого сигнала, а скорость обработки сигнала позволяет использовать алгоритм в задачах реального времени.

Предложено и протестировано несколько алгоритмов вычисления формантных треков. В литературе показано, что формантные частоты в речевом сигнале наиболее близки к резонансным частотам речевого тракта на интервале закрытой голосовой щели. На интервале открытой щели они, напротив, могут отличаться на величину до 20%, что связано с влиянием подсвязочной области. Это обуславливает необходимость вычисления формант синхронно с импульсами основного тона. Для синхронного вычисления формантных частот были реализованы два алгоритма: спектральный и временной.

В спектральном алгоритме для каждого импульса основного тона выполнялось построение спектрального профиля, соответствующего интервалу закрытой щели, то есть смещенного по времени относительно импульса. На низких частотах это смещение было равно примерно половине периода основного тона, а к высоким частотам существенно уменьшалось. Необходимость использования разных смещений для разных частот диктуется тем, что высокие резонансные частоты затухают быстрее, чем низкие. Каждому пику построенного таким образом спектрального профиля приписывался некий вес, определяемый с помощью метода линейного предсказания (ЛП): по профилю

строилась автокорреляционная функция, по ней вычислялись коэффициенты ЛП, порядок которого изменялся от 18 до 27. Вес каждого пика зависел от того, сколько раз этот пик совпадал с формантной частотой, вычисленной по коэффициентам ЛП. Таким образом, для каждого импульса основного тона имелся набор спектральных пиков с определенными весами.

Для построения траекторий формант был сформулирован набор ограничений на гладкость и скорость изменения треков, основанный на свойствах артикуляции. В отличие от стандартных методов, эти ограничения описывали поведение трека на протяжении нескольких отсчетов, а не только от отсчета к отсчету. Это позволило добиться большей стабильности вычисления треков.

Для оценки качества работы алгоритма построения формантных траекторий выполнялся визуальный контроль на примерах из обширной базы речевых данных. Установлено, что алгоритм хорошо работает на мужских голосах. При тестировании на синтетическом сигнале средняя ошибка оценки формантных частот была близка к половине расстояния между отсчетами спектрального профиля. Для женских голосов в спектр&аьном профиле сильно проявлялась гармоническая структура, порождаемая импульсами основного тона, и анализ пиков оказывался затруднительным.

Для корректной работы с высокими голосами был разработан алгоритм, выполняющий линейное предсказание по выборочным отсчетам. В этом алгоритме коэффициенты линейного преобразования вычислялись только на участках сигнала, далеких от импульсов возбуждения. Участки, близкие к импульсам, находились по информации о периодах основного тона, а также по сигналу-остатку, и исключались из матрицы линейного предсказания, после чего происходило непосредственно вычисление коэффициентов ЛП, и затем формантных частот.

Поскольку критерий оптимальности классического линейного предсказания минимизирует остаточную энергию, все частоты в сигнале имеют равный вес. Это некорректно, например, с точки зрения свойств человеческого слуха: известно, что частотное разрешение уменьшается к высоким частотам. Это некорректно также с точки зрения речеобразования, так как наиболее важные форманты, первая и вторая, обычно расположены в полосе до 2 КГц. В связи с этим в алгоритм был встроен блок, производящий дополнительный поиск формант в области низких частот: вся вышеописанная процедура повторялась для сигнала с пониженной частотой дискретизации. Пример работы модифицированного ЛП показан на рис. 2.

Для поиска траекторий формант использовался тот же набор ограничений на гладкость и скорость изменения треков. Тестирование показало, что полученный алгоритм корректно вычисляет формантные треки как для мужских, так и для женских голосов. Представляется целесообразным его использование для решения обратной задачи. Ошибки, допускаемые алгоритмом, могут

быть компенсированы за счет избыточной информации, возникающей при решении обратной задачи.

Рис. 2. Модифицированное ЛП позволяет разделять НЧ форманты.

Рассмотрена задача сегментации речи на кардинальные элементы. Детектировались шесть типов сегментов: гласноподобный, назальный, фрикативный глухой, фрикативный звонкий, смычной глухой, смычной звонкий. Проведено исследование эффективности различных параметров для детектирования. В исследовании участвовали следующие параметры: центр тяжести спектра, баланс энергий, наклон спектра, мера периодичности сигнала, изменение энергии во времени, Винеровская энтропия. Для каждого параметра были выбраны частотная и амплитудная шкалы, а также частотная полоса, обеспечивающие наилучшее разделение. Критерием эффективности служила площадь пересечения пары одномерных гистограмм, полученных по «своим» и «чужим» элементам. Показано, что для разделения различных пар кардинальных элементов эффективными оказываются различные параметры, взятые в различных частотных полосах. Например, для разделения фрикативных глухих и фрикативных звонких наиболее эффективными оказались мера периодичности сигнала в полосе до 1 КГц, а для разделения гласноподобных и смычных звонких - значение энергии в полосе от 500 Герц, вычисленной по мел-лог спектру, отнесенное к максимальной энергии сигнала в этой же полосе на интервале ±250 мс от границ сегмента. Для установки окончательного набора параметров, необходимых для детектирования кардинальных типов, необходимо использовать специфические методы принятия решений и моделирования плотности вероятности многомерных распределений. Поэтому окончательное множество параметров будет установлено в четвертой главе, после описания в третьей главе необходимых методов.

Третья глава. В этой главе описывается метод определения вероятности принадлежности сегмента к различным типам, метод аппроксимации плотностей выборок, метод динамической трансформации шкалы времени применительно к сегментации с известными эталонами фраз.

Описано Байесовское решающее правило, играющее центральную роль в статистическом распознавании образов. Рассмотрена задача распознавания типа сегмента по имеющемуся набору параметров. Окончательное решение о типе не принималось, так как при решении обратной задачи оно может быть скорректировано за счет использования информации о допустимых положениях и скоростях движения артикуляторов (языка, нижней челюсти, гортани, губ, нёбной занавески и т.д.). Для решения задачи распознавания использова-

Рр(х\у)

лась формула Байеса апостериорной вероятности: Р(Ил;)= — \ • гдс

Р(.у |д:) — вероятность класса у из набора классов У при условии, что наблюдается вектор параметров х, Ру - априорная вероятность класса у, р(х\у) -плотность вероятности класса у, в знаменателе сумма по всем возможным классам и и е У - индекс суммирования. В нашем случае апостериорная вероятность вычислялась для каждой пары типов (а,Ь), поэтому формула Байеса имела вид:

р{х\а)

где Р4 (а | х) — вероятность того, что данный сегмент является сегментом типа а при измеренном векторе параметров х, вычисленная относительно типа Ъ, а) и р{х\Ь) - плотности вероятности для вектора х в пространстве сегментов типа а и Ь соответственно, га]> - отношение априорных вероятностей типов, вычисленное по базе данных.

Байесовский подход основан на предположении, что плотности распределения каждого из классов определены заранее. На практике плотности распределения классов, как правило, неизвестны, и их приходится оценивать по обучающей выборке. Рассмотрена задача моделирования плотности вероятности распределения по имеющейся выборке. Показано, что для маломерных выборок возможно использование гистограмм. Найден минимальный объем выборки, необходимый для построения одномерных и двумерных гистограмм в зависимости от количества отсчетов в них при отсутствии дополнительной информации о виде распределения. Для одномерных гистограмм зависимость

объема выборки ¿Уп„„ от числа отсчетов гистограммы К можно аппроксимировать функцией /Утш=(0.38-К+0.51)!М, для двумерных - функцией Л'тш=(0.32-К+0.86)"2. Обнаружено, что требования к объему выборку значительно возрастают с увеличением размерности пространства.

Показано, что в некоторых частных случаях удается найти простой способ аналитического описания плотности вероятности. В качестве примера приведены результаты исследования распределений длительностей сегментов различных типов. Исследование проводилось на основе базы речевых данных, размеченной лингвистами. Установлено, что двумерная статистика длительностей пар соседних сегментов является более предпочтительной по сравнению с одномерной статистикой длительностей отдельных сегментов, поскольку эти длительности сильно коррелированны. Рассмотрены основные варианты коррелированности. Предложена процедура декорреляции с помощью линейной регрессии. Обнаружено, что аналитического описание достаточно хорошо производится произведением одномерных гамма распределений, смещенным в соответствии с линией регрессии (рис. 3). Найдены параметры гамма распределений и линий регрессии для достаточно представленных пар в базе данных.

Рис. 3. Распределение длительностей пары «гласный» - «согласный»: (а) исходная двумерная гистограмма, (б) конечная двумерная аппроксимирующая функция.

В многомерном случае использование гистограмм для моделирования плотностей вероятности не является целесообразным по причине недостаточных объемов выборки и слишком больших объемов памяти для хранения таких гистограмм. Обнаружено, что эффективным механизмом моделирования в этом случае являются смеси многомерных нормальных распределений (Gaussian Mixture Model, GMM):

t k

где Pj (х) - функция нормального распределения многомерного аргумента х, Wj - её вес. Аппроксимация может быть проведена с использованием алгоритма ЕМ (Expectation-Maximization). Этот итерационный алгоритм позволяет найти параметры смеси нормальных распределений, с наибольшим правдоподобием порождающую имеющуюся выборку многомерных векторов. Классический ЕМ-алгоритм обладает существенными недостатками: результат его работы зависит от начального приближения и числа компонент смеси. Предложен подход, позволяющий обойти основные недостатки ЕМ-алгоритма, а именно адаптивно выбирать оптимальное количество компонент в смеси и одновременно избегать локальных максимумов правдоподобия. На рис. 4 показан пример моделирования плотности сложного множества - трехмерной спирали (изображены длинные оси эллипсоидов). Классический ЕМ-алгоритм не в состоянии справиться с этой задачей.

Рис. 4. Пример работы алгоритма: моделирование множества в виде трехмерной спирали.

Рассмотрена возможность использования дополнительной информации о речевом сигнале для некоторых речевых задач. Например, в задаче голосового набора номера известен словарь распознаваемых слов, в задаче верификации диктора по голосу с контекстно-ограниченным паролем известно содержание произнесения. Приведено описание метода динамической трансформации шкалы времени (Dynamic Time-Waiping, DTW). Показано, что в перечисленных задачах возможно использование DTW для распознавания фраз и поиска фонетических сегментов на сигнале. По размеченной базе речевых данных

производится сбор эталонов, включающих в себя различные акустические параметры сигналов и положения установленных вручную границ сегментов. С помощью метода ВД"\У выполняется выравнивание границ и строится мера сходства между эталонами и пришедшим сигналом. Выбирается один наиболее сходный эталон и соответствующее ему положение границ из ручной разметки. Эффективность работы такого алгоритма зависит от способа описания эталонов. В пятой главе показано, что включение в эталоны информации о принадлежности сегментов к кардинальным типам, а также о длительности сегментов существенно повышает точность распознавания и обеспечивает высокую точность верификации.

Четвертая глава содержит описание нескольких сегментирующих функций, на основе которых выполняется разбиение сигнала на сегменты. Подробно описан наилучший алгоритм сегментации. Тестирование алгоритма позволяет утверждать, что он достаточно эффективно и точно находит границы сегментов. Также приводится описание алгоритма распознавания типа сегментов и результаты тестирования качества распознавания.

Рассмотрена задача нахождения на произвольном речевом сигнале границ сегментов, то есть переходных и квазистационарных процессов. В качестве границ можно выбирать моменты, когда происходит наибольшее значительное изменение сигнала. Задача рассматривалась в предположении отсутствия априорной информации о сигнале (например, орфографической записи фразы).

Описано несколько сегментирующих функций. Одна из функций использует накопленный средний спектр, нормированный с помощью механизма латерального торможения:

' 1+Т, /+п, >

л(/.о=ь8 —ёш-

ЦТ, | |

<-т, г-аг ,

Здесь £(/,*) - динамический спектр речевого сигнала (сонограмма), -

половины длительностей частотных интервалов, по которым производится нормировка, Т^Тз - аналогичные длительности временных интервалов. Другая функция использует взаимную корреляцию между спектрами ненормированной сонограммы.

Показано, что высокая эффективность нахождения границ как коротких сегментов (взрывы), так и длинных (гласные и т. п.) обеспечивается при использовании сглаженной логарифмированной сонограммы в шкале герц. Сег-

ментирующая функция Ч7^) должна быть основана на взаимной корреляции профилей этой сонограммы, отстоящих на равное расстояние:

- Д//2 )5 (/,/+Д//2) й/ У(0 = 2-2«„=2-2--£-

/

здесь - коэффициент взаимной корреляции Коши-Буняковского, 5(/,г) -двумерная функция сонограммы, г — текущий момент времени, Д/ - расстояние между спектрами относительно момента 1. Пики этой функции указывают на моменты наибольшего изменения сигнала. На рис. 5 показан типичный вид сегментирующей функции для слова «НОЛЬ». Наверху показана осциллограмма сигнала, посередине - сегментирующая функция, внизу - сонограмма.

Приведено детальное описание окончательного алгоритма сегментации. Пики сегментирующей функции рассматриваются в качестве кандидатов на границу между сегментами. Решение об установке границы принимается на основе степени различия спектров в минимумах сегментирующей функции. Минимумы функции рассматриваются попарно: если расстояние между двумя профилями спектра, взятыми в минимумах, превышает некий порог т', значит, между ними должна быть поставлена граница. Если между минимумами находится более одного пика, то производится дополнительный анализ. Пусть найдены два минимума г, и /2 (рис. 5), мевду которыми должна быть поставлена граница. Для выбора правильного пика найдем самый правый минимум У (л,), лежащий между и гг, такой, что расстояние между спектрами, взятыми в и /2 превышает порог т . Таким образом уточняется интервал поиска границы. Если между и /2 по прежнему лежит несколько пиков, граница ставится по наивысшему пику, так как он указывает на наибольшее изменение свойств сигнала.

В процессе расстановки границ происходит уточнение границ начала взрывов. Для этого построен простейший детектор переходов от смычных сегментов к взрывам. Сначала проверялось условие на смычку: энергия сегмента выше 1300 Гц должна быть ниже некого порога. Затем проверялось условие на взрыв: на конце сегмента должно наблюдаться резкое нарастание энергии в достаточно широкой полосе частот. При выполнении обоих условий граница окончания сегмента смычки устанавливалась на момент начала фронта нарастания энергии, то есть на начало взрыва.

5 1.36 1.38 1.4 142 1.44 1.46 1.48 1.5 1.62 1.54 1.56 1.58 1.6 1.52 1.54 1.66 1.58 1.7 1 72

"" 142 1.44 1.41 ~ ~ ~ ~ " "" - — " ~

п

1/4.

и

7500-

7000^

6500-

6000-

а* о. 55005000!

£ 4500'

о 4000

у 3500

3000

2ЯЮ

2СОО

1500

юоо

1.36 1.38 1.4 1.42 1.44 1.46 1.46 1.5 1.52 1-54 1.56 1.50 1.6 1.62 1.64 1.66 1.66 1.7 1.72

8 4 '

^.а, у. '■ к^м^Ё^^^В^^ИИ

7500 7000 6500 6000 4500 5000 4500 4000 3600 3000 2500 2000 1500 ■1000 500

Рис. 5. Пример сегментации, слово «НОЛЬ».

Тестирование точности нахождения границ выполнялось на материале упомянутой в предыдущей главе базы речевых данных, содержащей ручную разметку на артикуляторно-акустические сегменты. Средняя погрешность расположения границ составила 4,52 мс, основные ошибки приходятся на границы между парами «гласноподобный» — «гласноподобный». Среднее число пропущенных границ равно 0,95%, основные ошибки возникают на парах «назальный» - «смычной». Среднее число вставок границ равно 1,26 на каждую установленную вручную границу. Показано, что основную часть пропущенных границ составляли слабовыраженные переходы, и что основные погрешности положений границ и вставки обусловлены объективными свойствами сигналов и субъективностью разметки эталонов. Полученные результаты превосходят описанные в литературе аналоги и позволяют использовать предложенный алгоритм для решения практических речевых задач.

Описан алгоритм распознавания кардинальных типов сегментов. Для каждой пары типов с помощью специальной процедуры автоматически выбирались семь акустических параметров (среди которых были мера периодичности, баланс энергий, форма спектра и т.д.), позволяющих разделить эти сегменты наилучшим образом. Производилось моделирование плотностей вероятности в пространстве этих параметров. Для моделирования использовались

смеси многомерных нормальных распределений. На основе плотностей вероятности с помощью формулы Байеса находились апостериорные вероятности принадлежности сегмента к тому или иному типу.

Показано, что для повышения эффективности распознавания целесообразно разделить сегменты на большее число типов: и гласноподобные, и фрикативные поделить еще на два класса, «высокие» и «низкие». В качестве итогового решающего правила использовалась формула полной вероятности

** а Ь

Здесь А - тип сегмента в итоговой классификации на кардинальные элементы, а — «свои» типы сегмента, Ь — все типы, противопоставляемые типам а, N — число членов в двойной сумме. Например, если вычисляется апостериорная вероятность того, что данный сегмент является гласноподобным, в этой формуле А = «гласноподобный», а = {« гласноподобный высокий», «гласно-подобный низкий»}, Ь = {«назальный», «фрикативный высокий глухой», «фрикативный высокий звонкий», «фрикативный низкий», «смычной глухой», «смычной звонкий»}, .У = 2-6 = 12.

Тестирование точности распознавания кардинальных сегментов выполнялось на материале упомянутой выше базе речевых данных русскоязычных дикторов общей длительностью около 30 часов для нескольких типов телефонных трубок и микрофонов с ручной разметкой на артикуляторно-акустические сегменты. Распознавание выполнялось без использования дополнительной информации о сигнале. В 85% случаев правильный тип имел наибольшее значение апостериорной вероятности, в 96,3% входил в первую двойку. Такая точность даёт возможность использовать данный метод для решения обратной задачи.

Анализ матрицы перепутывания показал, что наибольшие сложности возникают при разделении объективно близких сегментов «назальный» и «смычной звонкий», а также «смычной глухой» и «смычной звонкий». Эти погрешности могут быть компенсированы за счет использования избыточной информации, возникающей при решении практических речевых задач.

Пятая глава. В этой главе описаны результаты практического применения предложенных в работе методов в применении к решению обратной задачи, к задачам распознавания речи и верификации диктора по голосу.

В обратной задаче происходит расчет формы речевого тракта по акустическим параметрам речевого сигнала. Из работ, посвященных обратной задаче, известно, что для каждого типа сегментов должны быть использованы разные параметры. Например, для гласных и назальных это формантные частоты, для фрикативных - характерные частоты спектра, для звонких смычных - частота

радиального резонанса. Таким образом, для решения обратной задачи необходимо разделить речевой сигнал на однотипные сегменты, определить тип каждого сегмента и соответствующие этому типу акустические параметры. Представленные в данной работе алгоритмы позволяют полностью обеспечить информационную поддержку решения обратной задачи. На рис. 6 показан обработанный сигнал, поступающий на вход обратной задачи. Сверху вниз: осциллограмма, основной тон, сегменты и вероятности типов.

йте. 56С

Рис. 6. Обработанный сигнал, поступающий на вход обратной задачи.

Тестирование выполнялось на материале речевой базы данных, содержащей измерения на микролучевой рентгеноскопической установке и включающей в себя образцы речи и артикуляции примерно полусотни дикторов - носителей американского английского языка. При использовании предложенных алгоритмов сегментации и вычисления акустических параметров для решения обратной задачи показано, что погрешность определения формы речевого тракта для гласных составила 6%, для фрикативных - 3%, что сопоставимо с погрешностью измерения. Субъективное тестирование артикуляторного ре-синтеза показало, что на слух различие между оригинальным и ресинтезиро-ванным сигналами ничтожно мало. Это свидетельствует о том, что описанные в работе алгоритмы являются достаточно надежными и точными для исполь-

зования в решении обратной задачи.

Исследовано влияние информации о типе сегментов в задаче распознавания изолированных цифр русского языка. Рассмотрена система распознавания, использующая метод динамической трансформации шкалы времени (DTW). Распознавание проводилось независимо от диктора и микрофона. Показано, что при включении в эталоны информации о типе сегмента количество ошибок распознавания слов уменьшилось в 6 раз, с 12% до 2% по сравнению с предыдущей версией распознавателя, основанного только на детекторах арти-куляторных событий.

Рассмотрено использование информации о типе сегментов в системе верификации диктора по голосу, использующей контекстно-зависимые пароли. Голос диктора характеризовался как акустическими параметрами (формант-ные частоты гласных, характеристические частоты фрикативных), так и временными параметрами (длительность слова, длительность ударного гласного, длительности пар сегментов, исследованные в третьей главе). Для определения положения слова на сигнале и ударного гласного на слове использовался метод динамической трансформации шкалы времени (DTW) с эталонами, содержащими информацию о типе сегмента. После выполнения DTW производилось вычисление акустических параметров (например, формантные частоты на ядре ударного гласного). Показано, что точность этого вычисления сильно зависит от точности разбиения слова на фонетические сегменты. Тестирование проводилось на материале представительной базы речевых данных, содержащей голоса 130 дикторов. Средняя ошибка верификации для паролей, состоящих из десяти слов, составила 0.04%. Это говорит о том, что комбинированный алгоритм сегментации (DTW + вероятности типов) позволяет точно и устойчиво находить положения характерных фонетических сегментов.

ОСНОВНЫЕ ВЫВОДЫ

1. Разработан и исследован алгоритм вычисления частоты основного тона и поиска импульсов голосового источника. В сравнении с лучшими описанными в литературе аналогами он обладает большей точностью, устойчивостью к шумам и искажениям в канале.

2. Создан и реализован алгоритм отслеживания треков формантных частот синхронно с голосовыми импульсами, основанный на свойствах артикуляции.

3. Построен и исследован эффективный алгоритм разбиения речевого сигнала на сегменты, превосходящий по точности известные по литературе аналоги.

4. Установлены акустические параметры, позволяющие различать основные типы речевых сегментов: гласноподобный, назальный, фрикативный глухой и звонкий, смычной глухой и звонкий.

5. Разработан и реализован метод распознавания основных типов речевых сегментов на основе установленных акустических параметров.

6. Проведено исследование качества решения задач распознавания речи и верификации диктора по голосу, а также обратной задачи для слитной речи с использованием предложенных в данной работе алгоритмов первичного анализа речи. Показано, что точность решения этих задач достаточна для практического применения.

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Цыплихин А.И., Леонов A.C., Сорокин В.Н. Двумерные распределения фонетических сегментов // Труды Международного семинара «Диалог -2002», 2002, Т. 2, С. 484-495.

2. Сорокин В.Н., Цыплихин А.И. Аппроксимация распределений малопредставительных выборок // М.: ГЕОС, Сборник трудов ХШ сессии Российского акустического общества, 2003, Т. 3, С. 95-100.

3. Сорокин В.Н., Ижнин А.Н., Цыплихин А.И., Чепелев Д.Н. Артикуляторно-ориентированная система распознавания речи // Труды Международного семинара «Диалог - 2003», 2003, стр. 657-662.

4. Sorokin V.N., Leonov A.S., Makarov LS., Tsyplikhin A.I. Speech inversion and re-synthesis // Proceedings of InterSpeech-2005, Lisbon, 2005, P. 3209-3212.

5. Цыплихин AM. Импульсы голосового источника: гетерархический алгоритм синхронизации TWIN // Труды XVI сессии РАО, 2005, Т. 3, С. 36-40.

6. Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Артикуляторный ресинтез гласных // Информационные процессы, 2003, Т. 3, № 2, С. 73-82.

7. Репин В.Г., Цыплихин А.И. Определение точной верхней грани ошибок метода наименьших квадратов // Радиотехника и электроника, 2003, Т. 48, № 1, С. 91-99.

8. Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Артикуляторный ресинтез фрикативных // Информационные процессы, 2004, Т. 4, № 2, С.

9. Сорокин В.Н., Цыплихин А.И. Сегментация и распознавание гласных // Информационные процессы, 2004, Т. 4, № 2, С. 202-220.

Ю.Леонов A.C., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Кодовая книга для речевых обратных задач // Информационные процессы, 2005, Т. 5, № 2, С. 101-119.

11. Цыплихин А.И., Сорокин В.Н. Сегментация речи на кардинальные элементы // Информационные процессы, 2006, Т. 6, № 3, С. 177-207.

141-159.

Принято к исполнению 29/05/2006 Заказ № 440

Исполнено 30/05/2006 Тираж: 75 экз.

ООО «11-й ФОРМАТ» ИНН 7726330900 Москва, Варшавское т., 36 (495) 975-78-56 (495) 747-64-70 ww.autorcfcrat.ru

Оглавление автор диссертации — кандидата технических наук Цыплихин, Александр Иванович

ВВЕДЕНИЕ.

ГЛАВА 1. Методы анализа и сегментации речи

1.1. Методы сегментации.

1.2. Методы анализа основного тона.

1.3. Методы анализа формантных частот.

1.4. Смеси распределений.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Цыплихин, Александр Иванович

Для решения многих речевых задач требуется проведение предварительной сегментации речи, то есть разделения речевого сигнала на сегменты, соответствующие квазистационарным и переходным процессам речеобразования. Большой практический интерес представляют задачи распознавания речи и верификации диктора, а также так называемая обратная задача для слитной речи, то есть задача восстановления формы речевого тракта и движений артикуляторов по акустическому речевому сигналу. Для решения этих задач необходимо провести анализ речевого сигнала и вычислить его акустические параметры. К таким параметрам относятся: информация о типе источника (голосовой, фрикативный) на данном участке речевого сигнала, о наличии смычки и назализации.

Эта задача может быть сформулирована как задача распознавания кардинальных типов речевых сегментов. Кардинальные типы речевых сегментов - это группы звуков, созданных с использованием существенно различающихся механизмов речеобразования. Рассматривается шесть кардинальных типов: гласноподобные, назальные, фрикативные глухие и звонкие, а также смычные глухие и звонкие звуки речи. Необходимость распознавания кардинальных типов продиктована, в частности, тем, что в обратной задаче для каждого кардинального типа используются свои акустические параметры и свой критерий оптимизации. Для распознавания типов речевых сегментов необходимо предварительно сегментировать речевой сигнал, то есть выполнить поиск моментов времени, в которые происходит существенное изменение свойств сигнала.

К акустическим параметрам также относятся спектрально-временные характеристики сегментов, положения импульсов голосового источника и формантные частоты речевого сигнала, которые в большинстве случаев соответствуют резонансным частотам речевого тракта. Для вычисления этих параметров также требуется предварительная сегментация речевого сигнала и распознавание кардинальных типов сегментов, так как, например, анализ голосовых импульсов и формантных частот следует производить только на огласованных участках сигнала.

Известные по литературе методы поиска границ сегментов обладают значительными недостатками. В частности, эти методы неприемлемы для решения обратной задачи: они либо используют априорную информацию о содержании речевого сигнала, которая обычно недоступна, либо производят поиск границ слишком грубых элементов - слогов, слов, предложений, либо дают слишком большие погрешности. В свою очередь, описанные в литературе методы распознавания типа сегментов также обладают различными недостатками и не позволяют решать реальные речевые задачи: они не обладают достаточной точностью, не выполняют распознавания кардинальных типов речевых сегментов.

В практических речевых задачах требуется определение треков формантных частот в речевом сигнале. Например, при распознавании речи треки резонансных частот дают информацию о месте артикуляции, при голосовой верификации позволяют оценить индивидуальные динамические характеристики голоса диктора, при решении обратной задачи треки используются для восстановления формы речевого тракта по речевому сигналу. В литературе описано большое число методов определения треков формантных частот, однако все они имеют недостатки, что заставляет продолжать исследования в этой области.

Известно, что резонансные частоты речевого тракта необходимо вычислять на тех участках голосовых импульсов, где голосовые связки сомкнуты, так как частоты, вычисленные на интервале открытой щели, испытывают влияние подсвязочной области и могут отличаться от резонансных частот тракта на величину до 20%. Это определяет актуальность исследований в области анализа голосовых импульсов, в частности, определения положений голосовых импульсов на речевом сигнале и оценки частоты основного тона. Описанные в литературе методы оценки частоты основного тона не обладают достаточной точностью и устойчивостью к шумам и искажениям в канале. Кроме того, эти методы не позволяют определять положения голосовых импульсов на сигнале, и, следовательно, выполнять синхронный анализ формантных частот.

Всё это определяет актуальность исследований в области анализа и автоматической сегментации речевого сигнала.

Основная цель исследования заключается в разработке устойчивого метода точной сегментации речевого сигнала и распознавания типов полученных сегментов, вычислении акустических параметров сегментов, а также в разработке методов определения положения импульсов голосового источника и вычисления треков формантных частот.

ВВЕДЕНИЕ

Достижение этой цели предполагает решение следующих задач:

• обзор и систематизация описанных в литературе методов сегментации и распознавания типов сегментов;

• исследование различных сегментирующих функций и создание алгоритма сегментации на их основе;

• исследование и выбор параметров, позволяющих наилучшим образом распознавать типы сегментов;

• оценка качества нахождения границ и распознавания типов сегментов;

• создание и тестирование метода определения положения голосовых импульсов;

• создание и тестирование метода вычисления треков формантных частот.

В качестве методов исследования использовались методы математического анализа, цифровой обработки сигналов, теории речеобразования и восприятия речи, спектрального анализа речи, линейного предсказания, динамического программирования, аппроксимации плотностей многомерных выборок, теории вероятностей, теории оптимизации и оптимального управления. Оценка работоспособности и эффективности разработанных методов осуществлялась путем численных экспериментов с использованием реальных данных.

Материалом исследования послужили пять различных баз речевых данных.

Одна из них была собрана в Институте проблем передачи информации (ИППИ) и содержала образцы речи русскоязычных дикторов общей длительностью около 30 часов, записанные в естественных условиях на микрофоны различных типов. База данных была размечена на фонетико-артикуляторные сегменты опытными лингвистами вручную и использовалась в данной работе для тестирования качества сегментации.

Три другие базы данных содержали ларингографические сигналы, записанные синхронно с фонетически сбалансированными фразами на английском и японском языках, произнесенными дикторами-носителями, общей длительностью примерно 60 минут. Эти базы данных использовались для тестирования метода определения положения голосовых импульсов.

Пятая база данных содержала измерения на микролучевой рентгеноскопической установке и включала в себя образцы речи и артикуляции около полусотни дикторов -носителей американского английского языка.

Научная новизна заключается в установлении признаков, позволяющих распознать тип сегментов речевого сигнала, в разработке алгоритма поиска границ сегментов, основанного на степени изменения кратковременного спектра, а также в создании метода определения положения голосовых импульсов.

Теоретическая значимость диссертации состоит в определении акустических параметров и формировании решающих правил для распознавания переходных процессов и квазистационарных сегментов речевого сигнала. В задаче поиска голосовых импульсов теоретическую значимость представляет применение к различным классам сигналов разных способов анализа: по огибающей и по самому сигналу. В задаче отслеживания формантных треков - сформированный набор ограничений, основанный на свойствах артикуляции, позволяющий выполнять построение треков.

Практическая ценность диссертации. Предложенные методы и алгоритмы показали высокую эффективность при анализе реальных речевых сигналов. Они позволили автоматизировать решение обратной задачи для слитной речи, существенно улучшить характеристики систем распознавания речи и верификации диктора. Результаты работы были использованы при выполнении темы ОКР «Разработка помехоустойчивой системы автоматического распознавания речи», государственный контракт № 2-01-СТ. Часть исследований была выполнена в рамках работы по проекту «Исследование динамических обратных задач для речевого тракта», грант РФФИ № 03-01-00116.

Положения диссертации, выносимые на защиту: разработанные алгоритмы и программное обеспечение, реализующие в реальном времени на современных ПК решение перечисленных ниже фундаментальных речевых проблем, в частности:

1. Алгоритм сегментации речевого сигнала, основанный на свойствах процесса ре-чеобразования, и позволяющий определять границы стационарных и переходных сегментов для распознавания их типов.

2. Метод распознавания шести классических типов сегментов в определенных проведенным исследованием подпространствах спектрально-временных характеристик.

3. Алгоритм оценивания частоты основного тона и положений голосовых импульсов, основанный на свойствах процесса речевосприятия, и используемый для отслеживания треков формантных частот речевого сигнала.

4. Метод отслеживания треков формантных частот речевого сигнала синхронно с интервалами закрытого положения голосовой щели для вычисления значений формант с достаточной точностью, чтобы обеспечить качественное решение обратной задачи и задачи голосовой верификации.

Апробация работы. Основные положения и результаты диссертации докладывались на международном семинаре «Диалог-2002» (Протвино, 2002) и «Диалог-2003» (Протвино, 2003), на 13-й и 16-й сессиях Российского Акустического Общества (Москва, 2003 и 2005), на международной конференции "InterSpeech-2005" (Лиссабон, 2005), а также на постерной сессии международного семинара NATO ASI "Dynamic speech production and perception" (Италия, 2002).

Публикации. По результатам диссертационной работы опубликовано 6 статьей [6 -11] в ведущих научных журналах, а также 5 докладов [1 - 5] на международных конференциях. Все работы, кроме [5], выполнены в соавторстве. В публикациях вклад соискателя состоит в разработке методов и алгоритмов анализа речевого сигнала.

Структура работы. Диссертационная работа состоит из введения, пяти глав, заключения и библиографического списка использованных источников. Она содержит 149 страниц основного текста, 52 рисунка и 22 таблицы, расположенных в тексте диссертации. Список литературы включает 162 наименования.

Заключение диссертация на тему "Анализ и автоматическая сегментация речевого сигнала"

Заключение

На основании свойств процесса речевосприятия создан алгоритм оценивания частоты основного тона и положений голосовых импульсов. Алгоритм показал устойчивость к нарушениям периодичности колебаний голосовых складок, искажениям в канале и внешним шумам. Сравнение с современными алгоритмами оценки частоты основного тона производилось на материале трёх баз данных, содержащих ларингографические сигналы. Тестирование показало, что по точности алгоритм в среднем в два раза опережает лучший из конкурирующих алгоритмов. Точность определения положений импульсов достаточна для выполнения синхронного анализа речевого сигнала, а скорость обработки сигнала позволяет использовать алгоритм в задачах реального времени.

Предложен алгоритм отслеживания формантных треков синхронно с интервалами закрытой голосовой щели. Алгоритм использует правила и ограничения на форму треков, основанные на свойствах артикуляции. Тестирование показало, что алгоритм позволяет получать устойчивые оценки формантных частот, и работоспособен на голосах с высокой частотой основного тона. Точность вычисления частот достаточна для использования результатов алгоритма при решении обратной задачи.

Исследована эффективность различных групп акустических параметров применительно к распознаванию кардинальных элементов речевого сигнала: гласнопо-добных, назальных, фрикативных глухих и звонких, смычных глухих и звонких звуков речи. Обнаружено, что наибольшая степень разделения достигается при противопоставлении кардинальных типов друг другу попарно. Показана необходимость разработки специальной процедуры выбора подпространств для распознавания.

Установлена возможность использования байесовского подхода для распознавания кардинальных типов сегментов. Показана целесообразность представления решения о типе в виде набора вероятностей принадлежности сегмента к каждому из кардинальных типов, в связи с возможностью коррекции этого решения на последующих этапах (например, при использовании в обратной задаче). Установлена необходимость моделирования плотностей распределений в пространстве акустических параметров по выборке, полученной в результате анализа базы речевых данных.

Рассмотрена задача моделирования плотностей вероятности распределений по имеющейся выборке. Найден минимальный объем выборки, необходимый для построения одномерных и двумерных гистограмм в зависимости от количества отсчетов в них при отсутствии дополнительной информации о виде распределения. Установлено, что требования к объему выборки быстро растут с увеличением размерности и количества отсчетов гистограмм. Это делает невозможным использование гистограмм для моделирования многомерных выборок.

Показано, что в некоторых частных случаях удается найти простой способ аналитического описания плотности вероятности. В качестве примера приведены результаты исследования распределений длительностей сегментов различных типов. Обнаружено, что аналитического описание достаточно хорошо производится произведением одномерных гамма распределений, смещенным в соответствии с линией регрессии.

Описан способ моделирования плотности распределения по выборке в многомерном случае. Для моделирования использовались смеси нормальных распределений. Разработан модифицированный ЕМ-алгоритм для вычисления параметров смесей, позволяющий обойти основные недостатки ЕМ-алгоритма, а именно: адаптивно выбирать оптимальное количество компонент в смеси и одновременно избегать локальных максимумов правдоподобия.

Рассмотрен метод динамической трансформации шкалы времени. Показано, что метод позволяет эффективно использовать дополнительную информацию о сигнале, доступную в некоторых речевых задачах. Исследованы модификации этого метода, повышающие эффективность его работы в рассматриваемых задачах. В частности, установлены наилучшие глобальные и локальные ограничения на путь трансформации; предложен способ штрафования трансформаций, приводящих к сильным растяжениям и сжатиям отдельных участков; установлена целесообразность использования механизма итеративного уточнения.

Предложены алгоритмы сегментации речевого сигнала на квазистационарные и переходные участки на основе корреляции мгновенных спектров, взятых в найденные по сегментирующей функции моменты времени, а также распознавания кардинальных типов речевых сегментов. Их эффективность оценена на материале базы речевых данных русского языка для 47 человек и нескольких типов телефонных трубок и микрофонов с ручной разметкой на 127 типов артикуляторно-акустических сегментов по сигналам с соотношением сигнал-шум от 12 дБ.

При сегментации речевого сигнала выполнялся поиск границ квазистационарных и переходных участков. На имеющейся базе данных алгоритм сегментации определил положения границ со средней погрешностью 4,52 мс, что находится внутри диапазона 5 мс погрешности ручной разметки. Можно сделать вывод, что алгоритм выполняет точную сегментацию по сравнению с ручной разметкой. Было пропущено 0,95% границ, среднее число вставок было равно 1,26 на один сегмент ручной разметки. Показано, что основную часть пропущенных границ составляли слабовы-раженные переходы, и что основные погрешности положений границ и вставки обусловлены объективными свойствами сигналов и субъективностью разметки эталонов.

Распознавание кардинальных типов речевых сегментов производилось в подпространствах акустических параметров, установленных оптимизационной процедурой, реализующей рекуррентное добавление информативных признаков. При тестировании правильный тип в 85% случаев имел наибольшее значение апостериорной вероятности, в 96,3% входил в первую двойку.

Проведено исследование качества решения обратной задачи для слитной речи с использованием предложенных в данной работе алгоритмов первичного анализа речи. Показано, что погрешность определения формы речевого тракта для гласных составила 6%, для фрикативных - 3%, что сопоставимо с погрешностью измерения. Артикуляторный ресинтез показал, что на слух различие между оригинальным и ресинтезированным сигналами ничтожно мало. Это свидетельствует о том, что описанные в работе алгоритмы являются достаточно надежными и точными для использования в решении обратной задачи.

Предложен способ использования вероятностей кардинальных типов в эталонах метода динамической трансформации шкалы времени (DTW).

Рассмотрена система распознавания изолированных цифр русского языка, основанная на модифицированном DTW с использованием вероятностей кардинальных типов (глава 3). Распознавание проводилось независимо от диктора и микрофона. Показано, что при включении в эталоны информации о типе сегмента количество ошибок распознавания слов уменьшилось в 6 раз, с 12% до 2% по сравнению с предыдущей версией распознавателя, основанного только на детекторах артикулятор-ных событий.

Рассмотрена система голосовой верификации по изолированным цифрам. Сегментация на артикуляторно-акустические сегменты выполнялась комбинированным алгоритмом сегментации (модифицированный DTW (глава 3) + вероятности типов (глава 4)). Характерные параметры голоса (частота основного тона, формантные частоты, характерные частоты фрикативных) вычислялись алгоритмами, предложенными в данной работе (глава 2). Установлено, что средняя суммарная ошибка верификации для паролей, состоящих из десяти слов, составила 0.04%. Такая точность на порядок превосходит известные системы верификации и достаточна для практического применения в системах безопасности. Это позволяет сделать вывод о целесообразности контекстно-зависимой верификации личности по голосу, а также о высокой эффективности предложенных алгоритмов.

Библиография Цыплихин, Александр Иванович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Цыплихин А. К, Леонов А. С., Сорокин В. Н. Двумерные распределения фонетиче-ских сегментов // Труды Международного семинара «Диалог 2002», 2002, Т. 2, С. 484-495.

2. Сорокин В. Н., Цыплихин А. И. Аппроксимация распределений малопредставительных выборок // М.: ГЕОС, Сборник трудов XIII сессии Российского акустического общества, 2003, Т. 3, С. 95-100.

3. Сорокин В. Н„ Ижнин А. Н., Цыплихин А. К, Чепелев Д. Н. Артикуляторноориентированная система распознавания речи // Труды Международного семинара «Диалог-2003», 2003, стр. 657-662.

4. Sorokin V.N., LeonovA.S., Makarov I.S., Tsyplikhin A.I. Speech inversion and resynthesis // Proceedings of InterSpeech-2005, Lisbon, 2005, P. 3209-3212.

5. Цыплихин А. К Импульсы голосового источника: гетерархический алгоритм синхронизации TWIN // Труды XVI сессии РАО, 2005, Т. 3, С. 36-40.

6. Леонов А.С., Макаров КС., Сорокин В.Н., Цыплихин А.И. Артикуляторный ресинтез гласных // Информационные процессы, 2003, Т. 3, № 2, С. 73-82.

7. Репин В. Г., Цыплихин А. И. Определение точной верхней грани ошибок методанаименьших квадратов // Радиотехника и электроника, 2003, Т. 48, № 1, С. 9199.

8. Леонов А.С., Макаров КС., Сорокин В.Н., Цыплихин А.К Артикуляторный ресинтез фрикативных // Информационные процессы, 2004, Т. 4, № 2, С. 141-159.

9. Сорокин В. Н., Цыплихин А. К. Сегментация и распознавание гласных // Информационные процессы, 2004, Т. 4, № 2, С. 202-220.

10. Леонов А.С., Макаров КС., Сорокин В.Н., Цыплихин А.К Кодовая книга для речевых обратных задач // Информационные процессы, 2005, Т. 5, № 2, С. 101-119.

11. Цыплихин А. И., Сорокин В. Н. Сегментация речи на кардинальные элементы //

12. Информационные процессы, 2006, Т. 6, № 3, С. 177-207.

13. Воронцов К. В. Комбинаторные обоснования обучаемых алгоритмов // ЖВ-МиМФ,2004, Т. 44, № 11, С. 2099-2112.

14. Макаров К. С. Построение и исследование артикуляторных кодовых книг для решения речевых обратных задач. Диссер. на соиск. степ, к.т.н., ИППИ РАН,2005.

15. Покровский Н. Б. Расчет и измерение разборчивости речи. М.: Связьиздат, 1962.

16. Ралшшвили Г. С. Автоматическое опознавание говорящего по голосу. М.: Радио исвязь, 1981.-224 с.

17. Смирнов В. И. Курс высшей математики. Том 2. М: Государственное издательствотехнико-теоретической литературы, 1957.

18. Сорокин В. Н. Новые концепции в автоматическом распознавании речи //13 сессия

19. Российского акустического общества, 1999, С. 50-57.

20. Сорокин В. Н. Синтез речи. М.: Наука, 1992. - 392 с.

21. Сорокин В. Н. Теория речеобразования. М.: Радио и Связь, 1985. 312 с.

22. Сорокин В. Н., Трифоненков В. П. Об автокорреляционном анализе речевого сигнала // Акустический ж., 1996, Т. 42, N. 3, С. 418-425.

23. Сорокин В. Н., ЧепелевД. Н. Первичный анализ речевых сигналов // Акустическийж., 2005, Т. 51, № 4, С. 536-542.

24. Харкевич А. А. Теория информации. Опознание образов. Избранные труды в трехтомах. Т. III. М.: Наука, 1973. 524 с.

25. Abdulla W. Н., Chow D„ Sin G. Cross-words reference template for DTW based speechrecognition systems // IEEE TENCON 2003, Bangalore, India, 2003.

26. Acero A. Formant analysis and synthesis using hidden markov models // in Proc. Eur.

27. Conf. Speech Communication Technology, 1999.

28. Akaike H. A New Look at the Statistical Identification Model // IEEE Trans. On Automatic Control, 1974, V. 19, P. 716-732.

29. Ali A.M.A., Spiegel J. V. Acoustic-phonetic features for the automatic classification offricatives // J. Acoust. Soc. Am., 2001, V. 109, N. 5, Pt. 1, P. 2217-2235.

30. Altosaar Т., Karjalainen M. Event-Based Multiple Resolution Analysis of Speech Signals // In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, New-York, 1988, P. 327-330.

31. Amit Y., Koloydenko A., Niyogi P. Robust acoustic object detection // J. Acoust. Soc.

32. Amer., 2005, V. 118, N. 4, P. 2634-2648.

33. Andre-Obrecht R. A New Statistical Approach for the Automatic Segmentation of Continuous Speech Signals // IEEE Transactions on Acoustics, Speech Signal Processing, 1988, V. 36, P. 29-40.

34. A take Y., Irino Т., Kawahara H., LuJ., Nakamura S., Shikano K. Robust fundamentalfrequency estimation using instantaneous frequencies of harmonic components // Proc. ICSLP-2000,2000, V. 2, P. 907-910.

35. Atal B. S. Efficient Coding of LPC Parameters by Temporal Decomposition // In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, 1983, P. 81-84.

36. Atal B. S., Hanauer S. L. Speech analysis and synthesis by linear prediction of the speechwave // J. Acoust. Soc. Amer., 1971, V. 50, P. 637-655.

37. Aversano G. Phone Level Automatic Speech Segmentation. A Text-Independent Segmentation Algorithm and a Software Tool for Speech Annotation and Analysis. Ph.D. Thesis, Universita di Salerno, Italy, 2004.

38. Backfried G., Rainoldi R., Riedler J. Automatic Language Identification in Broadcast

39. News. In Proceedings of International Joint Conference on Neural Networks, 2002, V. 2, P. 1406-1410.

40. Backstrom T. Linear predictive modelling of speech Constraints and line spectrum pair

41. Decomposition: PhD thesis, 2004, Helsinki University of Technology. 84 p.

42. Bagshaw P. C., Hiller S. M., Jack M. A. Enhanced pitch tracking and the processing of fOcontours for computer aiding intonation teaching // Proc. Eurospeech-93,1993, V. 2, P. 1000-1003.

43. Basseville M. Distance Measures for Signal Processing and Pattern Recognition // Signal

44. Processing, 1989, V. 18, P. 349-369.

45. Basseville M., Nikiforov I. V. Detection of Abrupt Changes: Theory and Applications.

46. Englewood Cliffs, NJ, Prentice Hall, 1993.

47. Baudoin G„ CapmanF., CernockyJ., El ChamiF. CharbitM., Chollet G., Petrovska

48. Bellman R. Dynamic Programming. Princeton University Press, 1957.

49. Верри Т., Aikawa K. Spontaneous speech recognition using dynamic CEPSTRA incorporating forward and backward masking effect // In EUROSPEECH-1995,1995, P. 511-514.

50. Beringer N., Schiel F. Independent Automatic Segmentation of Speech by Pronunciation

51. Modeling I I In Proceedings of the 14th Int. Congress of Phonetic Sciences. San Francisco, 1999, P. 1653-1656.

52. Beulen K, Ney H. Automatic Question Generation for Decision Tree Based State Tying

53. In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, 1998, P. 805-808.

54. Biernacki C., Celeux G., Govaert G. Assessing a Mixture Model for Clustering with the1.tegrated Classification Likelihood // Technical Report No.3521, Rhone-Alpes:INRIA,1998.

55. Biernacki C., Govaert G. Using Classification Likelihood to Choose the Number of

56. Clusters // Computing Science and Statistics, 1997, V. 29, P. 451-457.

57. Bimbot F., Magrin-Chagnolleau I., Mathan L. Second-Order Statistical Measures for

58. Text-Independent Speaker Identification // Speech Communication, 1995, V. 17, P. 177-192.

59. Binnenpoorte D., Goddijn S„ Cucchiarini C. How to Improve Human and Machine

60. Transcriptions of Spontaneous Speech. ISCA/IEEE Workshop on Spontaneous Speech Processing and Recognition. Tokyo,2003, P. 147-150.

61. Bourlard H„ Morgan N. Speaker Verication: A Quick Overview // IDIAP Research Report, 1998.

62. Brugnara F., De Mori A., Giuliani D„ Omologo M. Improved Connected Digit Recognition Using Spectral Variation Functions // In Proceedings of International Conference on Spoken Language Processing, 1992, P. 627-630.

63. Campbell J. P. Speaker Recognition: a Tutorial // Proc. of the IEEE, 1997, V. 85, N. 9,1. P. 1437-1462.

64. Carlson R., Granstrom В., Fant G. Some studies concerning perception of isolated vowels // STL-QPSR 2-3,1970, P. 19-35.

65. Celeux G., Soromenho G. An Entropy Criterion for Assessing the Number of Clusters ina Mixture Model // Classification Journal, 1996, V. 13, P. 195-212.

66. Chu S., Keogh E„ Hart D., Pazzani M. Iterative Deepening Dynamic Time Warping for

67. Time Series // In: Proc. SIAM Int. Conf. on Data Mining, 2002.

68. Chu W. C. Speech Coding Algorithms: Foundation and Evolution of Standardized Coders. Wiley, 2003, ISBN 0 471 37312-5.

69. Church K. W. Speech and Language Processing: Where Have We Been and Where Are

70. We Going? Proceedings of the 8th European Conference on Speech Communication and Technology Eurospeech '03. Geneva, Switzerland, 2003, P. 1-4.56. de Cheveigne A. Speech fD extraction based on Licklider's pitch perception model //

71. Proc. ICPhS, 1991, P. 218-221.57. de Cheveigne A., Kawahara H. YIN, a fundamental frequency estimator for speech andmusic Hi. Acoust. Soc. Am., 2002, V. 111, P. 1917-1930.

72. Deller J. R., Proakis J. G., Hansen J. H. Discrete-time Processing of Speech Signals.

73. Macmillan, New York, 1993.

74. Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data viathe EM algorithm // J. of the Royal Statistical Society, Series B, 1977, N. 34, P. 138.

75. Deng L., Bazzi I., Acero A. Tracking vocal track resonances usign an analytical nonlinearpredictor and a targetguided temporal constraint // in Proc. Eur. Conf. Speech Communication Technology, 2003.

76. Deng L., Lee L„ Attias H., Acero A. A structured speech model with continuous hiddendynamics and predictionresidual training for tracking vocal track resonances // in IEEE ICASSP, 2004.

77. Dixon N. R., Martin Т. B. Automatic Speech and Speaker Recognition.- New York:1.EE Press, 1979.

78. Dusan S. Statistical estimation of articulatory trajectories from the speech signal usingdynamical and phonological constraints: PhD thesis, 2000, University of Waterloo. -230 p.

79. Esposito A., Pannacci L„ Perfetti R., Russo R.C. Speech Segmentation by Parametric

80. Filtering: Two New Distortion Measures and Experimental Evaluation, Technical Report n. IIASS-1-00, International Institute for Advanced Scientific Studies, Vietri sul Mare (SA), Italy, 2000.

81. Faltlhauser R., Ruske G. Improving Speaker Recognition Performance using Phonetically structured Gaussian Mixture Models // Proc. Eurospeech, 2001, P. 751-754.

82. Fant G. The Acoustic Theory of Speech Perception. Mouton, The Hague, 1960.

83. Finster H. Automatic speech segmentation using neural network and phonetic transcription // In Proceedings of International Conference on Neural Networks, 1992, V. 4, P. 734-736.

84. Franc V., Hlavac V. Statistical Pattern Recognition Toolbox // Czech Technical University Prague, 2000-2005, http://cmp.felk.cvut.cz

85. Furui S. Cepstral analysis technique for automatic speaker verification // IEEE Trans.

86. ASSP, 1981, V. 29, N. 2, P. 254-272.

87. Furuichi С., Aizawa K„ Inoue K. Speech Recognition Using Stochastic Phonemic Segment Model Based on Phoneme Segmentation // Systems and Computers in Japan, 2000, V.31(10), P. 1111-1119.

88. Gerhard D. Pitch extraction and fundamental frequency: history and current techniques

89. Technical report TR-CS 2003-06, University of Regina, Saskatchewan, Canada, 2003.

90. Glass J. R., Zue V. W. Multilevel Acoustic Segmentation of Continuous Speech // In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, 1988, P.429-432.

91. Gomez J.A., Castro M. J. Automatic Segmentation of Speech at the Phonetic Level // In

92. T. Caell et al. (eds): Lecture Notes in Computer Science, 2002, V. 2396, P. 672-680.

93. Gray R. M., Buzo A., Gray A. H., J., Matsuyama Y. Distortion measures for speech processing // IEEE Trans. Acoust. Speech Signal Process., 1980, V.28, P. 367-376.

94. Greenberg S. Strategies for Automatic Multi-Tier Annotation of Spoken Language Corpora // In Proceedings of the 8th European Conference on Speech Communication and Technology Eurospeech '03. Geneva, Switzerland, 2003, P. 45-48

95. Hanson B. A., Applebaum Т. H., JunquaJ. C. Spectral dynamics for speech recognitionunder adverse conditions. Automatic Speech and Speaker Recognition Advanced Topics, (Eds) С. H. Lee, F. K„ 1996.

96. Hermansky H. Analysis in Automatic Recognition of Speech // In: Chollet, G., Di

97. Benedetto M., Esposito, A., Marinaro M. (eds.): Speech Processing, Recognitionand Artificial Neural Networks, 3rd International School on Neural Nets "Eduardo R. Caianiello", Springer-Verlag, Berlin Heidelberg New York,1999, P. 115-137.

98. Hermansky H., Morgan N. RASTA processing of speech // in IEEE Transactions on

99. Speech and Audio Processing, 1994, V. 2, N. 4, P. 578-589.

100. Hess W. Pitch Determination of Speech Signals.- Berlin: Springer-Verlag, 1983.

101. Horak P. Automatic Speech Segmentation Based on DTW with the Application of the

102. Czech TTS System // In E. Keller, G.Bailly, A, Monaghan, J. Terken, M. Huckwale (eds.): Improvements in Speech Synthesis. John Wiley and Sons Ltd., 2001, P. 331— 340.

103. HuangX, Acero A., Hon H.-W. Spoken Language Processing. Prentice-Hall, 2001.

104. Itakura F. Minimum prediction residual principle applied to speech recognition // IEEE

105. Trans Acoustics Speech Signal Process, 1975, V. 23, P. 52-72.

106. ITU-T Recommendation P. 11,1994.

107. Jain A., Bolle R., Pankanti S., editors Biometrics: Personal Identification in Networked

108. Society, Kluwer Academic Publishers, Boston, MA, 1999.

109. Jeong C. G., Jeong H. Automatic Phone Segmentation and Labeling of Continuous

110. Speech // Speech Communication, 1997, V. 20, P. 291-311.

111. Jordan M. I., Xu L. Convergence results for the EM approach to mixtures of expertsarchitectures // Neural Networks, 1996, 8:1409-1431.

112. Kanthak S., Ney H. Multilingual Acoustic Modeling Using Graphemes // In Proceedingsof European Conference on Speech Communication and Technology, 2003, V. 2, P. 1145-1148.

113. Kasi K., Zahorian S. A. Yet another algorithm for pitch tracking // ICASSP-2002,2002.

114. Kim C., Seo K.-D., Sung W. A robust formant extraction algorithm combining spectralpeak picking and root polishing // Eurasip. Journ. Applied Sig. Proc., 2006.

115. Klatt D. H. Linguistic uses of segmental duration in English: Acoustic and perceptualevidence // J. Acoust. Soc. Am., 1976, V. 59, P. 1208-1221.

116. Klatt D. H. Speech processing strategies based on auditory models // in The Representation of Speech in the Peripheral Auditory System, edited by R. Carlson and B. Gran-strom Elsevier Biomedical, Amsterdam, 1982, P. 181-196.

117. Koehler А. В., Murohee E.H. A Comparison of Akaike and Schwarz Criteria for Selecting Model Order// Applied Statistics, 1988, V. 37, P. 187-195.

118. Kolokolov A. S. Preprocessing and Segmentation of the Speech Signal in the Frequency

119. Domain for Speech Recognition. Automation and Remote Control, 2003, V.64(6), P. 985-994.

120. KominekJ., Bennett C., Black A. W. Evaluating and Correcting Phoneme Segmentationfor Unit Selection Synthesis // in Proceedings ESCA Eurospeech'03,2003.

121. Кио В. C., Landgrebe D. Improved Statistics Estimation And Feature Extraction For

122. Hyperspectral Data Classification // PhD Thesis and School of Electrical & Computer Engineering Technical Report TR-ECE 01-6, December 2001 (88 pages).

123. Kvale K. Segmentation and Labelling of Speech // Ph.D Dissertation, The Norwegian1.stitute of Technology, 1993.

124. Lavielle M. Detection of Changes in the Spectrum of Multidimensional Process // IEEE

125. Transactions on Signal Processing, 1993, V. 41, P. 742-749.

126. LeonovA. S., Sorokin V. N. Inverse problem for the vocal tract: identification of controlforces from articulatory movements // Pattern Recognition and Image Analysis. 2000. Vol. 10, № l.P. 110-126.

127. Levinson S. E., Liberman M. Y. Speech recognition by computer // Scientific American,1981, V. 244, P. 56-68.

128. Li Т. H. Gibson J. D. Speech Analysis and Segmentation by Parametric Filtering // IEEE

129. Transactions on Speech and Audio Processing, 1996, V. 4(3), P. 203-213.

130. Lin M.-T., Lee C.-K., Lin C.-Y. Consonant/Vowel Segmentation for Mandarin Syllable

131. Recognition // Computer Speech and Language, 1999, V. 23, P. 207-222.

132. Liu D., Lin C. Fundamental frequency estimation based on the joint time-frequencyanalysis of harmonic spectral structure // IEEE Trans. Speech Audio Process., 2001, V. 9(6), P. 609-621.

133. Loizou P. COLEA: A MATLAB software tool for speech analysis // www.utdallas.edu/loizou/speech/

134. Long C. J., Datta S. Wavelet Based Feature Extraction for Phoneme Recognition //

135. PROC. ICSLP96,1996, P. 264-267.

136. Louradour J., Andre-Obrecht R., Daoudi K. Segmentation and Relevance Measure for

137. Speaker Verification // In INTERSPEECH-2004,2004, P. 1401-1404.

138. MakhoulJ. Spectral Linear Prediction: Properties and Applications // IEEE Transactions

139. ASSP, 1975, V. 23(5), P. 283-296.

140. McLachlan G., Peel D. Finite Mixture Models // New York: John Wiley & Sons Inc.,2000.

141. Meddis R., Hewitt M. J. Virtual pitch and phase sensitivity of a computer model of theauditory periphery. I: Pitch identification // J. Acoust. Soc. Am., 1991, V. 89, P. 2866-2882.

142. Melin Н. On Word Boundary Detection in Digit-Based Speaker Verification", Workshopon Speaker Recognition and its Commercial and Forensic Applications (RLA2C), Avignon, France, 1998, P. 46-49.

143. Mermelstein P. Automatic segmentation of speech into syllable units // J. Acoust. Soc.

144. Amer., 1975, V. 58, N. 4, P. 880-883.

145. Mitchell C. D., Harper M. P., Jamieson L. H. Using Explicit Segmentation to Improve

146. HMM Phone Recognition // In Proceedings of International Conference on Acoustic, Speech and Signal Processing, 1995, P. 229-232.

147. Miyoshi Y„ Yamato 1С, Mizoguchi R, Yanagida M., Kakusho O. Analysis of speech signal of short pitch period by a sample-selective linear prediction // IEEE Trans. Acoust. Speech Signal Process., 1987, V. 35, N. 9, P. 1233-1240.

148. Myers C., Rabiner L., RosenebergA. Performance tradeoffs in dynamic time warpingalgorithms for isolated word recognition // IEEE Trans Acoustics Speech Signal Process, 1980, V. 28, P. 623-635.

149. Nakatani Т., Irino T. Robust and accurate fundamental frequency estimation based ondominant harmonic components // J. Acoust. Soc. Am., 2004, V. 116(6), P. 36903700.

150. Naonori U., RyoheiN., Ghahramani Z, Hinton G.E. SMEM Algorithm for Mixture

151. Models//Neural Computation, 2000, V. 12, N. 9, P. 2109-2128.

152. Nedic В., BourlardH. Recent Developments in Speaker Verification at IDIAP, IDIAP1. Research Report, 2000.

153. Ney H. Dynamic programming algorithm for optimal estimation of speech parametercontours // IEEE Trans, on Systems, Man and Cybernetics, 1983, V. SMC-13, N. 3, P. 208-214.

154. Niyogy P., Sondhi M.M. Detecting stop consonants in continuous speech // J. Acoust.

155. Soc. Amer., 2002, V. 111, P. 1063-1076.

156. Noll A. M. Cepstrum pitch determination // J. Acoust. Soc. Am., 1967, V. 41, P. 293-309. 121 .Paliwal K. 1С Dimensionality reduction of the enhanced feature set for the HMM-basedspeech recognizer// Digital Signal Processing, 1992, V. 2, P. 157-173.

157. Pan V. Y. Solving a Polynomial Equation: Some History and Recent Progress SIAM Review, 1997, V. 39, N. 2, P. 187-220.

158. Petek В., Anderson O., Dalsgaard P. On the robust automatic segmentation of spontaneous speech // In Proceedings of the International Conference on Spoken Language Processing (ICSLP'96), Philadelphia, 1996, P. 913-916.

159. Picone J. Continuous Speech Recognition Using Hidden Markov Models. IEEE ASSP1. Magazine, 1990, P. 26-41.

160. Picone J. Signal Modeling Techniques in Speech Recognition // Proc. of the IEEE, 1993,

161. V. 81, N. 9, P. 1215-1247.

162. Plante F., Ainsworth W. A., Meyer G. F. A pitch extraction reference database // Proc.

163. Eurospeech-95, 1995, P. 837-840.

164. Potamianosa A. Maragos P. Speech formant frequency and bandwidth tracking usingmultiband energy demodulation // J. Acoust. Soc. Amer., 1996, V. 99, P. 37953806.

165. Prasad V. K., Nagarajan Т., MutrhyH. A. Automatic Segmentation of Continuous

166. Speech Using Phase Group Delay Functions // Speech Communication, 2004, V. 42 P.429-446.

167. Rabiner L. R., Cheng M. J., Rosenberg A. E., McGonegal C. A. A comparative performance study of several pitch detection algorithms // IEEE Trans. Audio Electroacoust., 1976, ASSP-24, P. 399-417.

168. Rabiner L. R., Juang В. H. An Introduction to Hidden Markov Models // IEEE ASSP1. Magazine, 1986, P. 4-16.

169. Rabiner L. R., Juang В. H. Fundamentals of speech recognition. Prentice, Englewood1. Cliffs, NJ, 1993.

170. Rabiner L. R., Levinson S. E., Rosenberg A. E., Wilpon J. G. Speaker Independent Recognition of Isolated Words Using Clustering Techniques // IEEE Trans, on Acoust. Speech and Signal Processing, ASSP, 1979, V. 27, N. 4, P. 336-49.

171. Rabiner L. R., Schafer R. W. Digital Processing of Speech Signals. Prentice-Hall, Englewood Cliffs, NJ, 1978.

172. Rose R., SchroeterJ., SondhiM. M. The potential role of speech production models inautomatic speech recognition//J. Acoust. Soc. Am, 1996, V. 99. P. 1699-1709.

173. Rosner B. S., Pickering, J. B. Vowel Perception and Production. Oxford University1. Press, New York, 1994.

174. Ross M. J., Shaffer H. L., Cohen A., Freudberg R., Manley H. J. Average magnitude difference function pitch extractor // IEEE Trans. Acoust. Speech Signal Process., 1974, V.22, P. 353-362.

175. Sakoe H., Chiba S. Dynamic programming algorithm optimization for spoken wordrecognition // IEEE Trans Acoustics Speech Signal Process ASSP, 1978, V. 26, P. 43-49.

176. SchroeterJ., Sondhi M. M. Speech coding based on physiological models of speech production // Advances in Speech Production, eds S.Furui and M.M. Sondhi, Marcel Dekker, NY. 1991. P. 231-268.

177. Schwarz G. Estimating the Dimension of a Model // Annals of Statistics, 1978, V. 6, P.461.464.

178. Sharma M., Mammone R. Automatic Speech Segmentation Using Neural Tree Networks

179. In Proceedings of IEEE Workshop on Neural Networks for Signal Processing, 1995, P. 282-290.

180. Shimamura Т., Kobayashi H. Weighted autocorrelation for pitch extraction of noisyspeech // IEEE Trans. Speech Audio Process. ,2001, V. 9(7), P. 727-730.

181. Silverman H. F., Morgan D. P. The Application of Dynamic Programming to Connected

182. Speech Recognition. IEEE ASSP Magazine, 1990, P. 6-25.

183. Sinder D., Sondhi M. M. Text-to-speech from concatenation of articulatory units derivedfrom natural speech // J. Acoust. Soc. Am., 2003, V. 113, Pt. 2. P. 2199.

184. StoberK., Hess W. Additional Use of Phoneme Duration Hypotheses in Automatic

185. Speech Segmentation // Proceeding of the ICSLP'98, Sydney, 1998, Paper number 239.

186. Svendsen Т., Soong F. K. On Automatic Segmentation of Speech Signals. In Proceedingsof International Conference on Acoustics, Speech, and Signal Processing, Dallas, 1987, P. 77-80.

187. Toh A.M., Togneri R., Nordholm S. Spectral Entropy as Speech Features for Speech Recognition // Proceedings of PEECS2005, Perth, 2005, P. 22-25.

188. Vidal E., Marzal A. A Review and New Approaches for Automatic Segmentation of

189. Continuous Speech Signals. In L. Torress et al. (eds): Signal Processing V: Theories and Applications, Elsevier Publisher, New-York, 1990, P. 43-53.

190. Wang C., SeneffS. Robust pitch tracking for prosodic modeling in telephone speech //

191. Proc. ICASSP-2000,2000, P. 1343-1346.

192. Wei В., Gibson J. D. A New Discrete Spectral Modeling Method and an Application to

193. CELP Coding // IEEE Signals Processing Letters, 2003, V. 10(4), P. 101-103.

194. Wendt C., Petropulu A.P. Pitch Determination and Speech Segmentation Using the Discrete Wavelet Transform // In Proceedings of IEEE International Symposium on Circuits and Systems, 1996, V. 2, P. 45-48.

195. WestburyJ. X-ray Microbeam Speech Production Database User's Handbook, Version10 (June 1994)//University of Wisconsin, 1994.

196. Wokurek W. Corpus Based Evaluation of Entropy Rate Speech Segmentation// In Proceedings of 14th International Congress of Phonetic Sciences, 1999, P. 1217-1220.

197. Wu С. F. G. On the convergence properties of the EM algorithm I I The Annals of Statistics, 1983, N. 11, P. 95-103.

198. Wu Y.J., Kawai H., Ni J., Wang R.H. Discriminative training and explicit duration modeling for HMM-based automatic segmentation // Speech Communication, 2005, V. 47, N. 4, P. 397-410.

199. Xafopoulos A. Speaker Verification (an overview) // TUT TICSP presentation, 2001.

200. Xia K., Espy-Wilson C. A New Strategy of Formant Tracking Based on Dynamic

201. Programming // In ICSLP-2000, V. 3, P. 55-58.

202. Xu L„ Jordan M. I. On convergence properties of the em algorithm for Gaussian mixtures //Neural Computation, 1996, 8:129-151.

203. YoungS. J., Woodland P. C. State Clustering in Hidden Markov Model-Based Continuous Speech Recognition // Computer Speech and Language, 1994, V. 8, P. 369-383.

204. Zue V. W, Glass J. R., Philips M„ SeneffS. Acoustic Segmentation and Phonetic Classification in the Summit System // In Proceedings of International Conference on Acoustics, Speech, and Signal Processing, 1989, P. 389-392.