Модель и алгоритмы анализа и сегментации речевого сигнала

Конев, Антон Александрович

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Модель и алгоритмы анализа и сегментации речевого сигнала

кандидата технических наук: Конев, Антон Александрович
город: Самара
год: 2007
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Модель и алгоритмы анализа и сегментации речевого сигнала»

Автореферат диссертации по теме "Модель и алгоритмы анализа и сегментации речевого сигнала"

На правах рукописи

Конев Антон Александрович

МОДЕЛЬ И АЛГОРИТМЫ АНАЛИЗА И СЕГМЕНТАЦИИ РЕЧЕВОГО СИГНАЛА

Специальность 05 13 18 - Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание ученой степени кандидата технических наук

Томск - 2007

0030705 Ю

003070510

Работа выполнена в Томском государственном университете систем управления и радиоэлектроники

Научный руководитель - доктор технических паук, профессор

Бондаренко Владимир Петрович

Официатьные оппоненты доктор технических наук, профессор

Кочегуров Владимир Александрович

кандидат физико-математических наук, с н с Афонии Геннадий Иванович

Ведущая организация - Алтайский государственный универси гет

Защита состоится «17» мая 2007г в 16 30 часов на заседании диссертационного совета Д 212 268 02 в Томском государственном университете систем управления и радиоэлектроники по адресу 634034, г Томск, ул Белинского, 53, НИИ АЭМ при ТУСУР

С диссертацией можно ознакомиться в библиотеке ТУСУРа по адресу 634045, г Томск, ул Вершинина, 74

Автореферат разослан «13» апреля 2007 г

Ученый секретарь диссертационного совета

А Я Клименко

Актуальность работы. Распознавание слитной речи и идентификация человека по голосу - особенно сложные пробтемы для открытого множества дикторов Основными недостатками существующих программных продуктов являются необходимость длительного обучения системы и недостаточное качество работы со спонтанной речью Так, по данным американского института стандартов (МБТ) процент ошибочно определенных при распознавании слов для разговоров по мобильным телефонам составил 23,8%, для конференц-залов - от 26% до 38%, для лекционных залов - от 28% до 52%, для новостных передач - 9,9% Еще одна проблема - отсутствие конкурентоспособных систем распознавания слитной речи на русском языке Размер рынка речевых технологий в 2006 юду достиг 1 миллиарда долларов увеличившись на 100% всего за два года, но большая часть рынка -это распознавание голосовых команд и синтез речи

Большой вклад в развитие речевых технологий внесли такие ученые, как Г Фант, ДжФланаган, М А Сапожков, В Н Сорокин, В И Галунов, Б М Лобанов, Т К Винцюк, Р К Потапова, Л В Златоустова, А В Аграновский, ДАЛеднов, НГЗагоруйко, Ю А Косарев, А Л Ронжин, М В Хитров, С Л Коваль, В Г Михайлов, Э Г Кнеллер

Параметры речевого сигнала могут использоваться при решении проблемы низкоскоростного кодирования речевого сигнала при условии выделения их с приемлемой точностью

Актуальной областью применения анатиза речевою сигнала является медицина Анализ изменений в речевом сигнале позволяет проводить диагностику при заболеваниях речеобразующего тракта Например, проводятся исследования влияния на характеристики сигнала таких заболеваний, как пневмония, рак гортани, недостаточное развитие речи у детей, заикание в работах Коренбаума, Сорокина, Галунова, Склярова

Анализ речевого сигнала может применяться во время речевой реабилитации после полной или частичной резекции гортани В некоторых случаях проводится постановка пищеводного голоса с учетом таких параметров, как длительность фонации, значение частоты основного тона

На начальном этапе исследования речевых систем обращалось особое внимание на особенности слухового восприятия такими учеными, как Бекеши, Молчанов, Фланаган Затем, в связи с большой вычислительной сложностью, данный подход отошел на второй план В настоящее время вновь стати появляться работы в этом направлении (Галунов, Кнеллер)

Для полноценного решения задач в области речевых технологий требуется детальный анализ структуры речевого сигнала При этом важно, что он должен проводиться с учетом особенностей слухового восприятия

Таким образом, задача построения модели слухового восприятия речевою сигнала, учитывающей особенности физиологии, нейродинамики, психоакустики и др. является актуальной

Цель исследований - построение модели и алгоритмов анализа и обработки речевых сигналов, учитывающих особенности слухового восприятия человека.

Для достижения поставленной цели необходимо решить следующие задачи

1 анализ особенностей слухового восприятия (по существующим литературным источникам),

2 построение модели обработки речевого сишала на периферии слуховой системы, учитывающей иерархическую структуру обработки речевого сигнала и его представление в слуховой системе,

3 разработка алгоритмов, на первых этапах обработки речевых сигналов опирающихся на особенности входных сигналов, а в последующем учитывающих особенности речеобразования,

4 исследование модели и алгоритмов,

5 сопоставление модели с имеющимися данными по функционированию слуховой системы

Методы исследований Для решения задач, сформулированных в работе, использовались методы системного анализа, цифровой обработки сигналов, теории образов, численных методов, фонетики, психоакустики

Достоверность полученных результатов обеспечивается строгостью используемого математического аппарата, адекватностью модели, установленной путем сравнения реакций модели и слуховой системы на тестовые сигналы, большим количеством экспериментальных данных, подтверждающих теоретические результаты

Научную новизну, полученных в работе результатов определяют

1 алгоритм и численные методы измерения частоты основного тона,

2 алгоритм сегментации речевого сигнала на вокализованные и невокапизованные участки;

3 модифицированная иерархическая модель восприятия речевых сигналов на периферии слуховой системы

Практическая значимость Разработанные модель и алгоритмы позволяют на основе реализованного программного комплекса

1 создавать программное обеспечение для детального анализа речевого сигнала,

2 формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи,

3 разрабатывать программное обеспечение по диагностике изменений в речеобразугащей системе человека

Положения, выносимые на защиту

I модель восприятия речевых сигналов на периферии слуховой системы, учитывающая иерархическую структуру обработки речевого сигнала и его представление в слуховой системе,

2 алгоритм и численные методы измерения частоты основного тона, обеспечивающие погрешность измерения не более 0,6%;

3 алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки, обеспечивающий надежность 0,89-0,93 Внедрение результатов Разработанный программный комплекс

используется в научно-исследовательской деятельности ГУ НИИ онкологии ТНЦ РАМН, ООО «НПФ «Информационные системы безопасности», ООО «ЛМЭ «Биоток» а также в учебном процессе ТУСУР по дисциплине «Вычислительная математика»

Апробация работы. Основные результаты по теме диссертационной работы отражены в 15 публикациях (в том числе 12 статьях из них 3 в журналах, рекомендованных ВАК)

Личный вклад. Автором разработаны алгоритм сегментации и параметрическое описание сегментов, проведены исследования алгоршма сегментации и структуры речевого сигнала онкологических больных, разработана структура программного комплекса и осуществлена программная реализация 8 модулей, а также автор принимал участие в разработке и уточнении модели восприятия речевых сигналов, алгоритмов одновременной маскировки и измерения мгновенной частоты и интенсивности речевого сигнала на выходе системы фильтров Постановка задачи осуществлялась совместно с руководителем - дтн, проф ВП Бондаренко, разработка программного комплекса проводилась совместно с В П Коцубинским

Структура и объем работы Диссертация состоит из введения, четырех глав, заключения, списка литературы из 113 наименований и 2 приложений Общий объем работы составляет 129 страниц, в том числе 58 рисунков и 19 таблиц

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность, научная новизна исследований, определена цель работы и задачи исследований, дана общая характеристика работы, сформулированы основные положения, выносимые на защиту

В первой главе приводится подход к созданию модели, основывающийся на иерархической структуре речевой системы и представлении речевого сигнала в слуховой системе, и постановка задачи

Представлена иерархическая модель восприятия речи, состоящая из нескольких уровней физического, параметрического описания сигнала, фонетического, морфологического, синтаксического и прагматического Для решения задач верхнего уровня, те понимания смысла высказывания, необходимо решение задач нижних уровней

Нижний уровень восприятия включает в себя исходное описание сигнала, которое представляется в координатах интенсивность-время-частота и параметрическое описание, включающее сегментацию и описание типов и параметров сегментов При этом различается два основных типа струюур

речевого сигнала периодическая (вокализованные звуки) и шум (невокализованные) Периодическая структура возникает при задействовании в артикуляции источника колебаний - голосовых связок Одним из наиболее значимых параметров периодического сигнала является частота основного тона Шумовые источники подразделяются на турбулентные и импульсные Кроме периодического и шумового типов звуков, существуют звуки, при образовании которых принимают участие оба типа источников

Основываясь на характере образования звука, в фонетике принята классификация звуков по наличию/отсутствию голосовою источника (звонкие и глухие), способу образования (сонорные, смычные, щелевые) и месту образования (губные, зубные и тд) Анализ фонетического строя русского, английского, французского, немецкого и арабского языков показал, что классификация по месту образования различна, а по наличию голосового источника и способу образования для всех языков одинакова Это подтверждается частотой встречаемости различных классов звуков Например, количество вокализованных звуков в слитной речи исследованных языков практически не отличается и составляет 75-79%

Исходя из этих данных, можно сделать вывод, что описание структуры речевого сигнала, а следовательно, и его сегментация, состоит из следующих этапов

1 по наличию голосового источника,

2 по способу образования,

3 по месту образования

При этом первые два этапа относятся к физическому уровню восприятия, а третий к фонетическому и зависит от структуры языка

Также представлено описание строения слуховой системы Строение периферической части слуховой является основой для построения модели

На основе проанализированных данных сделана постановка задачи, которая заключается в построение модели восприятия речевых сигналов, учитывающей особенности как слухового восприятия человека, структуры сигнала, так и фонетики

Во второй главе описана модель обработки речевого сигнала на периферии слуховой системы человека

Описаны основные функции по обработке сигналов, выполняемые органами восприятия человека Считается, что основные амплитудно-частотные преобразования происходят во внутреннем ухе, в котором основную мембрану принято рассматривать как набор резонансных фильтров Приведены частотные зависимости, на основе которых строится доказательство адекватности разработанной системы фильтров зависимость координаты максимального колебания основной мембраны от частоты, зависимость ширины критической полосы слуха от центральной частоты (Бекеши, Альтман)

Один из основных моментов при построении модели — установление зависимости между шириной критической полосы и шкалой частот Полученное распределение резонансных частот F{x) по длине основной мембраны (х,„=35 мм) принимает вид (1) Верхняя частота анализа для слуховой системы равна /-в=20000 Гц, а нижняя Fn~20 Гц

Р (1)

где с = ■

F(*) = Fat 'a Ftl + /7

F„+P

е~с х +

■In

Коэффициенты а и р определяются из соогношения (2)

Fjx) = a F{x)+p, (2)

где FKp(x) - ширина критической полосы

Построение системы фильтров, учитывающей свойства слуховой системы, возможно при правильном соотношении критических полос слуха и добротности Q(x) системы фильтров Это соотношение определяется как (3)

F(x)

Q(х) = b

(3)

-\„ (*)

I дс Ь - коэффициент связи критической полосы и добротности Для сравнения разработанной системы фильтров со слуховой системой были проанализированы зависимости, имеющие место в слуховой системе и соответствующие им зависимости, полученные при моделировании (рис 1)

Рисунок 1 а)-зависимость ширины критической полосы от центральной частоты F(x), б) - зависимость добротности системы фильтров от F(x), где /крС*)- ширина критической полосы [Бекеши], FKV(x)~ аппроксимация (2), q(x) и Q(x) - соответствующие им добротности Весовые функции системы фильтров имеют вид

К (t, X) = 0(1, X) • cos(fi>, (x) -{t-T3 (x))), (4) hs(t,x) = 0(t,x) sm{cop{x)-(t-T3(x))\ (5)

гдс<9(/,х) =

2,4 Q(x) ■ 4n

exp

wp(x) «-7») 2,4 Q(x)

- окно Гаусса,

<y/;(x)= 2n*F(x) - резонансные частоты выбранных точек на основной мембране, рад/сек,

7"3 - половина длительности импульсной переходной характеристики фильтров (время задержки сигнала), обеспечивающая физическую реализуемость системы фильтров

Система фильтров представляется сверткой вида (6)

y(t,x) = ¡h(t-r,x) S(t) dt, (6)

—ос

где h{t, х) - импульсная переходная характеристика фильтра, S(t) - входной си! нал в момент времени t, y(t, *) - сигнал на выходе фильтра в момент времени I Таким образом, результатом свертки сигнала с весовыми функциями фильтра (4) и (5) являются его синусная ys(tjc) и косинусная yjt^c) составляющие

При этом интенсивность (7) и мгновенная частота (8) вычисляются как

F(t,x) =

I(t,x) = yL(t,x)2 +у^,х)2; dy.bx) yt(ltX)

(7)

(8)

2 п (Л*(',*) +Л2С»*))

Сильное перекрытие амплитудно-частотных характеристик системы фильтров приводит к тому, что интенсивности сигналов по соседним каналам оказываются сильно коррелированными между собой Одновременная маскировка позволяет выделить частотные области сильной корреляции

Результатом одновременной маскировки является массив бинарных значений, определяющийся как (9).

[1, если /(*,/)- М0(х, I) > О Л(х,/) = < , (9)

[0,если1(х,О-М0(х,О<0 (>

где

M0(x,t)= ]l(z,t)-W0(x,z) dz;

Но - весовые коэффициенты одновременной маскировки.

Для оценки разрешающей способности системы фильтров по времени и частоте было использовано понятие тела неопределенности. Исследование тела неопределенности показало, что наиболее точное соответствие разрешающей способности разработанной системы фильтров и слуховой системы наблюдается при коэффициенте Ь~2, что подтверждается анализом реальных речевых сигналов.

Дискретизация длины основной мембраны при цифровой фильтрации производится следующим образом:

к^—-*-, (Ю)

ах

где к - номер текущего канала фильтрации;

X ~х

--— - шаг точек на основной мембране внутреннего уха;

К - количест во каналов фильтрации; 0 < к < А1-],

Интенсивность и мгновенная частота при этом вычисляется как:

(Ц)

& а! - г.

1 А-л-Кик)

Пример реального речевого сигнала после одновременной маскировки (фраза «Гаси огонь») представлен на рис. 2. По оси абсцисс - дискретное время (/Г^12кГц), по оси ординат — частотные каналы фильтрации (К-128), ^в=3 кГц, Рн=50 Гц.

Рисунок 2. Структура речевого сигнала после одновременной маскировки Таким образом, построенная модель адекватна слуховой системе человека, позволяет представлять описание сигнала в координатах

интенсивность-время-частота, а также выделять наиболее информативные для слуховой системы участки сигнала

В третьей главе приведены алгоритм сегментации речевого сигнала по признаку наличия/отсутствия голосового источника и алгоритм выделения частоты основного тона (ЧОТ), а также результаты их исследования Алгоритм сегментации состоит из трех этапов

1 определение наличия периодической структуры на дискретном временном отсчете,

2 определение границ сегментов,

3 устранение ошибочно определенных границ

Для определения наличия периодической структуры применяется свертка речевого сигнала с набором масок на каждом временном отсчете Набор масок представляет собой частотный срез речевого сигнала после одновременной маскировки для различных частот основного тона

Таким образом, маски и сигнал после одновременной маскировки имеют бинарный формат, и решение о наличии периодичности принимается, исходя из значения меры различия, вычисляемой по (13) Если полученное значение не превышает значение порога тт, то временной отсчет признается вокализованным, иначе — невокализованным При свертке масок и сигнала учитывается две гармоники основного тона

</(*„, 0=£/>„(*, 0© л, (¿л), оз)

I де ф - исключительное или (стожение по модулю 2),

Рм(кЛо) - набор масок для определения периодической структуры, ко - номер частотного канала, соответствующий ЧОТ Далее определяются границы интервалов времени, на которых все отсчеты имеют одинаковый признак вокализованности После чего происходит устранение ошибочно проставленных границ (рис 3)

Сокращение ошибок первого рода (неверное определение сегмента как вокализованного) происходит за счет ограничения минимальной длительности вокализованного участка (порог тт\) и проверки значения изменения частоты основного тона на соседних временных отсчетах

Сокращение ошибок второго рода (неверное определение вокализованного сегмента как невокализованного) происходит за счет ограничения минимальной длительности невокализованного участка, находящегося между двумя вокализованными (порог ттТ)

Значение порогов тш\ и тт2 выбиралось, основываясь на разрешающей способности по времени системы фильтров, установленной при исследовании тела неопределенности, в области исследуемых ЧОТ

Входными данными алгоритма являются массив значений, полученный после одновременной маскировки речевого сигнала Выходными - массив

значений ¿о(0> т е номеров каналов, соответствующих ЧОТ, на каждом временном отсчете

Рисунок 3 Алгоритм выделения вокализованных участков сигнала Обозначения, используемые в алгоритме

Vocal — определение наличия периодической структуры на одном временном отсчете (13),

У, - бинарный признак вокализации текущего временного отсчета, V, 1 - бинарный признак вокализации предыдущего временного отсчета, V(tut)- бинарный признак вокализации интервала от t\ до /, У(>2,t]) - бинарный признак вокализации интервала от t2 до t\, min\ — минимальная длительность вокализованного сегмента, тт1 - минимальная длительность невокализованного сегмента, находящегося между двумя вокализованными, t - текущий момент времени,

t\ - момент времени начала текущего вокализованного сегмента, t2 — момент времени конца предыдущего вокализованного сегмента, Г-длительность сигнала,

Dif - разность номера канала, соответствующего частоте основного тона, на текущем временном отсчете и номера канала на предыдущем временном

отсчете,те ko,-kQj.],

Блок №1 - блок сокращения ошибок первого рода,

Блок №2 - блок сокращения ошибок 2-го рода

Экспериментальные исследования алгоритмов сегментации и выделения ЧОТ проводились с параметрами ^=12 кГц, разрядность сигнала 16 бит, количество каналов моно, FB=3000 Гц, F„=50 Гц, ЛГ=128, 6=2, верхняя граница определения частоты основного тона FOb=400 Гц, нижняя граница определения частоты основного тона F0„=70 Гц, число учитываемых гармоник основного тона 2, количество масок для определения вокализованной структуры сигнала' 56, «ш1=0,033 сек, /иш2=0,025 сек

Для выбора наилучшего значения порога min и оценки надежности сегментации русской слитной речи использовался речевой материал, включающий отрывок текста, состоящий из 36 сегментов, произнесенный 10 дикторами (5 мужчин и 5 женщин) И отрывок другого текста, состоящего из 190 сегментов, произнесенный диктором мужчиной Общее количество сегментов в исследовавшихся текстах составило 550 сегментов Сравнение автоматической сегментации проводилось с ручной, отсегментированной с точностью до сотых долей секунды

Критериями определения надежности автоматической сегментации были выбраны количество пропущенных границ (Р.), количество лишних границ (/%.) и количество границ, определенных с погрешностью не более 0,01 сек (/'„+ Р]) Все значения относительно количества границ, определенных при ручной сегментации В результатах также представлено количество границ, определенных с погрешностью 0,02 сек, 0,03 сек и более 0,03 сек

Результаты исследований (табл 1) по выбранным критериям показали, что надежность алгоритма не зависит от пола диктора и от длительности речевого сигнала

Таблица 1 Результаты исследования автоматической сегментации

Значение Ро Р1 Р 2 Рз Р> 3 Р. Р+

порога

min

4 0,42 0,37 0,08 0,04 0,07 0,02 0,18

5 0,54 0,34 0,05 0,02 0,03 0,02 0,15

6 0,6 0,31 0,03 0,01 0,03 0,02 0,09

7 0,56 0,33 0,04 0,02 0,03 0,02 0,1

8 0,44 0,32 0,08 0,03 0,09 0,04 0,14

Таким образом, наилучшие результаты были получены с порогом тт=6 /> =0,02, Я+=0,09, Р0+ />,=0,91

Также было проведено исследование надежности сегментации английской слитной речи Исследование проводилось на 30 фразах, произнесенных на английском языке диктором-мужчиной носителем языка Полученные результаты практически не отличаются от результатов, полученных для русского языка Р =0, Р+=0,06, Р0+ />,=0,9 (табл 2)

Таблица 2 Результаты исследования автоматической сегментации

Ро Р\ Рг Рз Р> 3 Р Р+

0,39 0,51 0,05 | 0,02 0,03 0 1 0,06

Для анализа помехоустойчивости алгоритма сегментации были проведены эксперименты на речевом сигнале диктора-мужчины без шума, а также с шумом (белый шум с отношением сигнал/шум 0 и -3 дБ), что показано в табл 3

Таблица 3 Результаты исследования помехоустойчивости сегментации (100

Отношение сигнал/шум Ро P^ Рг Рг Р>ъ Р. Р+

без шума 0,53 0,4 0,02 0,02 0,03 0 0,15

0 0,16 0,27 0,12 0,09 0,14 0,22 0,43

-3 0,08 0,22 0,9 0,06 0,18 0,37 0,52

Результаты исследования надежности сегментации при работе в шумах

1 снижение относительного количества пропущенных существующих границ АР =0,22 (для 0 дБ), АР=0,37 (для -3 дБ),

2 отношение количества определенных несуществующих границ сигналов с шумом к количеству подобных границ сигнала без шума равно 2,9 (для 0 дБ) и 3,5 (для -3 дБ),

3 Отношение количество правильно определенных временных значений границ (с учетом погрешности в 0,01 сек) сигналов с шумом к количеству подобных значений сигнала без шума равно 2,2 (для 0 дБ) и 3,1 (для -3 дБ)

Эксперимент, оценивающий влияние скачков ЧОТ на надежность сегментации (рис 4, 5), был проведен на тестовых сигналах с различной начальной ЧОТ (П) и различной амплитудой скачка (Л/7) Тестовые сигналы сформированы из 8 синусоид, кратных заданной ЧОТ

Р1

100

—в— 150

—А— 200

— -X— 250

— ж-- 300

АР, Гц

Рисунок 4 Зависимость количества временных отсчетов, определенных как невокализованные, от амплитуды увеличения ЧОТ

100

-D- 150

-i - 200

250

300

100 |AF|, Гц

Рисунок 5 Зависимость количества временных отсчетов, определенных как невокапизованные, от амплитуды уменьшения ЧОТ Из полученных данных видно, что количество невокализованных временных отсчетов не превысило порог тт2, который при /^=12 кГц составляет 300 отсчетов, поэтому после сегментации этот участок был признан вокализованным, т е скачок частоты основного тона не оказывает влияния на надежность сегментации

Частота основного тона определяется по (12) для к=ко Погрешность вычисленного значения ЧОТ определялась как разность между экспериментально полученным значением и эталонным, которое задавалось при создании тестового синусоидального сигнала, состоящего из 8 гармоник основного тона (рис 6)

AF, %

160 Fo, Гц

Рисунок 6 Относительная погрешность определения частоты основного тона Таким образом, погрешность измерения частоты основного тона составляет не более 0,6%

Исследование влияния частотной и амплитудной модуляции на точность определения ЧОТ проводилось на тестовых сигналах синусоидальных сигналах с различными значениями индекса частотной модуляции (А/=0,1,0 ,3, 0,5, 0,7, 0,9), глубиной амплитудной модуляции («=0,1,0 ,3, 0,5, 0,7, 0,9), частотой основного тона (F0=90, 105, 160, 240, 360 Гц) и частотой модуляции (F„,= 5, 10, 20, 30 Гц)

АРО, Гц

г^*—

Рт,Гц

-5 Гц

-«—10 Гц

-А— 20 Гц -х— 30 Гц

0,5 1

Рисунок 7 Абсолютная погрешность определения значения ЧОТ при частотной модуляции (Го=105 Гц)

Гц

Рш, Гц

5 Гц

-в- 10 Гц

---А--- 20 Гц

- -X- 30 Гц

0,5 т 1

Рисунок 8 Абсолютная погрешность определения значения ЧОТ при

амплитудной модуляции (/•'о=105 Гц) Таким образом, погрешность определения ЧОТ при частотной модуляции для наиболее часто встречающихся ^„<10 Гц и М<0,5 не превышает 5 Гц или 6% Для максимальных из исследованных значений ^„,=30 Гц и М=0,9 погрешность достигает 14,5%

При амплитудной модуляции погрешность для ^,„<10 Гц и т<0,5 не превышает 1 Гц или 1,5% Для ^„=30 Гц и т=0,9 - достигает 6 Гц или 7%

Исследование точности определения ЧОТ в шумах для речевых сигналов с отношением сигнал/шум, равным 0 и -3 дБ (помеха - белый шум) показало, что процент грубых ошибок, т е определения как ЧОТ частот более высоких гармоник ОТ, составил 2,5% и 5,3% соответственно

При отношении сигнал/шум, равном 0 дБ, количество временных отсчетов, на которых ЧОТ определена с погрешностью менее 3,5%, составило 87% (в том числе менее 1,5% - 57%) При отношении сигнал/шум, равном -3 дБ, количество временных отсчетов, на которых ЧОТ определена с погрешностью менее 3,5%, составило 61% (в том числе менее 1,5% - 33%)

В четвертой главе представлена программная реализация разработанных модели и алгоритмов Приведена структура программного комплекса по исследованию речевого сигнала Обоснована возможность применения комплекса в исследованиях, направленных на получение параметров речевого сигнала, позволяющих определить изменения органов речеобразования, характерных для рака гортани различных стадий

Приведена классификация рака гортани на стадии заболевания, исходя из его распространенности, по системе ТЫМ

Представлены результаты исследований речевых сигналов 18 онкологических больных на разных стадиях заболевания При более детальном анализе параметров речевого сигнала больных раком гортани, данный программный комплекс может служить основой для создания программ, проводящих диагностику наличия заболеваний, которые вызывают изменения в голосообразующем тракте (в том числе рака гортани), а также программ, позволяющих производить контроль качества проводимого лечения при лучевой и химиотерапии На сегодняшний день методы, при помощи которых производится оценка размеров опухоли, либо недостаточно точны (зеркальная ларингоскопия), либо требуют дополнительного дорогостоящего оборудования, а иногда не могут применяться слишком часто (томография, рентген)

Рисунок 9 Структура программного комплекса на уровне блоков Программный комплекс по исследованию речевого сигнала состоит из программно реализованных модулей, объединенных в шесть блоков Блок создания файлов для обработки речевого сигнала t модуль расчета весовых функций hc(t,k) (4) и hjltji) (5),

2 модуль расчета весовой функции одновременной маскировки Wo(k, к,),

3 модуль формирования набора масок Рм{к) на основе Щк, к,),

Блок предварительной обработки речевого сигнала состоит из двух модулей, параллельно совершающих свертку речевого сигнала S{t) с весовыми функциями системы фильтров hc(t, к) и hs(t, к) (6)

Блок выделения параметров речевого сигнала подразделяется на

1 модуль вычисления массива значений интенсивностей /(/, к) (11),

2 модуль вычисления массива значений мгновенных частот /•"(/, к) (12) Блок выделения вокализованных участков речевого сигнала

1 модуль одновременной маскировки речевого сигнала (9),

2 модуль определения наличия периодической структуры на одном временном отсчете речевого сигнала (13),

3 модуль сегментации речевого сигнала по наличию голосового источника(рис 3)

Блок выделения параметров вокализованных сегментов речевых сигналов подразделяется на

1 модуль вычисления номеров каналов кп, соответствующих частотам гармоник основного тона,

2 модуль выделения массива значений интенсивностей гармоник основного тона /„(/, к„),

3 модуль выделения массива значений мгновенных частот гармоник основного тона к„),

4 модуль вычисления величины девиации частоты основного тона

Блок визуализации параметров речевого сигнала позволяет сохранять полученные графики как в автоматическом, так и в ручном режиме Модули, входящие в блок визуализации

1 модуль визуализации частоты гармоник основного тона речевого сигнала - /•„(', А„),

2 модуль визуализации интенсивностей гармоник основного тона речевого сигнала - /„(/, к„),

3 модуль визуализации относительных интенсивностей гармоник основного тона речевого сигнала, определяющихся как (14)

(14)

4 модуль визуализации энергии речевого сигнала на каждом временном отсчете,

5 модуль визуализации экстремумов интенсивностей речевого сигнала, позволяющий оценить частотное расположение максимумов спектра для исследования невокализованных сегментов речевого сигнала

В исследованиях речевых сигналов больных с различными стадиями рака гортани использовались следующие параметры

1 наличие вокализации звуков;

2 частота основного тона,

3 интенсивность основного тона,

4 динамика изменения частоты основного тона,

5 девиация частоты основного тона,

6 динамика изменения интенсивности основного тона,

7 отношение интенсивности гармоник к интенсивности основного тона

Были выявлены закономерности, представленные в табл 4

____ _Таблица 4

ЧОТ Девиация Интенсивность 1-ой гармоники

1 стадия нестабильная повышенная нестабильная

2 стадия нестабильная или разрушенная повышенная нестабильная

3, 4 стадии (а) стабильная, повышенная малая стабильная

3, 4 стадии (б) нестабильная высокая нестабильная

Нормальная речь стабильная малая стабильная

В заключении приведены основные научные и практические результаты диссертационной работы

1 Обоснован подход к моделированию механизмов восприятия звуковых сигналов

2 Установлены зависимости между шириной критических полос и частотной шкалой восприятия

3 Разработаны алгоритмы и численные методы одновременной маскировки, измерения мгновенной частоты и интенсивности сигнала

4 Разработан алгоритм сегментации речевого сигнала по наличию голосового источника, позволяющий достичь надежности 0,89-0,93

5 Разработаны алгоритм и численные методы измерения ЧОТ, позволяющие обеспечить погрешность не более 0,6%

6 Разработанные алгоритмы измерения частоты и интенсивности гармоник основного тона позволяют использовать их для создания систем диагностики заболеваний речеобразующих органов, в том числе рака гортани

Основные результаты диссертации опубликованы в следующих работах:

В рецензируемых ВАК журналах

1 Конев А А Обработка речевых сигналов в задачах идентификации / В П Бондаренко, А А Конев, Р В Мещеряков // Известия ВУЗов «Физика», 2006 -Т 49-Вып9 - С 207-210

2 Конев А А Особенности речевого сигнала при опухоли гортани / Л Н Балацкая, А Н Квасов, А А Конев, С Ю Чижевская, Е Л Чойнзонов // Известия ВУЗов «Физика», 2006 - Т 49 - Вып 9 - С 290293

3 Конев А А Математическое и программно-алгоритмическое обеспечение в задачах идентификации и распознавания речи / В П Бондаренко, А А Конев, Р В Мещеряков, А А Шелупанов // Вестник СибГАУ - Красноярск, 2006 - С 11-14

В других изданиях

4 Konev A A Allocation speech vocal sounds / V P Bondarenko, A A Konev, R V Mescheriakov // Interactive Systems And Technologies The Problems of Human - Computer Interaction Collection of scientific papers -Ulyanovsk U1STU, 2005 - P 213-217

5 Конев A A Параметрическое описание сегментов речевого сигнала / В И Голубев, А А Конев // Научная сессия ТУСУР - 2005 Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов - Томск Издательство ТУСУРа, 2005 - С 113116

6 Конев А А Выделение ключевых слов / А А Конев // Научная сессия ТУСУР - 2005 Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов - Томск Издательство ТУСУРа, 2005 -С 128-130

7 Конев А А Сегментация речевого сигнала / Д H Великоцкий, А А Конев // Научная сессия ТУСУР - 2005 Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов-Томск Издательство ТУСУРа, 2005 -С 208-210

8 Конев А А Сегментация речевого сигнала / А А Конев, А А Пономарев // Сборник трудов XVI сессии Российского акустического общества Том III - M ГЕОС, 2005 - С 44-47

9 Конев А А Выделение вокализованных звуков в слитной речи / А А Конев, В И Тихонова // Сборник трудов XVI сессии Российского акустического общества Том III-M ГЕОС, 2005 -С 47-50

10 Конев А А Сопоставительный анализ звукового строя речевых сигналов / А А Конев // Интеллектуальные системы в управлении, конструировании и образовании -Томск, 2006 -Вып5 -С 102-107

11 Конев А А Параметрическое описание гласных звуков / А А Конев // Интеллектуальные системы в управлении, конструировании и образовании -Томск, 2006 - Вып 5 - С 108-111

12 Конев А А Особенности структуры вокализованных звуков в слитной речи / В П Бондаренко, А А Конев, Р В Мещеряков // Интеллектуальные системы в управлении, конструировании и образовании -Томск, 2006 -Вып 5 - С 111-116

13 Konev A A Biologie feedback formation by vocal réhabilitation / L Balatskaya, V Bondarenko, E Choynzonov, A Konev, R Mescheriakov // Proceedings of the 1 lth International Conférence "Speech and Computer" SPECOM'Oô -St Petersburg, 2006 - P 251-257

14 Конев A A Особенности речевого сигнала y больных с опухолью гортани / Л H Балацкая, А А Конев, Е Л Чойнзонов // Сборник трудов XVII сессии Российского акустического общества Том 111 - M ГЕОС, 2006 - С 5-8

15 Конев А А Программный комплекс для исследования речи / А А Конев, Е Ю Костюченко, А А Пономарев // Сборник трудов XVII сессии Российского акустического общества Том III - М ГЕОС, 2006 -С 23-27

Тираж 100 Заказ 487 Томский государственный университет систем управления и радиоэлектроники 634050, г Томск, пр Ленина, 40

Оглавление автор диссертации — кандидата технических наук Конев, Антон Александрович

Введение.

Глава 1. Подходы к моделированию системы речевосприятия.

1.1 Иерархическая структура языка и системы речевосприятия.

1.2 Структура речевого сигнала.

1.3 Структура параметрического описания речевого сигнала.

1.4 Особенности анализа структуры речевого сигнала в системе речевосприятия.

1.5 Постановка задачи.

Выводы по главе:.

Глава 2. Модель обработки речевого сигнала на периферической части слуховой системы.

2.1 Структура внутреннего уха.

2.2 Критические полосы и шкала частот.

2.3 Система фильтров.

2.4 Тело неопределенности.

2.5 Одновременная маскировка.

Выводы по главе:.

Глава 3. Сегментация речевого сигнала и измерение частоты основного тона.

3.1 Алгоритм определения наличия периодической структуры сигнала

3.2 Алгоритм сегментации речевого сигнала по наличию голосового источника.

3.3 Экспериментальные исследования алгоритма сегментации.

3.4 Исследование погрешности определения частоты основного тона.

Выводы по главе:.

Глава 4. Программный комплекс для исследования структуры речевых сигналов дикторов с патологиями речеобразующей системы.

4.1 Особенности голосообразования при заболеваниях гортани.

4.2 Существующие методы диагностики и лечения рака гортани.

4.3 Структура медико-технического комплекса по исследованию речевого сигнала при нарушениях голосообразования.

4.4 Экспериментальные исследования.

Выводы по главе:.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Конев, Антон Александрович

Анализ речевых сигналов применяется, прежде всего, при проектировании систем распознавания речи и идентификации дикторов.

Большой вклад в развитие речевых технологий внесли такие ученые, как: Г.Фант, Дж.Фланаган, М.А.Сапожков, В.Н.Сорокин, В.И.Галунов, Б.М.Лобанов, Т.К.Винцюк, Р.К.Потапова, Л.В.Златоустова, А.В.Аграновский, Д.А.Леднов, Н.Г.Загоруйко, Ю.А.Косарев, А.Л.Ронжин, М.В.Хитров, С.Л.Коваль, В.Г.Михайлов, Э.Г.Кнеллер.

Одним из основных направлений создания систем распознавания является распознавание слов и фраз в диалоговых системах, а при наличии большого словаря (от 20000 слов) - в системах по распознаванию речи.

На сегодняшний день существует множество диалоговых систем, используемых в различных областях:

1. информационно-справочные службы (VCDMS, SPEECHLIS [70]);

2. банковские расчёты и оплата услуг по телефону [112];

3. управление компьютерами, роботами;

4. управление бытовыми приборами (Труффальдино [96]) и др.

Распознавание слитной речи и идентификация человека по голосу особенно сложные проблемы для открытого множества дикторов. Основными недостатками существующих программных продуктов являются: необходимость длительного обучения системы и недостаточное качество работы со спонтанной речью.

Так, по данным американского института стандартов (NIST) процент ошибочно определенных при распознавании слов для разговоров по мобильным телефонам составил 23,8%, для конференц-залов - от 26% до 38%, для лекционных залов - от 28% до 52%, для новостных передач - 9,9% [56]. Ещё одна проблема - отсутствие конкурентоспособных систем распознавания слитной речи на русском языке.

Для русского языка на рынке существует считанное количество программных продуктов: Горыныч, Диктограф, VoiceCom (Труффальдино, DiVo), Sakrament ASR Engine.

У VoiceCom точность распознавания 98%. Подобное качество достигается при 100-200 команд с настройкой на диктора, 30-50 - без настройки [96].

Sakrament по заявленным характеристикам распознает слитную речь с максимальной точностью 95-98% [88]. Но качество распознавания зависит от размера используемых словарей, качества транскрипции, показателя связанности распознаваемых слов, от уровня фонового шума, от параметров используемых каналов связи и характеристик микрофонов и т.д., что не позволяет данному продукту получить распространение.

В то же время системы распознавания речи для английского языка получили распространение, особенно в узкоспециализированных областях. У программного продукта Dragon NaturallySpeaking точность распознавания достигает 99%. Для надиктовки текста медицинской тематики создан Dragon NaturallySpeaking Medical. Также одним из лидеров рынка распознавания речи является IBM ViaVoice. Стоимость подобных программных продуктов в полной комплектации словарей составляет около 1000$ [114].

В распознавании речи используются различные методы:

1. скрытые марковские модели [44, 75];

2. динамическое программирование [1, 34];

3. нейронные сети [65, 71];

4. генетические алгоритмы [81].

Основным методом, используемым при распознавании, является применение скрытых марковских моделей (СММ) и основанных на нем алгоритмах: Витерби, Баума-Уэлша и др. [108, 109]. Но данный метод дает хорошие результаты только при небольших объемах словаря и достаточно коротких фразах. Например, SPIRIT [44] при тестировании на базе, состоящей из английских цифр, при распознавании изолированных цифр показал точность распознавания 99,9%, а при распознавании цепочек - 97,9%. Программа распознавания, представленная в [75], при тестировании на речевой базе, состоящей из 500 слов, показала надежность 87%.

Из зарубежных продуктов по идентификации диктора можно выделить: Anovea SVLib (3499$) [102]. Из российских систем идентификации наиболее популярна система экспресс-исследований фонограмм речи TPAJI-M, надежность которой изменяется в интервале 82-92% в зависимости от длительности сравниваемых сигналов и канала связи [96].

Еще одна область применения анализа речевых сигналов - выделение ключевых слов. Метод выделения ключевых слов - один из эффективных способов автоматического поиска фрагментов фонограмм в звуковых базах или звуковых потоках. Практическое применение продуктов, реализующих данный метод, может быть в системах национальной безопасности, телефонных сервисах, системах контроля качества, системах речевых фильтров и др.

Размер рынка речевых технологий в 2006 году достиг 1 миллиарда долларов, увеличившись на 100% всего за два года, но большая часть рынка -это распознавание голосовых команд и синтез речи [91].

Параметры речевого сигнала могут использоваться при решении проблемы низкоскоростного кодирования речевого сигнала при условии выделения их с приемлемой точностью и дальнейшей сегментацией на однородные участки.

Низкоскоростное кодирование складывается из двух основных процессов:

1. параметрическое представление речевого сигнала минимальным набором параметров, относящихся к определённому типу сегмента;

2. дискретизация параметров для их передачи по каналу связи при использовании минимальной ёмкости канала.

По имеющимся оценкам сегментное кодирование позволит снизить скорость передачи данных до 300 бит/сек [36]. Для сравнения - при скалярном квантовании сколько-нибудь удовлетворительное качество декодированной речи может быть достигнуто при скоростях более 2400 бит/сек, использование векторного квантования может понизить скорость до 800 бит/сек. Векторное квантование, используемое совместно с учётом динамики развития спектра во времени, может позволить передачу данных со скоростью около 400 бит/сек.

Актуальной областью применения анализа речевого сигнала является медицина. Анализ изменений в речевом сигнале позволяет проводить диагностику при заболеваниях речеобразующего тракта. Например, проводятся исследования влияния на характеристики сигнала таких заболеваний, как пневмония, рак гортани, недостаточное развитие речи у детей, заикание в работах Коренбаума, Сорокина, Галунова, Склярова [54, 79, 83].

Анализ речевого сигнала может применяться во время речевой реабилитации после полной или частичной резекции гортани. В некоторых случаях проводится постановка пищеводного голоса с учетом таких параметров, как длительность фонации, значение частоты основного тона [55].

На начальном этапе исследования речевых систем обращалось особое внимание на особенности слухового восприятия такими учеными, как Бекеши, Ликлайдер, Молчанов, Фланаган и др. [13, 19, 57, 61, 77, 93]. Затем, в связи с большой вычислительной сложностью, данный подход отошел на второй план.

В настоящее время вновь стали предприниматься попытки создания адекватной модели анализа речи на периферии слуховой системы [43, 46]. Это связано с тем, что многие исследователи считают наиболее перспективным подход к анализу речи, при котором учитываются особенности восприятия речи человеком, установленные в психоакустике. Так в [46] описан подход к первичной обработке сигнала, основанный на математической модели улитки. На необходимость использования моделей восприятия речи для построения систем автоматического распознавания указывает Галунов в работах [35, 37]. Соответственно, для полноценного решения задач в области речевых технологий требуется детальный анализ структуры речевого сигнала. При этом важно, что он должен проводиться с учетом особенностей слухового восприятия.

Таким образом, задача построения модели слухового восприятия речевого сигнала, учитывающей особенности физиологии, нейродинамики, психоакустики и др. является актуальной и может быть использована в различных сферах: распознавании слитной речи, идентификации диктора по голосу, поиске ключевых слов в слитной речи, сжатии речевых сигналов, медицине при диагностике, а также реабилитации пациентов с патологиями органов речеобразования.

Для достижения поставленной цели необходимо решить следующие задачи:

1. анализ особенностей слухового восприятия (по существующим литературным источникам);

2. построение модели обработки речевого сигнала на периферии слуховой системы, учитывающей иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;

3. разработка алгоритмов, на первых этапах обработки речевых сигналов опирающихся на особенности входных сигналов, а в последующем учитывающих особенности речеобразования;

4. исследование модели и алгоритмов;

5. сопоставление модели с имеющимися данными по функционированию слуховой системы.

Методы исследований. Для решения задач, сформулированных в работе, использовались методы системного анализа, цифровой обработки сигналов, теории образов, численных методов, фонетики, психоакустики.

Достоверность полученных результатов обеспечивается строгостью используемого математического аппарата; адекватностью модели, установленной путем сравнения реакций модели и слуховой системы на тестовые сигналы; большим количеством экспериментальных данных, подтверждающих теоретические результаты.

Научную новизну, полученных в работе результатов определяют:

1. алгоритм и численные методы измерения частоты основного тона;

2. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки;

3. модифицированная иерархическая модель восприятия речевых сигналов на периферии слуховой системы.

Практическая значимость. Разработанные модель и алгоритмы позволяют на основе реализованного программного комплекса:

1. создавать программное обеспечение для детального анализа речевого сигнала;

2. формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи;

3. разрабатывать программное обеспечение по диагностике изменений в речеобразующей системе человека.

Положения, выносимые на защиту:

1. модель восприятия речевых сигналов на периферии слуховой системы, учитывающая иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;

2. алгоритм и численные методы измерения частоты основного тона, обеспечивающие погрешность измерения не более 0,6%;

3. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки, обеспечивающий надежность 0,89-0,93.

Внедрение результатов. Разработанный программный комплекс используется в научно-исследовательской деятельности ГУ НИИ онкологии ТНЦ РАМН, ООО «НПФ «Информационные системы безопасности», ООО «ЛМЭ «Биоток» а также в учебном процессе ТУСУР по дисциплине «Вычислительная математика».

Апробация работы. Основные результаты по теме диссертационной работы отражены в 15 публикациях (в том числе 12 статьях из них 3 в журналах, рекомендованных ВАК). Результаты работы представлялись на: 11-й международной конференции «Речь и компьютер» (SPECOM'06, г. Санкт-Петербург); XVI и XVII сессиях Российского акустического общества (Москва, 2005 и 2006 гг.); Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов «Научная сессия ТУСУР'2005».

Личный вклад. Автором разработаны алгоритм сегментации и параметрическое описание сегментов, проведены исследования алгоритма сегментации и структуры речевого сигнала онкологических больных, разработана структура программного комплекса и осуществлена программная реализация 8 модулей, а также автор принимал участие в разработке и уточнении модели восприятия речевых сигналов, алгоритмов одновременной маскировки и измерения мгновенной частоты и интенсивности речевого сигнала на выходе системы фильтров. Постановка задачи осуществлялась совместно с руководителем - д.т.н., проф. В.П. Бондаренко, разработка программного комплекса проводилась совместно с В.П. Коцубинским.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 113 наименований и 2 приложений. Общий объем работы составляет 129 страниц, в том числе 58 рисунков и 19 таблиц.

Заключение диссертация на тему "Модель и алгоритмы анализа и сегментации речевого сигнала"

Выводы по главе:

1. Обосновано применение анализа речевых сигналов в сфере диагностики заболеваний органов речеобразования. Приведена классификация изменений, происходящих в органах речеобразования при раке гортани.

2. На уровне блоков и на уровне модулей представлена структура программного комплекса для исследования речевых сигналов, включая речевые сигналы дикторов с заболеваниями органов речеобразования.

3. Приведены результаты исследований, направленных на установление стадии заболевания при раке гортани.

ЗАКЛЮЧЕНИЕ

Данная работа направлена на решение задач, возникающих при построении систем распознавания речи, идентификации диктора, сжатия речевых сигналов, диагностики заболеваний органов речеобразования и реабилитации больных после полного удаления гортани. Использование разработанных модели и алгоритмов позволяет сегментировать речевой сигнал на вокализованные и невокализованные участки, а также выделять частоту основного тона. Предложенный подход к анализу речевых сигналов также может использоваться для диагностики заболеваний системы речеобразования.

Цель, выделенная для работы как: "построение модели и алгоритмов анализа и обработки речевых сигналов, учитывающих особенности слухового восприятия человека", достигнута по следующим разделам:

1. Обоснован подход к моделированию механизмов восприятия звуковых сигналов, основанный на построении модели периферической части слуховой системы человека.

2. Проанализированы экспериментальные данные по психоакустики восприятия и установлена на основе этих данных зависимость между шириной критических полос и частотной шкалой восприятия.

3. Предложено расширение системы фильтров - аналога основной мембраны внутреннего уха человека, определены параметры этой системы фильтров на основе установленной зависимости между шириной критических полос и частотной шкалой восприятия.

4. Разработаны алгоритмы и численные методы одновременной маскировки, измерения мгновенной частоты и интенсивности сигнала.

5. Разработан алгоритм сегментации речевого сигнала по наличию голосового источника. Исследования алгоритма показали, что надежность его работы составляет 0,89-0,93.

6. Разработаны алгоритм и численные методы измерения частоты основного тона. Исследования алгоритма и методов показали, что погрешность измерения составляет не более 0,6%.

7. Разработанные алгоритмы измерения частоты и интенсивности гармоник основного тона позволяют использовать их для создания систем диагностики заболеваний органов речеобразования, в том числе рака гортани.

Анализ особенностей слухового восприятия показал, что на периферической части слуховой системы происходит предварительная обработка и предварительная сегментация речевого сигнала.

При моделировании механизмов восприятия звуковых сигналов был применен подход, основанный на модели черного ящика, т.е. адекватность модели устанавливалась по соответствию входных и выходных характеристик аналогичным характеристикам различных элементов слуховой системы.

Одним из основных моментов, позволяющих учитывать особенности восприятия, является установление зависимости между шириной критических полос и частотной шкалой восприятия, а также добротностью системы фильтров и шириной критических полос. На основе этих установленных зависимостей были уточнены параметры системы фильтров, реализующей внутреннее представление сигнала в координатах интенсивность-время-частота. За счет реализованного механизма одновременной маскировки, осуществлено выделение наиболее значимых для слуховой системы участков речевого сигнала.

Разработанный алгоритм сегментации на вокализованные и невокализованные участки позволяет проводить данную сегментацию в автоматическом режиме с надежностью 0,89-0,93. Относительное количество пропущенных границ составляет 0-0,03, а относительное количество лишних границ-0,04-0,11.

При этом надежность алгоритма не зависит от длительности речевого сигнала, от скачков частоты основного тона, от пола диктора, а также от языка диктора, что подтверждается анализом частоты встречаемости исследуемых классов звуков в различных языках.

Разработанные алгоритм и численные методы измерения частоты основного тона позволяют измерять частоту основного тона с погрешностью не более 0,6%. Погрешность определения ЧОТ при частотной модуляции для наиболее часто встречающихся частоты модуляции (до 10 Гц) и индекса модуляции (до 0,5) не превышает 5 Гц или 6%, при амплитудной модуляции -не превышает 1 Гц или 1,5%.

Созданный программный комплекс, предназначенный для анализа речевых сигналов, включает в себя все разработанные алгоритмы и численные методы. В данном программном комплексе предусмотрена возможность проведения анализа различных параметров речевого сигнала, как посредством визуализации получаемых параметров, так и оценки их числовых значений.

Реализованный программный комплекс может служить основой для создания реально работающих систем в различных сферах применения речевых технологий. Кроме этого, возможно применение этого комплекса для анализа изменения параметров речевого сигнала в случае изменения речеобразующей системы диктора вследствие различных болезней. Подобный анализ дает возможность создать программные продукты, позволяющие диагностировать болезни речеобразующего тракта.

Библиография Конев, Антон Александрович, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Аграновский А. В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов / А. В. Аграновский, Д. А. Леднов М.: Радио и связь, 2004. - 164 с.

2. Алдошина И. А. Основы психоакустики, (часть 3). Слуховой анализ консонансов и диссонансов // Звукорежиссер. 1999. - №9.

3. Алдошина И. А. Основы психоакустики (часть 9). Слуховые пороги // Звукорежиссер. 2000. - №6.

4. Алдошина И. А. Основы психоакустики. Часть 1 // Звукорежиссер. -1999.-№6.

5. Альтман Я. А. Тенденции развития физиологии слуха / Я. А. Альтман, И. А. Вартанян. Вестник РФФИ, 2005. - №1. Электронный ресурс. - Режим доступа: www.rfbr.ru/pics/20850ref/st-9.pdf

6. Аляутдинов И. Таджвид. Правила чтения Корана / И. Аляутдинов Электронный ресурс. Режим доступа: http://www.uinma.ru/bookshelf/tadivid/

7. Бабкин В. В. Помехоустойчивый выделитель основного тона речи / В. В. Бабкин Электронный ресурс. Режим доступа: http://www.dsp-sut.spb.ru/rus/research/pda/download/2005dspa robustpda.pdf

8. Балацкая Л. Н. Особенности речевого сигнала при опухоли гортани / Л. Н. Балацкая, А. Н. Квасов, А. А. Конев, С. Ю. Чижевская, Е. Л. Чойнзонов // Известия ВУЗов «Физика». Т. 49 Вып.9. - С. 290-293.

9. Балацкая Л. Н. Особенности речевого сигнала у больных с опухолью гортани / Л. Н. Балацкая, А. А. Конев, Е. Л. Чойнзонов // Сборник трудов XVII сессии Российского акустического общества. Том III М.: ГЕОС, 2006. - С. 5-8.

10. П.Баскаков С. И. Радиотехнические цепи и сигналы: учеб. для вузов по спец. «Радиотехника» / С. И. Баскаков. 3-е изд., перераб. и доп. - М.: Высшая школа, 2000. - 462 с.

11. Бахлаев И. Е. Классификация злокачественных опухолей по стадиям и системе TNM / И. Е. Бахлаев, А. П. Толпинский. Электронный ресурс. -Режим доступа: http://media.karelia.ru/~resource/oncology7/intro.htm

12. Бекеши Г. Механические свойства уха // Экспериментальная психология: в 2 т. / Г. Бекеши, В. А. Розенблат М.: Иностранная литература, 1963.-Т. 2-С. 682-723.

13. Биологическая обратная связь при обучении устной речи / JI.H. Балацкая, В.П. Бондаренко, АЛО. Корнилов и др. // Сборник трудов XVI сессии Российского акустического общества. Том III — М.: ГЕОС, 2005. С. 7-10.

14. Бондаренко В. П. Адаптивный анализ голосового сигнала / В. П. Бондаренко, В. П. Коцубинский, Р. В. Мещеряков // Интеллектуальные системы в управлении, конструировании и образовании. Томск, 2004. - Вып.З. - С. 5861.

15. Бондаренко В. П. Выделение особенностей структуры речевого сигнала / В. П. Бондаренко, В. П. Коцубинский, Р. В. Мещеряков // Сборник трудов XII сессии Российского акустического общества. М., 2003. - Т.З. - С. 63-66.

16. Бондаренко В. П. Модель периферии слуховой системы человека / В. П. Бондаренко, В. М. Разин // VI Всесоюзный семинар "Автоматическое распознавание слуховых образов" (APCO-VI) Таллин, 1972 - С. 26-29.

17. Бондаренко В. П. Обработка речевых сигналов в задачах идентификации / В. П. Бондаренко, А. А. Конев, Р. В. Мещеряков // Известия ВУЗов «Физика». Т. 49 Вып.9. - С. 207-210.

18. Бондаренко В. П. Особенности структуры вокализованных звуков в слитной речи / В. П. Бондаренко, А. А. Конев, Р. В. Мещеряков // Интеллектуальные системы в управлении, конструировании и образовании. -Томск, 2006.-Вып.5.-С. 111-116.

19. Бондарко JI. В. Звуковой строй современного русского языка: учеб. пособие для студентов пед. ин-тов по специальности «Рус. яз. и литература» / JI. В. Бондарко. М.: Просвещение, 1977. - 175 с.

20. Бондарко JI. В. Некоторые статистические характеристики русской речи / J1. В. Бондарко, П. Р. Зиндер, А. С. Штерн // Слух и речь в норме и патологии: Сб. статей.-JI., 1977.-Вып. 2.-С. 3-16.

21. Бочаров А. В. Распознавание речевых сигналов на основе метода спектрального оценивания / А. В. Бочаров, Д. Ю. Акатьев Электронный ресурс. Режим доступа: zhurnal.gpi.ru/articles/2003/130.pdf

22. Бронштейн И. Н. Справочник по математике для инженеров и учащихся втузов / И. Н. Бронштейн, К. А. Семендяев. М.: Наука, 1980. - 976 с.

23. Буланин JI. JI. Фонетика современного русского языка / JI. J1. Буланин -М.: Высшая школа, 1970. 206 с.

24. Вартанян И. А. Звук слух - мозг / И. А. Вартанян. - JI.: Наука, 1981. -176 с.

25. Великоцкий Д. Н. Сегментация речевого сигнала / Д. Н. Великоцкий, А.

26. A. Конев // Научная сессия ТУ СУР 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов -Томск: Издательство ТУСУРа, 2005. - С. 208-210.

27. Величко В. М. Алгоритм распознавания изолированных слов / В. М. Величко // Тезисы докладов и сообщений 13-й Всесоюзной школы-семинара АРСО. Новосибирск, 1984. - 4.2 - с.85-86.

28. Виницкий А. С. Модулированные фильтры и следящий прием ЧМ сигналов/А. С. Виницкий. -М.: Советское радио, 1969.-548 с.

29. Винников Я. А. Кортиев орган. Гистофизиология и гистохимия / Я. А. Винников, Л. К. Титова. Л.: Изд-во АН СССР, 1961. - 260 с.

30. Винцюк Т. К. Алгоритмы распознавания слов и слитных фраз и результаты их моделирования / Т. К. Винцюк, О. Н. Гаврилюк, Н. Г. Пучкова. Тезисы докладов VIII Всесоюзного семинара АРСО. Львов, 1974. - Ч.З - с.33-37.

31. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов / Т. К. Винцюк. Киев: Наук, думка, 1987. - 264 с.

32. Галунов В. И. Актуальные проблемы речевой акустики / В. И. Галунов // Сборник трудов XII сессии Российского акустического общества. М., 2003. -Т.З.-С. 16-19.

33. Галунов В. И. Аналитический обзор по проблеме кодирования речевых сигналов / В. И. Галунов, А. Б. Викторов Электронный ресурс. Режим доступа: http://www.auditech.ru/article/cntrid/click.php?action=download&id=6

34. Галунов В.И. Современные проблемы в области распознавания речи /

35. B. И. Галунов, А. Н. Соловьев // Информационные технологии и вычислительные системы. 2004. - № 2. - С. 41-45.

36. Гершуни Г. В. О механизме слуха ( в связи с исследованием временных и временно-частотных характеристик слуховой системы) / Г. В. Гершуни // Механизмы слуха. Л.: Наука, 1967. - С. 3-32.

37. Гитлин В. Б. Алгоритм поиска оптимального значения коэффициента асимметрии в выделителе основного тона по методу GS / В. Б. Гитлин, Д. А. Лузин // Сборник трудов XVIII сессии Российского акустического общества. Том III М.: ГЕОС, 2006. - С. 11-14.

38. Гласман К. Ф. Формат МРЗ. Слуховая система человека: основные свойства / К. Ф. Гласман // Звукорежиссер. 2005. - №3.

39. Гренандер У. Лекции по теории образов. Регулярные структуры. / У. Гренандер М.: Мир, 1981. - Т. 3 - 432 с.

40. Дубровский В. В. О спектрах гласных на периферии слуха / В. В. Дубровский, А. И. Егоров // Труды международной конференции "Диалог 2001". М.: Изд-во РГГУ, 2001. Электронный ресурс. - Режим доступа: http://www.dialog-21.ru/Archive/2001/volume2/2 18.htm

41. Иконин С. Ю. Система автоматического распознавания речи SPIRIT ASR Engine / С. Ю. Иконин, Д. В. Сарана // Цифровая обработка сигналов. -2003. №3. Электронный ресурс. - Режим доступа: http://www.spirit.ru/articles/asr.html

42. Искусственный интеллект: в 3 кн. Кн. 1. Системы общения и экспертные системы: Справочник / Под ред. Э. В. Попова. М.: Радио и связь, 1990.- 464 с.

43. Кнеллер Э. Г. Анализ параметров речевого сигнала, создающих восприятие элементарных звуков речи / Э. Г. Кнеллер // Труды международной конференции "Диалог 2006". М.: Изд-во РГГУ, 2006. - С. 220-222.

44. Колоколов А. С. Измерение основного тона речевого сигнала / А. С. Колоколов // Автоматика и телемеханика. 2003. - №8. - С. 122-134.

45. Конев А. А. Выделение вокализованных звуков в слитной речи / А. А. Конев, В. И. Тихонова // Сборник трудов XVI сессии Российского акустического общества. Том III М.: ГЕОС, 2005. - С. 47-50.

46. Конев А. А. Выделение ключевых слов / А. А. Конев // Научная сессия ТУ СУР 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов - Томск: Издательство ТУ СУР, 2005.-С. 128-130.

47. Конев А. А. Параметрическое описание гласных звуков / А. А. Конев // Интеллектуальные системы в управлении, конструировании и образовании. -Томск, 2006.-Вып.5.-С. 108-111.

48. Конев А. А. Программный комплекс для исследования речи / А. А. Конев, Е. Ю. Костюченко, А. А. Пономарев // Сборник трудов XVII сессии Российского акустического общества. Том III М.: ГЕОС, 2006. - С. 23-27.

49. Конев А. А. Сегментация речевого сигнала / А. А. Конев, А. А. Пономарёв // Сборник трудов XVI сессии Российского акустического общества. Том III М.: ГЕОС, 2005. - С. 44-47.

50. Конев А. А. Сопоставительный анализ звукового строя речевых сигналов / А. А. Конев // Интеллектуальные системы в управлении, конструировании и образовании. Томск, 2006. - Вып.5. - С. 102-107.

51. Корнилов А. Ю. Управление процессом речевой реабилитации на основе биологической обратной связи: автореф. дис. на соиск. учен. степ. канд. тех. наук / А. 10. Корнилов. Томск, 2005. - 20 с.

52. Левкович-Маслюк JI. И. Корыстный интерес к человеческим звукам / JL И. Левкович-Маслюк // Компьютерра. 2007. - №8. Электронный ресурс. -Режим доступа: http://www.cornputerra.ru/313046/

53. Ликлайдер Дж. К. Р. Основные корреляты слухового стимула // Экспериментальная психология: в 2 т. / Дж. К. Р. Ликлайдер М.: Иностранная литература, 1963. - Т. 2. - С. 580-642.

54. Ломтев Т. П. Фонология современного русского языка / Т. П. Ломтев -М: Высшая школа, 1972. 224 с.

55. Лузин Д. А. Алгоритм начальной оценки основного тона речи для выделителя основного тона речи по методу GS / Д. А. Лузин // Сборник трудов XVIII сессии Российского акустического общества. Том III М.: ГЕОС, 2006. -С. 21-23.

56. Маркус С. Теоретико-множественные модели языков / С. Маркус; пер. с англ. М. В. Арапова. М.: Наука, 1970. - 332 с.

57. Молчанов А. П. Электрические модели механизмов улитки органа слуха / А. П. Молчанов, Л. Н. Бабкина. Л.: Наука, 1978. - 108 с.

58. Моттль В. В. Алгоритмическая реализация лингвистического подхода к анализу экспериментальных кривых / В. В. Моттль, И. Б. Мучник, В. Г. Яковлев // Автоматика и телемеханика. 1984. - №4. - С. 5-25.

59. Моттль В. В. Лингвистический анализ экспериментальных кривых / В. В. Моггль, И. Б. Мучник // ТИИЭР. 1979. - Т. 67. - №5. - С. 12-39.

60. Мучник И. Б. Алгоритмы формирования языка для описания экспериментальных кривых / И. Б. Мучник, Р. Б. Мучник // Автоматика и телемеханика. 1973.-№5.-С. 86-98.

61. Норк О. А. Фонетика современного немецкого языка. Нормативный курс (для ин-тов и фак. иностр. яз.): учеб. пособие / А. О. Норк, Н. Ф. Адамова. М.: Высшая школа, 1976. - 212 с.

62. Общая и прикладная фонетика: учеб. пособие / JT. В. Златоустова, Р. К. Потапова, В. В. Потапов, В. Н. Трунин-Донской. 2-е изд., перераб. и доп. -М.: Изд-во МГУ, 1997.-416 с.

63. Огородников А. Н. Выбор интервалов анализа сигнала при распознавании речи / А. Н. Огородников // Вестник Томского государственного университета. Томск, 2003. - №280. - С. 295-304.

64. Пачес А. И. Опухоли головы и шеи / А. И. Пачес. М.: Медицина, 2000.-479 с.

65. Потапова Р. К. Лингвистические знания и новые технологии / Р. К. Потапова // Сборник трудов XI сессии Российского акустического обществаМ., 2001. -Т.З. С.4-13.

66. Проект Speech Analysis System (SAS). Электронный ресурс. Режим доступа: http://alexmoshp.chat.ru/sas/sas.htm

67. Противораковое общество России. Электронный ресурс. Режим доступа: http://www.pror.ru/foims big larynx.shtml

68. Рабинер Л. Теория и применение цифровой обработки сигналов / Л. Рабинер, Б. Гоулд -М.: Мир, 1978. 848 с.

69. Рабинер Р. Л. Цифровая обработка речевых сигналов / Р. Л. Рабинер, Р. В. Шафер М.: Радио и связь, 1981. - 496 с.

70. Разработка программы распознавания русской речи для процессора SuperH RISK (Hitachi) Электронный ресурс. Режим доступа: http://leader.cs.msu.su/~luk/ContinuousSpeech rus.html

71. Рапанович А. Н. Фонетика французского языка. Курс нормативной фонетики и дикции: для фак. иностр. яз. пед. ин-тов / А. Н. Рапанович 3-е изд., испр. - М.: Высшая школа, 1980. - 284 с.

72. Распознавание слуховых образов / Под ред. Н. Г. Загоруйко, Н. Я. Волошина. Новосибирск: Наука, 1966. - 338 с.

73. Рид Р. Основы теории передачи информации / Р. Рид М.: Вильяме, 2004.-304 с.

74. Романова Е. С. Оценка звонкости/глухости согласных после резекции гортани / Е. С. Романова, Л. Г. Кожанов, В. Н. Сорокин // Сборник трудов XVI сессии Российского акустического общества. Том III М.: ГЕОС, 2005. - С. 2225.

75. Сапожков М. А. Речевой сигнал в кибернетике и связи / М. А. Сапожков. -М.: Связьиздат, 1963.-450 с.

76. Сапунов Г. В. Система автоматического распознавания речевых команд для параллельных архитектур: автореф. дис. на соиск. учен. степ. канд. тех. наук / Г. В. Сапунов, Москва, 2006. - 28 с.

77. Слуховая система / Под ред. Я. А. Альтмана. Л.: Наука, 1990. - 620 с.

78. Сорокин В. Н. Сегментация и распознавание гласных / В. Н. Сорокин, А. И. Цыплихин // Информационные процессы. Т.4. - №2. - С. 202-220.

79. Сорокин В. Н. Теория речеобразования / В. Н. Сорокин. М.: Радио и связь, 1985.-312 с.

80. Тестирование выделителей основного тона речи. Электронный ресурс. Режим доступа: www.dsp-sut.spb.ru/rus/research/pda/pda.html

81. Технологии-ЗакгатеЩ-Распознавание речи. Электронный ресурс. -Режим доступа: http://www.sakrament.com/?Lang=ru&TopId=20&Category=2

82. Титова Л. К. Развитие рецепторных структур внутреннего уха позвочных / Л. К. Титова. Л.: Наука, 1968. - 192 с.

83. Унгиадзе Г.В. Эндоскопическая диагностика и лазерная деструкция рака гортани / Г. В. Унгиадзе, Б. К. Поддубный, Н. В. Белоусова, А. Ю.

84. Концевая // Современная онкология, 2005- Т. 07. №3. Электронный ресурс. - Режим доступа: http://www.consiliumrnedicum.com/media/onkology/0503/122.shtml

85. Устройства, управляемые голосом. Новшества на рынке. Электронный ресурс. Режим доступа: http://www.point.ru/techno/2007/02/22/4617

86. Физиология речи. Восприятие речи человеком / Л. А. Чистович, А. В. Венцов, М. П. Гранстрем и др. Л.: Наука, 1976. - 388 с.

87. Фланаган Дж. Анализ, синтез и восприятие речи / Дж. Фланаган; пер. с англ. под ред. А. А. Пирогова. М.: Связь, 1968. - 396 с.

88. Харкевич А. А. Спектры и анализ / А. А. Харкевич. М.: Гос. изд-во физ.-мат. лит., 1962. - 236 с.

89. Цемель Г. И. Автоматическое опознавание речевых сегментов / Г. И. Цемель // VI Всесоюзный семинар "Автоматическое распознавание слуховых образов" (APCO-VI)-Таллин, 1972-С. 182-189.

90. Центр речевых технологий Электронный ресурс. Режим доступа: http://www.speechpro.ru/

91. Цыплихин А. И. Анализ и автоматическая сегментация речевого сигнала: автореф. дис. на соиск. учен. степ. канд. тех. наук / А. И. Цыплихин. -М„ 2006. 22 с.

92. Черри Е. К вопросу о логическом описании языков в их фонологическом аспекте / Е. Черри, М. Халле, Р. Якобсон // Новое в лингвистике. 1962. - Вып.2.

93. Чиссов В. И. Злокачественные образования в России в 2001 году: заболеваемость и смертность / В. И. Чиссов, В. В. Старинский, Г. В. Петрова. -М.: МНИОИ им. П. А. Герцена, 2003. 238 с.

94. Чойнзонов Е. Л. Рак гортани. Современные аспекты лечения и реабилитации / Е. Л. Чойнзонов, М. Р. Мухаммедов, Л. Н. Балацкая. Томск: Изд-во НТЛ, 2006.-280 с.

95. Шевченко А. И. Проблемы сегментации речевого сообщения при построении систем автоматического распознавания речи / А. И. Шевченко //

96. Труды Междунар. семинара. "Диалог'2000" по компьютерной лингвистике и ее приложениям. Протвино, - 2000. - Т.2. - С.370-373.

97. Anovea Authentication Technology-SVLib. Электронный ресурс. -Режим доступа: http://www.anovea.com/www/products lib.htm

98. Bondarenko V. P. The analysis of speech perception mechanisms on the models of auditory system / V. P. Bondarenko, V. R. Moor, A. N. Chabanets // Proceedings Xlth ICPhS. Tallinn, 1987. - V. 2. - P.77-80.

99. Huang X. Spoken language processing: a guide to theory, algorithm and system development / X. Huang, A. Acero, H.-W. Hon New Jersey, 2001. - 965 p.

100. Huggins-Daines D. A constrained Baum-Welch algorithm for improved phoneme segmentation and efficient training / D. Huggins-Daines, Rudnicky A. Электронный ресурс. Режим доступа: www.cs.cmu.edu/~dhuggins/Publications/phlab.pdf

101. Kocharov D. Sonority measure for automatic speech recognition / D. Kocharov // Proceedings of the 11th International Conference "Speech and Computer" SPECOM'06. St. Petersburg, 2006. - P. 359-362.

102. Meister E. Spoken dialogue system for mobile parking / E. Meister, B. Lobanov, R. Vahisalu, T. Levkovskaya, V. Kisialou, P. Tatter, J. Lasn // Proceedings of the 6th International Conference "Speech and Computer" SPECOM'2001. -Moscow, 2001-P. 123-126.

103. Nakatani N. Mel-LSP parameterization for HMM-based speech synthesis / N. Nakatani, K. Yamamoto, H. Matsumoto // Proceedings of the 11th International Conference "Speech and Computer" SPECOM'06. St. Petersburg, 2006. - P. 261264.

104. Nuance-Dragon Naturallyspeaking 9. Электронный ресурс. Режим доступа: http://www.nuance.com/naturallyspeaking

105. Petrushin V. A. Adaptive algorithms for pitch-synchronous speech signal segmentation / V. A. Petrushin // Proceedings of the 9th International Conference "Speech and Computer" SPECOM'04. St. Petersburg, 2004. - P. 146-153.

106. Rosales H. G. Spectral distance costs for multilingual unit selection in speech synthesis / H. G. Rosales, O. Jokisch, R. Hoffman // Proceedings of the 11th1.ternational Conference "Speech and Computer" SPECOM'06. St. Petersburg, 2006.-P. 270-273.

107. RP phonemes in the advanced learner's dictionary Электронный ресурс. Режим доступа: http://pages.britishlibrary.net/marlodge/wordlist/phonfreq.html

108. Rublev D. Embedding binary data to audio streams based on discrete wavelet transform / D. Rublev, V. Fedorov, O. Makarevich // Proceedings of the 11th International Conference "Speech and Computer" SPECOM'06. St. Petersburg, 2006.-P. 215-220.

109. Strecha G. Low resource TTS synthesis based on cepstral filter with phase randomized excitation / G. Strecha, M. Eichner // Proceedings of the 11th International Conference "Speech and Computer" SPECOM'06. St. Petersburg, 2006.-P. 284-287.

110. Tubach J.-P. Quantutative knowledge on word structure, from a phonetic corpus, with application to large vocabularies recognition systems / J.-P. Tubach, L. Вое //ICASSP'86. 1986. - Vol. П. - P.61-64.

111. Электронный ресурс. Режим доступа: http://festvox.org/examples/cstr us ked timit

Похожие работы

Информатика, вычислительная техника и управление
05.13.00