Модель голосообразования и анализ речевого сигнала в норме и при патологии

Квасов, Алексей Николаевич

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Модель голосообразования и анализ речевого сигнала в норме и при патологии

кандидата технических наук: Квасов, Алексей Николаевич
город: Томск
год: 2007
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Модель голосообразования и анализ речевого сигнала в норме и при патологии»

Автореферат диссертации по теме "Модель голосообразования и анализ речевого сигнала в норме и при патологии"

На правах рукописи

Мг

Квасов Алексей Николаевич

МОДЕЛЬ ГОЛОСООБРАЗОВАНИЯ И АНАЛИЗ РЕЧЕВОГО СИГНАЛА В НОРМЕ И ПРИ ПАТОЛОГИИ

Специальность 05.13.18 - Математическое моделирование, численные методы и комплексы программ

Автореферат диссертации на соискание ученой степени кандидата технических наук

111ШШ1ЩИ

ООЗ 175201

Томск - 20и /

Работа выполнена в Томском государственном университете систем управления и радиоэлектроники (ТУСУР)

Научный руководитель

доктор технических наук, профессор Бондаренко Владимир Петрович

Официальные оппоненты: доктор технических наук, профессор

Светлаков Анатолий Антонович (ТУСУР)

кандидат физико-математических наук,с.н.с.

Афонин Геннадий Иванович

(НИИ Прикладной математики и механики)

Ведущая организация - Алтайский государственный университет

(г.Барнаул)

Защита состоится «08» ноября 2007г. в 15.00 часов на заседании диссертационного совета Д.212.268.02 в Томском государственном университете систем управления и радиоэлектроники по адресу: 634034, г.Томск, ул. Белинского, 53, НИИ АЭМ при ТУСУР.

С диссертацией можно ознакомиться в библиотеке ТУСУРа по адресу: 634045, г.Томск, ул. Вершинина, 74.

Автореферат разослан «08» октября 2007 г.

Ученый секретарь л

диссертационного совета '^Ое^ "" А.Я. Клименко

Актуальность работы. Построение речевых диалоговых систем, кодирование речи, медицинские приложения, распознавание и синтез речи, идентификация диктора по голосу требуют детального знания структуры речевого сигнала и механизмов его образования. Особенно это актуально в задачах идентификации диктора по голосу, ранней диагностики заболеваний органов речеобразования, постановке певческого голоса и др. Задача моделирования процесса речеобразования при формировании звуков, как для речи в норме, так и в случае образования опухолей в области гортани, на сегодняшний день остается актуальной и решенной неполностью При этом необходимо принимать во внимание особенности строения речевого аппарата, связанные с полом диктора, его возрастом, телосложением и состоянием здоровья

Необходимо отметить, что до сих пор не установлена связь между параметрами анатомии речеобразующей системы, ее динамикой и параметрами голоса Большой вклад в развитие данной области внесли ученые Г.Фант, ДжФланаган, М.А Сапожков, В.Н Сорокин, В И.Галунов, Б.М Лобанов, Т К Винцюк, Л В.Златоустова, А В Аграновский, Н Г.Загоруйко, Р К.Потапова, Ю А.Косарев, А.Л.Ронжин, М.В Хитров, С Л Коваль, В.Г Михайлов, В П.Бондаренко, Л Н Балацкая, Е.Л Чойнзонов

Основным недостатком существующих систем является их ориентация на использование статистических данных без учета особенностей речеобразования, связанных с анатомией и физиологией человека Точность результата работы подобных систем напрямую зависит от полноты и адекватности используемых баз данных голосов, ведение которых является очень трудоемким и дорогостоящим процессом. Еще одна проблема -локализация, адаптация существующих систем для языков, отличных от базового (для которого разрабатывалась система)

Учет особенностей анатомии человека позволяет существенно повысить точность работы систем распознавания речи и определения личности диктора, может использоваться при сортировке телефонных звонков, поиске образцов речи в базах данных, существенно сокращая время получения результата. В медицинских системах исследование влияния опухоли в области гортани позволяет отслеживать динамику болезни при реабилитации больных, упрощает задачу ранней диагностики Наиболее распространенный на сегодняшний день зеркальный осмотр дает долю ошибок от 30% до 50%. Использование томографии на ранних стадиях не позволяет выявить изменений тканей и является дорогостоящей процедурой; кроме того, данный метод не может применяться часто. Между тем, на ранних стадиях заболевания отмечается изменение голоса пациента, связанное с изменениями параметров речевого аппарата.

Таким образом, задача исследования особенностей формирования голоса на уровне гортани в норме и при патологиях в зависимости от параметров системы речеобразования человека, является актуальной.

Цель исследования - выявление влияния параметров системы речеобразования на формирование звуков на уровне гортани в норме и при патологии.

Для достижения поставленной цели необходимо решить следующие задачи:

1. провести анализ системы речеобразования человека: исследовать строение системы речеобразования, выявить механизмы функционирования и взаимодействия органов речевого аппарата в процессе образования звучной речи, а также определить их параметры;

2. исследовать структуру речевого сигнала, выявить характеристические параметры, связанные с полом диктора или опухолью гортани;

3. разработать математическую модель голосообразования на уровне гортани при патологиях;

4. разработать численные методы определения отклонений речевого сигнала при патологиях;

5. разработать алгоритмическое и программное обеспечение, реализующее модель и алгоритмы;

6. исследовать разработанные модели и алгоритмы.

Методы исследования. Для решения задач, сформулированных в работе, использовались методы системного анализа, цифровой обработки сигналов, имитационного моделирования, численных методов, фонетики, психоакустики.

Достоверность полученных результатов обеспечивается адекватностью модели, установленной путем сравнения результатов работы модели с тестовыми сигналами; экспериментальными данными, подтверждающими теоретические результаты.

Научная новизна результатов, полученных в работе, состоит в следующем-

1. разработана модель образования голоса на участке гортани, отличающаяся от известных изменяемыми параметрами голосовых складок,

2. определено влияние особенностей анатомии в норме и при патологии на характеристики голоса, представленное в виде математических зависимостей;

3. сформулированы требования к анализу речевого сигнала при речевой реабилитации больных заболеваниями гортани

Практическая значимость. Разработанные модель и алгоритмы позволяют-

1. создавать программное обеспечение для детального анализа речевого сигнала;

2. формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи,

3. разрабатывать программное обеспечение по диагностике изменений в речеобразующей системе человека.

Положения, выносимые на защиту*

1. модель образования голоса для несимметричных голосовых складок;

2. зависимости параметров вокализованных звуков от особенностей строения речевого аппарата для речи в норме и при патологии и методики их определения;

3. алгоритм оценки эффективности лечения опухолей гортани путем анализа речевого сигнала.

Внедрение результатов. Разработанный программный комплекс используется в научно-исследовательской и медицинской деятельности ГУ НИИ онкологии ТНЦ РАМН, ООО «НПФ «Информационные системы безопасности», ООО «ЛМЭ «Биоток», а также в учебном процессе ТУСУР по дисциплине «Вычислительная математика».

Апробация работы. Основные результаты по теме диссертационной работы отражены в 9 публикациях (в том числе 5 статьях, из них 3 в журналах, рекомендованных ВАК)

Личный вклад. Автором разработана модель речеобразования при несимметричных характеристиках голосовых складок. Проведены исследования влияния изменения параметров речеобразующего тракта на голос человека, разработан алгоритм и осуществлена программная реализация модулей для оценки эффективности лечения опухолей гортани. Постановка задачи осуществлялась совместно с руководителем - д.т н, проф. В.П. Бондаренко.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 92 наименований и 3 приложений. Общий объем работы составляет 108 страниц, в том числе 35 рисунков и 32 таблицы.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснованы актуальность и научная новизна исследования, определены цель работы и основные задачи, которые необходимо решить для ее достижения, дана общая характеристика исследования, сформулированы основные положения, выносимые на защиту.

В первой главе проводится анализ анатомического строения речеобразующего тракта (РОТ) и механизмов взаимодействия его составляющих в процессе формирования звучной речи, определение диапазонов допустимых значений этих параметров

В результате анализа определено, что строение мужского и женского речевых аппаратов имеют существенные различия, основные из которых сведены в таблицу 1. Наиболее существенные различия в анатомии системы речеобразования состоят в длине речеобразующего тракта, размерах гортани, а также параметрах голосовых складок.

Таблица 1 Основные отличия речевых аппаратов мужчин и женщин

Название параметра Значение муж. Значение жен.

Жюненная емкость легких, л 3,5-7,0 2,5-6,0

Диаметр трахеи, мм 13-27 10-23

Длина трахеи, см 9-13 8-12

Длина голосовых складок, мм 20-24 18-20

Ширина голосовых складок, мм 3-3,5 2,5-3

Длина гортани, мм 44 36

Поперечный диаметр гортани, мм 43 41

Переднезадний диаметр гортани, мм 36 26

Длина речеобразующего тракта, см 16,5-18 13,5-16

Рассмотрены основные существующие подходы к учету характеристик голоса, связанных с полом диктора 1) на основе метода двух формант; 2) на основе скрытых Марковских моделей; 3) на основе смешанных Гауссовских моделей. В результате был сделан вывод, что ни один подход не принимает во внимание особенности речеобразования, связанные с анатомией и физиологией человека, а ориентируется на статистические данные.

На основе проанализированных данных сделана постановка задачи, которая заключается в построении моделей речеобразования для речи в норме и при патологии и определении зависимостей между параметрами голоса и особенностями анатомии речеобразующего тракта.

Во второй главе рассмотрено влияние параметров речеобразующего тракта на характеристики голоса.

Были рассмотрены следующие подходы к построению математической модели речеобразующего тракта.

1 волновая модель Келли-Локбаума,

2. модель на основе уравнения Вебстера;

3. модель на основе длинных линий, или четырехполюсников,

В тексте диссертации приведены акустические схемы для мужской, женской речи в норме и при патологиях

Проведен анализ модели формирования формантной структуры на основе известных данных о площадях сечений речеобразующего тракта для различных звуков (Рисунок 1)

§ tJ

I S, 5

°0 0.02 0.04 0.06 0ДК 01 012 014 Olí 018

Длина (см)

Рисунок 1 Вид функции площади поперечного сечения РОТ для гласного /А/

Сопоставлены основные модели образования вокализованных звуков речи:

1. модель, основанная на миоэластической теории фонации, в которой голосовые складки раскрываются под действием давления в трахее и смыкаются под действием сил Бернулли,

2 модель, основанная на нейрохроноксической теории Рауля Юссона, в которой на движение голосовых складок не влияет давление в трахее и ротовой полости,

3. модель Фанта, в которой постулируется независимость источника возбуждения от параметров речевого тракта.

С использованием каждой из перечисленных моделей образования вокализованных звуков речи были найдены частоты первых двух формант для звуков /А/, /Е/, /И/, /О/, /У/, с длиной речеобразующего тракта, равной 17 см для мужского организма, и 14,5 см для женского. Полученный результат сравнивался с известными данными о частотах первых двух формант для мужчин и женщин. В результате были определены расхождения, представленные в таблице 2.

Таблица 2 Средние отклонения расчетных частот формант от реальных _значений для мужчин и женщин

Мужчина Женщина

ДР1 AF2 AF1 AF2

Голосовые складки - источник напряжения

Аср. 146 180 216 290

Голосовые складки — источник тока

Аср. 22 74 4 30

Голосовые складки - движение за счет разности давлений

Аср. 22 32 8 32

л-

Здесь AFI, А Fl - полученные расхождения для частот первой и второй формант соответственно. Из представленных данных видно, что наименьшее расхождение имеют значения, полученные с помощью модели движения голосовых складок за счет разности давлений, следовательно, эта модель является наиболее адекватной процессам образования звучной речи и может быть использована для решения поставленных задач.

Анализ влияния изменения длины речеобразующего тракта на параметры голоса показал, что уменьшение длины речеобразующего тракта приводит к существенному росту частот формант (Рисунок 2), что объясняет наличие более высоких частот формант в женском голосе по сравнению с мужским.

Также проводилась оценка чувствительности для определения степени чувствительности для каждой форманты как:

dLPOT ALPOT (1)

где AF - изменение частоты исследуемой форманты, которая определялась разницей соседних значений (Гц), ALPOT — изменение длины

Длина РОТ (я)

Рисунок 2. Зависимость частот формант для звука /А/ от длины речеобразующего тракта

12 3 4

1+1

Номер форманты

Рисунок 3. Чувствительность частот формант к изменению длины РОТ

Анализ чувствительности показал, что наиболее чувствительными к изменению длины РОТ являются частоты верхних формант (Рисунок 3).

Изменение длины Морганиева желудочка практически не оказывает никакого влияния на частоты первых двух формант и наиболее сильно сказывается на частоте третьей форманты (Рисунок 4), за исключением звука /И/, где наиболее сильно изменяется частота четвертой форманты.

40001----Г"-—--

FI^POOO

£ и

& FVi

-----1000

о1-----------

0.015 0.02 0.025 0.03 0JD35 0.04 0.045 0.05

x8-i

Длина Морганиева желудочка (м)

Рисунок 4. Зависимость частот формант для звука /А/ от длины Морганиева желудочка

При исключении Морганиева желудочка из речеобразующего тракта исчезла третья форманта для всех звуков, кроме /И/, из чего можно сделать вывод, что Морганиев желудочек отвечает за формирование третьей форманты в гласных звуках /А/, /Е/, /О/, /У/.

Пропорциональное изменение площади поперечного сечения для всего речеобразующего тракта не оказывает никакого влияния на частоты формант.

Пропорциональное увеличение площади поперечного сечения Морганиева желудочка приводит к незначительному росту частот 4-й и 3-й формант и уменьшению 1-й и 2-й.

Был проведен анализ историй болезни 43-х пациентов, предоставленных НИИ онкологии ТНЦ СО РАМН, с диагнозом рак гортани. Частота распространения опухоли на органы гортани представлена в таблице 3.

Таблица 3. Частота распространения опухоли на органы гортани

Органы и отделы гортани и РОТ %

Одна голосовая складка 67,4

Обе голосовые складки 14

Одна ложная голосовая складка 44,2

Обе ложные голосовые складки 4,6

Морганиев желудочек 41,9

Основание надгортанника 30,2

Черпало - надгортанная складка 23,3

Корень языка 4,6

Гортанная поверхность надгортанника 4,6

Из обработанных данных (таблица 3) следует, что преимущественно опухоли подвержена одна голосовая складка (67,4%), также большое внимание следует уделить распространению опухоли на стенки гортани в области голосовых складок и Морганиева желудочка.

Появление посторонних образований в просвете гортани в области голосовых складок и Морганиева желудочка наибольшим образом сказывается на увеличении частоты 3-й форманты пропорционально росту размера образования.

В третьей главе приведен обзор моделей голосовых складок, разработана модель образования гласных звуков на уровне гортани для речи при патологии, описано влияние изменения массы голосовых складок на речевой сигнал для нормальной и патологической речи

Были рассмотрены следующие модели голосовых складок:

1. одномассовая модель (James L. Flanagan, Lorinda L. Landgraf, 1968);

2. одномассовая модель с имитацией второй массы (Federico Avanzini, Paavo AIku, Matti Karjalainen, 2001);

3. двухмассовая модель (K.Ishizaka, J.L.Flanagan, 1972);

4. трехмассовая модель (B.H.Story and I.R.Titze, 1995);

5. шестнадцатимассовая модель (I.R.Titze, 1973).

Анализ моделей голосовых складок показал, что для исследования влияния массы голосовых складок на речевой сигнал наиболее подходит одномассовая модель. Достоинством данной модели является простота реализации при учете большинства изменяемых параметров, низкая вычислительная сложность. Основным недостатком перечисленных моделей по сравнению с одномассовой является трудоемкость обнаружения областей устойчивых колебаний. Вместе с тем, постановка задачи требует того, чтобы области колебаний были обширны, поскольку необходимо варьировать параметры модели в широких пределах.

В связи с тем, что для речи в норме параметры обеих складок одинаковы и их движения синхронны, в моделях голосовых складок обе голосовые складки заменяются одной эквивалентной с массой, равной сумме масс обеих складок (Рисунок 5).

В случае, когда параметры складок различны (например, при раке гортани), приведенные модели голосовых складок становятся неприемлемы. При моделировании голосовых складок с различными параметрами возникает необходимость моделировать каждую складку в отдельности (Рисунок 6).

Рисунок 5. Двухмассовая модель голосовых складок

Рисунок 6. Двойная двухмассовая модель голосовых складок

Модель образования звуков для речи при патологии примет вид, показанный на рисунке 7 Здесь: Сл — емкость, представляющая эквивалентный объем легких; Ьт, вт, Ят, Ст - элементы четырехполюсника - электрического эквивалента трахеи, в модели используется одномассовая модель голосовых складок, представленная переменными элементами ¿я и йу; соединение элементов Ом, См, Ьм представляет собой электрический эквивалент Морганиева желудочка; речеобразующий тракт представлен в виде последовательного соединения четырехполюсников £0, СТО, ВО, СО — Ы, С4, К4, С4, Е — эквивалент атмосферного давления

01| I си

м ы

Ш 12

021 С2=

ззр

ИЗ 1.3 ■СК"

Н)

0«

Рисунок 7. Модель речевого аппарата для речи при патологии

Таблица 4 Выражения для расчета

А С Л С Скорость изменения давления в легких

а . ш-т-и т — и =- А и Скорость изменения тока трахеи

а а Изменение давления в трахее

—х\ = х\\ А Скорость движения 1-й голосовой складки

—хП = РЦ)-бх11- — -х\ Ж т$\ Изменение скорости движения 1-й складки, где гт1 - масса первой складки

й , и(-ит , (¡3 , X . ,.г — и1=- х\- —--«1---х1 «1 Л 2-а \а х\ ) а Изменение тока голосовой щели через первую складку

—х2 = х22 Л Скорость движения 2-й голосовой складки

—х22 = /ХО - 3 ■ х22 —— • х2 Ж т$2 Изменение скорости движения 2-й складки, где 1ш2 — масса второй складки

а*2 = и'-ит.х2-(/3-х22) ,2-Я ЛЛ Л 2-а \а х2) а Изменение тока голосовой щели через вторую складку

<Л ,т (и1 + /д2) - ш - 11т ■ От —17т = ---- Л Ст Изменение давления Морганиева желудочка

А . 1/т—иО - гт • От —гт-- ¿11 Ьт Изменение тока Морганиева желудочка

й т—10-1/0-00 Л ~ СО Изменение давления нулевого звена РОТ

а.. ио-т-го яо —Ю =- Л ю Изменение тока нулевого звена РОТ

а и\ 1°-л-т (}1 л ~ с\ Изменение давления первого звена РОТ

а л т-иг-л-т —Л =- л и Изменение тока первого звена РОТ

</ Л /1-/'2-£/2<52 Л С2 Изменение давления второго звена РОТ

а т-иъ-а-яг л ы Изменение тока второго звена РОТ

л иг_ /2 - /3 - Е/3 • <53 л сз Изменение давления третьего звена РОТ

</ - 1/3 — и4 - /3 • Ю —13 -- л ьъ Изменение тока третьего звена РОТ

Ы ттл Й-/4-г/4-(74 —и 4 =- Л С 4 Изменение давления четвертого звена РОТ

с1 л 1М-Е-ММ —,4 =- Л 14 Изменение тока четвертого звена РОТ

Ниже приведены основные параметры, используемые в модели, их обозначение и размерности

__Таблица 5. Перечень параметров

Параметр Обозначение Размерность СИ

Масса первой голосовой складки 1Ш1 М кг

Масса второй голосовой складки 1ш2 м кг

Коэффициент жесткости кс МГ'г Н_ м

Коэффициент соответствия между площадью голосовой щели и ее индуктивностью а ЬлМГгГг Гн-м2

Коэффициент соответствия между площадью голосовой щели и ее сопротивлением Р 1?МТ3Г2 Ом м2

Коэффициент затухания колебаний б МТ Не м

Коэффициент для учета влияния сил Бернулли X 12МТ3Г3 кг м2 с3 А3

В ходе исследования влияния на речевой сигнал изменения массы голосовых складок в норме и при патологии не выявлено взаимосвязей изменения массы с изменением величины относительных интенсивностей гармоник частоты основного тона, рассчитываемой по формуле 2.

= (2)

Для нормальной речи были получены результаты, представленные на Рисунке 8.

Из приведенных данных видно, что при увеличении массы голосовых складок частота основного тона уменьшается, что объясняет более низкую частоту основного тона у мужчин по сравнению с женской, поскольку мужские голосовые складки в большинстве случаев тяжелее женских.

0.16

Масса голосовых складок ( кг-10 ^ )

Рисунок 8. Зависимость частоты основного тона от массы голосовых

складок

При речи с патологией гортани, в связи с распространением опухоли на часть голосовой складки, масса складки, участвующая в процессе речеобразования, уменьшается, так как пораженная часть становится неподвижной (Рисунок 9).

/ 1 \

Рисунок 9. Движение здоровой голосовой складки - слева, движение пораженной складки — справа (серым показано распространение опухоли)

| I

Масса активной части второй складки (кг ш-3)

Рисунок 10. Зависимость частоты основного тона от массы активной части второй голосовой складки

Для определения влияния на речевой сигнал неравномерности масс голосовых складок при распространении опухоли на одну из них, масса первой голосовой складки была взята 0,07 г, масса второй складки, участвующая в процессе речеобразования, варьировалась от 0,06 до 0,01 г. С ростом площади поражения и, как следствие, уменьшением массы активной части голосовой складки, частота основного тона увеличивается (Рисунок 10).

Анализ траектории движения голосовых складок с различными массами показал, что они двигаются в разной фазе (Рисунок 11).

Токи через голосовые складки также имеют разную фазу и отличаются по форме (Рисунок 12).

2 1<Г

Рисунок 11.

0.105 0.11 0.115

»i

Траектории движения голосовых складок по времени

-1

•10

Рисунок 12. Ток голосовых складок по времени

С помощью анализа записей голосов при опухолях голосовых складок и голосов в норме было установлено, что расчетные значения для интенсивностей и частоты основного тона совпали с измеренными значениями для реальных голосов, что говорит об адекватности модели и правильности используемых подходов

В четвертой главе представлены алгоритм и программная реализация оценки отклонения параметров речевого сигнала и эффективности проведения лечения при раке гортани. Обоснована возможность применения разработанных моделей в медицинских исследованиях при получении параметров речевого сигнала Это позволяет определить изменения органов речеобразования, характерных для рака гортани различных стадий, а также при ранней диагностике рака гортани.

Представлены результаты исследований речевых сигналов онкологических больных на разных стадиях заболевания

Использование разработанных программных модулей может служить основой методик диагностики наличия заболеваний, которые вызывают изменения на уровне гортани (в том числе рака гортани), а также программ, позволяющих производить контроль качества проводимого лечения при лучевой и химиотерапии На сегодняшний день методы, при помощи которых производится оценка размеров опухоли, либо требуют дополнительного дорогостоящего оборудования, либо не могут применяться слишком часто, например, рентген или томография, либо недостаточно точны, например, зеркальная ларингоскопия, дающая процент ошибок от 30% до 50%

Приведены результаты анализа записей голосов онкологических больных с распространением раковой опухоли на одну голосовую складку до проведения операции. Не удалось установить какую-либо взаимосвязь между развитием заболевания и относительными максимумами интенсивностей гармоник, однако отмечается значительное увеличение разброса соседних значений относительных максимумов интенсивностей частоты основного тона с ростом тяжести заболевания.

При этом происходит значительное увеличение частоты основного тона (Таблица 6), что соответствует данным, полученным в результате моделирования (Рисунок 10).

_Таблица 6 Динамика частоты основного тона

Тяжесть заболевания ЧОТ ср. ЧОТ шш ЧОТ шах

1 90 70 100

2 100 95 110

3 260 220 300

4 170 130 , 200

5 160 120 180

Полученные результаты были использованы при разработке программного комплекса (Рисунок 13).

Рисунок 13. Структура программного комплекса на уровне блоков

Программный комплекс по исследованию речевого сигнала состоит из программно реализованных модулей, объединенных в семь блоков

Блок создания файлов для обработки речевого сигнала предназначен для расчета весовых функций hc{t, К), hjif, К), W0(k, &,) и формирования набора масок Ри(к) на основе fV0(k, к,);

Блок предварительной обработки речевого сигнала предназначен для выполнения свертки речевого сигнала S(t) с весовыми функциями системы фильтров hc(t, k)nhs(t, к)

Блок выделения параметров речевого сигнала предназначен для вычисления массива значений интенсивностей I{t, к) и массива значений мгновенных частот основного тона F(t, к).

Шок выделения вокализованных участков речевого сигнала осуществляет одновременную маскировку речевого сигнала и его сегментацию по наличию голосового источника.

Блок выделения параметров вокализованных сегментов речевых сигналов предназначен для определения номеров каналов к„ и вычисления величины девиации частоты основного тона.

Блок визуализации параметров речевого сигнала позволяет сохранять полученные графики как в автоматическом, так и в автоматизированном режиме.

Блок анализа отклонений параметров речевого сигнала содержит следующие модули.

1 модуль для выделения средней частоты основного тона;

2 модуль для вычисления среднего отклонения первых трех относительных интенсивностей гармоник частоты основного тона,

3. модуль для анализа исторических данных, позволяющий оценивать динамику протекания заболевания и проводить оценку эффективности лечения

В заключении приведены основные научные и практические результаты диссертационной работы.

1. Разработана модель голосообразования при различных параметрах голосовых складок.

2 Установлены основные зависимости между параметрами анатомии и параметрами голоса, в том числе зависящие от пола диктора

3 Разработан алгоритм анализа отклонений речевого сигнала для создания систем диагностики и более эффективного лечения заболеваний речеобразующих органов, в том числе рака гортани.

4. Создано алгоритмическое и программное обеспечение по исследованию речевых сигналов

Основные результаты диссертации опубликованы в следующих работах:

В рецензируемых ВАК журналах.

1. Квасов, А. Н. Влияние параметров системы речеобразования на структуру речевого сигнала / А. Н Квасов // Вестник СибГАУ. — Красноярск, 2006 -С. 15-17.

2 Квасов, А. Н. Рекурсивная система фильтров / А. Н. Квасов, А. С. Солуянов // Вестник СибГАУ. - Красноярск, 2006. - С 17-20.

3. Квасов, А. Н. Особенности речевого сигнала при опухоли гортани / Л. Н. Балацкая, А Н Квасов, А А Конев, С Ю. Чижевская, Е. Л. Чойнзонов И Известия ВУЗов «Физика», 2006 - Т. 49 - Вып. 9. - С. 290-293.

В других изданиях

4 Квасов, А. Н. Идентификация пола диктора по речевому сигналу с учетом особенностей речеобразования /АН Квасов // Научная сессия ТУСУР - 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов — Томск- Издательство ТУСУРа,2005 -С 135-138.

5. Квасов, А. Н. Отличия женских и мужских голосов в задачах идентификации диктора / А. Н. Квасов // Научная сессия ТУ СУР - 2005 Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов - Томск: Издательство ТУСУРа, 2005. -С. 138-140.

6. Квасов, А. Н. Распознание речи с учетом особенностей речеобразования / АН. Квасов // Научная сессия ТУСУР - 2006: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов - Томск: Издательство ТУСУРа, 2006. - С 26-29.

7. Квасов, А. Н. Анализ речевого потока в задачах идентификации диктора / А. Н. Квасов // Научная сессия ТУСУР - 2006: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов - Томск: Издательство ТУСУРа, 2006. - С. 29-31.

8. Квасов, А. Н. Влияние параметров речеобразовательной системы на речевой сигнал / АН. Квасов, Е. Ю. Костюченко, А. С. Солуянов // Сборник трудов XVII сессии Российского акустического общества Том Ш — М. ГЕОС, 2006. — С. 14-17

9. Квасов, А. Н. Особенности мужского и женского речевых сигналов / А Н. Квасов, А С. Солуянов // Сборник трудов XVII сессии Российского акустического общества. Том III - М.: ГЕОС, 2006. - С. 17-21.

Тираж 100. Заказ 1279.

Томский государственный университет систем управления и радиоэлектроники. 634050, г. Томск, пр. Ленина, 40

Оглавление автор диссертации — кандидата технических наук Квасов, Алексей Николаевич

ВВЕДЕНИЕ.

ГЛАВА 1. ОСОБЕННОСТИ РЕЧЕОБРАЗОВАНИЯ.

1.1. Формирование звучной речи в организме человека.

1.2. Параметры систем речеобразования в зависимости от пола и строения организма.

1.3. Влияние органов речевого аппарата на параметры голоса.

1.4. Формирование звуков устной речи.

1.5. Динамика речеобразования при слитной речи.

1.6. Акустические схемы процесса голосообразования.

1.7. Существующие подходы к учету характеристик голоса, связанных с полом диктора.

Выводы по первой главе:.

ГЛАВА 2. ВЛИЯНИЕ ОСОБЕННОСТЕЙ РЕЧЕОБРАЗОВАНИЯ НА ФОРМАНТНУЮ СТРУКТУРУ.

2.1. Модели речеобразующего тракта.

2.2. Модели образования вокализованных звуков речи.

2.3. Сравнение моделей образования вокализованных звуков речи.

2.4. Влияние длины речевого тракта на формантную структуру сигнала.

2.5. Влияние Морганиева желудочка на формантную структуру сигнала.

2.6. Влияние площади сечений речеобразующего тракта на формантную структуру.

2.7. Распространение опухоли при раке гортани.

2.8. Образования в просвете гортани.

Выводы по второй главе:.

ГЛАВА 3. ВЛИЯНИЕ ОСОБЕННОСТЕЙ РЕЧЕОБРАЗОВАНИЯ НА ЧАСТОТУ ОСНОВНОГО ТОНА.

3.1. Обзор моделей голосовых складок.

3.2. Модель голосовых складок для патологической речи.

3.3. Влияние массы голосовых складок на речевой сигнал для нормальной речи.

3.4. Влияние на речевой сигнал неравномерности масс голосовых складок при патологической речи.

Выводы по третьей главе:.

ГЛАВА 4. ИСЛЕДОВАНИЕ МОДЕЛИ И АЛГОРИТМОВ.

4.1. Описание программного комплекса.

4.2. Результат анализа речевых сигналов онкологических больных с распространением раковой опухоли на одну голосовую складку до операции.

4.3. Алгоритм оценки эффективности лечения опухолей гортани по речевому сигналу.

Выводы по четвертой главе:.

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Квасов, Алексей Николаевич

В современном мире проявляется все больший интерес к речевым технологиям, в частности, к идентификации личности по голосу [12]. Это объясняется, с одной стороны, появлением высокопроизводительных вычислительных систем на базе персональных компьютеров, с другой стороны, высокой потребностью систем аутентификации в разных областях жизнедеятельности человека в связи с широким распространением вычислительной техники. Задача распознавания речи решается уже довольно продолжительное время. Но то, что эта задача очень долго оставалась на стадии начальных исследований, уже говорит о нетривиальности требующихся подходов [2]. Во многом это связано со сложностью самих процессов речеобразования и речевосприятия.

Исследование процессов речеобразования и речевосприятия имеет достаточно продолжительную историю. Наиболее полно во второй половине прошлого века эти исследования были представлены в монографиях Сапожкова М.А., Фанта Г., Фланагана Дж., Сорокина В.Н. [37, 56, 58, 62]. Вначале работы носили в основном теоретический характер, при этом модели пытались строить на аналогах электрических цепей с сосредоточенными параметрами [37].

Интерес к данной проблеме с новой силой вспыхнул с появлением вычислительной техники. В 50-60-е годы, окрыленные высокими темпами научно-технического прогресса, многие полагали, что с компьютером можно будет общаться исключительно «естественным» образом уже через 10-15 лет. Впоследствии эра «бесклавиатурного» общения была отодвинута к концу 80-х годов, потом 90-х. Конечно, в настоящее время имеется некоторый прогресс, и рынок проявляет все возрастающий интерес к этой технологии. Программы и системы, обладающие средствами речевого ввода информации, получают все большее распространение, но их качество остается невысоким.

Проблема оказалась весьма сложной и обладающей свойством разветвляться в другие области знаний: статистическую радиотехнику, лингвистику, психоакустику, анатомию и многие другие [2].

Звуковая речь рассматривается как генерируемое человеком звуковое сообщение, которое может быть зарегистрировано, сохранено, обработано и воспроизведено заново при помощи приборов и алгоритмов. Из сообщения извлекается и оценивается полезная для получателя информация. Например, при оценке интонаций рассматриваются просодические нюансы речи, при распознавании речи задача сводится к извлечению из речи текста и т.д. [2].

Идеологически система распознавания речи состоит из двух частей. Они могут быть неявно выделены в самостоятельные блоки или подпрограммы. Какая-то из них может существовать в упрощенном до крайности виде, но в любой реализации всегда есть эти части [2]. В литературе можно встретить разные варианты названия этих составных частей. Условно их можно назвать акустической и лингвистической. Последняя часть, впрочем, лингвистической названа не строго. В общем случае она может включать в себя фонетическую, фонологическую, морфологическую, лексическую, синтаксическую и семантическую модели языка, как это предложено считать в [46]. Или, наоборот, представлять собой простой коррелятор.

Акустическая модель отвечает за представление речевого сигнала, вернее, за его преобразование (из традиционного временного процесса) в некоторую форму, в которой в более явном виде присутствует информация о содержании речевого сообщения. Лингвистическая модель интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю (в роли которого может выступать не только человек, но и техническая система, управляемая речью).

Аналитическая группа Allied Business Intelligence заявила о том, что средства распознавания речи будут-играть все большую роль в интернете. Прежде всего, эта технология находит применение в системах доступа в сеть, как при традиционном, так и при беспроводном способе подключения. Голосовые порталы - новый сегмент индустрии распознавания речи -значительно облегчают этот доступ как мобильным, так и стационарным пользователям [6].

Решения, основанные на технологии распознавания речи, уже применяются в мобильных телефонах, интерактивном телевидении и даже встраиваются в автомобильные панели управления. Лидерами исследований в этой области являются IBM, AT&T, Lucent и Philips. Системы распознавания речи будут использовать и аудиовизуальные технологии. Например, камеры, расположенные перед сидением водителя, смогут распознавать его речь по движению губ, и тогда посторонние шумы или разговоры пассажиров не будут создавать помех. Еще в этом десятилетии корпорация IBM надеется создать машину, способную распознавать разговорную речь на двадцати языках, а также понимать различные диалекты, акценты и контексты, что позволит безукоризненно переводить юридические и медицинские документы и даже свидетельские показания в зале суда. Проект рассчитан до конца 2010 года.

Актуальность темы диссертации. Построение речевых диалоговых систем, компактное кодирование речи, медицинские приложения, распознавание и синтез речи, идентификация диктора по голосу требуют детального знания структуры речевого сигнала и механизмов его образования. Особенно это актуально в задачах идентификации диктора по голосу, ранней диагностики заболеваний органов речеобразования, постановке певческого голоса и др. Задача определения влияния процесса речеобразования на образование звуков, как для нормальной речи, так и в случае образования опухолей в области гортани, на сегодняшний день остается актуальной и решенной неполностью, особенно для открытого множества дикторов. При этом необходимо принимать во внимание особенности строения речевого аппарата, связанные с полом диктора, возрастом, его телосложением и состоянием здоровья. Основным недостатком существующих систем является упор на статистические данные без учета особенностей речеобразования, связанных с анатомией и физиологией человека. Точность результата работы подобных систем напрямую зависит от полноты и адекватности используемых баз данных голосов, ведение которых является очень трудоемким и дорогостоящим процессом. Еще одна проблема - локализация, адаптация подобных систем для других языков, в частности, для русского.

Необходимо отметить, что до сих пор не установлена связь между параметрами анатомии речеобразующей системы, ее динамикой и параметрами голоса. Большой вклад в развитие данной области внесли ученые Г. Фант, Дж. Фланаган, М.А. Сапожков, В.Н. Сорокин, В.И. Галунов, Б.М. Лобанов, Т.К. Винцюк, Л.В. Златоустова, А.В. Аграновский, Н.Г. Загоруйко, Ю.А. Косарев, А.Л. Ронжин, М.В. Хитров, С.Л. Коваль, В.Г. Михайлов, В.П. Бондаренко, Л.Н. Балацкая.

Учет особенностей анатомии человека, связанных с полом диктора, существенно повышает точность работы систем распознавания речи и определения личности диктора, используется при сортировке телефонных звонков, поиске образцов речи в базах данных, существенно сокращая время получения результата. Исследование влияния опухоли в области гортани позволяет отслеживать динамику болезни при реабилитации больных, упрощает задачу ранней диагностики опухолей гортани по речевому сигналу. Наиболее распространенный на сегодняшний день зеркальный осмотр дает долю ошибок от 30% до 50%. Использование томографии на ранних стадиях не позволяет выявить изменений тканей и является дорогостоящей процедурой. Между тем, на ранних стадиях заболевания отмечается изменение голоса пациента, связанное с изменениями параметров речевого аппарата. - - ---------- -------- .

Таким образом, задача исследования особенностей формирования гласных звуков на уровне гортани для нормальной речи и при патологиях, в зависимости от особенностей системы речеобразования человека, является актуальной.

Цель работы и задачи исследования. Основной целью диссертационной работы является выявление влияния параметров системы речеобразования на формирование звуков на уровне гортани в норме и при патологии.

Для достижения поставленной цели необходимо решить следующие задачи:

3. разработать математическую модель голосообразования на уровне гортани при патологиях;

4. разработать численные методы определения отклонений речевого сигнала при патологиях;

5. разработать алгоритмическое и программное обеспечение, реализующее модель и алгоритмы;

6. исследовать разработанные модели и алгоритмы.

Методы исследования. Для решения задач, сформулированных в работе, использовались методы системного анализа, цифровой обработки сигналов, вычислительной математики, теории цепей, фонетики, психоакустики. . - .

Научная новизна результатов, полученных в работе, состоит в следующем:

1. разработана модель образования голоса на участке гортани, отличающаяся от известных изменяемыми параметрами каждой из голосовых складок в отдельности;

2. определено влияние особенностей анатомии в норме и при патологии на характеристики голоса, представленное в виде зависимостей;

3. сформулированы требования к анализу речевого сигнала при лечении и речевой реабилитации больных заболеваниями гортани.

Тезисы, выносимые на защиту.

1. модель образования звуков при условии несимметричности параметров голосовых складок;

3. алгоритм оценки эффективности лечения опухолей гортани путем анализа речевого сигнала.

Практическая ценность работы. Разработанные модель и алгоритмы позволяют:

1. создавать программное обеспечение для детального анализа речевого сигнала;

2. формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи;

3. разрабатывать программное обеспечение для диагностики изменений в речеобразующей системе человека.

Внедрение результатов. Разработанный программный комплекс используется в научно-исследовательской и медицинской деятельности ГУ

НИИ онкологии ТНЦ РАМН, ООО «НПФ «Информационные системы безопасности», ООО «ЛМЭ «Биоток», а также в учебном процессе ТУСУРа по дисциплине «Вычислительная математика».

Апробация работы. Основные результаты по теме диссертационной работы отражены в 9 публикациях (в том числе 5 статьях, из них 3 в журналах, рекомендованных ВАК).

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 92 наименований и 3 приложений. Общий объем работы составляет 109 страниц, в том числе 35 рисунков и 35 таблиц.

Заключение диссертация на тему "Модель голосообразования и анализ речевого сигнала в норме и при патологии"

Выводы по четвертой главе:

Проведен анализ образцов речевых сигналов онкологических больных с распространением раковой опухоли на одну голосовую складку до проведения операции. В результате не удалось установить какую-либо взаимосвязь между развитием заболевания и изменением значений максимумов относительных интенсивностей гармоник основного тона. Однако отмечается увеличение разброса соседних значений интенсивностей гармоник ЧОТ. Также с ростом тяжести заболевания отмечается существенное увеличение частоты основного тона.

На основании проведенного анализа предложен алгоритм оценки эффективности лечения опухолей гортани по речевому сигналу с помощью оценки изменения средней частоты основного тона и среднего разброса соседних значений относительных интенсивностей гармоник частоты основного тона и осуществлена его программная реализация.

ЗАКЛЮЧЕНИЕ

Данная работа является законченным научным исследованием. В соответствии с целью диссертационной работы сделано следующее.

Рассмотрена анатомия органов речеобразования мужчин и женщин и механизмов их взаимодействия при формировании нормальной речи, а также при опухолях гортани. Определены границы допустимых значений параметров мужского и женского речевых аппаратов и их основные различия - длина речеобразующего тракта, размеры гортани, а также параметры голосовых складок - размеры и, как следствие, масса, которые могут являться причиной различия мужского и женского голосов. На основании этих отличий поставлена задача для моделирования с целью выявления влияния на речевой сигнал параметров речевого аппарата, связанных с полом диктора.

На основании анализа историй болезни определена частота распространения опухолей на органы и отделы гортани для пациентов с диагнозом рак гортани. Выявлены наиболее распространенные изменения речеобразующего тракта на уровне гортани при патологии - распространение опухоли на одну голосовую складку и область Морганиева желудочка. На основании полученных данных сформулирована задача для моделирования влияния наиболее распространенных изменений речеобразующего тракта при раке гортани на характеристики голоса с целью получения критериев оценки динамики и эффективности лечения заболевания, которые также могут быть использованы в задачах ранней диагностики рака гортани по голосу.

Рассмотрен ряд подходов к моделированию речеобразующего тракта, а также основные существующие подходы определения пола диктора по голосу. Обосновано преимущество использования подхода, при котором движение голосовых складок обеспечивается разностью давлений в трахее и

Морганиевом желудочке, по сравнению с миоэластической и нейрохроноксической теориями фонации. . .

Впервые проведен полный анализ влияния основных отличий речеобразующего тракта, связанных с полом диктора (длина речеобразующего тракта, размеры гортани) на речевой сигнал. Были сделаны следующие выводы.

Уменьшение длины речеобразующего тракта приводит к существенному росту частот первых четырех формант, что подтверждается известными данными о частотах формант для мужчин и женщин. Наиболее чувствительными к изменению длины РОТ являются частоты верхних формант. Изменение длины Морганиева желудочка практически не оказывает никакого влияния на частоты первых двух формант и наиболее сильно сказывается на частоте третьей форманты, за исключением звука /И/, где наиболее сильно изменяется частота четвертой форманты. При исключении Морганиева желудочка из речеобразующего тракта исчезает третья форманта для всех звуков, кроме /И/, из чего можно сделать вывод, что Морганиев желудочек отвечает за формирование третьей форманты в гласных звуках /А/, /Е/, /О/, /У/. Пропорциональное изменение площади поперечного сечения для всего речеобразующего тракта не оказывает никакого влияния на частоты формант. Пропорциональное увеличение площади поперечного сечения Морганиева желудочка приводит к незначительному росту частот четвертой и третьей формант и уменьшению первой и второй.

Анализ влияния основных изменений речеобразующего тракта в связи с раком гортани - появление посторонних образований в области голосовых складок и Морганиева желудочка - показал, что эти изменения наибольшим образом сказываются на увеличении частоты третьей форманты пропорционально росту размера образования.

Проведен обзор моделей голосовых складок, обоснован выбор одномассовой модели для исследования влияния массы голосовых складок на речевой сигнал. Рассмотрены проблемы моделирования голосовой щели в случае несимметричности голосовых складок, при распространении опухоли на голосовые складки.

Впервые разработана модель речеобразования, позволяющая моделировать опухоли голосовых складок, и проведен анализ влияния несимметричности голосовых складок на характеристики частоты основного тона.

По данным первой главы, одним из существенных отличий речеобразующего тракта, связанным с полом диктора, является масса голосовых складок. Исследовано влияние массы голосовых складок на параметры голоса, в результате чего удалось установить, что увеличение массы голосовых складок приводит к существенному уменьшению частоты основного тона. Таким образом, при оценке частоты основного тона существенное значение имеет информация о поле диктора. Полученные результаты близки к известным данным о частоте основного тона для мужчин и женщин, что говорит об адекватности модели и применяемого подхода. Также данные об относительных интенсивностях гармоник частоты основного тона близки к значениям, измеренным для реальных голосов.

Анализ влияния основных изменений голосовых складок в связи с раком гортани показал, что с прогрессированием болезни происходит существенное увеличение частоты основного тона за счет уменьшения массы пораженной складки, участвующей в процессе речеобразования. Данные для относительных интенсивностей гармоник частоты основного тона близки к значениям, измеренным для реальных голосов, также частота основного тона, полученная при равных значениях масс обеих складок, оказалась близкой значению, полученному для нормальной речи, что подтверждает адекватность модели. Было установлено, что голосовые складки с различными параметрами двигаются в разной фазе относительно друг друга. Токи через голосовые складки при - патологии имеют разную фазу и отличаются по форме.

Не удалось установить какую-либо взаимосвязь между увеличением массы голосовых складок и изменением значений относительных максимумов интенсивностей гармоник, как для нормальной речи, так и в случае болезни.

Проведен анализ речевых сигналов онкологических больных с распространением раковой опухоли на одну голосовую складку до проведения операции. В результате не удалось установить какую-либо взаимосвязь между развитием заболевания и изменением значений максимумов относительных интенсивностей гармоник основного тона, однако отмечается увеличение разброса их соседних значений. Также с ростом тяжести заболевания отмечается существенное увеличение частоты основного тона.

Впервые предложен алгоритм оценки эффективности лечения опухолей гортани по речевому сигналу с помощью оценки изменения средней частоты основного тона и среднего разброса соседних значений относительных интенсивностей частоты основного тона.

Полученные результаты легли в основу комплексного исследования методов лечения рака гортани в отделении опухолей головы и шеи НИИ онкологии Томского научного центра СО РАМН и позволили повысить качество лечения пациентов с диагнозом рак гортани.

Библиография Квасов, Алексей Николаевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Алдошина, И.А. Основы психоакустики. Ч. 1 / И.А. Алдошина // Звукорежиссер. 1999. - №6.

2. Алексеев, В. Услышь меня, машина / В. Алексеев // Компьютерра. -1997.-№12.

3. Айзинов, М.М. Избранные вопросы теории сигналов и теории цепей / М.М. Айзинов.-М.: Связь, 1971.

4. Алмазова, Е.С. Логопедическая работа по восстановлению голоса у детей / Е.С. Алмазова. М : Просвещение, 1973.

5. Баскаков, С.И. Радиотехнические цепи и сигналы: учеб. для вузов по спец. «Радиотехника» / С.И. Баскаков. 3-е изд., перераб. и доп. - М. : Высшая школа, 2000. - 462 с.

6. Беспроводной доступ в интернет будет стимулировать Электронный ресурс. Режим доступа : http://weekly.cnews.ru/02.10.2000

7. Биологическая обратная связь при обучении устной речи / JI.H. Балацкая, В.П. Бондаренко, А.Ю. Корнилов и др. // Сборник трудов XVI сессии Российского акустического общества. Т. 3 М. : ГЕОС, 2005,- С. 7-10.

8. Бойков, Ф.Г. Применение вейвлет-анализа сигнала в системе распознавания речи Электронный ресурс. / Ф.Г. Бойков, Т.К. Старожилова. Режим доступа : www.dialog-21 .ru/Archive/2003/Boikov.pdf.

9. Бондаренко, В.П. Адаптивный анализ голосового сигнала / В.П. Бондаренко, В.П. Коцубинский, Р.В. Мещеряков // Интеллектуальные системы в управлении, конструировании и образовании. Томск, 2004. -Вып.З.-С. 58-61.

10. Ю.Бондаренко, В.П. Выделение особенностей структуры речевого сигнала / В.П. Бондаренко, В.П. Коцубинский, Р.В. Мещеряков // Сборник трудов XII сессии Российского акустического общества. М., 2003. -T.3.-C.63-66.

11. П.Бондарко, JI.B. Звуковой строй современного русского языка: учеб. пособие для студентов пед. ин-тов по специальности «Рус. яз. и литература» / JI.B. Бондарко. М.: Просвещение, 1977. - 175 с.

12. Бояров, А.Г. Технология идентификация личности по произвольной слитной речи Электронный ресурс. / А.Г. Бояров. Режим доступа : http://art.bdk.com.ru/govor/infast93.htm

13. З.Бронштейн, И.Н. Справочник по математике для инженеров и учащихся вузов / И.Н. Бронштейн, К.А. Семендяев. М. : Наука, 1980. -976 с.

14. Виницкий, А.С. Модулированные фильтры и следящий прием ЧМ сигналов / А.С. Виницкий. М.: Советское радио, 1969. - 548 с.

15. Винцюк, Т.К. Алгоритмы распознавания слов и слитных фраз и результаты их моделирования / Т.К. Винцюк, О.Н. Гаврилюк, Н.Г. Пучкова // Тезисы докладов VIII Всесоюзного семинара АРСО. -Львов, 1974. Ч.З - С.33-37.

16. Галунов, В.И. Современные речевые технологии. Статьи о цифровой обработке звука Электронный ресурс. / В.И. Галунов. Режим доступа : http://art.bdk.com.ru/govor/infast.php?num= 136

17. Гласман, К.Ф. Формат МРЗ. Слуховая система человека: основные свойства / К.Ф. Гласман // Звукорежиссер. 2005. - №3.

18. Гренандер, У. Лекции по теории образов. Регулярные структуры / У. Гренандер-М.: Мир, 1981.-Т. 3 -432 с. -.

19. Дворянкин, С. Взаимосвязь цифры и графики, звука и изображения / С. Дворянкин // Открытые системы. 2000. - №3.

20. Домашняя медицинская энциклопедия / Гл. ред. В.И. Покровский. М. : Медицина, 1993. - 496 с.: ил.

21. Дыхательная система Электронный ресурс. Режим доступа : http://corncoolio.narod.ru/nashe/anatomv/sapin/07.htm

22. Ермолаев, В.Г. Руководство по фониатрии / В.Г. Ермолаев, Н.Ф. Лебедева, В.П. Морозов. М.: Медицина, 1970. - 268 с.

23. Жигулин, А.В. Жизненная емкость легких Электронный ресурс. -Режим доступа: http://liverum.com/content/zhiznennaya emkost. legkix-21321 .html

24. Жинкин, Н.И. Механизмы речи / Н.И. Жинкин. М. : АПН РСФСР, 1957.-372 с.

25. Квасов, А.Н. Влияние параметров системы речеобразования на структуру речевого сигнала / А.Н. Квасов // Вестник СибГАУ. -Красноярск, 2006. С. 15-17.

26. Квасов, А.Н. Влияние параметров речеобразовательной системы на речевой сигнал / А.Н. Квасов, Е.Ю. Костюченко, А.С. Солуянов // Сборник трудов XVII сессии Российского акустического общества. Т. 3 -М. :ГЕОС, 2006.-С. 14-17.

27. Квасов, А.Н. Особенности мужского и женского речевых сигналов / А.Н. Квасов, А.С. Солуянов // Сборник трудов XVII сессии Российского акустического общества. Т. 3 М. : ГЕОС, 2006. - С. 1721.

28. Квасов, А.Н. Особенности речевого сигнала при опухоли гортани / JI.H. Балацкая, А.Н. Квасов, А.А. Конев, С.Ю. Чижевская, ЕЛ. Чойнзонов // Известия ВУЗов «Физика», 2006. Т. 49 - Вып.9. - С. 290-293.

29. Квасов, А.Н. Рекурсивная система фильтров / А.Н. Квасов, А.С Солуянов // Вестник СибГАУ. ^Красноярск, 2006. С. 17-20.

30. Конев, А.А. Модель и алгоритмы анализа и сегментации речевого сигнала : дис. на соискание ученой степени кандидата технических наук : 05.13.18 / Конев А.А. Томск, 2007 - 129 с.

31. Коцубинский, В.П. Математические модели образования звучной речи : дис. на соискание ученой степени кандидата технических наук : 05.13.18 /Коцубинский В.П. Томск, 2004. - 151 с.

32. Ломтев, Т.П. Фонология современного русского языка / Т.П. Ломтев. -М : Высшая школа, 1972. 224 с.

33. Лузин, Д.А. Алгоритм начальной оценки основного тона речи для выделителя основного тона речи по методу GS / Д.А. Лузин // Сборник трудов XVIII сессии Российского акустического общества. Т. 3 М. : ГЕОС, 2006. - С. 21-23.

34. Новая иллюстрированная энциклопедия. Кн. 18. М. : Большая Российская Энциклопедия, 2003. - 256 с.: ил.

35. Огородников, А.Н. Выбор интервалов анализа сигнала при распознавании речи / А. Н. Огородников // Вестник Томского государственного университета. Томск, 2003. - №280. - С. 295-304.

36. Пачес, А.И. Опухоли головы и шеи / А.И. Пачес. М. : Медицина, 2000.-479 с.

37. Педагогическая библиотека Электронный ресурс. Режим доступа : http://www.pedlib.ru/Books/2/0001/2 0001 -12.shtml

38. Потапова, Р.К. Речевое управление роботом / Р.К. Потапова. М. : Радио и связь, 1989. —-.

39. Противораковое общество России Электронный ресурс. Режим доступа : http://www.pror.ru/forms big larynx.shtml

40. Рабинер, P.JI. Теория и применение цифровой обработки сигналов / P.JI. Рабинер, Б. Гоулд М.: Мир, 1978. - 848 с.

41. Рабинер, P.JI. Цифровая обработка речевых сигналов / P.JI. Рабинер, Р.В. Шафер М.: Радио и связь, 1981. - 496 с.

42. Сапожков, М.А. Речевой сигнал в кибернетике и связи / М.А. Сапожков. -М.: Связьиздат, 1963.-450 с.

43. Системы речевого общения Интернет Электронный ресурс. // Университет Информационных Технологий. Режим доступа : http://dev.intuit.rU/department/human/isrob/5/5.html

44. Сорокин, В.Н. Сегментация и распознавание гласных / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. Т.4. - №2. - С. 202220.

45. Сорокин, В.Н. Синтез речи / В.Н. Сорокин. М.: Наука, 1992. - 392 с.

46. Сорокин, В.Н. Теория речеобразования / В.Н. Сорокин. М. : Радио и связь, 1985.-312 с.

47. Тренировка женского голоса. По материалам HeartCorps. Электронный ресурс. Режим доступа : http://www.transvestit.ru/advices/voice2.shtml

48. Фант, Г. Акустическая теория речеобразования / Г. Фант ; пер. с англ. -М.: Связь, 1968.-396 с.

49. Физиология органов дыхания Электронный ресурс. Режим доступа : http://iiuiitsu-karma.narod.ru/psyho-b2.html-------- '

50. Физиология речи. Восприятие речи человеком / Л.А. Чистович и др. -Л.: Наука, 1976.-388 с.

51. Филичева, Т.Б. Основы логопедии : Учеб. пособие для студентов пед. ин-тов по спец. «Педагогика и психология (дошк.)» / Т.Б. Филичева, Н.А. Чевелева, Г.В. Чиркина. М.: Просвещение, 1989. - 223 с.: ил.

52. Фланаган, Д.Л. Анализ, синтез и восприятие речи / Д.Л. Фланаган. М. : Связь, 1968-396 с.: ил.

53. Фониатрия и фонопедия / Л.Б. Дмитриев и др. М. : Медицина, 1990 -134 с.

54. Цемель, Г.И. Автоматическое опознавание речевых сегментов / Г.И. Цемель // VI Всесоюзный семинар Автоматическое распознавание слуховых образов (APCO-VI).-Таллин, 1972-С. 182-189.

55. Akustista fonetiikkaa Электронный ресурс. Режим доступа : http://www.cs.tut.fi/kurssit/SGN-4010/

56. Avanzini F. One-delayed-mass model for efficient synthesis of glottal flow / F. Avanzini, P. Alku, M. Karjalainen // Eurospeech, 2001. №4.

57. Avanzini, F. Efficient numerical modeling of vocal fold mechanics / F. Avanzini // Forum Acusticum, 2002. P.6.

58. Bondarenko, V.P. The automatized rehabilitation of oncological patients with larynx cut out / V.P. Bondarenko, A.U. Kornilov, E.C. Choynzonov,

59. N. Balackaya // Proceedings SPECOM'2005. 10-th International Conference Speech & Computer. Patras, 2005. - P. 707-711.

60. David, R.R. The interaction of glottal-pulse rate and vocal-tract length in judgements of speaker size, sex and age / R.R. David, Smith and Roy D. Patterson.

61. Delyski D.D., Gress C.D. Characteristic of Motor Speech Perfomsnce: Normative Data//American Speech-Language-Hearing Association, 1997.

62. Donaldson, T. Vocal tract resonances: preliminary study of sex differences for young Australians / T. Donaldson, D. Wang, J. Smith, J. Wolfe // Acoustics Australia, 2003. P. 95-98.

63. Glazer, H.S. Diagnostic Imaging of the trachea Электронный ресурс. / H.S. Glazer, MJ. Siegel. Режим доступа : http://medaticles.org/articles/Cumm 122.pdf

64. Gray, H. Anatomy of the Human Body Электронный ресурс. Режим доступа: http://en.wikipedia.org/wiki/Gray'sAnatomy

65. Lewis, J.B. Gender and Language Classification for Voice Scoring System Электронный ресурс. / J.B. Lewis. Режим доступа : http://www.cse.secs.oakland.edu/reu/2003/StudentPages/JenVonetta Webp age/

66. Lucero, J. Simulations of temporal patterns of oral airflow in men and women using a two-mass model of the vocal folds under dynamic control / J.1.cero, L.L. Koenig // Acoustical Society of America, 2005. P. 1362— 1372.

67. Model of vocal folds vibration Электронный ресурс. Режим доступа : http://www.ims.uni-stuttgart.de/phonetik/EGG/pagem 1 .htm

68. Nikos Drakos. Kelly-Lochbaum Vocal Tract Model. University of Leeds Электронный ресурс. / Nikos Drakos. Режим доступа: http://ccrma-www.stanford.edu/~ios/Scattering/KellyLochbaum Vocal Tract Model.html

69. Parris, E.S. Language independent gender identification / E.S. Parris, M.J. Carey //ICASSP, 1996.

70. Parris E.S. Language Identification Using Multiple Knowledge Sources / E.S. Parris, M.J. Carey // Detroit, Proc ICASSP, 1995.

71. Titze, I.R. Model of the Vocal Cords / I.R. Titze // Phonetica 28, 1973. C. 129-170.

72. Tutorials Voice Production Электронный ресурс. - Режим доступа : http://www.ncvs.org/ncvs/tutorials/voiceprod/tutorial/model.html

73. Справка об использова: Программного комплекса «Реабилитацл восстановлению речи после полного удалонаучного, центра СО РАМН эофёссор, Член-корр. РАМН Чойнзонов Е. Л. « 2D» сищ-о/Х . 2007ониионный комплекс по ния гортани РЕАЛОГ»

74. Опытные образцы программного комплекса находятся на медицинской апробации в отделении опухолей головы и шеи НИИ онкологии ТНЦ СО РАМН с 20.11.2000 по 15.С4.2007.

75. Комплекс предназначен для реабилитации пациентов после полного удаления гортани и позволяет: вести базу данных пациентов; вести тренировку пищеводного голоса. Комплекс предназначен для диагнос голосообразования человека у лиц с фари голосом.

76. Комплекс позволил улучшить качество сократить время реабилитационного периода голосообразования.ики нарушении системы нгеальным и пищеводнымречи пациентов, а также по навыку нового способа

77. Коцубинский В.П.; к.т.н., доцент Мещеряковинженер Конев А.А.; инженер Пономарев А.А.; инженер-аспирантпирант Квасов А.Н.; д.м.н., д.б.н. Балацкая Л.Н.;

78. Костюченко Е.Ю.; аспирант Солуянов А.С.; а; профессор, член-корр. РАМН Чойнзонов Е.Л.;

79. В.П. Бондаренко разработал математическую модель слуховой системы человека, послужившей основой для построения реабилитационного комплекса, а также требования к математическому обеспечению комплекса.

80. Р.В.; к.т.н. Корнилов А.Ю.;94,4%), сократить время обучения новому для голосообразования от 2 недель до 2 (двух) месяцев.

81. У 40 пациентов приводилось использование комплекса для'речевой реабилитации в самостоятельном режиме и логопедом.

82. В ходе клинических испытаний было регистрации изменений голосообразования качеством получаемых характеристик, уголосообразования человека, что существенно влияет на повышение качества постановки диагноза заболеваний и улучшения лечения

83. В практическом отношении важно, что логопедом, где помимо анализа речевого сц реабилитационных мероприятий, включая в обучения и протоколирование занятий. На осуровня логопед устанавливает задания на зан.ятия, а также контролирует время реабилитации.

84. Дополнительная информация, которая хранится — это классификатор травмирующих факторов, описание трениров программной среды.

85. Для расширения возможностей комплексе работать над увеличением быстродействия при анализе речи, а также возможности ранней диагностики заболеваний речеобразующего аппарата.

86. Заключение по результатам медицинских испытаний

87. Обеспечивает адекватную позволяет в полном объеме человека. Комплекс легкоIвзаимодеиствия элементовобеспечение пообеспечение по реализации ельному подкреплению в

88. Р.В. Мещеряков сформировал модель математической модели слуховой системы и ^оделью системы обработки речевых сигналов, требования к интерфейсу па диента.

89. А. А. Пономаревым создано программное нерекурсивной фильтрации речевого сигнала.

90. А.Ю. Корниловым создано программное биологической обратной связи и положит реабилитационном комплексе.

91. А.А. Коневым созданы и реализованы алгоритмы цифровой сегментации речевого сигнала.

92. Костюченко Е.Ю. реализовал работу с (разой данных пациентов и ведения истории речевой реабилитации.

93. Солуяновым А.С. создано программное' о фильтрации речевого сигнала.

94. Квасовым А.Н. создано методическое предварительной обработке речевого сигнала

95. Чойнзоновым E.JI. и Балацкой Л.Н. разра!1на основе моделей сравнительного анализа речи, а также требованияреабилитации и проведена клиническая апроба дня комплексаэеспечение по рекурсивнойобеспечение поботана методика голосовой

96. Основным недостатком программного обработка длительных участков ведется в нере.

97. Реабилитационный комплекс по восстано после полного удаления гортани РЕ промышленному выпуску и широкому пр практике.1. Руководитель отделенияопухолей головы и шеи ГУ НИИ онкологии Томского научного центра СО РАМН, д.м.н., профессор, член-корр. РАМН

98. УТВЕРЖДАЮ» &ктор ГУ НИИ онкологии Ш|щщго центра СО РАМН Dp$elc'Qp, член-корр. РАМНв^Ч \J!t • •»- т г и т—» 1-Гшг

Похожие работы

Информатика, вычислительная техника и управление
05.13.00