Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени

Гитлин, Валерий Борисович

Информационно-измерительные и управляющие системы (по отраслям)

автореферат диссертации по приборостроению, метрологии и информационно-измерительным приборам и системам, 05.11.16, диссертация на тему:Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени

доктора технических наук: Гитлин, Валерий Борисович
город: Ижевск
год: 2000
специальность ВАК РФ: 05.11.16

Диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам на тему «Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени»

Автореферат диссертации по теме "Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени"

На правах рукописи ГИТЛИН Валерий Борисов^ ^ ^

; - лен

УДК 621.391.

РАЗРАБОТКА КОНЦЕПЦИИ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА РЕЧИ В ИНФОРМАЦИОННО-ИЗМЕРИТЕЛЬНЫХ СИСТЕМАХ РЕАЛЬНОГО ВРЕМЕНИ

Специальность 05.11Л 6 "Информационно-измерительные системы

(в науке и промышленности)"

Автореферат диссертации на соискание ученой степени доктора технических наук

Ижевск 2000

Работа выполнена в Ижевском государственном техническом университете.

Научный консультант Заслуженный деятель науки

Российской Федерации доктор технических наук, профессор Ю. В. Веркиенко

Официальные оппоненты:

член-корреспондент РАН В.В. Кондратьев (Нижегородский Государственный технический университет)

доктор физико-математических наук, старший научный сотрудник

А. В. Кельманов (Институт математики СО РАН, Новосибирск)

доктор технических наук, профессор И. К. Насыров

(Казанский Государственный Технический Университет)

Ведущая организация Факультет кибернетики

Московского института радиотехники, электроники и автоматики (Технический университет), г. Москва.

Защита состоится _ С^-ьом) 2000 г. В 10-00 часов на заседании

диссертационного совета Д 064.35.01 при Ижевском государственном техническом университете (426069, г. Ижевск, ул. Студенческая, 7).

С диссертацией можно ознакомиться в библиотеке ИжГТУ.

Автореферат разослан ^ 2000 г.

Ученый секретарь диссертационного совета доктор технических наук

профессор В. И. Гольдфарб

Шб-.еХ-о/АгМ О + и и п

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Объектом исследования является информационно-измерительная система речевой технологии.

Предметом исследования являются: информация, переносимая частотой основного тона(ОТ); методы выделения ОТ; средняя частота ОТ как носитель информации об индивидуальности голоса диктора; структура речевого сигнала на периоде ОТ; модели распознавания речи; методы предварительной обработки речевого сигнала; алгоритм выделения частоты ОТ и алгоритм принятия решения "ТОН/НЕ ТОН" на основе предложенной модели распознавания речи и предложенного синхронно с ОТ подхода к измерению параметров речевого сигнала; критерии оценивания качества предварительной фильтрации и критерии оценивания качества выделителей частоты ОТ.

Актуальность темы. Речь есть средство обмена информацией между людьми. В отличие от сигналов, получаемых на выходе технических систем, для речевого сигнала характерна большая вариативность даже при передаче совершенно идентичных сообщений. В отличие от письменной речи акустический речевой сигнал переносит огромное количество дополнительной информации, связанной со смыслом (семантикой) сообщения; с индивидуальностью голоса диктора и его эмоциональным состоянием; с эмоциональной направленностью высказывания, стилем высказывания, типом речевого сообщения (беседа, монолог и т.п.); с окружающей обстановкой, состоянием здоровья голосового аппарата, возрастом диктора, его ростом и весом.

Значительная часть дополнительной информации, содержащейся в устной речи, передается при помощи просодических характеристик речи, в частности, интонационным контуром речи. Интонационный контур высказывания есть траектория изменения мелодии частоты ОТ. Кроме отмеченной функции по передаче дополнительной информации интонационный контур служит основой для объединения отдельных частей высказывания в синтагмы и предложения, входит в состав признаков, определяющих положение синтагмического и фразового ударения, акцентирования слова; будучи зависимым от глобальных характеристик высказывания используется человеком для текущей сегментации непрерывного речевого потока.

Разработанные к настоящему времени методы выделения и измерения параметров речевого сигнала основаны на подходах, используемых при анализе регулярных или случайных сигналов неживой природы, и не учитывают полностью специфику речи как продукта работы живого организма, предназначенного для общения между людьми. Речевой сигнал генерируется при прохождении сигнала голосового или шумового источника через речеобразующий тракт. Источник речевого сигнала имеет четыре основных типа: тональное или голосовое возбуждение, шумовое возбуждение, смешанное возбуждение и взрыв. Различие между звуками, определяемое типом источника, есть признак способа образования.

Голосовой источник может быть представлен в виде пульсирующего воздушного потока. Частота (период) повторения импульсов голосового источника носит название частоты (периода) основного тона. Период ОТ, будучи связан с ходом траектории ОТ произнесения, также зависит и от контекста произнесения. Особенно важно поведение контура ОТ на переходах между фонемами, в частности, на переходах от невокапизированных звуков к вокализированным, поскольку в переходах содержится информация о фонетическом составе произнесения, особенно для взрывных звуков.

Выделение траектории частоты ОТ и ее мгновенных значений, с точки зрения представленной в ней информации, имеет самостоятельный интерес. Необходимо измерять как относительно медленные изменения (мелодию) частоты ОТ, так и быстрые ее изменения, моменты включения и отключения голосового источника. С другой стороны, при построении вокодеров, систем распознавания и синтеза речи частоту ОТ используют как один из основных признаков, необходимых для описания речевого сигнала.

Выделитель частоты ОТ должен быть шумозащищенным, должен быть нечувствителен к линейным и нелинейным искажениям, должен обеспечивать точность выделения частоты ОТ около 2%, сохранять точность при больших пределах изменения частоты ОТ, при смене диктора, при смене условий передачи и т.п., при наличии микровариаций по периоду и амплитуде, должен работать на сигнале непрерывной речи, иметь адекватный детектор вокализации, работать в реальном масштабе времени и иметь минимальную стоимость.

Кроме того, к выделителям ОТ следует предъявить следующие дополнительные требования: 1. Выделитель частоты ОТ должен обеспечить непрерывное слежение за изменениями траектории частоты (периода) ОТ с тем, чтобы быть способным оценивать глобальные характеристики траектории частоты ОТ. 2. Выделитель частоты ОТ должен быть способен оценивать мгновенные значения периода (частоты) ОТ. 3. Выделитель частоты ОТ должен иметь минимальное число настроек на неизвестный речевой сигнал; параметры выделителя частоты ОТ не должны существенным образом сказываться на общий вид траектории частоты ОТ. Время, затрачиваемое на настройку алгоритма на конкретный речевой сигнал, должно быть минимальным, а сам процесс настройки должен быть максимально простым.

Существует большое количество методов выделения частоты ОТ. Такие методы как кепстральный, автокорреляционный, Рабинера - Голда, не способны оценивать мгновенные значения периода ОТ; другие, например пиковый, плохо работают в шумах и на телефонном сигнале. Все рассмотренные методы требуют тщательного подбора параметров для каждой конкретной реализации.

Диссертационная работа, направленная на разработку теоретических предпосылок и алгоритмов решений, позволяющих повысить точность, надежность, и быстродействие методов выделения ОТ, используемых совместно с алгоритмами принятия решения о наличии или отсутствии вокализации в речевом сигнале, представляется актуальной.

Целью работы является разработка теоретических предпосылок и прак-ическая реализация дополненного алгоритмом принятия решения "ТОН / НЕ ГОН" метода выделения ОТ, работающего с непрерывным сигналом в близком ; реальному масштабе времени, оценивающего мгновенные значения периода частоты) ОТ, при наличии аддитивных помех, линейных и нелинейных иска-кений сигнала, причем точность оценки периода ОТ, определяется точностью женок моментов времени, соответствующих моментам возбуждения речевого факта.

Для достижения поставленной цели определены следующие научно-технические задачи:

1. Анализ видов информации, переносимой частотой ОТ; анализ связи между переносимой информацией и частотой ОТ; анализ структуры речевого сигнала как результата работы речевого тракта.

2. Исследование методов выделения ОТ с точки зрения их способности извлекать информацию из траектории частоты ОТ.

3. Анализ возможностей использования средней частоты ОТ в качестве носителя информации об индивидуальности голоса диктора.

4.Анализ структуры речевого сигнала для получения оценки минимальной длительности, характерной для вокализированного звука; анализ методов обработки речи с точки зрения структуры речевого сигнала.

5.Разработка теоретической модели распознавания речи, ориентированной на поиск единичных событий в непрерывном сигнале, расположенных на границах дискретных информационных событий различного уровня иерархии.

6.Исследование методов предобработки речевого сигнала. Разработка количественного критерия оценивания качества предобработки. Исследование и разработка новых методов предобработки, повышающих надежность выделения ОТ.

7. Реализация предложенной теоретической модели и предложенных подходов в виде алгоритма выделения частоты ОТ и алгоритма принятая решения "ТОН/НЕ ТОН".

8. Разработка обобщенного критерия оценивания качества выделителей частоты ОТ; определение параметров разработанного алгоритма, подлежащих настройке при выделении ОТ; проведение сопоставительных испытаний предложенного метода с известными методами выделения частоты ОТ.

Метод исследования опирается на использование понятий технической кибернетики, теории речеобразования, физиологии восприятия речи, теории распознавания образов, теории связи и управления, теории цифровой обработки сигналов, математической статистики. В работе используются методические подходы и методы математического анализа указанных выше дисциплин.

На защиту выносятся:

1. Законы распределений средних частот ОТ обобщенной группы дикторов и индивидуальные распределения средних частот ОТ.

2. Использование периода основного тона в качестве минимальной дли тельности постоянства параметров речевого сигнала. Предпочтительность син хронного с ОТ анализа речевого сигнала.

3. Модель распознавания речи, ориентированная на первоначальный по иск границ дискретных единиц информации в непрерывном сигнале речи.

4. Методика аппроксимации функций вида вес^х) и зесЬ2(х).

5. Критерий выбора метода предобработки.

6. Методы сглаживания сигнала на этапе предобработки, включая сгла живание всплесковым окном.

7. Предельное ограничение сигнала на этапе предобработки для сигнала ограниченным спектром.

8. Алгоритм выделения частоты ОТ.

9. Алгоритм принятия решения "ТОН/НЕ ТОН" синхронно с основньц тоном. Повышение надежности принятия решения "ТОН/НЕ ТОН" путем дс бавления шума к сигналу.

10. Обобщенный критерий оценивания качества работы выделителя час тоты ОТ.

Научная новизна. В диссертационной работе получены следующие не вые научные результаты.

1. Диссертация есть первая научная работа, в которой исследованы прс блемы построения систем выделения частоты ОТ с использованием обеспеч! вающей принятие решения функции, , вид которой зависит от предполагаемо структуры сигнала и ориентирован на поиск единичных событий в сигнале, кс торые расположены на границах периодов ОТ. Экспериментально доказано, чч указанный подход позволяет повысить надежность выделения основного тон расширить диапазон допустимых искажений сигнала, снизить объем вычисли ний и время, необходимое для выделения основного тона.

2. Представлены результаты по изучению частоты ОТ как носителя ю формации. Показано, что основной тон, служащий одним из параметров проа дики речи, переносит значительный объем информации о глобальных характ ристиках речевого сообщения, используется человеком для сегментации реч вого потока в процессе восприятия речи, связан с контекстом произнесени Основной тон есть существенное отличие устной речи от письменной. Для и влечения полного объема информации, передаваемой контуром ОТ, необход: мо оценивать мгновенные значения периода ОТ, моменты начал и окончат вокализации, связанных с моментами начал и окончаний периодов ОТ.

3. Проведена классификация методов предварительной обработки речев го сигнала и методов выделения ОТ. Получена оценка их способности извл кать информацию, переносимую контуром частоты ОТ. Методы, основанные 1 спектральном анализе и методы, использующие корреляционные функции, 1 могут определить момент начала периода ОТ. Для синхронного с ОТ анапи речи необходимо использовать методы выделения ОТ, основанные на анали временной функции сигнала и имеющие высокое разрешение во времени.

4. Исследована способность средней частоты ОТ быть носителем информации об индивидуальности голоса диктора. Показано, что средняя частота ОТ сильно коррелирована с индивидуальностью голоса диктора. Однако она не может быть использована в качестве единственного признака индивидуальности голоса диктора.

5. Выполнен анализ структуры речевого сигнала внутри периода ОТ. Показано, что структура сигнала на интервале закрытых голосовых связок отлична от структуры сигнала на интервале открытых голосовых связок. Раздельный анализ интервалов открытых и закрытых голосовых связок может быть выполнен только синхронно с ОТ. В качестве минимального по длительности интервала с постоянными параметрами речевого тракта, включая тип возбуждения, на вокализированных интервалах речи может быть принят период ОТ.

6. Предложена теоретическая модель построения систем распознавания речи, основанная на нисходящем распознавании и ориентированная на выделение единичных событий, расположенных на границах дискретных единиц информации различного уровня иерархии.

Т. Разработан алгоритм выделения ОТ, основанный на предложенной модели распознавания речи. Реализация алгоритма доказывает возможность применения предложенной теоретической модели, позволяющей повысить надежность, снизить вычислительные затраты и уменьшить время при решении задач распознавания.

8. Обоснован синхронный с ОТ анализ речи, на основе которого разработан алгоритм принятия решения Т/НТ, синхронный с ОТ. Синхронное с ОТ принятия решения Т/НТ повышает надежность оценивания наличия и отсутствия вокализации в речевом сигнале и существенно снижает время принятия решения.

9. Предложен количественный критерий оценивания качества предварительной обработки, основанный на измерении дисперсии задержки сигнала после предварительной обработки. Критерий позволяет количественно оценить качество предварительной обработки и, тем самым, выбрать параметры фильтров предварительной обработки.

10. Разработаны новые методы предварительной обработки речевого сигнала путем сглаживания сигнала всплесковым окном. Предложена форма всплескового окна. Выполнен сопоставительный анализ ряда методов предварительной обработки. Показано, что среди сравниваемых типов окон предложенная форма всплескового окна обеспечивает минимальную дисперсию задержки. В ряде случаев, например при обработке сигнала, ограниченного полосой телефонного канала, дисперсию задержки можно снизить при помощи операции предельного ограничения. Даны рекомендации по выбору параметров фильтров и параметров сглаживающих окон на основе критерия минимума дисперсии задержки.

11. Разработан комплекс алгоритмов по выделению ОТ по предложенному методу выделения основного тона совместно с синхронным с ОТ принятием

решения Т/НТ. Алгоритм обеспечивает адаптацию функции, обеспечивающей принятие решения, к текущему значению периода ОТ и коррекцию одиночных ошибок принятия решения Т/НТ. Алгоритм способен работать с непрерывным сигналом речи в реальном масштабе времени.

12. Предложен критерий оценивания качества работы алгоритма выделителей ОТ в виде обобщенной ошибки. Получена оценка параметров алгоритма, обеспечивающих минимизацию обобщенной ошибки выделения ОТ. Выполнен сопоставительный анализ предложенного алгоритма выделения ОТ с известными алгоритмами.

Достоверность предложенных теоретических положений доказана построением алгоритмов на их основе; формулированием конкретных рекомендаций по выбору вида предварительной обработки и по выбору параметров алгоритма; подтверждена экспериментальными результатами, включая сопоставительные эксперименты с известными методами выделения ОТ; применением предложенных теоретических положений к системам идентификации диктора и к системам технической диагностики.

Практическая ценность результатов работы состоит в том, что предложенные теоретические подходы реализованы в виде алгоритмов, которые обеспечили выделение ОТ и принятие решения Т/НТ с надежностью, в общем случае превышающей надежность работы известных методов выделения ОТ. Предложенный алгоритм выделения ОТ совместно с алгоритмом принятия решения Т/НТ работает с сигналами, с аддитивным шумом при малых соотношениях сигнал/шум, с сигналами, полоса которых ограничена полосой телефонного канала, и с предельно ограниченными по амплитуде сигналами. Предложенные подходы обеспечивают работу разработанных алгоритмов в масштабе времени меньше реального при минимальном числе настроек и регулировок, в том числе, для непрерывного сигнала речи. Предложенные теоретические подходы позволили разработать алгоритмы и программы анализа сигналов в задачах технической диагностики, используемых на производстве и в учебном процессе.

Реализация результатов работы. Разработанные в ходе выполнения работы подходы, программы и алгоритмы использованы в автоматизированной системе идентификации лиц по фонограммам русской речи, применяемой в ходе выполнения криминалистических экспертиз криминалистами-экспертами России. Отдельные научные и практические результаты внедрены в научно-производственной фирме "Центр речевых технологий" г. С.-Петербург, в ИИС на ДО АО "Ижевский оружейный завод", ОАО "Вятско Полянский машиностроительный завод "Молот", в научно-техническом центре "Вычислительная техника", в учебной и научной работе на кафедре ВТ ИжГТУ.

Апробация работы. Основные положения работы докладывались на XI международном конгрессе фонетических наук (XI ГСРЬБ), г. Таллин, 1987; на Всероссийской с международным участием конференции "Распознавание образов и анализ изображений" (РОАИ-98), г. Новосибирск, 1998; на научно-технической с международным участием конференции "Информационные тех-

юлогии в инновационных проектах", г. Ижевск, 2000; на IX сессии Российского жустического общества, г. Москва, 1999; на X (г. Минск, 1976), XI (г. Тбилиси, 1978), XII (г. Ереван, 1980), XIII (г. Новосибирск, 1984), XIV (г. Каунас, 1986) и XVI (г. Москва, 1991) Всесоюзных школах-семинарах по автоматическому распознаванию слуховых образов (АРСО); на Всесоюзном симпозиуме "Речь, эмоции и личность", г. Ленинград, 1978; на Всероссийской научно-методической конференции, г. Ижевск, 1997; на семинарах научно-молодежной школы "ИИС на базе наукоемких технологий по отраслевой целевой программе "Интеграция" в 1997- 1999 годах. Результаты работы обсуждались на научных семинарах и конференциях Ижевского государственного технического университета.

Публикации. По теме диссертации опубликованы в печати 64 работа и более 10 научно-технических отчетов по научно-исследовательским работам.

Структура и объем работы. Диссертационная работа состоит из введения, семи глав, заключения и приложений. Основной текст изложен на 302 страницах с 85 иллюстрациями. Список литературы включает 430 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность, сформулированы цель и задачи исследований, дана общая характеристика работы. Кратко изложено содержание работы, отражены основные положения, имеющие научную новизну и практическую ценность.

В первой главе диссертации дан обзор работ, посвященных вопросам ре-чеобразования и восприятия частоты ОТ. Выполнен анализ структуры речевого сигнала на основе известных особенностей работы речевого тракта. Представлены данные по статистике частоты ОТ. Проанализирована переносимая частотой ОТ информация. Приведены результаты исследований по просодическим характеристикам частоты ОТ и роли интонации для сегментации непрерывного потока речи. Дан обзор методов выделения частоты ОТ, методов принятия решения "ТОН / НЕ ТОН" и их классификация.

Показано, что речевой тракт характеризуется быстрыми изменениями речевых параметров и доминированием нестационарных акустических процессов. Взаимодействие источник - тракт во время фонации звонких звуков и гласных значительно и нелинейно. Наиболее сильно период ОТ изменяется в начале вокализации. Просодические характеристики можно разделить на "функциональные" и "собственные". К функциональным просодическим характеристикам относят признаки синтагмической и фразовой интонации, слогового, синтагмического и фразового ударения, акцентирования слова и т.д.; к собственным - свойства, определяемые контекстом фонем, коартикуляцией фонем, состоянием голосового аппарата и т.п. Информация, содержащаяся в контуре ОТ, находит свое отражение как в значениях мгновенных частот ОТ на коротких интервалах времени, особенно в начале вокализации, после пауз, на грани-

цах синтаксических единиц, так и в относительно медленных изменениях мелодии ОТ, носящих глобальный характер.

Для извлечения максимально возможного количества информации из траектории частоты ОТ с целью дальнейшего использования в ИИС выделители ОТ должны оценивать мгновенные значения частоты (периода) ОТ, моменты начала и окончания вокализации. Эти данные позволяют получить большую часть параметров контура ОТ, необходимых для дальнейшего использования в ИИС. Под мгновенными значениями Т0 периода ОТ понимается значение длительности конкретного периода ОТ, равной расстоянию между двумя последовательными моментами возбуждения речевого тракта. Мгновенная частота ОТ Fo есть величина, обратная Т0: Fo = 1 / То.

Методы выделения ОТ разделяют на временные и спектральные. Спектральные методы и временные методы на основе автокорреляционного анализа речи не обеспечивают получение оценки мгновенных значений частоты ОТ. Пиковые методы выделения ОТ определяют положение максимума временной функции сигнала, соответствующего моменту возбуждения речевого тракта, что позволяет использовать синхронные с ОТ методы анализа речи. Пиковые методы измеряют значения длительности мгновенных периодов ОТ, они имеют принципиальную возможность работы на переходных участках контура ОТ. Наличие ложных импульсов возбуждения внутри периода ОТ и пропадание некоторых основных ипульсов возбуждения существенно снижает надежность работы пиковых методов.

Во второй главе диссертации представлены результаты испытаний по оцениванию средней частоты ОТ как признака индивидуальности голоса. В испытаниях участвовало 150 дикторов: 78 мужчин и 72 женщины. Возраст дикторов колебался от 18 до 40 лет. Запись речевого материала выполнена в звукоизолированной кабине. Дикторам предлагали произносить фонемы с обычной для них громкостью. Среднее время между двумя произнесениями составляло 4...5 с, среднее время произнесения одной фонемы - 0,7...1,0 с. Каждый диктор участвовал в нескольких сеансах испытаний (пять или более), проводимых с нерегулярными промежутками времени в течение пяти месяцев. В каждом сеансе испытаний диктор произносил фонему Ы 20 раз.

Получены обобщенные распределения средней частоты ОТ для мужских (ftvi(F)) и женских (fp(F)) голосов, участвовавших в эксперименте :

где Р - частота ОТ. Из формул (1) и (2) следует, что обобщенные распределения средней частоты ОТ для мужских и женских голосов соответствуют логарифмически нормальному закону. Вероятность классификации мужского голоса как

О)

женского на основе критерия максимального правдоподобия с порогом Ро = 205 Гц составляет 0,9 %, вероятность классификации женского голоса как мужского - 0,6 %. Следовательно, средняя частота ОТ переносит информацию о поле диктора и может быть использована в качестве признака для разделения голосов на мужские и женские с достаточно высокой степенью надежности.

Индивидуальные распределения средних частот ОТ в общем случае подчинялись нормальному закону распределения. Оценивание возможности верификации диктора по средней частоте ОТ показывает, что вероятность ложного пропуска и ложной тревоги составляет величину примерно 7...13 %. Можно сделать заключение, что средняя частота ОТ изолированных гласных не обеспечивает достаточной для практики надежности верификации диктора по значениям отсчетов этой частоты. Следует использовать дополнительные признаки, содержащиеся в контуре частоты ОТ, в частности, поведение траектории частоты ОТ, связанное с конкретным контекстом произнесения.

В третьей главе представлены результаты исследований структуры речевого сигнала на периоде ОТ. Анализ соотношений импедансов голосовой щели и входного сопротивления речевого тракта показывает: 1. Увеличение площади раскрытия голосовой щели приводит к почти линейному повышению частот формант. 2. Диапазон изменения частоты форманты в зависимости от вел1гчины подсвязочного давления снижается с ростом номера форманты. 3. С увеличением площади раскрытия голосовой щели ширина полосы форман-

изменение величины полосы формант имеет тенденцию возрастать для низких формант. 5. Относительные изменения ширины полосы формант значительно превышают относительные изменения частот формант. Следует признать, что взаимодействие голосового источника и речевого тракта существенно ; нелинейно. Параметры речевого сигнала существенно отличны на интервалах открытых и закрытых голосовых связок.

При экспериментальном исследовании спектров на интервалах сомкнутых и разомкнутых голосовых связок возникают проблемы, связанные с малой длительностью этих интервалов. Для получения достаточно высокой разрешающей способности по частоте использована автокорреляционная модель линейного предсказания. На рис. 1 приведены примеры огибающих спектров, вычисленных на интервалах сомкнутых (ИС) голосовых связок, разомкнутых (ИР) голосовых связок и на периоде ОТ (ОТ) для фонемы /и/ из слова "электричество"; диктор мужчина. Видно, что

ты возрастает почти линейно. 4. Абсолютное

спектры на интервалах ИС, ИР и ОТ отличаются как по положению формант, так и по их ширине и числу. При этом спектр на интервале ИР ближе к спектру на интервале ОТ, чем к спектру на интервале ИС.

Теоретическое рассмотрение и экспериментальные результаты, посвященные вопросам взаимодействия речевого тракта и источника позволяют сделать следующие выводы: 1. Влияние подглоточных областей на речевой тракт в момент открывания голосовых связок мЬжет существенным образом изменять форму акустических колебаний в речеобразующем тракте. Степень влияния зависит от площади раскрытия голосовой щели и от параметров голосового источника и речевого тракта, в частности, от соотношения частот ОТ и первой форманты. Процесс существенно нелинеен, не может рассматриваться как стационарный, что является характерным признаком живой речи. 2. Интенсивное нарастание колебаний в момент схлопывания голосовых связок служит признаком начала нового периода ОТ. Исчезновение колебаний, особенно колебаний высокочастотных формант, свидетельствует о переходе к конечному интервалу периода ОТ. 3. В первом приближении спектр, измеренный на периоде ОТ, может рассматриваться как оценка спектра на интервале сомкнутых голосовых связок. Следовательно, временная функция речевого сигнала, соответствующая периоду ОТ, может быть выбрана в качестве минимальной длительности, характерной для вокализированного звука.

В четвертой главе предложена теоретическая модель выделителя основного тона на основе генерации функции, обеспечивающей принятие решения, вид которой зависит от предполагаемой структуры сигнала и ориентирован на поиск единичных событий в сигнале, расположеных на границах периодов ОТ. Дано общее описание алгоритма выделения частоты ОТ на основе предложенной модели. Определены общие требования к методу выделения частоты ОТ на основе предложенной модели.

Н. Г. Загоруйко предложил модель "восходящего" распознавания, в которой всякое распознающее устройство состоит из блока измерения параметров (рецептора Р), блока принятия решений (классификатора К) и блока исполнительных устройств (эффектора Э). Рецептор, классификатор и эффектор первой ступени формируют пространство вторичных признаков, которые поступают на распознающее устройство второй ступени, также состоящее из указанных блоков и работающее в пространстве вторичных признаков. Количество ступеней может быть различным и определяется спецификой задачи.

Согласно гипотезе, предложенной В. Б. Касевичем и его коллегами, восходящему восприятию можно противопоставить "нисходящее" восприятие. Нисходящая модель распознавания речи предполагает иерархическое построение и поиск, начиная с верхних уровней иерархии - к нижним. На каждом уровне иерархии возможны уточнение характеристик выделенной иерархической единицы, последующая сегментация этой иерархической единицы и переход к более низким уровням иерархии. При этом на первое место выходит поиск особенностей речевого сигнала, определяющих окончание одного и начало еле-

дующего информационного события в речевом сообщении. Другими словами, возникает необходимость в разработке методов анализа сигнала, направленных на поиск единичных событий, расположенных на границах информационных единиц одного уровня иерархии. Выделенные единичные события служат маркерами этих границ. В ходе последующего анализа возможно получение оценок параметров сигнала, расположенного между этими границами, в том числе оценок характерных признаков и характеристик, позволяющих отнести его к той или иной информационной единице. Простановка границ информационных единиц на непрерывном сигнале с последующим анализом характеристик сигнала внутри этих границ позволяет устранить противоречие между непрерывной природой сигнала, носителя информации, и дискретным характером представления самой информации.

В физике известен сигнал, называемый солитоном (soliton - уединенная волна), который сочетает в себе свойства непрерывности и корпускулярности. Солитон представляет из себя локальный бегущий волновой импульс или компактную когерентную группу волн. Огибающая солитона имеет вид гиперболического секанса sech(x) или квадрата гиперболического секанса sech2(x). Учитывая свойства непрерывности и корпускулярности, присущие солитону, нами предложено понятие генерируемого или искусственного солитона (Generated Soliton (GS)). GS-сигнал есть сигнал, начало и окончание которого каким-либо образом отмечены в непрерывном сигнале. Наличие информации о начале и окончании GS-сигнала позволяет определить его положение в пространстве непрерывного сигнала. GS-сигнал верхнего уровня иерархии может состоять из некоторого количества GS-сигналов более низкого уровня иерархии. Каждый GS-сигнал нижнего уровня иерархии имеет границы начала и окончания, расположенные в пределах GS-сигнала верхнего уровня иерархии так, что окончание последнего GS-сигнала нижнего уровня иерархии совпадает с окончанием GS-сигнала верхнего уровня иерархии. Предлагаемое понятие о генерируемом солитоне соответствует рассмотренной нисходящей модели распознавания речи.

Остановимся на поведении речевого акустического сигнала на контуре основного тона. Характер акустического сигнала в начале и в конце периода ОТ резко отличается. После схлопывания голосовых складок возбуждаются собственные колебания. После открывания голосовых складок собственные колебания речевого тракта затухают, появляются новые колебательные процессы, определяемые резонансами подглоточной области. Акустический сигнал с измененной формой на интервале разомкнутых голосовых складок служит признаком окончания периода ОТ. Следовательно, акустический сигнал, ограниченный периодом основного тона, можно рассматривать как GS-сигнал.

В качестве огибающей GS-сигнала при поиске границ периодов ОТ взята функция sech(x) = 2/(е'х + еч). Наличие суммы экспонент в знаменателе гиперболического секанса существенно затрудняет последующий анализ сигнала при

--зссВД

----2е.х

-----е-№

умножении его на функцию гиперболического секанса. Предложена аппроксимация функции зесЬ(х) функциями вида 2ехр(-1 х!) и ехр(-х2/2). Показано, что

е~х1г<ъескх<2ех . (3)

Аналогично, для функции зесЬ2(х):

е'*1 кгх<4е'2х (4)

Графики функций зесЬ(х), 2ехр(-1 х |) и ехр(-х2/2) показаны на рис.2, где через 2е-х обозначена функция 2ехр(-1 х |), а через e-w - функция ехр(-х2/2). Анализ показывает, что при х < 1,15 предпочтительней аппроксимация с помощью ехр(-х2/2), при х > 1.15 - с помощью 2ехр(-1 х |).

На основе выводов главы 1 среди методов выделения ОТ следует отдать предпочтение пиковым методам. К недостаткам пиковых методов следует отнести: наличие ошибок, причиной которых служат: 1) нестационарность речевого сигнала, особенно в моменты нарастания и спада интенсивности на переходах между фонемами; 2) формант-ная структура речевого сигнала; 3) добавочные возбуждения на периоде ОТ; 4) неадекватность линейной модели, используемой при построении выделителей ОТ, реальному речевому сигналу; 5) аддитивный шум помех.

Понятие о генерируемом солитоне позволяет в существенной мере подавить влияние мешающих факторов, присущих пиковым методам. Для поиска момента нового возбуждения необходимо найти момент окончания предшествующего периода ОТ и начало следующего. При этом изменения формы сигнала внутри периода ОТ существенного значения не имеют. Для реализации указанного подхода на основе представления о генерируемом солитоне предложен метод выделения ОТ, названный методом 08.

Основная идея метода состоит в том, что после простановки марки в начале текущего периода ОТ выполняют поиск начала последующего периода ОТ с использованием функции $еск от. Конкретную форму сигнала между марками не. рассматривают. Структурная схема алгоритма выделения ОТ по методу вБ показана на рис.3. Процесс выделения ОТ по предлагаемому методу поясняется на диаграмме рис.4.

— о — м

Рис. 2

Для огибающей сигнала GS используют аппроксимацию _/} = 2 exp(at). Выполняя операцию логарифмирования над/;, получим функцию g(t), линейно зависящую от времени:

g(0 = loga {2 ехр[-сг(t -10 )]} = loga 2 -<r(t-t0) logae, или, в дискретном варианте, полагая t = пТ, получим

G(n) = A-B(n-N0),

Tomin S

G (n) > pfn)

(5)

где С(п) - функция, обеспечивающая принятие решения о появлении нового периода ОТ, А = 1ода2 - константа, Т - период опроса, В = стТ ^ае - коэффициент наклона, Мк - номер начала отсчета периода ОТ. При п < N0 функция О(п) имеет положительный наклон, при п > N0 - отрицательный. Наличие положительного наклона говорит о том, что функция О(п) может быть получена только путем генерации этого сигнала. Данное положение является существенным отличием предполагаемого подхода от существующих методов анализа исходной информации, применяемых в системах распознавания образов. Отметим, что выполнение операции логарифмирования позволяет упростить последующий процесс принятия решений, поскольку в ходе выполнения алгоритма упрощается процесс генерации и адаптации линейной функции С(п) к текущему периоду ОТ.

Plie. 3.

Положительные значения сигнала sf(n) логарифмируют. Операция логарифмирования одновременно обеспечивает нормализацию сигнала по амплитуде. Первый максимум логарифма р(п) принимают в качестве первой марки периода ОТ. В качестве начального условия задают начальное значение периода ОТ То0. В качестве То0 может быть взято среднее значение периода ОТ диктора. Время генерации нарастающей части функции G(n) ТбЛ вычисляют по формуле

Тбл = QTo , (6)

где Q - коэффициент, меньший единицы и определяющий какую долю от периода основного тона должно составлять время блокировки ТбЛ-

В течение генерации нарастающей части G(n), поиск нового момента возбуждения речевого тракта не производят, решение о возможности нового возбуждения блокируют. Затем оценивают положение и значение максимума функции G(n) из формулы:

Bt= Мк. + Тблк , (7)

где Вк - положение максимума Gmax10 в дискретных отсчетах времени n, Мк -временная марка начала к - го периода ОТ, и определяют значение G !Пахк :

G пихк = Ак + D , (8)

где Ак - значение максимума сигнала, соответствующего марке Mk; D - абсолютное значение приращения относительно максимума спадающего сигнала Ак, обеспечивающее надежное выделение последующего основного максимума исходного сигнала. Значение приращения D определяют исходя из статистики речевого сигнала на этапе предварительных экспериментов. В настоящей реализации алгоритма в процессе выделения контура ОТ значение D оставалось неизменным.

Наклон на участке Т6лк при предположении линейного нарастания сигнала от Ак до G тахк равен

Rk = D/Ttak, (9)

Наклон понижающейся части G(n) вычисляют как

Lk = RkAs, (10)

где As - коэффициент асимметрии, определяемый на основе статистики параметров речевого сигнала в ходе предварительных экспериментов. Генерируют спадающую часть G(n) до пересечения с р(п) и определяют положение следующего максимума р(п). На рис.4 точка пересечения обозначена как С к, следующий максимум - как А k+ь ему соответствует марка Mk+i, которая определяет окончание k-го периода и начало (к + 1) - го периода ОТ. По разности

Рис. 4.

Мк+1-Мк = Т0к (11)

вычисляют значение длительности к - го периода ОТ.

На последующих этапах обновляют значение То, используемое в формуле (6), если Ток не выходит за допустимые пределы изменения периода ОТ. В противном случае То оставляют без изменения. Далее переходят к повторению цикла оценивания нового периода ОТ.

В пятой главе рассмотрены методы предварительной обработки (предобработки) речевого сигнала. Предложен теоретический критерий оценивания качества предобработки. Приведены результаты исследований методов предобработки с использованием фильтров нижних частот и сглаживающих окон. Даны рекомендации по выбору фильтров предобработки и сглаживающих окон.

Назначение предобработки состоит в формировании сигнала, обеспечивающего повышение надежности выделения ОТ по сравнению с необработанным сигналом. Специфика алгоритмов предобработки определяется последующим алгоритмом выделения ОТ и видом сигнала, поступающего на предобработку. Алгоритм ОБ выделения ОТ упрощает задачу построения блока предобработки, так как игнорирует поведение сигнала внутри предполагаемого периода ОТ. Однако этот метод предъявляет ряд требований к форме основного лепестка речевого сигнала, соответствующего моменту возбуждения речевого тракта : 1) основной лепесток должен: иметь амплитуду, превышающую функцию в(п) в момент предполагаемого возбуждения речевого тракта. 2) форма основного лепестка должна быть гладкой без добавочных максимумов на фронте основного лепестка и на его вершине.

Рассмотрим, например, предобработку в виде низкочастотной фильтрации на основе фильтра нижних частот (ФНЧ). Уменьшение частоты среза ФНЧ повышает гладкость отфильтрованного сигнала. Одновременно снижается разрешающая способность фильтра по времени и ухудшается передача сигнала в моменты быстрых его изменений. Повышение частоты среза увеличивает изрезанность сигнала и повышает вероятность ошибки при использовании метода ОБ.

Для определения количественной оценки влияния частоты среза фильтра на качество предобработки в работе предложено использовать дисперсию за-

держки сигнала на выходе фильтра относительно входного сигнала. Средняя величина задержки зависит от фазочастотной характеристики фильтра и может быть учтена в алгоритме. На рис.5 показаны зависимости средней задержки и с.к.о. задержки в зависимости от частоты среза ФНЧ, выполненного в виде фильтра Баттерворта восьмого порядка. Значения задержек и с.к.о. задержек оценены методом ОБ.

Зависимость с.к.о. задержки от £с имеет ярко выраженный минимум в диапазоне частот среза ФНЧ 1000...1500 Гц. При & < 600 Гц и £ > 1500 Гц величина с.к.о. резко возрастает. Следовательно качестве фильтра предобработки нецелесообразно выбирать ФНЧ с {с < 600 Гц. Оптимальным ФНЧ является ФНЧ с £ , расположенной в диапазоне 1000...1500 Гц.

КИХ-фильтр позволяет построить фильтр с линейной фазой, что существенно с точки зрения минимизации фазовых искажений. Для подчеркивания составляющей ОТ, входной сигнал предварительно детектировали путем подачи на фильтр только положительных значений сигнала. Эта процедура применена во всех экспериментах с использованием КИХ-фильтров. Рассматривая импульсную характеристику КИХ-фильтра как некоторое временное окно и учитывая ее симметрию, процесс фильтрации КИХ-фильтром продетектированно-го сигнала можно рассматривать как процесс сглаживания сигнала соответствующим временным окном.

Параметры окон подбирали так, чтобы ширина импульсной характеристики КИХ-фильтра соответствовала среднему периоду ОТ ТаУ. Исследованы следующие типы окон: экспоненциальное окно; треугольное окно без смещения; треугольное окно, симметрично расположенное относительно оси абсцисс так, что площадь, ограниченная окном над осью, равна площади, ограниченной окном под осью; многовсплесковое треугольное окно, убывающее по экспоненте, ширина каждого всплеска равна Та,, число всплесков нечетно и равно И; синусное окно; окно гиперболического секанса и всплесковое окно.

В качестве всплескового окна предложено окно с огибающей в виде экспоненты с квадратичным показателем:

= (1-е 2 ¿у*2'2, (12)

где с и с - искомые параметры окна. Показано, что с и сг могут быть определены через требуемую полосу пропускания КИХ-фильтра как

И16АЛ (13)

о- = 1,1313Д/.

График временной функции всплескового окна имеет вид, показанный на рис.6а. Спектр всплескового окна с учетом соотношения (13):

Игу а) = | ^1)е-'<0,Л = | {\-сг12)е-°2'2-1&'Л = ^х2е~х2 , (14)

-СО -00 ^

где х = со/(2о) - нормированная угловая частота. Вид спектра, рассчитанного по формуле (14) показан на рис.66.

а)

1.0,

А /

б)

0.5 ^ 0.4 I 0,3 Й 0.2 3 о, 0.0

п -г » о1 (

:> О ч- С4« *

НОРМИР4ШОИНЧЯ «ЕЮТ1

Рис. б.

Сглаживание чистого сигнала вспле-сковыми окнами с полосой пропускания большей 400 Гц позволяет получить сигнал с подавленной постоянной составляющей, < имеющий минимальные значения с.к.о. задержек, меньшие или равные минимальным с.к.о. задержек ФНЧ с полосой пропускания 1500 Гц и с с.к.о. задержек при сглаживании сигнала окном гиперболического секанса. При обработке смеси сигнала с аддитивным шумом сглаживание всплесковыми окнами по критерию минимума с.к.о. предпочтительнее чем фильтрация ФНЧ, в том числе ФНЧ с пониженной до 800 Гц полосой пропускания. Сглаживание клиппированного сигнала всплесковыми окнами позволяет восстановить информацию об ОТ, причем с.к.о. задержек сглаживания всплесковыми окнами с полосой пропускания, большей 400 Гц, в два раза меньше с.к.о. после фильтрации ФНЧ с полосой пропускания 1500 Гц. Сглаживание сигнала, ограниченного полосой телефонного канала, дает большое количество сбоев, особенно на интервалах с резким изменением интенсивности сигнала. Причиной появления сбоев в телефонном канале служит эффект наложения, когда длительность импульсной характеристики фильтра телефонного канала превышает длительность периода ОТ обрабатываемого сигнала. Подавить влияние эффекта наложения можно путем клиппирования сигнала, ограниченного полосой телефонного канала. Последующее сглаживание необходимо выполнять окном с шириной полосы пропускания не меньшей 400 Гц.

Шестая глава посвящена описанию разработанного алгоритма выделения частоты ОТ, включая описание алгоритма принятия решения "ТОН/НЕ ТОН" и алгоритма адаптации функции, обеспечивающей принятие решения, к текущим значениям периода ОТ.

Решение "ТОН'7"НЕ ТОН" (Т/НТ) есть существенная часть алгоритма выделения ОТ, позволяющая отделить невокализированные интервалы речевого сигнала, где выделение ОТ бессмысленно. Алгоритм принятия решения (Т/НТ), будучи использован совместно с конкретным алгоритмом выделения ОТ, должен учитывать особенности этого алгоритма. В главе 3 показано, что за минимальную длительность интервала, сохраняющего статистические свойства сигнала, можно принять период ОТ. Из этого следует, что решение Т/НТ необходимо принимать синхронно с ОТ с дискретностью, равной периоду ОТ.

Экспериментальная проверка точности принятия решения Т/НТ синхронно и асинхронно с ОТ показывает, что синхронное с ОТ принятие решения Т/НТ по сравнению с асинхронным методом снижает ошибку неверной классификации с 5,0 % до 2.4 % для чистого сигнала, с 7,4 % до 5.0 % для сигнала,

ограниченного полосой телефонного канала и с 11,8 % до 7,1 % для сигнала с аддитивным шумом при соотношении сигнал/шум 20 дБ.

Синхронное с ОТ принятие решения Т/НТ ограничивает набор признаков теми признаками, которые могут быть вычислены на периоде ОТ. Требование реализации алгоритма в реальном масштабе времени дополнительно вносит ограничения на сложность вычислительного процесса при оценивании признаков. В алгоритме принятия решения Т/НТ, используемом в настоящей работе, решено ограничиться тремя признаками: 1) логарифм энергии низкочастотной части спектра (log Elf ), 2) значение автокорреляционной функции.при единичной задержке (Ri) и 3) логарифм частоты пересечений сигналом нулевого уровня (ZCF).

Эксперименты показывают, что признаки R) и ZCF разделяют вокализированные звуки от невокализированных шумных звуков. Однако, на участках пауз, соответствующих смычкам взрывных звуков, принятие решения Т/НТ по Ri и ZCF дает большое количество сбоев. Причиной ошибок служит изменчивость спектра пауз, который подвержен сильному влиянию аддитивного фонового шума. Для повышения надежности принятия решения Т/НТ по Ri и ZCF предложено добавлять шум к сигналу. В качестве добавляемого шума использована первая разность отсчетов белого шума, генерируемого стандартными функциями матобеспечения ЭВМ и имеющая подъем спектра 6 дБ/окт.

Большие значения Elf и Rt свидетельствуют в пользу гипотезы о наличии вокализации. Рост ZCF, напротив, свидетельствует о росте вероятности отсутствия вокализации. Для совместного использования указанных признаков подсчитывали обобщенный признак G, определяемый как

K3\og(NCF) ' К '

где Ki, К2, К3 - нормирующие коэффициенты. Использование обобщенного признака G позволило снизить вероятность ошибки принятия решения Т/НТ и снизить требования к точности установки порога при разделении классов "ТОН" и "НЕ ТОН". В зависимости от величины G область принятия решения Т/НТ разделили на четыре подобласти:

G^g2, rtg= 2, gz>G>gx, rtg = 1, 'gl>G>g0, rtg = 0, G<g0, rtg=-1,

где go, gb g2 - экспериментально установленные пороги; rtg - рейтинговые коэффициенты: rtg = 2 - "уверенно "ТОН", rtg = 1 - "ТОН", rtg = 0 - "неуверенно "ТОН", rtg = -1 - "уверенно "НЕ ТОН". Значения G > g2 и G < go позволяют принимать уверенное решение "ТОН" и "НЕ ТОН", соответственно. Значения g0 < G < g2 есть зона неуверенного принятия решения Т/НТ. Уточнение решения Т/НТ в настоящем алгоритме производят на этапе постобработки путем учета

информации о значениях ОТ соседних периодов и длительности интервалов одного типа вокализации.

Программная реализация алгоритма по методу СБ совместно с синхронным принятием решения Т/НТ выполнена на языке С++. Алгоритм реализован таким образом, что он способен обрабатывать непрерывный сигнал речи. Структурная схема алгоритма соответствует рис.3.

По результатам анализа алгоритма получены следующие выражения, определяющие количество вычислительных затрат при реализации алгоритма. Предполагается, что все арифметические операции выполнятся в режиме с плавающей запятой. Операции оценивания минимального количества разрядов, требуемых при реализации арифметических операций в режиме с фиксированной точкой, не проводили. В формулах использованы следующие обозначения: К - длина сигнала в отсчетах; N - длина кадра анализа в отсчетах, при синхронном с ОТ анализе N равно периоду ОТ в отсчетах, при асинхронном - для мужских голосов N = 200, для женских N = 100 при частоте опроса ^ = 10 000 Гц; N3 - длина окна сглаживания, Ыа < И; г - сдвиг кадра анализа в асинхронном методе принятия решения Т/НТ, г < N.

Реализация алгоритма СБ при использовании на этапе предобработки ФНЧ требует 6К + 20КЛЧ операций умножения, 7К + ЮКЖ операций сложения, К - операций логарифмирования.

Реализация алгоритма СБ при использовании на этапе предобработки сглаживания всплесковым окном требует К(Ыа + 4) + 20КЖ операций умножения, К(Иа + 3) + ЮКЖ операций сложения, К - операций логарифмирования.

Алгоритм принятия решения Т/НТ синхронно с ОТ требует ЗК + ЮКЖ операций умножения, ЗК операций сложения, 2К/И - операций логарифмирования,

Алгоритм принятия решения Т/НТ асинхронно с ОТ требует ЗКМ/'г + ЮК/г операций умножения, ЗКЫ/г операций сложения, 2К/г - операций логарифмирования.

Сравнение показывает, что асинхронный метод принятия решения Т/НТ существенно уступает по быстродействию синхронному с ОТ принятию решения Т/НТ. Сглаживание на этапе предварительной обработки увеличивает время реализации алгоритма ОБ примерно в КаЛ4! раз.

Разработанный алгоритм выделения ОТ основан на методе ОБ, обеспечивает выделение траектории ОТ и сегментацию на вокализированные и нево-кализированные интервалы для непрерывного сигнала речи. Алгоритм выделения ОТ проставляет марки в моменты начал периодов ОТ. Принятие решения Т/НТ выполнено синхронно с ОТ. Алгоритм требует знания априорного значения среднего периода ОТ произнесения. Остальные параметры алгоритма: допуск на изменения длительностей соседних периодов ОТ, величина приращения функции О(п) относительно максимума основного лепестка, отношение длительности интервала блокировки к длительности периода ОТ, асимметрия функции О(п) на интервалах нарастания и снижения, уровень добавляемого

шума и значения порогов принятия решения Т/НТ - заданы по умолчанию и могут быть скорректированы в процессе обработки конкретного произнесения.

В седьмой главе представлены результаты испытаний предложенного метода выделения частоты ОТ и результаты сопоставительных экспериментов с известными методами выделения ОТ.

Для оценивания параметров алгоритма в качестве речевого материала использованы произнесения предложений "Не видали мы такого невода", "Жирные сазаны ушли под палубу", "Саша кусал сало", "На ухабе" и изолировано произнесенные цифры от "Один" до - "Десять". В экспериментах участвовало семь дикторов мужчин и семь дикторов женщин без слышимых дефектов произнесения. Все дикторы с уральского региона, русский язык для них является родным. Запись сигнала в цифровом формате выполнена на системе SIS (Speaker Identification System), разработанной фирмой "Речевые технологии" (С.-Петербург) в условиях учебной лаборатории с умеренным уровнем производственного шума, с частотой опроса fs = 10 ООО Гц и числом разрядов квантования по амплитуде, равном 12. Коэффициент усиления предварительного усилителя программировали так, что значение максимума записываемого сигнала не превышало 2000 отсчетов (по амплитуде). Система SIS обеспечивала при записи соотношение сигнал/шум (С/Ш) не менее 65 дБ при коэффициенте нелинейных искажений не более 0,03 %.

Эталонные контуры ОТ получены путем визуальной обработки осциллограммам соответствующих произнесений по моментам пересечения нуля основным лепестком сигнала, соответствующим моменту возбуждения речевого тракта. Сравнение контура ОТ, полученного методом GS, с эталонным контуром ОТ выполняли через 1 мс. Если мгновенная частота эталонного ОТ F0, = 0 (невокализированный интервал) и мгновенная частота ОТ, полученная методом GS, F0 j Gs = 0 (также невокализированный интервал), где j - номер отсчета, то вычислений ошибки не производили и переходили к следующему отсчету. Если F0j = 0 (невокализированный интервал эталона), a F0j Gs * 0 (вокализированный интервал оцениваемого контура, то считали, что данному значению j соответствует ошибка Т/НТ. Если F0j * 0 (вокализированный интервал эталона), a F0j os = 0 (невокализированный интервал оцениваемого контура), то считали, что данному значению j соответствует ошибка НТ/Т. Если же F0 j ф 0 (вокализированный интервал эталона) и Fo j gs * 0 (также вокализированный интервал оцениваемого контура), то для данного значения j вычисляли относительное отклонение Fo j os от Fo:

Е J^oos-^ql.iooy,, . (17)

Отклонения Е/ S 5 % не учитывали на том основании, что подобные отклонения не ухудшают качество воспринимаемой на слух речи. Отклонения 5 % < Ej < 15 % относили к малым ошибкам, отклонения Ej > 15% - к большим. Общее количество ошибок Т/НТ, НТ/Т, малых ошибок и больших ошибок

подсчитывали и вычисляли соответствующие относительные ошибки по отношению к общей длительности произнесения.

Анализ качества работы алгоритма по отдельным видам ошибок вызывает определенные затруднения при получении глобальной оценки качества выделения ОТ. Предложено в качестве обобщенной меры оценки качества использовать норму вектора ошибок в обобщенном пространстве ошибок:

5 = (^у/от^у/иу + Щп/уЯ иу/у + + ^/я^т) . О8)

где ¿\,/т,, <?иУ/у, ¿>8, ¿>5т - относительные ошибки Т/НТ, НТ/Т,. относительные большие и относительные малые ошибки в процентах, соответственно, м'у/иу> м'иу/у> wg' " весовые коэффициенты; б - обобщенная ошибка. Весовые коэффициенты позволяют учесть важность того

или иного вида ошибок. В данных экспериментах указанные весовые коэффициенты приняты равными 1,0.

Таблица 1. Результаты испытаний алгоритма йЭ для предложения "Не видали мы такого невода"

Вх.файл Тип сигнала Ош. НТ/Т Ош. Т/НТ Больш.ош. Малая ош. Об. Кол-во

ош. отс.

кол. % кол. % кол. % кол. % %

Низкочастотная фильтрация, диктор VBG

vbgnvlOO Чистый 7 0,3 27 1,2 26 1,2 84 3,7 4,0 2243

vbgnv110 С/Ш=10 дБ 190 8,5 3 0,1 70 3,1 138 6,2 10,8 2243

100 001 Клиппир. 7 0,3 298 13,3 59 2,6 24 1,1 13,6 2243

vbgnvlOO Телефон. 180 8 20 0,9 250 11,1 76 3,4 14,0 2243

Всплесковое окно, диктор VBG

vbgnvlOO Чистый 12 0,5 10 0,4 22 1,0 12 0,5 1,2 2243

vbgnv110 С/Ш=10 дБ 305 13,6 1 0 56 2,5 83 3,7 14,4 2243

vbgnvlOO Клиппир. 22 1 50 2,2 69 3,1 18 0,8 4,0 2243

vbgnvlOO Телефон. 212 9,5 0 0 246 11 39 1,7 14,4 2243

vbgnvlOO Телеф.+клип. 121 5,4 13 0,6 301 13,4 106 4,7 15,2 2243

Низкочастотная фильтрация, диктор IGF

igfnv100 Чистый 14 0,7 18 0,9 17 0,9 150 7,6 7,6 1963

igfnv110 С/Ш=10 дБ 322 16,4 1 0,1 39 2 337 17,2 24,0 1962

igfnvlOO Телефон. 306 15,6 7 0,4 26 1,3 82 4,2 16,4 1961

Всплесковое окно, диктор IGF

igfnvl 00 Чистый 25 1,3 17 0,9 5 0,3 101 5,2 5,2 1957

igfnvl 10 С/Ш=10 дБ 317 16,2 3 0,2 95 4,9 379 19,4 25,6 1958

igfnvlOO Клиппир. 28 1,4 6 0,3 22 1,1 168 8,6 8,8 1961

igfnvl 00 Телефон. 325 16,6 9 0,5 50 2,6 1 14 5,8 17,6 1960

Результаты испытаний метода GS для диктора мужчины (VBG) и диктора женщины (IGF), когда в качестве речевого материала использовано предложение "Не видали мы такого невода" без добавленного шума (чистый сигнал), с добавленным белым шумом при соотношении С/Ш =10 дБ, для клиппирован-ного сигнала и для сигнала, ограниченного полосой телефонного канала, представлены в табл. 1.

По результатам испытаний получены следующие выводы:

1.Результаты тестирования в значительной степени зависят от способа получения эталонного контура ОТ. Визуальная простановка марок по временной функции сигнала не обеспечивает абсолютной правильности решений как по точности простановки марок в начале периода ОТ, так и по оцениванию начал и окончаний интервалов вокализации.

2. Подстройка параметров метода ОБ обеспечивает минимизацию количества ошибок Т/НТ, НТ/Т, больших и малых ошибок (первичные ошибки). Для получения общей оценки качества работы метода целесообразно использовать обобщенную ошибку, определяемую как норму вектора, составляющие которого есть относительные первичные ошибки. Обобщенная ошибка составила для мужского голоса 4,0 %, для женского - 7,6 %, когда на этапе предварительной обработки использован фильтр нижних частот.

3. Сглаживание чистого сигнала всплесковым окном позволяет снизить обобщенную ошибку для мужского голоса до 1,2 %, для женского - до 5,2 %. Основной вклад в обобщенную ошибку женского голоса дают малые ошибки. Остальные типы ошибок имеют тот же порядок, что и для мужского голоса.

4. Метод 05 способен отслеживать быстрые изменения мелодии ОТ (не менее 500 Гц/с).

5. Оптимальный набор параметров, полученный для одного диктора, обеспечивает приблизительно одинаковое качество выделения ОТ для группы дикторов с типовыми голосами как для мужчин, так и для женщин. В случае отличия качества голоса от типового, необходима подстройка параметров алгоритма.

6. Метод ОБ выделяет контур ОТ для сигнала с добавленным белым шумом вплоть до соотношения С/Ш = 0 дБ. При меньших значениях С/Ш метод неработоспособен. Необходимо отметить, что обобщенная ошибка резко возрастает до значений, порядка 25...30 % при С/Ш < 10 дБ. Однако и при данном уровне ошибок метод ОБ способен следить за траекторией ОТ. Сглаживание всплесковым окном сигнала с добавленным шумом при С/Ш < 10 дБ не снижает ошибок выделения ОТ.

7. Метод вБ способен выделять ОТ предельно ограниченного (клишированного) сигнала, когда на этапе предобработки используют как ФНЧ, так и всплесковое окно. Точность выделения ОТ по клиппированному сигналу сравнима с точностью выделения ОТ по чистому сигналу при соответствующем подборе параметров алгоритма.

Метод ОБ выделяет ОТ сигнала, ограниченного полосой телефонного канала с точностью, сравнимой с точностью выделения сигнала с добавленным шумом при С/Ш = 10 дБ. Применение всплескового окна и клиппирования не снижает обобщенную ошибку выделения ОТ.

Таблица 2. Значения обобщенной ошибки для чистого сигнала (%)

Метод GS PIC СЕР АС RG FIL LLK

GS - 16,25 20,63 11,34 11,87 13, 98 9,18

PIC 9,18 - 20,45 11,26 11,78 13,92 9,13

СЕР 9,33 16,23 - 11,24 11,65 14,28 9,20

АС 9,26 16,20 20,19 - 11,40 14,10 9,07

RG 9,30 16,22 20,33 11,18 - 14,13 9,11

FIL 9,27 16,21 20,18 11,15 11,38 - 9,16

LLK 9,28 16,20 20,18 11,12 11,35 13,95 -

Средн. 9,27 16,27 20,33 11,22 11,57 11,73 9,14

Таблица 3. Значения обобщенной ошибки в (%) для сигнала с соотношением С/Ш = +5 дБ

В сопоставительных экспериментах методы-аналоги реализованы на установке STC-D106.1 с использованием системы программного обеспечения SIS 4.0, разработанной и изготовленной фирмой "Центр речевых технологий" С. Петербург. В качестве методов аналогов использованы: пиковый метод (PIC), фильтровой метод (FEL), метод Рабинера-Голда (RG), кепст-ральный метод выделения основного тона (СЕР), автокорреляционный метод (АС) и метод ЛЖ (LLK).

Результаты сопоставительных экспериментов для чистого сигнала, для сигнала с добавленным шумом при соотношении С/Ш = 5 дБ и для телефонного сигнала

представлены в табл.2, табл.3 и табл.4 соответственно. Строки в этих таблицах соответствуют методу, с которым проведено сравнение, столбцы - сравниваемому метод. Результаты сопоставительных экспериментов на сигнале, ресинтезированном с помощью модели линейного предсказания, показаны в табл.5.

Основные выводы по

результатам сопоставительных испытаний:

1. На сигнале с добавленным шумом и на сигнале, ограниченном полосой телефонного канала, метод GS был лучшим. На чистом сигнале несколько лучшие результаты показал метод ЛЖ. Однако - при выделении контура ОТ ре-

Метод GS PIC CEP AC RG FIL LLK

GS - 40,06 38,72 40,71 37,43 40,62 60,93

PIC 27,73 - 38,33 40,68 37,22 40,57 60,92

CEP 26,34 39,18 - 40,70 35,75 38,43 57,92

AC 24,56 36,23 32,59 - 34,79 39,10 58,58

RG 28,02 39,99 38,67 41,01 - 40,58 60,93

FIL 26,99 39,70 38,24 40,93 36,89 - 60,91

LLK 16,26 31,31 31,85 38,53 28,93 34,73 -

Средн. 24,98 37,75 36,40 40,43 35,17 39,01 60,03

Таблица 4. Значения обобщенной ошибки в (%) для телефонного сигнала

Метод GS PIC CEP AC RG FIL LLK

GS - 19,14 21,92 27,95 16,54 20,99 21,81

PIC 11,00 - 21,80 27,91 16,50 20,99 21,81

CEP 11,34 19,13 - 27,89 16,56 20,21 21,82

AC 10,10 18,83 20,68 - 16,23 20,59 21,72

RG 11,22 19,13 21,54 27,87 - 20,91 21,81

FIL 11,99 19,13 21,43 27,83 16,46 - 21,80

LLK 10,58 19,10 21,12 27,83 16,38 20,95 -

Средн. 11,04 19,08 21,42 27,88 16,45 20,77 21,80

синтезированного чистого сигнала метод йБ снова был лучшим. Ни один из известных методов не был способен выделять ОТ клиппированного сигнала.

2. Метод ОБ оценивает мгновенные значения периода ОТ, в том числе на

интервалах начал вокализации

Таблица 5. Результаты сопоставительного анализа метода йЗ на ресинтезированном сигнале

Ошибки в %

Метод н/нт нтя Большие Малые Обобщ.

СБ 3,55 2,80 4,70 7,79 10,16

Р1С 8,25 1,35 3,11 9,99 13,39

сэ 3,67 2,71 4,63 7,31 9,78

СЕР 5,26 5,48 4,13 22,99 24,56

йЭ 3,37 2,96 4,63 7,80 10,12

АС 9,85 3,34 5,08 10,69 15,76

ЭБ 3,55 2,80 4,69 7,70 10,09

10,87 2,64 2,01 8,01 13,90

вэ 3,68 2,83 4,53 7,19 9,69

Р11. 10,94 0,63 2,63 9,35 14,64

вэ 3,69 2,83 4,41 7,14 9,59

ПК 11,00 0,72 1,35 6,97 13,11

и на коротких отрезках вокализированных звуков, когда известные методы работают с большими ошибками.

3. В случае использования ПК типа ШМ, реализованного на процессоре типа Репйшп 133 МГц, для выделения ОТ совместно с принятием решения Т/НТ необходимо время примерно в два раза меньшее реального при сглаживании всплесковым окном. Если предварительную обработку выполняют на основе низкочастотной фильтрации, то время, необходимое для выделения контура ОТ примерно в четыре раза меньше реального.

Проведены эксперименты, целью которых было проверить применимость алгоритма вБ, как локального выделителя ОТ, для целей компрессии речи. Компрессию (сжатие) выполняли путем тиражирования наиболее представительного периода ОТ на стационарном вокализированном интервале в пределах длительности стационарного интервала. При исходной скорости передачи информации 20 кбайт/с сжатый сигнал позволяет снизить скорость передачи информации до 20 бит/с, т.е. степень компрессии равна восьми при высокой разборчивости синтезированного сигнала.

Использование метода ОБ и синхронного с ОТ анализа речи позволило разработать методику обеспечения устойчивости ковариационного метода линейного предсказания

На основе подхода, предложенного в настоящей работе и направленного на анализ единичных событий, разработан способ выделения сигналов, соответствующих

ПК

* 1

г 3 о- о о

«3 ч О. (О с О.

га Ш $ §

Рис. 7.

ударам затвора в переднее и заднее положение спортивного и охотничьего стрелкового оружия. Структурная схема ИИС стрелкового оружия показана на рис.7.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ

1. Диссертация есть первая научная работа, в которой исследованы проблемы построения систем выделения частоты ОТ с использованием функции, обеспечивающей принятие решения, вид которой зависит от предполагаемой структуры сигнала и ориентирован на поиск в сигнале единичных событий, которые расположены на границах периодов ОТ. Экспериментально доказано, что указанный подход позволяет повысить надежность выделения основного тона, расширить диапазон допустимых искажений сигнала, снизить объем вычислений и время, необходимое для выделения основного тона.

2. Исследована способность средней частоты ОТ быть носителем информации об индивидуальности голоса диктора. Показано, что средняя частота ОТ коррелирована с индивидуальностью голоса диктора, но не может быть использована в качестве единственного признака индивидуальности голоса.

3. Исследована структура речевого сигнала на периоде ОТ. Показано, что структура сигнала на интервале закрытых голосовых связок отлична от структуры сигнала на интервале открытых голосовых связок. В первом приближении спектр, измеренный на периоде ОТ, можно рассматривать как оценку спектра на интервале сомкнутых голосовых связок. Временная функция речевого сигнала, соответствующая периоду ОТ, может быть выбрана в качестве минимальной длительности, характерной для вокализированного звука.

4. Предложена модель построения систем распознавания речи, основанная на нисходящем распознавании и ориентированная на выделение единичных событий, расположенных на границах дискретных единиц информации различного уровня иерархии.

5. Разработан алгоритм выделения ОТ, основанный на предложенной модели распознавания речи. Реализация алгоритма доказывает возможность применения предложенной теоретической модели, позволяющей повысить надежность, снизить вычислительные затраты и уменьшить время при решении задач измерения параметров речевого сигнала.

6. Предложен синхронный с ОТ анализ речи, на основе которого разработан алгоритм принятия решения Т/НТ, синхронный с ОТ. Синхронный с ОТ анализ повышает надежность принятия решения Т/НТ и существенно снижает время принятия решения.

7. Предложен количественный критерий оценивания качества предварительной обработки, основанный на измерении дисперсии задержки сигнала после предварительной обработки. Критерий позволяет получить количественную оценку качества предварительной обработки, выбрать предпочтительные параметры и вид фильтров предварительной обработки.

8. Предложены новые методы предварительной обработки речевого сигнала путем сглаживания сигнала всплесковым окном. Предложена форма всплеского окна. Выполнен сопоставительный анализ ряда методов предварительной обработки. Показано, что среди сравниваемых типов окон предложенная форма всплеского окна обеспечивает минимальную дисперсию задержки.

9. Разработан комплекс алгоритмов по выделению ОТ по предложенному методу выделения основного тона совместно с синхронным с ОТ принятием решения Т/НТ. Алгоритм адаптирует функцию, обеспечивающую принятие решения, к текущему значению периода ОТ и корректирует одиночные ошибки принятия решения Т/НТ. Алгоритм способен работать с непрерывным сигналом речи в реальном масштабе времени.

10. Предложен критерий оценивания качества работы алгоритма выделителей ОТ в виде обобщенной ошибки. Найдены значения параметров алгоритма, обеспечивающие минимизацию обобщенной ошибки выделения ОТ. Выполнен сопоставительный анализ предложенного алгоритма выделения ОТ с известными алгоритмами выделения ОТ.

Практическая ценность результатов работы заключается в том, что предложенные в ней теоретические модели и критерии и разработанные на их основе алгоритмы выделения основного тона и алгоритмы принятия решения Т/НТ обеспечили выделение мгновенных значений периода ОТ на произвольных голосах в реальном масштабе времени для непрерывного сигнала чистой речи, речи с добавленным шумом при соотношении С/Ш = 10 дБ; для сигнала, ограниченного полосой телефонного канала; для клиппированного сигнала. Предложенный метод выделения ОТ сохраняет свою работоспособность при снижении соотношения С/Ш вплоть до 0 дБ. Сопоставительные испытания с известными методами выделения ОТ показали, что предлагаемый метод предпочтительнее для всех типов сигналов, кроме чистого, где несколько лучшие результаты дал метод ЛЛК.

СПИСОК ОСНОВНЫХ РАБОТ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ

1.. Arkhipov 1. О. and Gitlin V.B. Restoration of Fundamental-Tone Periodicity in a Telephone Signal // Pattern Recognition and Image Analysis. - 1999. -Vol.9. - No.l. - P.10-13;

2. Arkhipov I. O. and Gitlin V.B. Method for Extracting the Fundamental Tone on the Basis of a Notion Concerning Generated Solution // Pattern Recognition and Image Analysis. - 1999. - Vol.9. - No.l. - P. 14-16;

3. Gitlin V.B. Use of the Notion of Generated Solution to Identify the Special Features of a Speech Signal // Pattern Recognition and Image Analysis. -1999. - Vol.9. - No.l. - P.40--42.

4. Архипов И.О. Гитлин В.Б. Восстановление периодичности основного тона в телефонном сигнале // Распознавание образов и анализ изображений: новые информационные технологии. - Новосибирск, 1998. - С. 18-22.

5. Архипов И. О., Гитлин В.Б. Добавление шума при сегментации речи на тональные участки // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". - Ижевск, 1997. - С. 63-69.

6. Архипов И.О. Гитлин В.Б. Метод выделения основного тона на основе понятия о генерируемом солитоне // Распознавание образов и анализ изображений: новые информационные технологии. - Новосибирск, 1998.-Часть 1.-С. 23-27.

7. Архипов И.О. Гитлин В.Б. Оценка точности выделения основного тона методом GS // Современные речевые технологии: Сб. тр. IX сессии Российского акустического общества. - М.: ГЕОС, 1999. - С.38-42.

8 .Архипов И.О. Гитлин В. Б. Оценка частоты среза ФНЧ, используемого для выделения основного тона // Труды' научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". - Ижевск, 1998, - С. 12-16.

9. Архипов И. О., Гитлин В. Б. Сегментация речи по первому коэффициенту корреляции модели линейного предсказания синхронно с основным тоном // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". - Ижевск, 1998. -С.17-19.

Архипов И.О. Гитлин В.Б. Формирование признака "ТОН/НЕ ТОН" синхронно с основным тоном // Современные речевые технологии: Сб. тр. IX сессии Российского акустического общества. - М.: ГЕОС, 1999. -С. 43-46.

11 .Борисов В.Н., Гитлин В.Б. Корреляционный метод выделения основного тона с использованием параллельной фильтрации // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 16 Всесоюзн. семинара. - М., 1991. - С. 102-103.

12.Гитлин В.Б., Новоселов В.Н., Сметанин A.M., Сорокин С.Л., Тихонов Г.А., Шуткин В.Е. Аппаратура обработки речевого сигнала // Вопросы радиоэлектроники. Электронная вычислительная техника. - 1979. - Вып. 4. - С. 77-85.

13.Гитлин В. Б., Макаров А. В., Паклина Н. В. Аналого-цифровые устройства обработки речевых сигналов // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание слуховых образов" (АРСО 13). - Новосибирск, 1984. - Часть I. - С.113.

14.Гитлин В. Б. Сметанин А. М. Сорокин С.Л., Шуткин В.Е. Идентификация дикторов по частотам формант // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11-й Всесоюзн. школы-семинара. -Ереван, 1980. - С. 164-166.

15.Гитлин В.Б., Сметанин A.M. Исследование участков смыкания и размыкания голосовых связок на ЭВМ // Дискретные системы обработки информации. - Ижевск, 1978. -Вып.1. - С. 71-75.

16.Гитлин В. Б., Кузнецов П.Г., Тихонов Г.А., Чепкасов А.Г. Информативность фонем русского языка, определяющая индивидуальность голоса диктора // Автоматика и опознание образов. Автоматические устройства учета и контроля. - Ижевск: Удмуртия, 1969. - Вып. IV. - С. 54-60.

17.Гитлин В.Б., Новоселов В.Н., Сметании A.M., Сорокин С.Л., Тихонов Г.А., Шуткин В.Е. Выбор интервала измерений частоты и ширины формант // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 10-й Всесоюзн. школы-семинара. - Тбилиси: Мецниереба, 1978.-С. 20-21.

18.Гитлин В. Б., Архипов И. О. Влияние метода выделения основного тона, уровня добавляемого шума и частоты среза фильтра на величину порога принятия решения "ТОН/НЕ ТОН" // Информационные технологии в инновационных проектах: Труды международной научно-технической конференции (г. Ижевск, 19-20 апреля 2000 г.). - Ижевск: Изд-во Механического завода, 2000. - С. 198-199.

19.Гитлин В. Б. Временные методы выделения основного тона // Ученые Ижевского технического университета - производству. Тезисы докладов кафедры "Вычислительная техника" ИжГТУ. - Ижевск. - Изд-во "Экспертиза", 1996. - С.1.8-19.

20.Гитлин В. Б. Новоселов В.Н. Влияние повторных возбуждений на форму спектра формантного сигнала // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание и синтез речи" (APCO-IX). -Минск. - 1976. - С. 53.

21 .Гитлин В. Б., Кузнецов П.Г. Влияние числа резонансных звеньев в анализирующем фильтре на результаты измерения спектра // Известия высших учебных заведений. Радиоэлектроника. - 1970. - Т. XIII. -№ 11,-С. 1388-1389.

22.Гитлин В. Б., Кузнецов П.Г. Влияние ширины полосы пропускания фильтра на результаты измерения спектра // Автоматические устройства учета и контроля. - Ижевск: Удмуртия, 1970. - Вып. VI. - С. 135-141.

23.Гитлин В. Б. Динамическая резонансная характеристика полосового фильтра с двумя взаимно расстроенными звеньями // Автоматические устройства учета и контроля. - Ижевск: Удмуртия, 1970. - Вып. VI. -С. 127-135.

24 .Гитлин В. Б. Идентификация диктора по частотам формант, измеренным синхронно с основным тоном // Elleventh Int. Congr. Phonetic Sci.: Proc. XI ICPhS. - Tallin, 1987. - Vol 4 - P. 82-85.

25.Гитлин В. Б. Исследование частоты основного тона и формант как признаков индивидуальности голоса. Разработка быстродействующих методов их выделения / Дис. канд. техн. наук. - Ижевск, 1974. - 266 с.

26.Гитлин В. Б. Критерий минимума дисперсии задержки при выборе фильтра предварительной обработки сигнала // Информационные технологии в инновационных проектах: Труды международной научно-

технической конференции 19-20 апреля 2000 г. - Ижевск: Изд-во Механического завода, 2000. - С. 200-201.

27 Титлин В. Б. К вопросу расчета формантных фильтров методом упрощенного преобразования Лапласа // Автоматические устройства учета и контроля. - Ижевск, 1977. - Вып. 11. - С. 83-91.

28 Титлин В. Б. Модели голосового источника и .методы выделения основного тона // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание слуховых образов" (АРСО-13). - Новосибирск, 1984. -Часть I. - С.79.

29.Гитлин В. Б., Кузнецов П.Г., Тихонов Г.А. Нормализатор динамического диапазона речевого сигнала // Автоматические устройства учета и контроля. - Ижевск: Удмуртия, 1970. - Вып. VI. - С. 119-127.

30Титлин В.Б., Сметанин A.M., Шуткин В'.Е. Обнаружение интервалов смыкания и размыкания голосовых связок // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11-й Всесоюзн. школы-семинара. - Ереван, 1980. -С. 134-136.

31 Титлин В. Б. Об измерении формантных частот синхронно с основным тоном // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание и синтез речи" (APCO-IX). - Минск. - 1976. - С.54.

Ъ2.Гитлин В.Б., Сметанин A.M. О повышении точности измерения параметров формант // Проблемы построения систем понимания речи. - М.: Наука, 1980.-С. 109-115.

33 Титлин В. Б. О статистических параметрах основного тона речи (обзор) // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание слуховых образов" (АРСО-14). - Каунас, 1986. - Часть I. - СЛ.

34.Гитлин В. Б. Сметанин А. М. О точности измерения частоты формант // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание и синтез речи" (APCO-IX). - Минск. - 1976. - С.53.

35.Гитлин В.Б. Основной тон речевого сигнала / Деп. в ВИНИТИ, 1998. -№ 1206-В98. -739 с.

36 .Гитлин В. Б. Новоселов В.Н. Определение участков измерения ширины формант по временной функции речевого сигнала // Дискретные системы обработки информации. - Ижевск, 1979. - Вып.2. - 81-85.

37.Гитлин В.Б. Применение методов анализа речевых сигналов в дипломном проектировании на базе системы SIS // Новые информационные технологии в образовательном процессе: Материалы Всеросс. научно-метод. конференции 24-27 июня 1997 г. - Ижевск, 1997. - С. 79-82.

ЗЗТитлин В. Б. Применение понятия о генерируемом солитоне для выделения особенностей речевого сигнала // Распознавание образов и анализ изображений: Новые информационные технологии. - Новосибирск, 1998. -Часть I,- С. 64-68.

39.А.С. № 1046924 СССР, МКИ Н03К 5/13 / Гитлин В. Б. Устройство для задержки импульсов. - Оп. в БИ № 37 07.10.83.

40.Гитлин В.Б., Кузнецов П.Г., Тихонов Г.А. Переключающая схема для устройства выделения основного тона // Автоматические устройства учета и контроля. - Ижевск: Удмуртия, 1973. - Вып. 8. - С. 223-228.

А\.Гитлин В. Б. Сметанин А. М. Расчет формантных фильтров // Известия высших учебных заведений. Радиоэлектроника, 1976. - Т. XIX. - Вып. 8. -С. 98-100.

42.A.C. № 712942 СССР, МКл2 НОЗК 5/153 / Гитлин В.Б., Новоселов В.Н., Сметанин A.M., Шуткин В.Е. Способ задержки импульсных сигналов. Опубл. В БИ№ 4 30.01.80.

43.A.C. № 714474 СССР, МКИ G10L 1/00 / Гитлин В.Б., Книппер А.В., Сметанин A.M., Сорокин C.JL, Шуткин В.Е.Устройство для выделения основного тона речи. - Оп. в БИ № 5 05.02.80.

44.Гитлин В.Б., Заболотских В. И. Новоселов В.Н., Сметанин A.M., Сорокин С.Л., Тихонов Г.А., Шуткин В.Е. Универсальная система обработки речевого сигнала // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание и синтез речи" (APCO-IX). - Минск. -1976.-С. 42-43.

45.A.C. № 1084833 СССР, МКИ G06K 9/36 / Гитлин В. Б., Гараев Р. М., Лялин В. Е., Кузнецов П.Г. Устройство для селекции признаков при распознавании образов. - Оп. в БИ № 13 07.04.84.

46.А.С. № 283332 СССР, МКИ H04q 1/10 / Гитлин В. Б., Кузнецов П.Г., Тихонов Г.А., Чепкасов А.Г. Устройство выхода селектевизора. Заявлен

41.Гитлин В. Б. Частоты формант как признак индивидуальности голоса // Тезисы и аннотации докладов и сообщений всесоюзного симпозиума "Речь, эмоции и личность". - Ленинград, 1978. - С. 13. Кузнецов П. Г., Гитлин В.Б. Анализатор временных интервалов // Автоматические устройства учета и контроля. - Ижевск: Удмуртия, 1968. -Вып. III. - С. 220-228.

А9 Кузнецов П.Г., Гитлин В.Г. Идентификация голосов по средней частоте основного тона // Применение вычислительной техники в машиностроении. - Ижевск, 1977. - С. 68-74.

Подписано к печати 7.06. 2000 г. Формат 60x84/16. Бумага ачрсетндя Уч-иЗД.Л.2ДУсл. печ. л. 4,86. Тираж 100 экз. Заказ № -/44 Отпечатано в типографии ИжГТУ, 426069, г. Ижевск, ул.Студенческая, 7.

28.04.69

Соискатель

Оглавление автор диссертации — доктора технических наук Гитлин, Валерий Борисович

ВВЕДЕНИЕ.

1. РОЛЬ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА КАК НОСИТЕЛЯ ИНФОРМАЦИИ. МЕТОДЫ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА.

1.1. Введение.

1.2. Параметры голосового источника.

1.3. Модели голосового источника.

1.4. Влияние изменений трансглоточного давления на взаимодействие голосового источника и речевого тракта.

1.5. Турбулентные шумы фонем.

1.6. Процессы окончания колебаний голосовых связок.

1.7. Заключительные замечания по вопросам речеобразования.

1.8. Восприятие основного тона.

1.9. Статистика основного тона.

1.10. Просодические характеристики основного тона.

1.11. Заключительные замечания по просодическим характеристикам речи.

1.12. Требования к выделителям основного тона.

1.13 .Нелинейная предобработка.

1.14.Предварительная фильтрация.

1.15. Временные методы выделения основного тона.

1.16. Спектральные методы выделения ОТ.

1.17. Параллельные и комбинированные методы выделения ОТ.

1.18. Заключительные замечания по методам выделения ОТ.

1.19. Выделение интервалов вокализированных, невокализированных звуков и пауз.

1.20. Заключительные замечания по методам принятия решения т/нт,.

1.21. Методы постобработки.

1.22. Сравнительный анализ методов выделения ОТ.

1.23. Постановка задачи исследований.

2. ИССЛЕДОВАНИЯ ОНОВНОГО ТОНА КАК ПРИЗНАКА

ИНДИВИДУАЛЬНОСТИ ГОЛОСА.

2.1. Аудиторские испытания.

2.2. Эксперименты по выделению средней частоты основного тона.

2.3. Обобщенное распределение средней частоты основного для всех голосов.

2.4. Индивидуальные распределения средней частоты основного тона.

3. ВЛИЯНИЕ ГОЛОСОВОГО ИСТОЧНИКА НА СТРУКТУРУ

РЕЧЕВОГО СИГНАЛА.

3.1. Ведение.

3.2. Влияние импеданса голосового источника на параметры формант.

3.3. Экспериментальное исследование интервалов смыкания и размыкания голосовых связок.

3.4. Выводы.

4. СОЛИТОННАЯ МОДЕЛЬ РЕЧЕВОГО СИГНАЛА.

4.1. Введение.

4.2. Введение в солитонную модель речевого сигнала.

4.3. Аппроксимация солитонного сигнала и его спектра.

4.4. Выделение основного тона на основе понятия о генерируемом солитоне.

4.5. Предварительное оценивание параметров фильтра предобработки.

4.6. Алгоритм выделения ОТ по методу GS.

Введение 2000 год, диссертация по приборостроению, метрологии и информационно-измерительным приборам и системам, Гитлин, Валерий Борисович

Речь есть средство обмена информацией между людьми. В отличие от сигналов, получаемых на выходе технических систем, для речевого сигнала характерна большая вариативность даже при передачах совершенно идентичных сообщений. Кроме смысла (семантики) сообщения речевой сигнал переносит огромное количество дополнительной информации, связанной с индивидуальностью голоса диктора, его эмоциональным состоянием, эмоциональной направленностью высказывания, стилем высказывания, типом речевого сообщения (беседа, монолог и т.п.), окружающей обстановкой, состоянием здоровья голосового аппарата, возрастом диктора, его ростом и весом.

Разработанные к настоящему времени методы выделения и измерения параметров речевого сигнала, основаны на подходах, используемых при анализе регулярных или случайных сигналов неживой природы и не учитывают полностью специфику речи как продукта работы живого организма, предназначенного для общения между людьми.

Речевой сигнал генерируется при прохождении сигнала голосового или шумового источника через речеобразующий тракт. Источник речевого сигнала имеет четыре основных типа: тональное или голосовое возбуждение, шумовое возбуждение, смешанное возбуждение и взрыв. Различие между звуками, определяемое типом источника, есть признак способа образования.

Высокая вариативность речевого сигнала в значительной мере связана с вариативностью параметров источника речевого сигнала. Измерение параметров источника и оценивание способа образования звука есть существенная часть задачи построения систем обработки, сжатия и распознавания речевого сигнала. Трудности оценивания способа образования и оценивания значений параметров источника вызваны следующими основными причинами. 9

1. Некорректность задачи определения параметров источника по акустическому сигналу речи, который является сверткой сигнала источника и импульсной характеристики речевого тракта.

2. Нелинейные эффекты взаимодействия источника и речевого тракта.

3. Наличие активных процессов возбуждения на интервале анализа речевого сигнала, что приводит к неустойчивости ряда линейных моделей речи.

4. Широкий диапазон изменения и стохастичность параметров источника, возможность компенсации изменений одних параметров речевого тракта за счет изменения других его параметров. Широкая вариативность формы речевого сигнала при соответствии одному и тому же фонетическому или интонационному образцу. Большая избыточность речи.

5. Наличие шумов и искажений, в том числе, нелинейных, в каналах связи; наличие акустических и реверберационных шумов.

Голосовой источник может быть представлен в виде пульсирующего воздушного потока. Частота (период) повторения импульсов голосового источника носит название частоты (периода) основного тона. Основной тон (ОТ), являясь одним из основных параметров речевого сигнала, в существенной мере определяет структуру речевого сообщения. Интонационный контур высказывания есть траектория изменения мелодии частоты ОТ. Просодика высказывания, одной из составляющих которой служит интонация, есть существенное отличие акустического сигнала речи от письменной речи.

Частота (период) ОТ переносит существенное количество информации, содержащейся в речевом сигнале. Выделение частоты ОТ, с точки зрения представленной в нем информации, представляет самостоятельный интерес. При этом необходимо определять как относительно медленные изменения (мелодию) траектории частоты ОТ, так и быстрые ее изменения, моменты включения и отключения голосового источника. С другой стороны, и при построении систем анализа, синтеза, распознавания и сжатия речи, необходимо

10 измерять частоту ОТ, которую используют как один из основных признаков, необходимых для описания речевого сигнала.

При работе с реальным речевым сигналом выделитель частоты ОТ должен быть шумозащищенным, должен быть нечувствителен к линейным и нелинейным искажениям, обеспечивать высокую точность выделения частоты ОТ, сохранять точность при больших пределах изменения частоты ОТ, при смене диктора, при смене условий передачи и т.п., при наличии микровариаций частоты ОТ, работать на сигнале непрерывной речи, иметь адекватный детектор вокализации, должен работать в реальном масштабе времени и иметь минимальную стоимость.

Для извлечения максимального количества информации, содержащейся в контуре частоты ОТ, следует предъявить следующее дополнительное требование к системам выделения частоты ОТ: выделитель частоты ОТ должен оценивать мгновенные значения периода (частоты) ОТ.

Существует довольно большое количество методов выделения частоты ОТ. Ряд из них, такие как кепстральный, автокорреляционный, метод Рабине-ра-Голда не способны оценивать мгновенные значения периода ОТ, другие, такие как пиковый, плохо работают в шумах и на телефонном сигнале. Все рассмотренные методы требуют тщательного подбора параметров для каждой конкретной реализации.

Объектом исследования настоящей работы является информационно-измерительная система речевой технологии.

Предметом исследования являются информация, переносимая частотой основного тона(ОТ); методы выделения ОТ; средняя частота ОТ как носитель информации об индивидуальности голоса диктора, структура речевого сигнала на периоде ОТ; модели распознавания речи; методы предварительной обработки речевого сигнала; алгоритм выделения частоты ОТ и алгоритм принятия решения "ТОН/НЕ ТОН" на основе предложенной модели распознавания речи и предложенного синхронно с ОТ подхода к измерению параметров речевого

11 сигнала; критерии оценивания качества предварительной фильтрации и критерии оценивания качества выделителей частоты ОТ.

Целью диссертационной работы является разработка теоретических предпосылок и практическая реализация дополненного алгоритмом принятия решения "ТОН / НЕ ТОН" метода выделения ОТ, работающего с непрерывным сигналом в близком к реальному масштабе времени, оценивающего мгновенные значения периода (частоты) ОТ, при наличии аддитивных помех, линейных и нелинейных искажений сигнала, причем точность оценки периода ОТ, определяется точностью оценок моментов времени, соответствующих моментам возбуждения речевого тракта.

Для достижения поставленной цели определены следующие научно-технические задачи.

1. Анализ видов информации, переносимой частотой ОТ; анализ связи между переносимой информацией и частотой ОТ; анализ структуры речевого сигнала как результат работы речевого тракта.

3. Исследование возможностей использования средней частоты ОТ в качестве носителя информации об индивидуальности голоса диктора.

4. Анализ структуры речевого сигнала для получения оценки минимальной длительности, характерной для вокализированного звука; анализ методов обработки речи с точки зрения структуры речевого сигнала.

5. Разработка теоретической модели распознавания речи, ориентированной на поиск единичных событий в непрерывном сигнале, расположенных на границах дискретных информационных событий различного уровня иерархии.

6. Исследование методов предобработки речевого сигнала. Разработка количественного критерия оценивания качества предобработки. Разработка и оценивание новых методов предобработки, повышающих надежность выделения ОТ.

7. Реализация предложенной теоретической модели и предложенных подходов в виде алгоритма выделения частоты ОТ и алгоритма принятия решения "ТОН/НЕ ТОН".

8. Разработка обобщенного критерия оценивания качества выделителей частоты ОТ, определение параметров разработанного алгоритма, подлежащих настройке при выделении ОТ конкретного произнесения; проведение сопоставительных испытаний предложенного метода с известными методами выделения частоты ОТ.

Предложенный алгоритм выделения ОТ совместно с алгоритмом принятия ре/ шения Т/НТ работает с сигналами с аддитивным шумом при малых соотношениях сигнал/шум, с сигналами, полоса которых ограничена полосой телефонного канала, и с предельно ограниченными по амплитуде сигналами. Предложенные подходы обеспечивают работу разработанных алгоритмов в масштабе времени меньше реального при минимальном числе настроек и регулировок, в том числе, для непрерывного сигнала речи. Предложенные теоретические подходы позволили разработать алгоритмы и программы анализа сигналов в задачах технической диагностики, используемых на производстве и в учебном процессе.

Реализация результатов работы. Разработанные в ходе выполнения работы подходы, программы и алгоритмы использованы в автоматизированной системе идентификации лиц по фонограммам русской речи, применяемой в ходе выполнения криминалистических экспертиз криминалистами-экспертами России. Отдельные научные и практические результаты внедрены в научно-производственной фирме "Центр речевых технологий" г. С.-Петербург, в ИИС на ДОАО "Ижевский оружейный завод", ОАО "Вятско Полянский машиностроительный завод "Молот", в Научно-техническом центре "Вычислительная техника", в учебной и научной работе на кафедре ВТ ИжГТУ.

Апробация работы. Основные положения работы докладывались на XI международном конгрессе фонетических наук (XI ICPhS), г. Таллин, 1987; на Всероссийской с международным участием конференции "Распознавание образов и анализ изображений" (РОАИ-98), г. Новосибирск, 1998; на Научно-технической с международным участием конференции "Информационные технологии в инновационных проектах", г. Ижевск, 2000; на IX сессии Российского акустического общества, г. Москва, 1999; на X, г. Минск, 1976, XI, г. Тбилиси, 1978, XII, г. Ереван, 1980, XIII, г. Новосибирск, XIV, г. Каунас, 1998 и XVI, г. Москва, 1991 Всесоюзных школах-семинарах по автоматическому распознаванию слуховых образов (АРСО); на Всесоюзном симпозиуме "Речь, эмоции и личность", г. Ленинград, 1978; на Всероссийской научно-методической конференции, г. Ижевск, 1997; на семинарах научно-молодежной школы "ИИС на базе наукоемких технологий по отраслевой целевой программе "Интеграция" в 1997- 1999 годах. Результаты работы обсуждались на научных семинарах и конференциях Ижевского государственного технического университета.

Публикации. По теме диссертации опубликовано в печати 64 работы и более 10 научно-технических отчетов по научно-исследовательским работам.

На защиту выносятся:

2. Использование периода основного тона в качестве минимальной длительности постоянства параметров речевого сигнала. Предпочтительность синхронного с ОТ анализа речевого сигнала.

3. Модель распознавания речи, ориентированная на первоначальный поиск границ дискретных единиц информации в непрерывном сигнале речи.

4. Методика аппроксимации функций вида sech(x) и sech (х).

5. Критерий выбора метода предобработки.

6. Методы сглаживания сигнала на этапе предобработки, включая сглаживание всплесковым окном.

7. Предельное ограничение сигнала на этапе предобработки для сигнала с ограниченным спектром.

8. Алгоритм выделения частоты ОТ.

9. Алгоритм принятия решения "ТОН/НЕ ТОН" синхронно с основным тоном. Повышение надежности принятия решения "ТОН/НЕ ТОН" путем добавления шума к сигналу.

10. Обобщенный критерий оценивания качества работы выделителя частоты ОТ.

Диссертационная работа состоит из введения, семи глав, заключения и приложений.

Заключение диссертация на тему "Разработка концепции выделения основного тона речи в информационно-измерительных системах реального времени"

3.4. Выводы.

Теоретическое рассмотрение и экспериментальные результаты, посвященные вопросам взаимодействия речевого тракта и источника позволяют сделать следующие выводы:

1. Влияние подглоточных областей на речевой тракт в момент открывания голосовых связок может существенным образом изменять форму акустических колебаний в речеобразующем тракте. Степень влияния

113 зависит от площади раскрытия голосовой щели и от параметров голосового источника и речевого тракта, в частности, от соотношения частот ОТ и первой форманты . Процесс существенно нелинеен, не может рассматриваться как стационарный, что является характерным признаком живой речи.

2. Интенсивное нарастание колебаний в момент схлопывания голосовых связок служит признаком начала нового периода ОТ. Исчезновение колебаний, особенно колебаний высокочастотных формант, свидетельствует о переходе к конечному интервалу периода ОТ.

3. В первом приближении спектр, измеренный на периоде основного тона, может рассматриваться как оценка спектра на интервале сомкнутых голосовых связок. Следовательно, временная функция речевого сигнала, соответствующая периоду основного тона, может быть выбрана в качестве минимальной длительности, характерной для вокализированного звука.

114

4. Солитонная модель речевого сигнала.

4.1. Введение.

Согласно Н.Г. Загоруйко [191] всякое распознающее устройство состоит из блока измерения параметров (рецептора Р), блока принятия решений (классификатора К) и блока исполнительных устройств (эффектора Э) (рис.4.1а). Рецептор воспринимает и измеряет параметры физического сигнала, а)

Р : -5 -Э К —э э

-Э б)

Рз -5 -Э К,

-5

Рис.4.1. Структурные схемы распознающих автоматов соответствующего образу. Классификатор в соответствии с некоторыми правилами относит воспринимаемую реализацию к определенной точке выборочного пространства. Эффектор реализует результат решения классификатора в определенное действие.

Рассмотренная модель является довольно грубой. Более сложная модель (рис.4.16) состоит из цепочки боле простых автоматов, каждый из которых

115 имеет структуру, близкую к структуре элементарного автомата, показанного на рис.4.1а. В качестве примера можно рассмотреть алгоритм распознавания устных слов [191]. На протяжении некоторого интервала времени, сравнимого со слогом, рецептор Pi измеряет параметры акустического сигнала, а классификатор Ki относит принятый акустический сигнал к тому или иному слогу. Эффектор Э] фиксирует это решение. Подобная процедура повторяется до конца звучания слова. Затем автомат второй ступени , используя промежуточные решения относительно слогов, определяет к какому из слов, имеющихся в его алфавите, принадлежит данная последовательность слогов. Автомат второй ступени состоит из рецептора Р2 , классификатора Кг и эффектора Эг . Выборочным пространством автомата второй ступени служит пространство слогов. Это пространство можно отнести к пространству вторичных признаков. Решение на уровне слогов фиксирует эффектор Э2.

Как правило, классификатор К2 в системе, показанной на рис.4.16, не обеспечивает надежной классификации слов. Для повышения надежности распознавания необходимо использовать дополнительную информацию, заключенную, например, в синтаксисе, в семантике и в прагматике высказывания, в вероятностях появления тех или иных комбинаций первичных признаков и т.д. Структура распознающего автомата усложняется. Выборочное пространство вторичных признаков может состоять из нескольких групп разнородных признаков, получаемых с эффекторов автоматов предшествующих ступеней (рис.4.1 в). В настоящее время последняя структура наиболее широко используется при построении систем распознавания речи.

В книге [117] проведен анализ возможности использования просодической информации как дополнительного признака, обеспечивающего повышение надежности распознавания речи. Рассмотренную на рис.4.1 в структуру, В. Б. Касевич и др. предлагают называть моделью "восходящего восприятия". В этой модели данные о просодике должны быть подключены на высших ступенях распознавания и восприятия с целью коррекции ошибок, полученных на

116 начальных этапах алгоритма. Роль просодики оказывается необязательной, факультативной, ее используют тогда, когда недостаточно информации, передаваемой другими средствами речи.

Восходящему восприятию можно противопоставить "нисходящее восприятие" [117], которое не следует рассматривать просто как перевернутое восходящее - от смысла высказывания к звучанию. Когда известен смысл, все дальнейшие процедуры излишни. Нисходящее восприятие есть процесс восприятия, который проходит ряд стадий от грубого, приблизительного оценивания объекта по некоторым очень абстрактным, общим признакам ко все более точному определению данного объекта в его конкретности со всеми только ему присущими свойствами [117].

Под абстрактностью процесса на начальных стадиях здесь понимают то, что объект в начале воспринимается огрублено, без деталей. Происходит замещение восприятия объекта его упрощенным аналогом, что есть один из видов абстракции. При этом вид абстракции не должен быть произвольным. Абстракция должна приближать конечную цель - распознавание смысла высказывания.

На основании высказанных предположений В. Б. Касевич делает два вывода: 1)уже первые стадии описания речевого сообщения должны использовать признаки, максимально коррелированные со смыслом высказывания; 2) в качестве таких признаков выступают просодические признаки: только просодика характеризует крупные единицы текста, обладающие некоторыми грамматическими, синтаксическими и лексическими свойствами, связанными с семантикой высказывания. Тем не менее, грубой семантизации, достигаемой за счет просодики, обычно недостаточно. Слушатель в процессе восприятия конкретизирует характеристики высказывания внутри просодических единиц с привлечением релевантной словарной и грамматической информации. При этом человек исходит из предположения, что слышимая речь осмысленна. Если в процессе восприятия он убедится в обратном, например, если в сообщении

117 встретятся бессмысленные слова, новые понятия и т.п., то возможен переход к собственно фонетическому анализу сообщения. Таким образом, восходящее восприятие также должно быть предусмотрено перцептивной системой. Вынужденный отказ от семантики не означает отказа от просодики как основного подхода к декодированию речевого сообщения на начальных этапах восприятия.

В целом, общая схема восприятия речи с учетом просодики может выглядеть следующим образом [117]. На первом этапе система восприятия выделяет отдельные высказывания на основе фразового ударения и пауз с учетом структуры интонационных контуров. На этом же этапе по структуре интонационного контура с привлечением некоторых добавочных признаков оценивается коммуникативный тип высказывания. На втором этапе система делит высказывание на синтагмы с использованием синтагмического ударения и определяет связь между синтагмами. Одновременно выполняется синтаксический анализ с использованием просодики и грамматики. На последующих этапах распознавания синтагмы расчленяются на слова, квазислова, ритмические группы, словоформы с использованием просодики и других средств языка. Только при недостаточности указанных средств человек переходит к анализу слогов и фонем. Это заключительный, причем часто необязательный в полном объеме этап.

4.2. Введение в солитонную модель речевого сигнала.

Рассмотренная выше модель нисходящего распознавания речи предполагает иерархическое построение дерева решений и поиск, начиная с верхних уровней иерархии к нижним. На каждом уровне иерархии, в случае необходимости, возможно уточнение характеристик выделенной иерархической единицы, последующая сегментация этой иерархической единицы и переход к более низким уровням иерархии. Можно сделать заключение, что при таком подходе

118 на первое место выходит поиск особенностей речевого сигнала, определяющих окончание одного и начала следующего информационного события в речевом сообщении. Другими словами, возникает необходимость в разработке методов анализа непрерывного сигнала, направленных на поиск единичных событий, расположенных на границах информационных единиц одного уровня иерархии. Выделенные единичные события служат маркерами этих границ. В ходе последующего анализа возможно оценивание параметров сигнала, расположенного между этими границами, в том числе, оценивание характерных признаков и характеристик, позволяющих отнести его к той или иной информационной единице. Подход, направленный на выполнение поиска единичных событий в непрерывном сигнале на начальных этапах распознавания, есть одно из основных положений предлагаемой в данной работе модели распознавания речи.

Простановка границ информационных единиц на непрерывном сигнале с последующим анализом характеристик сигнала внутри этих границ позволяет [85] устранить противоречие между непрерывной природой сигнала - носителя информации и дискретным характером представления самой информации.

В физике известен сигнал, называемый солитоном (Soliton - уединенная волна) [174], который сочетает в себе свойства непрерывности и корпускулярности. x-w Солитон представляет из себя локальный

Рис.4.2. Взаимодействие двух солитонов, при бегущий ВОЛНОВОЙ ИМПулЬС ИЛИ КОМПаКТ-котором одиночный пик не образуется [150] . ную когерентную группу волн. Он суще

119 ственно нелинеен и возникает благодаря равновесию двух эффектов, один из которых линеен, определяется дисперсией и способствует размыванию импульса, другой нелинеен и сжимает импульс.

Корпускулярность солитона проявляется не только в том, что он может передвигаться, сохраняя свою форму в виде уединенной волны одной полярности. Другое свойство солитона состоит в том, что два солитона, сталкиваясь, проходят друг через друга не теряя своих индивидуальных свойств (рис.4.2). При этом не возникает никакого излучения, процессом рассеивания не порождается никакой другой моды. Единственным последействием является фазовый сдвиг: каждый импульс оказывается сдвинутым на некоторое расстояние относительно того положения, в котором он находился бы, перемещаясь беспрепятственно. Еще одно важное свойство солитона состоит в том, что он допускает нелинейную суперпозицию N уединенных волн при произвольном N.

Примерами солитонов могут быть волны на мелкой воде, распространение акустических сигналов на значительные расстояния в вечерние часы, дислокации в кристаллической решетке, прохождение импульсаций по нервным волокнам [150].

Остановимся на некоторых свойствах солитона подробнее. Волна физического сигнала, проходя через неоднородность, например, через упругую опору, частично отражается, частично проходит через препятствие. При этом оказывается, что некоторые переменные прохождения через препятствие имеют солитонное решение [150], а именно, задается форма, скорость, амплитуда, собственная частота солитона. Эволюция рассеянных решений проста и линейна. N полюсов коэффициента прохождения, расположенные в верхней полуплоскости комплексной плоскости собственных чисел к, найденных для уравнения Шредингера

4.1)

120 где потенциал u(x,t) удовлетворяет нелинейному уравнению Кортеве-га-де Фриза

4.2) dt 4 ' ' дх дх5 приводят к N солитонам с амплитудами и скоростями, определяемыми значением собственного числа полюса коэффициента прохождения.

Солитонные следы позволяют восстановить солитонное решение на всем пространстве его существования. Для этой цели используют методы решения обратной задачи рассеивания, являющейся нелинейным аналогом'преобразования Фурье [174].

Уравнение для потенциала u(x,t), удовлетворяющего уравнениям (4.1) и (4.2) имеет вид [150]: u(x,t) = - — sec/г' х - ct)

4.3) где с - скорость распространения волны.

Солитонное решение требует достаточно точного соответствия линейной и нелинейной составляющих решения, чем можно объяснить относительно редкую возможность наблюдения солитонов в чистом виде в природе. Возвращаясь к процессу восприятия информации из непрерывного сигнала, можно отметить подобие между корпускулярностью и непрерывностью солитона, с одной стороны, и дискретностью информации и непрерывностью сигнала речи, переносящего информацию, с другой. Система, генерирующая или воспринимающая какое-либо сообщение, должна формировать дискретные информационные единицы из непрерывного сигнала, имеющие какие либо отметки начала и окончания. В качестве таких отметок могут быть использованы как естественные свойства сигнала, например, паузы дыхания на границах предложений, так и искусственно создаваемые изменения параметров сигналов на границах информационных единиц, например, изменения контура ОТ на стыках

121 синтагм. Эти устойчивые образования можно считать искусственными или генерируемыми солитонами: "Generated Soliton", сокращенно GS.

Определение. Под генерируемым солитоном будем понимать сигнал, начало и окончание которого каким-либо образом отмечены в непрерывном сигнале.

В смысле указанного определения конечный во времени сигнал есть частный случай сигнала GS. Отметим, что наличие информации о начале и окончании GS-сигнала, позволяет определить его положение в пространстве и времени. GS-сигнал верхнего уровня иерархии может состоять из некоторого количества GS-сигналов более низкого уровня иерархии. Каждый GS-сигнал нижнего уровня иерархии имеет границы начала и окончания, расположенные в пределах GS-сигнала верхнего уровня иерархии так, что окончание последнего GS-сигнала нижнего уровня иерархии совпадает с окончанием GS-сигнала верхнего уровня иерархии.

Понятие о GS-сигнале не противоречит известным из области распознавания фактам. Так, при распознавании зрительных образов, человек в первую очередь строит контур изображения с последующим уточнением составляющих образа, опять же путем первоначального выделения их контуров. Анализ знаменных песнопений [15] показывает, что большинство устойчивых сочетаний знамен оканчивается граничными знаменами. Разбиение знаменного текста на устойчивые группы сочетаний знамен по конечным знаменам значительно сокращает время выполнения указанного разбиения.

Предлагаемое понятие о генерируемом солитоне соответствует нисходящей модели распознавания речи, рассмотренной в предыдущем разделе. Так границы интонационного контура синтагм, как более низкой иерархической единицы, отличаются от границ между предложениями, как более высокой иерархической единицы, что было отмечено в обзоре, сделанном в главе 1. При этом синтагмическое ударение последней синтагмы совпадает с фразовым ударением предложения.

122

К GS-сигналам можно отнести многие типы сигналов, появляющиеся при анализе поведения физических систем. В качестве примера можно рассмотреть сигнал на выходе линейной системы. При каждом изменении характера сигнала на входе, в устойчивой линейной системе возникают переходные процессы, имеющие вид ехр(a 1t) или tк exp(<jjt), параметры которых сг(, <jj, к зависят только от параметров рассматриваемой линейной системы. Обнаружение собственных колебаний позволяет определить границы изменений сигнала на входе системы.

Остановимся на поведении речевого акустического сигнала на контуре основного тона. Этот процесс исследован в главе 3. Из выполненного исследования видно, что характер акустического сигнала в начале и в конце периода ОТ резко отличается. После схлопывания голосовых складок возбуждаются собственные колебания, определяемые формой речеобразующего тракта (формантами). Пока складки сомкнуты, речеобразующий тракт ведет себя подобно пассивной линейной системе. Начало собственных колебаний отмечает начало периода основного тона. После открывания голосовых складок, добротность речевого тракта падает, собственные колебания речевого тракта затухают, появляются новые колебательные процессы, определяемые резонансами подглоточной области. Акустический сигнал с измененной формой на интервале разомкнутых голосовых складок служит признаком окончания периода ОТ. Следовательно, акустический сигнал, ограниченный периодом основного тона, можно рассматривать как GS-сигнал.

4.3. Аппроксимация солитонного сигнала и его спектра.

В соответствии с формулой (4.3) огибающая солитона имеет вид sech х и в ряде случаев sech х [150]. Вид этих сигналов показан на рис.4.3. Наличие в

124 lim^i = lim sec/2 x = lim -— х\-юо \A~^coex+ex

Если x > 0, то при больших х е»ёх и слагаемым ех в знаменателе последнего выражения можно пренебречь. Если х < 0, то при больших /х/ е « ёх и в этом случае слагаемым ех можно пренебречь. Следовательно, limjj = lim sechx = 2e

4.6)

X—>00 x —>00 x

Из того, что ех > 0 и ёх> 0 при любых jc , следует, что

Ух = sechx<2 е Разложим / и ёх в степенной ряд:

2 3 4 y -в ОС ОС ОС е =1 + х + — + — +

4.7)

2! 3! 4!

2 3 4 v* ^ X X X = 1-Х +---+ ■

2! 3! 4!

Складывая эти два выражения и делая замену переменной w - xz / 2 , получаем

I 1 V

2 4 \ ех +е~х =2 1+ — + —+.

2! 4! . 2 л™ г, w 2 l + w + 4— + 8—4 I 4! 6! 2

3 \ 2

2 3 W W 1 + W + — + — + 2ev

Ч 2! 3!

Если w < 1, то членами, содержащими степени w выше или равной второй, можно пренебречь и указанное равенство переходит в равенство. Из последнего неравенства имеем:

У1 = SQchx = 2 х , -X е +е -w -х2/2 е — е

4.8)

Запишем совместно неравенства (4.7) и (4.8): е~х 12 <SQchx<2e~x . (4.9)

Из вывода неравенств (4.9) следует, что в области малых значений /х/ функция у] =sechx аппроксимируется экспонентой, имеющей квадратичную зависимость от аргумента (функция Лапласа, "колоколообразный" импульс), а в области больших значений Д/ экспонентой с линейным аргументом. Незави /2 симо от значений jxj е~х ограничивает sech х снизу, а 2<Г|х| - сверху.

Поскольку все части неравенства (4.9) положительны, то, возводя их в квадрат, получим:

ГХ <sec h2x<4e2x. (4.10)

ЗАКЛЮЧЕНИЕ

В диссертационной работе получены следующие новые научные результаты.

1. Диссертация есть первая научная работа в которой исследованы проблемы построения систем выделения частоты ОТ с использованием генерируемой функции, обеспечивающей принятие решения, вид которой зависит от предполагаемой структуры сигнала и ориентирован на поиск единичных событий в сигнале, расположеных на границах периодов ОТ. Экспериментально доказано, что указанный подход позволяет повысить надежность выделения основного тона, расширить диапазон допустимых искажений сигнала, снизить объем вычислений и время, необходимое для выделения основного тона.

2. Представлены результаты по изучению частоты ОТ как носителя информации. Показано, что основной тон, служащий одним из параметров просодики речи, переносит значительный объем информации о глобальных характеристиках речевого сообщения, используется человеком для сегментации речевого потока в процессе восприятия речи, связан с контекстом произнесения. Основной тон есть существенное отличие устной речи от письменной. Для извлечения полного объема информации, передаваемой контуром ОТ, необходимо оценивать мгновенные значения периода ОТ, моменты начал и окончаний вокализации, связанных с моментами начал и окончаний периодов ОТ.

3. Предложена классификация методов предварительной обработки речевого сигнала и методов выделения ОТ. Оценена их способности извлекать информацию из контура частоты ОТ. Методы, основанные на спектральном анализе, и методы, использующие корреляционные функции, не могут оценить момент начала периода ОТ. Для синхронного с ОТ анализа речи необходимо использовать методы выделения ОТ, основанные на анализе временной функции сигнала и имеющие высокое разрешение во времени.

253

4. Исследована способность средней частоты ОТ быть носителем информации о индивидуальности голоса диктора. Показано, что средняя частота ОТ сильно коррелирована с индивидуальностью голоса диктора. Однако она не может быть использована в качестве единственного признака индивидуальности голоса диктора.

5. Исследована структура речевого сигнала на периоде ОТ. Показано, что структура сигнала на интервале закрытых голосовых связок отлична от структуры сигнала на интервале открытых голосовых связок. Раздельный анализ интервалов открытых и закрытых голосовых связок может быть выполнен только синхронно с ОТ. В качестве минимального по длительности интервала с постоянными параметрами речевого тракта, включая тип возбуждения, на вокализированных интервалах речи может быть принят период ОТ.

7. Разработан алгоритм выделения ОТ, основанный на предложенной модели распознавания речи. Реализация алгоритма доказывает возможность применения предложенной теоретической модели, позволяющей повысить надежность, снизить вычислительные затраты и уменьшить время при решении задач распознавания.

8. Предложен синхронный с ОТ анализ речи, на основе которого разработан алгоритм принятия решения Т/НТ, синхронный с ОТ. Синхронное с ОТ принятие решения Т/НТ повышает надежность оценивания наличия и отсутствия вокализации в речевом сигнале и существенно снижает время принятия решения.

9. Предложен количественный критерий получения оценки качества предварительной обработки, основанный на измерении дисперсии задержки сигнала после предварительной обработки. Критерий позволяет количественно

254 оценить качество предварительной обработки и, тем самым, выбрать параметры фильтров предварительной обработки.

10. Предложены новые методы предварительной обработки речевого сигнала путем сглаживания сигнала всплесковым окном. Предложена форма всплеского окна. Выполнен сопоставительный анализ ряда методов предварительной обработки. Показано, что среди сравниваемых типов окон предложенная форма всплеского окна обеспечивает минимальную дисперсию задержки. В ряде случаев, например при обработке сигнала, ограниченного полосой телефонного канала, дисперсию задержки можно снизить при помощи операции предельного ограничения. Даны рекомендации по выбору параметров фильтров и параметров сглаживающих окон на основе критерия минимума дисперсии задержки.

11. Разработан комплекс алгоритмов по выделению ОТ по предложенному методу выделения основного тона совместно с синхронным с ОТ принятием решения Т/НТ. Алгоритм обеспечивает адаптацию функции , обеспечивающей принятие решения, к текущему значению периода ОТ и коррекцию одиночных ошибок принятия решения Т/НТ. Алгоритм способен работать с непрерывным сигналом речи в реальном масштабе времени.

12. Предложен критерий для оценивания качества работы алгоритма выделителей ОТ в виде обобщенной ошибки. Получена оценка параметров алгоритма, обеспечивающих минимизацию обобщенной ошибки выделения ОТ. Выполнен сопоставительный анализ предложенного алгоритма выделения ОТ с известными алгоритмами выделения ОТ.

255 ниях сигнал/шум, с сигналами, полоса которых ограничена полосой телефонного канала, и с предельно ограниченными по амплитуде сигналами. Предложенные подходы обеспечивают работу разработанных алгоритмов в масштабе времени меньше реального при минимальном числе настроек и регулировок, в том числе, для непрерывного сигнала речи. Предложенные теоретические подходы позволили разработать алгоритмы и программы анализа сигналов в задачах технической диагностики, используемых на производстве и в учебном процессе

При оптимальном подборе параметров и при использовании на этапе предварительной обработки сглаживания всплесковым окном, предлагаемый метод обеспечивает на чистом сигнале 0,5 % ошибок НТ/Т, 0,4 % ошибок Т/НТ, 1,0 % больших ошибок и 0,5 % малых ошибок (обобщенная ошибка 4,0 %) для мужского голоса, 1,3 % ошибок НТ/Т, 0,9 % ошибок Т/НТ, 0,3 % больших ошибок и 5,2 % малых ошибок (обобщенная ошибка 5,2 % ) для женского голоса.

На сигнале с аддитивным белым шумом при С/Ш =10 дБ, в случае предобработки фильтром низких частот, обобщенная ошибка возрастает до 14,4 % для мужского голоса и до 24,0 % для женского за счет роста количества ошибок НТ/Т и малых ошибок. Обобщенная ошибка выделения ОТ клиппирован-ного сигнала составила 13,6 % для мужского голоса за счет существенного увеличения количества ошибок Т/НТ. Повышение надежности принятия решения Т/НТ по неискаженному сигналу повышает надежность выделения ОТ по клиппированному сигналу до уровня, сравнимого с надежностью выделения ОТ по чистому сигналу как для мужского, так и для женского голоса. Обобщенная ошибка для сигнала, ограниченного полосой телефонного канала составила 14,0 % для мужского голоса и 16,4 % для женского.

Сопоставительные испытания с известными методами выделения ОТ показали, что предлагаемый метод был предпочтительнее на всех типах сигналов, кроме чистого, где несколько лучшие результаты дал метод JIJIK.

256

Выполненные в рамках работы исследования по получению оценок индивидуальных характеристик голоса нашли применение в криминалистических системах идентификации человека по голосу. Предложенные и разработанные в рамках настоящей работы теоретические положения и практические алгоритмы использованы в системах технической диагностики и учета и в системах по обработке акустических сигналов, внедренных на предприятиях ОАО "Ижмаш", ОАО "Вятско Полянский машиностроительный завод", в учебном процессе и в научно-исследовательской работе на кафедре ВТ ИжГТУ.

257

Библиография Гитлин, Валерий Борисович, диссертация по теме Информационно-измерительные и управляющие системы (по отраслям)

1.Акинфиев Н.Н., Собакин А.Н. Преобразование речевых сигналов для целей выделения основного тона // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 8 Всесоюзн. школы-семинара. - Львов, 1974, - 4.2. - С. 6-8.

2. Архипов И.О. Гитлин В.Б. Восстановление периодичности основного тона в телефонном сигнале // Распознавание образов и анализ изображений: новые информационные технологии, Новосибирск, 1998. с. 1822.

3. Архипов И. О., Гитлин В. Б. Добавление шума при сегментации речи на тональные участки // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий. -Ижевск, 1997. С.63-69.

4. Архипов И.О. Гитлин В.Б. Метод выделения основного тона на основе понятия о генерируемом солитоне // Распознавание образов и анализ изображений: новые информационные технологии, Новосибирск, 1998.-Часть 1.-С. 23-27.

5. Архипов И.О. Гитлин В.Б. Оценка точности выделения основного тона методом GS // Современные речевые технологии. Сб. тр. IX сессии Российского акустического обществам.: "ГЕОС", 1999. С.38-42.

6. Архипов И.О. Гитлин В.Б. Оценка частоты среза ФНЧ, используемого для выделения основного тона // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий". Ижевск, 1998, С. 12-16.

7. Архипов И. О. Сегментация речи по признаку "ТОН/НЕ ТОН" синхронно с основным тоном // Труды научно-молодежной школы "Информационно-измерительные системы на базе наукоемких технологий. -Ижевск, 1998. С.5-8.

8. Ю.Архипов И.О. Гитлин В.Б. Формирование признака ТОН/НЕ ТОН синхронно с основным тоном // Современные речевые технологии. Сб. тер. IX сессии Российского акустического общества М.: "ГЕОС", 1999. С. 4346.

9. П.Лазунов С.И., Тарасов А.И., Тираспо льский Ю.И., Якушонков Г.А. К вопросу о статистике основного тона // Вопросы кибернетики. Анализ и синтез речи в системах управления. М., 1981. С. 75-80.

10. Баранин С.П., Куштуев А.И. О построении системы адаптации анализаторов частоты основного тона речи // 7 Всесоюзн. акуст. конф.: Тез. докл.-Л., 1971.-С. 18.

11. И.Баронин С.П. Статистические методы анализа речевых сигналов // Электросвязь. 1966. N 5. - С. 50-56.

12. И.Баронин С.П., Куштуев А.И. Устройство для измерения частоты основного тона речевых сигналов. А.с. N 280561 СССР, МКИ Н04М 11/10, 01Н, оп. 03.09.70.

13. Бахмутова И. В., Гусев В. Д., Титкова Т. Н Принципы формирования словарей для дешифровки знаменных песнопений. //259

14. Распознавание образов и анализ изображений: новые информационные технологии, Новосибирск, 1998,-Часть 1.-С.37-41.

15. Башин Е.Ф., Галунов В.И., Горский Г.Д., Манеров В. X. Объективная диагностика эмоционального состояния в психиатрической клинике по речи // Речь и эмоции: Материалы симпозиума 11-14 ноября 1974 г. -Л., 1975.-С. 69-74.

16. Беликов А.П., Карасев И.А., Тунис К.В. Устройство для измерения параметров речи. А.с. N 807381 СССР, МКИ 10 1/00, заявл. 27.04.79, оп. в BHN 7 23.02.81.

17. Белявский В.М., Ежова J1.B. Спектрально-временные признаки для сегментации речи по звукам // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 8 Всесоюзн. школы-семинара. Львов, 1974, - 4.2. - С. 32-37.

18. Блохина Л.П. Восприятие макромодуляции частоты ОТ в речевом сигнале // Автоматическое распознавание слуховых образов: Тез. докл. и сообщен. 17 Всесоюзн. семинара. Ижевск, 1992. С. 11-114.

19. Блохина Л.П. О возможности использования модуляции частоты основного тона в автоматическом распознавании эмоциональных состояний // Акустика речи и слуха: Материалы докл. и сообщ. 5 Всесоюзн. совещания-симпозиума. Одесса, 1989. С. 30-40.

20. Бровченко Т.А., Волошин В.Г. Роль текстологической просодической информации в повышении выразительности синтезированной речи // Акустика речи и слуха: Материалы докл. и сообщ. 5 Всесоюзн. совещания-симпозиума. Одесса, 1989. С. 42-45.

21. Бровченко Т.А., Волошин В.Г. Связи и взаимодействие просодических характеристик высказывания // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 12 Всесоюзн. школы-семинара. Киев, 1982. - С. 227-230.260

22. Бровченко Т.А., Королева Т.М., Могилевский В.И. Синтез оптимального комплекса линейных алгоритмов распознавания ударных слогов // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 12 Всесоюзн. школы -семинара. Киев, 1982. - С. 339-342.

23. Брызгунова Е.А. Звуки и интонация русской речи. М., 1969.252 с.

24. Борисов В.Н., Гитлин В.Б. Аппаратно-программный комплекс с интерфейсом КОП на базе ДВК для цифровой обработки сигналов // Ученые Ижевского механического института производству. Тезисы докладов. -Ижевск, 1992,-С. 12.

25. Борисов В.Н., Гитлин В.Б. Аппаратно-программный комплекс обработки речевых сигналов // Автоматическое распознавание и синтез речевых сигналов. Киев, 1989. - С. 93-96.

26. Борисов В.Н., Гитлин В.Б., Вахрушева Е. А., Каратаев В.Н. Мультивибратор на ИС с одним устойчивым состоянием, имеющий принудительный сброс // Дискретные системы обработки информации. Ижевск, 1992. - Вып.11.- С.75-78.

27. Борисов В.Н., Гитлин В.Б. Корреляционный метод выделения основного тона с использованием параллельной фильтрации // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 16 Всесоюзн. семинара. М, 1991.-С. 102-103.

28. Ван дер Варден Б. Л. Математическая статистика. М.: И.Л., 1960

29. Варякоис А.К. К вопросу надежности выделения некоторых сегментных признаков речевого сигнала // Техническая кибернетика: Материалы конференции "Развитие техн. наук в респ. и использование их результатов". Вильнюс, 1979. - С. 84-86.

30. Величко В.Г., Нудельман Н.А., Шпигель И.Е. О статистике приращений соседних периодов основного тона // Тр7 учебн. ин-в связи, 1965. Т. 25. - С. 183-190.

31. Вентцель Е. Н. Теория вероятностей. М.: Физматгиз, 1962.

32. Венцов А.В. О механизме образования глухих и звонких интервокальных согласных // Модели восприятия речи: Международн. фонетический конгресс. М.-Л., 1966. -С. 103-104.

33. Венцов А.В. О работе голосовых связок при глухих смычных интервокальных согласных // Механизмы речеобразования и восприятия сложных звуков. М.-Л.: Наука, 1966. - С. 62-72.

34. Власов Е.В., Сорокин В.Н. Исследование акустических эффектов вертикальных колебаний голосовых связок / Акустический журнал, 1983.-Т. 29. Вып.1. - С. 11-18.

35. Власов Е.В., Сорокин В.Н. Новые элементы в проблеме голосообразования // Исследование речи: Тез. докл. и сообщ. Всесоюзн. школы-семинара (Гродно, 13-18 сентября 1981). JL, 1981. - С. 26-27.

36. Войцеховский П.Н. Об универсальных просодических признаках экспрессивно-волевой насыщенности приказа // Акустика речи и слуха: Материалы докл. и сообщ. 5 Всесоюзн. совещ.-симпозиума. Одесса, 1989. - С. 56-57.

37. Вокодерная телефония. Под ред. Пирогова А.А. М.: Связь, 1974. -536 с.

38. Волошенко Ю.Я. и др. О регистрации частоты колебаний голосовых связок // Техника проводной связи. 1968, N7 С. 30-37.

39. Высоцкий Г.Я., Сомин Н.В., Трунин- Донской В.Н., Червонный В.К. Алгоритм выделения основного тона спектральными методами на ЭВМ среднего класса // Дискретная обработка речевых сигналов. -М.: ВЦ АН СССР, 1979. С. 36-66.263

40. Галунов В.И., Пиктурна В.В., Янушавичус В.Й. Акустические корреляты эмоциональной речи // Акустика речи и слуха: Материалы докл. и сообщ. 5 Всесоюзн. совещ.-симпозиума. Одесса, 1989. - С. 16-25.

41. Галунов В.И., Коваль С.Д., Тампель И.Б. Биофизика речеобразования // Модели речевого процесса в норме и патологии: Докл. и сообщ. Всесоюзн. симпозиума (13-15 июня 1979 г. Гродно). Л., 1980.

42. Галунов В.И., Тампель И.Б. Механизм работы голосового источника/ Акустический журнал. Т. 27. - Вып. 3, 1981. - С. 321-334.

43. Галунов В.И., Коваль С.Л., Тампель И.Б. Проблемы акустической теории речеобразования // Вопросы кибернетики. Анализ и синтез речи в системах управления. М., 1981. - С. 60-74.

44. Галунов В.И., Сомин Н.В., Тарасов А.И., Трунин-Донской В.Н., Якушенков Г.А. Спектральные методы выделения основного тона // Вопросы кибернетики. Анализ и синтез речи в системах управления. М., 1976 - Вып. 22. - С. 28-38.

45. Гейльман Н.И., Куколыциков Л.Е., Штерн А.С. Распределение длительностей пауз различных типов в спонтанной диалоговой речи // Реф. докл.8 Всесоюзн. акустич. конф. М.,1973. - С. 66.

46. Гейльман Н.И., Скрелин П.А., Рыжова Ю.В. Теоретические и прикладные аспекты распознавания слитной речи // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 15 Всесоюзн. семинара Таллин, 1989. - С. 268-269.

47. Гикис И.И. Способ выделения основного тона речи. А.с. N 333580 СССР, МКИ 10 1/04, 06К 9/00.-Оп. 21.03.72 в БИ N 11, 1972.

48. Гитлин В.Б. Амплитудный детектор на МДП транзисторе с расширенным динамическим диапазоном // Дискретные системы обработки информации Ижевск: Ротапринт ИМИ, 1992. - Вып. И. - -С. 85-90.264

49. Гитлин В.Б., Новоселов В.Н., Сметанин A.M., Сорокин C.JI., Тихонов Г.А., Шуткин В.Е. Аппаратура обработки речевого сигнала // Вопросы радиоэлектроники. Электронная вычислительная техника. Вып. 4, 1979. - С. 77-85.

50. Гитлин В. Б., Макаров А. В., Паклина Н. В. Аналого-цифровые устройства обработки речевых сигналов // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание слуховых образов" (АРСО-13). Новосибирск, 1984. - Часть I. - С. 113.

51. Гитлин В. Б. Аппроксимация огибающей солитонного сигнала.// Сб. научн. тр. аспирантов и преподавателей ИжГТУ. Ин-т технологических наук и проблем конструирования в промышленности. Ижевск, 2000, - С. 2226.

52. Гитлин В. Б. Временные методы выделения основного тона // Ученые Ижевского технического университета производству. Тезисы докладов кафедры "Вычислительная техника" ИжГТУ. - Изд-во "Экспертиза": Ижевск, 1996. - С. 18-19.

53. Гитлин В. Б. Новоселов В.Н. Влияние повторных возбуждений на форму спектра формантного сигнала // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание и синтез речи" (APCO-IX). -Минск. 1976. - С. 53.

54. Гитлин В. Б., Кузнецов П.Г. Влияние числа резонансных звеньев в анализирующем фильтре на результаты измерения спектра // Известия высших учебных заведений. Радиоэлектроника. Т. XIII. - №11, 1970.-С. 1388-1389.

55. Гитлин В. Б., Кузнецов П.Г. Влияние ширины полосы пропускания фильтра на результаты измерения спектра // Автоматические устройства учета и контроля. Ижевск: Удмуртия, 1970. - Вып. VI. - С. 135-141.

56. Гитлин В. Б. Динамическая резонансная характеристика полосового фильтра с двумя взаимно расстроенными звеньями // Автоматические устройства учета и контроля. Ижевск: Удмуртия, 1970. -Вып. VI.-С. 127-135.

57. Гитлин В. Б. Идентификация диктора по частотам формант, измеренным синхронно с основным тоном // Elleventh Int. Congr. Phonetic Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol 4 - P. 82-85.

58. Гитлин В. Б. Сметанин A. M. Сорокин С.JI., Шуткин В.Е. Идентификация дикторов по частотам формант // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. И Всесоюзн. школы-семинара. Ереван, 1980. -С. 164-166.

59. Гитлин В. Б. Исследование частоты основного тона и формант как признаков индивидуальности голоса. Разработка быстродействующих методов их выделения / Диссертация на соискание ученой степени кандидата технических наук. Ижевск, 1974. - 266 с.266

60. Гитлин В. Б. К вопросу расчета формантных фильтров методом упрощенного преобразования Лапласа // Автоматические устройства учета и контроля. Ижевск, 1977. - Вып. 11. - С. 83-91.

61. Гитлин В. Б. Сметанин А. М. К задаче построения анализатора спектра речевого сигнала // Автоматические устройства учета и контроля. Ижевск, 1974. - Вып. IX. - С. 10-11.

62. Гитлин В. Б., Сметанин А. М., Тихонов Г.А Логарифмический преобразователь синусоидального сигнала большой амплитуды // Автоматические устройства учета и контроля. Ижевск, 1976. -Вып. 10.-С. 46-47.

63. Гитлин В. Б. Модели голосового источника и методы выделения основного тона // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание слуховых образов" (АРСО-13). Новосибирск, 1984. - Часть I. -С.79.

64. Гитлин В. Б., Кузнецов П.Г., Тихонов Г.А. Нормализатор динамического диапазона речевого сигнала // Автоматические устройства учета и контроля. Ижевск: Удмуртия, 1970. - Вып. VI. - С. 119-127.

65. Гитлин В. Б. Об измерении формантных частот синхронно с основным тоном // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание и синтез речи" (APCO-IX). Минск. - 1976. - С.54.

66. Гитлин В.Б., Новоселов В.Н., Сметанин A.M., Сорокин С. Л. Оценка влияния аппаратуры на измерение формантных параметров // Электросвязь. № 12, 1981. - С. 31-33.267

67. Гитлин В. Б., Тихонов Г.А. Об одном методе извлечения формант // Автоматические устройства учета и контроля. Ижевск, 1974. -Вып. IX.-С. 155-158.

68. Гитлин В.Б., Сметанин A.M. О повышении точности измерения параметров формант // Проблемы построения систем понимания речи. М.: Наука, 1980. - С. 109-115.

69. Гитлин В. Б. О статистических параметрах основного тона речи (обзор) // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание слуховых образов" (АРСО-14). Каунас, 1986. - Часть I. - СЛ.

70. Гитлин В.Б. Основной тон речевого сигнала / Деп. в ВИНИТИ, 1998. № 1206-В98. - 739 с.

71. Гитлин В. Б. Сметанин А. М. О точности измерения частоты формант // Тезисы Всесоюзной школы-семинара "Автоматическое распознавание и синтез речи" (APCO-IX). Минск. - 1976. - С.53.

72. Гитлин В. Б. Новоселов В.Н. Определение участков измерения ширины формант по временной функции речевого сигнала // Дискретные системы обработки информации. Ижевск, 1979. - Вып.2. - 81-85.

73. Гитлин В. Б. Применение понятия о генерируемом солитоне для выделения особенностей речевого сигнала // Распознавание образов и анализ изображений: новые информационные технологии, Новосибирск, 1998. Часть I. С. 64-68.

74. Гитлин В.Б., Кузнецов П.Г., Тихонов Г.А. Переключающая схема для устройства выделения основного тона // Автоматические устройства учета и контроля. Ижевск: Удмуртия, 1973. -Вып. 8. - С. 223-228.268

75. Гитлин В. Б. Сметанин А. М. Расчет формантных фильтров// Известия высших учебных заведений. Радиоэлектроника, 1976. Т. XIX. - Вып. 8.-С. 98-100.

76. Гитлин В.Б., Новоселов В.Н., Сметанин A.M., Шуткин В.Е. Способ задержки импульсных сигналов// А.с. N 712942 СССР, МКл2 НОЗК 5/153. Опубл. В БИ№4 30.01.80.

77. Гитлин В. Б. Спектральные методы выделения основного тона // Ученые Ижевского технического университета производству. Тезисы докладов кафедры "Вычислительная техника" ИжГТУ. - Ижевск: Изд-во "Экспертиза", 1996. - С.20-21.

78. Гитлин В.Б., Книппер А.В., Сметанин A.M., Сорокин C.JI., Шуткин В.Е. Устройство для выделения основного тона речи. А.с. N 714474 СССР, МКИ 10 1/00. Оп. в БИ N 5 05.02.80.

79. Гитлин В. Б. Устройство для задержки импульсов. А.с. N 1046924 СССР, МКИ НОЗК 5/13. Оп. в БИ N 37 07.10.83.

80. Гитлин В. Б., Гараев Р. М., Лялин В. Е., Кузнецов П. Г. Устройство для селекции признаков при распознавании образов. А.с. N 1084833 СССР, МКИ G06K 9/36. Оп. в BHN 13 07.04.84.

81. Гитлин В. Б. Частоты формант как признак индивидуальности голоса // Тезисы и аннотации докладов и сообщений всесоюзного симпозиума "Речь, эмоции и личность". Ленинград, 1978. - С. 13.

82. Горский С.М., Молева Т.П., Томаров В.П., Шаков В.Ю. Изменение спектральных линий гласных звуков при некоторых видах269дисфоний // Исследование речи: Тез. докл. и сообщ. Всесоюзн. школы-семинара (г. Гродно, 13-18 сент. 1981 г.) Л., 1981. - С. 32-33.

83. Гретен А.Г., Молева Т.П., Томаров В.П., Федорова В. К. Коррелятивный анализ возрастных изменений речевого спектра и морфологии голосовых связок // Исследование речи: Тез. докл. и сообщ. Всесоюзн. школы-семинара (г.Гродно, 13-18 сент.1981 г.)

84. Гулида В.Б., Светозарова Н.Д. О типологическом сходстве интонационных систем // Экспериментально-фонетический анализ речи. Л.: Изд-во ЛГУ, 1989. - С. 106-113.

85. Деч Г. Руководство к практическому применению преобразования Лапласа и Z-преобразовния. М.: "Наука". Гл. ред. Ф.-М. лит-ры, 1974. 289 с.

86. Дворжецкая М.П., Еременко Г.Е. Просодия интенсивности эмоциональных оценок в тексте // Акустика речи и слуха: Материалы докл. и сообщ. 5 Всесоюзн. совещ.-симпозиума. Одесса, 1989. - С. 65-67.

87. ЮО.Джапаридзе З.Н., Тушишвили A.M. Организация интонационных контуров при компилятивном синтезе грузинской речи // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 16 Всесоюзн. семинара. Москва, 1991. - С. 73-74.

88. Дроздов Е. А., Пятибратов А. П., Автоматическое преобразование и кодирование информации. М.: Советское радио, 1964

89. И щ е н к о С. М. Экспериментальное исследование и математическая модель слухового механизма анализа периодичности / Акустич. журнал, 1987. -N3.-C. 498-503.

90. Ш.Кантер Л.А. Системный анализ речевой интонации. М.: Высшая школа, 1988. - 129 с.

91. Кар невская Е.Б. Выбор мелодического контура при автоматическом синтезе речи // Автоматическое распознавание слуховых271образов: Тез. докл. и сообщ. 15 Всесоюзн. семинара Таллин, 1989. - С. 281282.

92. ИЗ.Карневская Е.Б. Лингвистические принципы просодической организации речи при многоязычном синтезе // Автоматическое распознавание и синтез речевых сигналов. Киев, 1989. - С. 124-128.

93. Н.Карневская Е.Б., Лобанов Б.М. Модели синтеза мелодического контура русских и английских фраз // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 12 Всесоюзн. школы-семинара. Киев, 1982. - С. 399-402.

94. Пб.Касевич В.Б., Шабельникова Е.М., Рыбин В.В. Ударение и тон в языке и речевой деятельности. Л.: Изд-во ЛГУ, 1990. - 248 с.

95. Кейтер Дж. Компьютеры синтезаторы речи. - М.: Мир, 1985.238с.

96. Кельманов А.В. Алгоритм анализа речевых сигналов по искаженным наблюдениям // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 15 Всесоюзн. семинара. Таллин, 1989. - С. 206-207.

97. Кельманов А.В. Алгоритм выделения основного тона по разностной функции ряда остаточных ошибок модели авторегрессии // Вычислительные системы. Методы обнаружения закономерностей с помощью ЭВМ. Новосибирск, 1981. - Вып. 91. - С. 113-124.

98. Кельманов А.В. Алгоритм классификации тон/шум по частотным автокорреляциям // Вычислительные системы. Эмпирическое предсказание и распознавание образов. Новосибирск, 1980. - Вып. 83. - С. 67-73.272

99. Кельманов А.В. О некоторых алгоритмах классификации тон-шум и выделении траектории основного тона // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. школы-семинара. Ереван, 1980. -С. 88-90.

100. Кемешис П.П., Рудженис А.И., Руткаускас Р.А. О возбуждении формантного синтезатора // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 12 Всесоюзн. школы-семинара. Киев, 1982. - С. 402-404.

101. Книппер А.В., Махонин В.А. Микровариации в речевом сигнале // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 10 Всесоюзн. школы-семинара. Тбилиси: Мецниереба, 1975. - С. 3536.

102. Книппер А.В., Махонин В.А., Орлов И.Л. Элементы формантного анализатора // Распознавание образов. М.: Наука, 1977. - С. 9096.

103. Кодзасов С.В. Просодическая концепция фонетической базы данных ИРЯ РАН // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 17 Всесоюзн. семинара. Ижевск, 1992. - С. 87-89.

104. Колоколов А.С. Исследование восприятия высоты в высокочастотной области // Автоматическое распознавание слуховых образов: Тез. доел, и сообща. 12 Всесоюзн. школы-семинара. Киев, 1982. - С. 103-105.

105. Колоколов А.С. Модель временного механизма анализа высоты звука // Проблемы управления в технике, экономике, биологии. М.: Наука, 1981. -С. 155-161.

106. Колымба С.В., Нушикян Э.А., Пирогова А.А. Акустические корреляты эмоционально окрашенных фраз, выражающих зону гнева, одобрения, иронии в современном английском языке // Речь и эмоции: Материалы симпозиума. Л.,1975. - С. 90-95.

107. Колымба С.Н. Обобщенный тональный контур фраз, выражающих оттенки гнева // Акустика речи и слуха: Материалы докл. и сообщ. 5 Всесоюзн. совещ.-симпозиума. Одесса, 1989. - С.82-84.

108. Кривнова О.Ф. Интонационное членение как средство управления процедурой смыслового распознавания // Экспериментальная фонетика. М.: Изд-во МГУ, 1989. - С. 112-124.

109. Кривнова О.Ф., Венцов А.В. Об интонационном членении некоторых типов предложений русского языка // Анализ речевых сигналов человеком. -Л.: Наука, Л.О., 1971. С. 161-172.

110. Крылов Ю.Д., Романов С.Ф. Разработка программно-аппаратных средств речевого общения с ЭВМ / Учебное пособие. Л., 1988.

111. Кузаков A.M., Егоров А.И. Процедура сегментации речевого сигнала // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 12 Всесоюзн. школы-семинара. Киев, 1982. 106-108.274

112. Кузнецов П.Г., Гитлин В.Г. Идентификация голосов по средней частоте основного тона // Применение вычислительной техники в машиностроении. Ижевск, 1977. - С. 68-74.

113. Кузнецов П. Г. Исследования по автоматическому распознаванию и идентификации голосов / Диссертация на соискание ученой степени кандидата технических наук. Казань, 1970.

114. Кузнецов П.Г., Гитлин В. Б., Чепкасов А.Г. Спектральный анализатор речевых сигналов // Автоматические устройства учета и контроля. Ижевск: Удмуртия, 1970. - Вып. VI. - С. 102-118.

115. Куколыцикова Л.Е., Светозарова Н.Д., Штерн А.С. Роль ключевых и фонетически выделенных слов в распознавании связного текста // Автоматическое распознавание слуховых образов: Туз. докл. и сообщ. 14 Всесоюзн. семинара. Каунас, 1986. - С.110.

116. Кучер Н.Ф., Епифанцев Б.Н. Интономер // Известия Томского политехнического института. Т. 246, 1974. - С. 35-38.

117. Куштуев А.И., Баронин С.П. Устройство выделения основного тона. А.с. N 573810 СССР. Оп. 25.09.77, МКИ 10 1/02 в БИ N 35.

118. Лепешкин В.А., Пак С.П., Родионов И.Е. Простой многоканальный выделитель основного тона // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. школы-семинара. Ереван, 1980. - С. 62-63.

119. Л и У. А. Применение просодического анализа для распознавания речи // Методы автоматического распознавания речи. М.: Мир, 1983. - Книга 1.-С. 224-276.

120. Лившиц М.С. Моделирование слуховых механизмов измерения высоты звука / Биофизика, 1989. Т. 33. - N 4. - С. 708-712.

121. Лобанов Б.М. Исследование и разработка методов автоматического синтеза речи по фонемному тексту / Автореферат275диссертации на соискание ученой степени доктора технических наук. Рига, 1984. - 50 с.

122. Лозовский B.C. Модифицированный разностный метод определения основного тона речи // Тр. АКИН, 1970. Вып. 12. - С. 189-193.

123. Лужбин Н.А. Алгоритм выделения мелодической кривой для эмоциональной речи // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. школы-семинара. Ереван, 1980. - С. 189.

124. Лэм Дж. Л. Введение в теорию солитонов. М.: "Мир", 1983. - 296 с.

125. Люблинская В.В. Воспроизведение простых контуров изменения частоты основного тона звуков // Анализ речевых сигналов человеком. Л.: Наука, Л.О., 1971. - С. 66-74.

126. Люблинский И. А., Яхно В. П. Исследование и моделирование механизмов восприятия ритмических сигналов // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 8 Всесоюзн. школы-семинара. Львов, 1974. - 4.1. - С. 48-50.

127. Люблинский И.А., Яхно В.П. Модель слухового механизма выделения ритмического рисунка сигнала из шума // Тр. ин-та пробл. управл., 1980.-N24.-С. 42-47.

128. Людовик Е.К., Федоринчик С.М. Алгоритм для определения мгновенной длины периода основного тона // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. школы-семинара. Ереван, 1980. - С. 64-66.

129. Людовик Е.К. Выделение основного тона, основанное на Марковской модели // Elleventh Intern. Congr. Phonetic Sci.: Proc./ XI ICPhS.-Tallin, 1987. Vol. 4. - P. 62-65.

130. Людовик Г.В. Особенности транскрибирования текстов для синтеза многоязычной речи // Автоматизация дедуктивных построений, распознавание образов и интеллектуальные роботы: Сб. научн. тр. Киев, Ин-т кибернетики, 1978. - С. 65-71.276

131. Малафеева Н.В., Полканов С.И. Выделение основного тона на основе произведения гармоник спектра // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ, 15 Всесоюзн. семинара. Таллин, 1989. -С. 214-215.

132. Манеров В.Х. Анализ эмоциональных неречевых звуков // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 10 Всесоюзн. школы-семинара. Тбилиси: Мецниереба, 1978. - С. 222-223.

133. Манеров В.Х. Исследование взаимосвязи перцепторных и акустических коррелятов свойств говорящего // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 15 Всесоюзн. семинара. -Таллин, 1989. -С. 216.

134. Маркел Дж. Д., Грэй А.X. Линейное предсказание речи. М.: Связь, 1980. - 308 с.

135. Мартынов B.C. Статические параметры основного тона речи / Автореферат диссертации на соискание ученой степени кандидата технических наук. Л., 1964.

136. Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. Санкт-Петербург. С. Петербург, 1997. - 394 с.

137. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. М.: Радио и Связь, 1987. - 168 с.

138. Михеев Ю.В. Статистический закон распределения периодов основного тона русской речи // Акустический журнал, 1970. Т. 16. - N 4. - С. 558-562.

139. Надеина Т.М., Бродовская С.Л., Парнева И.В. Восприятие в шуме слов разных степеней просодической выделенности // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 13 Всесоюзн. школы-семинара. Новосибирск, 1984. - Ч. 2. - С. 12-13.277

140. Надеина Т.М. Исследование зависимости между просодической выделенностью и смысловой значимостью слов в тексте // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 13 Всесоюзной школы-семинара. Новосибирск, 1984. - Ч. 2. - С. 9-11.

141. Надеина Т.М. Степень ударности в односинтагменной фразе // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 12 Всесоюзн. школы-семинара. Киев, 1982. - С. 259-261.

142. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и Связь, 1985. - 176 с.

143. Николаева Т.М. Типология интонации и акцентное выделение. Экспериментально-фонетический анализ речи. Л.: Изд-во ЛГУ, 1989. - С. 113-122.

144. Никонов А.В., Попов В. А. Особенности структуры речи человека оператора в стрессовых условиях // Речь и эмоции: Материалы симпозиума. Л., 1975. - С. 11-16.

145. Норейка С.Ю. Исследование методов и разработка аппаратуры анализа траекторий основного тона речи / Автореф. дисс. на соиск. ученой степени к.т.н. Каунас, 1983. - 22 с.

146. Нушикян Э.А. Роль тональных характеристик в передаче эмоционального состояния говорящего // Речь и эмоции: Материалы симпозиума. Л., 1975. - С. 11-16.

147. Нушикян Э.А., Волошин В.Г. Использование вариативности восприятия и акустических параметров эмоциональной речи для верификации диктора // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 16 Всесоюзн. семинара. М., 1991. - С. 201-202.

148. Ньюэл А. Солитоны в математике и физике. М.: "Мир", 1989.- 328 с.174.0бжелян Н.К., Орлов Г.Ж., Попова О.Н., Пятков B.C.

149. Пакерис А.Ю. Акустическая структура просодии литовского литературного языка / Автореферат диссертации на соискание ученой степени доктора филологических наук. Вильнюс, 1983. - 48 с.

150. Петленко Б.И., Бутырский Л.С. Речевая связь в искусственных атмосферах. М.: Связь, 1978. - 144 с.

151. Петров К.С. К вопросу о статистике основного тона речи // Тр. учебн. ин-ов связи: М-во связи СССР. М., 1968.- Вып.37. - С. 64-70.

152. Полищук С. И. Особенности выражения логической экспрессивности в диалогической и монологической формах речи // Акустика речи и слуха: Материалы докл. и сообщ. 5 Всесоюзн. совещ.-симпозиума. -Одесса, 1989. С. 107-109.

153. Поспелов Б.В. К вопросу о собственном тоне русских гласных // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 16 Всесоюзн. семинара. -М., 1991. С. 171-172.

154. Ш.Поспелов Б.В., Каплун М.И., Долотин К.И. Микровариации речевого сигнала: проблемы, оценки и применение // Автоматическое распознавание слуховых образов: Тез. докл. и сообщен. 12 Всесоюзн. школы-семенара. Киев, 1982. - С. 47-49.

155. Поспелов Б.В. Экспериментальное исследование параметров вокалической микромелодики // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 17 Всесоюзн. семинара. Ижевск, 1992. - С. 181185.

156. Потапова Р.К. Речевое управление роботом. М.: Радио и Связь, 1989.-248 с.279

157. Потапова Р.К., Блохина Л.П. Разработка базы данных для смысловой интерпретации просодической информации // Автоматическое распознавание и синтез речевых сигналов. Киев, 1989. - С. 130-133.

158. Прудников А. П., Брычков Ю. А., Маричев О. И., Интегралы и ряды. Элементарные функции. М.: "Наука", гл. изд-во Ф.-М. лит-ры, 1981. 800 с.

159. Рабинер Л.Р., Гоулд Б. Теория и применение цифровой обработки сигналов. М.: Мир, 1978.

160. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981. - 485 с.

161. Рамишвили Г.С. Об автоматическом узнавании голосов // Техническая кибернетика, 1966. № 5

162. Рамишвили Г.С. Речевой сигнал и индивидуальность голоса. -Тбилиси: Мецниереба, 1976. 184 с.

163. Распознавание слуховых образов / Под ред. Н.Г.Загоруйко и Г.Я. Волошина. Новосибирск: "Наука", 1970.- 338 с.

164. Ремель М. Некоторые положения таксономии в применении к мелодиям // Проблемы таксономии эстонских рунических мелодий. Таллин, 1977.-С. 75-79.

165. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963. - 472 с.

166. Сапожков М.А.,Михайлов В.Г. Вокодерная связь. М.: Радио и связь, 1983. - 248 с.280

167. Светозарова Н.Д. Восприятие ритмической организации фразы в шуме // Автоматическое распознавание слуховых образов: Тез. докл. и сообщен. 12 Всесоюзн. школы-семенара. Киев, 1982. - С. 356-358.

168. Себестиан Г. С., Процессы принятия решений при распознавании образов. Киев: Техника, 1965

169. Скрыль В.Ф., Балюн А.Г. Исследование статистических характеристик пауз речевого сигнала на каналах связи энергосистем. MB и ССО УССР, КПИ.-N 3387-81 Деп. - 28 с.

170. Сметанин A.M., Храмов С.Н. Возбуждение речевой волны// Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 17 Всесоюзн. семинара. Ижевск, 1992. - 144-147.

171. Сметанин A.M. Исследование и разработка методов повышенной точности измерений параметров формант и голосового источника. -Диссертация на соискание ученой степени к.т.н. Ижевск, 1980.

172. Смирнов В. И. Курс высшей математики. М.: "Наука". Гл. изд-во Ф.-М. лит-ры, 1965.- Том 1.- 480 с.

173. Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. М.: Наука, 1969.

174. Собакин А.Н. Адаптивный метод выделения основного тона речи // Автоматическое распознавание слуховых образов : Тез. докл. и сообщен. 8 Всесоюзн. школы-семинара. Минск, 1976. - С. 49.

175. Соболев В.Н., Баронин С.П. Исследование сдвигового метода выделения основного тона речи // Электросвязь. 1968. - С. 30-36.

176. Соболев В.Н. Экспериментальное исследование сдвигового метода выделения основного тона речи // Акустический журнал, 1968. Т. 14. -Вып. 3.-С. 441-448.

177. Сомин Н.В. Сравнение нескольких спектральных методов выделения основного тона в условиях шума и ограниченной полосы частот //281

178. Автоматическое распознавание слуховых образов: Тез. докл. и сообщен. 7 Всесоюзн. школы-семенара. Алма-Ата: Наука, 1973. - С. 3-9.

179. Сорокин В.Н. Голосовой источник как система с распределенными параметрами. // Акустический журнал, 1981. -Т. 27. Вып.З. -С. 434-440.

180. Сорокин В.Н. О роли подглоточной области в процессе речеобразования // Проблемы построения систем понимания речи. М.: Наука, 1980.-С. 125-135.

181. Сорокин В.Н. Теория речеобразования. -М.: Радио и связь, 1985.312 с.

182. Урбанский Б. Электроакустика в вопросах и ответах. -М.: Радио и Связь, 1981.-248 с.

183. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964.284 с.

184. Фант Г. Анализ и синтез речи. Новосибирск: Наука, С.О., 1970.168 с.

185. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968.- 395с.

186. Фролов М.В., Таубкин B.JI. О влиянии эмоционального состояния диктора на некоторые параметры речевого сигнала. // Речь и эмоции: Материалы симпозиума. -Л., 1975. -С. 46-55.

187. Харкевич А.А. Избранные труды: Линейные и нелинейные системы. Спектры и анализ. М.: Наука, 1973. -Т. 2. - С. 87-252.

188. Цемель Г. И. Опознавание речевых сигналов. М.: Наука, 1971. 217.Чистович Л.А. Изменение основной частоты голоса какразличительный признак согласных. // Акустический журнал. -1968. Т.14. - С. 449-456.

189. Чистович Л.А., Венцов А.В., Гранстрем М.П. и др. Физиология речи. Восприятие речи человеком. -Л.: Наука, 1976. -388 с.282

190. Шараев Г. А. Об измерении высоты сложных звуков. // Автоматическое распознавание слуховых образов: Тез. докл. и сообщен. 8 Всесоюзн. школы-семинара. Львов, 1974. - Ч. 1. - С. 54-56.

191. Шейкин Р.Л. К анализу механизма возникновения пауз в речи // Механизмы речеобразования и восприятия сложных звуков. -М. -Л.: Наука, 1966.-С. 34-44.

192. Шпильберг С.М. Синтез эмоциональной речи // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 13 Всесоюзн. школы-семинара. Новосибирск, 1984. - С. 139-140.

193. Abuov Z., and Shcherbakova L.Р. The problem of bilinguism and phonetic peculiarities of Russian spoken by Kazakh // Elleveth Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tfllin, 1987. - P. 175-178.

194. A grawal A., and Lin C. Effect of voiced speech parameters on the intelligibiliti of PB words //J. Acoust. Soc. Am. -1975. -57. -N 1. P. 217-222.

195. Ainsworth W.A. A method of estimating speech synthethis parameters by temporal analysis of waveforms // Internal Journ. Man. Mach. Studies. 1971. -3. -N4. -P. 339-349.

196. Allen D.R., and Strong W.J. A model for synthesis of natural sounding vowels // J. Acoust. Soc. Am., 1985. 79. - N 1. - Pt. 1. - P. 58-69.

197. Askenfelt A., Gauffin J., Kitzing P., and Sundberg J. Electroglottograph and contact microphone for measuring vocal pitch // 3 Quart.Progr. and Status Rept. Speech Transmis. Lab., 1977. - N 4. - P. 13-21.283

198. Askenfelt A., Hammarberg B. Speech waveform perturbation analaysis // 3 Quart. Progr. and Status Rept. Speech Transmiss Lab. 1980 (1981). -N 4. - P. 40-49.

199. Atal B.S., Rabiner L.R.A pattern recognition approach to voiced-unvoiced-silence classification with application to speech recognition // IEEE Trans. Acoust., Speech and Signal Process. 1976. - 24. -N 3. -P. 201-202.

200. Atal В. S. Characterization of speech signals by linear prediction of the speech wave // IEEE Conf. Rec. Symp. Feature:Extr. and Selec. Pattern. Recogn. -1970. -P. 202-209.

201. Atal B.S. Predictive coding of speech at low bit rates // IEEE Trans. Commun. 1982. - 30. - N 4. - P. 600-614.

202. Atal B.S. Speech signal pitch detector using prediction error date. -Pat. N 3740476 USA. G10L 1/04. - 19.06.73.

203. Bannert R. From prominent syllables to skeletion of mtaning: a model of prosodically guided speech recognition // Ellerventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol. 2. - P. 73-76.

204. Bardina N. Principles of intonational shurturing of the spontaneous monologue // Elleventh Int. Congr. Phonetic Sci.: Proc. XI ICPhS. Tallin, 1987. -Vol. 4.-P. 201-204.

205. Boe L.D. Etude des vibrations des cordes vokales dans la parole: Metods, resultats et applications // Rev. Acoust., 1976, 9. -N 37. - P. 105-107.

206. Bond Z.S., and Moore T.J. Speech produced under adverse circumstances // Elleventh Int. Congr. Phonetic Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol. 2. - P. 73-76.

207. Bordone-Sacerdote C. and Sacerdote G.G. Distribution of pauses as a characteristic of individual voices // Acustica, 1976. 34. -N 4. - P. 245247.284

208. Brookes D.M., and Naylor P.A. Speech production Modeling with variable glottal reflection coefficient // ICASSP'88: Proc. IEEE Int. Cjnf. Acjusn., Sheech and Signal Process. New York, 1988. - P. 671-674.

209. Butler P., and Moore D.J.H. Pich detection in speech//ATR, -1973.-7.-N2.-P. 39-46.

210. Carlson R., Fant G., Granstrem B. Two-formant models. Pitch and vowel perception // Quart Progr. and Status. Rept. 1976. - N 1-2. - P. 1-17.

211. Carre R., Lancia R., Ralle J. Etude etralisation d'un de detetuer de melodie pour analise de la parole // L. nnde electuque. 1963. - N 434. - May. - P. 556-562.

212. Carre R. Review of French work on vocal source vocal tract interaction // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. - Tallin, 1987. -Vol. 3.-P. 371-375.

213. Childers D.G., Micks D.M. Moore G.P., Alsaka Y.A. A model for vocal fold vibratory motion, contact area and the Electrjglottogram // J. Acoust. Soc. Am., 1986. 80. N 5. - P. 1309-1320.

214. Childers D.G., Smith A.M., Moore G.P. Relationships between electroglottograph, speech and vocal cord contact // Folia Phoniatr. 1984. -36.-N3.-P. 105-118.

215. Cohen A., Froid I. Softward package for interactive text independent speaker verification // Electrotechnol. Develop. Proc. MELECON'81 1st Meditter. Electrotechnol. Conf. Tel-Aviv, 24-28. May 1981. New-York, N.Y., 1982. - 6.2.3./1 - 6.2.3/4.

216. Cranen B. and Boves L. Aerodynamic aspects of voising glottal pulse skewing revisited // ICASSP'85: Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1985.Vol. 3. - P. 1085-1088.

217. Cranen В., and Boves L. On subglottal formant analysis // J. Acoust. Soc. Am., 1987. 87. - N 3. - P. 734-746.285

218. De Souza P. A statistical approach to the design of an adaptive self-normaling silence detector // IEEE Trans. Acoust., Speech and Signal Process. -1983. 31. N 3. - P.678-684.

219. Dolansky L.O. Instantaneous pitch period indicator // J. Acoust. Soc. Am. 1955.-27.-Nil.-P. 67-72.

220. Dubnowski., Schafer R.W., Rabiner L.R. Real-time digital hardware pitch detector // IEEE Trans., Acoust., Speech and Signal Process. 1976. -Feb. - 24. - P. 2-8.

221. Duifhuis H., Willems L.F., Sluyter R.J. Measurements of pitch in speech: An implementation of Goldstein's theory of pitch perception // J. Acoust. Soc. Am. 1982. - 71. -N 6. - P. 1568-1580.

222. Dunter H.M., Sarma V.V.S. Automatic speaker identification for a large population //IEEE Trans. Acoust., Speeh and Signal Process. 1979. - 27. - N 3,-P. 255-263.

223. Fant G. Acoustic analysis and synthesis of speech with application to Swedish. Ericsson Technics, 1959. - V. 15. - N1

224. Fant G. Interactive phenomena in speech production // Elleventh Int. Congr. Phonetic Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol. 3. - P. 376-381.

225. Fant G., Nord L., Krucrerberg A. Sequental and prosodic variabilities in connected speech an applied data bank study // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallin, 1987. Vol. 6. - P. 102-105.

226. Fant G. Speech production. Glottal source and exitation analisis // Quart Progr. and Status. Rept. Speech Transmiss. Lab. 1979. -N 1. P. 85-107.

227. Feijoo S., Hernander C., Carmedo R. Multidimentional analysis of phonolodical degeneration in pathological voises // ICASSP'86: Proc. IEEE IECEJ AS J Int. Conf. Acoust. Speech and Signal Process // New York, 1986. - P. 673-676.286

228. Feng S., Lin S., Rong-Rong L. An experimental analysis of the five level tones of the Gaoba Kam // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol. 3. - P. 320-323.

229. Fitzpatrick E., and Bachenko J. Parsing for prosody what a text -to speech system needs from syntax // Annu. Arhf. Intell (Al), Syst. Cov. Conf. Washington D.C., 1989. - P. 188-194.

230. Flanagan J. L., Note on the Design of "Terminal-Analog" Speech Synthesisers // J. Acoust/ Soc/ Am. V. 29. - N2, Febriary, 1957. - p. 306-310.

231. Friedman D.H. Multidimentional Pseudo-Vaximum Likeihood pitch estimation // IEEE Trans. Acoust., Spich and Signal Process. 1978. - Vol. 26. - N 3. -P. 185-196.

232. Fujimura O. Fundamentals and applications in speech production research // Elleventh. Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallin, 1987. -Vol. 6. - P. 10-27.

233. Fujisaki H., Tominaga M. Automatic recognithion of voiced stop consonants in CV and VCV utterances // ICASSP 82: Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. Paris, May 3-5, 1982. Vol. 3. New York, N.Y. - 1982. -P. 1996-1999.

234. Fujisaki H., Kawai H. Realization of linguistic information in the voice fundamental frequency contour of the spoken Japanese // ICASSP'88: Proc. Int. Conf. acoust., Speech and Signal Process. New York, 1988. - P. 663-666.

235. Gibson B.R., Greenwood E. Windowing Function for the average magnitude difference function pitch extractor // ICASSP 80: Proc. Denver Cole., 1980, Vol. 1. New York, N.Y. - 1980. - P. 49-52.

236. GH1 J.S. Apparatus for distinguishing between voiced and unvoiced sounds in a speech signal 3 / Pat. N 1113225 Grait Britan. 08.05.68. - H4R.

237. G о 1 d В. Computer programm for pitch detection // J. Acoust. Soc. Am. -1962.-34.-P. 916-921.287

238. Gold В., Rabiner L. Parrallel Processing techniques for estimating pitch periods of speech in the time domain // J. Acoust. Soc. Am. 1969. - 46. - N 2 (Pt.2). - P. 442-448.

239. Goldstein J.L. An optimum processor theory for the central formation of the pitch of complex tones // J. Acoust. Soc. Am. 1973. - 54. - P. 1496-1516.

240. Gomer R.J., Tribolet J.M. Speech analysis and modelling using a sequental ARMA estimation technique // ICASSP 82: Proc.IEEE Int. Conf. Acoust., Speech and Signal Process. Paris, May 3-5. 1982, Vol. 3. New York, N.Y. - 1982. -P. 1585-1588.

241. Guerin В., and Вое L.J. Etude de e'influence du couplage acoustique sourse conduit vocal sur F0 des voyelles orales // Phonetica. - 1980. - 37. - 169- 192.

242. Haggard M., Ambler S., Callow M. Pitch and voicing cue.//J. Acooust. Soc. Am. 1970. - 47. - P. 613-617.

243. Haji Т., Horiguchi S., Baer Т., Gould W.J. Frequency and amplitude perturbation analysis of electroglottograph during sustained phonation // J. Acoust. Soc. Am. 1986. - 80, N 1. - P. 58-62.

244. Harajda H. Analysis of the specific structure of the fundamental component of vocal sounds from the point of view of intonation evalhation // Arc. Acoust 1983.-8.-N4.-P. 271-291.

245. Harbeson W.D.-N4276445, USA. G10L 1/00 7.7.81.

246. Harris C.M., and Weiss M.K. Pitch extraction by computer processing of high resolution Fourier analysis data // J. Acoust. Soc. Am. -1963. -35. - N 3. - P. 339-343.

247. Hebid M.K., and Robinson D.M., Sincoscie W.D. Real Zeros in pitch detection // IEEE Int. Conf. Acoust., Speech and Signal Process. Record. Tulsa, Okla, 1978. New York, N.Y. - 1978. - P. 31-34.

248. Hess W. A pitch synchronous digital feature extraction system for phonemic recognition of speech // IEEE Symp. Speech Recogn. 1974. - P. 112-121.288

249. Hess W. Bestimming der Grund-frequenz von spachsignalen in zeitereich mit Hilfe nichtlinearer digitaler Filterung. // Frequenz. 1980. - 34. - N 5. -P. 152-156.

250. He s s W. On-line digital pitch period extractor for speech signals // Proc. Summer Sch. Circuit theory : Short. Contrib. Prague, 1974. - N 2. - P. 413.

251. Hess W. Pitch determination. An exampl for the application of signal processing methods in speech domain // Speech Processing: Theor. and Appl: Proc. EUSIPCO-8O, 1-st Eur. Signal Process. Conf. Lausanne, Sept. 16-18. -Amsterdam, 1980. P. 625-634.

252. Higgins M.B., Saxman J.H. A comparison of intrasubject variation across sessions of three vocal frequency perturbation indices // J.Acoust. Soc. Am. 1989. - 86, N 3. - P. 911-916.

253. Hilman R.E., Desterle E., Feth L.L. Characteristics of the Glottal turbulent noise sourse // J. Acoust. Soc. Am. 1983. - 74. - N 3. - P. 691-694.

254. Hilman R.E., Desterle E., Feth L.L. Characteristics of the Glottal turbulent noise sourse // J. Acoust. Soc. Am. 1983. - 74. - N 3. - P. 691-694.

255. Hodges M.R.L. Effect Threshold offsets in zero-crossihg speech detector // Electron Lett. -1981. 17. - N 19. - P. 682-684.

256. Holmes J.N. An investigation of the volume velocity waveform at the larinx during speech by means of inverse filter // Proc. Speech Commun. Siminar. -Stockholm, 1962. Vol. 1. - B4.

257. Holmes J.N. Formant extraction before and after glottal closure // IEEE Int. Conf. Acoust., Speech and Signal Process. Philadelphia. Pa. - 1976. - P. 39-42.

258. House D. Perception of tonal patterns in speech: Implications for models of speech perception // Tlltventh In t. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol. 1. - P. 76-79.289

259. Howard D.M., and Lindsey G.F. Conditioned variability in voicing offsets // IEEE Trans. Acoust., Speech and Signal Process. 1988. - 36, N 3. - P. 406-407.

260. Howard D.M., and Lindsey G.F. New larynograms of the singing voice // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallin, 1987. -Vol. 5.-P. 166-169.

261. Howard D.M., and Howard I.S. Quantitative comparison of speech fundamental period estimation devices // Elleventh int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallin, 1987. Vol. 4. - P. 52-55.

262. Kane M., and Wellen C.J. Acoustical measurements and clinicfl judgments of vocal quality in children with vocal nodules // Folia Phoniatr. 1985. -37, N2. - P. 53-57.

263. Kang G.S., and Everett S.S. Improvement of the narrowband LPC synthesis // ICASSP 84: Proc. IEEE Int. Conf. Acoust., Speech and Signal290

264. Process. San Diego, Calif, 19-21 March 1984, Vol. 1. New York, N.Y. - 1984. - P. 1.7/1-1.7/4.

265. Kasai I. On the Tonosyntax of a Hungarian child's early questions // Elleventh Int. Congr. Phonetic Sci.: Proc XI ICPhS. Tallin, 1987. - Vol. 1. - P. 385388.

266. Kasuya H. An improved autocorrelation pitch detector // J. Acoust. Soc. Jap. 1980. - (E) 1, N 4. - P. 263-264.

267. Kasuya H., Kobayashi Y., Kobayashi Т., Ebihara S. Characteristics of pitch period and amplitude perturbations in patologicmvoice // ICASSP'83: Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1983.-P. 1372-1375.

268. Kohda T. An argument against intervals in pitch revised fine structure theory of pitch perception // J. Acoust. Soc. Jap. 1985. - E6, N 2. - P. 79-88.

269. Kohler K.J. FO in the perception of lenis and fortis plosives // J. Acoust. Soc. Am. 1985. - 78, N 1. - Part 1. - P. 21-32.

270. Koizumi Т., Taniguchi S., Hiromitsu S. Two-mass models of the vocfl cords for natural sounding voice // J. Acoust. Sos. Am. 1987. - 82, N 4. - 1179-1192.

271. Kolesnikov B.M., and Zakharov L. M. Acoustic and perception of speech in various modes of articulation // Elleventh Int. Congr. Phonetic Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol. 2. - P. 207-210.

272. Krivnova O. Intonational phrasing and its role in speech communication // Elleventh Int. Congr. Phonetic Sci.: Proc XI ICPhS. Tallin, 1987. -Vol. 2.-P. 481-485.

273. Krishnamurthy A.K., and Childers D.G. Two-chanell speech analysis // IEEE Trans. Acoust., Speech and Signal Process. 1986. - 34, N 4. - P. 730-743.291

274. Kuwabara H., and Ohguashi К. Acoustic characteristics of professional vale announcers speech sounds // Acustica. 1984. - 55, N 4. - P. 233240.

275. Larer J.N., Alsaka Y.A., Childers D.G. Variadiliti in closed phased analysis of speech // ICASSP'85: Proc IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1985. - P. 1089-1092.

276. Laver J., Hiller S., Hanson R. Comparative perfomance of pitch detection algorithms on disphonic voices // ICASSP'82: Proc. IEEE INT. Conf. Acoust., Speech and Signal Process. New York, 1982. - Vol.1. - P. 192-195.

277. Lavington S.H., and Rosental L.H. Some facilities for speech processing by computer // Computer Journal. 1967. - 9, N 4. - P. 330-339.

278. Lieberman P., Katz W., Jongman A., Zimmerman R.,Miller M. Measures of the sentence intonation of read and spontaneous speech in American English // J. Acoust. Soc. Am. 1985. - 77, N 2. - P. 649-657.

279. Lieberman P.H. Perturbation in vocal pitch // J. Acoust. Soc. Am. -1961.-33,N5.-P. 597-603.

280. Linday M. Testing a model of intonation in a tone language // J. Acoust. Soc. Am. 1986. - 80, N 3. - P. 757-764.

281. Linville S.E., and Korabic E.W. Fundamental frequency stability characteristics of elderly women's voices // J. Acoust. Sjc. Am. 1987. - 81, N4.-P. 1196-1199.

282. Linville E.E. Intraspeaker variability in fundamental frequency stability : An age-related phenjmen? // J. Fcoust. Soc. Am. 1988 - 83, N 2. - P. 741745.

283. Lisker L. Is it VOT or a first formant transition detector? // J. Acoust. Soc. Am. 1975. - 57, N 6 (Part 2). - P. 1547-1551.

284. Ljolje F., and Fallside F. Synthesis of natural sounding pitch contours in isolated utterances using Hidden Markov Models // IEEE Trans. Acoust., Speech and Signal Proces. 1986. - 34, N 5. - P. 1074-1080.292

285. Lobanov В. The phoneme text-to-text speech sistem Elleventh Int. Congr. Phonetic Sci.: Proc. XI ICPhS. Tallin, 1987. Vol. 1. - P. 120-124.

286. Lofqvist A., Baer Т., Mc.Garr N., Story R.S. The cricothyroid muscle in voicing control // J. Acoust. Sos. Am. 1989. - 85, N 3. - P. 1314-1321.

287. Lucc J. E. Automatic speaker verification using cepstral measurements // J. Acoust. Soc. Am, 1969. V. 46. - N. 4 (Part 2). - P. 1026-1032.

288. Lukatela G., Tomic Т., Drajec D. Adaptive autocorrelation techniques for vocal-pitch detection // Publ. Electrotechn. Fak. Belgrady. Serie: Eletronique, Telecom, Automatique. 1973. - 79, N 96. - P. 51-58.

289. Markel J.D. The SIFT algorithm for fundamental frequency estimation // IEEE Trans. Audio and Electroacoust. Dec. 1972. - 20, - P. 1569-1572.

290. Martin P. Comparison of pitch detection by cepstrum and spectral comb analysis // ICASSP'82: Proc IEEE Int. Conf. Acoust. Speech and Signal Process. New York, 1982. - Vol. 1. - P. 180-183.

291. Matsumoto H., and Nimura T. Text-independent speaker identification based on piecewise canonical discriminant analysis // ICASSP'78: Proc. IEEE Int. Conf. acoust. Speech and Signal Process. New York. - 1978. - P. 291-294.

292. May C.J. and Holmdel N.J. Pat. N 4277645 USA. 7.07.81. -G10L/00.

293. McGonegal C.A., Rabiner L.R., Rosenberg A.E. A semiautomatic pitch detector (SARD) // IEEE Trans. Acoust, Speech and Signal Process. Dec. 1975. - 23. - P. 570-574.

294. McGonegal C.A., Rabiner L.R., Rosenberg A.E. A subjective evaluation of pitch detection methods using LPC synthesiser speech // IEEE Trans. Acoust, Speech and Signal Process. 1977. - 25, N 3. - P. 221-229.293

295. McGowan R. S. Comments on "On the measurement of glottal flow J. Acoust. Soc. Amer. 84, 888-900 (1988). // J.Acoust. Soc. Am. 1989. - 85, N 6. - P. 2672-2673.

296. McGo wan R. S. Comments on "On the measurement of glottal flow J. Acoust. Soc. Amer. 84, 888-900 (1988). // J.Acoust. Soc. Am. 1989. - 85, N 6. - P. 2672-2673.

297. Meister E., Rohtla M., Raudsepp M. Increasement of naturaluess in synthetized speech // Elleventh Int. Congr. Phonetic Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol. 3. 1987. - P. 266-269.

298. Meyer E. Wavelet and Operators. Camdridge University Press, 1993

299. Mikami N., and Ohda R. Pole-zero analysis of voiced speech using group delay characteristics // IEEE Trans. Acoust., Speech and Signal Process. -1984.-32,N5.-P. 1095-1097.

300. Miller R.L. Perfomance Characteristics of an experimental harmonic identification (HIPEX) sustem // J. Acoust. Soc. Am. 1970. 47, N 6 (Part 2). - P. 1539-1601.

301. Miller N.J. Pitch detection by data reduction // IEEE Trans. Acoust., Speech and Signal Process (Special issue on IEEE symposium on Speech Recognition). Feb. 1975. - 23. - P. 72-79.

302. Miller N.J. Pitch detection by data reduction // IEEE Symp. speech recogn. Carnague-Mellon Univ., 1974. - Contrubut Pap. - P. 122-130.

303. Mobiuss В., Zimmerman A., Hess W. Microprosodic fundamental frequency variation in German // Tlleventh Int. Congr. Phonetic Sci.: Proc XI ICPhS. Tallin, 1987. - Vol. 1. - P. 146-149.

304. Murillo C.B.S., Berdichevsky F.M.S., Culter C. Analysis of Formant and pitch information for Spanish phonemes // ICASSP'79: Proc. IEEE Int. Conf Acoust., Speech and Signal Process., Washington, 1979. P. 1914-1919.294

305. Nadeina Т. Principles of prosodic prominence formations of words in Russian utterances // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallin, 1987.-Vol. 4.-P. 275-278.

306. Nasri M.K., Caelen-Haumont G., Caelen J. Using procodic rules in speech recognition expert system // ICASSP'89: Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1989. - Vol. l.S.l. - P. 671-674.

307. Nelsonne A., Sundberg J., Teenstrom S., Askenfelt A. Measuring the rate of voice fundamental frequency in fluent speech during mental depression // J. Acoust Soc. Am. 1988. - 83, N 2. - P. 716-728.

308. Neuburg E.P. Improvement of desision by use of context // ICASSP'78: Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. 1978. - P. 5-7.

309. Nikolayeva T. The typology of sentence intonation systems // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol. 6. - P. 106-109.

310. No 11 A.M. Cepsrtum pitch determination // J. Acoust. Soc. Am. 1967. -41,N2.-P. 293-309.

311. No 11 A.M. Pitch determination of human speech by the harmonic product spectrum, the harmonic sum spectrum and a maximum likelihood estimation // Proc. Symp. Сотр. Proc. Commun. N.Y., 1969, Brooklin, N.Y., 1970. - P. 779797.

312. No 11 A.M. Short-time spectrum and "Cepstrum" techniques for vocal-pitch detection // J. Acoust. Soc. Am. 1964. - 36, N 2. - P.

313. Paliwal K.K Comparative performance evaluation of different pitch estimation methods for noisy speech // Acoust. Lett. 1983. - 6, N 11. - P. 164-166.

314. Patterson R.D. The effects of relative phase and number of components on residue pitch // J. Acoust. Soc. Am. 1973. - 53. - P. 1565-1572.

315. Pederson M.F., and Moeller S. A transport globulin, as a predicting factor of voice chance in puberty ? // Elleventh Int. Congr. Phonetic Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol. 4. - P. 296-299.

316. Pettorino M. Intrinsic pitch of vovels: an experimental study on Italian // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol. 1. -Tallin. 1987.-P. 138-141.

317. Pisani D.B., Bernacki R.H., Nusbaum H.C., Yuchtman M. Some acoustic-phonetic correlates of speech produced in noise // ICASSP'85:296

318. Proc. Int. Conf. Acoust., Speech and Signal Process. New York, 1985. - Vol. 4. - P. 1581-1584.

319. Rabiner R.L., Chang M.J., Rosenberg A.E., McGonegal C.A. A comparative performance stady of several pitch detectction algorithms // IEEE Trans. Fcoust., Speech Process. 1976. - P. 399-418.

320. Rabiner R.L., Sambur M.R. Application of an LPC distance measure to the voiced-unvoiced-silence detection // IEEE Trans. Acoust. , Speech and Signal Process. 1977. - P. 338-343.

321. Rabiner R.L., Sambur M.R., Schmidt C.E. Application of a nonlinear smoothing algorithm to speech processing // IEEE Trans. Acoust., Speech and Signal Process. 1975. - 23, N 6. - P. 552-557.

322. Rabiner L.R., Atal B.S., Sambur M.R. LPC prediction error analysis of its variation with the posision of the analysis frame // IEEE Trans. Acoust, Speech and Signal Process. 1977. 25, N 5. - P. 434-442.

323. R a b i n e r L. R. On the use of autocorrelation analysis for pitch detection // IEEE Trans. Acoust., Speech and Signal Process. 1977. - 25, N 1. - P. 24-33.

324. Ramamoorthy V. Voice/unvoice detection based on a composite-Gausian sourse model of speech // ICFSSP'80: Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1980. - Vol. 1. - P. 57-60.

325. Rappaport W. Uber mesugen der Tonhohenverteiling in der Doutschen sprehe // Acustica. 1958. - 68, N 5. - P. 220-225.

326. Reddy D.K. Pitch period determination of speech sounds // Commun. ASM. 1967. - 10, N 6. - P. 343-348.

327. Regel P. A modyl for acoustic-phonetic transcription of fluent by spouken German speech // IEee Trans. Acoust. Speech and Signal Process. 1982. -30, N3.-P. 440-450.

328. Ritsma R.J., and Engel F.L. Pitch of frequency-modylated signals // J. Acoust. Soc. Am. 1964. - 36. - P. 1637-1644.297

329. Robb M.P., Saxman J.H., Crant A.A. Vocal fundamental frequency characteristics during the first two years of life // J. Acoust. Soc. Am. -1989.- 85, N4.-P. 1708-1717.

330. Ross M.J., Shaffer H.L., Cohen A., Frendberg R., Man ley H.J. Average magnitude difference function pitch extractor // IEEE Trans. Acoust., Speech and Signal Process. 1974. - 22, N 5. - P. 353-362.

331. Ryalls J.H. and Lieberman P. Fundamental frequency and vowel perception // J. Acoust. Soc. Am. 1982. - 72, N 5. - P. 1631-1634.

332. Sarma V.V.S., and Venugopal D. Studies on pattern recognition approach to voiced-unvoiced-silence classification // IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1978. - P. 1-4.

333. Schafer R.W., and Rabiner L.R. Digital representation of speech signals // Proc IEEE. 1975. - 63, N 4. - P. 662-677.

334. Schafer R.W., and Rabiner L.R. Sistem for automatic formant analysis of voiced speech // J. Acoust. Soc. Am. Feb., 1970. - 47. - P. 634-648.

335. Schouten J.F. The residue and the mechanism of hearing // Proc. Kon. Akad. Wetenschap, 1949. - 43. - P. 991- 999.

336. Schouten J.F., Ritsma R.J., Cardozo B.L. Pitch of the residue // J. Acoust. Soc. Am. 1962. - 34. - P. 1418-1424.

337. Schroeder M.R. Period histogram and product spectrum: new methods for fundamental-frequency measurement // J. Acoust. Soc. Am. 1968. - 43, N4.

338. Schroeder M.R., and Noll A.M. Recent studies in speech research at Bell Telephone Laboratories // 5-th Congr. Internat. Acoust. 1965. -A21.

339. Secrest B.G., and Doddington С.R. Post processing techniques for voice pitch trackers // ICASSP'82: Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1982. - P. 172-175.298

340. Shade C.H. Intrinsic fundamental frequency of vowels in sentence context // J. Acoust. Soc. Am. 1985. 78, N 5. - P. 1562-1567.

341. Shafer H.L., Cohen A., Freudberg R., Manley H.L. Average magnitude difference function pitch extractor // IEEE Trans> Acoust, Speech and Signal Projcess. Oct. 1974. - 22. - P. 353-362.

342. Shi Bo, and Zhang Jialu. Vowel intrinsic pitch in standart Chinese // Elleventh Int. Congr. Phonetic. Sci.: Tallin, 1987. Vol. 1. - P. 142-145.

343. Regel P. A modyl for acoustic-phonetic transcription of fluent by spouken German speech // IEee Trans. Acoust. Speech and Signal Process. 1982. -30, N3.-P. 440-450.

344. Siegel L.J., and Bessey A.C. Voiced/unvoiced/mixed exitation classification of speech // IEEE Trans. Acoust, Speech and Signal Process. 1982. -30, N3.-P. 451-460.

345. SkaIozub L.G. Articulatory dynamic organization of word production according to cinema X-ray photography date (methods of investigation and results) // Elleventh Int. Congr. Phonetic. Sci.: Proc XI ICPhS. Tallin, 1987. - Vol. 4. - P. 3235.

346. S lis I.H., and Van den Berg R. J. H. Assimilation of voice and perception of voicing: effects of phonetic context // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS.- Tallin, 1987. Vol. 5. - P. 350-353.

347. Sondhi M.M. New methods of pitch extraction // IEEE Trans. Audio and Electroacousat. 1968. - 16, N 2.

348. Sorokin V. Wave mechanics of the speech signal // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS.- Tallin, 1987. Vol. 6. - P. 7-9.

349. Sreenivas T.V., and Rao P.V.S. Pitch extraction from corrupted harmonics of the power spectrum // J.Acoust. Soc Am. 1979. - 61, N 1. - P. 223228.

350. Stevens K.N. Airflow and turbulence noise for fricative and stop consonants. Statistic consideratin // J. Acoust. Soc. Am. 1971. - 50. - P. 1188-1192.299

351. Stevens K.N. Interaction between acoustic souece and vocfl tract configuration for consonants // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS.- Tallin, 1987. Vol. 3. - P. 385-389.

352. Sugimoto Т., and Hashimoto S. The voice fundamental pitch and formant tracring computer program by short term autocorrelation function // Rev. Electr. Commun. Lab. 1962. - 10, N 9-10. - P. 447-456.

353. Summerfeld Q., Haggard M. On the dissisiation of spectral and temporal cues to the voicing distinction in initial stop consonants // J. Acoust. Soc. Am. 1977. - 62, N 2. - P. 435-448.

354. Tremain Т.Е., Tussell J.W., Dean R.A., Abzug B.M., Cowing M.D., Bound P .W.J r. Implementation of two real time narrow band speech algorithms // EASCON'78: Record Ailington, Va. New York, 1978. - P. 678-708.

355. Terhard E. Pitch, consonanse and harmony // J. Acoust. Soc Am. -1974.-55.-P. 1061-1069.

356. Terhard E., Stoll G., Seewann M. Algorithm for extraction of pitch and silence from complex tonal signals // J. Acoust. Soc. Am. 1982. - 71, N 3.- P. 679-688.

357. Thorthen N.-G. Intonation and text in standart Danish // J. Acoust. Soc. Am. 1985. - 77, N 3. - P. 1205-1216.

358. Tierney J. , and all. The Lincoln experimental terminal channel vocoder // IEEE First Annual Conf. Colorado, 1965. - P. 335-338.

359. Titze J.R. On the mechanical of vocal-fold vibration // J. Acoust. Soc. Am. 1976. - 60, N 6. - P. 1366-1380.

360. Umeda N. Influence of segmental factors on fundamental frequency in fluent speech // J. Acoust. Soc. Am. 1981. - 70, N 2. - P. 350-355.

361. Ungehouer G., Rapprath R. Zur entwiklung lines verbund system von periodzitate-analizator (Tonho-Unehreiber) und intusimeter // 5th Congr. Int. Acoust. Liege. - 1965. - J 11.300

362. Van den Berg R.J.H. The perception of voicing in dutch two-obscurenth sequences // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. -Tallin, 1987. Vol. 5. - P. 160-163.

363. Weinberg В., Bennet S. Speaker sex recognition of 5 and 6 year old children's voices // J. Acoust. Soc. Am. 1971. - 50, N 4 (Part 2). - P. 1210-1213.

364. Weiss M.R., Vogel R.P., Harris C.M. Implementation of a pitch extractor of duble-spectrum-analysis type // J. Fcoust. soc. Am. Oct. 1969. -11,N2. -P. 167-169.

365. Wight man F.L. Pitch and Stimulus fine structure // J. Acoust. Soc. Am. 1973.- 54.-P. 397-406.

366. Wightman F.L. The pattern-transformation model of pitch // J. Acoust. Soc. am. 1973. - 54. - P. 407-416.

367. Wilcox K., and Horii Y. Age and changes in vocal jitter // J. Gerotol. 1980. - 35. - P. 194-198.

368. Witten H. Digital storage and analysis of speech // Wireless Word. -Jan., 82 -88. P. 44-45, 49.

369. Wong D.Y. On understanding the quality problem of LPC speech // ICASSP'80 : Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1980.-Vol. l.-P. 725-728.

370. Yanagihara N. Significfnce of harmonic changes and noise components in hoarceass // J. Speech hear. Res. 1967. - 10. - P. 531-541.

371. Yea J.J., Krishnamurthy A.N., Naik J.N., Moore J.P., Childers D.G. Glottal sensing for speech analysis and synthesis // ICASSP'83: Proc. IEEE Int. Conf Acoust., Speech and Signal Process. New York, 1983. - Vol. l.-P. 1332-1335.

372. Yumoto E., Gould W.J., Baer T. Harmonic-to-noise ratio as an index of the degree of hoarness // J. Acoust. Soc. Am. 1982. - 71. - P. 1554-1550.301

373. Yumoto E., Okamura H. Objective assesment of hoarseness: Psychophysical measyrement and acoustic analysis // J. Acoust. Soc. Jap. (E)5. -1984.-N3.-P. 157-163.

374. Zhang J. The intrinsic fundamental frequency of vowels and the effect of speech modes on formants // Elleventh Int. Congr. Phonertic Sci.: Proc XI ICPhS. Tallin, 1987. -Vol. 3. - P. 390-393.

375. Zlatoustova L., Kozlenko N., Khitina M., Zakharov L. Automatic word stress detector // Elleventh Int. Congr. Phonetic. Sci.: Proc. XI ICPhS. Tallin, 1987. - Vol. 1. - P. 96-99.

376. Тихонов Г.А., Гитлин В. Б., Кузнецов П.Г., Тихонов Г.А., Чепкасов А.Г. Устройство выхода селектевизора. // А.с. N 283332 СССР, МКИ H04q 1/10. Приоритет от 28.04.69

377. Miller R.L. Nature of vocal cord wave // J. Acoust. Soc. Am. 1956. - 28, N 1. - P. 159

378. Какауридзе А.Г., Тушишвили M.A. Способ определения звонкости в речевом сигнале. А.с. N 390558 СССР. On. 11.07.73 в БИ N 30, МКИ 10 1/04.

379. Manceron F., and Lienard J.S. Impulse analysis of speech: Spotting and pressifying the impulses in the speech wave // ICASSP'82:M Proc. IEEE Int. Conf. Acoust., Speech and Signal Process. New York, 1982. - Vol. 1. - P. 1569-1572.

380. Patric P.J., Xydeas C.S., Steele R., Chan W.C. Wideband quality speech encoders with bit rates of 16-32 kbit/s // ICASSP'81: Proc. Ieee Int. Conf. Acoust., Speech and signal Process. New York, 1981. - Vol. 1. - P. 844-847.

381. Furui S. Comparison of speaker recognition methods using statistical features and dynamic features // IEEE Trans. Acoust., Speech and Signal Process. -1981.-29.-N3.-P. 342-350.

382. Кузнецов П. Г., Гитлин В.Б. Анализатор временных интервалов // Автоматические устройства учета и контроля. Ижевск: Удмуртия, 1968. -Вып. III. - С. 220-228.

383. Гитлин В.Б., Сметанин A.M., Шуткин В.Е. Обнаружение интервалов смыкания и размыкания голосовых связок // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 11 Всесоюзн. школы-семинара. Ереван, 1980. -С. 134-136.

384. Гитлин В. Б., Кузнецов П.Г., Тихонов Г.А., Чепкасов А.Г. О частоте квантования спектральных параметров речевого сигнала // Автоматические устройства учета и контроля. Ижевск: Удмуртия, 1969. - Вып. IV. - С. 36-46.

385. Arkhipov I.O. and Gitlin V.B., Restoration of Fundamental-Tone Periodicity in a Telephone Signal // Pattern Recognition and Image Analysis. 1999. -Vol.9. - No.l. - P.10-13;

386. Arkh.ipov I.O. and Gitlin V.B., Method for Extracting the Fundamental Tone on the Basis of a Notion Concerning Generated Solution // Pattern Recognition and Image Analysis. 1999. - Vol.9. - No.l. - P. 14-16;

387. Научно-технический центр "Вычислительная техника" (НТЦ ВТ) в течение последних 8 лет выполняет ряд НИР, связанных с разработкой автоматизированных измерительных систем внутри- и внешнебаллистических параметров изделий.

388. Главный конструктор проекта1. B.C. Казаковоб использовании резу циидоцента кафедры ВТ ИжГТУ В.Б. Гитлина в учебном процессе1. Tftwti-г1. М » 2000 г.

389. KTOpjio учебной работе Ю. М. Мерзляков

390. Метод анализа и обработки речевых сигналов (главы 4, 5, 6 диссертационной работы В.Б. Гитлина).

391. По дисциплине "Теория цифровой обработки сигналов" читаются разделы, связанные с о спектральным анализом сигналов, со спектральным и временным анализом речевых сигналов.

392. Выделение параметров основного тона речевого сигнала (главы 5, 6, 7 диссертационной работы В.Б. Гитлина).

393. По данной теме выполнено и защищено пятнадцать дипломных проектов.

394. В.Б. Гитлин разработал и создал на электронном носителе методические указания к лабораторным работам по дисциплине "Теория цифровой обработки сигналов":1. "Генерация цифровых сигналов".

395. В работе, на базе программного комплекса "Сигнал", студенты осваивают основные принципы обработки цифровых сигналов во временной области на примере речевых сигналов.2. "Спектральный анализ сигналов".

396. В работе студенты изучают основы спектрального анализа цифровых сигналов с применением алгоритмов быстрого преобразования Фурье на примере речевых сигналов.3. "Изучение линейных систем с постоянными параметрами".

Похожие работы

Приборостроение, метрология и информационно-измерительные приборы и системы
05.11.00