Анализатор речевого сигнала

Горьков, Игорь Львович

Системы обработки информации и управления

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.14, диссертация на тему:Анализатор речевого сигнала

кандидата технических наук: Горьков, Игорь Львович
город: Санкт-Петербург
год: 1996
специальность ВАК РФ: 05.13.14

Автореферат по информатике, вычислительной технике и управлению на тему «Анализатор речевого сигнала»

Автореферат диссертации по теме "Анализатор речевого сигнала"

На правах рукописи

Горьков Игорь Львович

АНАЛИЗАТОР РЕЧЕВОГО СИГНАЛА

Специальность: 05.13.14 - системы обработки информации

и управления.

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург - 1996

Работа выполнена в Балтийском Государственном техническом университете им.Д.Ф.Устинова, Санкт-Петербург.

Научный руководитель -

доктор технических наук, профессор Козлов Ю.М.

Официальные оппоненты:

доктор технических наук, профессор Немирко А.П. кандидат технических наук, доцент Сорокин A.A.

Ведущая организация -

Санкт-Петербургский институт информатики и автоматизации Российской Академии наук

Защита состоится " /У " 1996г. в часов на

заседании диссертационного совета ССК053.10.02 Балтийского государственного технического университета по адресу: Санкт-Петербург, 1-ая Красноармейская д.1.

С диссертацией можно ознакомиться в библиотеке университета. Автореферат разослан " " ф^рдл* 1996г.

Ученый секретарь

диссертационного совета

В.Ю.Емельянов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации.

Речевая информатика является бурно развивающейся наукой, которая занимается решением различных задач: автоматическое распознавание речи, синтез речи, идентификация личности диктора ¡ю голосу, определение состояния говорящего, кодирование информации для ее компактного хранения, передачи и воспроизведения. Развитие и углубление знаний по всем этим направлениям создало предпосылки для решения вопроса о создании систем управления с речевым вводом. Решение данной задачи имеет значительную практическую ценность, поскольку речь обладает целым рядом неоценимых преимуществ при использовании в системах управления. Главными из них являются высокая скорость обмена информацией и помехозащищенность речевого сообщения. На настоящий момент можно считать решенной задачу однодикторного распознавания изолированных слов, но многие другие важные задачи еще далеки от решения.

Одной из важнейших задач современной речевой информатики является решение проблемы дикторонезависимого распознавания речи. Перспективным подходом к этой задаче представляется создание анализаторов, осуществляющих маркировку фонемоподобных сегментов в речевом сигнале (квазифонетическое кодирование). Однако вопросы построения таких анализаторов исследованы недостаточно.

Сложность решения многих задач обусловлена многофункциональностью речевого сигнала, который содержит как смысловую информацию, так и информацию об индивидуальности голоса и психофизиологическом состоянии говорящего. В любых системах обработки речи присутствует уровень акустической обработки, задачей которого является параметризация речевого сигнала с целью последующего выделения информации различного типа: смысловой, личностной, эмоциональной. Поэтому улучшение характеристик существующих и создание новых речевых систем определяет необходимость проведения сравнительного анализа и совершенствования методов обработки речевого сигнала.

Цель работы: создание акустико-фонетического анализатора на основе совершенствования методов и средств цифровой обработки речевого сигнала.

Работа представляет собой часть плановых исследований кафедры Систем автоматического управления Балтийского государственного технического университета, выполненных в рамках программ "Университеты России" и "Человек в экстремальных условиях". Основные положения выносимые на защиту;

1. Метод квазифонетического кодирования на основе алфавита фонемоподобных сегментов-,

2. Параметрическое описание речевого сигнала для реализации метода квазифонетического кодирования;

3. Алгоритмы оценки психофизиологического состояния человека-оператора по речевому сигналу;

4. Структура аппаратно-программного комплекса для анализа речевого сигнала и создания экспериментальных систем обработки речи.

Методы исследований.

При проведении работ использовались методы распознавания образов и теории вероятностей. Экспериментальные исследования выполнены на основе теории планирования эксперимента и обработаны с использованием аппарата математической статистики. Научная новизна исследования состоит в том, что:

- разработаны элементы теории квазифонетического кодирования для многодикторного распознавания речи;

- проведен сравнительный анализ различных методов параметрического описания речевых сигналов;

- предложена и реализована многоуровневая система частотных признаков для обработки речевого сигнала на акустико-фоне-тическом уровне;

- разработана методика оценки числа фонемоподобных сегментов, необходимых для распознавания речи при квазифонетическом кодировании;

- предложена и реализована схема квазифонетического кодирования речевого сигнала;

- разработаны решающие правила для маркировки различных фонемоподобных сегментов.

- получены данные о надежности маркировки вокализованных сегментов речевого сигнала для различных дикторов.

- О -

Практическая ценность диссертационной работы состоит в том,

что:

- разработано программное обеспечение, позволяющее осуществить частичное фонетическое кодирование речевого сигнала, и проведены экспериментальные исследования в рамках работ по многодикторному распознаванию изолированных слов;

- создан аппаратно-программный комплекс для анализа речевого сигнала, разработки и тестирования экспериментальных и опытных систем обработки речевых сигналов;

- разработан экспериментальный образец прибора для анализа психофизиологического состояния человека-оператора. Результаты внедрения.

Описанный в работе подход к построению акустико-фонетичес-кого уровня анализа речевого сигнала был положен в основу разрабатываемой по теме "Методы и средства речевого общения с компьютером" системы дикторонезависимого распознавания изолированных слов. Полученные результаты отражены в отчетах по НИР БГТУ УЗ-72-2095, У4-03-3527, У4-03-3509. Результаты исследований внедрены в учебный процесс по элективному курсу "Речевая информатика", читаемому для студентов факультета Систем управления. Основные положения работы и элементы программного комплекса были использованы при проведении плановых работ в ГНИИ "Тест" Комитета при Президенте РФ по политике информатизации. Внедрение результатов работы подтверждено соответствующими документами.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на научно-практической конференции "Безопасность жизнедеятельности: современные проблемы и пути их решения", Санкт-Петербург, 1993г.; на II 1-ей Санкт-Петербургской Международной Конференции "Региональная информатика- 94", Санкт-Петербург,1994г.; на проблемном научно-техническом семинаре "Автоматизация процессов управления в ВШ?. Информационные технологии и вычислительная техника", Санкт-Петербург, 1994г.; на семинаре кафедры фонетики русского языка Санкт-Петербургского государственного университета, Санкт-Петербург, 1995г., на 1У-ой Санкт-Петербургской Международной конференции "Региональная информатика - 95", Санкт-Петербург, 1995; на второй межведомственной научно-технической конференции "Проб-

лемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах", г.Пушкин, 1995.

Публикации. По материалам диссертации опубликовано 10 печатных работ.

Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературы, включающего 175 наименований, трех приложений. Основная часть работы изложена на 110 страницах машинописного текста. Работа содержит 29 таблиц и 50 рисунков. В приложении приведены основные сведения об аппаратно-программном комплексе, фрагмент текста динамической библиотеки и материалы внедрения.

СОДЕРЖАНИЕ РАБОТЫ

Во введении содержится обоснование актуальности и практической значимости рассматриваемой задачи - построение акусти-ко-фонетического уровня анализа речевого сигнала, являющегося первым уровнем обработки речевого сигнала. Сформулированы цель и задачи исследования, указан объем и структура диссертации.

В первой главе приведен обзор существующих коммерчески доступных систем распознавания речи, дан краткий анализ истории развития исследований в области распознавания речи. Освещена проблема восприятия речи человеком. Представлен анализ подходов к построению систем обработки речевых сигналов и основных проблем дикторонезависимого распознавания и фонетического кодирования речи.

Во второй главе обсуждаются вопросы выбора параметрического описания речевых сигналов. Проводится сравнительный анализ различных систем признаков и методов анализа речевого сигнала. Рассматриваются вопросы получения спектральных характеристик речевого сигнала.

Вопрос выбора функции окна является одним из важнейших вопросов для всех классических методов спектрального оценивания. Несмотря на то, что частотные характеристики всех временных окон известны, осуществить выбор подходящего окна можно только после анализа результатов применения различных окон для некоторого типа сигналов. В работе были исследованы результаты применения практически всех известных окон. В целом, одинаково стабильные результаты на всех типах звуков показало треугольное окно и окно Кайзера-Бесселя. Неудовлетворительные результаты дало использование окон Хемминга, Хеннинга и Блэкмана.

Для поиска и выделения формант вокализованных участков речевого сигнала были реализованы алгоритмы кепстрального анализа. Были исследованы различные окна по кепстру для осуществления частотно инвариантной фильтрации. Оптимальная ширина окна по кепстру составляет б.5-7мс. При меньшей ширине окна спектр сигнала становится нечитаемым, при большей остается сильно зашум-ленным. Наилучшие результаты при взвешивании кепстра дает использование окон Хемминга и Блэкмана-Харриса. Произведена оценка показателя качества речевых сигналов, искаженных значительной шумовой составляющей, и показано, что фактическое разрешение по частоте оказывается в два раза хуже чем ожидаемое.

В третьей главе рассматриваются вопросы фонетического кодирования и распознавания речевых сообщений.

Были проведены исследования для оценки надежности маркировки различных типов речевых сегментов в случае многодикторного распознавания без подстройки под голос диктора. На вокализованных участках речи оценка производилась для случая классификации по расположению двух первых формант (Т1 и Р2). На основании речевого материала 50 дикторов были построены функции плотности распределения и определена вероятность правильной маркировки по критерию Байеса. Вероятность появления различных звуков была принята равной. Результаты приведены в таблице 1.

- б -

Таблица 1. Вероятность правильной маркировки.

Фонемоподобный сегмент Среднее значение (Гц) Вероятность правильной маркировки по критерию Байеса

П Г2

Классификацш и е о а У ы Классификацж и о а на 6 352 451 502 780 410 403 т на 3 400 436 780 "ИПОВ фс 2311 1884 819 1062 620 2096 'ипа фо! 2102 703 1062 энемоподобных сегментов 70 % 58 7. 53 г 75 % 62 % 56 % шмоподобных сегментов 94 % • ,82 % 79 %

К:;;1 осуществлении фонетического кодирования необходимо учитывать , что на акустико-фонетическом уровне возможна классификация лишь в пределах некоторого широкого класса звуков, поскольку функциональные свойства сегментов речевого сигнала могут быть выявлены только с помощью информации с более высоких уровней анализа. Процесс распознавания речи с использованием механизмов фонетической интерпретации можно представить как фонетическое кодирование с последующим восстановлением исходного сообщения (см. рис.1), причем алфавит фонетического кодера оказывается существенно меньше алфавита фонем.

Рис. 1.

Будем говорить, что фонетический кодер осуществляет прореживающее (частичное) кодирование. Пусть имеется алфавит А, содержал»!!"! ь различных символов, и имеется алфавит В, содержащий М разли- символов. Причем М < Ь. Набор кодовых комбинаций, которые гут быть использованы для передачи сообщений с помощью алфав: А ограничен и задан в виде словаря V в котором содержатся ова различной длины. В дальнейшем будем обозначать через V также к объем словаря. Зададим некоторое сюрьективное отображение алфавита А на алфавит В:

¥ : А - В . (1)

При этом каждому символу алфавита А соответствует некоторпн единственный символ алфавита В, а каждому символу алфавита В со ответствует не менее одного символа алфавита А. Пусть существует гипотетический кодер, который преобразует последовательноет г. символов из алфавита А в последовательность символов из алфавита В таким образом, что каждый символ из алфавита А из входной последовательности заменяется символом из алфавита В в соответствии с отображением Ч, и .следовательно, длина последовательности не изменяется. Перекодируем словарь объема V с использованием описанного выше кодера. После осуществления этой операции ряд слов из V", возможно, будут отождествлены (получат одинаковое написание) . Тогда, весь объем словаря можно разбить на некоторые подмножества, совпадающих по написанию после прореживающего кодирования слов:

V ; (2)

где ч3 - подмножество слов из V, имеющих одинаковое написание типа э в алфавите В. В дальнейшем через будем обозначать также и мощность подмножества (число элементов) У3 > 1 ;

К - общее число подмножеств различных слов, встречающихся в словаре V, каждое из которых отображается в одно слово в алфавите В. Допустим, что существует необходимость передать сообщение объемом N слов, и N < V. Вероятность того, что среди N различных кодовых слов, выбранных из словаря объемом V случайным образом, не будет двух одинаковых слов, записанных с использованием алфавита В, есть сумма Р по всем возможным Г? :

Р = 1£1 Рн4 ; (3)

где Рк - вероятность того, что N случайным образом выбранных слов будут принадлежать к априорно заданному набору К^-Сэь эг, эз, ... бм>'- некоторый набор из номеров групп, причем и э^Зд , по 1,;]<Т;

Т - число возможных размещений:

N К!

Т = А = --- . (4)

К (К - М)!

Благодаря существованию правил сочетаемости букв русского алфавита и значительной избыточности языка общее количество различных групп (классов эквивалентности) К в формуле (3) значительно меньше чем теоретически возможное:

Ктах (5)

где д - максимально возможная длина слова.

Сделаем допущение о том, что различные закономерности повторяемости и сочетаемости букв в русском языке в основном отражают фонематические принципы графики русской речи. Для исследования реального количества различных групп был сформирован словарь из 1000 слов. В него вошли слова с частотами появления не менее 100, в соответствии с частотным словарем русского языка.

Были исследованы различные варианты прореживающего кодирования с числом символов алфавита от 2 до 12. При выборе алфавита символов учитывалась сложившаяся в литературе и практике распознавания речи классификация звуков русского языка. Как показали проведенные эксперименты распределение слов по группам можно считать равномерным, тогда выражение (3) можно переписать в виде

К!

Р „ - . (б)

(К-И)!*К

Исследования показали, что состав символов алфавита кодировщика крайне незначительно влияет на общее количество групп, а задает лишь распределение слов по группам. Таким образом, на основании опыта можно полагать, что количество классов эквивалентности определяется только числом используемых сегментов:

К « 120-М . (7)

Из соображений практики интерес представляют алфавиты кодера с числом символов не менее 3-4. При таком алфавите среднее количество слов в группе не превосходит 3. А при использовании алфавита в 7-10 символов можно добиться практически полного разделения словаря объемом 1000 слов (при условии точного распознавания соответствующих букв (фонем)).При рассмотрении задачи восстанавливающего декодирования можно отметить, что имеются

возможности для декодирования словаря объемом 20-35 елок, м ■ использовании алфавита кодера объемом 6-8 символов.

Для оценки влияния вероятности появления ошиоок на надо* ность распознавания использовалось понятие расстояния между словами, определенное как количество несовпадающих символов. Исследовалось влияние ошибок трех типов: выпадения, вставки и замены. Были получены зависимости для верхней оценки надежности распознавания, минимально возможного количества отказов от распознавания и надежности распознавания. В таблице 2 представлена оценка надежности распознавания при декодировании по минимуму расстояния в зависимости от объема словаря и суммарной вероятности появления ошибок всех трех типов.

Таблица 2. Оценка надежности распознавания.

Объем

словаря

(слов)

10 20 30 50 100

Суммарная вероятность появления ошибок

96% 93% 92% 91% 90%

10%

86% 86% 85% 82% 81%

20%

78% 72% 70% 67% 64%

30%

66% 63% 60% 54% 49%

В четвертой главе приведено описание аппаратно-программного комплекса для анализа речевого сигнала и изложено применение разработанных алгоритмов и программ для создания канала квазифонетического кодирования системы дикторонезависимого распознавания изолированного набора слов и прибора для оценки психофизиологического состояния человека-оператора.

На рис.2 приведена схема реализации программной части комплекса. Структура программных средств комплекса базируется на двух принципах, заложенных в современных операционных системах Windows и OS/2 : динамической компоновки приложений и динамического обмена данными между приложениями.

Приложение, работающее в среде Windows, может анализировать речевой сигнал вводимый диктором с микрофона или работать с уже сформированной базой речевых сигналов. Алгоритмы вычисления признаков, обработки речевых сигналов, фильтрации и т.п. оформляются в виде процедур или функций ив динамических библиотек. Для вычисления некоторых сложных признаков может использоваться предварительная обработка сигналов. Набор процедур для предвари-

Рис, £. Схема взаимодействия зпементов аппаратно-программного комплекса.

тельной обработки сигнала также реализован в динамически;- г кг отеках. Вызывая в алгоритмы, реализованные в динамических «">»<> г отеках, приложение может моделировать различные схемы onp'1'"''Tina этапе экспериментальных исследований и на этапе комморчон: реализации могут использоваться одни и те же библиотечные мод' ли. Разной будет лишь вызывающая их программа. Механизм динам: • ческой компоновки приложений позволяет менять процедуры обрабс: ки речевого сигнала непосредственно на этапе выполнения програ>' мы, а не только на этапе разработки.

Дополнительным преимуществом облегчающим взаимодействи*"-речевым адаптером является то, что Windows 3.x ориентирована ; использование средств мультимедиа и имеет программные средств-' обеспечивающие их поддержку. В составе комплекса могут использо ваться коммерчески доступные звуковые карты типа SoundBlaster, поддерживающие 16-ти разрядный формат звуковых данных, или специально разработанные речевые адаптеры.Для созданных речевых адаптеров были написаны драйверы для работы в стандартном и рас -ширенном режиме. Для работы с данными, полученными с использованием других аппаратных средств, предназначены перекодировщики речевых файлов в стандартный формат Windows - wav.

Наличие Clipboard дает возможность использовать мощные коммерческие пакеты. Например, можно проводить статистический анализ результатов работы в пакете StatGraph и оформлять полученные результаты с помощью пакета MathCad.

Подобная структура программного обеспечения помимо очевидных преимуществ, связанных с обеспечением расширяемости, позволяет ускорить процесс создания программных средств, что достигается за счет глубокой структурированности и модульности. Над одним продуктом могут работать люди различной квалификации, а сам продукт может создаваться с использованием различных программных средств, начиная с ассемблера и заканчивая Visual Basic.

Реализованные алгоритмы параметрического описания, маркировки фонемоподобных сегментов и квазифонетического кодирования были исследованы как один .из блоков экспериментальной системы дикторонезависимого распознавания изолированных слов из словаря в 10 цифр. При этом использовались различные методы параметризации сигнала и различные наборы фонемоподобных сегментов.

Оптимальная длина сегмента при использовании методов кепс

трального анализа составляет 12-18мс. Особенности программной реализации предопределили выбор сегмента длительностью 16мс (512 отсчетов при частоте дискретизации 16 кГц). В этом случае производилась маркировка на 8 классов фонемоподобных сегментов: пауза, неопределенный согласный звук, высокочастотный шипящий звук (типа "С"), низкокочастотный шипящий звук (типа "Ч" и "Ш"), вокализованный сегмент типа "А", вокализованный сегмент типа "О", вокализованный сегмент типа "Э", вокализованный сегмент типа "И".

Решение о маркировке сегмента принималось с использованием решающего правила, базирующегося на использовании следующих параметров: значении функции числа переходов через ноль, уровня сигнала, расположение первой и второй форманты (для вокализованных сегментов), интегральный параметр оценивающий высокочастот-ность звука (для шипящих звуков), на основании анализа спектра сигнала. Спектр сигнала оценивался быстрым преобразованием Фурье по методу Бруно, а расположение формант гласных звуков оценивалось путем анализа кепстра сигнала. Средняя надежность распознавания для 10 цифр составила 'около 87%.

Алгоритмы и программное обеспечение, созданное в ходе работы над аппаратно-программным комплексом было также использовано при создании экспериментального прибора для контроля состояния человека-оператора. Прибор позволяет по анализу характеристик речевого сигнала идентифицировать три состояния оператора: "норма", "утомление", "возбуждение". Прибор создан в рамках межвузовской научнотехнической программы "Человек в экстремальных условиях".

Для быстрого принятия решения о состоянии оператора используется простой алгоритм, основанный на определении изменений характеристик ударных гласных, которые содержат максимальную информацию об эмоциональном состоянии человека-оператора. В выделенных фрагментах речевого сигнала, соответствующих ударным гласным, определяются два параметра: частота основного тона и число переходов сигналом нулевого уровня. Полученные данные усредняются и сравниваются с предварительно составленным речевым портретом оператора, хранящимся в памяти компьютера. Для вычисления частоты основного тона был выбран метод, основанный на анализе автокорреляционной функции речевого сигнала, что обеспе-

чило требуемое быстродействие анализатора. Для упрощения вычислений применена предварительная обработка речевого сигнала в трехуровневом центральном ограничителе. Идентификация состояния оператора основана на сравнении имеющихся в речевом портрете данных о состоянии оператора с поступающими для анализа характеристиками его речи в текущий момент времени.

Испытания опытного образца проводились с использованием сформированной библиотеки речевых файлов. Различные функциональные состояния дикторов достигались с помощью медикоментозных средств на основании данных, представленных НШ Промышленной и Морской медицины, а также актерской имитацией состояния человека (путем выбора фрагментов оцифрованных фонограмм из популярных кинофильмов). Пороги, разграничивающие различные психофизиологические состояния в двухпризнаковом пространстве, выставлялись по критерию минимума эмпирического риска. При этом минимизировалось число ошибочных решений о состоянии оператора при предъявлении прибору речевых файлов в режиме распознавания.

В экспериментах с операторами, принявшими лекарственные препараты типа кофеин, седуксен, обзидан и др. участвовало 40 дикторов, мужчин и женщин. Реакция организма человека-оператора на воздействие возбуждающих и успокаивающих препаратов позволяет оценить психическую устойчивость человека в процессе профотбора, проф^ренировок, профориентации и трудовой деятельности. Операторы произносили отдельные слова, характеризующие диапазон значений определенных параметров (температура пара, давление и мощность). Каждый из параметров мог принимать нормальное значение, предаварийное и аварийное. Проведенные эксперименты показали, что вероятность правильного решения о состоянии диктора около 90%.

ОСНОВНЫЕ ВЫВОДЫ ПО РАБОТЕ

1. Создан анализатор речевого сигнала, позволяющий осуществить частичное фонетическое, кодирование, с целью последующего распознавания речевого сообщения.

2. Проведенные исследования квазифонетического кодирования позволили установить, что избыточность русского языка при распознавании небольших словарей (10-200) слов, позволяет во многих

случаях, с использованием механизмов квазифонетического кодирования, ограничиться небольшим количеством фонемоподобных сегментов, и осуществлять фонетическую маркировку звуков в рамках некоторых широких классов эквивалентностей.Возможность распознавания ограниченного словаря определяется, в основном, количеством фонемоподобных сегментов. Состав алфавита фонемоподобных сегментов, обычно, в значительно меньшей степени влияет на вероятность уверенной разделяемости словаря. Классификация согласных звуков по способу и по месту образования дифференцируют словарь в одинаковой степени.

3. При классификации вокализованных фонемоподобных сегментов на основании расположения первой форманты для случая много-дикторного распознавания речи следует ограничиться маркировкой двух типов фонемоподобных сегментов, которые могут быть выбраны исходя из особенностей словаря. При классификации фонемоподобных сегментов на основании расположения первой и второй форманты для случая многодикторного распознавания речи возможно произвести маркировку трех типов вокализованных фонемоподобных сегментов. Вероятность правильной маркировки в этом случае будет 80-85%.

4. Предложенная классификация ошибок по статистическому признаку позволила сделать достоверные количественные оценки влияния ошибок на надежность распознавания. Ошибка выпадения символа влияет на надежность распознавания в значительно большей степени чем ошибки замены и вставки символа. При верхней оценке надежности"распознавания ошибки замены и вставки символа можно не учитывать. Реальная надежность распознавания будет существенно ниже верхней оценки, в том числе и из-за значительного количества отказов от распознавания. Даже при значительном уровне ошибок (20-30%), при указанных условиях надежность распознавания при декодировании по минимуму расстояния сохраняется на уровне 60-70%. Значительное повышение надежности всей распознающей системы может быть достигнуто за счет последующего применения современных методов лингвистического декодирования и применения параллельных каналов обработки.

5. Показано, что оптимальная ширина окна для взвешивания кепстра речевого сигнала лежит в диапазоне 6.5-7мс. Увеличение ширины окна приводит к зашумлению спектра, а уменьшение - не позволяет уверенно селектировать форманты. Наилучшие результаты

при взвешивании кепстра дает применение окна Хемминга и окон Блзкмана-Харриса.

6. Созданный аппаратно-программный комплекс позволяет эффективно осуществлять обработку речевого сигнала,проводить лабораторные исследования, разрабатывать и тестировать новые алгоритмы анализа. Модульный принцип построения комплекса и открытая структура обеспечивает возможность гибкого расширения и модификации алгоритмов анализа. Реализованное программное обеспечение, дает возможность осуществлять различную первичную обработку речевого сигнала и визуализацию полученных данных.

7. Разработанная на базе аппаратно-программного комплекса экспериментальная система оценки психофизиологического состояния человека-оператора, позволяет оперативно оценивать функциональное состояние оператора не используя контактных датчиков. Испытания подтвердили возможность применения системы для различения трех функциональных состояний диктора: "депрессивное", "нормальное" и "возбужденное" с достоверностью около 90%.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Горьков И.Л., Козлов Ю.М. Методы оценки психофизиологического состояния человека-оператора//Материалы научно-практической конференции "Безопасность жизнедеятельности: Современные проблемы и пути их решения".-СПб.:МЦЭНТ,1993.-с.31.

2. Горьков И.Л., Козлов Ю.М., Малеев О.Г., Пименов В.И. Прибор для оценки эмоционального состояния человека-оператора по речевому сигналу//Известия ВУЗов. Серия "Приборостроение", 1994, т.XXXVII, N6.- С.27-31

3. Горьков И.Л., Козлов Ю.М., Малеев 0.Г., Пименов В.И. Анализатор речевого сигнала для оценки эмоционального состояния человека-оператора//Ш Санкт-Петербугская Международная Конференция "Региональная информатика - 94".: Тезисы докладов. Часть 3.-СПб.,1994.-С.53-54.

4. Горьков И.Л., Козлов Ю.М. Принципы построения экспериментальной многодикторной системы распознавания речи//Интеллектуальные информационные технологии. Межвузов, научн. техн. сб. Вып.28. -Томск: изд. Томск, политехи, ун-та, 1994. -С.76-80.

5. Горьков И.Л. Аппаратно-программный комплекс для анализа

речевых сигналов//Вопросы повышения качества' управления движущимися объектами: Труды БГТУ. -СПб, 1995. -С.60-64.

6. Горькое И.Л., Козлов Ю.М., Пименов В.И. Работы в БГТУ в области речевой информатики//Тез.докл.проблемного научн.техн. семинара "Автоматизация процессов управления в ВМФ. Информационные технологии и вычислительная техника". -СПб.: BMA, 1994.-С.89-94.

7. Горьков И.Л., Козлов Ю.М., Малеев О.Г., Маховиков А.Г. Дикторонезависимое распознавание речи//IV Санкт-Петербургская Международная конференция "Региональная информатика - 95". Часть 1.-СП6, 1995.-С.55-56.

8. Горьков И.Л., Козлов Ю.М., Пименов В.И. Методы акусти-ко-фонетического анализа речевого сигнала// IV Санкт-Петербургская Международная конференция "Региональная информатика - 95". Часть 1. СПб, 1995. -С.54-55.

9. Барбашев О.Г., Горьков И.Л., Юшманов Д.А. Методы спектрального анализа речевого сигнала//Вторая Межведомственная научно-техническая конференция "Проблемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах". Часть 1. -Пушкин, 1995.-С.179- 180

10. Горьков И.Л., Козлов Ю.М., Пименов В.И., Ромашев H.A. Речевой сигнал как источник информации об эмоциональном состоянии человека оператора//Вторая Межведомственная научно-техническая конференция "Проблемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах". Часть 2.- Пушкин, 1995. -С.122-123

Похожие работы

Информатика, вычислительная техника и управление
05.13.00