автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Разработка и исследование системы распознавания речевых сигналов, искаженных вибропомехами и фоновыми шумами

кандидата технических наук
Хамидуллин, Сергей Астадуллович
город
Новосибирск
год
1997
специальность ВАК РФ
05.13.16
Автореферат по информатике, вычислительной технике и управлению на тему «Разработка и исследование системы распознавания речевых сигналов, искаженных вибропомехами и фоновыми шумами»

Автореферат диссертации по теме "Разработка и исследование системы распознавания речевых сигналов, искаженных вибропомехами и фоновыми шумами"

РОССИЙСКАЯ АКАДЕМИЯ НАУК СИБИРСКОЕ ОТДЕЛЕНИЕ ИНСТИТУТ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ л И МАТЕМАТИЧЕСКОЙ ГЕОФИЗИКИ

//а и)¡атх рукплпги

ХАМИДУЛЛИН СорIей Аоадуллович

УДК 51У.2:534.4:591.0:621.3

РАЗРАБОТКА И ИССЛЕДОВАНИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ, ИСКАЖЕННЫХ ВИБРОПОМЕХАМИ И ФОНОВЫМИ

ШУМАМИ

п."|. и> ирнминснш' ны'инлиюлыюй н'хники.

м<| и:м<» I ичсскин» мижмиронания и ма-и;м«пич1ч:ки.\ ш-кмов и научных ш,-следиваниях

АВТОРЕФЕРАТ

диссертации на соискание учено!! степени кандидата технических наук

НОВОСИБИРСК, 1997

Рапота выполнена п Институте математики Сибирского отделения Рог сийской академии наук

<" диссертцией можно ознакомиться в библиотеке Института вычислительной математики и математической геофизики СО РАН.

Чаши 1а состоится 23 декабря 1997 г. в 14-30 на. заседании Диссертационном) сожча Д002.10.02 и Институте вычислительной математики и ма к-машческой геофизики СО РАН по адресу: 630090, Новосибирск-:Ю. проспект академика Лаврентьева, 6.

Научный руководитель:

доктор физико-математических наук, старший научный сотрудник Ке.тьманон А.В.

Официальные опгюпешы: док юр технических наук,

старший научный сотрудник Хайретдшюв М.С.

кандидат технических наук Нитясп К.Е.

Неду шал организация:

Институт автоматики и электро-метрни СО РАН

Лвюрефера! разослан

1997 г.

Ученый секретарь Л И! серыциопного совета капдид.и технических наук

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ 1

Актуальность темы. Диссертационная работа относится к тему направлению научных исследований, которое принято называть распознаванием образов в системах искусственного интеллекта, а в рамках этот направления - к разделу распознавания речевых сигналов. Большинство известных работ, относящихся к указанному разделу, ориентировано на решение задачи распознавания речевых сигналов в отсутствие помех. Созданные распознающие системы, удовлетворительно оперирующие со словарями до десятков и сотен тысяч слов, когда помехи отсутствуют, оказываются малопригодными в ситуации, когда распознаваемый словарь содержит несколько десятков слов, но голосовое управление сом ро нож дастся интенсивными помехами.

Слабая помехозащищенность современных систем распознавания речи сдерживает их применение в тех широко распространенных практических приложениях, для которых голосовое управление каким-либо объектом является средством повышения эффективности и комфортности управления или работы человека. К таким приложениям относятся. например, системы шлосовот управления, устанавливаемые на. борту раднообра-зных транспортных средств - летательных аппаратов, автомобилей, электропоездов и т.п. В указанных приложениях потребность голосового управления, при использовании весьма небольших по объему словарей, сопровождается жесткими требованиями к помехоустойчивости, а также к габаритам и янергоресурсам устройства распознавания. Последние требования, по существу, являются требованиями минимизации временной и емкостной сложности алгоритмов обработки и распознавания речевых сигналов.

Среди множества возможных помех, имеющих место при применении голосового управления на борту транспортных средств, ключевое место занимают внешние акустические шумы и вибрации. Поскольку к настоящему времени вопросы разработки минимальных по сложности средств речевых информационных технологий, устойчивых к одновременному воздействию фоновых шумов и вибраций, изучены недостаточно, тема диссертационной работы представляется актуальной.

Цель работы и задачи исследований. Целью работы является разработка и исследование алгоритмических и программных средств минимальной временной и емкостной сложности, обеспечивающих решение проблемы распознавания речевых сигналов в условиях одновременного воздействия фоновых шумов и вибраций на человеко-машинную распознающую систему.

Для достижения цели решаются следующие задачи:

- анализ известных способов решения проблемы;

'Работа выполнена в рамках проектов Х'94-("Ч-П0169аи ^УТ-ОКПОЯ'З^б, псдд->р:кр.нных РФФИ.

- исследование свойств речевых сигналов, искаженных одновременным воздействием фоновых шумов и вибраций;

- исследование устойчивости систем распознавания речевых сигналов к виброискажениям и шумам;

- поиск, разработка и исследование алгоритмов обработки речевых сигналов, обеспечивающих устойчивость системы голосового управления к шумам и виброискажениям, и не требующих больших вычислительных затрат,

- создание макетов и опытных образцов речевых интерфейсов, реализующих разработанное математическое и программное обеспечение.

Методы исследований. В диссертационной работе использованы методы теории вероятностей и математической статистики, оптимизации и теории графов, распознавания образов и математического моделирования, а также методы цифровой обработки речевых сигналов. Работа является частью общего направления исследований по созданию средств цифровой обработки речевых сигналов в условиях нелинейных искажений, развиваемого Кельмановым A.B.

Научная новизна работы состоит в следующем:

1. Диссертация является первой научной работой в области речевых информационных технологий, в которой исследованы проблемы построения минимальных по сложности систем распознавания речевых сигналов, способных функционировать в условиях виброискажений сигнала при наличии фоновых помех.

2. [5 работе представлены приоритетные результаты по исследованию свойств речевых сигналов, образующихся в результате воздействия на человека и его речеобразующий тракт вибраций в диапазоне частот 5-25 Гц; выяснена степень влияния вибропомех на распознающие системы при различных частотах виброискажений.

3. В диссертации найдено новое решение задачи распознавания речевых сигналов, искаженных вибропомехами и фоновыми шумами, основу кошрою ( оставляют:

- предложенный способ первичного описания речевого сигнала в виде последовательности двоичных векторов, получаемых в результате дихотомическою кодирования оценок спектральной плотности сигнала; найденное, первичное описание, в отличие от известных, устойчиво к ниоропомехам, позволяет компенсировать стационарные фоновые шумы и грсбуех примерно в Ö раз. меньших затрат по памяти;

- разработанный эффективный алгоритм оценивания двоичных спектральных признаков при наличии виброномех и фоновых шумов, в котором сокращение времени вычислений более чем на порядок доспи ну ю за счет применения двухгюлупериодного линейного дегекти-ронания;

- алюритм распознавания, минимизирующий время принятия реше-

ния, базирующийся на принципе максимального правдоподобия и методе динамического программирования; в этом алгоритме для ускорения вычислений применяется пошаговая процедура сокращения числа проверяемых гипотез, опирающаяся на методы статистического последовательного анализа.

4. Разработанные алгоритмы: а) обеспечили создание первого в СССР миниспецпроцессора динамического программирования, ориентированного на решение в реальном времени задач распознавания устной речи, б) положены в основу программного обеспечения первого отечественного речевого интерфейса "Сибирь-3", способного с 95%-й надежностью распознавать несколько десятков устных команд в условиях воздействия вибропомех в диапазоне 5-6 и 10-25 Гц, а также шумов интенсивностью 115 дВ, в) являются ядром портативного устройства сбора и обработки геодезической информации, управляемого при помощи голоса.

Практическая ценность результатов работы состоит в том, что предложенное в ней алгоритмическое и программное обеспечение позволяет создавать более совершенные продукты в области речевых технологий, сохраняющие свою работоспособность при наличии виброискажений и внешних акустических шумов. Повышение помехоустойчивости систем распознавания позволило расширить круг применения устройств голосового управления.

Разработанное математическое обеспечение является составной частью помехоустойчивых систем распознавания, внедренных в ряде организаций России, Словакии, Монголии, Латвии. Наиболее значимыми являются внедрения результатов на предприятиях: АНПК "МИГ" им. Микояна, ГосНИИАС, НЭЦ АУВД ГА, ТОО "Пеленг".

Связь с государственными программами и НИР. Работы по теме диссертации проводились в рамках следующих НИР, выполненных по Правительственным постановлениям: "СЕРГАЧ-САНДОМИР" (1984-1987гг), "КАРАУЛ-РВО" (1986-1990гг), "СЕБЕЖ-2-МАП" (19861989гг), "СУ М LI-1-МО" (1986-1989 гг), "КИСЕТ-ОБ" (1989-1993 гг), "КАЗУАР" (1991-1995 гг), "ЧИНАРА-СО" (1994-1996 гг). Часть исследований выполнена в соответствии с координационными планами АН СССГ, РАН и Минвуза (Ж№>Гос.рег. 78005359, 78053888, 01826001234, 01870014595). Кроме того, проведение работ осуществлялось по плану ГКН'Г СССР - МНВШ и ТП "Перспективные информационные технологии" (конкурсные проекты "ОБЩЕНИЕ" и "ГОЛОС"), и при поддержке РФФИ (проекты JV*94-01-00169-a и №97-01-00866).

Апробация работы. Защищаемые результаты автора были отмечены: в составе системы распознавания речи "Смбирь-1", демонстрировавшейся на ВДНХ СССР - как системы, показавшей абсолютно лучший результат по распознаванию "тяжелых" словарей в соревновании с

отечественными аналогами (1!)чЗЫ; в составе помехоустойчивых речевых интерфейсов i системы распознавания речи "Сибирь-'J" и "ifñwpi. 3") - Дипломом 'j-й степени в конкурса прикладных работ (/О ЛН С<'<'Р |19*Нг); в перечне важнейших прикладных результатов Института математики (.'О I'Л11 (lílsür); в составе комплекса научных разработок ИМ СО РАН - 0<'ИОННЫМ призом - компьютером VKCTKA/4S6 - в конкурсе алгоритмов распознавания, проведенном фирмой IIKWIJiTT-РЛСКЛ1Ш (США), среди научных коллективов СССР (1992г); в составе помехоустойчивого речевого интерфейса - малой ЗОЛОТОЙ медалью на Международной выставке-ярмарке "Сибробот-93" (1993г).

Результаты работы докладывались на четырех Международных, семи Всесоюзных и Российских симпозиумах и конференциях, а также обсуждались на научных семинарах Института математики СО РАН, Вычислительного центра (.'О РАН, Института кибернетики АН Украины, Института технической кибернетики ЛН Беларуси, Института, кибернетики ЛН -¡пинии. Московского и Новосибирского Государственных универеннпов, Каунасского Политехнического института.

Личный вклад. Соискателю принадлежит разработка, обоснование, исследование и практическая реализация минимального но сложности алгоритмического и программного обеспечения человеко-машинной сиси'мы распознавания речевых команд, устойчивой к одновременному воздействию фоновых шумов и вибраций. Создание макетов и опытных образцов речевых интерфейсов выполнено совместными усилиями сотрудников ИМ СО ['ЛН и НГУ при непосредственном участии автора.

Публикации. Результаты исследований изложены в 33 работах, включая 9 отчетов по поисковым и научно-исследовательским работам.

На защиту пыпоея и:я:

]. Совокупность результатов исследований свойств речевых сигналов, искаженных вибропомехами, и результатов исследований помехо-.усюйчивости человеко-машинной системы распознавания при одновременном воздействии на нее внешних акустических помех и вибраций.

2. Комплекс, научно-технических средств, обеспечивший создание и внедрение действующих речевых интерфейсов к интеллектуальным с.исте мам, включающий:

- ма1емнтичес.кое и программное обеспечение системы распознавания речевых сигналов, устойчивое к одновременному воздействию фоновых шумов и вибраций;

- новые конструктивные решения функциональных блоков распознающей сштемы и набор технологических приемов, направленных на реалимцию работы алгорит мов в реальном времени на процессорах с малой производительностью.

Оиьсм и структура работы. Диссертационная работа изложена

в

на 1 Г>5 страницах и состоит из введения, четырех глав, заключения и двух приложений. Основной текст занимает 123 страницы, приложения - 31 страницу. Иллюстративный материал включает 27 рисунков и одну таблицу, ('пис.ок литературы состоит из 1ВД наименований.

Содержание работы

Во введении обоснована актуальность темы диссертации, сформулированы цель работы и задачи исследований, научная новизна и практическая ценность результатов, указана связь работы с. гог.удар стенными программами, приведены основные положения, выносимые на защиту, и краткое содержание диссертации по главам.

В нерпой главе изложена сущность и дано обоснование принятою в работе подхода к задаче распознавания речевых сигналов, искаженных воздействием влбрацпИ и акустических шумов. Проанализировано современное состояние проблемы распознавания речевых сигналов. Рассмотрены факторы, определяющие сложность задач голосового управления, указаны основные компоненты систем распознавания речевых сигналов как речевых интерфейсов к управляемым объектам. Здесь же анализируется специфика транспортных средств голосового управления и особенности задачи распознавания речевых сигналов, лекаже! 1 ных внбропомехами.

Для качественного анализа текущего уровня разработок и исследований нее существующие системы распознавания были разбиты на два класса ио признаку помехоустойчивости. В последние годы наблюдается прогресс в создании систем, не обладающих устойчивостью к помехам. ':>ют прогресс обусловлен, в основном, ростом мощности компьютеров и процессоров, что позволяет использовать более сложные модели речевых сигналов. Созданы системы, способные распознавать изолированные слова, дискретную и слитную речь и оперирующие со словарями до десятков тысяч слов. Однако они не способны нормально функционировать при наличии помех. В то же время класс помехоустойчивых систем по-прежнему беден. Известные помехоустойчивые системы могуч удовлетворительно работать со словарями, включающими всего несколько десятков слов, обеспечивая устойчивость лишь к фоновым шумам. Системы распознавания речевых сигналов, устойчивые к вибрациям, до настоящего времени практически не изучены.

В основе принятого в работе подхода лежит аппроксимация речевых сигналов локально-стапионярными случайными последовательностями. Речевой сигнал рассматривается как временной ряд {х-, п = О, ± 1, ±2,...: г* € Я}, заданный на конечном интервале наблюдения (соответствующем фонеме, слову или фразе). Предполагается, что на участках (»[-:,п<], f = 1,2,..., речевой сигнал является стационарным

случайным процессом второго порядка, полностью описывающимся набором или вектором параметров в — (61 ,...,(?,,), которые скачкообразно изменяются в определенные моменты времени ...п(;, Пь ...,л„.... При этом оценки Й интерпретируются как выборочные значения или как

наблюдения этих параметров, причем в = 9 + е, где £ - гаус.совский вектор, компоненты которого независимы и одинаково распределены с нулевым математическим ожиданием и дисперсией а^.

Полагая По = 0, речевую команду можно представить как последовательность векторов © = п = 1, ...,»„} длины п.и или как матрицу размера <7 х ?>, .

Множество реализаций (произнесений) одного и того же слова (фонемы, фразы», имеющих одно и то же число состояний V и принимающих те же значения вектор-функции вп на соответствующих участках локальной стационарности, но отличающихся длительностью и скоростью или темпом произнесения, образует один класс.

Функции, осуществляющие соответствие между двумя отдельными реализациями из одного класса посредством допустимых растяжений и сжатий временной оси одной реализации во временную ось другой реализации, будем называть врсмяпрсобразующими функциями.

Для решения задачи распознавания К эталонных голосовых команд (классов) воспользуемся байесовской стратегией принятия решения, состоящей в максимизации апостериорной вероятности наблюдаемой команды. Судом считать классы равновероятными. В этом случае правило принятия решения состоит в отыскании номера к наиболее правдоподобного эталонного сигнала или наиболее правдоподобной последовательности (или век гор-функции) из напора эталонных последовательностей А: = 1.....по наблюдаемой реализации © длины

М на семействе множеств допустимых преобразований эталонных осей но временную ось наблюдаемой реализации. В предположении гауссов-ского характера и некоррелированности компонент аддитивного шума задача сводится к минимизации аддитивной целевой функции. Минимизация целевой функции осуществляется путем последовательного решения К задач динамического программирования. Трудоемкость алгоритма есть величина ()(уКп1), где п„ - среднее значение длительности эталонного сигнала, д - размерность вектора в. Введение дополнительного ограничения на времяпреобразующую функцию, называемого согласующим коридором, позволяет уменьшить трудоемкость алгоритма в пи/Ф раз, где V < п., называется шириной коридора.

Лшишз существующих работ позволил определить как основные достижения, так и главные трудности проблемы создания речевых интерфейсов, устойчивых к тгброискажениям речевых сигналов. Отмече-

но, что для обеспечения виброустойчивости необходимы специальные методы и алгоритмы обработки речевых сигналов. Тот факт, что к настоящему времени о воздействии на диктора-оператора вибропомех, искажающих речевой сигнал, практически ничего не известно, предопределил направления и задачи иссследований.

Н конце главы делается вывод о необходимости поиска информативных признаков (параметров), устойчивых к виброискажениям, а также о необходимости сокращения полиномиальной трудоемкости алгоритма принятия решения за счет: "уменьшения" длительностей реализаций, сокращения размерности пространства признаков, организации принятия решения о распознаваемом слове до окончания вычисления целевой функции.

Вторая глава посвящена экспериментальному исследованию свойств речевых сигналов, искаженных вибропомехами, и изучению устойчивости к вибропомехам системы распознавания речевых сигналов, лишенной каких-либо средств защиты от виброискажений. Приведены результаты исследования зависимости между ковариациями речевого сигнала до и после нелинейных искажений, позволившие в дальнейшем применить гауссовскую аппроксимацию речевых сигналов для построения алгоритмов обработки, устойчивых к виброискажениям и фоновым шумам, а также обладающих повышенным быстродействием.

С помощью вибростенда была сформирована база данных (фонограмм) речевых сигналов, искаженных вибропомехами с частотой от 4 до 25 Гц. В формировании базы участвовали семь дикторов-мужчин. В результате субъективного (слухового) анализа выделены такие эффекты, свойственные виброречи, как: колебания уровня громкости, появление охриплости, изменение эмоциональной окраски, сходство с речью плачущего человека, уменьшение разборчивости речи, выраженное сходство модулированных вибропомехой шумов дыхания с некоторыми семантически значимыми речевыми сигналами.

Эффект виброискажениИ речевого сигнала предложено описывать мультипликативной моделью, которая для непрерывного времени t имеет вид: v(l) = x(l)u(l), где u(i) = [1 /(р + 7)j[/?cos(2tfí/r„ + <¿>) 4- 7], О < Р < 7, -ос < í < 'XI, г„ и <р - параметры, определяющие период и фазу виброколебания, а р и у - параметры, позволяющие регулировать глубину модуляции или силу вибрации. Эта модель поззолила подучить перечисленные выше слуховые эффекты, свойственные реальному сигналу, искаженному вибропомехой.

Поскольку спектральные признаки типичны для большинства систем распознавания, была исследована устойчивость спектрального описания речево(К) сигнала к виброискажениям. Численное моделирование с использованием мультипликативной модели вибропомехи и модели авгорегресии, которой аппроксимировался речевой сигнал, лока-

зало, что средний квадрат отклонения искаженных оценок спектральной плотности речевого сигнала от неискаженных может почти на порядок превышать среднеквадратическую ошибку оценивания спектральной плотности в отсутствие виброискажений. Приведенный ри-

[ДБ] [дВ]

сунок иллюстрирует оценку авторегрессионной спектральной плотности фонемы /а/ и возможный разброс оценок из-за вибраций. Вместе с тем показано, что формы спектров сигнала до и после виброискажений имеют заметное сходство, которое может быть использовано при построении признаков, устойчивых к вибрациям.

Уровень воздействия вибропомех на распознающую систему оценен для типичных значений частот: 4,5,6,7,8,10,15 и 25 Гц по результатам распознавания изолированных команд. В результате исследований установлено, что система распознавания, использующая спектральные признаки и обеспечивающая надежность 98-99% в отсутствие помех для словарей в несколько сотен слов, при словарях, содержащих не более одного-двух десятков слов, снижает свою надежность до уровня 30%, если на человека и его речеобразующий тракт воздействуют вибрации. Вибропомехи частотой 4,5,6,10,15 и 25 Гц снижают надежность с 9Я-99% до 94-95%, а 7 и 8 Гц - до 80-85%. Модуляция шумов дыхания вибропомехой может понизить надежность до 30-50%. Установлено, что вибропомехи частотой 7-8 Гц почти полностью разрушают звуковой строй речевого сигнала. Распознавание сигналов при наличии вибропомех с этими частотами становится невозможным.

С целью сокращения времени принятия решения о распознаваемом сигнале по спектрально-ковариационному описанию, проведены исследования по ускорению вычислений оценок ковариаций с помощью нелинейных необратимых преобразований исходного сигнала. В качестве таких преобразований рассмотрены: предельное ограничение (клиппи-рование) и двухполупериодное линейное детектирование.

Если {х„}, п — 0, ±1,±2,..., - стационарная гауссовская последовательность с нулевым средним, а нелинейное преобразование / -

клиштиронание, то в силу известной теоремы Прайса теоретические корреляции последовательностей {хп} и {уп}, где у,, = /(хп), п ~ 0,±1,±2,..., связаны по формуле: рх{т) = 8№[(7г/2)/5,Дт)], т = О, ±1, ±2,____ В результате численного моделирования в работе установлено, что с достаточной для практики точностью теоретические корреляции речевого сигнала и клиппированного речевого сигнала связаны таким же соотношением. В качестве иллюстрации на рисунке при-

Рх

11 — 1

Ру

ведены два облака точек {р~(т),ру{т)) (для двух фонем /о/ и /ш/), концентрирующиеся около теоретической кривой.

Из той же теоремы Прайса следует, что если для двух последовательностей приведенная формула, связывающая корреляции, справедлива, чо исходная последовательность - гауссовская. Таким образом, с достаточной для практики точностью на участках локальной стационарности речевой сигнал можно аппроксимировать гауссовскич процессом. Далее, поскольку при двухнолупериодном линейном детектировании - уп = /(хп) = |л„| - гауссовского процесса справедлива формула: -т.(0| = а\ = (тг/2)МЦ, связывающая дисперсию и математическое ожидание двух процессов, дисперсия речевого сигнала (с точностью до коэффициента) может быть оценена как квадрат оценки математического ожидания детектированного процесса. Подобное оценивание применено в работе как при построении признаков, устойчивых к вибрациям, так и для ускорения вычислений.

Но результатам экспериментальных исследований в конце главы сделан вывод о возможности построения устойчивой к виброискажениям системы распознавания речевых сигналов, ориентировалной на обработку небольших по объему словарей. Эти же результаты позволили наметить пути повышения устойчивости системы распознавания к вибрациям, а именно: сглаживание спектральных оценок по времени и частоте и применение кодирования спектральных оценок, инвариантного к вибрациям различной частоты.

В третьей главе описаны алгоритмы обработки и распознавания

речевых сигналов при наличии вибропомех и фоновых шумов, приведены результаты их экспериментальных испытаний. В этой главе обосновывается информативность предложенного способа двоичного спектрального представления речевых сигналов, анализируется временная и емкостная сложность предложенных алгоритмов.

Опираясь на результаты предыдущей главы, в качестве информативных признаков, устойчивых к виброискажениям, предложено использовать двоичное спектральное описание сигнала в виде двоичного блочного вектора

» — (Л, , а-2 ,..., «2™-1|----¡"2 "-¡л

содержащего М блоков. Компоненты а вектора в каждом анализируемом кадре определяются значениями оценок спектральной плотности сигнала я..(Л) или связанной с ней энергии сигнала .^(А1, А") в полосах, построенных последовательным дихотомическим разбиением анализируемого интервала частот (Ап ',Л;'), 0 < А(, <

А(п> < -п. Каждому

из блоков т, т = 1.2,.... Л/, ставится в соответствие сетка частот О < Л;,'"' < А-'"' <...<' Аз"'' < гг, содержащая 2"' непересекающихся интернатов, в совокупности покрывающих диапазон от Лц до Л, , и вектора в принимают свои значения согласно правилу:

„,„ И. если >^(А|'"),ЛЙ); » = 1,...,2™ - 1;

10. если А^ ' > < ,А;+м; т= 1,...,М.

Для дихотомической схемы построения кода длины 2(2Л/ — 1)- М необходимо 'Iм спектральных значений или 2Л/ фильтров спектрального анализатора.

На рисунке приведен пример, иллюстрирующий изменение двоичного вектора (при М = 5) во времени (слева - направо) для слова "четыре". Темные пятна изображения соответствуют единичным значениям компонент вектора.

Информативность признаков подтверждена путем экспертного вое становления текста произнесенной устной команды. Тренированные эксперты с высокой точностью восстанавливают (распознают) произнесенный текст по двоичным изображениям.

......>

> •

> !" • ■ ' •

блок 1 .......

(1 частности, при М — 3 «длина лектора - 11 бит) обученный эксперт не сделал ни одной ошибки при декодировании двоичных изображений чисел от нуля до тысячи. Мри этом для М = 3 двоичное спектральное представление окалывается примерно в 6 раз экономичнее традицио-ного спектралытго описания, при котором для оценок спектральной плотности использугся восьмибитовый диапазон.

Вибрация как нелинейное искажение г„ — Л (->"„) приводит к искажению спектральной плотности $,.(Л| = //'^(Л)]. Двоичное же представление устойчиво 'инвариантно! за счет интегрирования (сглаживания! ко всем преобразованиям Н из класса, сохраняющего монотонность п соотношениях между энергиями сигнала в заданных полосах, который является подмножеством множества всевозможных спектральных виб[Ю1!скажениН. Уровень допустимых искажений регулируется длиной кода или числом его блоков. Чем короче длина кода, тем более значительные искажения допустимы, и наоборот. При этом следует учитывать, что с уменьшением длины кода теряется информативное гь двоичного щх-дставления.

Далее в работе описаны алгоритмы обнаружения сигнала, оценивания и компрессии признаков, устойчивых к вибрациям при наличии фоновых помех.

Оценивание. Показано, что для получения двоичных спектральных признаков, устойчивых к одновременному воздействию фоновых шумов и вибронскажепий, следует сначала компенсировать фоновые шумы путем вычитания нз спектральной плотности входного сигнала спектральной плотности шума, а затем, используя результат вычитания, построить двоичный спектральный код с числом блоков, обеспечивающим надлежащее сглаживание вибропомех. Оценивание энергии сигнала заменяется оцениванием квадратов математических ожиданий сигналов на выходе двухполупериодного детектора, что позволяет ускорить процесс построения кода для анализируемого кадра при использовании меньшей длины разрядной сетки вычислителя.

Для обнаружения начала (окончания) полезного сигнала используется: 1) превышение заданного порога статистикой, равной отношению квадрата разнскли векторов оценок спектральной плотности к удвоенной дисне{>син шума, 2) эффект скачкообразного увеличения (соответственно, уменьшения) дисперсии (мощности) ситнала в момент начала М1МШ ЫКИН1 подпиши СИ) Нлла.

К"лт]>ысчн. И.» локально-стационарной модели речевого сигнала следует, чти учасгок локальной стационарности сигнала в процессе обработки может быть разбит на несколько анализируемых кадров, и которых значении некшр-функцим идентичны. Сущность алгоритма. компрессии спешит во вводе и запоминании в памяти компьютера лишь отличающихся значений опенок векгор-функнии. В качестве

П

меры близости оценок используется статистика, введенная для обнаружения моментов переключения участков локальной стационарности сигнала. Для повышения устойчивости запоминаются усредненные оценки признаков для тех последовательных анализируемых кадров, которые фиксируются как похожие на этапе компрессии.

Предложен алгоритм распознавания, основанный на последовательной (вальдовской) процедуре проверки гипотез, которая, как известно, минимизирует время наблюдения над сигналом или время принятия решения при заданных вероятностях ошибок первого и второго рода. Показано, что правило принятия решения о распознаваемом сигнале в пространстве двоичных спектральных признаков состоит в минимизации суммарного хэммингова расстояния от наблюдаемой вектор-функции до эталонных вектор-функций вдоль оптимальных кривых, устанавливающих соотвсчствие между временными осями.

Сущность последовательной процедуры распознавания наблюдаемой последовательности длины М вновь состоит в отыскании наиболее правдоподобной эталонной последовательности из К заданных.

Процедуру принятия решения о наблюдаемой реализации представим как многошаговый процесс, рассматривая се очередной отсчет т как номер очередного шага, а М - как номер последнего шага. Для организации п|>оцедуры вводятся текущие нормированные расстояния от наблюдаемой вектор-функции, соответствующие очередному ее временному отсчету тп, до каждой из эталонных вектор-функций. После вычисления этих расстояний на очередном шаге производится их сравнение с заданным порогом. Эталонные последовательности, для которых расстояние превысит этот порог, исключаются из последующего рассмотрения. Процесс вычислений завершается досрочно, если на очередном шаге остается единственный претендент, который и принимается в качестве окончательного решения. В противном случае (при т = М) окончательное решение находится но минимальному значению среди всех условных экстремумов. На практике величины порогов определяю 1ся по результатам экспериментальной настройки алгоритма после нескольких актов апостериорного распознавания, когда будут твестны вмбодочнме оптимальные расстояния ог распознаваемых пекшр-фуньдиИ ди т.е\ или нескольких эталонных вектор-функций. Таким образом можно обеспечить эффективное последовательное исключение из р.исмот рения "лишних" гжкпез. Как показали чкепе-римещальные результаты, описанная процедура позволяет понизить трудоемкое'ть апостериорного алгоритма примерно в М/1иц,(М) раз.

При реализации последовательного алгоритма требуется донолни-м-льная м,1 м>] и. - для сохранения промежуточных значений условных экстремумов. С учетом сохранения эталонов общий объем памяти оценивается как 0\К((1^</ч-</п„)), где - верхняя граница для отношений

И

длин эталонных последовательностей к длине наблюдаемой (М).

Трудоемкость апостериорного алгоритма с согласующим коридором оценивается величиной Oy Kqn.jth), где V < "¡- Для предложенного последовательного алгоритма трудоемкость является функцией от многих факторов, что затрудняет ее аналитическую оценку. Можно указать верхнюю и нижнюю границы оценок трудоемкости: (){h'qfi. и OiJx fji!') соответственно. Из экспериментов трудоемкость последовательного алгоритма оценивается как O(log(/v )qnvx{>) или Ol l\q log!>?,, )?/'). Обе величины значительно меньше трудоемкости апостериорного алгоритма. При этом надежность распознавания (т.е. эмпирические оценки доли правильно распознанных слов среди всех слов словаря) для последовательного и апостериорного алгоритма практически не отличается.

Завершают главу результаты экспериментальных исследований системы распознавания, показавшие, что созданная бортовая транспортная система обеспечивает распознавание двух десятков команд с надежностью 95% в диапазоне частот телефонного канала при уровне стационарных акустических шумов не более 115 Дб и воздействии вибропомех с частотами 4-6 и 10-25 Гц. При воздействии вибропомех с частотами 7-8 Гц надежность распознавания - 90%.

Четвертая глава содержит описание структуры и программного обеспечения бортовой помехоустойчивой системы распознавания голосовых команд. Рассмотрены режимы работы системы и их назначение, а также варианты организации взаимодействия пользователя с речевым интерфейсом. Дано представление о практических применениях результатов работы.

В приложении 1 приведены примеры обработки речевых сигналов, а в приложении 2 - акты о внедрении результатов работы и дипломы, полученные автором в различных конкурсах. Наконец, в заключении подытожены результаты работы.

Основные, результаты работы и выводы

1. В работе выделена актуальная задача создания бортовых транспортных средств голосового управления, для которых во время устного диалога в каждый момент времени допустимым является обновляемый словарь, содержащий около десятка слов. Выявлены специфические требования к бортовым системам распознавания речи: 1) устойчивость к вибрациям и фоновым шумам, 2) минимальность габаритов и эперго-ресурсов системы, влекущая необходимость сокращения временной и емкостной сложности алгоритмов обработки и распознавания.

2. Поскольку вопросы воздействия вибропомех на распознающие системы ранее не были изучены, для достижения цели, поставленной в работе, проведены соответствующие исследования. При этом получены

Iе;

приоритеты«' результаты по исследованию свойств речевых сигналов, образующихся в результате воздействия на человека и его речеобразу-ющий тракт вибраций в диапазоне частот 5-25 Гц. Предложена модель виброискажений сигнала, позволившая, с одной стороны, выявить слабую устойчивость к вибрациям традиционного спектрального описания речевого сигнала, а с другой, - определить способы повышения устойчивости. Иыяснена степень влияния вибропомех на распознающие системы при типичных частотах виброискажений.

3. Перечисленные результаты заполнили существовавший пробел в априорной информации о виброискажениях и позволили найт и новое решение задачи распознавания речевых сигналов, устойчивое к вибропомехам и фоновым шумам. Основу этого решения составляют:

- предложенный способ первичного описания речевого сигнала в виде последовательности двоичных векторов, получаемых в результате дихотомического кодирования оценок спектральной плотности сигнала; найденное первичное описание, в отличие от известных, устойчиво к вибропомехам, позволяет компенсировать стационарные фоновые шумы и требует примерно в 6 раз меньших ::ат рат по намиIи;

- разработанный эффективный алгоритм оценивания двоичных спектральных признаков при наличии вибропомех и фоновых шумов, в ko'iojjom сокращение времени вычислений более чем на порядок достигнуто за счет применения двухполунериодцого линейного детонирования;

- алгориьч распознавания, минимизирующий время принятия решения, базирующийся на принципе максимального правдоподобия и методе динамического программирования; в этом алгоритме для ускорения вычислений применяется пошаговая процедура сокращения числа проверяемых гипотез, опирающаяся на метода статистического последовательного анализа.

4. Повое решение задачи распознавания позволило разработать ряд прикладных помехоусюйчивых систем. Создание этих систем - логическое завершение диссертационной работы, демонстрирующее эффективное! ь предложенных решений. Разработанные алгоритмы: а) обеспечили создание первого в СНГ миниснецпроцессора динамического нр<>г|>аммн[к>вания, ориентированного на решение в реальном времени задач распознавания устной речи, б) положены в основу программного обеспечен ни первого отечественного речевого интерфейса "Сибирь-З-МИГ", способного с 95%-й надежностью распознавать несколько десятков устных команд в условиях воздействия вибропомех в диапазоне 5-0 и 10-25 Гн. а также шумов интенсивностью 115 дБ, в) являются ядром портативного уст|кшсгва сбора и обработки геодезической информации, управляемого при помощи голоса. Практическая чначижк-11. резу.тыаюв работы подтверждена актами о внедрении из

ряда организаций.

Подводя итог, можно сделать вывод о том, что в работе найдено новое решение задачи распознавания речевых сигналов, которое в отличие от известных устойчиво к вибропомехам, фоновым шумам и, ввиду невысокой временной и емкостной сложности, может быть использовано при построении бортовых транспортных средств голосового управления.

Список основных публикаций автора по теме диссертации:

1. Кельманов A.D., Наумов Б.Д., Хамидуллин С.А. Спецпроцессор, реализующий алгоритм динамического программирования// 'Гел.докл. 12-го Нсесоюз. семинара АРСО-12, Киев, 19#2.- C.456-45S.

2. Лебедев В.Г'.. Хамидуллин С.А. Распознавание фраз дискретной речи с учетом семантико-сиптаксических и прагматических ограничений // Вычислительные системы / АН СССР. Сиб. отд. Институт математики. - Новосибирск, 19*5. - Вып.113. - Анализ символьных последовательностей. - с.133-142.

3. Kelnianov A.V., Khamidullin S.A., Lebedev V.G., Velichko V.M., Zagorniko N.G. Discrete Speech Understanding System // Proc. of the F-ighth Int. Conf. on Pattern Recognition / Paris, France, Oct. 27-31,

1986. p.264-266.

t. Величко B.M., Загоруйко Н.Г., Кельманов A.B., Лебедев В.Г., Саломатина Н.В./Гарабунов И.М., Хамидуллин (.'.А., Юдина Л.С. Разработка -жепериментальной системы понимания речи диспетчера для цифрового диспетчерского тренажера управления воздушным движением // Отчет о НИР НГУ по теме М-41-81 / Новосибирский госуниверситет, Новосибирск, 1986,- №Гос. per. 01826001234,- 280 с.

5. Кельманов A.B., Хамидуллин С.А. Исследование степени влияния помех на надежность распознавания изолированных слов // Отчет о НИР но теме "Сергач-Сандомир'" / АН СССР. Сиб. отд. Институт математики. - Новосибирск, 1986,- 9с.

(¡. Кельманов A.B., Хамидуллин С.А. Разработка алгоритмов, технических и программных средств распознавания изолированных речевых команд в ограниченном диапазоне частот// Отчет о НИР М-91-86/ Новосибирский госуниверситет, Новосибирск, 1987.- Jf* Гос. ре г. 01870014595.- 89с.

7. Lebedev V.G., Khamidiiilin S.A. Speech recognition system on a microcomputer //Proc. Xltli Int. Congress of Phonetic Sciences, August 1-7,

1987, Tallinn, p.86-88.

8. Кельманов A.B., Хамидуллин С.А. Алгоритмическое, программное и аппаратное обеспечение системы распознавания изолированных команд в условиях интенсивных внешних помех и нелинейных искажений// Отчет о НИР ИМ СО АН СССР по теме "Ссбеж-2-МАП", Новосибирск,1988,- 107с.

9. Кельманов A.B., Хамидуллин С.А. Разработка и исследование алгоритмов обработки речевых сигналов в условиях интенсивных внешних помех и нелинейных искажений // Отчет о НИР ИМ СО АН СССР / лив. №1861, Новосибирск, 1988,- 61с.

10. Кельманов \.H.. Xaи.нл чип С,Д. Разработка и иге.юдоиание алгорИ1Мов распознавания речивых сигналов и диапазоне часки телефонного канала // Отчет о НИР ИМ СО ЛИ СССР / инв. №1907. Новосибирск, 1989.- 17 с.

11. Кельманов А.К. Хамидуллин С.А. Разработка и оптимизация математических алгоритмов для речевых информационно-управляющих систем, обеспечивающих надежное распознавание речи при действии мешающих факторов // Отчет о НИР ИМ СО АН СССР / инв. >1931, Новосибирск, 194).- 1*9 г.

12. Кельманов A.B., Хамидуллин С.А. Исследование по оптимизации и разработке программных и аппаратных средств сопряжения речевой информационно-управляющей системы с бортовым оборудованием подвижных объектов // Отчет о НИР ИМ СО АН СССР / инв. №1967, Новосибирск. 1989.- 221 с.

13. Кельманов Л.В., Хамидуллин С.А. Последовательные многоканальные алгоритмы обнаружения и ввода признаков речевого сигнала на фоне шума //' Тез. докл. 15-го Всесоюз. семинара Л PCO- lä. Таллинн, 1989!- c.20S-209.

14. Кельманов Л.В., Хамидуллин С.А. Голосовая вопросно-ответная диалоговая помехоустойчивая управляющая система // lei. докл. Всесоюз. научно-техн. совет. "Программное обеспечение новой информационной гехнодогии", Калинин, омябрь 19.V).- К<1линин. 1989.-с.59-61.

15. Kelmanov A.V., KhamidnUin S.A. Speech Interface for Inputting (n-foniiatioii into Expert, Infoniiatioii, Retrieval and Control System // Proc. of the Int. Couf. "Artifical Intelligence- Industrial Application", Leningrad, apr, 15-19, 1990, p.43-45.

16. Кельманов A.B., Оаломатина H.H., Хамидуллин С.А. Экспертное восстановление текста по первичному описанию сигнала // Тез. докл. 16-го Всесоюз. семинара АРСО-16, Москва, 1991,- с.36-37.

17. Кельманов A.B., Хамидуллин С.А. Распознавание речи в условиях вибраций // Тез. докл. 16-го Всесоюз. семинара АРСО-16, Москва. 1991. - с.40-4'].'

18. Кельманов A.B., Хайретдинова Л.Г., Хамидуллин С.Л. Цифровая обработка речевых сигналов, искаженных вибропомехами // Вычислительные системы / АН СССР. Сиб. отд. Институт математики. -Новосибирск. 1991,- Вып. 141- Анализ временных рядов и символьных нослсдоват ельностсй.- с. 102-116.

19. Кельманов A.B., Хамидуллин С.А. Статистическое оценивание зависимости между первыми и вторыми моментами речевого сигнала до и после нелинейных искажений // Вычислительные системы / АН СССР. Сиб. отд. Институт математики.-Новосибирск, 1991.-Вып. 141.-Анализ временных рядов и символьных последовательностей.- с.117-131.

20. Кельманов A.B., Хайретдинова А.Г., Хамидуллин С.А. Распознавание речи при применении диктором-оператором средств, защищающих органы дыхания // Тез. докл. 17-го Междунар. семинара А PCO-17, Ижевск, 1992.- с.8-10.

21. Величко В.М., ЗагоруЙко Н.Г., Кельманов A.B., Тарабунов И.М., Хайретдинова Л.Г., Хамидуллин С.А. Речевой ввод в базы данных //

les, докл. !7-m Мгж.тд'нар. семинара \ PCO-17, Ижевск. 1ЯЯ2.- r.l!W-199.

22. Кельманов Л.H.. Спломатииа H.H.. Хпйрегдипов.ч Л.Г., Хамидул-лин < Д. Правила и алгоритм преобразования орфографической записи на русском языке в фонетическую транскрипцию // Вычислительные с истемы / РАН. Сиб. отд. Институт математики. - Новосибирск. 199.г>,-ßbjn.Jo.T,' Прикладные системы искусственного интеллекта.- с.32-92.

24. Кельманов A.B., Хамндуллин f.А. Алгоритм оценивания траектории частоты основного тона //Вычислительные системы / РАН. Сиб. (пл. Институт математики. - Новосибирск, 1996,- Вып.157.- Искусственный интеллект и экспертные системы.- с.112-136.

Подписано в печать 03.11.97 г.

Формат бумаги GOxSi 1 1/16 Объем 1.2 и .л.

Тираж. 100 -IKJ. Заказ X* 23

(Watirmin НВМнМ! I < I Р4Н.

'"50090, I louociroiipcK--90, проспект академика Лаврентьева, 6.