автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.14, диссертация на тему:Методы построения двухуровневой дикторонезависимой системы распознавания изолированных слоев

кандидата технических наук
Малеев, Олег Геннадьевич
город
Санкт-Петербург
год
1997
специальность ВАК РФ
05.13.14
Автореферат по информатике, вычислительной технике и управлению на тему «Методы построения двухуровневой дикторонезависимой системы распознавания изолированных слоев»

Автореферат диссертации по теме "Методы построения двухуровневой дикторонезависимой системы распознавания изолированных слоев"

- .-1 ОД

\' \ и На правах рукописи

17

а

Малеев Сшег Геннадьевич

\

Методы построения двухуровневой дикторонезашсимой системы распознавания изолированных слов

Специальность: 05.13.14 - системы обработки информации

и управления.

АВТОРЕФЕРАТ

диссертации на соискание ученсм степени кандидата технических наук

Санкт-Петербург - 1997

Работа выполнена в Балтийском Государственном технически университете им. Д.Ф. Устинова, Санкт-Петербург.

Научный руководитель:

доктор технических наук, профессор Козлов Ю.М.

Официальные оппоненты:

д.т.н., проф. Челпанов Игорь Борисович к.т.н., доц. Уткин Владимир Николаевич

Берущая организация -

Санкт-Петербургский институт информатики и автоматизации Рос сийской Академии наук

Зашита состоится "/О" /.ис**^ 1997г. в /1/ часов на заседании диссертационного совета ССК 053.10.02 Балтийског государственного технического университета по адресу: Санкт-Петербург, 1-ая Красноармейская д. 1.

С диссертацией можно ознакомиться в библиотеке университета. Автореферат разослан "25" О^рЛл Л 1997 г.

Ученый секретарь

диссертационного совета

В.Ю. Емельянов

ОЫЩЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность теми даооертаиуал

Применение систем распознавания речи позволяет реализовать наиболее удобное взаимодействие человека с технической системой. Управление с помощью голоса может оказаться особенно полезным, если руки оператора заняты, при воздействии на оператора ускорений, при проведении работ в экстремальных условиях, когда важна скорость реакции и т.д.

Для многих задач необходимо применение дикторонезависимых систем распознавания изолированных слов (команд). Это вопросно-ответные систем, системы с неизвестньм заранее диктором, приложения компьютерной телефонии. Разработка таких устройств осложняется рядом теоретических и практических проблем, связанных со значительной вариабельностью параметров речевого сигнала в зависимости от диктора.

Актуальной остается проблема улучшения характеристик существующих и создание новых речевых систем. Необходимость и своевременность проведения научно-исследовательских работ в данном направлении обуславливается объективными требованиями совершенствования человеко-машинного интерфейса в условиях быстрого расширения областей применения автоматических технических систем.

Необходимые условием для широкого использования речевых технологий является поЕЫшение вероятности правильного решения и увеличение быстродействия систем, дикторонезависимого распознавания речи. Повышение быстродействия систем распознавания речи особенно важно при работе с большими словарями, т.к. при традиционном подходе время анализа речевого сигнала пропорционально числу слов в словаре.

Одним из перспективных подходов к улучшению характеристик систем распознавания является применение двухуровневой обработки с использованием различных методов анализа речевого сигнала на первом и втором уровнях, однако вопросы построения таких систем изучены недостаточно.

В настоящее время распространенным является сегментный метод анализа речевого сигнала, который предполагает вычисление набора признаков на интервалах длительностью 5-20 мс. Для про-

ведения распознавания по полученной последовательности векторов признаков необходимо применять ресурсоемкие метода для снижения влияния изменений темпа речи.

Другим направлением является выявление и анализ признаков, характеризующих все слово в целом. Такие признаки называют це-лословными. В этом случае анализируемый речевой сигнал характеризуется вектором значений целословных признаков, что позволяет снизить время сравнения с эталонами.

Для повышения эффективности систем распознавания речи целесообразно исследовать возможность объединения целосяовного и сегментного методов, а также разработать метода; использования информации о слове в целом в системах распознавания речи, метода организации взаимодействия отдельных блоков двухуровневой системы распознавания речи.

Целесообразность построения двухуровневой системы распознавания с использованием целословного и сегментного анализа подтверждается психофизическими экспериментами слуховой системы человека, которые показали, что человек наряду с сегментной использует некоторую целословную информацию о речевом сигнале.

Работа выполнена на кафедре Систем автоматического управления Балтийского государственного технического университета в соответствии с программой ^Университеты России".

Цель районы: Совершенствование характеристик систем распознавания изолированных слов на основе применения двухуровневой обработки речевых сигналов.

Основные задачи исследований:

1. Обоснование целесообразности применения двухуровневой обработки речевого сигнала с использованием блоков целословного и сегментного анализа.

2. Выбор метода проведения целословного анализа речевого сигнала на основе применения робастной статистики для дикторонезависимых систем распознавания изолированных слов.

3. Выбор рациональной организации межуровневого взаимодействия целословного и сегментного блоков.

4. Разработка рабочего места исследователя речевых систем и экспериментальной дикторонезависимой системы распознавания изолированных слов.

Метода наследования: При выполнении работы использовались метода теории распознавания образов, математической статистики, теории планирования эксперимента и теории вероятностей.

Для выполнения поставленных задач применялись метода экспериментального исследования с использованием аппаратно-программного комплекса на базе персональной ЭВМ и специально разработанных программных средств.

Оснавныэ результата работы:

1. Алгоритм целословного анализа, построенный на основе применения методов робастной статистики, позволяет увеличить вероятность правильного решения в блоке целословного анализа. Для цифрового словаря вероятность правильного решения блока ЦА составила 0.994.

2. Метод двухуровневой обработки речевого сигнала с переспросом, позволяющий сократить время анализа речевого сигнала и повысить вероятность правильного распознавания в системе. Для цифрового словаря достигнуто снижение числа неправильных решений в 1.5 раза (от 7.7% до 5.1%) и уменьшение времени анализа речевого сигнала в среднем в 2 раза.

3. Алгоритм принятия решений для двухуровневой системы распознавания с переспросом, учитывающий распределения расстояний от анализируемого речевого сигнала до эталонов целословного и сегментного блоков.

4. Рабочее место исследователя речевых систем, позволяющее производить настройку алгоритмов распознавания на конкретный словарь пользователя и экспериментальная дикторо-независимая система распознавания изолированных слов, обеспечивающая управление ЭВМ с помощью речевых команд.

Научная новизна исследования:

• Предложен и реализован метод двухуровневой обработки речевых сигналов с применением целословного и сегментного анализа и механизма переспроса. На основании проведенного сравнительного анализа вариантов межуровневого взаимодействия блоков установлено, что целесообразной организацией двухуровневой обработки речевого сигнала является последовательное соединение целословного и сегментного блоков с применением механизма переспроса.

• Предложена система целословных признаков для дикторонеза-висимого распознавания речевого сигнала.

• Разработан алгоритм целословного анализа с использованием робастных оценок и построенных на их основе нелинейных функций расстояния, что обеспечивает повышение вероятности правильного распознавания и устойчивости целословного анализа к отклонениям значений параметров речевого сигнала. Предложен алгоритм определения наиболее вероятных альтернатив с подстройкой параметров решающего гранила.

• Разработан алгоритм принятия решений с использованием информации, поступающей от целословного и сегментного блоков.

- • Проведен теоретический анализ работы двухуровневой системы распознавания, позволяющий определить характеристики системы по параметрам отдельных блоков. .

• Предложен и реализован метод динамического ввода речевого сигнала в ЭВМ.

• Разработана методика построения дикторонезависимых систем распознавания изолированных слов для малых словарей.

Достоверность научных положений и выводов определяется достаточным объемом теоретических и экспериментальных исследований, выполненных с использованием средств вычислительной техники. Оценка надежности результатов экспериментальных исследований производилась с достоверностью 0,95-0,99.

Практическая ценность диссертационной работы:

• Предложенный метод двухуровневой обработки речевого сигнала позволяет увеличить быстродействие и вероятность правильного распознавания для дикторонезависимых систем распознавания изольфованных слов.

• Предлагаемые в работе методы и алгоритмы организации двухуровневой обработки речевого сигнала доведены до уровня программного обеспечения, готового к практическому использованию.

• Разработано рабочее место исследователя речевых систем, позволяющее производить анализ и настройку алгоритмов распознавания для конкретного словаря.

• Разработана дикторонезанисимая система распознавания изолированных слов, функционирующая в многозадачных средах, позволяющая обеспечить управление с помощью речевых команд стандартных и специализированных приложений.

Результата внедрения

Основные положения диссертационной работы и разработанная дикторонезависимая система распознавания изолированных слов использованы в НИР "Методы и средства речевого общения с компьютером". Полученные результаты отражены в отчетах по НИР БГТУ УЗ-72-2095, У4-03-3527, У4-03-3509 за 1994,1995,1996 гг. Результаты диссертационной работы применяются при проведении исследовательских работ по развитию перспективных систем управления в Центральном конструкторском бюро морской техники "Рубин". Предложенная в работе структура двухуровневой системы распознавания и разработанные программные продукты использованы в Центре Цифровой Обработки Сигналов Государственного Университета Телекоммуникаций. Материалы диссертации применяются в учебном процессе факультета СУ БГТУ. Внедрение результатов работы подтверждено соответствувсщими документами.

Апробация рабоиы

Основные положения и результаты диссертационной работы докладывались и обсуждались на международном семинаре SPECOM'96 International Workshop "Speech and Computer",Санкт-

Петербург, 1996; III-ей , IV—ай, V-ой Санкт-Петербургских Международных Конференциях "Региональная информатика", г. Санкт-Петербург, 1994, 1995, 1996 гг. соответственно; на второй межведомственной научно-технической конференции "Проблемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах", г.Пушкин, 1995.; а также в Центре Цифровой Обработки Сигналов Государственного Университета Телекоммуникаций.

Публикации

По материалам диссертации опубликовано 10 печатных работ, в том числе, подана заявка о выдаче патента Российской Федерации на изобретение "Способ дикторонезависимого распознавания изолированных речевых команд" № гос. регистрации 97101846.

Объем и структура д иссертац ии

Работа состоит из введения, четырех глав, заключения и списка литературы. Основная часть работы изложена на 105 страницах машинописного текста. Работа содержит 12 таблиц и 13 рисунков. Список литературы включает 103 наименования.

Во введении дается общая характеристика работы, обосновывается ее актуальность, определяются цели и задачи исследований, научная новизна и практическая ценность диссертационной работы.

В первой плаве изложены существующие подхода к построению систем распознавания речевого сигнала. Рассмотрены наиболее распространенные метода анализа речевого сигнала, а также, используемые в системах дикторонезависимого распознавания признаки. Проанализированы достоинства и недостатки методов снижения влияния темпоральной изменчивости речевого сигнала на результат распознавания.

Для повышения эффективности систем распознавания речи целесообразно исследовать возможность объединения целословного и сегментного методов. Обоснована целесообразность дальнейших исследований методов использования информации о слове в целом

в системах распознавания речи, выбора системы целословных признаков. На основе проведенного исследования, сформулированы задачи, подлежащие разработке в данной работе.

Во втсрсй главе приводятся предлагаемые метода целословного анализа и основные подхода к применению блока целословного анализа в дикторонезависимых системах распознавания. При проведении экспериментальных исследований использовался словарь, состоящий из 10 цифр.

В работе проведены исследования более 30 различных целословных признаков. Изучалась информативность как предлагаемых ранее, так и полученных в ходе анализа экспериментальных выборок речевого сигнала, признаков. В качестве критерия информативности использовалась вероятность правильного распознавания.

Для построения блока целословного анализа речевого сигнала необходимо из множества 3={5д.}, 1=1..к, возможных признаков речевого сигнала выбрать систему признаков Х={х1}, 1=1..р, обеспечивающую наилучшее качество распознавания при ограничении на затраты вычислительных ресурсов.

Для повышения эффективности отбора целословных признаков был предложен алгоритм, работающий в два этапа. На первом этапе производится предварительный отбор, который основан на анализе индивидуальных вероятностных характеристик каждого из признаков множества Б. Признаки с низкой информативностью отбрасываются. На втором этапе производится окончательный выбор системы признаков с использованием метода Барабаша, учитывающий вероятностный характеристики групп признаков.

В результате были отобраны 10 наиболее эффективных (и в то же время достаточно простых) признаков, которые применяются в целословном блоке:

XI - среднее число пересечений через ноль. х2, хз, Х4 - число сегментов сигнала, в которых частота нулевых пересечений больше 2 кГц, 3 кГц, 5 кГц соответственно .

х5 - отношение среднего числа нулевых пересечений в первой четверти слова к последней.

Кб - изменчивость энергии PC.

Х7, хе - количество импульсов клиппированного сигнала длительностью менее 125 мкс и более 250 мкс соответственно.

xg, хю - количество импульсов в сигнале, отфильтрованном с помощью фильтра низкой частоты с частотой среза 400 Гц и полосового филыра с частотами среза 510 и 1300 Гц соответственно. Проведенные исследования показывают, что отклонения от принятой модели распределения или "нетипичные" значения, хотя бы в одном из признаков, обычно достигают 3-5% от общего числа реализаций речевого сигнала. В случае применения классических статистических процедур такие реализации речевого сигнала приводят к увеличению ошибок классификации. Одно резко отличающиеся значение признака может значительно сместить оценку параметра распределения.

Для ограничения влияния подобных искажений на работу систем распознавания речи целесообразно использовать методы робастной статистики. Пусть хц ,x2i.. - Xni выборка из 11 независимых наблюдений 1-го признака, извлеченная из исследуемой генеральной совокупности. Вероятность появления наблюдения описывается функцией f(xii;T) i=l..n, где Т -статистическая оценка параметрического закона распределения, описываемого некоторым вектором параметров 8. В робастной статистике связь оценки 6 с системой наблюдений хц,Ха... .х^ является разорванной. Предлагается решать задачу оценки нахождением минимума выражения ^р{ха;Т) вме-и

сто , где р{хй\Т) , в общем случае произвольная

¡=1

функция. Соответственно вместо X ^'".п? = 0 г применяется выра-

>=1 J Vх, i >1)

яозние:

±у(х„;Г> = 0, г= . (1)

1=1 Щ

Для определения более надежных оценок применен минимаксный подход робастной статистики. Функция \j/(x,T) минимаксной оценки может быть определена по формуле:

у/(х,Т) = тах(-й,тт(й,л)),

(2)

где - порог ограничения, который выбирается в соответствии с правилом:

т.е. порог ограничения принимается равным 5.2 медианы от-лонений от медианы (МАО).

При распознавании производится сравнение вектора признаков нализируемого речевого сигнала с эталонами, полученными на тапе обучения. Важной задачей является определение меры рас-тояния, достаточно чувствительной для различения классов, но ечувствительной к побочным вариациям признаков, связанных, ак с вариабельностью речевых сигналов, так и с несовершенст-ом методов измерения признаков.

Для ограничения влияния "нетипичных" значений на результат лассификации целесообразно вместо собственно расстояния г ис-ользовать нелинейную функцию расстояния г(г).

Эффективная фильтрация больших ошибок достигается примене-ием взвешенного среднеквадратического расстояния с ограниче-ием.

Для каждого признака 1 определяется функция расстояния:

где - расстояние между соответствующими значениями 1-го признака и эталона, 111 - пороговая величина. Порог Ьч определяется по обучающей выборке с использованием равила(З). Окончательное значение расстояния до эталона вы-исляется с помощью стандартной формулы для взвешенного сред-еквадратического расстояния:

где р - число признаков,

а± - среднеквадратическое отклонение распределения признака 1.

И, = 52 МАО = 5.2отеЦ ||х(/ - medJ (ху/)||

\<1,]<П

(3)

(4)

(5)

Проведено сравнительное исследование влияния различных мер расстояния(рис. 1) на качество процесса распознавания.

В таблице 1 приведены результаты эксперимента с линейной Гх (г), кусочно-постоянной (метод с применением классов различия) г2 (г) и с ограничением г3(г) функциями расстояния. Рабочий словарь системы состоял из 10 цифр. Измерения проводились на обучающей выборке, состоящей из 2000 реализаций, произнесенных 200 дикторами.

Таблица 1. Вероятность правильного решения в блоке цело-сповного анализа при различных функциях расстояния.

Слово линейная, ri(z) кусочно-постоянная, r2(z) с ограничением, r3(z)

Весь словарь 0.974+0.007 0.980±0.006 0.994+0.004

Проведенная с использованием критерия yj проверка статистической значимости увеличения вероятности правильного распознавания в блоке целословного анализа в случае применения функции расстояния Гз (z) относительно применения Гг (z) показала, что полученный результат с достоверностью больше 0.99 обладает статистической значимостью.

Таким образам, применение нелинейных мер расстояния позволяет повысить вероятность правильного решения в дикторонезави-симых системах распознавания речи.

Елок целословного анализа (ЦА) определяет подмножество наиболее вероятных альтернатив Q, наиболее близких к распознаваемому слову в пространстве интегральных признаков. Число членов п в подмножестве Q меньше общего количества слов N в словаре. Качество работы системы в целом тем выше, чем меньше будет п (при достаточно высокой вероятности принадлежности распознаваемого слова к подмножеству Q).

Для отбора наиболее вероятных альтернатив было предложено решающее правило:

Г2(г)

г3(г)

Ьа К11 у Ь /

0, при г, < А,"

1, при И" < г, < А,4

2, иры л, > А,ь

пороговьв величины.

Л/

г}(г1)=г1 тш(1,—)

Рис 1. Функции расстояния: а) кусочно-постоянная, б) с ограничением.

а)

решение

РС|

Елок ДА

1

Блок СА

1

Блок ПР

б)

переспрос . РС

решение

в) РС

++ Блок ЦА

1

Блок СА

X

Блок ПР

Блок ЦА

Блок СА

Блок ПР

решение

Рис 2. Варианты организации межуровневого взаимодействия.

hteCl, если Rk < /?min + A(Rm J , (6)

k=l..N,

hk - к-ое слово словаря системы,

Rk - расстояние между анализируемым речевым сигналом и эталоном, соответствующим к-ому слову.

Вероятность правильного решения тем выше, чем меньше расстояние Bntn между входной реализацией и ближайшим эталоном, поэтому порог А должен зависеть от R^. В результате экспериментов была выбрана следующая аппроксимация зависимости А (Вит) "■

ЧМ = 4> придал

где Ai,A2,B - коэффициенты настройки.

Быгм проведены экспериментальные исследования на контрольной выборке, состоящей из 1500 реализаций, произнесенных 150 дикторами. В качестве словаря выбраны 10 цифр от 0 до 9. Вероятность правильного определения подмножества наиболее вероятных альтернатив составила 99.4% при среднем количестве слов в группе 4.072.

Цроведенные экспериментальные исследования показали, что снижение порогов Ах,Аг позволяет уменьшить среднее число членов в подмножестве Q до 3 при вероятности правильного решения 98%. Для увеличения вероятности правильного решения по отбору наиболее вероятных альтернатив в подмножество Q до 100% (на обучающей и контрольной выборках) необходимо увеличить Ai и Аг, при этом среднее число членов подмножества увеличивается до 4.599 (контрольная выборка). Введение зависимости A(Rmm) позволяет уменьшить среднее число альтернатив, отбираемых в подмножество Q, при одинаковой вероятности правильного решения.

В третьей плаве проведен анализ и выбор возможной организации двухуровневой системы и алгоритмов принятия решения по информации сегментного и целословного блоков.

Повышение эффективности системы распознавания речи может быть достигнуто за счет применения двухуровневой обработки

речевого сигнала. Каждая входная реализация в блоках ЦА и СА описывается векторами признаков х" и Xя соответственно.

Результатом работы блока ЦА является подмножество О с числом членов п, кроме того, может быть получен вектор с1„(хм,т) численных значений расстояний до целословных эталонов для ана-, лизируемого речевого сигнала (т - номер эталона, и*=1..Ы).

Елок сегментного анализа (СА) производит анализ интервальных признаков речевого сигнала, определяя наиболее вероятное слово из выбранного набора слов-претендентов.

Результатом работы блока СА является вектор с^(хэ, численных значений расстояний до сегментных эталонов (входящих в подмножество О) для анализируемого речевого сигнала (1Ч - номер сегментного эталона д-го члена подмножества П, <3=1. ,п) .

Блок принятия решения (ПР) производит анализ результатов работы блоков СА и ЦА. При определенных условиях, рассмотренных далее, с помощью сигнала "переспрос" возможно расширение подмножества О для уточнения решения.

Были рассмотрены три варианта соединения блоков (рис. 2) : последовательное, параллельное и последовательное с переспросом.

1. Последовательное соединение. В этом случае блок цело-словного анализа определяет подмножество наиболее вероятных альтернатив для входной реализации речевого сигнала О, которое передается в блок сегментного анализа (СА). Блоком СА производится сегментный анализ входной реализации в пространстве классов, определяемых подмножеством О. Блок принятия решения (ПР) определяет окончательный результат работы системы. Результатом распознавания является слово, соответствующий класс которого оказался наиболее близким к эталону сегментного блока.

Последовательное соединение позволяет увеличить быстродействие системы в целом. Время Тда, необходимое для анализа речевого сигнала блоком ЦА, намного меньше времени, которое необходимо для анализа сегментным блоком системы даже одного члена подмножества П.

В случае использования только одного сегментного блока число анализируемых альтернатив п равно N (общему количеству слов в словаре); введение блока ЦА позволяет получить п<Ы. Общее время Тф, затрачиваемое системой на анализ входной реализации, определяется соотношением:

Тср^ца+Т^Г^Тсрса! . ( 8 )

Если пренебречь Тда и Тпрса, то общий выигрыш в производительности при последовательном соединении KHi/N.

Вероятность правильного решения в блоке СА (Рса (п)) зависит от числа возможных альтернант п. В случае использовании блока целословного распознавания n<N, поэтому значение P^ín) может несколько возрастать. Следовательно, при последовательном соединении блоков можно добиться увеличения вероятности Роб правильного распознавания для системы в целом, в случае достаточно высокой вероятности правильного распознавания в блоке ДА (Рщ(п)) . Критерием, определяющим возможность увеличения Роб, является выполнение неравенства:

р , л, рсХЮ

(9)

2. Последовательное соединение с переспросом (рис. 26). Для снижения влияния ошибок в блоке ЦА на вероятность правильного распознавания для всей системы в работе предложено последовательное соединение блоков с организацией переспроса. В этом случае анализ речевого сигнала производится по схеме последовательного соединения, но блок принятия решений оценивает качество получаемого результата. В случае недостаточной степени достоверности решения производится переспрос блока ЦА. При возникновении переспроса блоком ЦА. выдается расширенное подмножество альтернатив.

Формула для расчета временных затрат системы в целом на распознавание одного слова Тс имеет вид:

i

+ Т +Т +(Уп'.)-Т

i прса срца V<,у i/ ср

прца х прса ' * срца ' ^ £,* срса1 г (10)

(=0

где Тцроа - время расчета признаков для блока ЦА, Тгрса - время расчета признаков для блока СА, Тер® - время сравнения с целословными эталонами в блоке ЦА,

Тсрса1 - время сравнения с одним сегментным эталоном в блоке СА,

п±' - число классов, добавленных в подмножество А при 1-ом переспросе,

I - число переспросов при анализе данного речевого сигнала.

Если принять время ДТ= Тщщ+Тсрид за условную единицу, то время Т^хя -11, Торсах"«4.5. Таким образом, при последовательном соединении с переспросом общее время работы системы в среднем уменьшается.

Таким образом, с помощью последовательного соединения с переспросом можно добиться исправления ошибок блока ЦА и, в то же время, увеличения быстродействия системы в целом, характерного для последовательного соединения.

3. Параллельное соединение (см. рис. 2в). Блоки СА и ЦА работают независимо. Данные, полученные с помощью алгоритмов целословного и сегментного анализа, поступают на блок цринятия решения, где производится подсчет общей достоверности различных альтернатив. В проведенных экспериментальных исследованиях параллельное соединение не обеспечило статистически значимого увеличения вероятности правильного распознавания. Кроме того, применение параллельного соединения увеличивает время анализа системы, т.к. необходимо анализировать весь словарь системы блоками целословного и сегментного анализа.

В таблице приведены оценки вероятности правильного распознавания для рассмотренных типов соединений блоков.

Таблица 2. Оценка вероятности правильного распознавания для системы в целом.

Слэво Оценка вероятности ПЬследовательнэе Последовательгое Параллельное

гранильного решения соединение оэединение соединение

в Стаже Сй с переспросим

Весь 0.923+0.013 0.942+0.012 0.949+0.011 0.934+0.013

словарь X2 =4.3 УС =8.46 ' X2 =1-36

Проведена проверка статистической значимости увеличения вероятности правильного распознавания при различных вариантах соединений. Значение для каждого из вариантов приведено в

таблице 2. Следовательно, последовательное соединение с переспросом с достоверностью 0.99 обеспечивает увеличение вероятности правильного распознавания для системы в целом.

Таким образом, целесообразным является последовательное соединение блоков с переспросом.

Алгоритм для определения необходимости переспроса, предложенный для двухуровневой системы распознавания изолированных слов, учитывает результаты работы блоков БД и СА. При проведении экспериментальных исследований вероятность возникновения переспроса в случае ошибки блока ЦА составила 98%.

В работе проведены теоретические и экспериментальные исследования работы двухуровневой системы с переспросом (рис. 3). Вероятности Рхр, Pjpi, Р'гр, соответствуют возможным вариантам работы блока ПР.

Определены основные соотношения для оценки характеристик системы в случае применения блоков целословного и сегментного анализа с известными параметрами. Вероятность правильного распознавания для системы с переспросом определяется формулой:

РсС=Рвд (По) *Ра (По) *Ргр (По) + (Рщ (По) *Рга (По) * (1-Рф (По) ) + (11)

+ Ц-Рщ (По) ) *Р Vüo) ) * { (П!) *Рса (ГУ (пг) + (Рщ (щ) *Рса Ы * (ЬР,, fe) ) +

+ (1-PW (nj) ) (П1) ) * [Рщ (П2) *РИ (П2) *Р,р (П2) + (Рда (П2) *Рса (П2) * (1-Р.р (П2) ) +

+ ... ... ... +

+ (1"Рда (rW ) *PVrfc-2) ) * [Pea (N) * (1-POT) ] ] ),

где rii -число акализируаых альтернатив во время i-ro переспроса.

Для систем.! с одним переспроссм:

Рсб=РЩ (по) *Рга (по) + (1-Рщ (По) ) (пг) (12)

где №= (Р8 (по) +Рц (по)) * [1-Р«, (щ) ] +Р12,

Ра/ Рп, Рт ~ верояякхяи перехода к 8,9 и 12-сй вершине соответственно (см. рк. 3).

Для системы с одним переспросам и N=10 (цифровой словарь) в работе определено оптимальное значение по»3.74, что практически совпадает со значением, полученным в результате экспериментальных исследований.

В случае высоких требований к быстродействию системы распознавания может быть уменьшено среднее число п<р проанализированных блоком СА альтернатив, в этом случае часть ошибок блока

РС

щ

Р,в(По)

3

СА Рга(по)/

(1-Р„(По))

ПР Р^(По)/ \(1-Ргр(По))

Р,р1 (По)/

\(1-Рф1(ГЬ)) Р'гр(По)/ \(1-РгрЫ)

[ 8 9

/ 10

гр=я-зънэе н=грэя<ты-С1е > п^втрзс /релргчжн^й

рзю^е \ рзда+в | / щээтрсс

12

т^вшгы-се р31Ы-№

ЦА

Рщ (ПгЬ

1-й переспрос

(1-Рш(П1))

3

СА р«,(щ)

ПР

7

ГрзШП«^

ртюиг

ая<ээ от нзуиштысе ропзме

распя*]плн<н

10

отказ от роататавгн^!

Рис. 3. Схема возможных вариантов функционирования двухуровневой системы с переспросом.

ЦА. может быть исправлена с помощью переспросов. В таблице 3 приведены результаты работы системы при различных значениях среднего числа проанализированных альтернатив Пф. п^ определя-

1

лось как среднее от значений Xй/ Для реализаций речевого сиг-

'=0

нала в контрольной выборке. Вероятность правильного распознавания в блоке ЦА. определяется вероятностью попадания в подмножество £2 эталона слова, соответствующего анализируемому сигналу.

Таблица 3. Оценка вероятности правильного решения для системы в зависимости от Пер.

Парамэтр п^=4.3 1^=3.27 Пф=2.79 Пф=2.46

Сценка Рт 0.994 0.974 0.965 0.942

Оценка Pao 0.949 0.935 0.932 0.921

с переспроосм

Сценка Роз 0.942 0.925 0.919 0.906

без переспроса

Следовательно, в результате применения последовательного соединения с переспросом возможно уменьшение времени сравнения с эталонами блока СА для рассмотренного словаря в 2-4 разг (пропорционально числу проанализированных альтернатив п<р) .

В таблице 4 приведены результаты работы системы для различных значений порога ДС алгоритма для определения отказа' о1] распознавания (для определения необходимости переспроса пороз не меняется и равен 0.125).

Таблица 4. Результаты работы системы в зависимости от поро-

га АС для определения отказа от распознавания.

Параметр ДООД25 АЗ=0.125/2 А3=0.125/4 ДСМ). 125/8 áoo

правильное радение (%) 90 92.5 93.8 94.2 94.9

отказ от распознавания^-) 7.1 3.54 1.9 0.97 0.0

неправильное решение (%) 2.9 3.96 4.3 4.83 5.1

В случае высокой стоимости ошибки системы распознавания речи возможна подстройка алгоритма для уменьшения ошибок распознавания до значений меньше 3% (одновременно несколько снижается вероятность правильного решения).

В четвертей плаве рассмотрены основные характеристики программно-аппаратного комплекса для речевого ввода. Описывается разработанное рабочее место исследователя речевых систем (ЕМИРС) . На базе предложенной двухуровневой обработки речевого сигнала разработана дикторонезависимая система распознавался речевых команд.

В работе предложи вариант реализации речевого интерфейса в греде MS Windows с использованием механизма обработки сообщений. Речевой интерфейс (РИ) функционирует как одна из задач итерационной системы. Предложен метод динамического ввода ре-iевого сигнала в ЭВМ, обеспечивавший контроль, поступающего от устройства ввода речевого сигнала. После регистрации звукового гигнала производится определение границ речевого сегмента и 5го распознавание. Возможен ввод речевого сигнала из телефонной линии. Речевой интерфейс может применяться для распознавания р>ечевых команд, контроля эмоционального состояния че-ювека по голосу, записи переговоров оператора ("черный пцик") и т.д.

Для взаимодействия с приложениями речевой интерфейс генерирует сообщения, воспринимаемые данным программньм средством.

Для настройки системы на заданный словарь и совершенствовался алгоритмов распознавания разработано рабочее место иссле-];ователя речевых систем. Рабочее место исследователя речевых метем обеспечивает поддержку баз речевых сигналов, оператив-юе управление ходом процесса распознавания, проведение авто-затической тренировки алгоритмов распознавания и проверку ра-юты настроенных алгоритмов. Обеспечена возможность использо-¡ания стандартных пакетов обработки статистических данных для щализа полученных экспериментальных данных.

Разработанная методика обеспечивает построение с помощью ЭДИРС дикторонезависимых систем распознавания изолированных шов для малых словарей.

Основные вывода по работе:

1. Разработан алгоритм целословного анализа, построенный на основе применения методов робастной статистики, что позволяет увеличить вероятность правильного распознавания

в блоке целословного анализа. Для цифрового словаря вероятность правильного решения блока БД составила 0.994.

2. Предложен метод двухуровневой обработки речевого сигнала с пересцроссм, позволяющий совратить время анализа речевого сигнала и повысить вероятность правильного решения в системе. Для цифрового словаря достигнуто снижение числа неправильных решений в 1.5 раза (от 7.7% до 5.1%) и уменьшение времени анализа речевого сигнала в среднем в 2 раза.

3. Разработан алгоритм принятия решений для двухуровневой системы распознавания с переспросам, учитывающий распределения расстояний от анализируемого речевого сигнала до эталонов целословного и сегментного блоков.

4. Разработано рабочее место исследователя речевых систем, позволяющее производить настройку алгоритмов распознавания на конкретный словарь пользователя и экспериментальная дикторонезависимая система распознавания изолированных слов, обеспечивающая управление ЭВМ с помощью речевых команд.

Список публикаций по тема дисоергации:

1. Дхпсторонезависимое распознавание речи // IV Санкт-Петербургская Международная конференция "Региональная .информатика - 95". Часть 1.-СП6, 1995.-С.55-56 (Соавторы: Козлов Ю.М., Горьков И.Л., Маховиков А.Г.).

2. Прибор для оценки эмоционального состояния человека-оператора по речевому сигналу//Известия ВУЗов. Серия "Приборостроение". - 1994,- т. XXXVII, N6.- С.27-31 (Соавторы: Козлов Ю.М., Пименов В.И., Горьков И.Л.).

3. Экспериментальная дикторонезависимая система для распознавания изолированных слов //Вторая Межведомственная научно-техническая конференция "Проблемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах". Часть 1. - Пушкин, 1995.- С.178-179 (Соавторы: Козлов Ю.М., Маховиков A.B.) .

4. On the improvements of speaker-independent isolated word recognition// SPECCM'96 International Workshop "Speech and Computer" , proceedings. - St-Peterburg,Russia 28-31

Oktober, 1996, p. 122-126 (Co-authors: Kozlov Yu., Machovikov A.).

5. Экспериментальная двухканальная система распознавания изолированных слов // V Санкт-Петербургская международная конференция "Региональная информатика - 96". Часть 1.-СПб., 1996.-С.58-59 (Соавтора: Козлов Ю.М., Маховиков A.B.).

6. Дикторонезависимая система распознавания речи с предварительным отбором слов-претендентов / / Принята к публикации в трудах ЕГТУ (Соавтор: Козлов Ю.М.) .

7. Анализатор речевого сигнала для оценки эмоционального состояния человека-оператора//III Санкт-Петербугская Международная Конференция "Региональная информатика - 94". Часть З.-СПб., 1994.-С.53-54 (Соавторы: Козлов Ю.М., Ш-менов В.И., Горьков И.Л.) .

8. Речевой интерфейс в среде MS Windows // Принята к публикации в трудах БГТУ.

9. Дикторонезависимая система распознавания с двухуровневой обработкой речевых сигналов // Системы управления, конверсия, проблемы: Тезисы докладов научно-технической конференции, посвященной 20-летию кафедры приборостроения, автоматики и управления Ковровского Технологического института (Ковров, 15-17 октября 1996г.). - Ковров, 1996 (Соавтор: Козлов Ю.М.).

10. Способ дикторонезависимого распознавания изолированных речевых команд // Заявка о выдаче патента Российской Федерации на изобретение, № гос. регистрации 97101846.

Соискатель: