автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Принципы построения системы распознавания речи в базисе Уолша
Автореферат диссертации по теме "Принципы построения системы распознавания речи в базисе Уолша"
АКАДЕМИЯ НАУК СССР ШЧИСЛИТШШЙ ЦЕНТР
На правах рукописи
КОРКМАЗСКИЙ Филипп Ефимович
УДК 621.391
ПРИНЦИШ ПОСТРОЕНИЯ сисгаш РАСПОЗНАВАНИЯ РЕЧИ В БАЗИСЕ УОЛДА
Специальность 05.13.II - Математическоо и программное обеспечение вычислительных машин, комплексов, систем и сетей
Автореферат • диссертации на соискание ученой степени кандидата технических наук
Москва - 1990
Работа выполнена в Вычислительном центре АН СССР. Начинай руководитель: доктор фиэико-ыатематкческкх наук,
Официальные оппоненты: доктор технических наук, профессор
Ведущее предприятие: Институт кибернетики км. В.М.Глушкова
на заседании специализированного совета Д 002.82.01 Научного Совета АН СССР по комплексной проблеме "КИБЕРНЕТИКА" по адресу: 117333, Москва, ул. Вавилова, 40.
С диссертацией можно ознакомиться в 'библиотеке Научного Совета по комплексной проблеме "КИБЕРНЕТИКА".
Автореферат разослан Ь " . 19Э0 г.
профессор В.К.Леонтьев
Поспелов Д.А.
кандидат технических наук Кринов С.Н
АН УССР.
Защита состоится *2Н9 СИНТЗ&рЬ 1990 г. в
час.
Ученый секретарь специализированного совета Д 002.62.01 кандидат физико-математических наук
Г.П.Амирджанов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБ01Ы
Актуальность проблемы. Создание систем распознавания речи приобретает в последнее время особо ванное значение ввиду расширения сфер применения вычислительных систем и увеличения числа пользователей этих систем. Поскольку речь является наиболее естественной и привычной формой общения человека, введение речевого канала связи человак-ЗШ позволяет увеличить число пользователей ББ'|!, значительно улучшает эргономические . показатели вычислительных систем.
В настоящее время одним из главных препятствий на пути широкого распространеши устройств распознавания речи является их относительно высокая стоимость. Высокая стоимость этих устройств несоизмерима с их довольно ограниченными возможностями. Поэтому следует признать актуальным резение двух задач: упрощение архитектуры существующих устройств распознавания речи и существенное улучшение их основных функциональних параметров.Архитектура современник устройств распознавания речи характеризуется наличием различных специализированных устройств. Алгоритмы, реализуемые эти-:•*,;: специализированными устройствами, являются обычно довольно трудоемкими и п большинстве случаев не могут быть реализованы на современных микропроцессорах. С другой стороны, развитие современ -них вычислительных средств на микропроцессорной основе, в частности персональных ЭВМ, требует развития таких подходов к обработке речи, которые бы не нуждались »-использовании сложных и дорого -стоящих социализированных вычислительных устройств. В первую очередь, это относится к проблемам реализации в реальном масштабе времени цифрового спектрального анализа и процедуры нелинейного согласования во времени речевых сигналов. Цифровой спектральный анализ в большинстве систем распознавания речи строится или пу -тем реализации цифровых фиьтроя, или с помощью быстрого преобра* зованлгя Оурье (ЕПЭ). Основная вычислительная нагрузка как в алгоритме В1К, так и в алгоритмах цифровых фильтров приходится на операцию умножения. С другой стороны, существует ряд ортогональных преобразований, которые,во-первых, не используют операцию умножения, а во-вторых, не требуют обработки в комплексной плоскости.
Важнейшим представителем этого класса преобразований является преобразование Уолта.-Существуют различные варианты преобразо-
1-100/у
1
вания Уолша, для реализации которых могут быть использованы соответствующие алгоритмы быстрого преобразования Уолша (БПУ). Обычно алгоритмы БПУ требуют выполнения Ы действитель-
ных сложений (вычитаний), что является приемлемым для реализации этих алгоритмов в реальном масштабе времени на современных быстродействующих микро-ЭВМ.
Большинство систем распознавания речи, в которых использовались функции Уолша для описания речевых сигналов, давали до сих пор хорошие результаты только по скорости получения спектрального описания речевых сигналов. Однако, объем распознаваемого словаря в этих системах был небольшой и составлял, в лучшем случае, несколько десятков слов. Уровень ошибок распознавания был также неудовлетворительным.
Цель работы - сравнительное исследование эффективности применения для распознавания речи различных вариантов преобразбва-ния Уолша; существенное улучшение параметров системы распознавания речи в базисе Уолша за счет оптимизации первичного описания речевых сигналов и совершенствования процедур обучения и распознавания . <1
Задачи исследования:
1. Сравнительное исследование различных вариантов преобразования Уолша с точки зрения получаемых « щ. помощью параметров системы распознавания речи: достоверности распознавания речевых сигналов, времени на получение энергетического спектра Уолша и необходимых для реализации преобразования Уолша ресурсов памяти.
2. Исследование эффективности применения обобщенного преобразования Уолша для описания речевых сигналов.
> 3. Изучение целесообразности применения принципов векторного квантования для кодирования речевых сигналов в базисе Уолша.
4. Разработка быстродействующей процедуры для нелинейного согласования во времени речевых сигналов и их эталонов.
5. Исследование методов оптимизации принятия решений при представлении речевых сигналов несколькими грушами эталонов.
6. Исследование эффективности дифференциации параметрического описания речи в различных классах речевых сигналов.
7. Разработка промышленной системы распознавания речи в базисе Уолша.
Методы исследования. Для решения поставленных задач использовались методы цифровой обработки сигналов, теория распознавания образов, статистические методы обработки информации, клас -тернкй анализ, сведения из теории дискретной оптимизации и методы планирования эксперимента. При разработке промышленной системы распознавания речи использовались также эвристические методы, . а при непосредственной создании программного обеспечения для этой системы привлекались методы структурного программирования.
Научная новизна. Научная новизна работы состоит в следующем:
- доказана возможность'использования преобразования Уолша для первичного представления речевых сигналов в задачах распознавания словарей объемом в несколько сотен слов; показана возмож -носгь программной реализация в реальном масштабе времени преобразования Уолша применительно к задаче вычисления энергетического спектра речевых сигналов;
- исследована эффективность применения обобщенного преобразования Уолша для первичного описания речевых сигналов в системе распознавания речи; сформулированы и доказаны теоремы, дающие теоретическую оценку производительности различных алгоритмов быстрого обобщенного преобразования Уолша;
- показана эффективность применения принципов векторного квантования для кодирования речевых сигналов, представленных энергетическими спектрами в базисе Уолша; преложена процедура выбора начальных значений кодовых векторов, оптимизирующая выполнение процедуры векторного квалтирования - алгоритма к-средних»
- разработан метод апостериорных коэффициентов информативности, оптимизирующий процесс принятия решений при представлении речевых сигналов несколькими группами эталонов; применение этого метода позволяет повысить достоверность распознавания речевых сигналов;
- доказана эффективность дифференциации параметрического описания речи в различных классах речевых' сигналов; для решения задачи оптимизации дифференцированного описания речи разработан специальный алгоритм дискретной оптимизации ( Л-алгоритм);
- на основе предложенных подходов разработана промьшленная система распознавания речи; для компенсации вариабельности речевых сигналов, связанной с различием громкости голосов разных дик-
торов и изменением расстояния диктора до микрофона, для этой системы разработаны алгоритмы программного управления коэффициентом усиления; на основе предложенной модели упрощенного фонетического описания речевых- сигналов разработан метод повышения быстродейсгвия алгоритмов распознавания;
-. разработал специализированный язык описания фраз; использование этого языка предоставляет пользователям системы речевого ввода дополнительные возможности по повышению достоверности и уменьшению времени распознава1шя речевых сигналов.
Практическая ценность. Ка основе принципов, изложенных в диссертационной работе, было разработано промыпленное устройство распознавания речи. Особенности архитектуры данного устройства -в первую очередь, отсутствие спецпроцессоров для цифрового спектрального анализа и динамического программирования, могут быть трансформированы при^разработке других устройств распознавания речи. Использование быстродействующих алгоритмов цифрового спектрального анализа на основе преобразования Уолша и метода квази-оптиыальной сегментации речевых сигналов может быть полезным при разработке микропроцессорных систем распознавания рзчи.
Реализация результатов. Диссертационная работа выполнялась в секторе автоматического распознавания речи ВЦ АН СССР и в Специальном конструкторско-технологическ(}м бюро вычислительной техники Черновицкого производственного объединения "Электронмаа" Кимприбора СССР в рамках НИР "Разработка алгоритма функционирования системы речевого ввода технологической информация" (№ гос. регистрации 01.82.0071866) и ОКР "Модуль анализа речевых сигналов ПС 7801я (№ гос.регистрации 01.84.0041150). В результате проведения втих работ было разработано промышленное устройство распознавания речи - модуль" анализа речевых сигналов ПС 7801. Данное устройство предназначено для использования в АСУ технологическими процессами.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на:
- Всесоюзной научно-технической конфорск^-ь: "Проблемы математического, программного н информационного обеспечения АСУ технологическими процессами" (Черновцы, 1979 г.);
- Всесоюзной конференции "Теория адаптивных систем и ее применения" (Ленинград, 1983 г.);
- Всесоюзной школе-семинаре "Автоматическое рапознавание слуховых образов АРСО-13" (Новосибирск, 19В4 г.);
- Всесоюзном семинаре "Автоматическое распознавание слуховых образов АРСО-14" (Каунас, 1986 г.);
- Всесоюзной научно-технической конференции "Опыт разработки и внедрения технических к программных средств СМ ЭВМ и АСЗТ-ПС" (Северодонецк, 1986 г.);
- XI Международном конгрессе фонетических наук (Таллина, 1987 г.);
- семинаре сектора автоматического распознавания речи ВЦ АН СССР (Москва, 1930 г.).
Публикации. По материалам диссертации опубликовано 10 ра -бот, ь1 том числе, один научно-технический отчет.
Структура и объем работы. Диссертация состоит из введения, четырех глав и заключения, изложенных на 156 страницах машинописного текста; содержит 22 рисунка, 8 таблиц, список литературы, состояний из 127 наименований, и 3 приложения.
Основные положения диссертации, п¡¡носимые на защиту:
1. Теоретические и экспериментальные результаты исследования эффективности применения преобразования Уолша (в том числе и обобщенного) для распознавания речевых сигналов.
2. Использование принципов векторного квоктования для кодирования речевых сигналов в базисе Уолша.
3. Основные концепции метода КЕазиоптимальной сегментации речевых сигналов.
4. Метод апостериорных коэффициентов информативности.
5. Обоснование эффективности использования при распознавании речи дифференциации параметрического описания речевых сигна- ■ лов. Оптимизация дифференциации параметрического описания речи
( Л -алгоритм).
6. Описание основных особенностей архитектуры модуля анализа речевкх сигналов ПС 7801.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность диссертационной работы, изложены цель и задачи исследования, указана научная новизна, кратко изложено содержание диссертации.
2-100/у
б
Первая глава посвящена анализу современного состояния развития систем обработки речи на основе ортогональных преобразова -ний. В этой главе также приводятся основные сведения из теории функций Уолша и дается определение преобразования Уолша. Среди ортогональных преобразований, применяемых в настоящее время для обработки речи, наибольшее распространение получило преобразование Фурье. 3 значительно меньшей степени для обработки речевых сигналов используются и другие преобразования: преобразование Уолша, преобразование Хаара, косинусное преобразование, синусное .преобразование, преобразование Карунен-Лоэва и Я -преобразование.
Преобразование Уолша используется в настоящее время при кодировании передаваемых речевых сигналов для сжатия их частотного диапазона, как средство для эффективного синтеза речи, а также -как способ для получения параметрического представления речевых сигналов в системах распознавания речи. Анализ систем распознавания речи на основе преобразовании Уолша позволяет установить следующие причины их невысокого качества:
1) Для параметрического описания речевых сигналов в базисе Уолша, ь основном! используется бинарное представление энергетического спектра Уолша. Подобное упрощение, хотя и эффективно с вычислительной точки зрения, приводи^ к существенной потере точности при описании речевых сигналов." V
2) В системах распознавания речи, использующих преобразование Уолша, до сих пор недостаточно глубоко прорабатывались вопросы оптимизации процедур обучения и распознавания.
В разделе, посвященном теоретическим основам функций Уолша, приводятся краткие исторические сведения об исследованиях функций Уолша (они были подучены в 1923 гдцу американским математиком дк.Я.Уолшем"), указывается связь этих функций с матрицами Ада-мара и функциями Радемахера, указываются основные свойства функций Уолша, определяются понятия частости и частостного энергетического спектра. Рассматриваются три системы упорядочения функций Уолша: с упорядочением по Уолшу, с упорядочением по Лдачару и с упорядочением по Пэли. *
Вторая глава посвящена исследованию методов первичного описания речевых сигналов в базисе Уолша. Исследуются алгоритмы быстрого преобразования Уолша, соответствующие трем системам упо-
в
рдцочения функций Уолша. Сопоставление различных алгоритмов БПУ (анализируется 14 таких алгоритмов) проводится как с точки зрения их вычислительной эффективности, так и с точки зрения достоверности распознавания речевых сигналов, первичное описание которых получено с помощью этих алгоритмов. Экспериментальная проверка быстродействия алгоритмов Е1ТУ доказала возможность про -граммного вычисления в реальном масштабе времени энергетического спектра Уолша. Для программной реализации алгоритмов БПУ использовался микропрограммируемый контроллер А135-1 (производительность этого контроллера примерно равна производительности микропроцессора серии КР1810 ВМ86). Время вычисления энергетического спектра для участка речи, представленного 128 дискретными отсчетами ОУ = 128) на интервале длительностью 10 миллисекунд, составило примерно 7 миллисекунд (квадраты коэффициентов Уолша, необходимые для вычисления энергетического спектра, определялись по таблице).
Для преобразования Уолша с упорядочением по Адаыару существует специальный вид энергетического спектра, содержащий
компоненту. Вычисление этого спектра требует выполнения ,2(Л/~ 1) операций сложения (без учета операций на чвадра-тирование). Время вычисления этого энергетического спектра в мик-ропрограммируемом контроллере для участка речи, представленного 128 отсчетами на интервале длительностью 10 миллисекунд, составило 2,5 миллисекуеды. Сравнительные эксперименты по распознаванию речевых сигналов, энергетические спектры которых вычислялись по коэффициентам преобразований Уолша с упорядочением.по Уолшу, по Пэли и по Адамару, показали примерную эквивалентность этих видов преобразований. Достоверность распознавания для словаря объемом 125 слов в этих экспериментах находилась в пределах от 94^ до 95%.
В диссертационной работе было проведено исследование, эффективности пр'.'менения обобщенных функций Уолша для распознавания речи. Рассмотрим два алгоритма быстрого обобщенного преобразования Уолша (БОНУ): .
1) алгоритм БОПУ, реализуемый для произвольного основания обобщенного преобразования Уолша. Этот алгоритм назовем пь-алгоритмом БОПУ;
2) алгоритм БОПУ, полученный с помощью факторизации матрицы преобразования (П.-алгоритма БОПУ для случая, когда - т= ¿Р (р-целое, р ^ 2). Этот алгоритм назовем р-алгоритмом БОПУ. '
Для оценки быстродействия этих алгоритмов в диссертационной работе были сформулированы и доказаны приводимые ниже две теоремы.
Теорема I. Реализация Пь -алгоритма БОНУ для количества точек преобразования N-ftb^ требует выполнения N1 операций сложения и A4 операций умножения, определяемых следующим образом:
^ N, = (Iht* - tu - ¿)
• " j Л/Л=Д п- m^id. _ 2 -
1 Z = zLHOA(u.tmld)td = HOAM «>
/ u.« о '
I m-i
Здесь НОД (Г., t ) - это наибольший общий делитель чисел Гj и ГА .
Теорема 2. Реализация р-алгоритма БОПУ для количества точек преобразования N-M-11 требует выполнения операций сложения и N^ операций умножения, определяемых следующим образом:
Га/, = (I■ тп'1 (Ът - Ът-Щ) }N¿-4' fтг.'t", (3. т - 7m + U) (2)
Приведенные в. теоремах I и 2 оценки производительности алгоритмов БОПУ позволяют оценить быстродействие вычислительных устройств, необходимых для получения параметрического описания речевых сигналов на"основе энергетического спектра обобщенного преобразования Уолша. Для речевых сигналов, представленных энергетическими спектрами обобщенного преобразования Уолша, были проведены эксперименты по распознаванию этих сигналов. В этих экспериментах для словаря объемом 125 слов при различных значениях модуля ПЪ системы обобщенных функций Уолша достоверность распознавания находилась з пределах от 952 до 93%.
В настоящей работе были проведены исследования, направленные на определение эффективности применения принципов векторного квантования для кодирования речи,представленной энергетическими спект-
а
рами в базисе Уолша. Часто для решения задачи векторного квантования используется итерационный кластерный алгоритм К-средних. Алгоритм /(-средних сходится к локальному оптимуму, в общем случае это решение не единственно и существенно зависит от выбора начальных значений кодовых векторов.
Необходимо отметить, что при формировании кодовой книги большое значение имеет также выбор величины М , определяющей размер кодовой книги. Е диссертационной работе предлагается процедура формирования начальных значений кодовых векторов для алгоритма К-средних. Эта процедура позволяет, во-первых, задать верхнюю границу ])т.а.х Для величины среднего искажения векторного квантования, а, во-вторых, осуществить автоматическое определение размера Д1 кодовой книги.
В качестве начальных значений первых двух кодовых векторов
из кодируемого множества векторов Х = 1 X; \/.7Т7 выбирают два
уМ уМ '
вектора лил, расстояние между которыми максимально. В качестве начального значения ( Г+1)-го кодового вектора из множества X выбирают вектор X , удовлетворяющий условию:
= ¡¡'«И} (з,
Данная процедура завершается нахождением начального значения Л\ -го кодового вектора при условии выполнения соотношения:
' ^ (м-м)
В.диссертационной работе доказывается, что при данном способе формирования начальных значений кодовых векторов величина среднего искажения X) при кодировании вектороз множества УС будет меньше ¡)пга1 .Использование' разработанных принципов векторного квантования позволило сократить объем памяти, необходимой для хранения эталона одного слова, до 18 байт.
Третья глава посвящена анализу принципов оптимизации алгоритмов обучения и распознавания речи.Одним из главных факторов, влияющих на достоверность распознавания речи, является качество сегментации речевых сигналов. Традиционно задача сегментации речевых сигналов решается методом1 динамического программирования, предусматривающим нахождение глобального экстремума функционала качест-
*
ва сегментации. Существенное увеличение быстродействия процедуры сегментации монет быть получено за счет использования предлагаемого в настоящей работе метода квазиоптимальной сегментации речевых сигналов.
Пусть распознаваемый речевой сигнал представлен в пространстве N признаков в виде временной последовательности X =
= {ХД- Д. {Ху}^"^ • Задача квазиоптиыальной сег-
ментации заключается в синтезе последовательности V йз эта -лонной последовательности В таким образом, чтобы обеспечивался локальный минимум расстояния ( X > У ) между последовательностями X и У :
Здесь УорЬ - оптимальное значение оператора V нелинейной деформации эталонов, при котором достигается локальный минимум рассто- • яния между X и у • На компоненты оператора V накладыЕаются ограничения: ^ " • .
м и ' '
Для определения Уорь предлагается следующая процедура. Допус тим, ¥<Ю - некоторая последовательность, полученная путем применения оператора к последовательности. £Г . Расстояние между этой последовательность» и X определяется по формуле:
хк)
Здесь ¿ор - номер временного отсчета последовательности ] , соответствующий первому временному отсчету р -ой компоненты оператора \/1к>. Будем последовательно модифицировать пары смежных компонент оператора V . При модификации компонентЪ^., и 1Гр*! операто-
1/СО ' " ■/{«»/)
ра V получим новый оператор У , для измененных двух компо-
нент которого иР-1 и должно выполняться соотношение:
V' • ... (8)
При этом номер временного отсчета . последовательности I соответствующий временному отсчету р-ой компоненты оператора У^ ^ • будет определяться по формуле:
хг^г4 +£ (9)
' «/V
Интервал поиска , оптимальной разделяющей границы ^ определяется в соответствии с формулой:
Сопоставительный анализ формул (7) и (9) позволяет сделать вывод о том, что
(и)
Последовательная модификация всех $ компонент оператора V в соответствии с формулами- (9) и (10) приводит, в конечном счете, к решению задачи квазиоптимальной сегментации.
Допустим, что вся совокупность эталонов речевых сигналов представлена 3 группами эталонов. Для оценки степени достоверности решения в каждой из групп эталонов предлагается оценивать величины:
^иГ
где %0)0) - расстояние от распознаваемого речевого сигнала до ближайшего к нему эталона в ^-'ой группе эталонов я
9с Ц) 1 ^ Ц ) -следующее (второе) по величине расстояние после ^цу) 0) ' в ^ -ой группе этатонов
(ОС/)» (^ ) ). Величины Л (/) называются апостериорными коэффициентами информативности. Чем больше величина ,
тем более вероятно, что принятое в J. -ой группе эталонов решение верно. В соответствии с методом апостериорных коэффициентов информативности решение L* о, принадлежности распознаваемого речевого сигнала принимается следующим образом:
(L'^O"1) ' ■ •
Ü^^TpffW (13)
Экспериментальная проверка данного метода доказала его высокую эффективность. Так, при использовании для представления речевых сигналов энергетических спектров, полученных с помощью преобразования Уолпа, для словарей объемом 125, 250 и 500 слов достоверность распознавания составила, соответственно, 99,1%, 98,1$ и 96,2%. При использовании обобщенного преобразования Уолша достоверность, распознавания для словарей объемом 125, 250 и 500 слов составила, со-ответствзнно, 99,5*, 98,9/2 и 97,752.
Общеизвестно, '"то речевые сигналы, отличающиеся своей физической природоя (например, способом и местом их образования), целесообразно разбивать на классы и в пределах каждого класса разделять их между собой с помощью дифференцированной для каждого класса системы признаков. Дифференцированное описание структуры речевых сигналов в таких Системах представляет их существенное преимущество (в частности, этот подход позволяет строить инвариантные к диктору система распознавания речи). Однако, отсутствие эффективных процедур автоматического выделения наиболее информативных дифференцированных систем признаков и -необходимость преимущественного использования логических методов распознавания существенно занижает потенциальные возможности этих систем. В настоящей работе предлагается совместить преимущества, получаемые от дифференцированного описания речевых сигналов, с достоинствами использования интегральных мер сходства. Математическая реализация этой идеи достигается с помощью решения задачи автоматического выбора весовых коэффициентов признаков речевых сигналов.
Допустим, у нас имеется некоторое множество Р~{ Рг}г. {¡я
признаков речевых сигналов. Задачу дифференциации параметрического описания речевых сигналов модно сформулировать как задачу поиска
для каждого m-го (Ti = Л1 ) класса речевых сигналов(образов)
некоторого множества J\lm' £ весовых козф^и-
циентов, при котором оптимизируется некоторый функционал
качества дифференциации признаков ГЛ.-го класса образов. Функционал качества дифференциации признаков для /тг-го класса образов определяется следующим образом: ' <
■ гп Ю = f[?(rmXH(L,rJ]
V ***
Здесь Jm," кластер, представляющий Пг-ый класс образов,
Ye«) (Ш) - это К ближайших к кластеру Ynx кластеров,' то есть таких кластеров, для которых .
' 9(Ym,YJ^?(Ye,YJ д™4i*mn--íA usj
Величина 9(Y¿ Yin.)." среднее арифметическое расстояний образов кластера Ye Д° центра кластера Ynx • Величина £ (Ym Yin) ~ среднее арифметическое расстояний образов кластера Yin А° центра этого кластера. При использовании системы весовых коэффициентов дЫ_ Г>)1 у .
Jl ~ (Пг расстояние между вектором (обра-
зом) X={Xr}r=i7R и центром ^—кластера УП1 опре-
деляется по формуле: '
R R
Множество V V. оптимально тогда, когда значение функционала f~¡n[-Д. J максимально:
Для реиения задачи определения оптимального множества весо-Л (п'
вых коэффициентов Vuofjt в диссертационной работе предлагается специальный алгоритм дискретной оптимизации ( Д- алгоритм).
, Четвертая глава посвящена описанию промышленного устройст-
ва распознавания речи. На основа принципов, изложенных в настоящей работе, было разработано промышленное устройство распознавания речи - модуль анализа речевых сигналов ПС 7301. Модуль . ПС 7801 предназначен для речевого ввода' информации в вычисли -тельные комплексы и может использоваться в АСУ Ш как средство
оперативного взаимодействия оператора с системой с помощью голоса. Модуль предназначен для речевого ввода информации в ЭВМ, выходящие на- интерфейсы 2К и ИУС (ЭВМ типа СМ-1, СМ-2, СМ-1М, СМ-2М).
Основные параметры модуля:
Мшссимальный объем словаря ... - 250 слов.
Достоверность распознавания - 98#.
Допустимый уровень акустических шумов - 75 с£т.
Максимальное удаление микрофона от модуля .- 50 метров.
Математическое обеспечение модуля функционирует под управлением многозадачных операционных систем АСЛО. Спектральный анализ в модуле ПС 7801 реализуется микропрограммно в реальном масштабе' времени на основе преобразования Уолша. Микропрограммная реализация метода квазиоптимальной сешентации позволила избежать применения спецаппаратуры динамического программирования. В модуле ПС 7801 были реализованы разработанные в настоящей работе специальные алгоритмы программного управления коэффициентом усиления. Использование принципов векторного квантования и табличного вы -числения расстояний между кодовыми векторами гозволило на основе подели упрощенного фонетического описания речевых сигналов повысить быстродействие алгоритмов распознавания.
В модуле ПС 7801 в режима распознавания производится ввод фраз в виде последовательное?« изолированных слов. Для обеспечения возможности зедааня структур фраз был разработан специализированный язык описания фраз (ЯОФ).' Я05 позволяет задавать список слов словаря, разбиение словаря на подсловари, а также доцусти -мые структуры фраз. Внутреннее представление структуры вводимых фраз в ЯОФ отображается матрицей, номерам столбцов которой соответствуют номера поделоварей, а номерам строк - номера состояний Фразы. Каждое последующее состояние Се есть функция двух переменных - состояния С; на текущем шаге и подсловаря Пщ • которому принадлежит распознанное на данном шаге слово. Список слов для распознавания в состоянии Се определяется объединением всех тех подсловарей, которым соответствую? ненулевые элементы в строке матрицы с номером Се . Для яэнка описания фраз разработан транслятор, который поставляется-пользователям модуля анализа речевых сигналов ПС 7В01.
В заключении подведены основные итоги работы и указаны возможное . перспективы развития разработанных методов.
В приложениях приведены тестовые словари, использованные при исследовании разработанных методов: •
ЗАКЛЮЧЕНИЕ
1. Доказана целесообразность создания систем распознавания речи, первичное описание речевых сигналов в которых строится с использованием преобразования Уолша.
2. Получены теоретические оценки быстродействия алгоритмов • обобщенного преобразования Уолша, показана целесообразность применения обобщенного преобразования Уолша для спектрального описания речевых сигналов.
3. Исследована эффективность применения принципов векторного квантования для кодирования речевых сигналов в базисе Уолша. Предложен метод, позволяющий оптимизировать выбор начальных значений кодовых векторов для алгоритма К-средних.
4. Для нелинейного согласования во времени речевых сигналов предложен метод квазиоптимальной сегментации, основанный на поиске локального экстремума функционала качества сегментации.
5. Предложен метод апостериорных коэффициентов информативности, оптимизирующий процесс принятия решений при представлении речевых сигналов несколькими группами эталонов.
6. Доказана эффективность дифференциации параметрического описания речи в различных классах речевых сигналов. Для решения задачи оптимизации дифференцированного описания речи разработан специальный алгоритм дискретной оптимизации ( -алгоритм).
7. Разработан специализированный язык описания фраз. Исполь-• зование этого языка предоставляет пользователям системы речевого ввода дополнительные возможности по повышению достоверности и уменьшению времени распознавания.
8. На основе изложенных в настоящей работе принципов разработано промышленное устройство распознавания речи, предназначенное для использования в АСУ ТП.
СПИСОК ОСНОВНЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Барамыков В.М., Коркмазский Й.Е., Нихайледкий З.Н. Комплекс алгоритмов для речевого '¿вода в УВК //Проблемы математического, программного и информационного обеспечения АСУ технологическими процессами: Тезисы докладов Всесоюзной научно-технической конференции. - 4.2. - Черновцы: ЧФКИА, 1979. - С.ИО-Ш.
2. Коркмазский Ф.Е. Квазиоптимальная сегментация речевых сигналов //Теория адаптивных систем и ее применения': Тезисы докладов Всесоюзной конференции. - Ленинград: АН СССР, 1983. - С.203.
3. Отчет Черновицкого СКТБ ВТ ПО "Электронмаш" по НИР "Разработка алгоритма функционирования систем речевого ввода технологической информации" /ответственный исполнитель Коркмазский Й.Е. -1963. - № гос.регистрации 01.82.0071666. - 28 с.
4. Коркмазский й.Е. Квазиоптимальная сегментация речосых сигналов// Автоматическое распознавание слуховых образов: Тезисы докладов
и сообщений Всесоюзной школы-сеыинара APC0-I3. - T.I. - Новосибирск: ИМ СО СССР, 1984. - С.98-100.
L». Разработка системы распознавания дискретной речи для АСУ ТП/ Гюльназарпн Г.Г., Коркмазский Й.Е., Мазур В.Н. Использование систем автоматического речевого ввода. - Глава I. - Москва: ВЦ АН СССР, 1986. - С.3-12. ,
6. Коркмазский Й.Е. Модуль анализа речевых сигналов ПС 7801//0пыт разработки и внедрения технических и программных средств СЧ ЭВМ и АСВТ ПС: Тезисы докладов Всесоюзной научио-техниче-ской конференции. - 4.1. - Северодонецк: НПО "Импульс", I98G. -С. 124-125.
7. Коркмазский S.S. Модуль анализа речевых сигналов ПС 7^01//Авто-матическсе распознавание слухов!.« образов: Тезисы докладов и сообщений Всесоюзного семинара APC0-I4. - 4.2. - Каунас: КПИ, 1986. - С.67.
8. Коркмазский O.E. Использование системы речевого ввода в АСУ технологическими процессами //Анализ, распознавание и синтез г-чи. - Москва: ВЦ АН СССР, 1987. - С.91-95.
1Э
д.КогЯгаагдку i'.ii. Speech recognition ayutem baaed on iValah function //X'reoeedinga of the Eleventh International Oongroaa of l'honetio 3oienoea. - Tallinn, 1987. - V.3.- P.290-JO1.
10. Коркмазский Л.E. Модуль автоматического распознавания речи, использующий функции Уолша //Автоматическое распознавание и синтез слуховых образов. - Москва: ВЦ АН СССР, IS87. -С.47-52.
i Т-10334 от 06.06.90.г.Форм.изд.60X84 1/16. . Объем 1,0 п.л.ЗакДВО/у.Тир.ЮО.
ПГГПечатник".Мосгорпечать.Н.Ктзаснохолмская д. 5.
-
Похожие работы
- Теоретические основы ортогональных дискретных преобразований и их применение для анализа и математического моделирования научно-технических задач
- Развитие теории специальных дискретных преобразований и ее применение в задачах моделирования и обработки цифровых сигналов
- Повышение показателей качества радиотехнических устройств обобщённой спектрально-корреляционной обработки речевых сигналов
- Компьютерно-ориентированные схемы минимизации временной сложности цифровой обработки сигналов при динамическом изменении отсчетов
- Методы обработки нормированных данных в информационно-измерительных системах с использованием модифицированного базиса Уолша
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность