автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.14, диссертация на тему:Дикторонезависимое распознавание изолированных слов на основе анализа символьных последовательностей

кандидата технических наук
Маховиков, Алексей Борисович
город
Санкт-Петербург
год
1997
специальность ВАК РФ
05.13.14
Автореферат по информатике, вычислительной технике и управлению на тему «Дикторонезависимое распознавание изолированных слов на основе анализа символьных последовательностей»

Автореферат диссертации по теме "Дикторонезависимое распознавание изолированных слов на основе анализа символьных последовательностей"

.- - - м : .1 > '

2 ШР 151П7

На правах рукописи

МАХОВИКОВ Алексей Борисович

ДИКТОРОНЕЗАВИСИМОЕ РАСПОЗНАВАНИЕ ИЗОЛИРОВАННЫХ СЛОВ НА ОСНОВЕ АНАЛИЗА СИМВОЛЬНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Специальность 05ЛЗЛ4 - "Системы обработки информации

и управления"

А втореферат диссертации па соискание ученой степени кандидата технических наук

Санкт-Петербург 1997

Работа выполнена в Балтийском государственном техническом университете им. Д.Ф. Устинова, г. Санкт-Петербург.

Научный руководитель - доктор технических наук, профессор

Официальные оппоненты:

- доктор технических наук, профессор ЧЕЛПАНОВ Игорь Борисович

- кандидат технических наук, доцент СОРОКИН Анатолий Александрович

Ведущая организация - Санкт-Петербургский институт информатики и автоматизации Российской Академии Наук

Защита состоится " ¿1 " а^е^ь 1997 г. в часов на заседании диссертационного совета ССК053.10.02 в Балтийском государственном техническом университете по адресу: 198005, Санкт-Петербург, 1-ая Красноармейская, дом 1.

С диссертацией можно ознакомиться в библиотеке университета.

Автореферат разослан " И " .доугоу. 1997 г.

Ученый секретарь диссертационного совета.

КОЗЛОВ Юлен Маркович

к. т. н., доц.

В.Ю. Емельянов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность теш. Проблема двухстороннего человеко-ма-инного взаимодействия посредством голоса занимает особое мес-о в программах научно-технического прогресса. Речевой вод-вывод создает возможность организации естественной связи ежду человеком и машиной, как непосредственно, так и по теле-ону. Его применение позволяет повысить качество управления ехническими устройствами благодаря высокому быстродействию, озможности высвобождения для других целей глаз и рук человека пригодности для использования в темноте, невесомости и при начительных перегрузках.

Проблема речевого взаимодействия решается на основе исс-едований и разработок устройств распознавания и синтеза речи, настоящему времени достигнуты значительные успехи в разра-отке устройств синтеза, но задачу распознавания нельзя счи-ать окончательно решенной. Процессы восприятия речи при их ехнической реализации оказываются чрезвычайно сложными из-за юльшого разнообразия голосов, стилей произношения, неустойчи-ости и случайности параметров речевого сигнала. В связи с там, можно считать принципиально решенной только задачу рас-юзнавания изолированных слов с настройкой на конкретного дик-■ора.

Вместе с тем, применение устройств речевого ввода в раз-шчных системах массового обслуживания требует решения задачи ¡икторонезависимого распознавания речи. Одним из перспективных юдходов к ее решению является распознавание на основе анализа ;имвольных последовательностей, но связанные с этим вопросы юучены недостаточно.

Работа представляет собой часть плановых исследований кафедры Систем автоматического управления БГТУ, выполненных в )амках программы "Университеты России".

Цель работы: Усовершенствовать методы распознавания сим-зольных последовательностей и разработать на их основе экспе-зиментальную дикторонезависимую систему распознавания изолированных слов.

Основные задачи исследований:

3. Выявить основные недостатки существующих дикторонезави-симых систем распознавания изолированных слов на основе анализа символьных последовательностей и наметить пути их устранения.

2. Разработать алгоритмы для создания лингвистического декодера с применением скрытых марковских "1еПЧо-г181И" моделей варьируемой продолжительности, позволяющих учитывать временные характеристики речевого сигнала.

3. Исследовать возможность учета временных характеристик при сопоставлении символьных последовательностей и разработать алгоритмы для создания лингвистического декодера на основе эталонных символьных последовательностей.

4. Разработать экспериментальную дикторонезависимую систему распознавания изолированных слов и выполнить ее исследования с целью проверки эффективности предлояенных алгоритмов (точности, быстродействия и помехозащищенности).

Методы исследований. Для выполнения поставленных задач использовались методы распознавания образов, теории вероятностей, статистической теории связи, теории информации и цифровой обработки сигналов. Экспериментальные исследования проводились путем реализации разработанных алгоритмов на ЭВМ.

Научная новизна исследования состоит в том. что:

1. Разработан комплекс алгоритмов для реализации лингвистического декодера на основе анализа скрытых марковских "1еП-из-п§М" моделей варьируемой продолжительности, в рамках которого

- создан алгоритм расчета функции правдоподобия с рекуррентным вычислением одного из слагаемых, позволяющий реализовать лингвистический декодер в реальном времени;

- предлоаен эвристический способ установки начальных приблияений параметров моделей, обеспечивающий качественную настройку;

- разработаны алгоритм распознавания сжатых последовательностей и способ учета погрешности векторного квантования.

2. Предложены алгоритмы расчета меры сходства и обучения

при использовании символьных последовательностей в качестве эталонов, позволяющие учитывать ограничения на число вставок и выпадений подряд.

3.Создана экспериментальная дикторонезависимая система распознавания изолированных слов с использованием скрытых марковских моделей варьируемой продолжительности и предложен способ повышения ее быстродействия на основе применения акустической сегментации речевого сигнала по отклонению от скользящего среднего.

4. В ходе исследований системы распознавания изолированных

Цифр:

- получена зависимость критерия качества обучения от количества состояний скрытой марковской модели и определено оптимальное число этих состояний в зависимости от длины фонетической транскрипции;

- предложен способ определения значения порога отклонения от скользящего среднего и получены данные об увеличении быстродействия системы за счет сегментации;

- разработана модель акустического шума и получены данные о помехозащищенности системы и влиянии ее подстройки под шум на точность.

Достоверность научных положений, полученных результатов и выводов базируется на корректном применении общепринятого математического аппарата и подтверждается экспериментальными данными по распознавании контрольной выборки.

Практическая ценность заключается в разработке:

1.Комплекса программ, позволяющего организовать распознавание символьных последовательностей любого происхождения на основе анализа скрытых марковских "1еМ-1;о-г1Е1и" моделей варьируемой продолжительности.

2. Программного комплекса для распознавания символьных последовательностей путем их сопоставления с эталонными.

3. Системы первичной обработки нестационарного сигнала, в том числе его описания, сегментации и преобразования в символьную последовательность.

4.Экспериментальной дикторонезависимой системы распозна-

вгния изолированных цифр.

Полученные практические результаты позволяют создавать различные дикторонезаоисимые системы. Разработанные алгоритмы и программы могут применяться для обработки сигналов разной природы, например сейсмограмм, электрокардиограмм и электроэнцефалограмм.

Результаты внедрения. Созданные алгоритмы и программы легли в основу канала анализа символьных последовательностей дикторонезависимой системы распознавания изолированных слов, разрабатываемой в рамках темы "Методы и средства построения систем речевого общения", что отражено в отчетах по НИР N У4-03-3509 за 1994, 1935 и 1996 годы. Комплекс программ и методика их применения переданы на кафедру Систем автоматического управления БГТУ. Результаты работы также нашли применение:

- в закрытом акционерном обществе "Автоматизация мониторинга технологий" при разработке перспективных систем, использующих новую форму человеко-машинного взаимодействия посредством голоса;

- в Государственном научно-производственном предприятии "Севморгео" при составлении алгоритмов и программ обработки геофизических, и в частности, сейсмических материалов;

- в учебном процессе на факультете Систем управления БГТУ.

Апробация работы. Основные результаты работы докладывались на IV Санкт-Петербургской международной конференции "Региональная информатика - 95", Санкт-Петербург, 1995; на II Межведомственной научно-технической конференции "Проблемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах", Пушкин, 1995; на V Санкт-Петербургской международной конференции "Региональная информатика - 96", Санкт-Петербург, 1996; на международном семинаре "Речь и компьютер", Санкт-Петербург, 1998; на научно-технической конференции "Системы управления, конверсия, проблемы", Ковров, 1996; на семинаре кафедры цифровой обработки сигналов Государственного университета телекоммуникаций им. М.А. Бонч-Бруе-вича, Санкт-Петербург, 1996.

Публикации. По материалам диссертации опубликовано 8 печатных работ.

Объем и структура диссертации. Работа состоит из введения, пяти глав, заключения, списка литературы из 87 наименований и четырех приложений. Основная часть изложена на 107 страницах машинописного текста, имеет 8 рисунков и 13 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении дается общая характеристика работы, обосновывается ее актуальность, формулируются цель и задачи исследований, определяются научная новизна и практическая ценность.

В главе 1 дан анализ современного состояния разработок в области распознавания изолированных слов, раскрывается сущность проблемы создания многодикторных систем, рассматриваются основные подходы к их разработке, показывается перспективность двухступенчатых систем и выявляются недостатки существующих методов распознавания символьных последовательностей.

Анализ существующих подходов к созданию систем распознавания речи позволил сделать вывод, что при отсутствии инвариантного к голосу диктора описания речевого сигнала, многодик-торные системы должны иметь две ступени распознавания речевого сообщения. Первая ступень - акустический или акустико-фонети-ческий декодер - преобразует речевой сигнал в последовательность символов (базисных единиц) - акустических или фонетических сегментов, а вторая ступень - лингвистический декодер -эту последовательность распознает. Акустико-фонетический декодер относит каждый из участков речевого сигнала к одному из широких фонетических классов (групповых фонем), которые даже в многодикторном варианте могут быть выделены с достаточно высокой точностью. Размер алфавита этих классов существенно меньше числа фонем языка и, как правило, не превышает 16, но этого достаточно для распознавания небольшого словаря. Акустический же декодер, функционирующий на основе векторного квантования, распознает каждый из отрезков речевого сигнала как один из ти-

- и -

пов спектров. Число этик типов колеблется от систеш к системе и составляет от 32 до 256. Однако, такие системы пока обладаит недостаточной точностью, что во многом определяется недостатками методов лингвистического декодирования, которые не позволяют учитывать временные характеристики символьных последовательностей.

В главе 2 изложено применение скрытых марковских моделей варьируемой продолжительности для распознавания последовательностей акустических сегментов, показывается адекватность таких моделей речевому сообщению и предлагаются алгоритмы для расчета функции правдоподобия и обучения; приводится алгоритм распознавания сжатых последовательностей и способ учета погрешности векторного квантования.

Эталоны слов в системе с акустическим декодированием задаются только в виде скрытых марковских моделей. Однако, применяющийся вид дискретных моделей с сохранением состояния предусматривает показательное распределение времени пребывания в состоянии, что не соответствует фактическому распределению длительностей звуков. Устранить этот недостаток можно использованием моделей варьируемой продолжительности, причем такие модели должны иметь 'ЧеП-из-^М" структуру, соответствующую последовательному характеру речи (рисунок 1).

Рис.1.

Параметрами модели к-того слова являются:

1. Матрица вероятностей переходов

Сркуг], г-1...1к+1; ¥-г-(К,Ы|+1)...г-1; у>0. где ркуг- вероятность перехода из состояния в состояние

; Квыд- максимальное число перескоков через состояние подряд.

2.Матрица распределения продолжительностей нахождения в состояниях

[^(«1. Г-1...1*; 1-1...К,ак.

где ь|кг(Ь)- вероятность нахождения з состоянии в течении 1 тактов: К,пах- наибольшая продолжительность нахождения в состоянии.

3.Матрица вероятностей выходов

[ркг (Би)]. Г-1...1*; и=1. . . N. где ркг(8и)- вероятность генерации символа 5ц в состоянии ц*кг; М- размер алфавита символов.

Особые состояния як0 и называются начальным и конечным.

С учетом введенных параметров может быть оценена вероятность того, что именно скрытый марковский источник порождает наблюдаемую последовательность С1=с4 ог...с,...сх. Наиболее эффективно это можно сделать, если оценивать ее по наиболее правдоподобным последовательностям состояний и длительностей нахождения в них в соответствии со следующим алгоритмом: Тк [0,01 =0; Тк [г, 0] =-«>;

Тк[г,Л= пах тах (Тк [уЛ-«+1п(ркуГ)+1п(/г О, Ш;

V I

1=1...Ксах;

V > 0; 1-Ь > 0,

где

Ъ

(ГГ(1Д) = Е 1п(р г (с1.1+:))) вычисляется рекуррентно: (1) 3=1

С^Р(1,1) - 1п(ркг(с,));

<^Г(1Л) =^Г(Н,Н) + 1п(ркг(С|)):-

1=2...^; Ы)0;

Тк [1^+1,1+1] = шах (Тк [V, 1]+1п(ркУ([_к+1))};

V

Г-1...1*; 1-1... 1,

причем 1п(Р'(С1/^))=Тк[Ьк+1.1+1].

Рассмотренный алгоритм содержит примерно

О1 - [3-КВах*<К.11п+1> + ^ах - Ш * 1 * I* (2)

- 1С -

операций сложения.

С целью сокращения вычислительных затрат при обучении, переоценка параметров моделей также должна производиться по наиболее правдоподобным последовательностям состояний и длительностей нахождения в них. Для обеспечения качественной настройки предложен эвристический способ установки начальных приближений параметров моделей. Он исходит из следующих соображений:

а). Невыпадение состояния более вероятно, чем выпадение: выпадение одного состояния более вероятно, чем двух подряд; и т. п.

б).В системе с акустическим декодированием указать эталонный символ нельзя, поэтому появление всех символов предполагается равновероятным.

в). Средняя длительность звука более вероятна, чем максимальная и минимальная.

Вид законов распределения начальных приближений параметров подобран экспериментально.

В главе 3 рассматриваются методы распознавания последовательностей фонетических сегментов при использовании в качестве эталонов как скрытых марковских моделей, так и символьных последовательностей, предлагается модель искажения эталонной последовательности и рассматриваются алгоритмы лингвистического декодирования; приводится алгоритм распознавания на основе методов последовательного декодирования.

Применение скрытых марковских моделей в качестве эталонов связано с необходимостью накопления обучающих выборок значительного объема для всех слов словаря, что обусловлено большим числом параметров каждой модели. Однако, при хорошем качестве акустико-фонетического декодирования, этого можно избежать, если использовать эталонные символьные последовательности.

Формирование наблюдаемой последовательности фонетических

сегментов к=а, а»... а,...aj может быть описано как искажение

ккккк одной из эталонных последовательностей В =Ь х Ь г...Ь Г...Ь [,к

при передаче ее по каналу связи с ошибками синхронизации.

При передаче по такому каналу любой символ Ьку последовательности Вк может выпасть с вероятностью рвып(Ьку). а также

и -

передан верно или заменен на другой с вероятностью ряаи (а,{/Ьку). В любей меясимвольный промежуток может быть вставлено некоторое число символов, причем вероятность вставки t конкретных символов равна

t

P(t) = Рневст П РвстСаг) , (3)

Z=1

где Рневст" вероятность того, что вставки не произойдет (t=0); Рвсг^)" вероятность вставки данного символа. В канале отсутствует память, т. е. указанные события статистически независимы.

Пусть при искажении эталонов происходит максимум KjCT и Квып- вставок и выпадений подряд, причем, последовательности выпадение-вставка и вставка-выпадение не возникают. Тогда расчет меры правдоподобия должен производится по следующему алгоритму:

Тк (0,0) =(1^+1) • 1п(рЯвВсТ);

fTk СО, J-1) +1пCaj)). для j<KBCI;

Tk(0,j)-<

-ОС.

Tk (г, 0) =•

для j>KBcl;

¡Tk (г-1,0)+1п(рвып (bkr)), для г<Квып;

для гЖвып;

/

Tk(r, J) -шах ■

(4)

Tk(r-1.j-l)+ln(p3au(a,/bfr))?

Tk(r-l,w-l)+ln(p3aM (а*/Ь%))+Е1п(рвст (a,));

k „g-w+1

Тк(е-1^-1)+1п(рзамЦ/Ь^)+Ьп(рвып (Ьки)):

и=е+1 Квст. .. 3-1; ш>1; е-г-К,ыв...г-1; е>1;

Г-1...1*; Л=1... Л,

причем 1п(Р* (А/Вк))=Тк (Ьк, а).

Параметры канала, т.е. матрица вероятностей замещений и вектора вероятностей вставок и выпадений, а также эталонные последовательности определяются в рамках одного итерационного алгоритма.

Применение эталонных последовательностей делает возможным использование алгоритмов последовательного декодирования, обладающих существенно большим быстродействием по сравнению с алгоритмами полного перебора. Последовательное декодирование принятой последовательности фонетических сегментов следует производить по алгоритму, учитывающему ограничения на количество вставок и выпадений подряд. Обучение производится также, как в методе полного перебора.

В главе 4 рассматривается экспериментальная дикторонеза-висимая система распознавания изолированных слов с акустическим декодированием и предлагается метод повышения ее быстродействия на основе акустической сегментации речевого сигнала.

Для проверки эффективности предложенных алгоритмов была разработана экспериментальная дикторонезависимая система распознавания изолированных слов с акустическим декодированием. Ее общая структура представлена на рисунке 2.

1 - режим обучения; 2 - рабочий режим.

Рис.2. ,

Процессор обработки сигнала преобразует речевой сигнал в последовательность первичного описания . Схема этого процесса представлена на рисунке 3.

Рис. 3.

1.3 -

Для опггсслкя сигнала выбраны С-пара«е?ры линейного предсказания, являющиеся нелинейным логарифмически» преобразованием коэффициентов отражения. Эти параметры имеют равномерную спектральную чувствительность. Снижение вычислительных затрат достигается предварительным обнаружением участков сигнала, осуществляющимся на основе двух энергетических порогов - отдельно для вокализованных и невокапизованных звуков. Выбор порога производится по отношению первого и нулевого коэффициентов автокорреляции.

Акустический декодер преобразует векторную последовательность первичного описания в последовательность акустических сегментов С^ При этом каядый элемент, для которого не установлен признак паузы, распознается как один из типов спектров.

Определение эталонов акустических сегментов производится с помощью комбинированного алгоритма векторного квантования, обеспечивающего качественное разбиение пространства признаков без задания начальных условий. Этот алгоритм представляется следующими шагами:

1.Положить текущее значение N равным 1 и рассматривать всю обучающую выборку как один кластер с центроидом, совпадающим с ее центром тяжести.

2.Разделить кластеры, имеющие разброс больше среднего и содержание более К„1п векторов, на две части. Для этого определить начальные приближения эталонов подкластеров данного кластера и выполнить алгоритм "к-средних" на разделяемом кластере.

Удалить из кодовой книги эталоны разделенных кластеров и ввести вместо них эталоны подкластеров. Если итоговое число эталонов больше заданного N. остановить процесс.

3.Выполнить алгоритм "к-средних" на обучающей выборке при рассмотрении имеющейся кодовой книги как начального приближения.

4.Удалить эталоны, к которым не был приписан ни один вектор обучающей выборки, и перейти на шаг 2.

Лингвистический декодер, функционирующий на основе анализа скрытых марковских моделей варьируемой продолжительности, распознает последовательность акустических сегментов как одно из слов словаря. Так как границы слова могут выделяться с

ошибками, то состояния моделей qkt и qkíjK соотносятся с паузами в начале и конце слова. При этом предполагается, что равновероятна любая продолжительность нахождения в этих состояниях от 1 до 1тах, где 1тах - наибольшая возможная длительность речевого сообщения.

Экспериментальная система реализована в виде комплекса программ, позволяющего использовать ее для распознавания словаря, содержащего произвольный набор слов. Настройка системы производится по обучающим выборкам в автоматическом режиме.

Рассмотренные алгоритмы обработки информации характеризуются значительными вычислительными затратами и, следовательно, общее быстродействие системы может оказаться недостаточным. В связи с этим, требуется разработать специальные методы для снижения вычислительных затрат.

Быстродействие системы может быть повышено путем уменьшения длин последовательностей, поступающих на акустический и лингвистический декодеры, т.е. сжатия последовательности XJ и преобразования ее в последовательность Ys=yty2.. . у3.. . ys, причем sil. Для сохранения информации о длительности сигнала дополнительно вводится последовательность Hs^hg... fy • •. hs, где hj - представляет длительность j-того участка в тактах.

Для решения этой задачи предложен метод акустической сегментации речевого сигнала по отклонению от скользящего среднего, позволяющий выделить в речевом сигнале квазистационарные участки, в пределах которых изменение спектральных характеристик незначительно. Этот метод применим к описаниям, для которых справедливо евклидово расстояние. Он представляется следующим алгоритмом: к, =1;

Если Efc-j =1 то

kJ + 1 « min {(i : Е4 =lAd(Gj,GCKCP(кл, i))>X V E^O), (1+1)}; l-kj...l:

иначе (5)

kj + 1 = min {(i : Ej=l) , (1+1)}; i-kj... 1; y¡ = [GcBcpftj.kjti-l) - ^j hj = kj + 1-kj; j=l... s.

Здесь к1,кг,..., ¡^,...,к3 - позиции по последовательности Х1 начальных элементов выделенных сегментов; Ссксрп) - значение скользящего среднего, определяемое по формуле

1 п

Сскср(т-п) = - £ (6)

п-т+1 е=т

X - порог, определяющий величину значимого отклонения фактического значения от скользящего среднего (Х>0). Величина этого порога должна устанавливаться экспериментально.

После акустического декодирования производится дополнительное уменьшение длины последовательности путем объединения соседних однотипных сегментов.

Введение сегментации приводит к некоторому изменению алгоритма расчета функции правдоподобия, связанному с наличием на входе лингвистического декодера двух последовательностей.

В главе 5 изложены результаты экспериментальных исследований многодикторной системы распознавания изолированных цифр и произведена оценка эффективности методов повышения ее быстродействия и помехозащищенности.

Разработанная система способна по обучающим выборкам настраиваться на распознавание заданного словаря, в качестве которого были выбраны десять изолированных цифр.

При настройке системы по выборке, включающей 48 дикторов было установлено, что практически 100% точность ее распознавания достигается при следующих значениях параметров: N=83, ^„«11 (при шаге анализа 12 мс), Квып=1 и

I* = [й*-^] + 2, (7)

где количество символов в фонетической транскрипции, а с^-коэффициент запаса, лежащий в диапазоне от 2 до 3. Значение коэффициента оС4 определялось из условия максимизации по I* критерия качества обучения скрытой марковской модели:

Б

в^(С^) - 1п(Р'(С14/^)) = Е ^[1^+1,1„+1], (8)

(1=1

где Ск- обучающая выборка слова; Б- ее размер.

При этом точность распознавания контрольной выборки из 30 дикторов, не участвовавших в обучении, составила 94% при 2. 3%

отказов. Отказ от распознавания вырабатывался, если

I Tk(ci) [I*(ci)+1. 1+1] - шах { Tk[Lk+l,l+ll } | < 1.51.(9)

k*k(Cj)

После увеличения обучающей выборки до 153 человек точность распознавания контрольной выборки возросла до 96.3% при 1.7% отказов. При этом 2/3 выборки были записаны с использованием других микрофона и звуковой карты.

Величина порога сегментации X была определена из анализа разности среднего числа сегментов в словах обучающей выборки до акустического декодирования (scp) и после него (s'cp). Установлено, что во всех словах словаря при Х=0.8-Ю. 9 разность между scp и s'cp практически стабилизируется и при Х>0. 9 происходит объединение фаз звуков, приводящее к снижении точности распознавания. Поэтому целесообразно принять значение порога 1=0. 9.

При экспериментальных исследованиях было установлено, что сегментация повышает быстродействие системы в 1.52 раза при сохранении точности по обучающей выборке, но приводит к снижению точности распознавания контрольной выборки на i. 7%.

Для исследования помехозащищенности системы была разработана модель акустического шума, позволяющая получать выборки с заданным отношением сигнал/шум. Проведенные исследования показали, что уменьшение отношения сигнал/шум ниже 25-30 дБ приводит к резкому падению точности настроенной в лабораторных условиях системы (при 5 дБ точность составила 72.3%), что объясняется, главным образом, ошибками в выделении границ слов. Подстройка системы при заданном отношении сигнал/шум позволяет существенно повысить точность (при 5 дБ - до 90.6%). Дополнительное незначительное увеличение точности достигается при использовании полосовой фильтрации и компенсации мощности шума.

В заключении'отражены основные результаты исследований в соответствии с поставленными задачами, решение которых обеспечило достижение цели диссертационной работы.

В приложениях приведены методика применения разработанного комплекса программ, параметры шумоподавляющего фильтра, список основных обозначений и материалы внедрения.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТУ

1. Усовергаенствованы методы распознавания символьных последовательностей с целью учета временных характеристик и на их основе разработана экспериментальная дикторонезависимая система распознавания изолированных слов.

2. Показано, что эталоны последовательностей акустических и фонетических сегментов должны задаваться в виде скрытых марковских "left - to - right" моделей варьируемой продолжительности, и для них разработаны алгоритмы расчета функции правдоподобия и обучения, отличающиеся малыми вычислительными затратами.

3.Предложена модель формирования последовательностей фонетических сегментов в виде искажения эталонных последовательностей и разработаны алгоритмы лингвистического декодирования, позволяющие учесть ограничения на число вставок и выпадений символов подряд.

4.Создан комплекс программ, реализующий экспериментальную дикторонезависимую систему распознавания изолированных слов, способную настраиваться на распознавание произвольного словаря. Предложены методы увеличения быстродействия системы путем сегментации сигнала и повышения ее помехозащищенности.

5. Проведенное экспериментальное исследование дикторонеза-висимой системы распознавания изолированных цифр подтвердило правильность основных положений работы и достижение ее цели.

Основное содеряание диссертации опубликовано в следующих работах:

1. Дикторонезависимое распознавание речи. //Региональная информатика-95: Тезисы докладов IV Санкт-Петербургской международной конференции (СПб, 15-18 мая 1995 г.).- Часть 1.- СПб, 1995,- С. 55-56. (Соавторы: Горьков И.Л., Козлов D.M., Малеев О.Г.).

2. Лингвистическое декодирование в системе распознавания изолированных слов с малым словарем. //Вопросы повышения качества управления движущимися объектами: Труды БГТУ.-СПб: БГТУ, 1995,- С. 65-71.

3. Методы сравнений символьных последовательностей и и;: применение в многодикторных системах распознавания речи. //Проблемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах: Тезисы докладов II Межведомственной научно-технической конференции (СПб, Пушкинское ВУРЭ ПВО, 28-30 ноября 1995 г.).- Часть 1,- Пушкин, 3995.-С. 177-178. (Соавтор: Козлов Ю.М.).

4. Экспериментальная дикторонезависимая система для распознавания изолированных слов. //Проблемные вопросы сбора, обработки и передачи информации в сложных радиотехнических системах: Тезисы докладов II Межведомственной научно-технической конференции (СПб, Пушкинское ВУРЭ ПВО, 28-30 ноября 1995 г.).-Часть 1.- Пушкин, 1995. - С. 178-179. (Соавторы: Козлов Ю.М., Малеев 0. Г.).

5. Экспериментальная двухканальная система распознавания изолированных слов. //Региональная информатика-96: Тезисы докладов V Санкт-Петербургской международной конференции (СПб, 13-16 мая 1996 г.).- Часть 1,- СПб, 1996.- С. 58-59. (Соавторы: Козлов Ю. М., Малеев О.Г.).

6. Система распознавания речевых команд с лингвистическим декодированием. //Системы управления, конверсия, проблемы. : Тезисы докладов научно-технической конференции, посвященной 20-летию кафедры приборостроения/ автоматики и управления Ков-ровского технологического института (Ковров, 15-17 октября 1996 г.).- Ковров, 1996.

7. Декодирование символьных последовательностей в двухуровневых системах распознавания речевых команд. (Принята к публикации в Трудах БГТУ).

8. On the improvements of speaker-independent isolated word recognition. //SPECOM'96: Proceedings of international workshop speech and computer (St. Petersburg, 28-31 october 1996).- St. Petersburg, 1996.- P. 122-125. (Joint authors: Yu. Kozlov, 0. Maleev). . •