Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи

Кушнир, Дмитрий Алексеевич

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи

кандидата технических наук: Кушнир, Дмитрий Алексеевич
город: Москва
год: 2006
специальность ВАК РФ: 05.13.01

Диссертация по информатике, вычислительной технике и управлению на тему «Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи»

Автореферат диссертации по теме "Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи"

На правах рукописи

Кушнир Дмитрий Алексеевич

ИССЛЕДОВАНИЕ И РАЗРАБОТКА НЕЙРОСЕТЕВЫХ МЕТОДОВ АНАЛИЗА И ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧИ

Специальность 05.13.01 Системный анализ, управление и обработка информации

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук

МОСКВА 2006

Работа выполнена в Московском Государственном Техническом Университете им. Н. Э. Баумана

Научный руководитель к.т.н., доцент

Жигулёвцев Ю. Н.

Официальные оппоненты:

д.т.н., профессор Академии Управления МВД РФ Женило В. Р.

к.ф.-м.н., доц., профессор СПбГПУ

Тархов Д. А.

Ведущая организация - Вычислительный Центр им. A.A. Дородницына Российской Академии Наук

Защита состоится " 19 " сентября 2006 года в_на заседании

диссертационного совета Д 212.141.02, МГТУ им. Н.Э. Баумана, 107005, г.Москва, 2-я Бауманская ул., дом 5.

С диссертацией можно ознакомиться в библиотеке МГТУ им. Н.Э. Баумана

Автореферат разослан "_

2006 года

Учёный секретарь диссертационного совета к.т.н.

Иванов В. А.

Общая характеристика работы

Актуальность темы

Значительные успехи в области развития вычислительной техники вынуждают разработчиков создавать более совершенные средства взаимодействия с машинами. Преимущества речевого диалога перед традиционными средствами общения исследованы достаточно давно и многократно описаны в литературе. Привлекательность речевого общения, достижения в области распознавания речи, а также сопутствующее им развитие и удешевление электронно-вычислительной микропроцессорной техники в последнее время привели к тому, что сфера внедрения систем распознавания речи (СРР) существенно расширяется, захватывая различные отрасли производственной, административной, и даже ■ бытовой деятельности.

Речевой канал управления техническими средствами и вычислительными машинами позволяет освободить руки, разгрузить зрение, обеспечить независимость от механических вибраций и условий освещения. Для управления сложными техническими системами человеку приходится осваивать, образно выражаясь, "язык интерфейса", на что тратится время. Поэтому требование эргономичности при разработке человеко-машинных интерфейсов подразумевает обеспечение наиболее естественных форм взаимодействия, каковой, очевидно, является речевой диалог. Кроме того, речевой ввод информации может итрать роль дополнительного канала управления, который оказывается во многих ситуациях незаменимым, особенно в случаях, связанных с ограниченной подвижностью человека-оператора.

21-ый век со всей очевидностью заявил о себе, как эпоха "информационного взрыва". Несомненно, на этом этапе технического прогресса, одними из приоритетных становятся направления, связанные с развитием технологий интеллектуальных форм взаимодействия человека и информационно вычислительных систем. Постоянное усложнение техники приводит к тому, что каждое элементарное управляющее воздействие становится всё более содержательным, однако обеспечение необходимого разнообразия и гибкости в управлении приведет в этом случае к существенному усложнению человеко-машинного интерфейса. Возникает противоречие, которое может быть успешно разрешено благодаря организации речевого управления, так как формулирование команд на естественном языке обладает необходимой гибкостью и содержательностью одновременно.

Есть и другие преимущества речевого общения, число которых будет со временем увеличиваться по причине всё большей интеграции вычислительной техники в повседневную жизнь человека. Например,

благодаря системам речевого общения, управление справочными службами, традиционно осуществляемое человеком-оператором, можно практически полностью переложить на вычислительную технику.

Несмотря на многолетнюю историю и значительные достижения в области распознавания речи, в полном объеме задача остаётся нерешенной.

Вопросы, касающиеся проблем дикторонезависимости и помехоустойчивости, остаются наиболее актуальными в настоящее время. Современные системы распознавания речи, которые позиционируются как дикторонезависимые, осуществляют распознавание изолированных слов ограниченного словаря (до 500 слов) с надёжностью в акустически благоприятных условиях достигающей 95% (на практике, заявленные производителями показатели, часто оказываются преувеличенными). Системы распознавания слитной речи, как правило, требуют кропотливой процедуры настройки на диктора, словарь может достигать больших размеров (200.000 слов). В таких системах единицей распознавания на акустико-фонетическом уровне обычно является фонемоподобные элементы языка (аллофоны, дифоны, фонемы и т. д.) или слоги. Надежность распознавания отдельных фонемоподобных элементов невысокая (редко достигает 80%), однако, их относительная малочисленность (по сравнению со словами или даже слогами), делает их привлекательными для использования, особенно в системах использующих настройку на нового диктора, которая реализуется путём изменения параметров эталонных речевых единиц (которых должно быть не много). Точность в таких системах во многом определяется эффективностью языковой подсистемы (верхних уровней анализа).

Проблема помехоустойчивости систем распознавания речи должна решаться по двум основным направлениям. С одной стороны, необходим комплекс мер, направленных на устранение помех, шумов и искажений, воздействующих на речевой сигнал. С другой стороны, учитывая практическую ограниченность мер по очистке речевых сигналов, но, не отменяя их, возникает потребность в методах выделения полезного речевого сигнала из акустической среды. Как правило, такие методы используют априорную информацию о полезном сигнале, и они продемонстрировали высокую эффективность в борьбе с различными типами помех. Однако требование наличия априорной информации существенно сужает область применения данных методов

Известно, что человек в процессе распознавания речи активно использует априорную информацию о полезном речевом сигнале. Это касается всех уровней системы, начиная с акустического и заканчивая верхними, интеллектуальными уровнями анализа. Использование априорной информации во многом определяет способность человека оставаться устойчивым к помехам различного рода.

В системах распознавания речи, процедура настройки на нового диктора должна моделировать процесс получения части априорной информации об акустико-фонетических свойствах речевого сигнала данного диктора. Верхние уровни анализа должны обеспечивать систему частью априорной информацией языкового, семантического и прагматического свойства. Поэтому актуальной задачей при создании систем распознавания речи является разработка алгоритмов повышения помехоустойчивости СРР, использующих априорную информацию на разных уровнях анализа.

Цель и задачи исследования

Разработка комплексного подхода, использующего нейросетевые технологии, направленного на повышение надёжности систем распознавания речи за счёт использования априорных сведений о распознаваемом речевом сигнале.

Достижение указанной цели требует решить следующие основные задачи исследования:

1. Изучение и анализ существующих подходов к решению задачи автоматического распознавания речи.

2. Разработка способа представления акустико-фонетической информации, учитывающего особенности восприятия речи человеком.

3. Разработка методов повышения помехоустойчивости СРР, использующих априорную информацию о некоторых свойствах полезного речевого сигнала.

4. Разработка нейросетевого алгоритма настройки системы распознавания речи на нового диктора.

5. Разработка структуры и определение параметров нейронной сети для задачи распознавания речевого сигнала.

6. Разработка методов использования языковых знаний для сокращения состава оперативного словаря СРР.

7. Практическая реализация и экспериментальное исследование разработанных методов и алгоритмов.

Объект и предмет исследования

Объектом исследования является речевой сигнал, а предметом исследования являются алгоритмы предобработки речевых сигналов, методы представления речевой и языковой информации, алгоритмы распознавания, алгоритмы обеспечения помехоустойчивости систем распознавания речи, методы настройки на диктора и способы реализации обозначенного в системах автоматического распознавания речи.

Методы исследования

Для решения поставленных задач применялась теория радиально-базисных нейронных сетей и сетей прямого распространения, а также сетей из нейроподобных элементов с временной суммацией сигналов. Обучение радиальных сетей осуществлялось методами кластерного анализа и градиентного спуска. Метод динамического программирования применялся для организации процедуры синхронизации речевых сигналов разных дикторов, а также для распознавания динамических последовательностей. Теория цифровой обработки речевых сигналов использовалась для первичной обработки акустической информации.

Основной научный результат диссертационной работы:

разработана методика повышения надёжности систем распознавания речи, которая учитывает основные причины возникновения ошибок, и включает в себя комплекс научных и прикладных результатов, полученных в рамках данной диссертационной работы:

Научная новизна (научные результаты):

1. Разработан способ представления акустико-речевой информации в многомерном пространстве признаков (МПП), позволяющий использовать информацию об акустических особенностях голоса диктора в качестве априорной информации о свойствах распознаваемого речевого сигнала.

2. Разработана и экспериментально исследована новая радиапьно-базисная нейронная сеть встречного распространения (РБНС ВР), которая позволяет ассоциативно связывать между собой разные признаковые пространства.

3. Модифицирован алгоритм ассоциативного доступа к информации по ее фрагменту для динамических ассоциативных запоминающих устройств (ДАЗУ).

Прикладные результаты:

1. На основе предложенного способа представления акустико-фонетической информации разработан алгоритм обнаружения и компенсации помех в речевом сигнале.

2. Разработан алгоритм распознавания изолированно произносимых слов при помощи радиально-базисной сети, позволяющий выделять наиболее информативные признаки эталонов для реализации последующего механизма уточнения.

3. На основе радиально-базисной нейронной сети встречного распространения и предложенного способа представления акустико-фонетической информации разработан алгоритм настройки СРР на нового диктора.

Практическая значимость полученных результатов

1. Разработанные методы и алгоритмы использовались при разработке 8-ми разрядного микроконтроллера UNC81SVR01 (Unicore Microsystems), выполняющего в частности распознавание изолированно произносимых слов. Акт о внедрении прилагается.

2. Разработанные методы и алгоритмы использованы в ОАО "Концерн "РТИ Системы" в рамках проекта по разработке системы автоматического распознавания команд управления мобильным телефоном. Акт о внедрении прилагается.

3. Результаты диссертационной работы также использовались в НПИЦ "Микросистемы" при разработке речевого интерфейса для управления системой анализа текстовой информации TextAnalyst. Важной особенностью данного внедрения является то обстоятельство, что сама система TextAnalyst выступает в качестве модуля верхнеуровнего анализа при решении задачи распознавания речи.

Достоверность полученных научных результатов, выводов и рекомендаций диссертационной работы подтверждена результатами численного моделирования на вычислительной технике, экспериментальными исследованиями, а также соответствующими актами о внедрении результатов работы в разработку систем автоматического распознавания речи.

Апробация работы

Полученные в работе научные и практические результаты докладывались и обсуждались на 3-х международных конференциях:

XIII Международная конференция Информатизация и информационная безопасность правоохранительных органов - 2004.

Пятая международная научно-техническая конференция Искусственный интеллект — 2004.

Шестая международная научно-техническая конференция Искусственный интеллект — 2005.

Структура и объем диссертационной работы

Диссертационная работа состоит из введения, четырёх глав, заключения, библиографического списка использованных источников и приложений.

Содержание

Во введении обосновывается актуальность темы диссертационной работы, сформулированы цель и задачи исследования, приведено краткое содержание работы.

В первой главе рассматриваются и обобщаются принципы и методы обработки и анализа речевых сигналов в задаче распознавания речи.

В первом разделе главы представлены основные особенности задачи распознавания речи. Выделены главные трудности, возникающие при разработке систем распознавания речи.

Во втором разделе представлена общая структурная схема системы распознавания речи с описанием функциональной нагрузки каждого модуля. Обоснована необходимость многоуровнего представления речевой информации, актуализирована значимость верхних (интеллектуальных) уровней анализа и обработки речевой информации.

В третьем разделе рассмотрены наиболее распространенные методы первичной (выделение параметров) обработки речевых сигналов. Проведён аналитический обзор, что позволило сформулировать вывод о целесообразности применения бионичных (природосообразных) методов обработки РС, основанных на использовании физиологических особенностей восприятия речи человеком.

В четвертом разделе приведён анализ ряда методов распознавания речевых сигналов. Процедура распознавания речевых сигналов разделена на два этапа — распознавание статичных образов (квантование, кластеризация) и распознавание динамических последовательностей. Рассмотрены и проанализированы основные методы решения этих задач.

В пятом разделе рассказывается об особом классе методов распознавания- методов, основанных на нейросетевой технологии. Показана ограниченность применения традиционных нейронных сетей к задачам распознавания динамических образов. При этом показана высокая эффективность применения нейронных сетей в задачах распознавания статичных образов. Особое место занимают сети, построенные на радиально-базисных элементах, как легко интерпретируемые в базисе многомерного пространства признаков. Кроме того, выделен особый класс сетей, построенных на нейроподобных элементах с временной суммацией сигналов, способных представлять и обрабатывать динамическую информацию.

Шестой раздел посвящен вопросам обеспечения дикторонезависимости систем распознавания речи. Освещены последние достижения в этой области. Рассмотрены психофизиологические стороны этой проблемы и обоснована необходимость настройки СРР на диктора, следующая из соблюдения принципа природосообразности.

Седьмой раздел первой главы, заключительный, посвящен верхним (интеллектуальным) уровням анализа речевого сигнала СРР. Рассмотрены основные способы представления лингвистических знаний. Проведен аналитический обзор и сформулирован вывод о целесообразности применения декларативных методов представления языковых знаний, как наиболее эффективных для русского языка.

В конце главы сформулированы основные выводы.

Вторая глава диссертационной работы посвящена описанию теоретических принципов обработки информации в многомерном пространстве признаков на основе нейросетевой технологии с применением сетей из радиально-базисных нейронов, а также иерархических структур из динамических ассоциативных запоминающих устройств.

В первом разделе представлены теоретические основы функционирования сетей, построенных на радиально-базисных элементах. Представлена структурная схема разработанной радиальной нейронной сети встречного распространения. Структурная схема показана на рисунке 1:

Сеть имеет два слоя радиальных элементов и два входных/выходных слоя (в общем случае сеть может иметь число входных/выходных слоев, определяющееся числом рассматриваемых базисов описания образа). В процессе обучения, а также на этапе функционирования, сигналы внутри сети, в основном, распространяются навстречу друг другу. По этой причине сеть получила название радиально-базисной нейронной сети встречного распространения.

Сеть позволяет корректно связывать между собой разнородную информацию, формирую внутри себя мультимодальное (несколько признаковых пространств) представление анализируемого образа (или процесса).

у-- Э' <р

1 * I X'

Рис. 1

Структура РБНС встречного распространения.

На следующем рисунке проиллюстрировано как сеть, при известном описании образа в одном пространстве признаков, формирует (восстанавливает) его описание в другом признаковом пространстве. Образ в данном случае представлен точкой.

Алгоритм обучения РБНС ВР состоит из двух этапов. На первом этапе определяются параметры радиально-базисных элементов: координаты центров С^С) и размер а,, а'г Реализуется это методами кластерного анализа векторов параметров из обучающей выборки для каждого признакового пространства. Для обучения используются незашумлённые описания образов для последующей реализации механизма помехоустойчивости. На втором этапе определяются значения коэффициентов ассоциативных связей между областями признаковых пространств У1>ц. Для этого обрабатывается обучающая выборка, состоящая из двух параллельных описаний одного образа в разных пространствах признаков.

Постановку задачи процедуры распознавания можно сформулировать так: по известному описанию образа в некотором исходном пространстве признаков, необходимо получить описание образа (вектор параметров) в другом признаковом пространстве. Кратко, данную процедуру можно сформулировать в виде последовательности операций: образ, представленный вектором параметров, проецируется в базис радиальных элементов исходного признакового пространства, откуда, посредством весовых коэффициентов ассоциативных связей переносится в базис радиальных элементов выходного пространства признаков. После чего, методом градиентного спуска, описание образа формируется в виде вектора параметров выходного пространства признаков.

Пространство признаков 2

Пространство признаков 1

Рис.2

Взаимное отображение областей признаковых пространств

Основные свойства РБНС ВР:

• прозрачность, т.е. интерпретируемость значений весовых коэффициентов;

• дообучаемость (создание новых кластеров, модификация значений весов ассоциативных связей);

• двунаправленность (многонаправленность для случая числа признаковых пространств больше двух), т.е. сеть может работать в любом направлении без переобучения;

• особенность алгоритма распознавания, заключающаяся в способности сразу формулировать приблизительные ответы и итеративно приближаться к более точному ответу;

• масштабируемость структуры сети; позволяет корректно совмещать разнородную информацию об изучаемом образе (объекте, процессе). Число возможных базисов для представления образа, с которыми сеть может работать, в принципе, не ограничено структурой сети;

В реальных условиях описание образов может быть зашумлённым, что часто приводит к возникновению ошибок. Механизм борьбы с помехами основан на том, что у разных базисов представления некоторого образа разные источники помех. Вероятность одновременного появления помех в разных базисах невысока и уменьшается с ростом числа базисов представления описываемого образа. Суть механизма помехоустойчивости заключается в том, чтобы в каждый момент времени использовать наименее зашумлённый базис.

Во втором разделе второй главы рассматриваются структура и функции нейроподобного элемента с временной суммацией сигналов и сети из таких элементов, формализуется класс отображений входных последовательностей в траектории многомерного сигнального пространства, реализуемых при обучении иерархических структур из динамических ассоциативных

I >

Три признаковых пространства Рисунок 3

Иллюстрация масштабируемой структуры сети

запоминающих устройств. Более подробно рассмотрен алгоритм ассоциативного доступа, который далее модифицируется для экономии памяти при сохранении основного свойства быстрого, доступа к информации. В разделе описывается подход к реализации ассоциативного поиска информации по ее фрагменту.

Традиционно, для адресации по содержимому применяются хеш-функция и хеш-адресация. Учитывая ряд достоинств такого подхода к организации ассоциативного доступа, есть два очевидных недостатка. Первый из них — неэффективное использование объема памяти под таблицу идентификаторов: размер массива для ее хранения должен соответствовать области значений хеш-функции, в то время как реально хранимых в таблице идентификаторов может быть существенно меньше. Второй недостаток — необходимость соответствующего, удовлетворяющего некоторым критериям, выбора хеш-функции.

Преимущество предлагаемого подхода заключается в соблюдении баланса при распределении функций между алгоритмом ассоциативного поиска, аппаратно реализуемым средствами ИС ДАЗУ и алгоритмом ассоциативного поиска, основанным на инвертированном представлении исходной информационной последовательности (ИП) и применении дихотомического принципа для локального поиска. В результате, поиск регулярных элементов ИП возлагается на ИС ДАЗУ, а поиск комбинаций регулярных элементов осуществляется классическими методами ассоциативного поиска.

Исходная информация сначала представляется в виде следующей таблицы:

к М2 Мг ...

яз, тп т,2 тп

нэг т2\ т22 ...

нэ3 т„ туг тп

... ... т1к

...

яэ„

Таблица 1

Организация функции памяти М в виде последовательности ячеек памяти для каждого НЭ

Каждая строчка таблицы содержит информацию о позиции включения регулярного элемента ЯЭ, в исходный информационный массив. При

тл

этом:

(1)

что позволяет впоследствии применить дихотомический принцип для поиска нужной позиции внутри строки таблицы.

Любую входную последовательность можно представить в виде

цепочки откликнувшихся НЭ,, Т=>Е = {е1,е1.....е,.....е^), где Ь — количество

сработавших в ДАЗУ НЭ. Таким образом, распознавание фрагмента информационной последовательности .7' сводится к адресации посредством доопределенной функции памяти М цепочки НЭ Е в нужное место массива информации J. В итоге, алгоритм ассоциативного доступа заключается в поиске для любого элемента последовательности е, такого индекса к, при котором выполняется соотношение:

У(/ = 2.1), т[е„к}=т[е,_х,к\ +1 (2)

Вариация значений k происходит по дихотомическому принципу «деления отрезка пополам», который позволяет осуществлять направленный поиск элементов по индексу к в строке таблицы. Дихотомический подход возможен благодаря выполнению соотношения (1).

Третья глава посвящена вопросам применения теоретических принципов функционирования РБНС и ИС ДАЗУ для задачи распознавания речи. В первом разделе третьей главы предлагается новый способ представления речевой информации в многомерном пространстве признаков (МПП), основная идея которого заключается в выделении в МПП области, соответствующей акустическим параметрам речевого сигнала отдельно взятого диктора. Выделенная область, маркированная сферическими (или эллипсоидными в случае разного масштаба по осям признаков) окрестностями, называется акустико-фонетическим пространством (АФП) диктора. Представлены структурная схема (рис. 4) и описание алгоритма повышения помехоустойчивости СРР, основанного на автоматическом определении степени зашумленности речевого сигнала и последующем использовании метода рекурсивного анализа для извлечения из сигнала информации о спектральной составляющей аддитивной помехи с тем, чтобы вычесть ее из исходного сигнала.

Рис.4

Схема коррекции последовательности В/7Я(/„ )

PC - Речевой сигнал;

ATI - Акустический процессор;

АФПД - Акустико-фонетическое пространство диктора;

БКП - Блок коррекции последовательности;

ПП - Пороговый преобразователь;

Inv - Инвертор;

Мах - Компаратор;

Акустический процессор преобразует PC в последовательность векторов первичных параметров (ВП). АФПД обрабатывает поступающую на вход последовательность ВПП, формируя на выходе два значения: e(t„) -номер ближайшего к ВЯ/7(/,) элемента АФП, КО - евклидово расстояние от ВПП(1,) до ближайшего элемента АФП, вычисленное в МПП. Пороговый преобразователь формирует на выходе значение 1, если r(t„)>h, где h — порог зашумленности. В противном случае на выходе ПП значение 0. Основную функцию в схеме выполняет блок коррекции последовательности. Если участок PC достаточно зашумлён, т.е. выполняется условие r(tn)>h, БКП на основании информации о предыдущем чистом участке PC прогнозирует последовательность e*(i,), которая заменяет исходную последовательность e(i„), пока выполняется условие r(t,)>h. Компаратор пропускает на выход максимальное значение из двух входных.

Во втором разделе третьей главы рассматриваются вопросы применения радиально-базисных нейронных сетей в задаче распознавания речи. В частности, использование радиально-базисной нейронной сети для распознавания изолированно произносимых слов. Представлен алгоритм

настройки системы распознавания речи на нового диктора посредством радиально-базисной нейронной сети встречного распространения.

Основан алгоритм настройки на идее нормализации дикторов: если в МПП отобразить РС от двух разных дикторов, то получится две траектории сигнала. Постановка задачи настройки на нового диктора может быть сформулирована так: необходимо организовать процесс преобразования траекторий РС нового диктора так, чтобы максимальным образом приблизить ее к траекториям РС известного (базового) диктора. После этого осуществляется процесс распознавания.

Вводится понятие «базовый диктор». Базовым называется тот диктор, на речевом материале которого были созданы эталоны слов в СРР. Обучающим материалом РБНС ВР являются два одинаковых по содержанию синхронизованных РС от разных дикторов. (Для того чтобы произвести синхронизацию необходимо пословное произнесение заданного текста обоими дикторами). На первый входной слой РБНС ВР поступает последовательность векторов параметров от базового диктора, а на второй входной слой от нового диктора (см. схему на рис. 5). В процессе настройки на нового диктора вычисляются значения коэффициентов

Рисунок 5

Структурная схема настройки на диктора. Коэффициенты соответствуют связям между радиальными элементами в РБНС ВР (см. рис. 1)

Таким образом, происходит связывание фонетически похожих элементов БАФП и АФП нового диктора. В процессе распознавания происходит замена акустико-фонетических характеристик голоса нового диктора на соответствующие характеристики базового диктора, после чего осуществляется процедура распознавания, которая использует для этого, как указывалось выше, эталоны базового диктора.

В третьем разделе главы приводится описание алгоритма определения состава оперативного словаря для систем распознавания слитной речи ограниченного набора фраз (например, фразового переводчика). Алгоритм основан на быстром поиске возможных продолжений произносимой фразы, из которых определяется состав оперативного словаря системы.

В четвертой главе представлены результаты практической реализации системы распознавания речи, а также проведённых экспериментов и тестовых мероприятий. Прежде всего, описаны использовавшиеся алгоритмы первичной обработки РС, представлены результаты экспериментального исследования радиально-базисной нейронной сети встречного распространения, а именно алгоритмов обучения и распознавания, исследованы вопросы сходимости процедуры распознавания РБНС ВР. Далее представлены результаты тестирования СРР в разных режимах распознавания: при помощи только РБНС, РБНС с механизмом уточнения; методом ДП, реализованным отдельно к последовательностям ВП и последовательностям элементов АФП. Экспериментально проверен метод настройки СРР на нового диктора при помощи РБНС ВР, показаны результаты распознавания для базового диктора, с настройкой и без настройки на нового диктора. В части касающейся верхнеуровнего анализа представлена реализация модуля, определяющего состав оперативного словаря СРР, реализованного на базе предложенного алгоритма ассоциативного поиска.

Кроме того, был проведён ряд экспериментов в рамках фонемного подхода к распознаванию аллофонов при помощи многослойного персептрона. Особенности реализации и результаты экспериментов также представлены в этой главе.

В заключении подведены итоги проделанной работы, сформулированы основные выводы и результаты.

ЗАКЛЮЧЕНИЕ

В диссертационной работе представлены результаты исследований и практических разработок в области распознавания речи. Изучение причин высокой надёжности распознавания речи, присущей человеку,. позволило сделать один из выводов, определяющих основную содержательную составляющую диссертационной работы. А именно: использование априорной информации о распознаваемом речевом сигнале, а также способность адаптировать параметры распознающей системы под текущую ситуацию (на всех уровнях распознавания) во многом определяет способность человека оставаться устойчивым к помехам различного рода. В

соответствие с этим, основное внимание в работе уделялось вопросам повышения надёжности СРР за счет снижения вариативности параметров речевого сигнала, а также за счет использования априорной информации на разных уровнях анализа. На акустико-фонетическом уровне благодаря осуществлению настройки СРР на диктора. На уровне распознавания — механизм уточнения, выделяющий различительные признаки гипотез распознавания. На языковом уровне — быстрый ассоциативный поиск в базе знаний, позволяющий в реальном времени сокращать состав оперативного словаря системы.

В качестве основного результата диссертационной работы следует рассматривать методику повышения надёжности систем распознавания речи, которая учитывает основные причины возникновения ошибок, и включает в себя комплекс научных и прикладных результатов, полученных в рамках данной диссертационной работы:

1. Разработан способ представления акустико-фонетической информации в многомерном пространстве признаков (МПП), позволяющий использовать информацию об акустических особенностях голоса диктора в качестве априорной информации о свойствах распознаваемого речевого сигнала.

2. На основе предложенного способа представления акустико-фонетической информации разработан алгоритм обнаружения и компенсации помех в речевом сигнале.

3. Разработан алгоритм распознавания изолированно произносимых слов при помощи радиально-базисной сети, позволяющий выделять наиболее информативные признаки эталонов для реализации последующего механизма уточнения.

4. 'Разработана и экспериментально исследована новая модификация радиально-базисной нейронной сети - радиальная сеть встречного распространения (РБНС ВР), которая позволяет ассоциативно связывать между собой разные пространства признаков.

5. На основе радиально-базисной нейронной встречного распространения и предложенного способа представления акустико-фонетической информации разработан алгоритм настройки СРР на нового диктора.

6. Модифицирован алгоритм ассоциативного доступа к информации по ее фрагменту для динамических ассоциативных запоминающих устройств (ДАЗУ).

Список работ по теме диссертации:

1. Кушнир Д.А. Система автоматического распознавания речи на базе нейросетевой технологии // Искусственный интеллект: научно-теоретический журнал (Донецк). - 2004. - №3. - С. 654-659.

2. Кушнир Д.А. Метод настройки на диктора для систем распознавания речи // Информатизация и информационная безопасность правоохранительных органов: Тезисы докладов международной конференции. - Москва, 2004. - С. 402-407.

3. Кушнир Д.А. Система распознавания речи на основе нейросетевой технологии // Высокопроизводительные вычислительные системы — 2004: Материалы научной молодежной школы. - Таганрог, 2004. — С. 302-307.

4. Кушнир Д.А., Харламов А.А Распознавание речи в базисе многомерного сигнального пространства //Информационные технологии. -2005,-№5-С. 30-36.

5. Кушнир Д.А. Радиально-базисная сеть встречного распространения //Искусственный интеллект: научно-теоретический журнал (Донецк). - 2005. -№4.-С. 364-370.

Оглавление автор диссертации — кандидата технических наук Кушнир, Дмитрий Алексеевич

Содержание.

Введение.

Глава 1. Аналитический обзор методов обработки речевого сигнала. Общая структура систем распознавания речи. Основные принципы построения СРР с применением нейросетевых технологий.

1.1. Основные особенности задачи распознавания речи.

1.2. Многоуровневое представление речевых сигналов

Общая структура систем распознавания речи.

1.3. Аналитический обзор существующих методов первичной обработки речевых сигналов.

1.4. Аналитическое обзор методов распознавания речи.

1.5. Анализ нейросетевых подходов к решению задачи распознавания речи.

1.6. Дикторонезависимость и помехоустойчивость систем распознавания речи.

1.7. Аналитический обзор верхних уровней анализа систем распознавания речи.

1.8. Выводы.

Глава 2. Теоретические принципы обработки информации в многомерном пространстве на основе нейросетевой технологии с применением радиально-базисных нейронов и иерархических структур (ИС) из динамических ассоциативных запоминающих устройств (ДАЗУ).

2.1. Радиально-базисные нейронные сети.

2.1.1. Теоретические принципы функционирования радиально-базисных нейронных сетей.

2.1.2. Модификация радиально-базисной сети. Радиально-базисная сеть встречного распространения.

2.1.2.1. Структурная схема и функциональные свойства РБНС BP.

2.1.2.2. Алгоритм обучения РБНС встречного распространения.

2.1.2.3. Алгоритм распознавания в радиально-базисных нейронных сетях встречного распространения.

2.1.2.4. Отличительные особенности радиально-базисной нейронной сети встречного распространения.

2.1.2.5. Механизм помехоустойчивости радиально-базисной нейронной сети встречного распространения.

2.2. Структура из динамических ассоциативных запоминающих устройств.

2.2.1. Нейроподобный элемент с временной суммацией сигналов.

2.2.2. Динамическое ассоциативное запоминающее устройство как модель многомерного пространства.

2.2.3. Механизм ассоциативного доступа к информации посредством ДАЗУ.

2.2.4. Модификация алгоритма ассоциативного доступа в ДАЗУ.

2.3. Выводы.

Глава 3. Применение радиально-базисных нейронных сетей и динамических ассоциативных запоминающих устройств в задаче распознавания речи.

3.1. Акустико-фонетическое пространство диктора.

3.1.1. Основные особенности речевых сигналов.

3.1.2. Построение акустико-фонетического пространства диктора.

3.1.3. Особенности представления речевого сигнала в базисе акустико-фонетического пространства.

3.1.4. Алгоритм снижения шумовой составляющей в векторе параметров на основе автоматического определения степени зашумлённости PC.

3.2.1. Применение радиально-базисных нейронных сетей встречного распространения для настройки системы распознавания речи на нового диктора.

3.2.2. Применение радиально базисной нейронной сети для распознавания изолированно произносимых слов.

3.3. Применение динамических ассоциативных запоминающих устройств для организации верхних уровней системы распознавания речи.

3.4. Выводы и основные результаты.

Глава 4. Практическая реализация и экспериментальное исследование разработанных методов и алгоритмов в задаче распознавания речи.

4.1. Первичная обработка речевых сигналов.

4.1.1. Детектор пауз.

4.1.2. Формирование вектора параметров речевого сигнала.

4.2. Акустико-фонетический уровень.

4.2.1. Алгоритм построения акустико-фонетического пространства.

4.2.2. Организация процесса распознавания.

4.3. Экспериментальные исследования.

4.3.1. Настройка параметров системы.

4.3.2. Проведение экспериментов.

4.3.2.1. Распознавание методом динамического программирования.

4.3.2.2. Распознавание при помощи алгоритма локального поиска.

4.3.2.3. Распознавание при помощи радиальнобазисной нейронной сети.

4.3.2.4. Распознавание аллофонов при помощи многослойного персептрона.

4.3.2.5. Радиально-базисная нейронная сеть встречного распространения.

4.3.2.6. Настройка на нового диктора.

4.3.2.7. Обнаружение помехи в речевом сигнале при помощи акустико-фонетического пространства диктора.

4.4. Использование информации верхних уровней для сокращения состава оперативного словаря эталонов.

4.5. Выводы.

Выводы.

Введение 2006 год, диссертация по информатике, вычислительной технике и управлению, Кушнир, Дмитрий Алексеевич

Значительные успехи в области развития вычислительной техники, информационных технологий, микроэлектроники создают предпосылки для создания нового поколения систем - интеллектуальных. Этому также способствуют достижения в области нейрофизиологии, которые стимулируют развитие бионичных (природосообразных) подходов к разработке интеллектуальных систем.

Способность накапливать знания об окружающем мире (предметной области), реорганизовывать их, принимать решения на их основе - всё это относят к основным и отличительным свойствам интеллектуальных систем (ИС). Поэтому ядром любой ИС является некоторая модель мира (предметной области), которая представляет собой базу знаний или, в общем случае, динамическую экспертную систему (ДЭС) [93, 54], позволяющую на основании информации разного рода (о внешней среде, внутреннем состоянии системы, прогнозных и реальных результатах действий системы, информации из базы знаний) вырабатывать требуемое управление.

Наиболее важным достижением нейрофизиологии, которое в настоящее время актуализируется в теории управления это познание о способности человека осуществлять прогнозирование развития некоторой ситуации и, сравнивая прогноз с реальной действительностью, адаптироваться, корректировать собственную модель мира и вырабатывать адекватные действия. [6, 93, 54, 94]. Поэтому структурная схема интеллектуальной системы должна включать в себя блок прогноза (акцептора действия), наделяющего ИС свойством: ". важнейший феномен, связанный с функционированием интеллектуальной системы, - когда в конце процесса получается результат, который уже в начале этого процесса имелся в представлении системы" [54]. Здесь необходимо отметить, что система распознавания речи (СРР), как интеллектуальная система должна иметь в своей структуре аналог акцептора действия, модуль формирования прогнозных шаблонов, с которыми осуществляется сравнение входной информации. В этом случае, СРР на основании информации о предметной области, личности диктора, семантике предыдущих сообщений и пр. формирует множество прогнозных шаблонов распознавания, с которыми сравнивается поступающая речевая информация. В случае успешного распознавания, при котором происходит соотнесение прогнозируемого и реального, блок ДЭС сохраняет свои текущие параметры, считая их удачными, в противном случае возникает необходимость более полного анализа входной информации, что может привести к модификации отдельных параметров ДЭС, дообучению системы распознавания.

Если рассматривать интеллектуальную систему в аспекте ее взаимодействия с человеком встаёт вопрос о способе такого взаимодействия или, другими словами, об интерфейсе системы. Преимущества речевого диалога перед традиционными средствами общения исследованы достаточно давно и многократно описаны в литературе [53, 5, 52]. Привлекательность речевого общения, успехи в области автоматического распознавания речи, а также сопутствующее им развитие и удешевление электронно-вычислительной микропроцессорной техники в последнее время привели к тому, что сфера внедрения систем распознавания речи (СРР) существенно расширяется, захватывая различные отрасли производственной, административной, и даже бытовой деятельности.

Речевой канал управления техническими средствами и вычислительными машинами позволяет освободить руки, разгрузить зрение, обеспечить независимость от механических вибраций и условий освещения. Для управления сложными техническими системами человеку приходится осваивать, образно выражаясь, "язык интерфейса", на что часто тратится достаточно много времени. Поэтому требование эргономичности к разработке человеко-машинных интерфейсов подразумевает обеспечение наиболее естественных форм взаимодействия, одной из которых, очевидно, является речевой диалог. Кроме того, речевой ввод информации может играть роль дополнительного канала управления, который оказывается во многих ситуациях незаменимым, особенно в случаях, связанных с ограниченной подвижностью человека-оператора.

21-ый век со всей очевидностью заявил о себе, как эпоха «информационного взрыва». Несомненно, на этом этапе технического прогресса, одними из приоритетных становятся технологии по обеспечению интеллектуальных форм взаимодействия человека с информационно вычислительными машинами. Постоянное усложнение технических систем приводит к тому, что, с одной стороны, каждое элементарное управляющее воздействие человека-оператора должно становиться всё более содержательным, а с другой стороны - обеспечение необходимого разнообразия и гибкости в управлении приведет в этом случае к существенному усложнению человеко-машинного интерфейса. Возникает противоречие, которое может быть успешно разрешено благодаря организации речевого управления, так как формулирование команд на естественном языке обладает необходимой гибкостью и содержательностью.

Есть и другие преимущества речевого общения, число которых будет расти по причине всё большей интеграции вычислительной техники в повседневную жизнь человека. Например, благодаря системам речевого общения, управление справочными службами, традиционно осуществляемое человеком-оператором, уже возможно перекладывать на вычислительную технику.

Несмотря на многолетнюю историю и значительные достижения в области распознавания речи, в полном объеме задача остаётся нерешенной. Особенность современного развития речевых технологий во многом проявляется процессом переосмысления многолетнего опыта и наработок на современной технологической базе.

Вопросы, касающиеся проблем дикторонезависимости и помехоустойчивости, остаются актуальными в настоящее время. Современные системы распознавания речи, которые позиционируются как дикторонезависимые, осуществляют распознавание изолированных слов с ограниченным словарём (достигает 500 слов). Точность распознавания в таких системах достигает 95% . Системы распознавания слитной речи, как правило, требуют кропотливой процедуры настройки на диктора, словарь может достигать больших размеров (200.000 слов) [68]. В таких системах, единицей распознавания на акустико-фонетическом уровне, обычно является фонемоподобные элементы языка (аллофоны, дифоны, фонемы и т. д.). Надежность распознавания отдельных фонемоподобных элементов низкая, однако, их относительная малочисленность (по сравнению со словами или слогами) делает их привлекательными для использования, особенно для организации процедуры настройки на нового диктора, изменяющей параметры эталонов системы.

Проблема помехоустойчивости систем распознавания речи должна решаться по двум основным направлениям. С одной стороны, необходим комплекс мер, направленных на устранение помех, шумов и искажений, воздействующих на речевой сигнал. С другой стороны, учитывая практическую ограниченность мер по очистке речевых сигналов, но, не отменяя их, возникает потребность в методах выделения полезного речевого сигнала из акустической среды. Как правило, такие методы используют априорную информацию о полезном сигнале, и они продемонстрировали высокую эффективность в борьбе с различными типами помех [98, 99, 100, 101, 102]. Конечно, требование наличия априорной информации о полезном сигнале существенно сужает область применения данных методов.

Известно, что человек в процессе распознавания речи активно использует априорную информацию о полезном речевом сигнале [6, 71]. Это касается всех уровней системы, начиная с акустического и заканчивая и верхними, интеллектуальными уровнями анализа. Использование априорной информации во многом определяет способность человека оставаться устойчивым к помехам различного рода.

В системах распознавания речи, процедура настройки на нового диктора должна моделировать процесс получения части априорной информации об акустико-фонетических свойствах речевого сигнала данного диктора. Верхние уровни анализа должны обеспечивать систему частью априорной информации языкового, семантического и прагматического свойства. Поэтому актуальной задачей при создании систем распознавания речи является разработка алгоритмов повышения помехоустойчивости СРР, использующих априорную информацию на разных уровнях анализа.

Основные трудности создания систем распознавания и синтеза речи, обозначенные еще на первых этапах исследований, остаются прежними. Предельные возможности вычислительных машин в задаче распознавания речи связаны, прежде всего, с тем, что человек, которого можно взять за эталон распознающей системы, распознаёт осмысленную речь, а компьютеру в полной мере это не дано. Современные системы автоматического распознавания речи принципиально не могут с требуемой надёжностью исправлять ошибки и неоднозначности распознавания, используя семантическую и синтаксическую информацию.

Современное состояние в области распознавания речи можно рассмотреть в свете нового стандарта, принятого сейчас практически всеми известными разработчиками подобных систем, стандарта Microsoft Speech API [69]. Согласно этому стандарту системы распознавания речи можно классифицировать по следующим критериям:

Интервал меяеду отдельными словами. Различаются системы, работающие с отдельно произносимыми словами, и системы, распознающие слитную речь. Распознавание слитной речи обладает принципиальными трудностями, возникающими в результате отсутствия информации о начале и конце слова, что усугубляется объективным отсутствием точных координат слова в связи с эффектами коартикуляции. Нередко конец одного слова является началом следующего, и провести границу между ними невозможно. В результате этого, разработчики вынуждены переходить в область менее надёжных фонетических единиц: фонемы, аллофоны, слоги, надёжность распознавания которых значительно меньше надёжности распознавания отдельных слов. В системах, работающих с изолированно произносимыми командами, диктор должен делать паузы между словами, которые составляют примерно четверть секунды.

Отдельно можно выделить системы, распознающие ключевые слова в потоке слитной речи.

Зависимость от диктора. Системы, обладающие относительной независимостью от диктора, позволяют пользователю работать с системой без предварительной настройки, однако улучшают надёжность после обучения. Независимость от диктора в таких системах достигается за счет хранения звуковых эталонов для всех наиболее типичных голосов носителей данного языка. Это требует в несколько раз большей производительности и объема памяти. Настройка на голос диктора дикторонезависимых систем занимает обычно от 30 минут до нескольких часов, что является основным неудобством для пользователя. Третьей разновидностью систем по данному признаку являются системы, автоматически настраивающиеся на голос диктора в процессе их использования. Системы последнего типа обладают двумя особенностями - им постоянно нужно знать результат своей работы на первом этапе эксплуатации, иначе обучение будет неверным. После настройки на одного диктора, такие системы перестают надежно работать с другими дикторами.

Степень детализации при задании эталонов. Различают алгоритмы, в которых в качестве эталонов используются целые слова, и алгоритмы, использующие эталоны элементов слов.

Сравнение целых слов. Сравнение целых слов дает большую точность, скорость, однако требуют значительно большего объема памяти для хранения эталонов. В этом случае требуется обучение каждому слову отдельно.

Сравнение элементов слов. Эти алгоритмы приходится применять в случае больших словарей, так как объем требуемой памяти пропорционален количеству этих эталонных элементов слов и не зависит от объема словаря.

Размер словаря. Размер актуального (оперативного) словаря системы распознавания почти не связан с реальным количеством слов, которые данная система может распознать. Он определяется количеством слов, требуемых для распознавания в данном конкретном состоянии системы. Системы, работающие с малыми словарями (порядка 50-100 слов) позволяют пользователю давать простые команды компьютеру. Для диктовки текстов необходимы большие словари (несколько десятков тысяч слов). Если системы диктовки учитывают контекст для определения активного подсловаря в конкретном состоянии, то фактически они работают со словарями среднего размера (около 1000 слов).

Несмотря на то, что возможна любая комбинация этих характеристик, в настоящее время наиболее применимыми являются системы голосового управления компьютером и системы дискретной диктовки текстов.

В приложении 7 приведены характеристики наиболее известных сейчас систем распознавания речи [89].

Как наиболее известных производителей систем распознавания речи следует выделить фирмы IBM и Dragon systems. Разработанные ими системы способны распознавать связную англоязычную речь, произносимую с паузами между словами, с подстройкой под произвольного диктора, и имеют словари объемом до 20 и 30 тысяч слов, соответственно [65, 64]. В качестве системы распознавания, обладающей максимальным словарем, следует отметить СРР на 200 тысяч слов французского языка [68], которая, однако, требует произнесения фраз не пословно, а послогово - с паузами между слогами [70].

Вместе с тем на фоне большого числа зарубежных коммерческих СРР отчетливо проявляется отсутствие на рынке русскоязычных систем распознавания речи. Несмотря на то, что именно отечественным разработкам принадлежит первенство в этой области [12], есть все основания утверждать, что их уровень существенно не изменился вплоть до настоящего времени. Это ясно выражается в неизвестности хотя бы одной реально работающей русскоязычной СРР со словарем более или менее приличного объема, не говоря уже о системах распознавания слитной речи.

Системы диктовки текстов являются пока привлекательными для покупателей в силу новизны предоставляющихся для пользователя возможностей. Однако реальные системы диктовки должны, очевидно, обладать следующими тремя свойствами: время набора текста с голоса, включая время на исправление ошибок, должно быть меньше времени набора того же текста с клавиатуры; пользователь не должен уставать от набора текста голосом больше чем от набора текста клавиатурой; стоимость системы диктовки должна быть ниже, чем преимущества от ввода информации голосом.

Тестирование существующих систем [13] показывает, что они не удовлетворяют ни одному из этих требований. Поэтому они пока являются не более чем дорогими мультимедиа игрушками.

Стоит упомянуть, что системы диктовки текстов на западе нашли свое практическое применение в медицине. Это связано в первую очередь с тем, что область научных разработок для использования в медицине на Западе хорошо финансируется. Кроме того, задача упрощается тем, что словари медицинских терминов в узкой предметной области имеют меньший объем, чем словари повседневного общения, а синтаксис и семантика диктуемых предложений чрезвычайно строгие, что повышает надёжность распознавания. А медицинские работники консервативны в части использования новой техники. Системы диктовки текстов применяются в медицине тогда, когда руки и глаза диктующего заняты, например, во время операции. В этом случае до использования речевых технологий либо вообще не практиковалось документирование происходящего, либо требовало привлечения дополнительных людских ресурсов [13].

Анализируя современное состояние речевых технологий можно сделать вывод о том, что проблема распознавания речи остаётся актуальной, при этом центр внимания переносится из области разработок алгоритмов направленных непосредственно на распознавание речевых сигналов в область обеспечения помехоустойчивости и дикторонезависимости систем распознавания речи.

Цель диссертационной работы: Разработка комплексного подхода, использующего нейросетевые технологии, направленного на повышение надёжности систем распознавания речи за счёт использования априорных сведений о распознаваемом речевом сигнале.

Достижение указанной цели требует решить следующие основные задачи исследования:

1. Изучение и анализ существующих подходов к решению задачи автоматического распознавания речи.

3. Разработка метода повышения помехоустойчивости СРР, использующего априорную информацию о некоторых свойствах полезного речевого сигнала.

4. Разработка нейросетевого алгоритма настройки системы распознавания речи на нового диктора.

5. Разработка структуры и определение параметров нейронной сети для задачи распознавания речевого сигнала.

6. Разработка методов использования языковых знаний для сокращения состава оперативного словаря СРР.

7. Практическая реализация и экспериментальное исследование разработанных методов и алгоритмов.

Диссертационная работа состоит из введения, четырёх глав, заключения и приложений.

Заключение диссертация на тему "Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи"

Выводы, полученные в результате тестовых и экспериментальных мероприятий:

1. Представление речевого сигнала в акустико-фонетическом пространстве позволяет:

- повысить надёжность распознавания приблизительно на 2% относительно метода распознавания, реализующего сравнение траекторий реализаций и эталона в МПП методом динамического программирования;

- повысить помехоустойчивость за счет использования априорной информации о характеристиках голоса диктора;

2. Алгоритм локального поиска демонстрирует тот же показатель точности распознавания, что и метод ДП в условиях офисных шумов и снижение точности распознавания в условиях повышенного уровня шума. При этом снижение точности для последовательностей ВП составило 3%, для последовательностей элементов АФП 0,7%;

3. Надёжность распознавания аллофонов при помощи нейронных сетей (типа многослойный персептрон) в целом соизмерима с показателями, демонстрируемыми вероятностно-статистическими методами распознавания (например, вероятностной моделью, реализуемой смесью Гауссовых распределений). Привлечение контекста позволяет существенно (практически в 2 раза) повышать надёжность распознавания аллофонов.

4. Проявляется существенное различие в распознаваемости отдельных аллофонов. Явным образом выделяется группа аллофонов с высоким показателем распознаваемости. Отсюда вытекает, что большое значение для распознавания фонемоподобных речевых единиц имеет качество разметки речевой базы. Кроме того, следует необходимость выделения группы хорошо распознаваемых аллофонов в качестве "островков надёжности". В соответствии с данным выводом получается интересная постановка задачи для перспективных исследований в области распознавания речи: разработка эффективных алгоритмов восстановления полной цепочки распознаваемых аллофонов по последовательностям хорошо распознаваемых аллофонов. Предлагаемый в настоящей работе алгоритм ассоциативного доступа к информации может служить основой для решения поставленной задачи.

5. Радиально-базисная нейронная сеть встречного распространения продемонстрировала свою работоспособность. Сходимость алгоритма минимизации функционала ошибки по сравнению с алгоритмом обучения (градиентными способами) многослойных персептронов гораздо выше, что объясняется начальным расположением искомой точки в окрестности глобального минимума.

6. Применение радиально-базисной сети встречного распространения для настройки на нового диктора органично вписывается в концепцию акустико-фонетического пространства диктора. Результаты тестирования качества настройки СРР на нового диктора показывают корректность метода в целом, однако снижение точности распознавания на 6% по сравнению с базовым диктором диктует необходимость дополнительных исследований и доработок. В качестве наиболее очевидных мер можно рассматривать построение АФП на динамических векторах параметров, таких как первая и вторая производная исходного вектора параметров, и последующее обучение РБНС BP для более точной настройки на диктора.

7. Алгоритм обнаружения помех в речевом сигнале показал свою работоспособность. Опыт применения описанного в четвёртой главе алгоритма сглаживания последовательности параметров PC использующего информацию о зашумлённости отдельных участков сигнала позволяет сделать вывод о высокой эффективности подхода. Кроме того, при включении в алгоритм построения АФП процедуру отсеивания кластеров с малым весом, соответствующим переходным участкам, можно существенно снизить вариативность параметров и, тем самым, повысить устойчивость результатов распознавания, что также было проверено экспериментально.

Заключение.

В диссертационной работе представлены результаты исследований и практических разработок в области распознавания речи. Изучение причин высокой надёжности распознавания речи, присущей человеку, позволило сделать один из ключевых выводов, который определяет стержневую составляющую диссертационной работы. А именно: использование априорной информации о распознаваемом речевом сигнале во многом определяет способность человека оставаться устойчивым к помехам различного рода. В соответствие с этим, основное внимание уделялось вопросам повышения надёжности СРР, за счет снижения вариативности параметров речевого сигнала, а также за счет использования априорной информации акустико-фонетического и языкового уровней анализа.

В качестве итога или основного результата диссертационной работы следует рассматривать методику построения СРР, базирующуюся на перечисленных далее разработках, направленных на повышение надёжности СРР (перечислены в порядке уровней представления и анализа речевой информации в системе распознавания):

4. Разработана и экспериментально исследована новая модификация радиально-базисной нейронной сети - радиальная сеть встречного распространения (РБНС BP), которая позволяет ассоциативно связывать между собой разные пространства признаков.

Практическая значимость полученных результатов

Алгоритм обнаружения и компенсации помех позволил существенно снизить вариативность параметров речевого сигнала в условиях присутствия помех, что снизило частоту появления ошибочного результата распознавания практически в два раза.

Реализация механизма уточнения в системе распознавания речи на базе радиально-базисной нейронной сети позволяет значительно (в три раза) повысить частоту правильного результата распознавания проблемных слов (акустически похожих). В целом, для представленного в приложении №2 словаря это даёт выигрыш в 2.8% по сравнению с распознаванием без механизма уточнения в условиях низкого уровня шумов (офисное помещение).

Благодаря разработанной радиально-базисной нейронной сети встречного распространения удалось сократить объём обучающего речевого материала для процедуры настройки системы распознавания речи на нового диктора.

Проведённые эксперименты по распознаванию аллофонов при помощи нейронных сетей позволили выделить группу надёжно распознаваемых аллофонов.

Разработанный алгоритм ассоциативного поиска информации по ее фрагменту может быть использован в качестве ядра ассоциативно-поисковой системы представления языковых знаний за счет очень низкой чувствительности к объему обрабатываемой информации.

Внедрение результатов диссертационной работы:

2. Разработанные методы и алгоритмы использованы в ОАО "Концерн "РТИ Системы" в рамках проекта по разработке системы автоматического распознавания команд для управления мобильным телефоном. Акт о внедрении прилагается.

Библиография Кушнир, Дмитрий Алексеевич, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)

1. Плотников В. Н., Суханов В. А., Жигулевцев Ю. Н. Речевой диалог в системах управления. - М.: Машиностроение, 1988. - 224 с.

2. Методы автоматического распознавания речи /Пер. с англ. под ред. У. Ли М.: Мир, 1983. -Т.1.-328 е.; - Т.2. - 392 с.

3. Осовский С. Нейронные сети для обработки информации /Пер. с польского И.Д. Рудинского М.: ФиС, 2002. - 343 с.

4. Лурия А. Р. Основы нейропсихологии М.: Академия, 2003. - 384 с.

5. Потапова Р. К. Речевое управление роботом М.: Радио и связь, 1989. -248 с.

6. Прибрам К. Языки мозга. М.: Прогресс, 1975. - 248 с.

7. Златоустова Л. В., Потапова Р. К., Трунин-Донской В. Н. Общая и прикладная фонетика. М.: МГУ, 1986. - 303 с.

8. Сорокин В. Н. Синтез речи. М.: Наука, 1992. - 392 с.

9. Чучупал В. Я., Чичагов А.С., Маковкин К.А. Цифровая фильтрация зашумлённых речевых сигналов. М.: ВЦ РАН, 1998. (http://www.ccas.ru/DCM/Chichag/index.htm)

10. Золотова Г. А. Синтаксический словарь: репертуар элементарных единиц русского синтаксиса. М.: УРСС, 2001. - 440 с.

11. Комарцова Л.Г., Максимов А.В. Нейрокомпьютеры М.: Изд. МГТУ им. Н. Э. Баумана, 2001. - 320 с.

12. Винцюк Т.К. Анализ распознавание и интерпретация речевых сигналов Киев: Наукова думка, 1987. - 262 с.

13. Мазуренко И. Л. Компьютерные системы распознавания речи //Интеллектуальные системы 1998. - Т. 3, № 1-2. - С. 117-134

14. Сентаготаи Я., Арбиб М. Концептуальные модели нервной системы -М.: Мир, 1976. 198 с.

15. Шеперд Г. Нейробиология М.: Мир, 1987. - Т.1. - 454 е.; Т.2. - 368 с.

16. Хомская Е. Д. Нейропсихология М.: МГУ, 1987. - 288 с.

17. Дмитриеико С. Н. Фонемы русского языка, их сочетаемость и функциональная нагрузка М.: Наука, 1985. - 232 с.

18. Методы классической и современной теории автоматического управления /Под общей ред. К.А. Пупкова М.: МГТУ им. Н. Э. Баумана, 2000. Т.1. - 747 е.; Т.2 - 735 е.; Т.З - 747 с.

19. Киров Е. Ф. Теоретические проблемы моделирования языка Казань: Казанский университет, 1989. - 265 с.

20. Красильников В. В. Статистика объектов нечисловой природы -Набережная Челны, 2001. 144 с.

21. Голд Б., Рэйдер Ч. Цифровая обработка сигналов М.: Советское радио, 1973.-368 с.

22. Рабинер JI. Р., Шафер Р.В. Цифровая обработка речевых сигналов /Пер. с англ.; Под ред. М.В. Назарова, Ю.Н. Прохорова М.: Радио и связь, 1981.-496 с.

23. Девятков В. В. Системы искусственного интеллекта М.: МГТУ им. Н.Э.Баумана, 2001.-352 с.

24. Гмурман В.Е. Теория вероятностей и математическая статистика М.: Высшая школа, 2001. - 479 с.

25. Галушкин А.И. Теория нейронных сетей М.: Радиотехника, 2000. -415 с.

26. Сигеру Омату, Марзуки Халид, Рубия Юсоф /Пер. с японского; под. ред. А.И. Галушкина М.: Радиотехника, 2000. - 272 с.

27. Кузнецов В., Отт А. Автоматический синтез речи: Алгоритмы преобразования буква-знак и управление длительностью речевых сегментов Таллин: Валгус, 1989. - 121 с.

28. Круглов В. В., Дли М. И., Голунов Р. Ю. Нечеткая логика и искусственные нейронные сети М.: Физматлит, 2001. -224 с.

29. Новиков JI. В. Основы Вейвлет-анализа сигналов СПб.: Модус, 1999. - 152 с.

30. Гаврилов А. В. Системы искусственного интеллекта Новосибирск: изд.НГТУ, 2001.-78 с.

31. Гаврилов А. В. Системы искусственного интеллекта: Учебное пособие; В 2 ч. Новосибирск: Изд-во НГТУ, 2002. - Ч. 1. - 78 с.

32. Куссуль Э. М. Ассоциативные нейроподобные структуры Киев: Наукова Думка, 1990. - 144 с.

33. Волошин В. Я. Распознавание образов: Учеб. пособие для студентов специальности Вычислит, машины, системы, комплексы и сети -Владивосток: ВГУЭС, 2000. 138 с.

34. Уоссермен Ф. Нейрокомпьютерная техника /Пер. с англ.; Под ред. А.И. Галушкина М.: Мир, 1992. - 236 с.

35. Потапова Р.К. Лингвистические ограничения и сегментация слитной речи: проблемы построения систем понимания речи-М.: Наука, 1980.-С. 18-30

36. Сорокин В. Н., Теория речеобразования М.: Радио и связь, 1985. -312 с.

37. Фант Г. Акустическая теория речеобразования: Пер. с англ. М.: Наука, 1964. - 284 с.

38. Физиология речи. Восприятие речи человеком / А. А. Чистович, А.В. Венцов, М.П. Гранстрем и др. Л.: Наука, 1976. - 388 с.

39. Классификация и кластер /Пер. с англ.; Под ред. Ю.И. Журавлева М.: Мир, 1980.-309 с.

40. Дж. Макхоул., С. Рунос, Г. Гиш Векторное квантование при кодировании речи//ТИИЭР -1985.-Т.73, №11 С. 19-61

41. Фу К.С. Структурные методы в распознавании образов: Пер. с англ. -М.: Мир, 1977.-319 с.

42. Левинсон С. Е. Структурные методы автоматического распознавания речи // ТИИЭР 1985. - Т. 73 - С. 100-129

43. Гладкий А. В. Формальные грамматики и языки М.: Наука, 1973. -368 с.

44. Нильсон Н. Принципы Искусственного интеллекта М.: Радио и связь, 1985.-376 с.

45. Представление знаний в человеко-машинных и робото-технических системах М.: ВЦ АН СССР ВИНИТИ, 1984. - Том А -Фундаментальные исследования в области представления знаний -262 с.

46. Уинстон П. Искусственный интеллект: Пер. с англ. М.: Мир, 1980. -519 с.

47. Фролов А.А., Муравьев И.П. Нейронные модели ассоциативной памяти -М.: Наука, 1987.- 161 с.

48. Харламов А.А. Нейроподобные элементы с временной суммацией входного сигнала и блоки ассоциативной памяти на основе этих элементов //Вопросы кибернетики. Устройства и системы М.: МИРЭА, 1983. - С. 57-68

49. Радченко А.Н. Моделирование основных механизмов мозга Л.: Наука, 1969.-212 с.

50. Искусственный интеллект: Справочник. М.: Радио и связь, 1990. -Т.1.-Системы общения и экспертные системы/Под ред. Э.В. Попова- 464 с.

51. Т.2. Модели и методы /Под ред. Д.А. Поспелова - 304 с.

52. Т.З. Программные и аппаратные средства /Под ред. В.Н. Захарова,1. В.Ф. Хорошевского 368 с.

53. Picone J. W. Signal Modeling Techniques in Speech Recognition //Proceedings of IEEE. 1993. Vol. 81, №9 - P. 1215-1247

54. Косарев Ю.А. Естественная форма диалога с ЭВМ. JL: Машиностроение, 1989.- 143 с.

55. Организация взаимодействия человека с техническими средствами АСУ /Ю.Н. Филиппович, Е.В. Родионов, Г.А. Черкасова; Под ред. В.Н. Четверикова. М.: Высшая школа, 1990. - Т.2. - Языковые средства диалога человека с ЭВМ. -159 с.

56. Пупков К.А., Коньков В.Г. Интеллектуальные системы М.: Изд. МГТУ им. Н.Э.Баумана, 2003. - 347 с.

57. Пупков К.А. Динамические экспертные системы в управлении //Вестник МГТУ. Приборостроение. 1996. - № 8-9 - С. 39-50.

58. Hermansky Н. Automatic speech recognition and human auditory perception //Eur. Conf. On speech Technology. Edinburgh, 1987. - Vol.1, -P. 79-82.

59. Cohen J.R. Application of an auditory model to speech recognition //J. Acoust. Soc. Am., 1989. № 6, - P. 2623-2629.

60. Furui S. Speaker-independent isolated word recognition based on emphasized spectral dynamics // Int. Conf. On Acoustic, Speech and Signal processing. Tokyo, 1986.-P. 1991-1994.

61. Abut H., Gray R.M., Rebolledo G. Vector quantization of speech-like waveforms //IEEE Trans. On Acoustic, Speech and Signal Processing. -1982. Vol. 30, - № 3. - P. 423-435.

62. Ney H. A data-driven organization of the dynamic programming beam-search for continuous speech recognition //Proc. IEEE Int'l. Conf. On Acoustic, Speech and Signal Processing. Dallas, 1987. - P. 833-836.

63. Ney H. Dynamic programming as a technique for pattern recognition //Proc. 6th Int'l Conf. On Pattern recognition. Munich. - 1982. - P. 11191125.

64. Pearl J. Knowledge vsrsus search: A quantitative analysis using A* //Artificial Intelligence. 1983. - Vol. 20, - P. 1-13.

65. Pearl J. Some recent results in heuristics search theory //IEEE Trans. On Pattern Analysis and Machine Intelligence. 1984. - Vol. PAMI-6, - P. 113.

66. Gorin A.L., Roe D.B. Parallel level building on a tree machine // Proc. IEEE Int'l. Conf. On Acoustic, Speech and Signal processing. New York, 1988.-P. 295-298.

67. Forney G.D. The Viterby algorithm //Proceedings of the IEEE. 1973. -Vol. 61,-P. 268-278.

68. Averbuch A. Experimrnts with the Tangora 20.000 word speech recognizer //Proc. Int'l Conf. on Acoustic, Speech and Signal Processing. Dallas, 1987.-P. 701-704.

69. Large vocabulary natural language continuous speech recognition / L.R. Bahl, S. V. Gennaro, P. S. Gopalakrishnan, et.al. //Proc. IEEE Int'l. Conf. on Acoustic, Speech and Signal Processing. Glasgow, 1989. - P. 465-467.

70. Cerf-Dannon H. Speech recognition in French with a very large dictionary // Proc. Eurospeech, European Conf. on Speech Communication and Technology.-Paris, 1989.-P. 150-153.

71. Microsoft Speech SDK 3.0 Documentation (www.microsoft.com).

72. Кельманов A.B. О некоторых проблемах построения систем распознавания инвариантных к диктору //Тезисы докл. Всесоюзной Школы-семинара. Таллинн, 1989. - С. 103-104.

73. Жирков А.О. Нейросетевой анализ и сопоставление частотно-временных векторов на основе краткосрочного спектрального представления и адаптивного преобразования Эрмита М: ИПМ им. Келдышева, 2001. (http://audio.rightmark.org/lukin/pub/rffineuro.pdf)

74. Егоров А.И., Дубровский В.В. Об анализе слуховых образов речевого сигнала. Иркутск, 1997.http://fccl.ksu.ru/issue001/confspe.97/egordub.pdf).

75. Дубровский В.В., Егоров А.И. О проблеме дикторонезависимости при распознавании речи на фонемном уровне //Диалог-2003: материалы международной конф. Москва, 2003. (http://www.dialog21 .ru/Archive/2003/Dubro vskij.pdf).

76. Бочаров И.В., Акатьев И.Ю. Распознавание речевых сигналов на основе корреляционного метода //Исследовано в России: электронный журнал.-2003.-С. 1547-1557

77. Федяев О.И., Гладунов С.А. Организация ввода речевой информации на основе нейросетевой аппроксимации фонем. (http://www.ulstu.ru/conf/is/doclads/is2003/rus230.doc)

78. Сорокин В.Н., Циплихин А.И. Сегментация и распознавание гласных // Информационные процессы. 2004. - №2 - С. 202-220.

79. Трофимов А.Т., Горячев А.Г. Адаптивный координатный базис для обработки речевых сигналов //Вестник Новгородского Государственного университета. 2001. - №19 (http://www.admin.novsu.ac.ru/uni/uni.nsf)

80. Kaneda Y., Ohga J. Adaptive microphone-array system for noise reduction. //IEEE trans. ASSP.- 1986. -Vol. 34, №6.-P. 1931-1400.

81. Винцюк Т.К. Распознавание слов речи с помощью динамического программирования //Кибернетика -1968.-№1-С.81-88.

82. Федяев О.И., Гладунов С.А. Фонетический анализ речи на основе нейросетевой аппроксимации сигнала //Нейрокомпьютеры и их применение: Труды VIII всероссийской конференции НКП-2002 -Москва, 2002.-С. 435-438.

83. Федяев О.И., Гладунов С.А. Распознавание речевых слов при помощи искусственных нейронных сетей //Информатика, кибернетика ивычислительная техника: Научн. тр. Донецкого гос. унив. -1999. № 1. -С. 145-150.

84. Иванов А.В., Петровский А.А. Методы построения устройств распознавания речи на базе гибрида нейронная сеть марковская модель //Нейрокомпьютеры и их применение: Труды VIII всероссийской конференции НКП-2002 Москва, 2002. - С. 423-434

85. Система распознавания изолированных рукописных символов на основе иерархической структуры из динамических ассоциативных запоминающих устройств /А.А. Харламов, P.M. Жаркой, В.И. Волков, Г.Н. Мацаков //Информационные технологии. 1998. - №5. - С. 27-31.

86. Baker J. К. The dragon system An overview //IEEE Trans. Acoust. Speech Signal Process. - 1975. - Vol. 23 -P. 24-29

87. Rabiner L., Juang B. An introduction to Hidden Markov Models //IEEE Acoustic, Speech, and Signal Processing Magazine. 1986. - №3, -P. 4-16.

88. Huang X., Acero A., Hon H. Spoken Language Processing: A guide to theory, algorithm, and System Development. Prentice Hall, 2001.- 965 p.

89. Электронные страницы фирмы 21st Sentury Eloquence (http://www.voicerecognition.com)

90. Dal Degan-N. Prati-C. Acoustic Noise Analysis and Speech Enhancement Techniques for Mobile Radio Applications. //Signal Processing. -1988. -Vol. 15,-P. 43-56.

91. Frost-O-L. An algorithm for linearly constrained adaptive array processing. // Proc. Of IEEE. 1972. - Vol. 60, - № 8. - P. 926-935.

92. Hermansky Hynek Should Recognizers Have Ears? //Proc. ESCA Tutorial and Research Workshop on Robust Speech Recognition for Unknown Communication Channels. Pont-a-Mousson, 1997. - P. 1-10

93. Hermansky Hynek Perceptual linear predictive (PLP) analysis of speech //Journal Acoust. Soc. Am., 1990. - Vol. 87, № 4. - P. 1738-1752

94. Анохин П.К. Проблема центра и периферии в современной физиологии нервной деятельности //Проблема центра и периферии в нервной деятельности. -Горький, 1935. С. 9-70

95. Дорохина Г.В. Модуль морфологического анализа слов русского языка //Искусственный интеллект: научно-теоретический журнал. -2004.-№3-С. 636-642

96. Совпель И. В. Система автоматического извлечения знаний из текста и её приложения //Искусственный интеллект: научно-теоретический журнал. 2004. - №3 - С. 668-677

97. Иконин С. Ю., Сарана Д.В. Система автоматического распознавания речи SPIRIT ASR Engine //Цифровая обработка сигналов: научно-технический журнал. 2003. - №3 - С. 11-21

98. Санников В.Г., Журавский Ю.И., Прохоров Ю.Н. Формирование банка априорных данных о речи диктора //АРСО-12: Материалы всесоюзного семинара. Киев, 1982. - С. 49-52

99. Прохоров Ю.Н. Рекуррентное оценивание параметров //Проблемы построения систем понимания речи М.: Наука, 1980. - С. 97-109.

100. Hermansky Н., Morgan N. //RASTA Processing of speech. IEEE Trans. On ASSP. 1994. - Vol. 2, - P. 578-589

101. Sheikhzadeh H., Sameti H., Deng L. Comparative performance of spectral subtraction and HMM Based speech enhancement strategies with application to hearing aid design //Proc. ICASSP-94. Adelaide, 1994. - P. 1-13 -1-17

102. Malah D., Cox R.V. A Generalized comb filtering technique for speech enhancement //Proc. IEEE Int. Conf ASSP. Paris, 1982. - Vol.l, - P. 160163

103. Key-phrase spotting using an integrated language model of n-grams andfinite-state grammar /Qiguang Lin, Dave Lubensky, Michael Picheny et. al.th

104. European Conference on Speech Communication and Technology. Rhodes, 1997.-P. 255-258.

105. Caroline Bousquet-Vernhettes Context Use to Improve the Speech Understanding Processing //Speech and Computer. Moscow, 2001. - P. 89-92.

106. Refining the N-best Hypotheses List in Large Vocabulary Speech Recognition by applying Lexical Rules / K. Georgila, A. Tsopanoglou, N. Fakotakis, et al. //Speech and Computer. Moscow, 2001. - P. 97-102.

107. Brigitte Bigi, Armelle Brun A Hierarchical Approach for Topic Identification//Speech and Computer. Moscow, 2001. - P. 85-88.

108. McWhirter J.S., Palmer K.J., Roberts J.B. A Digital Adaptive Noise-Canceller Based on a Stabilizer Version of the Widrow L.M.S. Algorithms //Proc. of IEEE Int. Cong. ASSP. New York, 1982. - P. 1384-1387

109. Гурьев Ю.Ю., Прохоров Ю.Н., Алгоритм рекуррентной фильтрации речевых сигналов //АРСО-12: Материалы всесоюзного семинара. -Киев, 1982.-С. 39-42

110. Hansen J.H.L., Pellom B.L. Text-directed speech enhancement employing phone class parsing and feature map constrained vector quantization //Speech Communication. 1997. Vol. 21, - P. 169-189

111. Hansen J.H.L. Analysis and compensation of speech under stress and noise for environmental robastness in speech recognition //Speech Communication. 1996. Vol. 20,-P. 151-173

112. Laughans Т., Strube H. W. Speech enhancement by nonlinear multiband envelop filtering //Proc. IEEE Trans ASSP. Paris, 1982. - P. 156-159

113. Трауготт H.H. О механизмах нарушения памяти. Л.:Наука. - 1973. -133 с.

114. Данилова Н.Н. Психофизиология. М.: Аспект Пресс, 2000. - 373 с.

115. Аграновский А. В., Леднов Д. А. Математическая модель распознавания речи с использованием протяженных контекстов // Информационные технологии. 1997. - № 7. - С. 33-36.

116. Метан Г.Н. Динамические и статические нейронные сети и адаптивные фильтры в задаче подавления шума // Нейроинформатика: научная сессия МИФИ. Москва, 2004. - С. 173-182

117. Burr D.J. A Neural Network Digit Recognizer //Proceedings of the IEEE Conference on Systems, Man, and Cybernetics. Atlanta, 1986. - P. 16211625.

118. Huang W., Lippmann R. Comparisons between neural net and conventional classifiers //Proceedings IEEE First International Conference on Neural Networks. San Diego, 1987. - P. 485-493

119. Bengio Y., Simard P., Frasconi P. Learning long-term dependencies with gradient descent is difficult //IEEE Trans, on Newral Networks. New York, 1994. - Vol.5, - № 2. - P. 157-166.

120. Lippman R.P., Gold В. Neural-net classifiers useful for speech recognition //IEEE Int. Conf. Neural Networks. San Diego, 1984. - P. 417-425.

121. R. Folk, A. Kartashov, A simple elastic model for self-organizing topological mappings //Computation in Neural Systems. 1994. №5 - P. 369-387

122. Huang W., Lippman R.P., GoldB. A neural net approach to speech recognition //Proc. IEEE Int'l Conf. on Acoustic, Speech and Signal Processing. New York, 1988. - P. 99-102.

123. Rosenblatt F. Principles of Neurodynamics. New York: Spartan. - 1962.

124. Харламов А.А. Статические и динамические нейронные сети на примере задачи распознавания образов //Приборостроение. Интеллектуальные системы автоматического управления. -1991. №1 -С. 58-66.

125. Phoneme recognition: neural networks vs. hidden Markow model / A. Waibel, T. Hanazava, G. Hinton, K. Shikano, K. Lang //ICASSP-88. New York, 1988.-P. 107-110

126. Robinson A.J., Fallside F. Static and dynamic error propagation networks with application to speesh coding //Neural Inf. Procsess. New York, 1988. -P. 632-641

127. Sholl D.A. Dendritic organization in the neurons of the visual and motor cortices //Journal of Anatomy. 1953. - № 87 - P. 387-406.

128. Представление и использование знаний /Пер с япон.; Под ред. Н.Г. Волкова М.: Мир, 1989. - 220 с.

129. УинстонП. Искусственный интеллект/Пер. с англ.; Под ред. Д.А. Поспелова-М.: Мир, 1980. 519 с.

130. Нильсон Н. Принципы искусственного интеллекта: Пер. с англ. М.: Радио и связь, 1985. - 376 с.

131. Рубашкин В.И. Представление и анализ смысла в интеллектуальных информационных системах М.: Наука, 1989. - 189с.

132. Cover Т. Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition //IEEE Trans. Electronic computers. 1965. - Vol. 14, - P. 326-334

133. СегаловичИ. Как работают поисковые системы /Мир Интернет: Электронный журнал. 2002. - №2 (http://old.company.yandex.ru/articles/articlelO.html)

134. Phoneme Recognition Using Time-Delay Neural Networks / A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, K. Lang //IEEE Trans, on Acoustics, Speech, and Signal Processing. 1989. -Vol. 37, № 3. - P. 1888-1898.

135. McDermott, E. and Katagiri, S. LVQ-Based Shift-Tolerant Phoneme Recognition //IEEE Trans, on Signal Processing. 1991. -Vol. 39, №6. - P. 1398-1411.

136. Ostendorf M. Moving beyond the beads-on-a-string model of speech //Proc. of IEEE ASRU Workshop. Keystone, 1999. - P. 79-84.

137. Peeling S M and Moore R K. Isolated digit recognition experiments using the multi-layer perceptron //Speech Communication. 1988. - № 7, -P. 403409.

138. Kammerer B, Kupper W. Experiments for isolated-word recognition using single and two-layer perceptrons //Neural Networks. 1990. - №3. - P. 693706.

139. Huang, X.D. Speaker Normalization for Speech Recognition //in Proc. of ICASSP-92. San Francisco 1992. - Vol. 1, - P. 465-468.

140. Ariki Y., Tagashira S., Nishijima M. Speaker recognition and speaker normalization by projection to speaker subspace //ICASSP-96. Atlanta, 1996.-P. 1859-1862.

141. Ariki Y., Doi K., Speaker recognition based on subspace methods //ICSLP-94.-Pittsburgh, 1994.-P. 1859-1862.

142. Гордеев A.B., Молчанов А.Ю. Системное программное обеспечение -СПб.: Питер, 2001.- 736 с.

143. Рабинер JI.Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи //Обзор ТИИЭР. -1989. Т.77, №2 - С. 86-120.

144. Domouchel P. Three probabilistic language models for a large-vocabulary speech recognizer //Proc. IEEE Int'l. Conf. on Acoustic, Speech and Signal Processing. New York, 1988. - P. 513-516.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00