автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.13, диссертация на тему:Оценка стартовых параметров СММ в задачах распознавания команд при кепстральной предобработке речевого сигнала
Автореферат диссертации по теме "Оценка стартовых параметров СММ в задачах распознавания команд при кепстральной предобработке речевого сигнала"
На [фанах рукописи УДК 534.78
РГв од
2 2 дек ?т
СЕРОВ Александр Анатольевич
ОЦЕНКА СТАРТОВЫХ ПАРАМЕТРОВ СММ В ЗАДАЧАХ РАСПОЗНАВАНИЯ КОМАНД ПРИ КЕПСТРАЛЬНОЙ ПРЕДОБРАБОТКЕ РЕЧЕВОГО СИГНАЛА
05.13.13 - Вычислительные машины, комплексы системы и сети
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Л. о/
Москва - 2000
Работа выполнена на кафедре «Электронная вычислительная аппаратура» Московского государственного института электроники и математики.
Научный консулыант: доктор технических наук, профессор Петров Г.М.
Официальные оппоненты: доктор технических наук, профессор Зарудный Дмитрий Иванович кандидат технических наук Аврин Сергей Борисович
Ведущее предприятие: НИИ АВТОМАТИЧЕСКОЙ АППАРАТУРЫ.
Защита состоится "26" декабря 2000г. в 15:00 на заседании диссертационного совета К063.68.01 в Московском государственном институте электроники и математики (техническом университете) по адресу: 109028, Москва, Б. Трехсвятительский пер. 3/12.
С диссертацией можно ознакомится в библиотеке МГИЭМ.
Автореферат диссертации разослан "26" ноября 2000г. Ученый секретарь
диссертационного совета К063.68.01
кандидат технических наук, доцент
Старых В.А.
I
ttf-0M.fr И6. о
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Объектом исследования является программный комплекс исследования алгоритмов обработки и распознавания речи.
Предметом исследования являются стохастические свойства кепст-ральных коэффициентов, представляющих фонемы русского языка, методы таксономии речи, методы применения СММ в задачах распознавания речи, методы оценки стартовых параметров СММ для изолированных слов.
Актуальность работы. В последние несколько лет сильно возрос интерес к приложениям распознавания речи. Во многом это связано со значительным повышением производительности вычислительной техники, предлагаемой сейчас по относительно низким ценам.
Производительность современных компьютеров, даже персонального класса, позволяет в режиме реального времени проводить сложную математическую обработку сигналов с достаточно широким спектром, хранить в оперативной памяти и обрабатывать большие объемы информации. Именно недостаток производительности сдерживал развитие приложений распознавания речи в предыдущие годы, ведь большинство алгоритмов и методов, применяемых в этой области, требуют больших вычислительных ресурсов для работы в реальном времени.
Самыми перспективными системами распознавания на сегодняшний день являются системы, использующие теорию Скрытого Марковского Моделирования (СММ) или Нейронные Сети (НС). Обе эти технологии реализуют т.н. вероятностное распознавание в отличие от технологий, реализующих точное распознавание, которые обычно используют методы динамического программирования.
Перспективность вероятностных методов распознавания связана с тем, что только они способны решать задачи распознавания слитной речи и только на их основе можно строить дикторонезависимые системы распознавания, к которым сейчас проявляется наивысший интерес.
Несмотря на то, что в целом теория СММ хорошо разработана, в ней еще существуют недостаточно формализованные области. Одной из них является задача таксономии речи на минимальные речевые единицы, которыми являются фонемы. Решение этой задачи необходимо при создании самообучающихся систем распознавания слитной речи.
Основные трудности возникали в связи с отсутствием удовлетворительного решения задачи оценки стартовых параметров СММ. Обычно она решается эмпирически или ее решение жестко привязывается к реализации. На настоящий момент существует несколько широко применяемых методов оценки стартовых параметров СММ для задач распознавания команд, но все они не учитывают фонематический состав речевых единиц и соответственно пригодны только для задач распознавания команд.
Таким образом, решение задачи оценки стартовых параметров СММ, которое основано на фонематической таксономии речи, представляется актуальным и необходимым для развития теории и практики автоматического распознавания речи.
Цель диссертационной работы. Разработка теоретических предпосылок и реализация метода оценки стартовых параметров СММ, основанного на фонематической таксономии речи, прецставлеьной в признаковом пространстве кепстральных коэффициентов, и пригодного для систем распознавания команд и слитной речи.
В соответствии с поставленной целью:
- проведен анализ и исследование применяемых методов и алгоритмов в области распознавания речи в России и за рубежом;
- разработана концепция построения системы распознавания речи на основе фонематической таксономии и СММ, выявлены ее компоненты;
- проведен статистический анализ наборов кепстральных коэффициентов представляющих фонемы русского языка;
- обосновано применение дистанции Махаланобиса в качестве метрики для наборов кепстральных коэффициентов;
)
- разработан и реализован алгоритм фонематической таксономии речи на основе кластерного анализа с применением дистанции Махаланобиса.
- Разработан и реализован алгоритм оценки стартовых параметров СММ, основанный на фонематической таксономии речи;
- осуществлена программная реализация предлагаемых алгоритмов и технологии построения систем распознавания речи;
- проведено тестирование системы распознавания и сравнение предлагаемых алгоритмов с применяемыми в настоящее время.
Методы исследования. При разработке теоретического аппарата в работе использованы: теория распознавания образов, теории речеобразования и физиологии восприятия речи, теория скрытого Марковского моделирования, теория математической статистики, теория возмущений, методы математической статистики и методы динамического программирования. Научная новизна. В диссертации поставлена и решена актуальная задача развития и практического применения методов и алгоритмов для создания систем автоматического распознавания речи.
В рамках решения этой задачи получены следующие результаты:
1. Произведен статистический анализ наборов кепстральных параметров для всех фонем русского языка. Результаты этого анализа позволят упростить процесс создания систем распознавания русской речи.
2. Разработан и практически реализован алгоритм фонематической таксономии изолированных (в смысле значительных пауз) речевых единиц.
3. Разработан метод и практически применен алгоритм оценки стартовых параметров СММ изолированных слов, основанный на фонематической таксономии.
4. Исследована возможность применения кластерного анализа в задачах таксономии изолированных слов на фонемы с применением дистанции Махаланобиса, показана состоятельность этого подхода, что в дальнейшем позволит создавать на его основе системы распознавания слитной речи.
Достоверность предложенных теоретических положений доказана построением и реализацией алгоритмов на их основе; подтверждена экспериментальными результатами, включая сопоставительные сравнения с известными методами оценки стартовых параметров СММ; применением предложенных теоретических положений к системам распознавания речи. Практическая ценность результатов работы состоит в том, что предложенные теоретические подходы реализованы в виде алгоритмов, на основе которых создана программная система распознавания речи, способная выполнять свои функции без итеративного процесса обучения СММ основываясь, только на оценках стартовых параметров полученных из анализа нескольких экземпляров слов. Кроме того, в процессе тестирования фонематической таксономии была создана база данных параметров Гаусовских смесей для фонем русского языка, которую можно применять при построении систем распознавания слитной речи.
Апробация работы. Основные положения работы докладывались на Научно-технической конференции студентов, аспирантов и молодых специалистов МГИЭМ 1997г. и в 2000г.
Публикации. По теме диссертации опубликованы в печати 4 работы. Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и приложений. Список литературы включает 86 наименований.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность, сформулированы цели и задачи исследований, раскрываются основные положения работы и практическая значимость полученных результатов.
В первой главе проводится анализ структуры систем распознавания речи. Выявлены основные требования к системам предобработки и к свойствам признакового пространства, в которое отображается речевая информация перед непосредственным процессом распознавания. Показаны и
проанализированы основные преимущества различных методов предобработки.
Показана на основе представления психолигвистов о процессе распознавания речи мозгом человека необходимость создания и хранения уникальной для каждого языка фонематической базы данных. Эта база данных должна содержать информацию о всех фонемах языка, представленную в некотором признаковом пространстве.
На основе курса фонетики, читаемого в МГУ, составлен перечень фонем русского языка. На основе экспериментальных данных и в соответствии с перечнем фонем создана фонематическая база данных русского языка, представленная в признаковом пространстве кепстральных коэффициентов. Информация фонематической базы данных приводится в приложении диссертации.
Основные выявленные требования к системе предобработки и к свойствам признакового пространства заключаются в следующем:
1) информация о речевом сигнале, отображенная в признаковом пространстве, должна отражать спектральный состав и распределение энергии по спектру в речевом сигнале;
2) алгоритм предобработки, по возможности, должен нормировать спектр, что автоматически должно нормировать информативность признаков в признаковом пространстве;
3) признаковое пространство, используемое в дикторонезависимых системах распознавания речи, должно содержать минимум персонализированной информации о дикторе, для этого система предобработки должна обладать свойством фильтрации информации такого рода.
В главе показано, что кепстральное признаковое пространство наилучшим образом соответствует выявленным требованиям. Суть кепстраль-ного преобразования заключается в следующем. На первом этапе речевой сигнал переводится в частотную область. В частотной области сигнал фильтруется гребенкой треугольных фильтров, равномерно расположенных на логарифмической шкале вида:
Ме1(0 = 2595 * ^,„(1 + Г / 700),
(I)
что позволяет нормировать спектр и при фильтрации ограничить спектр сверху и снизу. При этом, ограничение спектра снизу представляет наибольший интерес, поскольку позволяет удалить из сигнала основной тон, который на фонематическом уровне несет только персонализированную информацию и в системах распознавания речи может использоваться на уровне семантического анализа, что не входит в круг вопросов, рассматриваемых при создании систем ввода речевых команд.
На выходе каждого фильтра подсчитывается логарифм энергии спектра. Далее, дискретным косинусным преобразованием находятся кепст-ральные коэффициенты:
где М - число фильтров, а ск -логарифм энергии спектра к-ого фильтра.
Показана необходимость сопровождения наборов кепстральных коэффициентов дополнительной информацией, значительно облегчающей предварительное таксономическое деление на изолированные (з смысле значительных пауз межу ними) речевые единицы.
В качестве дополнительной информации предлагается использовать параметр ZCR, характеризующий количество пересечений речевым сигналом нулевого уровня и энергию сигнала на анализируемом фрейме.
Во второй главе диссертации рассматриваются проблемы применения теории Скрытого Марковского Моделирования в условиях непрерывного признакового пространства к приложениям распознавания речи. Определяются подходы к решению этих проблем
Рассмотрены алгоритмы вычисления вероятности генерации моделью заданной последовательности. Эти алгоритмы используются на стадии распознавания, самой критичной ко временным затратам, поэтому особое внимание уделено эффективности. Прямое решение задачи вычисления ве-
X, = С, -ее«
к*0
л • к(21 + 1) 2М
.(2)
<
роятности стоит 2TN' операций (где Т-длина последовательности и N-число состояний модели), что для нормального случая составляет 6х 10" мультипликативных операций. В качестве альтернативы прямому методу вычисления рассматривается серия алгоритмов под общим Forward-Backward, применение которых позволило сократить объемы вычислений до 3TN, при этом показан вариант увеличения производительности алгоритма путем замены части мультипликативных операций на аддитивные.
Здесь же рассматриваются алгоритмы и методы обучения СММ. Анализ методов обучения СММ выявил необходимость создания алгоритма оценки стартовых параметров СММ на основе фонематического состава речевых единиц. Показано, что такой подход облегчает создание систем распознавания слитной речи и позволяет полностью автоматизировать процесс обучения системы распознавания.
В третьей главе предлагается алгоритм фонематической таксономии речевых единиц.
Для обоснования алгоритма в начале главы приводятся результаты статистических исследований наборов кепстральных коэффициентов всех фонем русского языка.
Для проведения статистических исследований был составлен и надиктован словарь', содержащий все фонемы русского языка. Далее все надиктованные слова «вручную» с помощью специально созданного исследовательского программного комплекса SDIAPP были сегментированы на фонемы в соответствии с заранее выбранным перечнем фонем и сохранены в файлах в виде наборов кепстральных коэффициентов.
Таким образом, было получено 27 файлов, содержащих наборы кепстральных коэффициентов для основных групп фонем русского языка, и отдельный файл, содержащий совокупную выборку по всем фонемам. Этот файл содержал 3420 наблюдений.
Был проведен анализ отдельно для каждой группы фонем. Результаты этого анализы приводятся в приложении к диссертации.
При анализе совокупной выборки была выявлена стохастическая зависимость между переменными в кепстральном признаковом пространстве.
Этот факт позволил применить для вычисления дистанции между наборами кепстральных коэффициентов дистанцию Махаланобиса:
где I"'-обращенная ковариационная матрица генеральной совокупности, из которой извлекаются наблюдения, а л -некоторая симметрическая неотрицательно - определенная матрица «весовых» коэффициентов , которая в нашем случае может быть взята как единичная, поскольку мы можем пренебречь незначительной разницей в диапазонах изменения переменных.
Статистический анализ показал, что каждая фонема имеет свой характер зависимости, а следовательно матрицу ковариации необходимо рассчитывать отдельно для каждой фонемы.
Характер речевой информации, представленной в кепстральном признаковом пространстве, позволяет предполагать, что последовательность наборов кепстральных коэффициентов состоит из последовательности однородных (в смысле минимальной дистанции) отрезков наборов кепстральных коэффициентов. При этом каждый из отрезков представляет отдельную фонему. Это предположение позволило предложить алгоритм фонематической таксономии, основанный на кластерном анализе с применением дистанции Махаланобиса.
Для выявления однородных отрезков в последовательностях кепстральных коэффициентов предлагается использовать свойства агломера-тивных, иерархических процедур кластерного анализа, определяющих дистанцию между кластерами по принципу «ближайшего соседа».
Таким образом, предлагается следующий алгоритм. 1. Представим рассматриваемую последовательность наблюдений как упорядоченную последовательность кластеров при этом каждый кластер суть множество соседних наблюдений и ассоциированную с этим
(3)
кластером дистанцию ¿¡б^Б). Следует отметить, что па первой итерации каждое множество будет содержать по одному наблюдению и для всех кластеров
2. Отыскивается пара «ближайших соседей», как:
Ь = а^ тт(р1111П ,5и|) = т1п р0(О, ,0|)); к = I... и - I, (4)
О.Йц
где р0(О,,О1) - дистанция Махаланобиса между наблюдениями О] и О^ Ро(0,,0)) = ,/(0,-0,)т1-,(01-0)), (5)
а I - матрица ковариации всех наблюдений обеих кластеров к и к+1, между которыми вычисляют дистанцию. Т.е.: £ = соу(5) , (6)
3. Объединяем БЬ и в один кластер Б и замещаем им оба объединенных. При этом ассоциируем с новым кластером 5, дистанцию Лб^Б), вычисляемую по формуле:
сИэГ(З) = тах^^, ))+ Рт|„ ^ Л... К (7)
4. Уменьшаем п на единицу.
5. Повторяем процедуру, начиная со 2-го шага, пока птН.
В процессе работы этого итеративного алгоритма строится бинарное дерево связей, в котором листьями являются наблюдения, ветвями - кластеры, и с каждым узлом ассоциирована дистанция сИз1().
Поскольку алгоритм объединяет кластеры, дистанция между которыми минимальна, то в результате получается, что сначала объединяются наблюдения, которые характеризуют речевой сигнал с похожими характеристиками. Т.е. сначала будут объединены наблюдения каждого звука, и лишь затем звуки будут объединены в изолированное слово. Следует отметить, что если мы будем затем обходить это дерево слева направо, то мы посетим листья (наблюдения) в той последовательности, в которой они присутствовали в изолированном слове, и каждая подветвь будет содержать только последовательно расположенные наблюдения.
Также в главе предлагаются критерии выбора подвечвей в бинарном дереве связей, которые представляют фонемы.
Поскольку дерево расстояний строитсм по принципу «ближайшего соседа», то критерии выбора ветвей, соответствующих фонемам, мы можем строить только на анализе минимального расстояния между парами наблюдений, принадлежащих соседним кластерам, и на анализе количества наблюдений, входящих в кластеры ^объеме кластера). В данном случае расстояние между соседними кластерами показывает схожесть звуков, представленных этими кластерами, и можно эмпирически на основе анализа ряда экспериментов определить порог схожести.
Объем кластера представляет собой количество последовательных наблюдений, представляющих звук. Зная длительность фрейма и частоту оцифровки исходного сигнала, можно определить длительность звука представленного кластером, или ветвь.о дерева расстояний. Также из анализа речевого тракта человека известна минимальная и максимальная длительность звуков, которые он может произносить. Соответственно, зная длительность выделенного звука, можно сравнить ее с ограничениями речевого тракта человека и при удовлетворении условий рассматривать данный кластер как звук. Или, либо разделить его на несколько кластеров, либо объединить его с «ближайшим соседом».
В результате экспериментов предлагается выбирать минимальную и максимальную длину фонемы соответственно 20 и 90 мс.
В четвертой главе предлагается алгоритм оценки стартовых параметров СММ, основанный на анализе фонематической структуры изолированных слов.
Предлагаемый алгоритм оценивает параметры непрерывной СММ с поступательно-ограниченными переходами. Именно такой тип модели наиболее популярен и используется в большинстве систем распознавания речи. Непрерывность модели означает, что она работает с непрерывным признаковым пространством, а не с дискретным. Это хоть и удорожает процесс вычисления, но позволяет избежать процесса квантования исход-
пых данных и позволяет работать непосредственно с данными, полученными от системы предобработки, т.е. в нашем случае с кепстральными коэффициентами, которые не дискретны по природе.
Поступательно-ограниченные переходы можно проиллюстрировать
ности фонем в слове. Вместе с тем, возможность перехода через одно состояние позволяет учитывать возможные пропуски фонем, возникающие в процессе произношения слов.
Все применяемые алгоритмы обучения СММ, такие как Baum-Welch и ЕМ (expectation-modification), основаны на итеративном «улучшении» параметров модели, так чтобы модель после каждой обучающей последовательности становилась качественнее или не изменялась вовсе. Т.е. эги алгоритмы неточные и их можно назвать переборными, когда они получают новую обучающую последовательность, они заново пересчитывают параметры модели, и если с новыми параметрами модель работает качественнее, то изменения принимаются. В противном случае, изменения отбрасываются.
Обычно в качестве модели со стартовыми параметрами берут некий шаблон, причем для моделей различных слов используют один и тот же. Этот шаблон вместе с лервой обучающей последовательностью передают алгоритму обучения, и тот фактически заново создает модель уже того слова, которое было передано ему в виде обучающей последовательности. Такой метод, безусловно, универсален, но имеет очевидные недостатки. Фактически, модель нового слова он строит, имея информацию только об одном экземпляре слова (одной обучающей последовательности), и не исключено, что этот экземпляр не будет обладать характерными особенно-
Рис. 1
рис. 1. СММ такого типа легко ассоциировать со словом, как с последовательностью фонем, в данном случае фонемы ставятся в соответствие состояниям СММ, и однонаправленность связей обеспечивает соблюдение упорядочен-
стямн большинства таких слов. В результате будет выбрано неверное количество состояний, или неверно построены взаимосвязи между ними. Все это может повлиять на успех дальнейшего обучения этой модели.
Конечно, вмешательство человека в процесс создания модели позволит избежать ошибок при обучении, но это очень трудоемкий процесс, и необходима его автоматизация. Для того чтобы избежать недостатков приведенного выше метода, предлагается в качестве начального состояния модели выбирать не универсальный шаблон, а создавать модель (оценивать ее параметры), исходя из информации, содержащейся в нескольких обучающих последовательностях (экземплярах одного и того же слова). Это разовая операция и требует наличия сразу нескольких обучающих последовательностей только для создания «первого приближения». Затем созданная таким образом модель обучается обычными процедурами и требует для каждой итерации обучения только одну новую обучающую последовательность.
Так предлагается алгоритм, основанный на алгоритме фонематической таксономии, предложенном в третьей главе данной работы.
Алгоритм заключается в следующем.
На вход алгоритма подают Р обучающих последовательностей, причем Р>2. Последовательности наблюдений будем обозначать \¥°;п=1..Р. После таксономии слов на фонемы (кластеры) каждая обучающая последовательность будет представлена последовательностью из Ь";п=1..Р кластеров К°;1=1.. V, п=1..Р. При этом каждый кластер К" будет содержать в себе М" наблюдений.
На рис. 2 приведен пример двух обучающих последовательностей слова «печать» и результаты их таксономии.
Рис. 2
В процессе деления на фонемы (далее будем называть кластерами) разные последовательности могут быть разделены на разное количество кластеров. Например, одно из слов при произнесении его в микрофон может иметь неотчетливое окончание, которое будет пропущено системой таксономии на изолированные слова, или один из звуков внутри слова будет произнесен неотчетливо, и для него не будет выделен самостоятельный кластер.
Так на рис. 2 в последовательности V/2 отсутствуют кластеры, соответствующие кластерам К| и К^ последовательности \У, но имеется кластер К;, отсутствующий в последовательности и'1.
Введем понятие «пустого кластера» такого, что М"=(). Будем использовать этот кластер для того, чтобы «выравнивать» последовательности путем его вставки последующим правилам:
1. Между любой парой кластеров исходной последовательности можно вставить пустой кластер, но только один.
2. В начало и конец последовательности можно добавить по одному пустому кластеру.
Условимся, что «выровненными» последовательностями будем называть такие, что:
и = 1Л
. . 1 <8) < р(К,, К,") > - минимальна;
где:
м;
11РО(0,,0,)
Р(К;,К,2)= ' ' — (9)
М; +М,
Равенство длин выровненных последовательностей достигается за счет вставки пустого кластера.
Задачу оптимального выравнивания последовательностей можно решить одним из методов динамического программирования. В качестве прототипа, для решения этой задачи, был выбран алгоритм используемый при анализе последовательностей ДНК.
В результате предлагается выравнивать последовательности следующим образом.
Пусть необходимо выровнять две последовательности У/' и \У2, приведенные на рис. 2.
Построим матрицу дистанций Р е К1''"'" такую, что:
О = («!„) =
р(К' к2)-! ; -а'ат)*(.)~^ат) АН0 . ^ (Ь2 - (Кат)* 0-(Кат) '' ' Ьг-сКат ' Ь'-сКат
. . ^ (Ь'-(Кат)*0-(Нат) ^^ . ^ (Ь2 - ¿¡ат) * (1 - сПат) 1/-(Нат ' ^ — ¿¡ат
где:
diam - допустимая величина расхождения последовательностей. Предлагается выбирать се равной трем.
На рис. 3 приведена таблица дистанций для последовательностей, приведенных на рис. 2
В процессе работы алгоритма динамического программирования нам понадобится матрица соответствия F е RJ",L'*''', в которой мы будем запоминать результаты выравнивания.
Теперь рассмотрим предлагаемый алгоритм динамического программирования.
Допустим, мы находимся на k-ом шаге алгоритма в ячейке (состоянии) d матрицы D. Целевой задачей будет выбор следующего состояния из некоторого множества Н допустимых состояний, исходя из минимизации дистанции между кластерами в этом состоянии. При этом состав множества допустимых состояний зависит от того, имело ли место объединение кластеров на предыдущем шаге. Чтобы учесть этот факт, введем флаг «бы-ло_объединение», который выставляется в случае объединения кластеров и снимается в конце следующего шага. Таким образом:
idHi.n'ci(,.i>)'tin.i*j,ipc!(..ix,»2)'ci(,.'K,.i) };"было_объединение"= FALSE
к; к! к; Ki
к; 3.6 6.2 8.6 +inf
к; 3.2 4.3 4.8 +inf
к; 5.5 3.9 3.5 4.1
к; +inf 7.2 4.7 2.9
к; +inf 9.2 5.6 4.1
Рис. 3
I {d<i.ixj.n-c'<ii-iXj..>pd<i.2Kj-.i)};"было_объединение" = TRUE Геометрически это выглядит так:
(И)
4(J.i>
"быпо_объедииение,,=РА1$Е "было_об"ьединение"=ТЯиЕ
Рис. 5
Выбираем минимальный элемент множества, и в зависимости от выбора проделываем следующие действия: d,(J,„: Необходимо объединить кластеры К; и К.'.,.
^i.i-i =
' "было_объедииеиис" = TRUE k = k
d(1>l)]: Необходимо объединить кластеры К,' и К,'.,.
• "бьшо_ объединение" = TRUE к = к
Сопоставлены кластеры К,1,, и К*,, F|.K = К-о
= К>
, Fw = К|.,
F4.k = К0
"было_ объединение" = FALSE k = k + 1
Сопоставлены кластеры К)., и Пропущенный К^, нужно сопоставить с пустым KJJ.
F,.k = Ко Ъм = F,k = К
F = К0
14 .к
, F|.k»i = К = к;.2 FJ.wi = К;.,
F,.k-. = ^о
"было_объединение" = FALSE к = к + 2
^(¡.г*,.!)1 Сопоставлены кластеры К),, и Kj+,. Пропущенный К,',, нужно сопоставить с пустым K.J.
к - к!!
'и = к;., ^ --- к;;
. = к
f.u, = к;„
= к;.2 Fj.k.l =
"бьшо_объеяннение"= FALSE k = к + 2
Так производятся основные шаги в алгоритме динамического программирования. Ограничение имеет только первый шаг, когда мы находимся в состоянии d00. Этот несуществующий кластер нельзя ни с чем объединять, и чтобы исключить такую возможность, перед первым шагом нужно выставить флаг «было_объединение».
Алгоритм заканчивает работу, когда i = L' или j = L". По окончании работы алгоритма динамического программирования в столбцах матрицы соответствия находятся оптимально (в смысле минимизации дистанции) соответствующие кластеры. Число столбцов равно к. А в верхней и нижней половинах матрицы соответствия находятся выровненные последовательности.
Если теперь объединить кластеры, записанные в матрице соответствия по строкам, то получим новую последовательность кластеров R, ;1=1 ..к. Причем кластеры этой последовательности будут содержать наблюдения обеих исходных последовательностей, оптимально разделенные на кластеры (в смысле однородности в признаковом пространстве) при сохранении исходной последовательности.
Это дает основания полагать, что полученная последовательность кластеров fc,;l=l..k аналогична последовательности фонем в слове, для которого мы оцениваем параметры СММ.
Вероятность генерации моделью символов в каждом состоянии в рассматриваемом случае непрерывных СММ задается параметрами многомерного гаусовского распределения.
Многомерное гаусовское распределение целиком определяется средним вектором распределения ц и обратной матрицей ковариации I"1.
Мы условились, что оцениваемая нами СММ будет содержать столько состояний, сколько фонем содержит изолированное слово, т.е. столько, сколько кластеров содержит последовательность К., ;1=1..к после выравнивания всех исходных обучающих последовательностей.
Теперь нетрудно подсчитать средний вектор ц,;1=1..к и обратную матрицу ковариации 1~\;1=1..к для всех наблюдений каждого из кластеров последовательности К.,;1=Т..к. Это и будут параметры функции распределения вероятности генерации моделью символа (наблюдения) в заданном состоянии.
Матрица вероятностей начальных состояний П еЯ''11 определяет вероятность, с которой состояния СММ могут генерировать первый символ (наблюдение) неизвестной последовательности.
В нашем случае значения этого вектора нужно вычислять параллельно с процессом выравнивания обучающих последовательностей и делать это так:
1) проинициализировать вектор П нулями;
2) если в процессе выравнивания первый кластер очередной последовательности попадает в первую колонку матрицы соответствия Б, тогда на единицу увеличивать П|. Если во вторую, тогда на единицу увеличивается П2;
3) по окончании процесса выравнивания заменить значения П| и П2 на их процентное соотношение.
Таким образом, мы получим матрицу вероятностей начальных состояний, при этом мы вычислили ее на основе действительных данных взятых из обучающих последовательностей, а не из шаблонных значений.
Матрица вероятностей переходов л еК1'1 определяет вероятность переходов модели из состояния в состояние. Исходя из выбранного типа СММ, эта матрица будет ленточной, причем, верхняя ширина ленты будет равна 2, а нижняя - 0.
Эту матрицу, как и матрицу начальных состояний, можно вычислить, исходя из данных обучающих последовательностей. Вычисляется она так:
¡) изначально инициализируется нулями;
2) по главной диагонали, в элементы а„;1=1..к, помещается средний объем
вычисленный по всем кластерам, объединенным в процессе выравнивания в кластер К,;
3) пересчитываем элементы главной диагонали по формуле:
а
а, --.
а„+1
Это вероятность того, что СММ останется в текущем состоянии.
4) вероятность перехода в два следующих состояния определяется так:
Я , гй ,
+ м„, м,„ + м„2
а ■(,.!> =(1-а„);1 = (к-1);
5) поскольку, находясь в последнем состоянии, СММ может только оставаться в этом состоянии, то: акЬ = I.
Так определяется матрица вероятностей переходов, при этом выполняется условие полной вероятности:
Предложенный алгоритм проверен на программном исследовательском комплексе 801АРР.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Исследование алгоритмов предобработки речи показало, что существует перспективное направление повышения характеристик систем распознавания речи, посредством использования СММ в совокупности с кеп-стральной предобработкой речевого сигнала.
2. Исследования стохастических свойств наборов кепстральных коэффициентов, представляющих фонемы русского языка, показали целесообразность использования дистанции Махаланобиса в качестве метрики для наборов кепстральных коэффициентов, благодаря учету стохастической зависимости между ними.
3. Исследования возможности применения кластерного анализа в задачах таксономии изолированных слов на фонемы с применением дистанции Махаланобиса, показали состоятельность этого подхода, и позволили предложить алгоритм фонематической таксономии, способный работать без априорной информации о фонемах и особенностях голоса диктора. Этот алгоритм в дальнейшем позволит создавать на его основе дикто-ронезависимые системы распознавания слитной речи.
4. Предложенный алгоритм оценки стартовых параметров СММ показал свою эффективность и перспективность использования в приложениях распознавания команд и слитной речи. При использовании его в задачах распознавания команд он позволит использовать голос диктора или дикторов только на начальном этапе обучения системы, а затем строить модели речевых команд основываясь только на написании.
5. В рамках данной диссертационной работы создан программный комплекс для исследования СММ в задачах распознавания речи с применением кепстральной предобработки и таксономией изолированных слов на фонемы.
6. Проведенные исследования в рамках НИР по теме 2008 гб каф. ЭВА МГИЭМ показали высокую эффективность использования речевой базы данных при разработке и тестировании систем распознавания речи.
СПИСОК ОСНОВНЫХ РАБОТ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ
!. Серов A.A. Построение системы обработки речевого сигнала о реальном масштабе времени пол управлением OS Windows// Информационные технологии в системах вычислительной техники. Сборник научных трудов кафедры ЭВА. Выпуск 1/ МГИЭМ, Москва 1999.
2. Серов A.A. Программно-аппаратный комплекс распознавания речи// Информационные технологии в системах вычислительной техники. Сборник научных трудов кафедры ЭВА. Выпуск 1/ МГИЭМ, Москва 1999.
3. Серов A.A. Малышев Ю.А. Устройство предобработки речи// Тез. докл. Научно-технической конференции студентов, аспирантов и молодых специалистов МГИЭМ. М. ~:МГИЭМ, 1997г
4. Серов A.A. Методика оценки стартовых параметров при обучении скрытых марковских моделей// Тез. докл. Научно-технической конференции студентов, аспирантов и молодых специалистов МГИЭМ. М. ~:МГИЭМ, 2000г
Оглавление автор диссертации — кандидата технических наук Серов, Александр Анатольевич
ВВЕДЕНИЕ.
ГЛАВА 1. ВЫБОР АЛГОРИТМА ПРЕДОБРАБОТКИ РЕЧИ ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ.
1.1 Требования к системе распознавания речи.
1.2 Требования к системе таксономия речи.
1.3 Определение признакового пространства.
1.4 Определение признакового пространства в кепстрдльных коэффициентах.
Выводы.
ГЛАВА 2. ПОСТАНОВКА ЗАДАЧИ О ПРИМЕНЕНИИ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В СИСТЕМАХ РАСПОЗНАВАНИЯ ДИСКРЕТНОЙ И СЛИТНОЙ РЕЧИ.
2.1 Постановка задачи скрытого марковского моделирования в распознавании речи.
2.2 Основные проблемы применения СММ к распознаванию речи.
2.3 Эффективное вычисление вероятности генерации заданной последовательности
2.4 Отыскание оптимальной последовательности состояний.
2.5 Обучение СММ тестовыми последовательностями.
Выводы.
ГЛАВА 3. ТАКСОНОМИЯ ИЗОЛИРОВАННЫХ СЛОВ ПУТЕМ КЛАСТЕР-АНАЛИЗА С ПРИМЕНЕНИЕМ ДИСТАНЦИИ МАХАЛАНОБИСА.
3 1 Оценка статистических параметров больших массивов наблюдений.
3.2 Введение метрики.•.,.
3.3 Применение кластерного анализа.
3.4 Измененная кластер-процедура по принципу «ближайшего соседа».
3.5 Критерии выделения фонем.
Выводы.
ГЛАВА 4. ОЦЕНКА СТАРТОВЫХ ПАРАМЕТРОВ НЕПРЕРЫВНЫХ СММ ИЗОЛИРОВ АННЫХ СЛОВ.
4.1 Алгоритм оценки СММ, ориентированный на равное количество состояний.
4.2 Алгоритм оценки СММ, ориентированный на равную длительность состояний.
4.2 Алгоритм оценки СММ, ориентированный на результаты таксономии.
4.3 Оценка параметров функции распределения вероя тностей генерации символов в состоянии.
4.4 Оценка параме тров матрицы (вероятностей начальных состояний.
4.5 Оценка матрицы вероятностей переходов.
4.6 Сравнение надежности распознавания моделями построенными по предложенному алгоритму и стандартному.
Выводы.
Введение 2000 год, диссертация по информатике, вычислительной технике и управлению, Серов, Александр Анатольевич
В последние несколько лет сильно возрос интерес к приложениям распознавания речи. Во многом это связано со значительным повышением производительности вычислительной техники, предлагаемой сейчас по относительно низким ценам.
Производительность современных компьютеров, даже персонального класса, позволяет в режиме реального времени проводить сложную математическую обработку сигналов с достаточно широким спектром, хранить в оперативной памяти и обрабатывать большие объемы информации. Именно недостаток производительности сдерживал развитие приложений распознавания речи в предыдущие годы, ведь большинство алгоритмов и методов, применяемых в этой области, требую т больших вычислительных ресурсов для работы в реальном времени.
Самыми перспективными системами распознавания на сегодняшний день являются системы, использующие теорию Скрытого Марковского Моделирования (СММ) или Нейронные Сети (НС). Обе эти технологии реализуют т.н. вероятностное распознавание в отличие от технологий, реализующих точное распознавание, которые обычно используют методы динамического программирования.
В данной работе рассматриваются только системы, использующие для распознавания СММ, но следует заметить, что алгоритмы и методы, предлагаемые в этой работе, пригодны на определенных этапах и при работе с НС.
Теория СММ уже широко применяется в задачах структурного анализа сигналов (или, в более общем смысле, экспериментальных кривых), и основные математические методы <десь хорошо разработаны, но они требуют некоторого уточнения и дополнения для применения их к речевому сигналу, чтобы максимально эффективно учитывать его особенности. И во второй главе будут рассмотрены вопросы применения СММ именно в задачах распознавания речи.
Несмотря на то, что в целом теория СММ хорошо разработана, еще существуют недостаточно формализованные области. Одной из таких недостаточно изученных задач является задача оценки стартовых параметров СММ. Обычно эта задача решаетс я эмпирически, или ее решение жестко привязывается к реализации. На настоящий момент существует несколько хорошо формализованных методов оценки стартовых параметров СММ для задач распознавания команд, но все они не учитывают фонематический состав речевых единиц и, соответственно, пригодны только для задач распознавания команд.
В четвертой главе предлагается формализованный метод оценки стартовых параметров СММ, учитывающий фонематический состав анализируемых речевых единиц и соответственно пригодный не только для задач распознавания команд, но и для задач распознавания слитной речи.
Реализация данного метода потребовала формализации алгоритма таксономии речевых единиц на фонемы для выявления их фонематического состава. Для этого был разработан алгоритм фонематической таксономии, который представлен в третьей главе. Предлагаемый алгоритм использует стохастические свойства кепстральных коэффициентов и кластерный анализ для выявления фонематической структуры изолированных слов или речевых единиц. Результаты работы данного алгоритма применимы для систем распознавания команд и слитной речи, и кроме того, при использовании в процессе распознавания нейронных сетей.
Заключение диссертация на тему "Оценка стартовых параметров СММ в задачах распознавания команд при кепстральной предобработке речевого сигнала"
Выводы и заключение
Исследование алгоритмов предобработки речи показало, что существует перспективное направление повышения характеристик систем распознавания речи, посредством использования СММ в совокупности с кепстральной предобработкой.
Исследования стохастических свойств наборов кепстральных коэффициентов, представляющих фонемы русского языка, показали целесообразность использования дистанции Махаланобиса в качестве метрики для наборов кепстральных коэффициентов, благодаря учету стохастической зависимости между ними.
Исследования возможности применения кластерного анализа в задачах таксономии изолированных слов на фонемы с применением дистанции Махаланобиса, показали состоятельность этого подхода, что в дальнейшем позволит создавать на его основе системы распознавания слитной речи.
Предложенный алгоритм оценки стартовых параметров СММ показал свою эффективность и перспективность использования в приложениях распознавания команд и слитной речи.
В рамках данной диссертационной работы создан программный комплекс для исследования СММ в задачах распознавания речи с применением кепстральной предобработки и таксономией изолированных слов на фонемы.
Проведенные исследования в рамках НИР по теме 2008 гб каф. ЗВА МГИЗМ, показали высокую эффективность использования речевой базы данных при разработке и тестировании систем распознавания речи.
Библиография Серов, Александр Анатольевич, диссертация по теме Телекоммуникационные системы и компьютерные сети
1. Рабинер J1. Гоулд Б. "Теория и применение цифровой обработки сигналов". -"МИР", Москва, 1978
2. Дубров А.М Мхитарян B.C. Трошин Л.И. «Многомерные статистические методы» Финансы и статистика, Москва, 1998
3. Моттль В.В. Мучник И.Б. «Скрытые Марковские Модели в структурном анализе сигналов» ФИЗМАТЛИТ, Москва, 1999
4. Лурия «Курс лекций по психолингвистике» МГУ
5. Каханер Д. Моулер К. Неш С. «Численные методы и программное обеспечение» = МИР, Москва, 1998
6. Голуб Дж. Ван Лоун Ч. «Матричные вычисления» МИР, Москва, 1999
7. Алберт А. «Регрессии, псевдоинверсия и рекурентное оценивание» НАУКА. Москва, 1977
8. Бенхем К.Дж., Блейсделл Б. Э. и др. «Математические методы для анализа последовательностей ДНК» МИР, Москва, 1999
9. Косарев Ю.А. "Естественная форма диалога с ЭВМ". -"М АШИНОСТРОЕНИЕ", Ленинград, 1989
10. Обжелян Н.К. Трунии-Донской В.Н. "Речевое общение в системах "человек -ЭВМ". "ШТИИНЦА", Кишинев, 1985
11. Kevin Leary and David Morgan, "Fast and accurate analysis with ГРС gives a DSP chip speech-processing power", Electronic Design, April 17, 1986, pp. 153-158.
12. Yousif A. El-Imam, "A Personal Computer-based Speech Analysis c.id Synthesis System", IEEE MICRO, June 1987, pp.4-21.
13. Nick Tsakalas and Evangelos Zigouns. "Autocorrelation-based pitch determination algorotms for realtime vocoders with the TMS32020/C25", Microprocessors and Mycrosystems, Vol 14 No8 October 1990, pp.511-516.
14. Lawrence R.Rabiner, Bishnu S.Atal, Marvin R.Sambur. "LPC Prediction Error -Analysis of Its Variation with the Positin of the Analysis Frame", IEEE Trans., Vol. ASSP-25, No. 5, October 1977, pp.434-442.
15. Peter V.Souza, "Statistical Test and Distance Measures for LPC Coefficients", IEEE Trans., Vol. ASSP-25, No. 6, December 1977, pp.554-558.
16. Digital signal processing application using the ADSP-2100 family, Vol. I. Englewood Cliffs, NJ: Prentice Hall (1992).
17. Digital signal processing application using the ADSP-2100 family, Vol. II. Englewood Cliffs, NJ: Prentice Hall (1992).
18. ADSP-2100 Family User's Manual
19. EZ-KIT Lite Reference Manual.
20. L. E. Baum and T. Petrie. "Statistical inference for probabilistic functions of finite state Markov chains," Arm. Math Stat., vol. 37. pp. 1554-1563.1966.
21. L. E. Baum and J. A. Egon, "An inequality with applications to statistical estimation for probabilistic functions of Markov process and to a model for ecology" Bull. Amer. Meteorol. Soc., vol. 73, pp. 360-363, 1967.
22. L. E. Baum and G. R Sell, "Growth functions for transformations on manifolds," Pac. J. Math., vol. 27. no.2. pp. 211-227,1968.
23. L, E. Baum, T. Petrie, C. Soules, arid N. Weiss, "A maximization technique occurring in the statistical analysis of probabilistic functions on Markov chains," Ann. Math Stat., vol, 41, no, l,pp. 164-171,1970.
24. L. E. Baum, "An inequality and associated maximization technique in statistical estimation for probabilistic functions on Markov processes," Inequalities, vol. 3, pp, 1-8,1972.
25. J. K, Baker, "The dragon system An overview," IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-23, no.l, pp. 24-29, Feb, 1975,
26. F. Jelinek, "A fast sequential decoding algorithm using a stack," IBM J. Res. Develop., vol, 13, pp. 675-685, 1969.
27. L. R, Bahl and F. Jelinek, .'Decoding for channels with insertions, deletions, and substitutions with applications to speech recognition," IEEE Trans. Informat, Theory, vol.IT-21, pp, 404-411.1975.
28. F. Jelinek, L. R, Bahl, and R. L. Mercer, ."Design of a linguistic statistical decoder for the recognition of continuos speech," IEEE Trans. Informat. Theory, vol, IT -il, pp. 250-256,1975.
29. F. Jelinek, "Continuous speech recognition by statistical methods," Proc. IEEE, vol. 64, pp, 532-536, Apr. 1975
30. R. Bakis, "Continuous speech word recognition via centi-second acoustic states," in Proc, ASA. Meeting (Washington DC), Apr. 1576.
31. F. Jelinek, L. R. Bahl, and R, L, Mercer, "Continuous speech recognition: Statistical methods," in Handbook of Statistics, II, P, R. Krishnaiad, Ed. Amsterdam, The Netherlands: North-Holland, 1982.
32. L. R. Bahl, F. Jelinek, and R. L. Mercer, "A maximum likelihood approach to continuous speech recognition," IEP2E Trans. Pattern Anal. Machine Intel., vol, PAMI-5, pp. 179-190, 1983.
33. S. E. Levinson, L. R. Rabiner, and M. M. Sondhi, "An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition," Bell Syst. Tech, J., vol. 62, no.4, pp. 1035-1074, Apr, 1983,
34. B. H. Juang, "On the hidden Markov model and dynamic time warping for speech recognition A unified view." AT&T Tech J., vol. 63, no.7, pp.1213-1243, Sept. 1984.
35. L. R. Rabiner and B. H. Juang, "An introduction to hidden Markov models," IEEE ASSP Mag., vol, 3. no. 1, pp. 4-16,1986.
36. J. S. Bridle, "Stochastic models and template matching: Someimportant relationships between two apparently different techniques for automatic speech recognition,", in Proc. Inst, of Acoustics, Autum Conf., pp. 1-8, Nov. 1984.
37. J. Makhoul, S. Roucos. and H. Gish, "Vector quantization in speech coding," Proc.IEEE, vol. 73, no. 11, pp. 1351-1588, Nov. 1985,
38. S. E. Levinson, "Structural methods in automatic speech recognition," Proc.IEEE, vol, 73, no. 11, pp.1625-1650. Nov 1985.
39. A. W. Drake, "Discrete state Markov proceses." Chapter 5 in Fundamentals of Applied Probability Theory. New York, NY : McGrav-Hill, 1967.
40. A. J. Viterbi, "Error bounds for convolutional codes and an asymptotically opiimal decoding algorithm," IEEE Trans. Informat. Theory, vol. IT-13, pp. 260-269, Apr. 1967.
41. C. O. Forney, "The Viterbi algorithm," Proc. IEEE, vol. 61, pp. 268-278, Mar, 1973,
42. A. P. Dempster, N. M. Lajrd, and O. B. Rubin. "Maximum likelihood from incomplete data via the EM algorithm," J. Roy,. Stat. Soc., vol. 39, no. 1, pp. 1-38, 1977.
43. L. A. Liporace, "Minimum likelihood estimation for multivariate observations on Markov sources," IEEE Trans. Informat. Theory, vol. IT -28, no. 5, pp. 729-734,
44. B. H. Juang, "Maximum likelihood estimation for mixture multivariate stochastic observations of Markov chains," AT&T Tech. J., vol. 64. no 6, pp. 1235-1249, July -Aug. 1985.
45. B. H. Juang, S. E. Levinson, and M. M. Sondhi, "Maximum likelihood estimation for multivariate mixture observations of Markov chains." IEEE Trans. Informat. Theory, vol. IT-32. no. 2, pp. 307-309, Mar. 1986.
46. A. B. Poritz, "Linear predictive hidden Markov models and the speech signal," in Proc. ICASSP '82 (Paris, France), pp. 1291-1294, May 1982.
47. B. H. Juang and L. R. Rabiner, "Mixture autoregressive hidden Markov models for speech signals," IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-33, no. 6, pp. 1404-1413, Dec.1985.
48. M. J Russell and R. K. Moore, "Explicit modeling of state occupancy in hidden Markov models for automatic speech recognition," in Proc. ICASSP '85 (Tampa, FL), pp. 5-8, Mar. 1985.
49. S. E. Levinson, "Continuously variable duration hidden Markov models for automatic speech recognition," Computer. Speech ana Language, vol. 1, no. 1, pp. 29-45. Mar 1986.
50. B Lowerre and R. Reddy, "The HARPY speech understanding system," in Trends in Speech Recognition, W. Lea, Editor. Englewood Cliffs, NJ: Prentice-Hall, 1980, pp. 340-346.
51. L. R. Bahl, P. F. Brown, P. V. de Souza, and R. L. Mercer, "Maximum mutual information estimation of hidden Markov model parameters for speech recognition," in Proc. ICASSP '86 (Tokyo, Japan), pp. 49-52, Apr. 1986.
52. Y. Ephraim, A. Dembo, and L. R. Rabiner, "A minimum discrimination information approach for hidden Markov modeling," in Proc. ICASSP '87 (Dallas, TX), Apr. 1987.
53. B. H. Juang and L. R. Rabiner, "A probabilistic distance measure for hidden Markov models," AT&T Tech. J., vol. 64, no.2, pp. 391-408, Feb, 1985,
54. L. R. Rabiner, B. H. Juang, S, L. Levinson, and M. M. Sondhi, "Some properties of continuous hidden Markov model representations," AT&T Tech. J., vol. 64, no.6, pp. 1251-1270, July-Aug. 1985.
55. F. Jelinek and R. L. Mercer, "Interpolated estimation of Markov source parameters from sparse data," in Pattern Recognition in Practice, E. S. Gelesma and L. N. Kanal, Eds, Amsterdam, The Netherlands: North-Holland, 1980, pp. 381-397.
56. R. Schwartz et al., "Context-dependent modeling for acoustic-phonetic recognition of continuous speech," in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 1205-1208, Apr. 1985.
57. K. F. Lee and H. W. Hon, "Large-vocabulary speaker-independent continuous speech recognition," in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 123-126, Apr. 1988.
58. A. B. Poritz and A. G. Richter, "Isolated word recognition," in Proc. ICASSP '86 (Tokyo. Japan), pp, 705-708, Apr. 1986.
59. R. P. Lippmann, E. A. Martin, and O. B. Paul, "Muliistyle training for robust isolated word speech recognition," in Proc. ICASSP '87 (Dallas, TX), pp, 705-708, Apr. 1987,
60. O. B. Paul, "A speaker stress resistant HMM isolated word recognizer ," in Proc. ICASSP '87(Dallas, TX), pp. 713-716, Apr. 1987.
61. V. N. Gupta, M. Lcrmig and P . Mermelstein, "Integration of acoustic information in a large vocabulary word recognizer ," in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 697-700, Apr. 1987.
62. S. F Levinson, "Continuous speech recognition by means of acoustic-phonetic classification obtained from a hidden Markov model," in Proc. ICASSP '87 (Dallas TX), Apr. 1987.
63. J. G. Wilpon, L. R. Rabiner and T. Martin, "An improved word detection algorithm for telephone quality speech incorporating both syntactic and semantic constraints." AT&T Bell Labs Tech. J., vol. 63, no.3, pp. 479-498, Mar. 1984.
64. J. G. Wilpon and L. R. Rabiner, "Application of hidden Markov models to automatic speech endpoint detection," Computer Speech and Language, vol. 2, no. 3/4, pp. 321341, Sept./Dec. 1987.
65. A. Averbuch et al., "Experiments with the TANGORA 20,000 word speech recognizer ," in Conf. Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, pp. 701-704, Apr. 1987.
66. B. S. Atal and S. L. Hanauer, "Speech analysis and synthesis by linear prediction of the speech wave," J. Acoust. Soc. Am., vol. 50, pp. 637-655, 1971.
67. F. I. Itakura and S. Sailo, "Analysis-synthesis telephony based upon the maximum likelihood method," in Proc. 6th Int. Congress on Acoustics (Tokyo, Japan), pp. CI 720, 1968.
68. J. Makhoul, "Linear prediction: A tutorial review," ^roc. IEEE, vol. 63, pp. 561-580, 1975.
69. J. O. Markel and A. H. Gray, Jr., Linear Prediction of Speech. New York, NY: Springer-Verlag, 1976.
70. Y. Tokhura, "A weighted cepstra. distance measure for speech recognition,'' IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-35, no. 10, pp. 1414-1422, Oct. 1987.
71. B. H. Juang L. R. Rabiner, and J.G. Wilpon, "On the use of bandpass liftering in speech recognition," IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-35, no. 7, pp. 947-954. July 1987.
72. S. Furui, "Speaker independent isolated word recognition based on dynamics emphasized cepstrum," Trans. IECE of Japan, vol, 69, no. 12, pp. 1310-1317, Dec. 1986.
73. F. K. Soong and A. E, Rosenberg, "On the use of instantaneous and transitional spectral information in speaker recognition," in Proc. ICASSP '86 (Tokyo, Japan), pp. 877-880, Apr. 1986.
74. L. R. Rabiner, J. G. Wilpon, and B. H. Juang, "A segmental k-means training procedure for connected word recognition," AT&T Tech. J., vol. 65, no. 3, pp. 21-31, May-June 1986.
75. L. P. Rabiner and S. E. Levinson, "A speaker-indpendent, syntax-directed, connected word recognition system based on hidden Markov models and level building," IEEE Trans. Acoust. Speech Signal Processing, vol. ASSP-33, no. 3, pp. 561-573, June 1985.
76. L. R. Rabiner, J. G. Wilpon, and B. H. Juang, "A model-based connected digit recognition system using either hidden Markov models on templates," Computer, Speech, and Language, vol. 1, no.2, pp. 167-197, Dec. 1986.
77. H. Bourlard, Y. Kamp, H. Ney, and C. J. Wellekens, "Speaker-dependent connected speech recognition via dynamic programming and statistical methods," in Speech and Speaker Recognition, M. R. Schroeder, Ed. Basel, Switzerland: Karger, 1985, pp.115148,
78. C. J. Wellekens, "Global connected digit recognition using Baum-Welch algorithm," in Proc. ICASSP '86 (Tokyo, Japan), pp, 1081-1084, Apr. 1986.
79. A. M. Derouault, "Context dependent phonetic Markov models for large vocabulary-speech recognition." in Proc. ICASSP '87 (Dallas, FX), Paper 10.1.1. pp. 360-363, Apr. 1987.
80. B. Merialdo, "Speech recognition with very large size dictionary," in Proc, ICASSP '87 (Dallas, TX), Paper 10.2.2., pp, 364-367, Apr. 1987.
81. Y. L. Chow et a!., "BYBLOS: The BBN continuous speech recognition system," in Proc. ICASSP '87(Dallas, TXj, Paper 3.7.1, pp 89-92, Apr. 1987,1. Оглавление1. Оглавление1. Назначение программы
82. Структура и функционирование программы
83. Назначение модулей программы1. VCL.1. АЦП1. Таксоном1. DSP1. Настройка системы1. Настройка параметров АЦП
84. Настройка параметров Таксонома
85. Настройка системы предобработки
86. Настройка системы обучеаия
87. Порядок работы с программой1. Сохранение настроек1. Загрузка настроек1. Диктовка слов1. Чтение WAV-файла
88. Сохранение файлов в форматах WAV, FFT, CPS1. Создание новой модели1. Сохранение словаря1. Загрузке словаре1. Назначение программы
89. Основной задачей SDIAPP является получение стартовых параметров Скрытых Марковских Моделей (НММ) для изолированных слов. Такие модели в последствии можно обучать с помощью известных алгоритмов обучения, например, таких как Baum-Welch алгоритм.
90. Программ« сохраняет полученные ею модели в виде форматированных текстовых файлов, которые затем могут быть использованы в качестве исходных дачных для других систем анализа и распознавания речи.
91. Каждому треду соответствует одно или несколько диалоговых окон, через которые осуществляется управление алгоритмами, которые реализует тред, и так же через эти окна производится отображение результатов работы.
92. Назначение модулей программы1. VCL
93. В обязанности этого модуля-треда входит: управление драйвером звуковой карты реакция на прерывания со стороны звуковой карты, формирование заданного потока фреймов из данных поступающих от звуковой карты, отображение параметров текущего сигнала.
94. В диалоге управления этим тредом можно задать частоту дискретизации и разрядность оцифровки сигнала с микрофона. Здесь же задаются параметры формируемого потока фреймов.
95. Формируемый поток фреймов снабжается дополнительными параметрами сигнала, необходимыми для таксономического деления речи. К эти параметрам относится энергия сигнала и параметр ZCR (количество пересечений сигналом нуля).
96. Так же в диалоговом окне этого модуля отображается текущее значение параметров входного сигнала, что позволяет настраивать систему на оптимальную работу с данной звуковой подсистемой компьютера.1. Таксоном
97. Модуль таксономии речи занимается вычленением изолированных слов из непрерывного потока данных, поступающего от АЦП, и помещает эти слова в буфер речевых единиц. Так же через диалог этого модуля осуществляется управление этим буфером.
98. По сути, это центр управления основными функциями системы. Отсюда речевые единицы отправляются на предобработку, на обучение и распознавание. Отсюда слова передаются в простейший редактор, встроенный в SDIAPP.1. DSP
99. Это «главный вычислительный центр». Этот модуль производит все трудоемкие вычисления, те, которые в аппаратных системах обычно выполняет цифровой сигнальный процессор.
100. Этот модуль обслуживается несколькими диалоговыми окнами, такими как: DSP, Обучение, Распознавание и Словарь.
101. Поскольку со словарем моделей может работать только модуль DSP, то все обязанности по ведения словаря возложены на этот модуль, и словарь располагается в области данных именно этого треда.
102. Сформированные модулем НММ помещаются в словарь моделей, а все остальные результаты либо записываются в файл, либо выводятся в окно Результаты.1. Настройка системы
103. На рис.2 показан внешний вид диалога управления тредом АЦП.-• Величина отсчета • • 5 г 8 бит на отсчет 16 бит на отсчет
104. Частота оцифровки ! Г 8000 I г 11025 | С» 22050 ! С 44100256130
105. Длина фрейма Амплитуда фонового шумаш1. Уровеньяр Перекры в ать фреймы Текущее состояниет
106. Частота: 22050Гц , Бит на отсчет: 161. Размер фреймов:256 : ; Фреймы пересекаются1. Энергиягеи1. Амплитуда5120 39951. Установить1. Установить по умолчанию1. Start1. Рис.2
107. Текущие динамические параметры представлены правее и отображают параметры оцифровываемого в данный момент, сигнала. Эти параметры носят информационный характер и очень важны для правильной настройки таксонома.
108. Поля Величина отсчета и Частота оцифровки задают параметры оцифровки сигнала, поступающего с микрофона. Их изменение вступает в силу после нажатия кнопки Установить.
109. Чаще в системах распознавания речи применяются именно перекрывающиеся фреймы.
110. Чтобы правильно установить значение амплитуды фонового шума, нужно во время, когда в микрофон никто не говорит, заметить величину динамического параметра Амплитуда и установить несколько1. Рис.4
111. Как и для АЦП, все изменения параметров Таксопома начинают действовать только после нажатия кнопки Установить.
112. Используемый здесь алгоритм вычленения изолированных слов из непрерывного потока фреймов, поступающих от АЦП, является одной из вариаций алгоритма, предложенного Рабинером (Р1аЬтег).
113. Границы начала и конца слова определяются Таксономом на основе сравнения параметров Энергия и ZCR, которые вычисляются модулем АЦП для каждого фрейма с некоторыми пороговыми значениями.
114. Правильная настройка величины порогов осуществляется на основе анализа параметров фонового шума. Их можно наблюдать на диалоговом окне АЦП.
115. Каждый из двух порогов определяется двумя параметрами. Порог считается превышенным, если превышен один из параметров. Алгоритм проиллюстрирован на рис.51. Энергия ZCR
116. П°Р.°Г нача л а сл ов а Подог конца слова
117. Допустимое время молчания Длина слова1. Рис.5
118. Следует заметить, что величина пороговых значений сильно зависит от условий оцифровки, от микрофона, от звуковой карты, а ограничения по длительности постоянны для всех систем, и их можно оставлять неизменными.
119. Настройка системы предобработки
120. Фурье-преобразование данных фрейма
121. Фильтрация несколькими треугольными фильтрами
122. Вычисление логарифма энергии спектра на выходе каждого фильтра
123. Косинусное преобразование над данными, полученными на 3 ем шаге алгоритма
124. Результаты 4-го шага алгоритма и являются кепстральными коэффициентами.
125. На рис.6 представлен внешний вид диалога управления, на котором задаются параметры алгоритма кепстрального анализа.idsp ез1. Windowing^Ceplrumj|г Cepstrum . .jl 2 ЧИСЛО КОЭфИЦИеНТОВ f/ произьодить FFT
126. F произ е. одить нормализацию8 порядок FFT = гч а 1 w добавить Delta- Filtering.-.-.- .—.—.-------------------------------------------------|20 число фильтров60 частота начала диапазона ¡4000 частота конца диапазона
127. Г" производить линейное шкалирование ;|о число линейно расположенных фильтрово конечная частота диапазона линейного шкалирования.
128. Установить ' 5§|' я Установить по умолчанию J1. Рис.6
129. Если выбран пункт производить нормализацию, то вычисленные коэффициенты будут нормализованы.
130. Система обучения, встроенная в БЭГАРР имеет два различных алгоритма оценки стартовых параметров НММ. Внешний вид диалога настройки системы обучения представлен на рис.8
131. Ц| Параметры системы обучения
132. С Равновеликое деление слов начастей1. Кластеризация
133. Минимальное количество фреймов в кластере |3максимальное количество фреймов в кластере |13
134. Во,>муш£ние плохообуслселеной матрицы ковариации0.11. Рис.8
135. Выбор того или иного алгоритма осуществляется путем выбора соответствующей радио-ккопки.
136. Порядок работы с программой
137. Для сохранения текущих настроек программы в меню главного окна программы выберите РНе->8ауе.,
138. Для загрузки ранее сохраненных настроек г-истемы в меню главного окна программы выберите РПе->Ореп.1. Диктовка слов
139. Настройте параметры АЦП так, чтобы в тот момент, когда вмикрофон ничего не произносится, динамический параметр ZCR,
140. Переместите курсор мыши на поле Буфер и нажмите правую кнопку мыши. Появится всплывающее меню. Рис.10.
141. Предварительное таксономическое деление• Таксоном Буфер j1. Написание слова (сек.) Гнет> 0.17 |1. Распознавание Обучение 1. Прослушать Редактировать
142. Сохранить как FFT ч Сохранить как CPS ■ Сохранить как WAV1. Загрузить WAV 1. Удалить j 1. Удалить ВСЕ1. Максимальное32 количествослов в буфере1. Пометить ВСЕ
143. Сразу Г отправлять слова на распознавание1. Рис.10
144. Выберите пункт Загрузить WAV.
145. После загрузки файла новая запись появится в буфере речевых единиц.
146. Сохранение файлов в форматах WAV, FFT, CPS
147. Откройте окно Тяксоном и затем закладку Буфер
148. Курсором мыши выделите ту речевую единицу, которую вы собираетесь сохранить.
149. Переместите курсор мыши на поле Буфер и нажмите правую кнопку мыши. Появится всплывающее меню. Рис.10.
150. Выберите нужный пункт меню.
151. Следует заметить, что написание слова используется как часть имени файла, поэтому в написании слова не должно быть символов, неприемлемых для имен файлов.
152. Убедитесь, что он не пуст. (В списке должны присутствовать записи.)3. Нажмите кнопку Сохранить.
153. Загружаемые слова добавляются к уже имеющимся в словаре, поэтому при необходимости словарь нужно очистить, для чего правой кнопкой мыши щелкните на окне Словарь и выберите пункт меню Удалить все.
-
Похожие работы
- Система автоматического распознавания речевых команд для параллельных архитектур
- Разработка и исследование коллективных нейросетевых алгоритмов дикторонезависимого распознавания речевых сигналов
- Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала
- Применение авторегрессионных скрытых марковских моделей в задачах распознавания изолированных слов и идентификации дикторов
- Выделение и предобработка сигналов в системах автоматического распознавания речевых команд
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность