автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.05, диссертация на тему:Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде

кандидата технических наук
Парамонов, Павел Александрович
город
Москва
год
2015
специальность ВАК РФ
05.13.05
Автореферат по информатике, вычислительной технике и управлению на тему «Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде»

Автореферат диссертации по теме "Методы, алгоритмы и устройства распознавания речи в ассоциативной осцилляторной среде"

На правах рукописи

Парамонов Павел Александрович

МЕТОДЫ, АЛГОРИТМЫ И УСТРОЙСТВА РАСПОЗНАВАНИЯ РЕЧИ В АССОЦИАТИВНОЙ ОСЦИЛЛЯТОРНОЙ СРЕДЕ

Специальность 05.13.05 - Элементы и устройства вычислительной техники и

систем управления

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

21 ОКТ 2015

Москва-2015

005563540

Работа выполнена на кафедре Вычислительной техники ФГБОУ ВО НИУ «МЭИ».

Научный руководитель:

Официальные оппоненты:

Огнев Иван Васильевич, доктор технических наук, профессор, профессор кафедры Вычислительной техники ФГБОУ ВО НИУ «МЭИ»

Морозов Андрей Владимирович, доктор технических наук, профессор, начальник кафедры Автоматизированных Систем Боевого Управления Федерального Государственного Казенного Военного Образовательного Учреждения Высшего Профессионального образования «Военная академия Войсковой Противовоздушной Обороны Вооруженных Сил Российской Федерации Имени Маршала Советского Союза A.M. Василевского» Министерства Обороны Российской Федерации

Газин Алексей Иванович, кандидат технических наук, доцент кафедры Электроники, Телекоммуникаций и Компьютерных технологий ФГБОУ ВПО «ЛГПУ»

Ведущая организация АО «НПП «Рубин»

Защита состоится «4» декабря 2015 г. на заседании диссертационного совета Д 212.157.16 при ФГБОУ ВО НИУ «МЭИ» по адресу: 111250, г. Москва, ул. Красноказарменная, д. 17, аудитория Г-306 в 16 ч. 00 мин.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВО НИУ «МЭИ» и на сайте www.mpei.ru.

Автореферат разослан » CkJjfyA 2015 г. Ученый секретарь

диссертационного совета Д 212.157.16

кандидат технических наук, доцент

Чернов С.А.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы

Вопросы человеко-машинного взаимодействия являются одними из важнейших при создании новых компьютеров. Наиболее эффективными средствами взаимодействия человека с машиной являются визуальные образы и речь. Не смотря на стремительно возрастающие вычислительные мощности, создание систем распознавания речи остается чрезвычайно сложной проблемой. Это обуславливается высокой вычислительной сложностью разработанных алгоритмов, что накладывает существенные ограничения на системы автоматического распознавания речи - на объем обрабатываемого словаря, скорость получения ответа и его точность.

Существуют области применения систем автоматического распознавания речи как в военной сфере, так и в гражданской, где требуется создать компактное и надежное самостоятельное устройство, эксплуатирующее только доступные «на месте» вычислительные мощности. Примерами таких устройств могут служить транспортный робот REX, разработанный израильским концерном Israel Aerospace Industries и управляемый голосовыми командами, модули голосового управления (или прямого голосового ввода - Direct Voice Control) в кокпитах современных истребителей, таких, как Eurofighter Typhoon1, Dassault Rafale2, JAS 39 Gripen. В невоенной сфере распознавание речи широко внедряется в автомобилестроении, когда часть функционала машины, для которого ошибка распознавания не приведет к аварийным ситуациям (климат-контроль, навигация, мультимедиа и проч.), контролируется с помощью голоса3. Наконец, необходимо отметить актуальность реализации речевого интерфейса для людей с ограниченными физическими возможностями, например, в инвалидных креслах.

Все описанные выше примеры объединяет необходимость создания компактного, надежного, самостоятельного и максимально быстродействующего устройства. Существует общие тенденции в разработках аппаратных реализаций блока распознавания: во-первых, в качестве микросхем используются программируемые логические интегральные схемы (ПЛИС), во-вторых, все они сфокусированы на введении аппаратной поддержки алгоритмов скрытых Марковских моделей. Однако, во всех разработанных на сегодняшний день решениях используются традиционные способы реализации арифметики с плавающей точкой, что влечет существенные аппаратные затраты и накладывает ограничения на быстродействие.

Таким образом, поиск новых архитектурных решений, не базирующихся на архитектуре фон Неймана, является актуальной темой, особенно в ее приложении к решению задачи распознавание речи. Одним из перспективных направлений является разработка и исследование ассоциативных сред -запоминающих сред, в которых доступ к информации базируется на механизме

1 URL: http://www.eurofighter.com/the-aircraft

2 URL: http://ww.dassault-aviatfon.conb'wT<^

3 URL: http://www.bmw.com/com/en/insights/techriology/technology_guide/articles/voice_control_system.html

ассоциации. В ней, помимо трех основных функций памяти, возможны также поиск и обработка информации без изъятия ее из накопителя Исследования и разработка ассоциативных сред ведутся на кафедре Вычислительной Техники Московского Энергетического Института под руководством профессора Огнева И. В. Успешное решение различных задач распознавания образов и анализа изображений, а также прогресс вычислительной техники в целом, позволили обратиться к решению одной из задач искусственного интеллекта — автоматическому распознаванию речи.

Цель работы состоит в разработке методов распознавания речи в ассоциативных средах и построении системы распознавания в этих средах. Для достижения этой цели решаются следующие задачи:

• выбор метода выделения и предварительной обработки речи, извлечения признаков;

• программная реализация выделения речи и ее предварительной обработки;

• выбор метода распознавания речи;

• выбор ассоциативной среды для реализации в ней распознавания;

• разработка блока распознавания на элементах ассоциативной среды;

• создание речевой базы для обучения и тестирования системы;

• создание программной модели разработанных методов распознавания речи в среде;

• моделирование и оценка аппаратных затрат предложенной реализации.

• выбор типа и модели ПЛИС;

• аппаратная реализация на ПЛИС блока распознавания. Имитационное моделирование составленной аппаратной реализации.

Объектом исследования являются методы распознавания речи и способы их аппаратной поддержки. Предметом исследования являются методы и алгоритмы распознавания речи и пути их реализации в ассоциативных средах.

Научная новизна работы состоит в следующем:

• разработан метод выделения участков с речью на основе анализа распределения локальных экстремумов;

• впервые аппарат скрытых Марковских моделей для распознавания речи реализован в ассоциативной осцилляторной среде. Для этого был разработан метод проведения вычислений по алгоритму прямого хода в среде, основанный на представлении вероятности с помощью интенсивности потока спайков;

• модифицирован алгоритм распознавания путем перехода к упрощенному вычислению логарифма значения вероятности, что позволило заменить операции перемножения на сложение. На основе клеточного ансамбля «Дифференциал» построен новый клеточный ансамбль «Компаратор», выбирающий поток спайков с максимальной интенсивностью. Благодаря этому удалось полностью реализовать его на элементах ассоциативной осцилляторной среды и успешно применить для распознавания русских слов;

• разработан новый метод распознавания, основанный на подборе наиболее подходящей скрытой Марковской модели без учета порядка следования звуков в произнесении слова. Это позволило упростить аппаратную реализацию, выполненную на элементах ассоциативной осцилляторной среды, и повысить скорость распознавания. Метод был успешно применен для распознавания русских слов;

Практическая ценность работы состоит в следующем:

• разработан метод выделения участков с речью в исходном сигнале;

• разработаны методы распознавания речи в ассоциативной среде;

• сформирована экспериментальная речевая база русских слов, которую можно использовать как для обучения систем распознавания, так и для их тестирования;

• разработан программный комплекс, включающий средства для составления речевой базы и программные модели предложенных методов распознавания речи в среде.

• исследовано практическое применение предложенной реализации распознавания речи в ассоциативной осцилляторной среде на примере распознавания русских слов;

• разработана аппаратная реализация на языке VHDL клеточных ансамблей ассоциативной осцилляторной среды и всего блока распознавания.

В ходе работы над диссертацией были использованы следующие методы исследований: методы проектирования и анализа программных средств, имитационного моделирования, теории вероятностей и математический статистики.

Обоснованность научных результатов и выводов, представленных в работе, определяется корректным применением использованных методов исследования. Достоверность научных положений, выводов и практических рекомендаций, сформулированных в диссертации, подтверждается вычислительными экспериментами и данными, полученными при имитационном моделировании.

Реализация результатов работы. Результаты исследований были использованы в учебном процессе ФГБОУ ВО НИУ «МЭИ», а именно:

в лекционном курсе «Организация ЭВМ и периферийных устройств» программы подготовки бакалавров 09.03.01 — «Информатика и вычислительная техника.

в лекционном курсе «Функциональные узлы и процессоры» программы подготовки бакалавров 09.03.01 - «Информатика и вычислительная техника.

Апробация работы. Основные результаты работы докладывались на международных научно-технических конференциях «Информационные средства и технологии» 2011, 2013 гг., на 11-ой международной конференции «Распознавание образов и анализ изображений» 2013 г., на 11-ой международной конференции «Students' Science Conference» 2013 г., на международной конференции «2014 Intl. Conference on Soft Computing & Machine Intelligence» в 2014 г.

Публикации. Основные результаты диссертации опубликованы в 8 печатных работах, 2 из которых опубликованы в изданиях, рекомендованных ВАК.

Структура и объем диссертационной работы. Диссертационная работа изложена на 147 страницах, из них 127 страниц основного текста, 64 рисунка, 10 таблиц и состоит из введения, 5 глав, заключения, списка литературы из 81 наименования на 9 страницах и приложений на 11 страницах.

Основные положения, выносимые на защиту:

1. Метод выделения участков с речью на основе анализа распределения локальных экстремумов.

2. Метод реализации в ассоциативной осцилляторной среде аппарата скрытых Марковских моделей для распознавания речи.

3. Реализация на элементах ассоциативной осцилляторной среды вычисления функции вероятности прямого распространения. Клеточный ансамбль «Компаратор», выполняющий выбор потока с максимальной интенсивностью.

4. Метод распознавания речи без учета порядка следования звуков и его реализация на элементах ассоциативной осцилляторной среды

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении . обоснована актуальность исследуемой проблемы, сформулированы цель и задачи диссертационной работы, научная новизна, описаны полученные результаты и их практическая ценность, перечислены основные положения, выносимые на защиту и указана структура и состав диссертации.

В первой главе описана задача распознавания речи, приведен обзор компонентов системы автоматического распознавания речи (САРР) и типов ассоциативных сред. На основе этого обзора произведен выбор методов выделения признаков и распознавания.

В работе САРР выделяют три этапа: выделение признаков, обучение и распознавание. На первом этапе из исходного сигнала получают вектор признаков - сжатое описанию речевого сигнала. Наиболее популярный метод нахождения вектора признаков - метод мел-кепстральных коэффициентов (Mel-Frequency Cepstral Coefficients - MFCC), который был выбран для использования в данной работе.

Наиболее распространенным методом распознавания речи являются скрытые Марковские модели (СММ). С помощью СММ моделируют фонемы языка, которые, в свою очередь, объединяют в слова. Преимуществом СММ перед остальными методами является естественное встраивание времени в модель, что позволяет учесть вариативность произнесений по длине и скорости. Кроме того, разработаны эффективные алгоритмы СММ, которые имеют потенциал к распараллеливанию, чем пользуются специалисты при аппаратной реализации.

Ассоциативная осцилляторная среда (АОС) построена по принципу неоднородных клеточных автоматов, где каждая ячейка имеет свой закон

функционирования. В терминах АОС ячейки называются клеточными ансамблями, а законы их функционирования выбирается на этапе разработки алгоритма обработки информации. Базовым понятием АОС является спайк -информационное воздействие, передающееся между соседними клетками по локальным связям. Спайки образуют последовательности. Клеточные ансамбли среды обрабатывают эти последовательности.

Для реализации алгоритмов распознавания речи была выбрана ассоциативная осцилляторная среда, потому что:

• в ней возможна организация потоковых и конвейерных вычислений;

• ячейки среды можно гибко соединять друг, с другом, не ограничиваясь матричной структурой;

• за один такт каждая ячейка обрабатывает информацию (входные спайки) согласно заложенному в нее закону функционирования.

Во второй главе дано подробное описание предварительной обработки речевого сигнала, которая использовалась для проведения экспериментов в данной работе. Первая процедура предварительной обработки - нормализация по амплитуде, применяемая для устранения разброса громкости (рис. 1). Затем осуществляется выделение тех участков входного сигнала, на которых присутствует речь. Недостатками существующих методов выделения речи из сигнала являются допущение о том, что речь звучит громче, чем шум, и необходимость тщательного экспериментального подбора параметров. Для надежного выделения речи был разработан подход на основе анализа распределения локальных экстремумов.

0.5

| о

-0.5

О 2000 4000 БООО 6000 0 2000 4000 6000 ВООО

п п

а) б)

Рис. 1. Оцифрованный речевой сигнал до (а) и после (б) нормализации Распределением локальных экстремумов называется вектор

Р = (Р„,...,Р].....?2.), в котором Р/ - это доля экстремумов дискретного сигнала

Т

¡(п) разрядностью к, попавших в интервал значений Е1 шириной Ь, при этом =1. Для чистого тона распределение экстремумов представляет собой ярко

1

выраженные симметричные пики, для белого шума распределение имеет ассиметричный характер без ярко выраженных пиков. Используя эти особенности распределений экстремумов, была разработана подсистема выделения речевого сигнала из входного сигнала (рис. 2). Добавление высокочастотных обертонов заполняет ненулевыми значениями остальные интервалы распределения, сохраняя его симметричность. Для устранения этого

эффекта, строится огибающая сигнала, которая сглаживает малоамплитудные колебания, устраняя обертона. Для этого строятся два огибающих сигнала етах и ет1п, содержащие только максимумы и минимумы соответственно, затем строится средний сигнал 5, у которого каждый отсчет лежит между

етах+£т1п

максимумом и минимум исходного сигнала: = ——~—Л — 0,...,/V . Результат работы подсистемы выделения речи на основе анализа распределения экстремумов оценивался как процент верно помеченных фрагментов по 10 мс от их общего числа. Точность предлагаемого метода выделения речи составила 97.8% (традиционная пороговая функция набрала 85.65% точности).

Рис. 2. Разработанная подсистема выделения речи Завершающий этап предварительной выделения признаков - векторное квантование, суть которой состоит в том, чтобы на этапе обучения (кластеризации) составляется словарь из М=2Ь р-мерных векторов (кодовых слов - эталонов), а затем на этапе классификации рассматриваемый вектор заменяется индексом наиболее близкого к нему кодового слова получая на выходе цепочку символов О = (о1( о2,..., оТ) . Этим достигаются сжатие речевого сигнала и переход от непрерывного вектора признаков к дискретному, что позволяет использовать дискретные СММ.

В третьей главе дано краткое описание СММ и их применение в распознавании речи, а также разрабатывается реализация алгоритмов СММ на элементах ассоциативной осцилляторной среды.

Дискретная СММ Я = (А, В, п) определяется с помощью, С — [сь с2,..., см] - алфавита наблюдаемых значений, / = {£1; 12,..., £дг} - множества принимаемых системой состояний, А = {а^} - матрицы вероятностей переходов, В = {¿»¡(с^-)} - матрицы выходных вероятностей, где ¿¿(сй) - это вероятность наблюдать символ ск £ С, когда модель находится в состоянии г, п = {тг^ - вектора вероятностей начального состояния.

Применение СММ для распознавания изолированных слов происходит в два этапа:

1. Обучение - для каждого слова IV из словаря составляется СММ А1*';

2. Распознавание - выбирается та модель, для которой вероятность Р(0|Аи') породить рассматриваемую последовательность признаков О = (о1( о2, —, от) максимальна.

Нахождение РСОЦ1") осуществляется по алгоритму прямого хода, выполняющего вычислении функции прямого распространения вероятности

atii) = P(oi,o2, ...,ot, qt = ;|AW) = > at-i(0a,

bjfPt) (1)

ai0) = n]bj(.o{) (2)

m pj

P(0|Aw)=£ar(/)

/=i

Для его реализации в АОС предлагается метод вычисления вероятности прямого хода, основанный на представлении вероятностей {ay}, {b/(ot)} и {лгу} с помощью интенсивностей потоков спайков. Обозначим через P/v С*) интенсивность потока спайков х длиной iV, содержащим q единиц. Пусть появление спайка в потоке х является случайной величиной X £ {ОД} , имеющей распределение Бернулли. При этом, вероятность «успеха» равна Р(Х = 1) = Рх, а вероятность «неудачи» (отсутствия спайка) - Р(Х = 0) = 1 — Рх. Тогда при рассмотрении последовательности бесконечной длины:

Рх = lim PN(x) = lim i (4)

W->00 W-»a> TV

Таким образом, случайная цепочка спайков длиной N является носителем значения вероятности с точностью — . На основе этого принципа с использованием клеточных ансамблей из таблицы 1 были построены блоки, выполняющие вычисление вероятности прямого распространения. Таких блоков необходимо столько, сколько состояний в СММ. На рисунке 3 изображена схема вычисления m значений функции cct(j).

Алгоритм прямого хода имеет серьезный недостаток: значения, которые принимает at(J) и, в последствии, Р(0|А) из-за большого количества перемножений вероятностей экспоненциально убывают с ростом t. Для устранения убывания Р(0|А) предлагается замена значения at(j~) его логарифмом. Представление logat(J) с помощью интенсивности потока спайков осуществляется нормированием его значения к длине последовательности спайков N\

fl»0ogot(/)) = N

|loggtQ')l (5)

Имя и обозначение Уравнение интенсивностей Имя и обозначение Уравнение интенсивностей

Проводник Р0=РЧ Сумматор Р0=РЧ + Р*~ РЧР*

Накапливающий осциллятор "М' Ро — Рц ^ "" Умножитель № Ро = РдР$

Дифференциальный блок Я — Ь 1 Р0 = РГ + Рч-РьРГ ~P.Pt -РчРь + 2РЧР„РГ Дифференц 1" . +1 ч —Мл)-» и— »ал э, Р0х = 1 ,Ро2 = о, если Рч > Р5; Рог = 0 ,Р0г = 1, если Рц > Рч4.

Таблица 1. Клеточные ансамбли ассоциативной осцилляторной среды.

а»

1

§

1

1

в ■«

|

1

1

I

|

а51

а*

¿>,(о,)

С7м

¿722

а*5

Ь{о,)

а<з

¿На

а»а

ЬЩ

ОТО

X

X !

1 +

1 X 1

X —5»

X 1 1 —^

1 1 +

X —»

N

ад

"V

N

т)

N

Рис. 3. Схема вычисления т значений функции £ГС(/) на шаге I.

' В стационарном режиме.

Вычисление логарифма а((/) предлагается выполнять упрощенно:

^сссф =» 1одЬу(ос) + тах(1ода£; + 1ода1_1(0) (6)

В предложенной модификации полностью отсутствуют операции умножения и используется только сложение. Для реализации выбора потока спайков с максимальной интенсивностью на основе дифференциала был разработан клеточный ансамбль «Компаратор». Его обозначение и схема на элементах АОС и приведены на рисунках 4.а и 4.6 соответственно.

а) б)

Рис. 4. Клеточный ансамбль «Компаратор».

Модифицированный алгоритм распознавания имеет высокие аппаратные затраты из-за использования дифференциала. Для устранения этой проблемы был разработан новый метод распознавания, в котором упрощение вычислений происходит благодаря исключению из рассмотрения порядка следования символов о£. Предложенный подход основывается на Марковском допущении, согласно которому для Марковской цепи с рекуррентной структурой5следующее состояние определяется только текущим. Если известна вероятность Пу пребывания процесса в состоянии у, то можно также найти вероятность испускания символа ст данной СММ:

/

Предлагаемый метод распознавания основывается на вычислении логарифма вероятности породить СММ набор наблюдаемых значений О = {0!,..., 0(} без учета их порядка:

т

10ёР(д\Х) = ^\0ёВ(01). (8)

На рисунке 5 показана схема реализации вычисления 1о§ Р(0 ¡А) на элементах АОС.

5 В распознавании речи наибольшее распространение получили рекуррентные Марковские модели. В данной работе используются только рекуррентные СММ.

Рис. 5. Реализация вычисления logР(0 |Л) на элементах АОС В четвертой главе описаны программный комплекс, разработанный для исследования предложенных методов распознавания речи в АОС, и экспериментальная проверка рассмотренных методов распознавания в АОС на примере задачи распознавания русских слов. Все методы были реализованы в двух вариантах: программно и на программной модели АОС. На рисунке 6 изображены этапы обработки произнесения слова «день» разработанной системой распознавания. Результат распознавания оценивался с помощью традиционных для задач классификации метрик: точность (Precision), полнота (Recall) и -метрика. Точность Рг для класса £ - это вероятность того, что истинным классом примера х является £ при условии, что был предсказан класс £. Метрика полноты Р; для класса £ - это вероятность верного предсказания класса при условии, что истинным классом примера х является £. F^-метрика для каждого класса - это комбинация метрик точности и полноты, которую можно интерпретировать как их взвешенное среднее. Идеальный

классификатор дает = Р; = = 1 для всех классов. Средние значения этих метрик представлены в таблице 2.

Способ распознавания Программная реализация Реализация на программной модели АОС

Метрика полноты Метрика точности Fx-метрика Метрика полноты Метрика точности h-метрика

Исходный алгоритм прямого хода, Р(0|Х) 0.9750 ± 0.0112 0.9773 ± 0.0099 0.9749 ± 0.0088 - - -

Модифицированный алгоритм прямого хода р(ом 0.9750 ± 0.0112 0.9773 ± 0.0099 0.9749 ± 0.0088 0.6820 ± 0.0396 0.7202 ± 0.0350 0.6790 ± 0.0312

Без учета порядка следования звуков 0.9750 ±0.0112 0.9773 ± 0.0099 0.9749 ± 0.0088 0.9470 ± 0.0178 0.9510 ± 0.0133 0.9460 ±0.0128

Таблица 2. Результаты распознавания русских слов всеми рассмотренными методами (95% доверительный интервал для среднего значения).

в-{5 5 36 5 2« 26 4 154 58 3« 38 4 4 !

1 -индекс слова «дсаь»

Рис. 6. Пример работы подсистемы распознавания при обработке произнесения слова «день».

В пятой главе описана аппаратная реализация метода распознавания без учета порядка следования звуков в АОС, выполненная на языке УНПЬ. Анализ информационных процессов в разработанном методе распознавания без учета порядка звуков в осцилляторной среде показал, что для каждой СММ Л1" необходимо составить модуль вычисления вероятности 1одР(6 ¡А") . Все модули Xм работают параллельно, за одинаковое количество тактов выдают результат на клеточный ансамбль дифференциал, который выбирает поток с наибольшей интенсивностью (рис. 7). Для получения аргумента максимума используется шифратор.

Рис. 7. Структура блока распознавания. В структуре модуля Aw можно выделить три блока (рис 8):

1. накопитель размером М XJC для хранения потоков спайков длиной К, отображающих вероятности В(от) наблюдения символа от, т= 1,..., М;

2. арифметический блок с памятью, выполняющий накопление потока спайков, отображающего искомую вероятность logP(6

3. блок управления, контролирующий подачу данных из накопителя в арифметический блок.

Рис. 8. Структура модуля, выполняющего вычисление log?(6 |AW) для СММ Х"\

На рисунке 9 приведен синтезированный в (ЗиаАв II схемный символ арифметического блока модуля Л№ . Полученный компонент может быть параметризован по длине цепочки спайков (параметр зрЦсе8_йо*у_1еп^). Его интерфейс включает следующие входы и выходы: СЬК - синхровход, Б1 -входная шина данных, зепа1_ои1 - выход для последовательного чтения данных со сдвигом, БМЗ - установка режима последовательного чтения со сдвигом, С1ЧТ - установка режима логического суммирования данных на Б1 с содержимым регистра, ИЗТ - сброс. Все изменения состояния разработанного компонента - сложение с сохранением, сброс, чтение со сдвигом, происходят только по фронту синхросигнала СЬК. На временной диаграмме (рис. 10) продемонстрированы режим сложения с сохранением, а затем за 4 такта последовательное считывание цепочки спайков. После этого демонстрируется сброс с помощью Я8Т.

spltes jiow jengtn 256 Slgned Integer

; aom„a<id6r

|— CLK ser^LOUt

!- С NT

j- RST

;— SRD

[ : in D l[eplkes_flov/_l«ti gth-1. o; Л

Рис. 9. Арифметический блок модуля X".

Value at о ps

!&- CLK ВО

СНГ B1

ifc s di g oiio

33 senaLmit ВО

ROT ВО

!â- SRD ВО

Оре Ю.0 ш

120.0ns 160.0га 200,0га

ш

г_

Рис. 10. Временная диаграмма работы арифметического блока модуля А".

На рисунке 11 приведен модуль «Дифференциал». Входы 5 и в соответствуют информационным входам дифференциала, на которые подаются потоки спайков. Получение нового выходного значения происходит по фронту СЬК. При этом, чтобы изменить состояние дифференциала, его необходимо выбрать, установив на входе ЕЫ высокий уровень. Анализируя входные потоки, дифференциал переходит в стационарное состояние, когда один из его замкнутых осцилляторов насыщается, а другой - полностью останавливается (т.е. его интенсивность становится равно нулю). Для того, чтобы повторно использовать дифференциал, был предусмотрен синхронный вход ЮТ, сбрасывающий заряды осцилляторов в нулевое значение. Наконец, в

разработанном УЬГОЬ-описании предусмотрена параметризация дифференциала по емкости замкнутых осцилляторов (параметр с!1а^е_з1ге, на рис. 11 равный 4).. Временная диаграмма его работы приведена на рис. 12.

Яр Туре

с1тагде_5£е А адпей Медег

|— а

1— 5 оиО

;— си

'г- ЕМ

яет

I 1П81

Рис. 11. Блок «Дифференциал» в С?иаг1д5 II.

Мате 'а'иеа( Оде Орэ 40,0 га 80.0 то 120,0 пв 160.0г» 200.0 пз

............................................................................... 1

сис во ® оии* . во оиЦ; В 0 &.: ч ¡81 ¿1 8 В1 = 1_ ип

! ! 1 —

- 1 « - ......!"

-1— — —■—!— ГЛ ~п

£2- вч В1 ЮТ ВО -1-!- — ]

' ' ' > ' 1 ;■ ■ 1 ! I : ::-1-1—

Рис. 12. Временная диаграмма работы блока «Дифференциал».

На рисунке 13 представлена схема блока распознавания с двумя модулями К" . Таким образом, для работы с разработанной аппаратной реализацией блока распознавания необходимо предусмотреть наличие внешних устройств, осуществляющих обучение системы, загрузку полученных при обучении цепочек спайков в модули А™ блока распознавания и управление режимами его работы.

В заключении приведены основные результаты работы, которые состоят в следующем:

1. Проведен анализ задачи распознавания речи, рассмотрены основные компоненты систем автоматического распознавания речи.

2. Рассмотрены методы предварительной обработки и выделения признаков" речевого сигнала, среди которых выбран подход, основанный на нахождении мел-кепстральных коэффициентов.

3. Рассмотрены методы распознавания речи и выбран аппарат скрытых Марковских моделей.

;«Г<ШГ

РЖ......

ГйзгГ»й

......

гйацай"

Г£8..........

ГШ

СГГ>

Рис. 13. Схема блока распознавания с двумя модулями X"

_

4. Разработан и исследован метод выделения речи, основанный на анализе распределения локальных экстремумов входного сигнала. Написана его программная реализация.

5. Разработан метод реализации алгоритма прямого хода в ассоциативной осцилляторной среде, основанный на представлении вероятности с помощью интенсивности потока спайков. Предложена реализация на элементах ассоциативной осцилляторной среды.

6. Разработана модификация алгоритма прямого хода, в которой упрощено вычисление логарифма вероятности прямого хода. Предложена реализация на элементах ассоциативной осцилляторной среды.

7. Разработан метод распознавания речи, не учитывающий порядок следования звуков речи. Предложена его реализация на элементах ассоциативной осцилляторной среды.

8. Разработан программный комплекс, позволяющий создавать речевые базы и включающий программные модели предложенных реализаций распознавания речи в осцилляторной среде.

9. Сформирована речевая база русских слов, которая была использована для обучения и тестирования разработанной системы распознавания.

10. На созданной речевой базе были исследованы предложенные реализации распознавания в осцилляторной среде. Была оценена точность распознавания, а также получены зависимости точности от различных параметров: выбранной длины последовательности спайков, количества распознаваемых различных слов (классов).

11. Разработана аппаратная реализация блока распознавания речи в ассоциативной осцилляторной среде на ПЛИС с использованием САПР QUARTUS П 13.1 Web Edition и ISE 14.7 Web Pack.

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ:

1. Огнев И.В., Огнев А.И., Парамонов П.А., Метод выделения речи на основе анализа распределения локальных экстремумов сигнала в системах автоматического распознавания // Информационные технологии в проектировании и производстве, науч.-техн. журн. // ФГУП "ВИМИ"-2014.-№2.-с. 35-40.

2. Огнев И.В., Парамонов П.А., Распознавание речи методами скрытых марковских моделей в ассоциативной осцилляторной среде. // Известия высших учебных заведений. Поволжский регион. Технические науки -2013. - Вып. 3.-с. 115-126.

3. Paramonov P., Sutula N., Simplified scoring methods for HMM-based speech recognition // Soft Computing, 2015, DOI: 10.1007/s00500-015-1831-l.

4. Огнев И.В., Огнев А.И., Парамонов П.А., Классификация речевых образов на основе анализа распределений их локальных экстремумов, труды

XXI международной научно-технической конференции "Информационные средства и технологии". - М.: МЭИ, 2013 - с. 53-57.

5. I.V. Ognev, A.I. Ognev, P.A. Paramonov, N.A. Sutula, The use of extrema distribution as a feature vector for speech patterns recognition, The 11th International Conference "Pattern Recognition and Image Analysis: New Information Technologies", Vol. 1,2013.-Pp. 114-117.

6. Огнев И. В., Парамонов П.А. Исследование способов представления числа для реализации арифметических операций в ассоциативной среде с командным управлением // Информационные средства и технологии: труды Международной научно-технической конференции (19 - 21 октября 2010 г.): в 3 т. -М.: МЭИ, 2010. - 1 т. - с. 54-60.

7. Огнев И. В., Парамонов П.А. Реализация арифметических операций в ассоциативной среде с командным управлением // Информационные средства и технологии: труды Международной научно-технической конференции (19 - 21 октября 2010 г.) : в З-ч т. - М.: МЭИ, 2010. - 1 т. - с. 61-68.

8. Огнев И. В., Парамонов П.А. Предварительная обработка речевого сигнала для построения базы произношений одиночных слов // Информационные средства и технологии: труды Международной научно-технической конференции (20 - 22 октября 2012 г.) : в 3 т. - М.: МЭИ, 2012. - 1 т.-с. 53-58.

Подписано в печать А9,СЗ-Я0№/зЛКш Xif¿¿rw. fO П.л. Типография Издательства МЭИ, Красноказарменная ул.,д.13