Оптимизация библиотеки эталонов в задачах распознавания речевых команд

Крашенинникова, Наталья Александровна

Математическое моделирование, численные методы и комплексы программ

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Оптимизация библиотеки эталонов в задачах распознавания речевых команд

кандидата технических наук: Крашенинникова, Наталья Александровна
город: Ульяновск
год: 2007
специальность ВАК РФ: 05.13.18

Диссертация по информатике, вычислительной технике и управлению на тему «Оптимизация библиотеки эталонов в задачах распознавания речевых команд»

Автореферат диссертации по теме "Оптимизация библиотеки эталонов в задачах распознавания речевых команд"

На правах рукописи

Крашенинникова Наталья Александровна

ОПТИМИЗАЦИЯ БИБЛИОТЕКИ ЭТАЛОНОВ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД

Специальность 05 13 18 - Математическое моделирование,

численные методы и комплексы программ

Автореферат

диссертации на соискание ученой степени кандидата технических наук

□03 1ТТ0Б2

Ульяновск - 2007

003177062

Работа выполнена на кафедре систем автоматизированного проектирования государственного образовательного учреждения высшего профессионального образования Ульяновский государственный технический университет

Научный руководитель

доктор технических наук, профессор, зав кафедрой САПР УлГТУ, Крашенинников Виктор Ростиславович

Официальные оппоненты

доктор физико-математических наук, профессор, заведующий кафедрой прикладной математики Ульяновского государственного университета Бутов Александр Александрович

кандидат технических наук, начальник отдела программного обеспечения филиала «БИН-Ульяновск» АКБ «БИН» (ОАО) Герчес Владислав Геннадьевич

Ведущая организация ОАО «Ульяновское конструкторское бюро

приборостроения»

Защита диссертации состоится «26» декабря 2007 г в 15 часов на заседании диссертационного совета Д 212 277 02 при Ульяновском государственном техническом университете по адресу 432027, г Ульяновск, ул Северный Венец, 32 (ауд 211)

С диссертацией можно ознакомиться в библиотеке Ульяновского государственного технического университета, с авторефератом - на сайте вуза Ьир //\vw\v иЬш ги1

Автореферат разослан «_» _2007 г

Ученый секретарь В Р Крашенинников

диссертационного совета, ,' у

доктор технических наук, профессор

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время большое распространение имеют различные информационно-управляющие системы Эти системы особенно удобны, когда оператор может общаться с ними естественным для себя образом - на родном языке с помощью речевых команд (РК) Поэтому большое внимание исследователей уделяется созданию речевых информационно-управляющих систем (РИУС) Такие системы особенно полезны на транспорте и производстве, когда требуется управлять исполнительными механизмами, получать информацию об их состоянии и окружающей обстановке и снизить нагрузку на оператора Подобные системы должны функционировать в условиях интенсивных помех (шума двигателя, ветра и т д) Поэтому актуальны исследования в области распознавания РК на фоне сильных шумов В настоящее время существуют системы распознавания РК, работоспособные при малых шумах, однако они не пригодны в шумной среде В связи с этим распознавание РК на фоне интенсивных шумов является важной научно-технической проблемой

В условиях сильных шумов обычно применяется дикторозависимое распознавание РК с использованием библиотеки эталонов речевых команд (ЭРК), и, как показывают эксперименты, качество распознавания в существенной мере зависит от того, насколько удачно сформирована эта библиотека

Эта библиотека должна отражать изменчивость (вариативность) произнесения РК и не быть слишком большой, то есть каждая РК не должна иметь много эталонов Задача выбора эталонных элементов рассматривается в теории распознавания образов и имеет много общего с задачей кластеризации (тогда эталоны - центры кластеров) Однако задача кластеризации рассматривалась, в основном, для элементов в некотором пространстве количественных признаков Центр кластера (эталон) при этом обычно не обязательно является элементом этого кластера, это какой-то усредненный элемент В то же время существуют работоспособные алгоритмы распознавания РК, для которых не удается указать евклидово пространство признаков В таких алгоритмах для каждой пары РК некоторым образом вычисляется степень их «несхожести», то есть некоторое подобие метрики (расстояния) между этими РК Алгоритм относит распознаваемую РК к ближайшей ЭРК в смысле этой метрики Поэтому актуальной задачей является разработка методов формирования библиотеки ЭРК для таких алгоритмов распознавания Особенность здесь в том, что заданы только расстояния между РК и в качестве эталонов можно брать только имеющиеся РК

При проектировании РИУС иногда бывает возможным выбор словаря, то есть самих РК, из множества допустимых синонимов Отсюда возникает задача оптимизации этого словаря.

Таким образом, тема диссертации, связанной с повышением качества работы РИУС за счет оптимизации словаря и библиотеки ЭРК, является актуальной

Об актуальности названных задач свидетельствует ряд научных федеральных программ, направленных на их решение В частности, «Исследования и разработки по приоритетным направлениям развития науки и техники» Федерального агентства по науке и инновациям, «Теория человеко-машинных систем управления» РФФИ и др

Целью диссертации является разработка методов, алгоритмов и программного обеспечения для формирования словаря и библиотеки ЭРК, повышающих качество распознавания РК в условиях интенсивных шумов Для достижения поставленной цели решаются следующие задачи

- Исследование влияния состава библиотеки ЭРК на качество распознавания РК

- Определение границ применимости авторегрессионной модели вариативности речи при имитации произнесений РК из одного ее произнесения диктором для формирования библиотеки ЭРК

- Исследование различимости фонем русского и английского языков с использованием полученных данных для формирования словаря РК из допустимых синонимов

- Разработка алгоритмов формирования словаря РК

- Разработка алгоритмов формирования библиотеки ЭРК, учитывающих вариативность произношения и соотношения между различными РК

- Моделирование процесса распознавания РК со сформированными библиотеками ЭРК

- Разработка комплекса программ для ЭВМ, реализующего предложенные алгоритмы

- В диссертации также рассмотрена задача, связанная с обучением операюров и других учащихся иностранным языкам Если обучение проводит один преподаватель, то учащиеся привыкают к его произношению и в последствии не сразу воспринимают иностранную речь других людей, что было, в частности, причиной авиакатастроф Предложено устранение этого недостатка обучения с помощью моделей вариативности речи

Отметим, что в задачи диссертации не входит разработка или совершенствование самих алгоритмов распознавания РК Целью является повышение качества распознавания заданного алгоритма за счет рационального выбора словаря и библиотеки эталонов

Методы исследования. При решении поставленных задач применялись методы теории вероятностей, математической статистики, теории обработки изображений, оптимизации, математического анализа, численные методы, математическое и статистическое моделирование с применением вычислительной техники Положения, выносимые на защиту

1 Модель вариативности речи в виде отсчетов по траекториям на авторегрессионном изображении позволяет получать варианты произнесения РК из одного ее произнесения диктором для формирования библиотеки ЭРК Эта модель также может быть использована для ускорения приобретения навыков восприятия иностранной речи

2 Проведенные исследования различимости фонем русского и английского языков позволяют оценить различимость РК, учитываемую при выборе словаря команд из множества допустимых синонимов

3 Проведенное математическое моделирование процесса распознавания РК показывает, что разработанные алгоритмы формирования словаря и библиотеки эталонов обеспечивают вероятность правильного распознавания, близкую к потенциально достижимой

Достоверность. Достоверность положений диссертации обеспечивается корректным использованием математических методов и подтверждается результатами статистических экспериментов на реальном речевом материале

Практическая значимость. Предложенные алгоритмы и реализующие их программы дают разработчикам РИУС возможность повысить надежность систем распознавания РК на фоне интенсивных шумов за счет рационального выбора словаря и библиотеки эталонов РК Предложенный метод обучения с использованием моделей вариативности речи позволяет ускорить процесс понимания иностранной речи, произносимой разными людьми

Реализация работы. Результаты работы использованы в госбюджетных и хоздоговорных НИР Ульяновского государственного технического университета и в разработках Ульяновского конструкторского бюро приборостроения, что подтверждено актом внедрения

Научная новизна

1 Предложена новая методика формирования словаря РК, основанная на усредненной различимости фонем

2 Разработана новая методика формирования библиотеки ЭРК для непараметрических алгоритмов распознавания, когда эталоны следует выбирать из вариантов произнесения РК

3 Разработан новый метод кластеризации элементов признакового пространства, основанный на математическом моделировании физической системы частиц с гравитационным взаимодействием Этот метод может

быть использован при формировании библиотеки ЭРК для параметрических алгоритмов распознавания

Апробация работы. Основные результаты работы докладывались на 2-й Международной конф «ICCSA'2006» (UK, Glasgow, 2006), 5-й Всероссийской с участием стран СНГ научно-практической конференции «Современные проблемы создания и эксплуатации радиотехнических систем» (Ульяновск, 2007), 8-й Международной научно-техн конф PRIA-8-2007 «Распознавание образов и анализ изображений новые информационные технологии» (Йошкар-Ола, 2007), 62-й научной сессии Российского научно-технического общества радиотехники, электроники и связи им АС Попова, посвященной Дню радио (Москва, 2007) и на конференции профессорско-преподавательского состава Ульяновского государственного университета в 2006 г

Публикации. По теме диссертации опубликовано 9 статей, одна статья опубликована в издании из перечня ВАК

Объем и структура диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы из 112 наименований и приложения Общий объем 138 страниц

СОДЕРЖАНИЕ РАБОТЫ

Во введении раскрыта актуальность темы и сформулированы цели и задачи работы, указывается научная новизна и практическая значимость полученных результатов, дается краткое содержание и структура диссертации

В первой главе приводятся краткие сведения о физиологии человеческого восприятия звуков речи и системы речеобразования Дается обзор основных методов распознавания РК и некоторых известных систем распознавания РК на фоне интенсивных шумов Описан алгоритм распознавания РК по их автокорреляционным портретам (АКП), на примере которого апробируются разрабатываемые в диссертации алгоритмы Исследована распознаваемость АКП фонем русского и английского языков Проанализирована авторегрессионная модель вариативности PC, позволяющая имитировать варианты произнесения РК из одного ее произнесения диктором Проанализирована степень влияния состава библиотеки эталонов на качество распознавания РК

Среди известных систем распознавания РК в условиях особо сильных шумов значительное место занимают авиационные системы речевого управления и контроля полета Однако до настоящего времени не создано достаточно надежной авиационной РИУС Поэтому продолжают оставаться актуальными исследования, направленные на повышение качества систем распознавания РК в условиях интенсивных шумов

Отмечается, что перспективными для распознавания РК на фоне помех являются методы, основанные на обработке изображений - АКП

К таким методам относится распознавание по АКП команд, заключающееся в сравнении АКП распознаваемой команды с АКП эталонных команд, хранящихся в памяти В результате команда относится к тому эталону, к которому она ближе всего в смысле используемой метрики Этот метод, в основном, и рассматривается в диссертации

Отметим, что этот метод относится к непараметрическим методам -расстояние между РК находится не как метрика в каком-то признаковом пространстве, а вычисляется как мера различия (квазиметрика) АКП этих РК

На распознаваемость РК существенно влияет их фонетический состав - чем больше РК различаются по своему звучанию, тем лучше они распознаются любым алгоритмом В связи с этим проанализирована различимость АКП фонем русского и английского языков, из которой складывается различимость РК

Одним из основных факторов, отрицательно влияющих на распознавание РК, является высокая изменчивость РС, проявляющаяся в отличиях различных произнесений одного и того же РС Из-за этого при проектировании систем распознавания РК требуется, чтобы диктор повторял каждую РК много раз, что отнимает массу времени В связи с этим предлагается использование авторегрессионной модели вариативности речи, позволяющей имитировать произнесения РК из одного ее произнесения диктором и снимающей проблему получения вариантов произнесения с экономией времени

Для моделирования вариативности РС использована авторегрессионная модель изображений Хабиби В качестве первой строки х, = (х,,, ^ = 1, , Ы] изображения берутся (центрированные) отсчеты исходной РК sJ, произнесенной диктором, то есть хХ] = $ Последующие строки изображения формируются с помощью авторегрессии

*„ = г , + стаЛ - г2 (1)

ху = г *.-],, + р *'.]-1 " р г -Р2) I,, (2)

где £ - независимые стандартные гауссовские случайные величины

Сетка отсчетов этого изображения показана на рис 1 Очередные его строки можно рассматривать как варианты произнесения исходного РС С возрастанием номера строки г коэффициент ее корреляции с первой строкой убывает по экспоненте г'"1 , поэтому возрастают ее отличия от исходной РК вплоть до неузнаваемости Для имитации изменений длительности фонем отсчеты имитируемых РК будем брать в точках, помеченных на рис 1, а крестиками Расположение этих точек на строке,

то есть по времени, управляется случайным процессом, согласованным с экспериментальными данными исследования вариации

продолжительности фонем. Сами эти отсчеты получаются интерполяцией сеточной функции x-j на дробные значения координат. Если брать в

качестве вариантов произнесений точки, расположенные на случайных криволинейных траекториях (рис. 1, б), то достигается различная степень вариации тембра в различных участках имитируемой РК (чем дальше от первой строки, тем больше изменения).

Имитированные варианты PC по звучанию близки к реальным вариантам PC, что подтверждается проведенными исследованиями акустического восприятия. Обнаружилась также близость вероятностей правильного распознавания имитированных и реальных вариантов РК. Проведенные исследования восприимчивости имитированных РК на слух показали, что для уверенного распознавания этот коэффициент корреляции должен быть не менее 0.5. Поэтому в модели (1)-(2) следует брать не более ln(0.5)/ln(r) + 1 строк. Однако вариантов произнесения можно получить сколько-угодно, перезапуская эту процедуру достаточное количество раз -каждый раз ввиду случайности ^ будут получаться различные варианты

РК.

В диссертации рассмотрено ещё одно применение описанной модели вариативности PC. Для безопасности работы транспорта, особенно авиационного, требуется хорошее понимание команд диспетчера, произносимых на иностранном языке. Если обучение языку проводит один преподаватель, то учащиеся привыкают к его произношению и в последствии не сразу воспринимают иностранную речь других людей, что было, в частности, причиной авиакатастроф. Предложено устранение этого недостатка обучения с помощью применения моделей вариативности речи.

(исходная РК)

Зп,

(начальная РК) J

ГП U—X

Xmj

Xmt

х->; ç

СП-

а б

Рис. 1. Схема имитации РК: а) вдоль строки, б) вдоль траектории на изображении

При занятии в лингафонном кабинете учащиеся через свои наушники слышат произносимый преподавателем текст в разнообразных вариантах

(голос мужской или женский, глухой или певучий и т д ), получаемых с помощью моделей вариативности В результате использования моделей вариативности речевых сигналов достигается эффект обучения со многими людьми, что в дальнейшем должно способствовать легкости восприятия иностранной речи Описанная методика была апробирована при обучении студентов и аспирантов Ульяновского государственного университета После занятий был произведен контрольный перевод предложенных фраз, произнесенных разными людьми

Учащиеся экспериментальной группы показали достаточно высокий уровень понимания текста Их не смущал тот факт, что по мере прослушивания материала менялись дикторы и произношение Правильно переведено около 95% фраз В контрольной группе, где преподавание проводилось обычным образом, некоторые учащиеся отказались от перевода вообще, так как не воспринимали воспроизводимый с пленки текст Другие же допускали много ошибок В результате правильных переводов было около 55%

То, что состав ЭРК влияет на характеристики распознавания, не вызывает сомнения Мера этого влияния была исследована на реальном речевом материале

В проведенных экспериментах для каждой из т команд имелось п произнесений, то есть всего М = тп РК, полученных следующим образом Сначала диктор читал все т команд подряд по одному разу Затем он через некоторый промежуток времени читал их еще раз и так далее в течение одного-двух дней Такое растягивание начитки сделано для того, чтобы избежать однообразия произнесений Далее с помощью конкретного алгоритма распознавания определялись расстояния между всеми парами полученных РК и составлялась матрица И этих расстояний

Библиотека ЭРК должна иметь по к эталонов каждой команды, то есть

существует ^^ вариантов библиотеки, которые полностью перебрать

технически невозможно Поэтому большое количество раз формировались случайные варианты библиотеки Для каждого варианта можно определять различные его характеристики, учитывая матрицу расстояний В частности, вероятность (относительную частоту) Р правильного распознавания имеющегося набора РК при использовании данного варианта библиотеки

В табл 1 и на рис 2 приведен типичный пример результатов таких экспериментов Здесь было сделано 30000 случайных выборов библиотеки ЭРК авиационной тематики при т=20, п~10, к=3 и распознавании по АКП

Таблица 1. Статистический ряд правильно распознанных РК

% распознавания 91 92 93 94 95 96 97 93 99

частота 126 761 8849 8089 6817 5048 280 30 0

О 10 20 30 40 50 60 70 80 90 100

Рис. 2. Гистограмма процента правильно распознанных РК

Полученные данные показывают, что качество распознавания очень сильно зависит от состава библиотеки ЭРК. Диапазон значений Р здесь от 91 до 98 процентов (возможно, что он еще больше, так как в эксперименте далеко не все существующие варианты библиотеки учтены). При сильном зашумлении размах значений Р достигал 20% и больше. Аналогичный разброс значений Р возможен и в действительности, если эталоны выбирать случайным образом или же взять просто по к произнесений каждой команды диктором.

Отметим, что малые значения Р маловероятны при случайном формировании библиотеки (более вероятны средние значения), поэтому алгоритм распознавания РК но их АКП на испытаниях показывал приемлемое качество даже без специального выбора эталонов.

Однако имеются варианты библиотеки, которые обеспечивают значения Р, существенно большие средних. Такие варианты тоже маловероятны при случайном формировании библиотеки. Поэтому актуальна разработка методов оптимизации библиотеки эталонов, что и является целью данной диссертации.

Во второй главе диссертации рассматриваются методы оптимизации словаря РК и библиотеки их эталонов с целью повышения качества работы РИУС.

В немногочисленных известных работах по формированию библиотеки ЭРК рассматриваются случаи параметрического распознавания, когда РК представлены как точки или траектории в некотором признаковом пространстве. В качестве эталонов выбираются элементы этого же пространства. Эти методы неприменимы непосредственно к непараметрическому распознаванию, так как при таком

способе распознавания в качестве эталонов можно брать только имеющиеся произношения РК В диссертации рассматривается именно такой случай

Для улучшения представления разнообразия произнесения РК целесообразно использовать несколько ее эталонов, и чем их больше, тем лучше Однако при большом количестве ЭРК возрастают вычислительные затраты на распознавание В целях сокращения объема вычислений следовало бы сократить количество ЭРК каждой РК, но так, чтобы они достаточно полно характеризовали разнообразие произношений данной РК Таким образом, из множества произнесений каждой РК нужно выбрать подмножество, в каком-то смысле наилучшим образом представляющее эту РК

Сформулируем решаемую задачу Словарь состоит из т РК

{С ,С , ,С } Для каждой РК С, имеется множество ее произнесений

1 2 т

~ {Р^'Р^' ' Рт^ Это множество может состоять из произнесений

реальных или же сформированных искусственно Кроме того, оно может включать в себя произнесения на фоне различных шумов В целом, это множество должно достаточно полно описывать возможные варианты этой РК, которые могут встретиться при ее распознавании

Для любых элементов р и с{ из Р = !] и иРт определена функция (квазиметрика) с1(р,ц), которая, возможно, не удовлетворяет только аксиоме треугольника Величина с1{р,д) является степенью различия между элементами р ид Это может быть разница между спектрами звуковых сигналов, их АКП, вейвлет-преобразованиями и т д Будем в дальнейшем называть с1(р,д) расстоянием между р ид Для нас важна только возможность определения этих расстояний Они определяются путем применения конкретного алгоритма распознавания, в котором эти расстояния, собственно, и вычисляются Если при распознавании используются допоанительные признаки, например, если РК считаются разными при существенном различии их длин, то соответствующее расстояние принимается

равным максимуму элементов матрицы расстояний

Из каждого множества Р требуется выбрать к элементов

Е -{е ,е , ,е }<=Р, которые будем называть ЭРК Совокупность всех I /1 ¡2 гк

эталонов составляет библиотеку ЭРК Эта библиотека должна быть оптимальной в смысле некоторого критерия качества £/

Естественным и основным критерием качества библиотеки является вероятность (относительная частота) правильного распознавания имеющихся произнесений РК, то есть К / N, где К - число распознанных

команд и М - их общее количество Таким образом, оптимальной является библиотека, максимизирующая критерий

К! N (3)

Рассмотрены и другие критерии, характеризующие геометрические соотношения расстояний между РК Среднее расстояние

1 т

с1~ — I Етт{({{р ,е),ееЕ ), М 1=1 реРг '

М = И| + «2 +

+ и„

(4)

,1т —

от РК до ближайшего ее эталона характеризует полноту описания команды, поэтому оно должно быть как можно меньше Здесь М -количество неэталонных команд Среднее расстояние между эталонами разных команд

1 т „ ...... _ (5)

1=1 ее£.

тк

где - количество эталонов, наоборот, должно быть как можно больше То же самое относится и к среднему расстоянию от РК до ближайшего эталона других команд

_ 1 т '

N Н у=1 и

(6)

где .'V = и, + и2 + + пт - общее число имеющихся РК Отсюда получаем еще два критерия качества

и = <ИВЬ

(7)

(8)

и =йЮ2 з

которые следует минимизировать

Первый критерий учитывает только соотношения расстояний «больше-меньше» Два других критерия полнее отражают соотношения между расстояниями, поэтому они иногда могут лучше оценивать каче< тво библиотеки Проведенные эксперименты показали, что эти три критерия взаимосвязаны, показателем чего является их достаточно высокая коррелированность Например, для 200 произнесений 20 команд авиационной тематики были получены коэффициенты парной корреляции, представленные в табл 2

Таблица 2 Коэффициенты корреляции критериев

и, и,

1 -0 68 -0 57

-0 68 1 0 86

и, -0 57 0 86 1

Отмстим, что поставленная задача имеет много общего с задачей кластеризации, поскольку каждую ЭРК можно рассматривать как «центр» кластера, состоящего из РК, ближайших именно к этому эталону (на рис 3 условно показано по три эталона каждой из четырех РК)

По методам кластеризации имеется обширная литература Однако в известных методах решения задачи кластеризации элементы заданы в некотором признаковом пространстве, то есть имеют координаты, поэтому центры кластеров (эталоны) находятся как точки этого пространства и могут не совпадать ни с одним из кластеризуемых элементов В рассматриваемой же здесь задаче наличие признакового пространства не предполагается (известны только расстояния между РК), и эталоны выбираются из числа имеющихся произношений команд

Эта задача ввиду конечности множества Р решается полным перебором Однако количество вариантов библиотеки оказывается слишком большим для практической реализации Поэтому далее в диссертации рассматриваются квазиоптимальные алгоритмы решения поставленной задачи, которые позволяют получить хорошие решения за приемлемое время

Алгоритм улучшения имеющегося решения Сначала случайным образом выбирается первоначальный набор ЭРК, для которого вычисляется соответствующее значение критерия и Затем производится перебор всех вариантов замены ЭРК каждой РК на неэталонный элемент этой РК Лучший из получаемых вариантов каждый раз запоминается Описанная процедура улучшения набора ЭРК производится два раза Полученный в конце вариант принимается за библиотеку ЭРК

Эксперименты с данным алгоритмом показали, что получаемая библиотека ЭРК оказывается обычно тупиковой (далее не улучшается описанной процедурой) и, если и не является оптимальной, то близка к ней Выполняется алгоритм довольно быстро - затрачиваемое время растет примерно линейно с ростом числа произнесений

Гравитационный алгоритм. Этот алгоритм разработан для параметрических методов распознавания, когда произнесения РК можно представить в виде точек 5-мерного евклидова пространства с обычной метрикой Такое представление естественно, если распознавание РК производится по 5 количественным признакам

Рис 3 Классы произнесений речевых команд и эталоны в них

Пусть сначала имеется только одна команда с множеством произнесений Р, которые будем считать материальными точками с единичной массой в вязкой среде Тогда эти точки будут испытывать взаимное притяжение с силой, обратно пропорциональной (з-1)-й степени расстояния между ними Точки, расположенные ближе друг к другу, притягиваются сильнее, быстрее сближаются и соединяются в кластеры На рис 4 приведен пример применения данного алгоритма к системе сорока точек на плоскости На рис 4, а показано начальное положение точек, на рис 4, б - промежуточное положение, на рис 4, в - положение, когда образовалось 5 кластеров Эти кластеры показаны (рис 4, г) на исходном положении точек с помощью отрезков, идущих из точек к центру своего кластера Если имеется несколько команд, тогда точки, соответствующие разным РК, не должны объединяться в один кластер Поэтому для таких точек вместо притяжения вводится равное ему по силе отталкивание

в г

Рис 4 Последовательные положения движущихся точек и их объединение в клас!еры

Математическое моделирование этого алгоритма показало его работоспособность Однако он неприменим к непараметрическим методам распознавания РК

Библиотеки с разными количествами ЭРК В сформулированной ранее задаче формирования библиотеки предполагалось, что количество эталонов для всех РК одинаково Это требование не является обязательным разные РК могут иметь различную вариативность, поэтому количество ЭРК целесообразно увеличивать для РК с большой вариативностью и уменьшав для маловариативных РК Тогда при

фиксированном общем числе эталонов можно получить библиотеки с большей вероятностью правильного распознавания Программная реализация распознавания с такими библиотеками усложняется очень незначительно

Описанные выше алгоритмы легко модернизируются для составления таких библиотек В процессе оптимизации вместо условия о равенстве количества эталонов команд вводится условие, что общее количество эталонов фиксировано и что каждая команда имеет хотя бы один эталон

Формирование словаря речевых команд из множества синонимов. На начальном этапе разработки РИУС иногда имеется возможность изменить сам набор РК А именно, если какой-то смысловой набор РК уже имеется, то можно по желанию некоторые РК заменить на их допустимые синонимы

Например, команды «Кислород больше» и «Кислород меньше» звучат на большей их части одинаково, поэтому плохо различаются, особенно при сильных шумах Различение будет лучше, если эти команды заменить, например, на «Кислород поднять» и «Кислород опустить» или на «Кислород прибавить» и «Кислород уменьшить» При этом надо учитывать и остальные РК, так как улучшение различимости этой пары команд может ухудшить их различимость с другими командами Отсюда возникает задача формирования словаря, то есть набора РК из множества их синонимов, чтобы их различимость в совокупности была как можно большей В этом случае естественно ожидать и более высокого качества распознавания РК

Сформулируем решаемую задачу Словарь состоит из т РК

{С ,С , ,С } Для каждой РК С имеется множество ее синонимов

12т

1*1 = {Р1\>Рг2> ' Рт1} Если у какой-то команды С, нет других синонимов, то соответствующее множество Р содержит только один элемент - саму эту команду С Как и ранее, для любых элементов р и ц из = иР, определено расстояние с1{р,д), являющееся степенью различия между р ад Из каждого множества Р, требуется выбрать по одному элементу Е1 е Р, Их набор Е -- /Г, и Е2 и и Ет и будет сформированным набором РК, то есть словарем Словарь должен быть оптимальным в смысле критерия, отражающего различимость команд

Таким образом, в основной своей части задача формирования словаря РК отличается от основной рассматриваемой в диссертации задачи формирования библиотеки ЭРК тем, что классы Р1 состоят из синонимов и в каждом классе нужно выбрать только один элемент

Здесь уже никакой роли не играют расстояния между элементами внутри классов - важны только расстояния между РК словаря

£ = £,иЯ;и иЕт Поэтому в качестве критерия качества можно взять среднее расстояние от команд словаря до ближайших к ним команд словаря

от

(9)

которое должно быть максимальным

Вместо этого критерия можно потребовать, чтобы минимальное из расстояний между РК словаря было максимально В этом случае величина к = тах/г = тахтт{с?(Ф £,} (Ю)

будет гарантированной различимостью любой пары команд из сформированного словаря (максминный критерий)

Рассмотренные примеры показали, что при случайном формировании словаря сформулированные критерии имеют распределения с большим диапазоном значений этих критериев, аналогичные распределениям для библиотеки эталонов Поэтому нужны алгоритмы оптимизации словаря

Поставленную задачу можно решать всеми рассмотренными в диссертации методами формирования библиотеки ЭРК по известным расстояниям, так как эти две задачи принципиально схожи При этом нужны только расстояния между синонимами разных РК Эти расстояния можно найти обычным способом, то есть применением используемого алгоритма распознавания Но для этого все эти синонимы должны быть прои'несены тем диктором, под которого формируется словарь Однако словарь формируется не для конкретного диктора, а для конкретной РИУС или даже для более широкого использования Поэтому нужны усредненные данные о расстояниях (различимости) синонимов

В диссертации предложен способ нахождения этих расстояний, основанный на фонемном составе РК Для этого было проведено исследование различимости фонем русского и английского языков по их АКП Пусть имеется две РК, не очень сильно отличающиеся по длительности (не более чем в 1 7 раза, в противном случае алгоритм распознавания считает эти команды разными) Временные фонемные диаграммы этих РК путем равномерного растяжения более короткой диаграммы приводятся к одному интервалу времени В результате получается сопоставление фонем этих двух команд по времени На рис 5 показан пример сопоставления фонем РК «Шасси» и «Крыло»

К р Ы Л о

1 О Ю5 О 1 76 О 4 85 О 635

I о о Э43 О 112 О ЗО0 о 3 35 г

ш А С С И

I сок

Рис 5 Сопоставление фонетических диаграмм команд «Шасси» и «Крыло»

Расстояние между РК находится по формуле

¿(/>„л)= ¡рШ>),/2(0№, (11)

где р{о1,а2) - расстояние между фонемами а\ и а2

Проблема «старения» эталонов. В процессе испытаний алгоритмов распознавания было замечено, что без обновления библиотеки качество распознавания иногда с течением времени ухудшалось Это объясняется тем, что произношение диктора с течением времени флуктуирует, и ранее начитанные эталоны «стареют» в том смысле, что несколько отличаются от типа произношения в данный момент Эта проблема может быть решена следующим образом Для данного диктора со временем накапливаются его произнесения каждой команды Тогда при формировании библиотеки эталонов в нее автоматически будут попадать наиболее характерные произнесения команд, полученные в разное время В проведенных экспериментах это обстоятельство было учтено — РК начитывались не сразу, а на протяжении некоторого времени

В третьей главе диссертации представлена программная реализация предложенных алгоритмов Алгоритмы реализованы программами на ПК с использованием языка программирования высокого уровня (Visual Basic) Они могут быть применены к любому набору распознаваемых РК и при любом количестве их произнесений

Разработанный комплекс программ для формирования словаря РК и библиотеки эталонов РК включает в себя программы, реализующие следующие операции

1 Распознавание множества РК при заданной библиотеке ЭРК с вычислением процента правильно распознанных команд

2 Построение матрицы расстояний между РК из заданного их множества, причем способ вычисления этих расстояний тот же самый, что и в алгоритме распознавания

3 Оптимизация словаря РК, выбираемого из заданного списка синонимов

4 Оптимизация библиотеки эталонов РК различными способами

5 Получение вариантов произнесения РК из одного ее произнесения диктором

Приводится описание и интерфейс этих программ Кроме того, произведен расчет вычислительных затрат и определены аппаратные требования для реализации

Заключение. Проведенные исследования позволили повысить качество распознавания за счет оптимизации словаря и библиотеки эталонов РК Таким образом, поставленная цель диссертации может считаться достигнутой

Основные результаты диссертации заключаются в следующем

1 Исследовано влияние состава библиотеки эталонов на вероятность правильного распознавания РК по их АКП Установлено, что эта вероятность может колебаться в широких пределах (иногда до десятков процентов)

2 Необходимые для формирования словаря варианты произнесения РК можно имитировать из одного ее произнесения диктором с помощью модели вариативности РС в виде траектории на авторегрессионном изображении Определены показатели различимости имитированных РК алгоритмически и на слух в зависимости от уровня вариативности и интенсивности шумов Эта модель может быть использована также для ускорения достижения способности учащихся воспринимать иностранную речь разных людей, а не только своего преподавателя

3 Исследованная различимость фонем русского и английского языков дает возможность определить различимость РК, используемую при формировании словаря РК из допустимых синонимов

4 Разработаны алгоритмы оптимизации словаря РК для непараметрических алгоритмов распознавания

5 Разработан метод кластеризации элементов признакового пространства, основанный на математическом моделировании физической системы частиц с гравитационным взаимодействием Этот метод может быть использован при формировании библиотеки ЭРК для параметрических алгоритмов распознавания

6 Проведено математическое моделирование процесса распознавания РК со сформированными библиотеками Оно показало, что разработанные алгоритмы оптимизации библиотеки ЭРК позволяют получать варианты этой библиотеки, близкие к оптимальным Во множестве экспериментов оптимизированные библиотеки давали вероятность распознавания, всегда существенно большую ее среднего значения, получаемого при случайном выборе библиотеки, и близкую к вероятности распознавания у наилучшего из десятков тысяч наугад выбранных вариантов библиотеки

7 Разработан комплекс программ для ЭВМ, реализующий предложенные алгоритмы

В приложении содержится акт внедрения результатов диссертационной работы

Основные результаты диссертации изложены в следующих публикациях

В изданиях из перечня ВАК

1 Крашенинников В Р , Армер А И , Крашенинникова Н А , Хвостов А В Распознавание речевых команд на фоне интенсивных помех с помощью авторегрессионных портретов II Наукоемкие технологии - Москва, 2007, № 9 - С 6574

В других изданиях

2 Крашенинникова H А Экспериментальное исследование восприятия вариантов реченых команд, нолученных с помощью dBiopeipect-ионной модели изображения Хабиби // Электронная техника Межвузовскии сборник научных трудов Выпуск седьмой -Ульяновск УлГТУ, 2005 -С 41-44

3 Крашенинникова H А , Армер А И Различимость авторегрессионных портретов основных фонем русского языка при распознавании речевых команд // Ученые записки Ульяновского государственного университета Актуальные проблемы теории языка, лингводидактики и краеведческой лингвистики - Ульяновск УлГУ, 2006, вып 1(11), ч

I -С 25-28

4 Крашенинникова H А, Распутько Е А Выбор эталонов речевых команд, ¿датированный к алгоритму их распознавания II Современные проблемы проектирования, производства и эксплуатации радиотехнических систем Сборник научных трудов Пятый выпуск - Ульяновск, 2006 - С 128-130

5 Крашенинникова НА К вопросу о распознавании речевых команд в информационно-управляющих системах // Электронная техника Межвузовский сборник научных трудов Выпуск восьмой - Ульяновск УлГТУ, 2006 - С 77-83

6 Krasheninmkov V R , Armer АI, Krasheninmkova N А , Derevyankin V Р , Kozhevnikov V I, Makarov N N Autoregressive Models of Speech Signal Variability in the Speech Commands Statistical Distinction // Internetional Conference on Computational Science and it's Applications, Springer-Verlag Berlin Heidelberg, 2006 - pp 974-982

7 Крашеншшиков В P , Крашенинникова H A , Кузнецов В В Алгоритм выбора эталонов речевых команд при распознавании речи // Труды Российского научно-техническою общества радиотехники, электроники и связи им А С Попова Серия Научная сессия, посвященная Дню радио Выпуск LXII - Москва, 2007 - С 158-159

8 Крашенинникова H А Применение моделей вариативности речевых сигналов для обучения операторов и других учащихся английскому языку // Труды 5 всероссийской научно-практической конференции с участием стран СНГ «Современные проблемы создания и эксплуатации радиотехнических систем» -Ульяновск, 2007 - С 68-70

9 Krasheninmkova N A Formation of model library for recognition of speech commands on the background of noise // 8th International Conference on Pattern Recognition and Image Analysis New Information Technologies, PRIA-8-2007 Conference Proceedings Volume 1 Yoshkar-Ola, 2007 - pp 275-278

Подписано в печать 16 11 07 Формат 60x84/16 Гарнитура Times New Roman Уел пл 1,0 Тираж 100 экз Заказ №180/^^"

Отпечатано в Издательском центре Ульяновского государственного университета 432970, г Ульяновск, ул Л Толстого, 42

Оглавление автор диссертации — кандидата технических наук Крашенинникова, Наталья Александровна

Список сокращений, принятых в диссертации

Введение

Глава 1. Речевой сигнал, распознавание речевых команд по их 10 эталонам

1.1. Система речеобразования

1.2. Фонетический состав речи

1.2.1. Звуковой и фонетический состав русского языка

1.2.2. Звуковой и фонетический состав английского языка

1.3. Слуховая система

1.3.1. Устройство слуховой системы

1.3.2. Восприятие звуков речи

1.4. Методы представления речевых сигналов

1.5. Вариативность речевых сигналов

1.5.1. Основные характеристики вариативности речевых сигналов

1.5.2. Моделирование вариативности речевых сигналов с помощью 33 авторегрессионных моделей

1.5.3. Исследование восприятия имитированных РК на слух

1.5.4. Применение моделирования вариативности речи в обучении 42 иностранным языкам

1.6. Методы и системы распознавания речевых команд

1.6.1. Обзор систем распознавания речевых команд

1.6.2. Основные факторы, мешающие распознаванию речевых команд

1.6.3. Методы распознавания речевых команд

1.6.4. Основной применяемый метод распознавания речевых команд

1.7. Влияние состава библиотеки эталонов речевых команд на 62 качество их распознавания

1.8. Выводы

Глава 2. Речевой сигнал, распознавание речевых команд по их 68 эталонам

2.1. Постановка задачи формирования библиотеки эталонов 68 речевых команд

2.2. Критерии качества библиотеки эталонов речевых команд

2.3. Аналогия с задачей кластеризации

2.4. Алгоритмы оптимизации библиотеки эталонов речевых 76 команд

2.4.1. Полный и частичный переборы вариантов библиотеки эталонов 77 речевых команд

2.4.2. Алгоритм улучшения имеющегося решения (направленный 78 перебор)

2.4.3. Гравитационный алгоритм

2.5. Библиотеки с разными количествами эталонов

2.6. Проблема старения эталонов

2.7. Формирование словаря речевых команд из множества 90 синонимов

2.7.1. Постановка задачи

2.7.2. Методы формирование словаря речевых команд. 93 Нахождение расстояний между речевыми командами. Учет вариативности речи

2.8. Выводы

Глава 3. Комплекс программ для формирования словаря речевых 110 команд и библиотеки их эталонов

3.1. Состав комплекса программ

3.2. Распознавание РК

3.2.1. Обнаружение границ РК

3.2.2. Построение автокорреляционных портретов речевых команд

3.2.3. Совмещение автокорреляционных портретов

3.2.4. Распознавание команд и подсчет результата

3.2.5. Формирование матрицы расстояний между РК

3.2.6. Выбор эталонов РК

3.2.7. Графический интерфейс комплекса программ для 117 формирования библиотеки эталонов РК

3.2.8. Расчет времени формирования матрицы расстояний между РК

3.2.9. Аппаратные требования для систем 121 3.3. Выводы 122 Заключение 123 Список использованных источников 125 Приложение. Акт внедрения результатов диссертационной работы

Введение 2007 год, диссертация по информатике, вычислительной технике и управлению, Крашенинникова, Наталья Александровна

Актуальность темы. В настоящее время большое распространение имеют различные информационно-управляющие системы. Эти системы особенно удобны, когда оператор может общаться с ними естественным для себя образом - на родном языке с помощью речевых команд (РК). Поэтому большое внимание исследователей уделяется созданию речевых информационно-управляющих систем (РИУС). Такие системы особенно полезны на транспорте и производстве, когда требуется управлять исполнительными механизмами, получать информацию об их состоянии и окружающей обстановке и снизить нагрузку на оператора. Подобные системы должны функционировать в условиях интенсивных помех (шума двигателя, ветра и т.д.). Поэтому актуальны исследования в области распознавания РК на фоне сильных шумов. В настоящее время существуют системы распознавания РК, работоспособные при малых шумах, однако они не пригодны в шумной среде. В связи с этим распознавание РК на фоне интенсивных шумов является важной научно-технической проблемой.

Эта библиотека должна отражать изменчивость (вариативность) произнесения РК и не быть слишком большой, то есть каждая РК не должна иметь много эталонов. Задача выбора эталонных элементов рассматривается в теории распознавания образов и имеет много общего с задачей кластеризации (тогда эталоны - центры кластеров). Однако задача кластеризации рассматривалась, в основном, для элементов в некотором пространстве количественных признаков. Центр кластера (эталон) при этом обычно не обязательно является элементом этого кластера, это какой-то усреднённый элемент. В то же время существуют работоспособные алгоритмы распознавания РК, для которых не удается указать евклидово пространство признаков. В таких алгоритмах для каждой пары РК некоторым образом вычисляется степень их «несхожести», то есть некоторое подобие метрики (расстояния) между этими РК. Алгоритм относит распознаваемую РК к ближайшей ЭРК в смысле этой метрики. Поэтому актуальной задачей является разработка методов формирования библиотеки ЭРК для таких алгоритмов распознавания. Особенность здесь в том, что заданы только расстояния между РК и в качестве эталонов можно брать только имеющиеся РК.

При проектировании РИУС иногда бывает возможным выбор словаря, то есть самих РК, из множества допустимых синонимов. Отсюда возникает задача оптимизации этого словаря.

Таким образом, тема диссертации, связанной с повышением качества работы РИУС за счёт оптимизации словаря и библиотеки ЭРК, является актуальной.

Об актуальности названных задач свидетельствует ряд научных федеральных программ, направленных на их решение. В частности, «Исследования и разработки по приоритетным направлениям развития науки и техники» Федерального агентства по науке и инновациям, «Теория человеко-машинных систем управления» РФФИ и др.

Для достижения поставленной цели решаются следующие задачи.

-Исследование влияния состава библиотеки ЭРК на качество распознавания РК.

-Определение границ применимости авторегрессионной модели вариативности речи при имитации произнесений РК из одного её произнесения диктором для формирования библиотеки ЭРК.

-Исследование различимости фонем русского и английского языков с использованием полученных данных для формирования словаря РК из допустимых синонимов.

-Разработка алгоритмов формирования словаря РК.

-Моделирование процесса распознавания РК со сформированными библиотеками ЭРК.

-Разработка алгоритмов формирования библиотеки ЭРК, учитывающих вариативность произношения и соотношения между различными РК.

-Разработка комплекса программ для ЭВМ, реализующего предложенные алгоритмы.

-В диссертации также рассмотрена задача, связанная с обучением операторов и других учащихся иностранным языкам. Если обучение проводит один преподаватель, то учащиеся привыкают к его произношению и в последствии не сразу воспринимают иностранную речь других людей, что было, в частности, причиной авиакатастроф. Предложено устранение этого недостатка обучения с помощью моделей вариативности речи.

Отметим, что в задачи диссертации не входит разработка или совершенствование самих алгоритмов распознавания РК. Целью является повышение качества распознавания заданного алгоритма за счёт рационального выбора словаря и библиотеки эталонов.

Положения, выносимые на защиту.

1. Модель вариативности речи в виде отсчетов по траекториям на авторегрессионном изображении позволяет получать варианты произнесения РК из одного её произнесения диктором для формирования библиотеки ЭРК. Эта модель также может быть использована для ускорения приобретения навыков восприятия иностранной речи.

2. Проведенные исследования различимости фонем русского и английского языков позволяют оценить различимость РК, учитываемую при выборе словаря команд из множества допустимых синонимов.

3. Проведенное математическое моделирование процесса распознавания РК показывает, что разработанные алгоритмы формирования словаря и библиотеки эталонов обеспечивают вероятность правильного распознавания, близкую к потенциально достижимой.

Практическая значимость. Предложенные алгоритмы и реализующие их программы дают разработчикам РИУС возможность повысить надежность систем распознавания РК на фоне интенсивных шумов за счет рационального выбора словаря и библиотеки эталонов РК. Предложенный метод обучения с использованием моделей вариативности речи позволяет ускорить процесс понимания иностранной речи, произносимой разными людьми.

Научная новизна.

1. Предложена новая методика формирования словаря РК, основанная на усреднённой различимости фонем.

2. Разработана новая методика формирования библиотеки ЭРК для непараметрических алгоритмов распознавания, когда эталоны следует выбирать из вариантов произнесения РК.

3. Разработан новый метод кластеризации элементов признакового пространства, основанный на математическом моделировании физической системы частиц с гравитационным взаимодействием. Этот метод может быть использован при формировании библиотеки ЭРК для параметрических алгоритмов распознавания.

Апробация работы. Основные результаты работы докладывались на 2-й Международной конф. «ICCSA'2006» (UK, Glasgow, 2006); 5-й Всероссийской с участием стран СНГ научно-практической конференции «Современные проблемы создания и эксплуатации радиотехнических систем» (Ульяновск, 2007); 8-й Международной научно-техн. конф. РША-8-2007 «Распознавание образов и анализ изображений: новые информационные технологии» (Йошкар-Ола, 2007); 62-й научной сессии Российского научно-технического общества радиотехники, электроники и связи им. А.С.Попова, посвященной Дню радио (Москва, 2007) и на конференции профессорско-преподавательского состава Ульяновского государственного университета в 2006 г.

Публикации. По теме диссертации опубликовано 9 статей, одна статья опубликована в издании из перечня ВАК.

Объем и структура диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы из 112 наименований и приложения. Общий объем 138 страниц.

Заключение диссертация на тему "Оптимизация библиотеки эталонов в задачах распознавания речевых команд"

Основные результаты диссертации заключаются в следующем.

1. Исследовано влияние состава библиотеки эталонов на вероятность правильного распознавания РК по их АКП. Установлено, что эта вероятность может колебаться в широких пределах (иногда до десятков процентов).

2. Необходимые для формирования словаря варианты произнесения РК можно имитировать из одного её произнесения диктором с помощью модели вариативности РС в виде траекторий на авторегрессионном изображении. Определены показатели различимости имитированных РК алгоритмически и на слух в зависимости от уровня вариативности и интенсивности шумов. Эта модель может быть использована также для ускорения достижения способности учащихся воспринимать иностранную речь разных людей, а не только своего преподавателя.

3. Исследованная различимость фонем русского и английского языков даёт возможность определить различимость РК, используемую при формировании словаря РК из допустимых синонимов.

4. Разработаны алгоритмы оптимизации словаря РК для непараметрических алгоритмов распознавания.

5. Разработан метод кластеризации элементов признакового пространства, основанный на математическом моделировании физической системы частиц с гравитационным взаимодействием. Этот метод может быть использован при формировании библиотеки ЭРК для параметрических алгоритмов распознавания.

6. Проведено математическое моделирование процесса распознавания РК со сформированными библиотеками. Оно показало, что разработанные алгоритмы оптимизации библиотеки ЭРК позволяют получать варианты этой библиотеки, близкие к оптимальным. Во множестве экспериментов оптимизированные библиотеки давали вероятность распознавания, всегда существенно большую её среднего значения, получаемого при случайном выборе библиотеки, и близкую к вероятности распознавания у наилучшего из десятков тысяч наугад выбранных вариантов библиотеки.

7. Разработан комплекс программ для ЭВМ, реализующий предложенные алгоритмы.

ЗАКЛЮЧЕНИЕ

Проведенные исследования позволили повысить качество распознавания за счет оптимизации словаря и библиотеки эталонов РК. Таким образом, поставленная цель диссертации может считаться достигнутой.

Библиография Крашенинникова, Наталья Александровна, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Альтман Я. А. Слуховая система. JL: Наука, 1990. - 620 с.

2. Асаи К., Ватада Д., Иваи С. и др. Распознавание речи // Прикладные нечёткие системы. Под ред. Тэрано Т., Асаи К., Сугено M. М.: Мир, 1993.-С. 157-171.

3. Беллман Р., Заде J1. Принятие решений в расплывчатых условиях. // Вопросы анализа и процедуры принятия решений. М. Мир, 1976. -С. 172-215.

4. Берштейн JI.C., Боженюк A.B. Нечеткие модели принятия решений: дедукция, индукция, аналогия. Монография. Таганрог: Изд-во ТРТУ, 2001.-110 с.

5. Блауэрт И. Пространственный слух. М.: Энергия, 1979. - 224 с.

6. Бойков Ф.Г., Старожилова Т.К. Применение вейвлет-анализа сигнала в системе распознавания речи // Труды международной конференции «Диалог 2003», Звенигород, 2003. С. 12 - 19.

7. Вартанян И.А. Слуховой анализ сложных звуков. Л.: Наука, 1978.-151 с.

8. Вельмисов А.П. Алгоритм нечеткой кластеризации. Труды средневолжского математического общества. Т.8, №1 Саранск: Средневолжское математическое общество, 2006г. - С. 192 - 197.

9. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. К.: Наукова думка, 1987. - 264 с.

10. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. С-Пб.: ВУС, 1999. - 204 с.

11. Галунов В.И. Речь как система. // Труды XIII сессии РАО, т. 3, 2003.-С. 19-21.

12. Галунов В.И., Соловьев А.Н. Современные проблемы в области распознавания речи // Информационные технологии и вычислительные системы. Вып. 2. Под. ред. C.B. Емельянова, 2004. 112 с.

13. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высш. шк., 1998. - 479с.

14. Горелик А.Л., Скрипкин В.А. Методы распознавания. М: Высшая школа, 2004. - 261 с.

15. Гудонавичюс Р.В., Кемешис П.П., Читавичюс А.Б. Распознавание речевых сигналов по их структурным свойствам. JL: Энергия, 1977. - 64 с.

16. Добеши И. Десять лекций по вейвлетам. Ижевск: НИЦ "Регулярная и хаотическая динамика", 2001. - 464 с.

17. Елинек Ф. Распознавание непрерывной речи статистическими методами //ТИИЭР-М., 1976, №4.-С. 131-160.

18. Жожикашвили В.А., Жожикашвили A.B., Петухова Н.В., Фархадов М.П. Применение распознавания речи в автоматизированных системах массового обслуживания// Автоматизация и современные технологии, 2003, №11. С. 23 - 29.

19. Журавлёв Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики, 1978, вып. 33.-С.5-68.

20. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. -Новосибирск: ИМ СО РАН, 1999. 273 с.

21. Загоруйко Н.Г., Лбов Г.С. Выбор информативного подмножества элементов с применением методов распознавания образов // Труды 5-й Международной конф. «Распознавание образов и анализ изображений» РОАИ-5-2000. Самара, 2000. - С. 47 - 51.

22. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. М. Мир, 1976. - 165 с.

23. Златоустова Л.В., Михайлов В.Г. Спорные вопросы теории восприятия единиц речи // Вестник МГУ, Филология, 1995. С. 18-24.

24. Иванов A.B., Петровский A.A. Методы построения устройств распознавания речи на базе гибрида нейронная сеть/скрытая Марковская модель // Нейрокомпьютеры: разработка, применение, 2002, №12.-С. 26-36.

25. Калинов Д.В. Моделирование и фильтрация речевых сигналов с использованием преобразования в изображения // Диссертация на соискание ученой степени кандидата технических наук. Ульяновск, 2003.-141 с.

26. Киселёв В.В., Таланов А.О., Тампель И.Б., Татарникова М.Ю., Хохлов Ю.Ю. Автоматический поиск ключевых слов в непрерывном потоке речи на основе технологии "распознавание через синтез". Центр речевых технологий, Санкт-Петербург, http://www.speechpro.ru/

27. Книппер A.B. Индивидуальные вариации длительности элементов речи // Речевая информатика. Сборник трудов под ред. В.В. Зяблова. М.: Наука, 1989. - С. 34 - 48.

28. Кодзасов C.B. Общая фонетика. М.: РГГУ, 2001. - 592 с.

29. Крашенинников В.Р. Основы теории обработки изображений. -Ульяновск: УлГТУ, 2003. 151 с.

30. Крашенинников В.Р., Армер А.И. Зашумление эталонов в задачах обнаружения и распознавания сигналов на фоне помех // Вестник УлГТУ. Апрель-июнь (26) 2/2004, Ульяновск: УлГТУ, 2004. -С. 54-57.

31. Крашенинников В.Р., Армер А.И. Модель изменчивости речевых команд // Вестник УлГТУ 4/2004, Ульяновск: УлГТУ, 2004. С. 44 - 46.

32. Крашенинников В.Р., Армер А.И. Распознавание речевых сигналов на фоне шумов // «Распознавание образов и анализ изображений: новые информационные технологии». Труды седьмой международной конференции РОАИ-7, С-Пб, 2004. С. 752 - 755.

33. Крашенинников В.Р., Армер А.И., Крашенинникова H.A., Хвостов A.B. Распознавание речевых команд на фоне интенсивных помех с помощью авторегрессионных портретов // Наукоемкие технологии. Москва, 2007, № 9. - С. 65 - 74.

34. Крашенинников В.Р., Калинов Д.В. Спиралевидная авторегрессионная модель квазипериодического сигнала, связанная с изображением на цилиндре // Вестник УлГТУ. Сер. Информационные технологии, №3,2000. С. 4 -10.

35. Крашенинников В.Р., Ташлинский А.Г., Армер А.И. Устройство распознавания речевых команд в условиях шумов // Патент РФ № 2267820 от 10.01.2006.

36. Крашенинников И.В. Периодическое комплексирование речевых сигналов в изображение // Труды Международной конференции "Методы и средства преобразования и обработки аналоговой информации", т. 3. Ульяновск: УлГТУ, 1999. - С. 56 - 58.

37. Крашенинникова H.A. К вопросу о распознавании речевых команд в информационно-управляющих системах // Электронная техника: Межвузовский сборник научных трудов. Выпуск восьмой. -Ульяновск: УлГТУ, 2006. С. 77 - 83.

38. Кринов С.Н., Слуцкер Г.С. Экспериментальная дикторонезависимая система понимания слитной речи // Речеваяинформатика. Сборник трудов под ред. В.В. Зяблова. М.: Наука, 1989. -С. 87-95.

39. Лабутин В.К., Молчанов А.П. Слух и анализ сигналов. М.: Энергия, 1967. - 79 с.

40. Лабутин В.К. Молчанов А.П. Модели механизмов слуха. М.: Энергия, 1973.- 200 с.

41. Левин Е.К., Левин К.Е. Моделирование процесса создания эталонов голосовых команд для систем автоматического распознавания речи // Цифровая обработка сигналов. Москва, 2002, № 2(6)/2002. - С. 21-22.

42. Мазуренко И.Л. Компьютерные системы распознавания речи. // Интеллектуальные системы, т.З. вып. 1 2 - Москва, 1998. - С. 117 -134.

43. Мазуренко И.Л. Одна модель распознавания речи. В сб.: Компьютерные аспекты в научных исследованиях и учебном процессе -М.: Издательство Московского университета, 1996. с. 136 - 147.

44. Маковелл Д. Квантование вектора в кодировании речи // ТИЭР, 1985, т.73, №11. С. 19-60.

45. Малеев О.Г., Козлов Ю.М. Способ дикторонезависимого распознавания изолированных речевых команд // Патент РФ № 2103753 от 03.02.1997 г.

46. Маркел Дж. Д., Грэй А.Х. Линейное предсказание речи / Пер. с англ. М.: Связь, 1980. - 308 с.

47. Михайлов В.Г. К теории восприятия звучащей речи: соотношение акустических и перцептивных параметров // Акустический журнал, т. 43, №2,1997. С. 219 - 224.

48. Михайлов В.Г., Златоустов Л.В. Измерение параметров речи. -М.: Радио и связь, 1987. 167 с.

49. Мясникова E.H. Объективное распознавание звуков речи. Л.: Изд-во «Энергия», 1967. - 148 с.

50. Обработка нечеткой информации в системах принятия решений / Борисов A.B., Алексеев A.B., Меркурьева Г.В. и др. М.: Радио и связь, 1989-304 с.

51. Пиконе Дж. Методы моделирования сигнала в распознавании речи / Пер. с англ. Р. Попов. Кемерово, 2000. - 79 с.

52. Потапова P.K. Речевое управление роботами. М.: Радио и связь, 1989.-248 с.

53. Потапова Р.К. Речь: коммуникация, информация, кибернетика. -М.: Радио и связь, 1997. 568 с.

54. Проблемы построения систем понимания речи. // Под ред. Цемель Г.И., Сорокина В.Н. -М.: Наука, 1980. 144 с.

55. Прохоров Ю.Н. Статистические методы и рекуррентное предсказание речевых сигналов. М.: Радио и связь, 1984. - 240 с.

56. Прохоров Ю.Н. Рекуррентное оценивание параметров. В кн.: Проблемы построения систем понимания речи - М.: Наука, 1980. - С. 97- 109.

57. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. под ред. М.В. Назарова, Ю.Н. Прохорова. М.: Радио и связь, 1981. - 495 с.

58. Рабинер JI.P. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор. // ТИИЭР -М., 1989,№2.-С. 86- 120.

59. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963. - 452 с.

60. Сорокин В.Н. Временные параметры элементов русской речи // Речевая информатика. Сборник трудов под ред. В.В. Зяблова. М.: Наука, 1989.-С. 5-33.

61. Сорокин В.Н. Теория речеобразования. М.: Радио и связь, 1985.-312 с.

62. Сорокин В.Н., Суханов В.А. Скрытые марковские модели в распознавании речи // Речевая информатика. Сборник трудов под ред. В.В. Зяблова.-М.: Наука, 1989.-С. 104-118.

63. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964.-283 с.

64. Федоренко О.Г. Разработка и исследование методов повышения эффективности программно-аппаратных вычислительных средств обработки речевых сигналов // Автореферат диссертации на соискание ученой степени к.т.н. Таганрог: ТРТУ, 1999. - 19 с.

65. Федяев О.И., Гладунов С.А. Нейросетевой интерпретатор речевых команд для управления программными системами // Труды 7-й всероссийской конференции «Нейрокомпьютеры и их применение» /

66. Под редакцией А.И. Галушкина. М.: Институт проблем управления, 2001.-С. 298-301.

67. Физиология речи. Восприятие речи человеком / Под ред. JI.A. Чистович. Д.: Наука, 1976. - 386 с.

68. Фланаган Дж. Анализ, синтез и восприятие речи // Пер. с англ. -М.: Связь, 1968.-396 с.

69. Хайдер А.С. Математические модели и комплекс программ для автоматического распознавания дикторов // Автореферат диссертации на соискание ученой степени кандидата технических наук. Санкт-Петербург: ЛЭТИ, 2004. - 17 с.

70. Черри Е., Хале М, Якобсон Р. К вопросу о логическом описании языков в их фонологическом аспекте // Новое в лингвистике. Под. Ред. В.А. Звягинцева. М.: ИЛ, 1962. - С. 279 - 298.

71. Чучупал В.Я., Маковкин К.А., Чичагов А.В. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи // Искусственный интеллект, том 4, №1. Киев: Наука i освда, 2002. - С. 575 - 579.

72. Atal В. Effectiveness of Linear Prediction Characteristics of the Speech Wave for Automatic Speaker Identification and Verification // J. Acoust. Soc. Araer., Vol. 55, 1974.-Pp. 1304- 1312.

73. Desimio M., Anderson Т., Westerkamp J. Phoneme Recognition with a Model of Binaural Hearing // IEEE Trans. Speech and Audio Processing, vol. 4,No. 3, 1996.-Pp. 157- 165.

74. Durlach N. I., Gabriel K.J., Colburn H.S., Trahiotis C. Interaural Correlation Discrimination. II Relation to Binaural Unmasking // J. Acoust. Soc.Amer., Vol. 79, N5, 1986.-Pp. 1548- 1557.

75. Ephraim Y., Malah D. Speech Enhancement Using a Minimum Mean Square Error Short-Time Spectral Amplitude Estimator // IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-32,1984. Pp. 1109-1121.

76. Franti P., Kivijarvi J. Random Swapping Technique for Improving Clustering in Unsupervised Classification. // ftp: // ftp.es. joensuu.fi /franti/ papers/ scia99-l.ps

77. Franti P., Kivijarvi J. Randomized Local Search Algorithm for the Clustering Problem.//Pattern Analysis an Applications, 3(4): 358-369, 2000. ftp://ftp.cs.joensuu.fi/ franti/papers/rls.ps

78. Govorilka. http://www.vector-ski.ru/vecs/govorilka/

79. Gray R. M. Vector Quantization. // IEEE ASSP Mag., vol. 1. Pp. 4 -29, April 1984.

80. Green D.M., Yost W.A. Binaural Analysis // Handbook of Sensory Physiology, vol. 5/2. Berlin: Springer-Verlag, 1975. Pp. 403-408.

81. Habibi A. Two-dimensional Bayesian Estimate of Images. // In Proc. IEEE, vol. 60, July 1972. Pp. 873 -883.

82. Jelinek F. Statistical Methods for Speech Recognition. Cambridge: The MIT Press, 1998.-P. 283.

83. Kinnunen T., Karkkainen I., Franti P. Is Speech Data Clustered? -Statistical Analysis of Cepstral Features. http://cs.joensuu.fi / pages / tkinnu / research /pdf/IsSpeechClustered.pdf

84. Kinnunen T., Kilpelainen T., Franti P. Comparison of Clustering Algorithms in Speaker Identification", Proc. LASTED Int. Conf. Signal Processing and Communications (SPC), Marbella, Spain, 2000. Pp. 222 -227.

85. Kinnunen T., Franti P. Speaker Discriminative Weighting Method for VQ-based Speaker Identification." http://cs.joensuu.fi/pages/tkinnu/ research/ pdf/Discriminative wightingMethod.pdf

86. Krasheninnikov V.R., Armer A.I. Speech Command Variations Simulation at Different Pronounciations // Proceedings of the Second IASTED International Multi-Conference on Automation Control and Information Technology, Novosibirsk, 2005. Pp. 155 - 157.

87. Krasheninnikov V.R., Armer A.I., Derevyankin V.P., Kozhevnikov V.I., Makarov N.N. The Speech Commands Variability Simulation // International Conference on Next Generation Concurrent Engineering, Texas, Lubboc, 2005. Pp. 387 - 390.

88. Lippmann R., Gold B. Neural Classifiers Useful for Speech Recognition // Proc. IEEE First Int. Conf. Neural Net. Vol. IV, 1987. Pp. 417-422.

89. Meng B. Speech Recognition: Not a Typical Engineering Problem // Digit Des. N 6, 1985. Pp. 49 - 57.

90. Miller G., Nicely P. An Analysis of Perceptual Confusion among Consonants // J. Acoust. Soc. Am.,V. 27, № 2, 1955. Pp. 338 ~ 352.

91. Peinado A., Segura J., Rubio A., Garcia P., Perez J. Discriminative Codebook Design Using Multiple Vector Quantization in HMM-Based Speech Recognizers // IEEE Trans. Speech and Audio Processing, vol. 4, No. 2,1996.-Pp. 89-94.

92. Rohlicek R., Russell W., Roukos S., Gish H. Continuous Hidden Markov Modeling for Speaker-Independent Word Spotting // 1989 IEEE ICASSP. Pp. 627-630.

93. Rhode W.S. Some Observations on Cohlear Mechanics // J. Acoust. Soc. Amer., Vol. 64, N 1, 1978. Pp. 158 - 176.

94. Sankar A., Lee C.-H. A Maximum-Likelihood Approach to Stochastic Matching for Robust Speech Recognition // IEEE Trans. Speech and Audio Processing, vol. 4, No. 3,1996. Pp. 190 - 201.

95. Shaw E.A.G., Stinson M.R. The Human External and Middle Ear Models and Concepts // Mechanics of hearing. Delft: Martinus Nijhoff, 1983. -Pp.3-10.

96. Singh S.A. Distinctive Feature Analysis of Responses to a Multiple Choice Intelligibility Test // IRAL, № 6,1968. Pp. 37-53.

97. Szoke I., Schwarz P., Matejka P., Burget L., Karafiat M., Fapso M. and Cernocky J. Comparison of Keyword Spotting Approaches for Informal Continuous Speech // Proceedings of InterSpeech 2005, September 4-8 2005 Lisbon, Portugal. Pp 633 - 636.

98. Tou J.T., Gonzalez R.C. Pattern Recognition Principles. Addison-Wesley, 1981.-P. 377.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00