автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Моделирование, пространственно-временная фильтрация и распознавание речевых сигналов на фоне помех
Автореферат диссертации по теме "Моделирование, пространственно-временная фильтрация и распознавание речевых сигналов на фоне помех"
На правах рукописи
' г /ч' ; -I
Р Г Б ОД
~ 3 НАР 2000
тст> • ч 11^1 Ч II Ч II 11/"/ М1 ТТ_____1>_____ _ ______■
гч/'/милш'тгигт.ио пВаи оикТиривИч:
МОДЕЛИРОВАНИЕ, ПРОСТРАНСТВЕННО-ВРЕМЕННАЯ ФИЛЬТРАЦИЯ И РАСПОЗНАВАНИЕ РЕЧЕВЫХ СИГНАЛОВ
I; Д Л.ЛГТГ
пл «гипь иишьл
Гпециальностъ 05.13.16 — Применение вычислительной техники,
математического моделирования и математических методов в научных исследованиях
Автореферат
диссертации на соискание ученой степени кандидата технических наук
Ульяновск - 2000
Работа выполнена в Ульяновском государственном техническом университете
Научный руководитель -
заслуженный деятель науки и техники России,
доктор технических наук, профессор Васильев К.К.
Официальные оппоненты:
- доктор физико-математических наук, профессор Валеев С.Г.
- кандидат технических наук, доцент Панкратов Ю.Г.
Ведущая организация -
АООТ «Ульяновское конструкторское бюро приборостроения»
Защита состоится «3.&» ЛС&рТй 2000 г. в / ? часов на заседании диссертационного совета К 064.21.03 при Ульяновском государственном техническом университете по адресу: 432027, г. Ульяновск, ул. Северный Венец, 32, ауд.211. С диссертацией можно ознакомиться в библиотеке университета.
Автореферат разослан «_ 3.1 » 2000
г.
/О
Ученый секретарь диссертационного совета. ,----тч
доктор технических наук, профессор / ) Соснин П.И.
т-шьН.о
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время большое внимание уделяется вопросам безаварийной и бесперебойной работы транспорта и других отраслей народного хозяйства и обороны. В значительной мере этому может способствовать надежная передача речевых сообщений и речевое управление различными устройствами, например, роботами, самолетами и др. В подобных автоматизированных системах речевой сигнал (РС), как правило, наблюдается на фоне помех (шума двигателя самолета, помех в канале связи и т.д.). В связи с этим весьма актуальными являются исследования в области методов фильтрации РС и их распознавания на фоне помех. Такие исследования уже несколько десятилетий интенсивно ведутся отечественными и зарубежными учеными. Разработан ряд подходов к проблеме распознавания и фильтрации, на основе которых созданы алгоритмы решения конкретных задач. Тем не менее, приемлемое для приложений решение задачи распознавания речевых сигналов па фоне интенсивных помех в настоящее время отсутствует. Не исчерпаны также все резервы повышения эффективности фильтрации РС на фоне помех. Об актуальности названных задач свидетельствует ряд научных программ, направленных на их решение, в частности, программы «Информационные технологии и электроника» Министерства науки и техники РФ, «Конверсия научно-технического потенциала вузов», «Исследования и разработки по приоритетным направлениям развития науки и техники гражданского назначения», «Конверсия и высокие технологии» и др.
Цель и задачи работы. Целью диссертации является разработка эффективных алгоритмов фильтрации и распознавания РС путем преобразования сигналов в изображения и применения методов статистического анализа случайных полей.
Для решения поставленной цели решаются следующие задачи.
- Разработка алгоритмов преобразования РС в изображение, называемое портретом речевого сигнала (ПРС).
- Исследование свойств ПРС и использование ПРС в качестве модели РС.
- Разработка адаптивных алгоритмов фильтрации ПРС с учетом неравенства длин строк.
- Разработка алгоритмов распознавания РС, представленных в виде
ПРС.
- Разработка пакета программ для реализации и исследования полученных алгоритмов.
Методы исследования. При решении поставленных задач применялись методы теории вероятностей, математической статистики, теопии случайных процессов и полей, математического анализа, математического
и статистического моделирования с применением вычислительной техники.
Научная новизна положений, выносимых на защиту.
1. Впервые для обработки РС применены методы обработки изображений.
2. Разработана и исследована новая модель РС в виде плоского изображения, строки которого являются квазипериодами РС. Эта модель позволяет в компактной форме учитывать квазипериодичность РС, применять методы обработки изображений и тем самым повысить эффективность обработки РС по сравнению с их последовательной (временной) обработкой.
3. Разработаны и исследованы алгоритмы преобразования речевых сигналов в изображения - ПРС.
4. Впервые разработаны алгоритмы фильтрации изображений со строками неравной длины.
5. Разработан новый подход к распознаванию РС путем совмещения и идентификации их плоских автокорреляционных портретов.
Практическая значимость. Представленные описания алгоритмов и исходные тексты реализующих их программ дают разработчикам возможность их непосредственного использования при проектировании со-времешолх и перспективных систем передачи и распознавания РС при наличии интенсивных помех, например, на фоне шумов двигателей самолета. Предложешдай подход перехода от обработки одномерного сигнала к обработке его двумерного портрета может быть использован при обработке не только РС, но и любых других квазипериодических сигналов.
Реализация работы. Результаты работы использованы в госбюджетных ККР Ульяновского государственного технического университета, в разработках Ульяновского конструкторского бюро приборостроения (подтверждено актом о внедрении), используются в учебном процессе УлГТУ в курсах «Основы теории обработки изображений» и «Специальные методы обработки изображений».
Апробация работы. Осповные результаты работы докладывались на Международной научно-техн. конф. «Нейронные, реляторные и непрерывно-логические сети и модели» (Ульяновск, 1998); Международной научно-техн. конф. "Методы и средства преобразования и обработки аналоговой информации" (Ульяновск, 1999); 2-й Всероссийской с участием стран СНГ конф. "Распознавание образов и анализ изображений" (Ульяновск, 1995); Всеросс. научно-практ. конф. (с участ. стран СНГ) "Современные проблемы создания и эксплуатации радиотехнических
(Ъ^льяноъск 19.9Я); Всеросс няутгно~ггрз.кт конф ^с
С^Т"! I А АПГ»Л1 га ТТТТТ то гтплКттЛ! МТ т
технических систем" (Ульяновск, 1999); Всеросс. научно-технич.
конференции "Интеллектуальные САПР" (Таганрог, 1998); 51-й научной сессии РНТО РЭС им. А.С.Попова (Москва, 1996) и на ежегодных конференциях профессорско-преподавательского состава Ульяновского государственного технического университета (1997-1999гг.).
Публикации. По теме диссертации опубликовано 13 печатных работ, в том числе 3 статьи и 10 тезисов докладов на научно-технических конференциях.
Объем и структура диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений. Общий объем 138 страниц.
СОДЕРЖАНИЕ РАБОТЫ
Введение. Раскрывается актуальность темы, сформулированы цель и задачи работы, формулируется научная новизна и практическая значимость результатов, дается краткое содержание диссертации.
В первой глзае дается краткий обзор методов представления, фильтрации и распознавания РС, указывается на возможность применения для этих целей методов теории изображений, приводится краткий обзор методов представления и обработки изображений. При этом РС рассматриваются как реализации случайных процессов, а изображения - как реализации случайных полей.
Речевой сигнал в пределах отдельных фонем имеет близкий к периодическому вид. На рис.1 показаны байтовые отсчеты звука «а», оцифрованные с частотой 11.025 кГп. Заметно, что сигнал состоит из отрезков
/" |тлО|/и>->»\1>А плт!^ ттог|тгог»т»'гапт тгл г-чг>г» щиттлтттггулп ггл го гт»-> г» тто тгмтпчэ ттт
ности и амплитуде. Это существенное свойство кв&зипериодичности еще недостаточно использовано в существующих алгоритмах обработки РС.
" •• : У * •= , У : . У '
Рис.1. Дискретные отсчеты звука «а».
В диссертации предлагается в возможно большей мере использовать периодичность сигнала путем преобразования его в изображение - ПРС и последующего применения методов обработки изображений. Для этого сигнал разбивается на последовательность отрезков, соответствующих отдельным квазипериодам. Каждый такой отрезок представляется строкой изображения. Полученное изображение является квззипериодическим ПРС
(КППРС) и имеет такие же внутристрочные корреляционные связи, что и исходный сигнал. Квазипериодичность сигнала влечет за собой значительные межстрочные (внутристолбцовые) связи.
Таким образом, полученное изображение (рис.3) оказывается существенно коррелированным во всех направлениях, что может быть использовано для синтеза эффективных алгоритмов фильтрации РС. Особенностью КППРС является неравенство длин строк из-за флюктуаций продолжительности квазшериодов даже в пределах одной фонемы.
Отсюда возникают две основные задачи, решаемые в диссертации: разработка алгоритмов преобразования РС в КППРС и синтез алгоритмов обработки изображений со строками разной длины.
Во второй главе рассматриваются методы преобразования РС в изображения, исследуются свойства получаемых КППРС и предлагается использование КППРС как модели РС.
В настоящее время в качестве моделей РС применяются различные виды случайных процессов, поэтому для осуществления требуемого преобразования необходимо находить квазипериоды случайного процесса, наблюдаемого в смеси с шумом.
Математические исследования в области выявления скрытых перио-дичностей начались еше в конце XVIII века в связи с запросами астрономии и геофизики. К настоящему времени разработан целый ряд методов оценки периода. Среди них следует отметить линейные методы, демодуляцию, спектральные и корреляционные методы, а также метод наименьших квадратов. Из множества апробированных алгоритмов лучшими по устойчивости к шумам, стабильности результатов и вычислительным затратам оказались следующие три алгоритма оценки периода.
Первый алгоритм оценки квазипериода синтезирован для следующей модели полезного сигнала. Информативный сигнал Х- {х0,... имеет вид:
хп = хкт+1=аШ/Т), п = О, N -1, (1)
где функция &■), заданная на отрезке [0;1] и принимающая значения из отрезка [-1,1], определяет форму Р сигнала; а - амплитуда сигнала; Т - период сигнала, который будем считать целочисленным (предполагая достаточно высокой частоту регистрации отсчетов); к = [п/Ч] - количество целых периодов, укладывающихся в п отсчетах; 1 = О, Т -1. Наблюдения Х = {г0,... представляют аддитивную смесь X с белым гауссовским
шумом © = Я,...}:
г„ = хя+вп, (2)
где все имеют одинаковую дисперсию а|.
Требуется по наблюдениям Ъ определить период Т при неизвестной форме, амплитуде и дисперсии шума. Применяя метод максимума правдоподобия, получаем оценку
Т = а^ тт8(Т), (3)
Те{Т)
где
(4)
1=0 к-1>
г, = —(5) щ
П1; - максимальное целое, при котором (п^ - 1)Тн < N - 1. Статистика (4) равна известной в дисперсионном анализе внутригрупповой дисперсии наблюдений (1) при их разбиении на Т групп. Анализ показывает, что 8(Т) имеет распределение типа хи-квадрат со средним
мт-)} = N - Т + § Х(4ч, -х?)2 = N - т + БХ(Т0,Т) (6)
1=0 к=О
и дисперсиеи где величина
Б[8(Т0)] = 2^-ТП), (7)
Т-1т,Ч
8х(Т0,Т) = 1$КТ+1-х<у (8)
1=0 к=0
зависит от истинного иерио.да Тп и формы сигнала, а также от отношения
сигнал/шум. при этом йД1ц,К1д) = и.
После нахождения автоковариации статистики (4), получена ее совместная плотность распределения вероятностей (ПРВ) для различных значений Т при гауссовской аппроксимации. Это позволяет определить ПРВ оценки (3), а следовательно и все необходимые ее характеристики (среднее значение, дисперсию, вероятность точного определения периода и т.д.).
На рис.2 представлены графики ПРВ статистики (4). Центры распределений смещаются вправо при Т, не кратных истинному периоду То ,что и является дискриминирующим фактором опенки. Однако при Т = кТг» центр распределения смещается влево при росте к, поэтому оценка (3) склонна к значениям максимальной кратности То. Для борьбы с этой тенденцией вводится исправленная (на смещение Т в (6)) статистика 8'(Т) = Б(Т) + Т, а также дополнительная процедура анализа минимумов статистики Б'(Т).
Проведенное статистическое моделирование этого алгоритма на имитированных сигналах характерных форм (синусоидальный, пилообразный, прямоугольный) показало достаточно высокую точность оценивания периода при наличии значительных шумов. На рис.3 показан результат
- s -
применения 'этого алгоритма к слову «два». Даже визуально заметна высокая корреляция изображения по вертикали.
1'пс 2 Графики плотности распределения вероятностей \УТ(Б) статистики Б(Т) при различных значениях Т.
' ««"ЛЯ!
Г'ис л. Преобразование слова «два» в изображение.
Второй алгоритм оценки квазипериода FC основан на анализе спектральной плотности или периодограммы сигнала. Предполагается, что частота &>0- 1/Т» основного тона соответствует пику спектра R(co):
со0 = со,, - arg шах Rico) (9)
со
как это показано на рис. 4. Однако положение соп нестабильно, так как при практическом гармоническом анализе Г< (со) вычисляется только для дискретного набора значений (гребенчатые фильтры), а вычисленные значения в значительной мере зависят от шумов, дискретизации сигнала и других мешающих факторов.
Ьстествениым улучшением опенки (9) является оценка по максимуму суммарной мощности сигнала в некотором диапазоне:
ф = arg max
(10)
При этом в качестве со0 принимается середина отрезка длины Асо, соответствующего максимальной площади, показанной штриховкой на рис. 4.
Рис. 4. График спектральной плотности сигнала.
Третий алгоритм оценки квазипериода PC является корреляционно-
(И)
T = arg maxr(T),
Тё{Т}
где
сц
i! Т\
4с
оценка автокорреляционной функции сигнала. Оценка коэффициента корреляции (12) имеет смещение порядка i/N, состоятельна и асимптотически эффективна. На рис.5, показал типичный график статистики г(Т) совместно с графиком исходного PC (звук «и»). Заметно, что максимумы статистики соответствуют границам квазипериодов. Эти максимумы, как правило, убывают с ростом кратности квазипериода, поэтому оценка (11) обычно дает минимальный квазипериод, что и требуется. Тем не менее, иногда появляются кратные опенки. Для их избежания предусмотрена специальная процедура уточнения: если Т- оценка, полученная из (11), и r(Ti) -наибольшее значение г(Т) при 6<Т<7', то Г заменяется на когда r(Ti) > 0.95 г(7 ) . При такой модификации кратные квазипериоды появляются с вероятностью, меньшей полупроцента даже при отношениях шум/сигнал порядка единицы.
Сравнение трех рассмотренных оценок показывает, что модифицированная корреляционно-экстремальная оценка наиболее устойчива к шумам и флюктуацияг»! громкости речи. Кроме того, по своему построению эта оценка обеспечивает максимум межстрочной корреляции, что в даль-
нейшем повышает качество обработки КППРС. Немаловажна также возможность рекуррентного вычисления г(Т) по возрастающим значениям Т.
Рис. 5. Графики сигнала и его автокорреляционной функции.
Рассмотрим свойства КППРС. Обычно предполагается, что РС являются гауссовскими процессами, что является достаточно точной аппроксимацией реальных распределений. Поэтому и КППРС можно считать реализациями некоторого плоского гауссовского случайного поля. Выборочный коэффициент корреляции (при частоте квантования 11.025 кГц) между соседними элементами строки, как правило, находится в пределах 0.8-0.99. В тех же пределах находится и коэффициент межстпо'пюй кпп!№!штки но межстпочная коппелячня обычно несколько
I ГГ --' --- ---~ " JT " JL Л
меньше, чем вну!ристрочная. В таблице I приведен типичный пример значений выборочной АКФ, вычисленной для КППРС звука "О". На рис. 6 показаны сечения (изолинии) этой АКФ.
Таблица 1 Значения выборочной автокорреляционной функции
0 1 / ó 4
0 1,00 0,93 0,85 0,72 0,59
1 0,87 0,79 0,69 0,57 0,45
2 0,74 0,49 0,41 0,28 0,16
3 0,59 0,47 0,37 0,26 0,13
4 0,51 0,27 0,21 0,15 0,04
Близость сечений АКФ к ромбам приводит к выводу, что АКФ близка к факгоризуемо-экспоненцияоыюй, поэтому р. первом приближении в качестве модели КППРС возможно использование модели типа Хабиби с переменными параметрами, так как КППРС неоднородны.
- и -
4
Рис. 6. Сечения выборочной автокорреляционной функции
Отметим, что сечения АКФ по координатным осям несколько отличаются от экспоненциального вида, поэтому при описании РС часто используются авторегреесионтше модели порядков выше первого. Аналогичным образом для описания КППРС возможно использование факторизуемых авторегрессий порядка два и выше.
В третьей главе рассматривается задача фильтрации РС на фоне шумов пугем перехода к фильтрации их портретов. После фильтрации портрет естественным образом разворачивается в одномерную последовательность, которая и является результатом фильтрации исходного РС. Основное возникающее здесь затруднение - непостоянство длины строк КППРС. При этом длина строк изменяется плавно в пределах одной фонемы, а при переходе к очередной фонеме длина может изменяться скачком. Синтезирован фильтр, учитывающий эту особенность изображений.
Пусть наблюдаемое изображение Z = {x¡j} и представляет собой аддитивную смесь информативного сигнала Х = {ху} и белого гауссовского шума 0 = {0;;} с неизвестной и, возможно, непостоянной дисперсией :
Учитывая результаты первой главы, предположим, что информативная часть X в пределах одной фонемы описывается авторегрессионным уравнением
(13)
Ц = Р-^И + - Рв Г8 ЗЦ. ,
(14)
с неизвестными, но постоянными или достаточно плавно изменяющимися параметрами р:], гц и Д,, где } - стандартное белое гауссовскос возмущающее поле. Требуется по наблюдениям Z оценить X.
Поскольку параметры порождающего уравнения авторегрессии (14) неизвестны и, возможно, переменны, алгоритм фильтрации должен быть адаптивным. При этом фильтрация каждой фонемы выполняется независимо от других, так как при переходе к очередной фонеме параметры уравнения, а следовательно, и параметры фильтра резко меняются. Сигналом к такому переходу является резкий скачок длины строк. Если же скачка нет, то смена фонемы все-таки возможна, но обычно такой переход в речи (типа "ау") достаточно плавный.
Фильтр для строк одинаковой длины. Рассмотрим сначала случай, когда строки изображения имеют одинаковую длину. В этом случае можно применить аппроксимированный фильтр Калмана.
Неадаптивный фильтр. В аппроксимированном фильтре Калмана (не адаптивном), когда параметры моделей (13) и (14) известны и постоянны, оценки X;; элементов Ху изображения X находятся построчно. Первая
строка х, ={Хц ^ = 1,М) оценивается но первой строке наблюдений
ъх = {г, (: j = 1,К} с помощью фильтра Калмана в установившемся режиме:
+К-М +Ъг1,, (15)
___/1
V — « - и } .
Далее производится рекуррентное сглаживание:
х,, - ху + Ь(хки, - ах,.). (16)
Процедуры (15) и (16) отличаются от оптимальных постоянством коэффициентов, что приводит к ухудшению оценок в начале строки.
Пусть уже получена оценка х,_, строки с номером 1-1. Следующая строка представляется в виде
х; = (х, - гх;_,) + гх;_, = у! + гхн, (17)
где г = Гу - постоянный параметр модели (14) - коэффициент корреляции между соседними строками. Оценка
х1=у;+гхи (18)
находится по наблюдениям
(19)
полученным вычитанием прогноза гх;_, строки х( из наблюдений г1 этой строки. При этом оценки у, формируются с помощью процедур, аналогичных (15) и (16).
Адаптивный фильтр. Рассмотрим теперь адаптивный вариант описанного алгоритма, включащий в себя процедуры (15) - (16) с переменны-
ми коэффициентами а, Ь, с, г и процедуру подстройки этих параметров непосредственно » процессе обработки.
Рассмотрим сначала формирование (19) прогнозов -V,, = ) элементов х,, по уже полученным сглаженным оценкам х..^ предыдущей строки. Прогнозы эти должны быть оптимальными в смысле минимума дисперсии ошибок прогноза = л"„ - л-;. Наблюдения = отли-
чаются от х некоррелированным с хц аддитивным шумом 0Ч, поэтому оптимальный прогноз минимизирует не только дисперсию остатков 5И, но и дисперсию остатков (19) прогноза наблюдений г,у Эти остатки наблюдаемы, что позволяет применить адаптивные псевдоградиентные процедуры подстройки коэффициента г, в частности, знаковую
= г., - ц ,чщ1ИУ) = г„ + .V,.,,,= :„ - г„хыиг (20)
Рхли изображение и шум имеют достаточно плавную неоднородность. то, выбирая в (20) некоторый постоянный параметр =ц, можно
использовать данную процедуру и при изменяющемся значении г.
Построение адаптивного варианта процедуры (15) основано на том. что если вектор параметров а=(а,Ь)т оптимален в смысле минимума дисперсии ошибок оценок х^, то он же оптимален и в смысле минимума дисперсии ошибок прогнозов д^ - г^ - ах^.,. Поэтому подстройка а мо-же! бы*!ь осуществлена по наблюдаемым А», например:
' у '
а =а V«-)?! \ —-Л.меп((х-+ЬА.) Д ,). О П
' I Яд | " ' " "" " "' """ '
V '< /
Фильтр для строк разной длины. Пусть теперь строки изображения имеют разную длину, как это имеет в случае КППРС. Для этого случая предлагаются следующие модификации описанного выше алгоритма.
Разбиение изображения на полосы при различных способах выравнивания. Выровняем изображение двумя способами: от левого и правою краев и удалим при каждом способе выравнивания неровные края. В каждом из рассматриваемых случаев получается прямоугольное изображение, к которому можно применить обычный фильтр. При выравнивании от левого края необработанными остаются правые концы строк, от правого края - левые. Комбинируя результаты фильтрации от левого и правого краев, получаем обработку всего изображения.
Постолбцовая обработка. Прямоугольное изображение может обрабатываться используемым фильтром и в порядке следования столбцов, т.е. переходом к транспонированному изображению. При обработке такого
изображения строки могут только укорачиваться и разрываться на части. От разрыва до очередного разрыва длина каждой части может только сокращаться. При этом в процедуре фильтрации для обработки очередной точки (I, }) с предыдущей строки используются только данные, полученные в точке (¡-1, .¡).
Масштабирование длины строк. Строки изображения соответствуют последовательным квазипериодам РС и различие в их длине вызвано изменением темпа речи. Поэтому при сопоставлении пары соседних строк возможно произвести их масштабирование, т.е. приведение к одинаковой длине. Это масштабирование можно выполнить путем интерполяции строк.
Дополнение КППРС до прямоугольного изображения. По своему построению строки КППРС являются квазипериодами РС, поэтому во-можно формирование КПРРС с удлиненными строками. Начало каждой строки по-прежнему соответствует началу очередного квазипериода РС. Длина же всех строк выбирается постоянной так, чтобы в нее укладывался любой возможный квазипериод (можно взять длину самого большого квазипериода фонемы). При таком формировании получаются прямоугольные изображения, к которым применим обычный фильтр. Вблизи правых концов строк из-за накопления разности фаз межстрочная корреляция может ослабевать, поэтому в этой части изображения качество фильтрации снижается. Однако это не ухудшает качества фильтрации РС, так как при развертке КППРС дополнительная часть строк не учитывается.
Рис.7. СКО ошибки фильтрации
Описанный адаптивный алгоритм пространственно-временной фильтрации был апробирован на реальных РС и сравнен с адаптивной одномерной последовательной фильтрацией, основанной на адаптивных вариантах процедур (15) и (16). На рис. 7 приведены типичные результаты фильтрации - эксперимент со словом «координаты». Оцифрованная запись этого слова искажалась аддитивным белым гауссовским шумом и фильтровалась. На рисунке изображены графики зависимости отношения
шум/сигнал после временной (пунктир) и пространственно-временной (сплошная линия) фильтрации от отношения шум/сигнал до фильтрации. Эти результаты демонстрируют несомненное преимущество пространственно-временного фильтра. Следовательно, предлагаемый в диссертации подход к фильтрации РС оказался продуктивным. Это подтверждается также прослушиванием отфильтрованных РС. Речь, совершенно неразборчивая до фильтрации (например, при отношении шум/сигнал, равном трем), после фильтрации становится воспринимаемой.
Следует отметить, что пространственно-временная фильтрация (вместе с формированием КППРС) требует на порядок больших вычислительных затрат, чем одномерная. Однако возросшие возможности вычислительных средств позволяют осуществить предлагаемый метод обработки в реальном времени.
В четвертой главе рассматривается задача распознавания зашум-ленных РС. Задачи такого типа возникают, например, при проектировании систем речевого управления самолетом. Каждая команда представляет собой последовательность отдельно произносимых слов из некоторого фиксированного словаря (топливо, шасси, поднять, опустить и т.д.), регистрируемых микрофоном при наличии сильных штатов в кабине пилота. Команды поступают в систему управления, где они распознаются и передаются исполнительным механизмам. В этой системе РС сначала оцифровывается, а затем осуществляется распознавание отдельных слов команд. При этом в базе данных хранятся эталоны всех возможных слов, произнесенные тем же самым пилотом.
Таким образом, задача заключается в распознавании, идентификации поступившего слова отнесением его к одному из имеющихся эталонов. Нужно предусмотреть и случай, когда слово не идентифицируется (произнесено неразборчиво, не соответствует эталонам или помехи слишком интенсивны).
Распознавание требуется осуществлять на фоне сильных помех, поэтому для ослабления влияния шумов РС сначала обрабатывается предложенным в третьей главе фильтром. Далее предлагается отфильтрованное слово преобразовать в изображение и сравнить с эталонными изображениями (изображениями эталонных слов).
Рассмотренное во второй главе преобразование РС в КППРС приспособлено для фильтрации, но оно не подходит для использования в распознавании, поскольку получаемые портрёты имеют нестабильную геометрическую конфигурацию (неровный правый край), поэтому сравнивать их очень трудно. Возможно использование.спектральных портретов, т. е. изображений, строки которых являются мгновенными спектрами ре™ В
прортлрти '1-ггл сти' 1.--1ТЛ1Л V ггтмктт РГ Отттт^л 1ти гггртгтпт.1 ттяжр
для одного диктора существенно зависят от темпа речи, состояния диктора
и значительно искажаются шумами, поэтому при сравнении таких портретов также возникают большие трудности.
Более подходящими являются автокорреляционные портреты (АКП), т. е. изображения, строки которых соответствуют выборочным АКФ отрезков РС. В пользу такого выбора преобразования можно привести следующие аргументы. АКФ в значительной мере отражает индивидуальность РС, инвариантна к постоянной громкости незашумлешюго сигнала и мало изменяется при плавном изменении громкости. АКФ с точностью до постоянного множителя инвариантна к белому шуму с постоянной дисперсией и практически так же ведет себя при шуме с малым интервалом корреляции. Изменение темпа речи приводит к простому растяжению или сжатию АКП, возможно, неравномерному, что не вызывает особых затруднений при идентификации изображений.
Поскольку АКП идентифицируемых слов и их эталонов получены в разное время и в разных условиях, они имеют взаимные яркостные и геометрические искажения, поэтому для идентификации портреты сначала совмещаются, а затем определяется мера их схожести. Этот подход приводит к следующему решающему правилу распознавания, основанному на выборочном коэффициенте корреляции р(Р,Р,,<5) в окне О между эталонными портретами Р,,...,РП и совмещенным с ними идентифицируемым портретом Р: выбирается тот из эталонов Рк, для которого
пш1 р(Р,Рк£) > тахпипр(Р,Р,,(?) > и, (22)
где ц попог.
Будем совмещать АКП по корреляционно-экстремальному критерию, максимизируя выборочный коэффициент корреляции между фрагментами портретов в скользящих окнах. Пусть X и У - два совмещаемых портрета (рис. 8). Левый верхний угол каждого из них соответствует началу слова, поэтому взаимное смещение в этой части портретов должно отсутствовать или быть небольшим. Выделим на каждом из этих портретов по прямоугольному окну Wx и одинаковых размеров.
Рис. 8 Начальное положение окон \УХ и \Уу на портретах X и У.
При небольших размерах окон растяжениями и возможными взаимными поворотами можно пренебречь, поэтому при подходящем расположении окна WY (на рисунке оно показано пунктиром) окна Wx и WY соответствуют практически одному и тому же фрагменту портретов, т.е. элементам Wx на X соответствуют элементы WY на Y.
Совмещение предлагается выполнять по критерию максимума коэффициента корреляции между фрагментами изображений Wx и WY. Даже если ограничиться оценкой положения окон с точностью до целых (т.е. до одного пиксела) по каждой координате, то при использовании простого перебора потребуются недопустимо большие вычислительные затраты. Поэтому для уточнения положения окна WY преименяется псевдоградиентный алгоритм.
Сначала оценивается положение окна WY для первоначального положения окна Wx, показанного на рис. 8. Затем окно Wx смещается, точно так же относительно своего оцененного положения смещается окно Wy, уточняется его положение и т.д. После прохода всего изображения X будет оценено положение его элементов из Y.
Для идентифицируемого портрета Р требуется произвести описанное здесь совмещение со всеми эталонам Ръ после чего применить решающее правило (22). В целях сокращения времени и повышения качества идентификации к решающему правилу (22) добавлены дополнительные критерии: отсев эталонов по продолжительности сигнала и его огибающей, нормированной по длине к амплитуде.
Описанный метод идентификации PC был испытан на словаре, состоящем из чисел и авиационной терминологии. При отношении шум/сигнал порядка единицы вероятность правильного распознавания оказалась около 0.8.
В процессе работы над диссертацией был разработан пакет прикладных программ. Он включает в себя программы:
- формирования КППРС одним из выбранных методов;
- фильтрации КППРС адаптивным аппроксимированным фильтром Калма-на;
- распознавания отфильтрованного PC;
- обслуживающие программы.
Исходный текст программ выполнен для компилятора языка Borland С++ и предназначен для работы в ОС Windows. Оцифровка PC производится с помощью микрофона и стандартной звуковой платы ПК.
В приложениях приведены исходные тексты основных программ, реализующих разработанные алгоритмы, и акт внедрения результатов диссертации.
Заключение. Основные результаты диссертации заключаются в следующем.
1. Предложен новый подход к решению задач фильтрации и распознавания PC, основой которого является пространственно-временная обработка изображений, являющихся двумерными портретами PC.
2. Разработана модель PC в виде его квазипериодического портрета, описываемого случайным полем типа Хабиби с переменными параметрами. Эта модель позволяет в компактной форме учитывать квазипериодический характер PC и синтезировать эффективные алгоритмы их обработки.
3. Разработан адаптивный алгоритм фильтрации изображений со строками разной длины.
4. Предложенный адаптивный алгоритм пространственно-временной фильтрации PC позволяет повысить эффективность фильтрации по сравнению с алгоритмами последовательной временной обработки на 15-40 процентов по сравнению с одномерной временной фильтрацией при отношении шум/сигнал по СКО до трех единиц.
5. Разработаны алгоритмы распознавания PC путем идентификации их двумерных автокорреляционных портретов, работоспособные при наличии интенсивных помех.
OntmntTT ТЛ noot ГТТ» "ГПТТ Т ГТТГГ»ЛС»ГУТ*1 rrfrT» Г»ГИ'Ач»«/"Л»»'>1ГТТГ Т> Л ГГП ТП 7ТАТ Щ» V гпг(\-
4ijvvvjJiuu,iiii i/iij ViiiuAuijaiiiji и шщпл itj О"
ликациях:
1. Крашенинников В.Р., Ташлинский А.Г., Крашенинников И.В. Адаптивный алгоритм идентификации дактилоскопических отпечатков // Тез. докл. 2-й Всероссийской с участием стран СШ' конф. "Распознавание образов и анализ изображений",- Ульяновск: УлГТУ, 1995, ч. 3, с. 131-132.
2. Васильев К.К., Афонин С.Л., Крашенинников И.В. Фильтрация и распознавание речевых сигналов на фоне помех // Тез. дикл. 51-й научной сессии, поев. Дню радио,- М -. VHTO РЭС им. А.С.Попова, 1996, с.143-144.
3. Krasheninnikov V.R., Tashlinsku A.G, Krasheninnikov I.V. An adaptive algorithm for the identification of fingerprints // Pattern Recognition and Image Analysis.- Birmingham, Al 35201-1831, USA, 1996, vol. 6, N 2, p. 277.
4. Крашенинников Й.В., Горбунов А.И. Системы анализа речевых сигналов I/ Тез. докл. 31-й научно-технич. конференции УлГТУ - Ульяновск: УлГТУ, 1997, ч. 2, с. 20-22.
5. Крашенинников И.В., Афонин С.Л. Речевое управление в автоматизированных системах // Материалы Всероссийской научно-технич. конферен-ции с участием зарубежных представителей "Интеллектуальные САПР" - Таганрог, 1998, с 262-263.
t'«OTttÖtF»»«T44T/Ari ТД \/лТЛГ1Г?1>ПГ«й Ii- imillllf ППАЛП« Irmnitlfilk «ЛМЛП1 IV Л»СТ1ПГГЛП
<-'■ *4p«UlVii«lUJillWU XA..XJ. J vivn IIIL'UV IV Ш^ШиШ H^WVUpUJUUUil<lV ^V'IVUUIA Vlll UttJlUl)
r изображения в системах распознавания речи // Труды Межт^унар научо-технич конференции "Нейронные, реляторные и непрерывнологические сети и мод ел и".-Удьнновск. УлГТУ, 1998, с. 91.
7. Крашенинников И В. Устойчивое к шумам распознавание речевых сигналов, преобразованных в изображения текущих коррелограмм // Тез. докл. 32-й научно-технич. конференции УлГТУ.-Ульяновск: УлГТУ, 1998, ч.2, с. 9-10.
8. Крашенинников И.В. Адаптивные псевдоградиентные алгоритмы фильтрации авторегрессионного сигнала на фоне некоррелированных помех // Тез. докл. 33-й научно-технич. конференции УлГТУ.- Ульяновск: УлГТУ, 1999, ч.2, с. 43-44.
9. Крашенинников В.Р, Крашенинников И.В. Отслеживание курса движения по межкадровым смещениям изображений подстилающей поверхности // Тез. докл. Всеросс. научно-практ. конф. (с участ. стран СНГ) "Современные проблемы создания и эксплуатации радиотехнических систем",- Ульяновск. УлГТУ, 1998, с. 103-104.
10. Крашенинников И.В. Периодическое комплексирование речевых сигналов в изображение // Труды Международной конференции "Методы и средства преобразования и обработки аналоговой информации",- Ульяновск: УлГТУ, 1999, том 3, с. 56-58
11. Крашенинников И.В. Методы определения периода речевых сигналов // Труды Ульяновского научного центра "Ноосферные знания и технологии" РАЕН.- Ульяновск, 1999, том 2, вып. 1, с. 111-116.
12. Крашенинников И.В. Исследование эффективности алгоритмов комплекси-рования зашумленных периодических сигналов в изображения // Тез. докл. Всеросс. научно-практ. конф. с участ. стран СНГ "Современные проблемы создания и эксплуатации радиотехнических систем",- Ульяновск: УлГТУ, 1999, с. 7.
13. Крашенинников И.В. Адаптивная фильтрация речевых сигналов, комплекси-рованных в изображения // Тез. докл. Всеросс. научно-пр>_ л конф. с участ. стран СНГ "Современные проблемы создания и эксплуатации радиотехнических систем".-Ульяновск: УлГТУ, 1999, с. 8-9.
Крашенинников Иван Викторович
Моделирование, пространственно-временная фильтрация и распознавание речевых сигналов на фоне помех
Автореферат
Подписано в печать 16.02.00. Формат 64x84/16. Бумага писчая. Усл. печ. л. 1,17 . Уч.-изд.л.1,00 . Тираж 100 экз. Заказ .
Ульяновский государственный технический университет, 432027, г. Ульяновск, Северный Венец, 32. Типография УлГГУ, 432027, г. Ульяновск, Северный Венец, 32.
Оглавление автор диссертации — кандидата технических наук Крашенинников, Иван Викторович
Список сокращений.
Введение.
Глава 1. Методы представления и обработки речевых сигналов и изображений.
1.1. Методы представления речевых сигналов
1.1.1. Система речеобразования
1.1.2. Модели речевых сигналов.
1.2. Задачи и методы обработки речевых сигналов.
1.2.1. Задачи обработки речевых сигналов.
1.2.2. Методы фильтрации речевых сигналов.
1.2.3. Методы распознавания речевых сигналов.
1.3. Методы представления изображений.
1.4. Задачи и методы обработки изображений.
1.4.1. Задачи обработки изображений.
1.4.2. Методы фильтрации изображений.
1.4.3. Методы совмещения изображений.
1.5. Выводы.
Глава 2. Квазипериодический портрет речевого сигнала.
2.1. Постановка задачи.
2.2. Обзор методов оценки периода.
2.2.1. Линейные методы.
2.2.2. Спектральные методы.
2.2.3. Корреляционные методы.
2.2.4. Метод наименьших квадратов.
2.2.5. Другие методы.
2.2.6. Выбор метода.
2.3. Оценка квазипериодов методом максимума правдоподобия.
2.3.1. Синтез алгоритма оценки
2.3.2. Характеристики статистики.
2.4. Нахождение квазипериодов методами {спектрального анализа
2.5. Корреляционно-экстремальный метод оценки квазипериодов
2.6. Статистическое моделирование и модификация алгоритмов оценки квазипериода
2.7. Свойства и модель квазипериодического портрета речевого сигнала.
2.8. Выводы.
Глава 3. Пространственно-временная фильтрация речевых сигналов
3.1. Постановка задачи.
3.2. Адаптивный псевдоградиентный аппроксимированный фильтр Калмана.
3.2.1. Фильтр для строк одинаковой длины.
3.2.2. Фильтр для строк разной длины.
3.3. Результаты статистического моделирования.
3.4. Выводы.
Глава 4. Распознавание речевых сигналов
4.1. Постановка задачи.
4.2. Распознавание речевых сигналов путем идентификации их изображений.
4.2.1. Выбор преобразования слов в изображения. Автокорреляционные портреты.
4.2.2. Идентификация автокорреляционных портретов слов.
4.3. Результаты статистического моделирования.
4.4. Выводы.
Введение 1999 год, диссертация по информатике, вычислительной технике и управлению, Крашенинников, Иван Викторович
Актуальность темы. В настоящее время большое внимание уделяется вопросам безаварийной и бесперебойной работы транспорта и других отраслей народного хозяйства и обороны. В значительной мере этому может способствовать надежная передача речевых сообщений и речевое управление различными устройствами, например, роботами, самолетами и др. В подобных автоматизированных системах речевой сигнал (РС), как правило, наблюдается на фоне помех (шума двигателя самолета, помех в канале связи и т.д.). В связи с этим весьма актуальными являются исследования в области методов фильтрации РС и их распознавания на фоне помех. Такие исследования уже несколько десятилетий интенсивно ведутся отечественными и зарубежными учеными. Разработан ряд подходов к проблеме распознавания и фильтрации, на основе которых созданы алгоритмы решения конкретных задач. Тем не менее, приемлемое для приложений решение задачи распознавания речевых сигналов на фоне интенсивных помех в настоящее время отсутствует. Не исчерпаны также все резервы повышения эффективности фильтрации РС на фоне помех. Об актуальности названных задач свидетельствует ряд научных программ, направленных на их решение, в частности, программы «Информационные технологии и электроника» Министерства науки и техники РФ, «Конверсия научно-технического потенциала вузов», «Исследования и разработки по приоритетным направлениям развития науки и техники гражданского назначения», «Конверсия и высокие технологии» и др.
Цель и задачи работы. Целью диссертации является разработка эффективных алгоритмов фильтрации и распознавания РС путем преобразования сигналов в изображения и применения методов статистического анализа случайных полей.
Для решения поставленной цели решаются следующие задачи.
- Разработка алгоритмов преобразования РС в изображение, называемое портретом речевого сигнала (ПРС).
- Исследование свойств ПРС и использование ПРС в качестве модели РС.
- Разработка адаптивных алгоритмов фильтрации ПРС с учетом неравенства длин строк.
- Разработка алгоритмов распознавания РС, представленных в виде
ПРС.
- Разработка пакета программ для реализации и исследования предложенных алгоритмов.
Методы исследования. При решении поставленных задач применялись методы теории вероятностей, математической статистики, теории случайных процессов и полей, математического анализа, математического и статистического моделирования с применением вычислительной техники.
Научная новизна положений, выносимых на защиту.
1. Впервые для обработки РС применены методы обработки изображений.
2. Разработана и исследована новая модель РС в виде плоского изображения, строки которого являются квазипериодами РС. Эта модель позволяет в компактной форме учитывать квазипериодичность РС, применять методы обработки изображений и тем самым повысить эффективность обработки РС по сравнению с их последовательной (временной) обработкой.
3. Разработаны и исследованы алгоритмы преобразования речевых сигналов в изображения - ПРС.
4. Впервые разработаны алгоритмы фильтрации изображений со строками неравной длины.
5. Разработан новый подход к распознаванию РС путем совмещения и идентификации их плоских автокорреляционных портретов.
Практическая значимость. Представленные описания алгоритмов и исходные тексты реализующих их программ дают разработчикам возможность их непосредственного использования при проектировании современных и перспективных систем передачи и распознавания РС при наличии интенсивных помех, например, на фоне шумов двигателей самолета. Предложенный подход перехода от обработки одномерного сигнала к обработке его двумерного портрета может быть использован при обработке не только РС, но и любых других квазипериодических сигналов.
Реализация работы. Результаты работы использованы в госбюджетных НИР Ульяновского государственного технического университета, в разработках Ульяновского конструкторского бюро приборостроения (подтверждено актом о внедрении), используются в учебном процессе УлГТУ в курсах «Основы теории обработки изображений» и «Специальные методы обработки изображений».
Апробация работы. Основные результаты работы докладывались на Международной научно-техн. конф. «Нейронные, реляторные и непрерывно-логические сети и модели» (Ульяновск, 1998); Международной научно-техн. конф. "Методы и средства преобразования и обработки аналоговой информации" (Ульяновск, 1999); 2-й Всероссийской с участием стран СНГ конф. "Распознавание образов и анализ изображений" (Ульяновск, 1995); Всеросс. научно-практ. конф. (с участ. стран СНГ) "Современные проблемы создания и эксплуатации радиотехнических систем" (Ульяновск 1998); Всеросс. научно-практ. конф. (с участ. стран СНГ) "Современные проблемы создания и эксплуатации радиотехнических систем" (Ульяновск, 1999); Всеросс. научно-технич. конференции "Интеллектуальные САПР" (Таганрог, 1998); 51-й научной сессии РНТО РЭС им. А.С.Попова (Москва, 1996) и на ежегодных конференциях профессорско-преподавательского состава Ульяновского государственного технического университета (1997-1999гг.).
Публикации. По теме диссертации опубликовано 13 печатных работ, в том числе 3 статьи и 10 тезисов докладов на научно-технических конференциях.
Объем и структура диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений. Общий объем 138 страниц.
Заключение диссертация на тему "Моделирование, пространственно-временная фильтрация и распознавание речевых сигналов на фоне помех"
Основные результаты диссертации заключаются в следующем.
1. Предложен новый подход к решению задач фильтрации и распознавания РС, основой которого является пространственно-временная обработка изображений, являющихся двумерными портретами РС.
2. Разработана модель РС в виде его квазипериодического портрета, описываемого случайным полем типа Хабиби с переменными параметрами. Эта модель позволяет в компактной форме учитывать квазипериодический характер РС и синтезировать эффективные алгоритмы их обработки.
3. Разработан адаптивный алгоритм фильтрации изображений со строками разной длины.
4. Предложенный адаптивный алгоритм пространственно-временной фильтрации РС позволяет повысить эффективность фильтрации по сравнению с алгоритмами последовательной временной обработки на 1540 процентов по сравнению с одномерной временной фильтрацией при отношении шум/сигнал по СКО до трех единиц.
5. Разработаны алгоритмы распознавания РС путем идентификации их двумерных автокорреляционных портретов, работоспособные при наличии интенсивных помех.
Закпючение
Библиография Крашенинников, Иван Викторович, диссертация по теме Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
1. Аггравал Дж.К., Дейвис JI.C., Мартин У.Н. Методы установления соответствия при анализе динамических сцен// ТИИЭР, 1981, т. 69, N 5, с. 77-90.
2. Адаптивные методы обработки изображений//Сб. науч. трудов под ред. В.И. Сифорова и Л.П. Ярославского.- М.: Наука, 1988, 224 с.
3. Андерсон Т. Статистический анализ временных рядов/Пер. с англ. под ред. Ю.К. Беляева. М.: Мир, 1976, 758 с.
4. Белоглазов П.Н., Тарасенко B.JI. Корреляционно-экстремальные системы. М.: Сов. радио, 1974, 392 с.
5. Богуславский И.А., Владимиров И.Г. Адаптивное оценивание вектора сдвига// Техническая кибернетика, 1990, N4, с. 47-64.
6. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление/ Пер. с англ. под ред. В.Ф. Писаренко. М: Мир, 1974, т.1, 406 е.; т. 2, 200 с.
7. Борукаев Т.Б., Грузман И.С. Совмещение изображений при наличии масштабных искажений и разворота// Тез. докл. Междунар. конф. «ОИДИ-90»,- Новосибирск: ВЦ СО АН СССР, 1990, с. 40.
8. Быстрые алгоритмы в цифровой обработке изображений/ Хуанг Т.Г. и др./Пер. с англ. М.: Радио и связь 1984, 221 с.
9. Ванцвайг М.Н., Полякова М.П. Установление поточечного соответствия изображений// Тез. докл. 2-й Всеросс. с участием стран СНГ конф. «Распознавание образов и анализ изображений» РОАИ-2-95,- Ульяновск: Ул-ГТУ, 1995, ч. 2, с.
10. Васильев К.К. Прием сигналов при мультипликативных помехах. Саратов: СГУ, 1983, 128 с.
11. И. Васильев К.К. Случайные поля на многомерных сетках/ Раздел 4 коллективной монографии «Прикладная теория случайных процессор и полей»/ Под ред. К.К.Васильева и В.А.Омельченко.-Ульяновск: УлГТУ, 1995, с 105-145.
12. Васильев К.К., Афонин С.Л., Крашенинников И.В. Фильтрация и распознавание речевых сигналов на фоне помех// Тез. докл. 51-й научной сессии, поев. Дню радио,- M.: РНТО РЭС им. А.С.Попова, 1996, с. 143-144.
13. Васильев К.К., Герчес В.Г. Калмановская фильтрация изображений// Методы обработки сигналов и полей,- Ульяновск: УлПИ, 1990, с. 105111.
14. Васильев К.К., Герчес В.Г. Эффективность алгоритмов обнаружения сигналов на фоне мешающих изображений// Статистические методы обработки изображений,- Новосибирск: НГТУ, 1993, с. 39-45.
15. Васильев K.K.; Крашенинников В.Р. Методы фильтрации многомерных случайных полей. Саратов: СГУ, 1990, 128 с.
16. Васильев К.К. Крашенинников В.Р. Адаптивный многомерный аппроксимированный фильтр КалманаУ/ Тез. докл. 49-й науч. техн. конф., поев. Дню радио.- Санкт-Петербург: НТО РЭС им. A.C. Попова, 1994, с. 2526. •
17. Виттих В.А., Сергеев В.В., Сойфер В.А. Обработка изображений в автоматизированных системах научных исследований,- М.: Наука, 1982, 214 с.
18. Гимельфарб Г.Л., Залесный A.B. Гиббсовские случайные поля как вероятностные модели изображений на нижнем уровне вычислительного зрения// Методы обработки сигналов и полей,- Ульяновск: УлГТУ, 1995, с. 2234.
19. Гихман И.И., Скороход A.B. Теория случайных процессов.-М.: Наука, 1971, т. 1, 664 е.; 1973, т. 2, 640 е.; 1975, т. 3, 496с.
20. Губанов A.B., Ефимов В.М., Киричук B.C. и др. Методы оценивания взаимного смещения фрагментов изображений// Автометрия, 1988, N 3, с. 70-73.
21. Гудонавичюс Р.В., Кемешис П.П., Читавичюс А.Б. Распознавание речевых сигналов по их структурным свойствам,- Л.: Энергия, 1977, 64 с.
22. Гурьянов А.Е. Алгоритмическое обеспечение устройств диктороне-зависимого ввода речи// Вопросы радиоэлектроники. Серия «Электронная вычислительная техника», 1992, вып. 2, с. 47-54.
23. Даджион Д., Мерсеро Р. Цифровая обработка многомерных сигналов/Пер. с англ. под ред. Л.П.Ярославского,- М.: Мир, 1988, 488с.
24. Демков М.Г. Взаимодействие оператора и устройства распознавания при формировании шаблонов слов устной речи// Тез. Докл. 2-й Всероссийской конференции с участием стран СНГ. РОАИ-2-95,- Ульяновск, 1995, ч. 3, с. 85 87.
25. Джайн А.К. Успехи в области математических моделей для обработки изображений// ТИИЭР, 1981, т. 69, N 5, с. 9-39.
26. Дуб Дж.Л. Вероятностные процессы/Пер. с англ. под ред. A.M. Яглома. -М.: ИЛ, 1956, 606 с.
27. Дуда Р., Харт П. Распознавание образов и анализ сцен/ Пер. с англ -М.: Мир, 1976,512 с.
28. Дынкин Е.Б., Юшкевич A.A. Теоремы и задачи о процессах Маркова,- М.: Наука, 1966, 232 с.
29. Кондратьев П.А. Анализ кривых в метеорологии// Журнал геофизики и метеорологии, 1927, №4, с. 313 327.
30. Королев Н.И. Достоверность корреляционного метода совмещения точечных изображений// Автометрия, 1993, N 5, с. 103-110.
31. Крамер Г. Математические методы статистики/ Пер. с англ. под ред: А.Н.Колмогорова.- М.: Мир, 1975, 648 с.
32. Крашенинников В.Р. Псевдоградиентные адаптивные алгоритмы обработки многомерных изображений/ Раздел 8 коллективной монографии «Прикладная теория случайных процессов и полей»/Под ред. К.К.Васильева и В.А.Омельченко,- Ульяновск: УлГТУ, 1995, с. 233-255.
33. Крашенинников В.Р. Винеровское оценивание непрерывных случайных полей// Методы обработки сигналов и полей,- Саратов: СПИ, 1986, с. 23-26.
34. Крашенинников В.Р., Ташлинский А.Г. Адаптивные алгоритмы совмещения изображений// Тез. докл. Междунар. конф. ОИДИ-90,- Новосибирск: ВЦ СО АН СССР, 1990, с. 138-139.
35. Крашенинников В.Р., Ташлинский А.Г. Адаптивно-морфологические методы совмещения изображений// Тез. докл. 2-й Всеросс. с участием стран СНГ конф. «Распознавание образов и анализ изображений» РОАИ-2-95,- Ульяновск: УлГТУ, 1995, ч. 2, с. 149-150.
36. Krasheninnikov V.R., Tashlinskii A.G., Krasheninnikov I.V. An adaptive algorithm for the identification of fingerprints// Pattern Recognition and Image Analysis. Birmingham, Al. 35201-1831,USA, 1996, vol.6, N 2, p. 277.
37. Крашенинников И.В. Адаптивные псевдоградиентные алгоритмы фильтрации авторегрессионного сигнала на фоне некоррелированных помех// Тез. докл. 33-й научно-технич. конференции УлГТУ.-Ульяновск: УлГТУ, 1999,ч.2, с. 43-44.
38. Крашенинников И.В. Периодическое комплексирование речевых сигналов в изображение// Труды Международной конференции "Методы и средства преобразования и обработки аналоговой информации",- Ульяновск: УлГТУ, 1999, т. 3, с. 56-58.
39. Крашенинников И.В. Методы определения периода речевых сигналов// Труды Ульяновского научного центра "Ноосферные знания и технологии" РАЕН,-Ульяновск: УНЦ НЗиТ РАЕН, 1999, т. 2, вып. 1, с. 111-116.
40. Крашенинников И.В., Афонин C.JI. Речевое управление в автоматизированных системах// Материалы Всероссийской научно-технич. конференции с участием зарубежных представителей "Интеллектуальные САПР". Таганрог, 1998, с. 262-263.
41. Крашенинников И.В., Горбунов А.И. Системы анализа речевых сигналов// Тез. докл. 31-й научно-технич. конференции УлГТУ- Ульяновск: УлГТУ, 1997, ч. 2, с. 20-22.
42. Левин Б.Р. Теоретические основы статистической радиотехники.-М.: Радио и связь, 1989, 656 с.
43. Леоненко H.H., Иванов A.B. Статистический анализ случайных полей,- Киев: Вища школа, 1986, 216с.
44. Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов М.: Наука, 1974, 696 с.
45. Малышев В.А., Минлос P.A. Гиббсовские случайные поля,- М.: Наука, 1985, 288 с.
46. Марагос П., Шафер Р.У. Морфологические системы для многомерной обработки сигналов// ТИИЭР, 1990, т. 78, № 4; с. 109-132.
47. Маркел Дж. Д., Грэй А.Х. Линейное предсказание речи/Пер. с англ -М.: Связь, 1980, 308 с.
48. Моттль В.В., Копылов A.B. Алгоритмы совмещения изображений при растровых искажениях// Тез.докл. 2-й Всеросс. с участием стран СНГ конф. «Распознавание образов и анализ изображений» РОАИ-2-95,- Ульяновск: УлГТУ, 1995, ч. 2, с. 162-164.
49. Невельсон М.Б., Хасьминский Р.З. Стохастическая аппроксимация и рекуррентное оценивание.- М.: Наука, 1972, 304 с.
50. Нуссбаумер Г. Быстрое преобразование Фурье и алгоритмы вычисления сверток,- М.: Радио и связь, 1985, 284 с.
51. Поляк Б.Т., Цыпкин Я.З. Псевдоградиентные алгоритмы адаптации и обучения// Автоматика и телемеханика, 1973, N 3, с. 45-68.
52. Поляк Б.Т., Цыпкин Я.З. Оптимальные псевдоградиентные алгоритмы адаптации// Автоматика и телемеханика, 1980, N 8, с. 74-84.
53. Потапова Р.К. Речевое управление роботом,- М.: Радио и связь, 1989,248 с.
54. Потапова Р.К. Тайны современного кентавра.- М.: Радио и связь, 1992,248 с.
55. Прохоров Ю.Н. Статистические методы и рекуррентное предсказание речевых сигналов,- М.: Радио и связь, 1984, 240 с.
56. Прэтт У. Цифровая обработка изображений/Пер. с англ. под ред. Д.С.Лебедева.- М.: Мир, 1982, кн. 1, 312 е.; кн. 2, 480с.
57. Пытьев Ю.П. Морфологический анализ изображений//Докл. АН СССР, 1983, т. 269, с. 1061-1064.
58. Райгель В.И., Спектор A.A. Многомерные векторные случайные поля с экспоненциальными корреляционными функциями// Автоматизированная обработка изображений природных комплексов Сибири,- Новосибирск: Наука, 1988, с. 96-102.
59. Репин В.Г., Тартаковский Г.П. Статистический анализ при априорной неопределенности и адаптация информационных систем,- М.: Советское радио, 1977, 432 с.
60. Розанов Ю.А. Марковские случайные поля,- М.: Наука, 1981, 256с.
61. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связь-издат, 1963, 452 с.
62. Сейдж Э.П., Меле Дж. Теория оценивания и ее применение в связи и управлении/ Пер. с англ. под ред. Б.Р. Левина.- М.: Связь, 1976, 495 с.
63. Семушин И.В. Адаптивные схемы идентификации и контроля при обработке случайных сигналов,- Саратов: СГУ, 1985, 180 с.
64. Серебренников М.Г., Первозванский A.A. Выявление скрытых пе-риоличностей.- М.: Наука, 1965, 244 с.
65. Срагович В.Г. Адаптивное управление.-М.: Наука, 1981, 384 с.
66. Степанов O.A. Оптимальное решение задачи уточнения координат объекта в корреляционно-экстремальных системах навигации при использовании информации о поле в виде кадра// Автометрия, 1994, N 2, с. 18-27.
67. Тихонов В.И., Кульман Н.К. Нелинейная фильтрация и квазикогерентный прием сигналов,- М.: Сов. радио, 1975, 704 с.
68. Токмаков Г.П. Распознавание и синтез словоформ методами логического вывода// Тез. докл. 2-й Всероссийской конференции с участием стран СНГ РОАИ-2-95,- Ульяновск, 1995, ч. 3, с. 186 189.
69. Токмаков Г.П. Распознавание речи методами логического вывода// Тез. докл. 2-й Всероссийской конференции с участием стран СНГ РОАИ-2-95.- Ульяновск, 1995, ч. 3, с. 190 193.
70. Уидроу Б., Стирнз С. Адаптивная обработка сигналов/ Пер. с англ. под ред. В.В.Шахгильдяна,- М.: Радио и связь, 1989, 440 с.
71. Фант Г. Акустическая теория речеобразования,- М.: Наука, 1964, с.283.
72. Физиология речи. Восприятие речи человеком/ Чистович JI.A. и др,-Л.: Наука, 1976, 386 с.
73. Фланаган Дж. Анализ, синтез и восприятие речи/ Пер. с англ.- М.: Связь, 1968, 396 с.
74. Фомин В.Н. Рекуррентное оценивание и адаптивная фильтрация.-М.: Наука, 1984, 288 с.
75. Фомин Я.А., Тарловский Г.Р. Статистическая теория распознавания образов,- М.: Радио и связь, 1986, 264 с.
76. Фор А. Восприятие и распознавание образов/ Пер. с фр,- М.: Машиностроение, 1989, 272 с.
77. Фурман Я. А. О понятии формы плоского изображения// Автометрия, 1992, N 5, с. 113-120.
78. Хабиби А. Двумерная байесовская оценка изображений// ТИИЭР, 1972, т. 60, N7, с. 153-159.
79. Хеннан Э. Многомерные временные ряды/ Пер. с англ. под ред. Ю.А. Розанова.- М.: Мир, 1974, 575 с.
80. Яглом A.M. Некоторые классы случайных полей в n-мерном пространстве, родственные случайным процессам// Теория вероятностей и ее применения, 1957, N 3, с. 293-333.
81. Ядренко М.И. Спектральная теория случайных полей.- Киев: Наукова думка, 1983, 232 с.
82. Ярославский Л.П. Введение в цифровую обработку изображений,- М.: Сов. радио, 1979, 312 с.
83. Atal B.C., Hanauer S.L. Speech analysis and synthesis by linear prediction of the speech wave// Acoust. Soc. Am., 1971, v. 50, p. 637 655.
84. Brooks C. A difference periodogramm, a method for the rapid determination of short periodicities// Proc. Roy. Soc., 1924, A105, p. 346.
85. Buys-Ballot. Les changements periodiques de temperature.- Utrecht,1847.
86. Cafforio C., Rocca F. Methods for measuring small displasements of TV images// IEEE Trans., 1976, IT-22, N 5, p. 573- 579.
87. Chrystal G. Murray J. An investigation of the seiches of Lock Earn by the Scottish Lake Survey.
88. Image Modelling/ Edited by Azriel Rosenfeld.- New York: Academic Press, 1981,446 р.
89. Itakura F., Saito S. Analysis synthesis telephony based upon the maximum likelihood method// Reports of 6th Int. Cong. Acoust.- Tokyo, 1968, vol C-5-5, p. 1968.
90. Lienard J.S. Speech characterization from a rough spectral analysis// IEEE ISASSP, 1979, p. 595 598.
91. Loizou P.C., Spanias A.S. High performance alphabet recognition// IEEE Trans., 1996, SAP, № 6, p.430 - 445.
92. Lucke H. Which stochastic models allow Baum-Welch trainig// IEEE Trans., 1996, SP,№ 11, p.2746 2756.
93. Mostafavi H., Smith F.W. Image correlation with geometric distortion// IEEE Trans., 1978, v. AES-14, N 3, p. 478-500.
94. Nagel H.H. Displacement-vector derived from second-order intensity variations in image sequences// Сотр. Vision, Graphics and Image Process., 1983, v. 21, N 1, p. 85-117.
95. Ostendorf M. From HMM'S to segment models// IEEE Trans., 1996, SAP, №5 p. 357-378.
96. Parker S.R., Kayran A.H. Lattice parameter autoregressive modelling of two-dimensional fields. Part I: The quarterplane case// IEEE Trans., 1984, v. ASSP-32, N 8., p. 872-885.
97. Peinado A.M. et al. Discriminative codebook design using multiple vector quantization in HMM-Based speech recognition// IEEE Trans., 1996, SAP, № 2, p. 89 96.-122
98. Pollak L., Hapel A. Bericht über die numerische methode von J. Fuhrich// Metcorol, 1935, v. 53, p. 330 333.
99. Rabiner L.R., Sambur M.R. Some preliminary Experiments in the recognition of connected digits// IEEE Trans., 1976, ASSP-24, № 6, p. 170 182.
100. Robbins J.D., Netravali A.N. Interframe television coding using movement compensation// Proc. Int. Conf. Commun.- Boston, 1979, p. 23.4.123.4.5.
101. Sankar A. A maximum-likelihood approach to stochastic matching for robust speech recognition// IEEE Trans., 1996, SAP, № 3, p. 190-201.
102. Vanmarcke E. Random Fields: Analysis and syntesis.- London, 1984,382 p.
103. Tanaka K. A parametric representation and a clastering method for phonem recognition// IEEE Trans., 1981, ASSP-29, № 6, p.l 117 1127.
104. Woods J.W. Two-dimensional Kaiman filtering// Topics in Applied Physics, Berlin, e.a., 1981, v. 42, p. 155-208.
-
Похожие работы
- Синтез, анализ и практическая реализация алгоритмов распознавания и предобработки речевых сообщений
- Выделение и предобработка сигналов в системах автоматического распознавания речевых команд
- Алгоритмы распознавания типов комбинированных помех для обнаружителей радиосигналов
- Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала
- Моделирование и распознавание речевых сигналов на фоне интенсивных помех
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность