автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Цифровая обработка изображений динамических сонограмм для нейтрализации спектральных искажений речевой информации
Автореферат диссертации по теме "Цифровая обработка изображений динамических сонограмм для нейтрализации спектральных искажений речевой информации"
На правах рукописи
Алгошин Виктор Михайлович
ЦИФРОВАЯ ОБРАБОТКА ИЗОБРАЖЕНИЙ ДИНАМИЧЕСКИХ СОНОГРАММ ДЛЯ НЕЙТРАЛИЗАЦИИ СПЕКТРАЛЬНЫХ ИСКАЖЕНИЙ РЕЧЕВОЙ ИНФОРМАЦИИ
Специальность:
05.13.01 - Системный анализ, управление и обработка информации
(в информационных системах). 05.13.19 - Методы и системы защиты информации, информационная безопасность.
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
20 МР 2014
Москва - 2014
005546069
005546069
Работа выполнена в Национальном исследовательском ядерном университете
«МИФИ»
Научные руководители: Кудряшов Николай Алексеевич -
доктор физико-математических наук, профессор (05.13.01).
Дворянкин Сергей Владимирович -доктор технических наук, профессор (05.13.19).
Официальные оппоненты: Чудновский Леонид Семенович - доктор
технических наук, с.н.с., ОАО «Научно-производственная корпорация «Системы прецизионного приборостроения», главный научный сотрудник
Грибунин Вадим Геннадьевич - доктор технических наук, МОУ «Институт инженерной физики», ведущий научный сотрудник
Ведущая организация: ФГБОУ высшего профессионального образования «Московский государственный университет приборостроения и информатики» (МГУПИ)
Защита диссертации состоится «24» апреля 2014 г. в 16 часов 30 минут на заседании диссертационного совета Д 212.130.03 в Национальном исследовательском ядерном университете «МИФИ»: 115409, г. Москва, Каширское шоссе, дом 31. Тел. для справок: +7 (499) 324-84-98.
С диссертацией можно ознакомиться в библиотеке Национального исследовательского ядерного университета «МИФИ».
Отзывы в двух экземплярах, заверенные печатью, просьба направлять по адресу: 115409, г. Москва, Каширское ш., д.31, диссертационные советы НИЯУ МИФИ, тел.: +7 (499) 324-84-98.
Автореферат разослан «1?)» марта 2014 г.
Ученый секретарь диссертационного совета
Леонова Н.М.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы
Речевые сообщения (PC) вместе с видеоданными являются наиболее широко используемым контентом информационного обмена (ИО), что обуславливает практическую необходимость создания эффективных методов и программно-технических средств качественной передачи речевой информации (РИ). Качество речевой передачи также важно для речепреобразующих устройств, работающих в защищенном от НСД режиме, предусматривающем намеренное искажение-восстановление её смыслового содержания и оценку эффективности такой защиты. Кроме того, при передаче, обработке и записи речи окружающая акустическая обстановка и сама среда распространения PC довольно часто являются неблагоприятными, что приводит к изменению главной характеристики качества передачи РИ - речевой разборчивости (РР), ее снижению и затруднению в понимании PC. В дополнение к этому, при передаче PC по линиям связи низкого качества или низкой пропускной способности разборчивость также может быть снижена за счет ограничений алгоритмов аудиокодирования и воздействия канальных помех. В связи с этим, в системах защиты и обработки РИ актуальной является задача восстановления смыслового содержания (семантики) преднамеренно или непреднамеренно искаженных PC с целью улучшения понятности устной речи, иногда даже в ущерб другим качественным характеристикам: натуральности, естественности звучания и комфортности восприятия.
Анализ существующих методов и средств восстановления частично разрушенной, искаженной речевой информации показал, что все они, так или иначе, влияют на трансформацию спектральных характеристик речевого сигнала, прежде всего изменяя значения амплитудного спектра. С его огибающей связана и фонетическая функция (ФФ), согласно работам A.A. Пирогова и других ученых, определяющая понятность устной речи, ее смысловое содержание (семантику), которое в конечном итоге можно представить в текстовом виде.
Разработке и исследованию различных методов цифровой обработки и защиты речевой информации, определения и повышения разборчивости PC посвящены работы ведущих отечественных и зарубежных ученых: Пирогова
A.A., Калинцева Ю.К., Сапожкова М.А., Женило В.Р., Хорева A.A., Карга-шина B.JL, Чудновского JI.C., Шалимова И.А., Малинина Ю.И., Соболева
B.М., Фанта Г., Фланагана Дж., Рабинера Р., Шафера Р., Продеуса А.Н. и др.
Опираясь на результаты этих работ, можно построить единую методическую и алгоритмическую базу, позволяющую бороться с наиболее распространенными видами помех и искажений даже при их значительном воздействии на спектральные характеристики PC. Современные многоядерные процессоры значительно расширяют возможности цифровой обработки сигналов, основывающейся, как правило, на кратковременном спектральном Фурье-анализе (КФА), который может быть принят за основу построения базовых методов коррекции спектральных характеристик искаженного PC, а также фильтрации, удаления и/или компенсации (вместе - нейтрализации)
сопутствующих ему шумов и помех.
Посредством КФА реализуется оригинальный подход к обработке акустических сигналов, базирующийся на технологии преобразования информации "звук-изображение-звук" (далее - технология образного анализа-синтеза). Первая часть преобразования "звук-изображение", приводящая к построению и визуализации узкополосных динамических сонограмм (ДС), известная более полувека, довольно хорошо изучена, но требует уточнений. Однако вторая часть - "произвольное изображение-звук" — в открытых источниках появилась относительно недавно и её возможности до конца ещё не исследованы.
В рамках предлагаемого подхода нейтрализация воздействия на РИ шумов и помех, воссоздание разрушенных или утерянных фрагментов речи могут быть реализованы посредством обработки (реконструкции и восстановления) изображений искаженных ДС с последующим синтезом по ним нового восстановленного РС. Обратный переход от нового изображения к рече-подобному сигналу (РПС) возможен либо с помощью обратного преобразования Фурье обновленных спектральных срезов на изображениях ДС, либо непосредственным расчетом по корректно рассчитанным параметрам подобранных подходящих частотно-временных описаний самого РС.
Перспективность использования указанного подхода для восстановления семантики искаженных РС обусловлена также активным развитием технологий анализа и обработки видеоданных в повсеместно развивающихся системах видеоконференций, трансляций, наблюдения, обработки и регистрации. Используя результаты работ Претта У., Гоулда Б., Ярославского Л.П., Грибунина В.Г., Брукштейна А.М., Хольта Р.Дж. и других известных авторов в сфере цифровой обработки изображений и компьютерной стеганографии, можно использовать наработанный потенциал видеоанализа и обработки применительно к графическим образам РС, в качестве которых берутся изображения ДС, для трансформации и восстановления спектральной огибающей при нейтрализации различных типов речевых искажений.
Таким образом, в связи с вышеизложенным, актуальным является совершенствование технологии преобразования информации "звук-изображение-звук", использование существующих и разработка перспективных решений к видеоанализу и обработке для создания новых методов, алгоритмов и программно-технических средств нейтрализации разнообразных семантических искажений РИ.
Объект исследования - системы речевой обработки, связанные с обнаружением и нейтрализацией спектральных искажений речевой информации.
Предмет исследования - модели речевых сигналов, методы и алгоритмы обработки изображений узкополосных динамических сонограмм, пригодные для восстановления искаженной речевой информации.
Цель диссертационного исследования - разработка методов и алгоритмов реконструкции и восстановления изображений искаженных узкополосных динамических сонограмм с последующим переходом к волновой форме нового речеподобного сигнала и их реализация в программно-технических средствах для нейтрализации семантических искажений речевой информации.
Основные задачи исследования
В диссертационном исследовании поставлены и решены следующие задачи:
— исследование свойств речеобразования и слухового восприятия, анализ существующих описаний речевых сигналов для обоснования выбора способов графического представления ключевых для понимания параметров РС на изображениях ДС;
— исследование возможности применения методов обработки изображений для нейтрализации спектральных помех и искажений семантики речевой информации с учетом требований к реализации в специальных технических средствах;
— совершенствование технологии преобразования "звук-изображение-звук" в части восстановления (синтеза) речеподобных сигналов по изображениям узкополосных спектрограмм;
— разработка и исследование специализированных методов и алгоритмов восстановления гармонической и формантной структур искаженных речевых сигналов;
— разработка и исследование универсальных методов обработки спектральных характеристик РС на изображениях динамических сонограмм с оценкой возможности их комплексного применения;
— реализация предложенных методов и алгоритмов в едином программном комплексе, их экспериментальное тестирование, а также разработка интерактивного графического интерфейса и интерфейса взаимодействия с внешними распространенными графическими редакторами;
— оценка эффективности предложенных программно-технических решений.
Методы исследования
В работе использовались методы системного анализа, цифровой обработки сигналов и изображений, математического и компьютерного моделирования, спектрального и корреляционного анализа, а также методы оценки защищенности речевой информации. Общей методологической основой проведения исследований является системный подход.
Научная новизна:
— предложен новый подход к восстановлению семантики и повышению РР искаженной РИ, основанный на обработке изображений спектральных описаний РС;
— показана возможность использования активно развивающегося научно-методического аппарата цифровой обработки изображений, для анализа, обработки и защиты речевой информации;
— разработан и реализован алгоритм нахождения частоты основного тона (ЧОТ) вокализованных участков речи по экстремумам аппроксимирующего многочлена спектральных разверток, позволяющий в отличие от существующих методов, находить положения кратных основному тону гармоник искаженного помехами РС даже при их частичном отсутствии в оригинальном сигнале при небольших вычислительных затратах;
— предложен впервые способ наложения формант на восстановленную гармоническую структуру с использованием априорных сведений из базы данных голоса конкретного диктора;
— усовершенствован алгоритм синтеза нового понятного и разборчивого речеподобного сигнала (РПС) по восстановленным и реконструированным изображениям узкополосных ДС, интерпретируемых в качестве его спектральных характеристик.
Практическая ценность работы обусловлена созданными программно-техническими средствами, реализующими разработанные методы цифровой обработки изображений ДС для восстановления семантики искаженной РИ.
Разработанные методические и технические средства позволяют создавать новое поколение высокоэффективных программно-аппаратных комплексов для решения следующих задач:
— нейтрализации искажений и помех в многоканальных системах приема, регистрации РС, а также в мобильных защищенных устройствах передачи РИ;
— оценки защищённости РИ, произносимой в выделенных помещениях конфиденциальных переговоров или передаваемой по системам защищенной голосовой связи;
— дистанционного мониторинга текущего психоэмоционального состояния оператора управления особо важными, либо опасными объектами по уровню микротремора в голосе в интересах ГК «Росатом», МО и других служб и ведомств;
— поиска людей под завалами и в труднодоступных местах в интересах МЧС и МО на основе распознавания РС при высоком уровне шумовых помех.
Предложенный для нейтрализации помех и искажений РИ подход, реализуемый на основе преобразования информации «звук-изображение-звук, можно рассматривать в качестве некоторого нового базиса для создания современных методов и методик оценки защищенности речевой информации в выделенных помещениях и каналах голосовой связи, а также повышения эффективности систем обеспечения информационной безопасности РИ на объектах защиты. С учетом возможностей злоумышленника по использованию цифровой обработки сигналов были уточнены критерии эффективности защиты выделенных помещений (табл.1).
Основные положения, выносимые на защиту:
— уточненное описание речевого сигнала, подходящее для описания вокализованных и невокализованных участков речи, которое вместе с обоснованно выбранной оконной функцией, позволяет корректно рассчитывать изображения ДС и интерпретировать результаты КФА на изображениях ДС;
- усовершенствованный метод синтеза звуковых сообщений по изображениям спектрограмм, позволяющий генерировать звук РПС без оригинальных фазовых значений или с частичным использованием оригинальной фазы в зависимости от поставленной задачи и параметров звуковой обработки;
- алгоритм автоматического восстановления гармонической структуры вокализованных участков искаженного звукового сигнала по вершинам парабол треков гармоник PC на спектральных развертках, позволяющий повысить точность нахождения частоты основного тона в условиях ограниченных вычислительных ресурсов;
- набор реализованных в ПО вычислительных процедур и алгоритмов обработки изображений динамических спектрограмм, позволяющих эффективно нейтрализовать спектральные искажения PC различных видов;
- единый программный комплекс "Sound Tool", реализующий на различных аппаратных платформах разработанные алгоритмы, использующий технологию параллельного программирования для ускорения обработки изображений спектрограмм.
Внедрение результатов работы
Результаты диссертационного исследования учтены при разработке модулей маскираторов речи для цифровых радиостанций, используемых в радиосетях ОВД.
Результаты работы в виде ПО нейтрализации искажений РР применены при разработке специализированного многоканального программно-аппаратного комплекса повышения речевой разборчивости "Палитра" в интересах заказчиков из силовых ведомств.
Теоретические и практические результаты, полученные в ходе выполнения диссертационной работы, использованы в учебном процессе НИЯУ МИФИ при разработке лабораторного практикума по дисциплине "Методы и средства контроля эффективности защиты информации от утечки по техническим каналам".
Получены соответствующие акты о внедрении результатов диссертационной работы из силовых структур и НИЯУ МИФИ.
Апробация работы
Основные результаты диссертационной работы докладывались на следующих конференциях:
- Всероссийской конференции по защите информации RuCTF 2013, Екатеринбург, 19-22 апреля 2013 г.;
- IX-й Международной научно-практической конференции «Безопасность ядерной энергетики», Волгодонск, 23-24 мая 2013 г.;
- Шестнадцатой Международной научно-практической конференции "Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности и экономике", Санкт-Петербург, 5- б декабря 2013 г.
Результаты диссертационного исследования в составе демонстрационных макетов опытных образцов акустических комплексов «Матрица» и
«Матрица-ND» демонстрировались соответственно на Международных салонах «Комплексная безопасность - 2011» и «Комплексная безопасность -2012».
Достоверность результатов обеспечивается корректностью применения математического аппарата, доказанностью выводов, совпадением теоретических результатов с экспериментальными данными, а также успешной практической реализацией результатов в образовательной деятельности, апробацией на научно-технических конференциях, семинарах и выставках, внедрением результатов исследований в ряд практических разработок.
Публикации
По основным положениям диссертационной работы опубликовано 8 печатных работ, из них 6 - в изданиях, рекомендованных ВАК, в том числе 1 работа в журнале, входящем в базу цитирования Scopus.
Личный вклад автора
Основные научные результаты получены автором лично.
Структура и объем работы
Диссертация содержит 217 страниц машинописного текста и состоит из введения, четырех глав, заключения, списка использованных источников и трех приложений. Основная часть диссертации содержит 179 страниц текста, 93 рисунка и 25 таблиц. Список источников включает 124 наименования.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертационного исследования, сформулированы цели и задачи исследования, обоснованы научная новизна и практическая ценность работы, сформулированы основные положения, выносимые на защиту.
В первой главе рассматриваются причины воздействия различных искажающих факторов на семантическую составляющую РИ. В частности, рассматриваются искажения, обусловленные акустической средой распространения звуковой волны, искажения в каналах голосовой связи, а также искажения речепреобразующих процессов и устройств, влияющих на спектральные характеристики исходного PC.
Особое внимание уделено анализу видов спектральных искажений РИ, среди которых выделены искажения без потери исходной РИ, частотно-временные описания которой могут быть замаскированы или трансформированы, и искажения с частичной потерей РИ. В рамках анализа первого класса искажений более подробно рассматриваются аддитивные и мультипликативные помехи, а также иные виды помех.
Представлен анализ существующих подходов к устранению речевых искажений и дана постановка задачи диссертационного исследования.
Семантическая (смысловая) часть PC описывается фонетической функцией (ФФ) Пирогова:
РШ^Се-h og(Jg^i)dr, (1)
где 5(со, г) - спектральная плотность РС на определяющей частоте со в момент времени На рис.1 показана спектрограмма исходного РС, на рис.2 -спектрограмма, наложенная на спектр гармоник кратной частоты, а на рис.3 -спектрограмма, наложенная на белый шум. У РС, соответствующих данным спектрограммам, ФФ, а, следовательно, и семантическая информация одинаковы, но различаются звучание и индивидуальные голосовые признаки.
Рис.). Спектрограмма Рис.2. Спектрограмма исходного Рис.3. Спектрограмма ис-исходного РС РС, наложенная на спектр ходного РС, наложенная на
гармоник кратной частоты текстуру спектра белого
шума
Были рассмотрены наиболее распространенные виды помех и искажений РИ и причины их возникновения:
1) Непреднамеренные помехи на месте проведения записи РС.
2) Помехи в линиях связи.
3) Неисправность или плохое качество передающей, приемной или регистрирующей аппаратуры.
4) Неправильный выбор или использование звукозаписывающей техники.
5) Неудобные условия проведения звукозаписи:
— ограниченность в выборе места звукозаписи;
— динамические условия записи;
— неудачный или неумелый выбор средств аудиозаписи. Показано, что влияние всех видов помех сводится к изменению спектральных описаний РС. Существующие способы борьбы с шумами и помехами представлены на рис. 4.
Рис. 4. Существующие способы нейтрализации речевых искажений
Анализируя содержание рис. 4, можно сделать вывод, что реализация всех представленных на нем основных методов сводится к обработке спектральных описаний. В связи с этим, данная работа посвящена совершенствованию построения графических изображений и образов спектральных описаний как наиболее понятных для человека, разработке методов и алгоритмов автоматической и интерактивной обработки построенных изображений, а также нахождению наиболее точного способа представления PC в спектральной области. Данный подход особенно востребован в связи с бурным развитием компьютерных технологий, видеорегистрирующей аппаратуры и систем распознавания образов, предоставляющих огромное множество реализованных алгоритмов и удобных пользовательских интерфейсов для сепарации и редактировании отдельных фонообъектов.
На рис. 5 представлена система анализа-синтеза, используемая для получения первичных и вторичных описаний ГО АС (PC) - изображений спектрограмм (сонограмм) или матриц динамических спектральных состояний (МДСС) t), а именно многоуровневых и бинарных изображений дина-
мических спектрограмм (ДС), а также значений, определяемых положениями и амплитудами локальных максимумов (JIM) на частотно-временном срезе (ЧВС).
Рис. 5. Система анализа-синтеза для получения первичных и вторичных описаний аудиосигналов с целью реализации процессов маскирования и демаскирования
Процесс обработки PC (АС) на базе системы (рис. 5), может быть представлен формализмом вида:
Исходный PC - sk(t).
Анализ (блок W - взвешивание дискретизированного звукового сигнала оконной функцией, блок FFT - быстрое преобразование Фурье).
Обработка (центральный блок).
Синтез (блок синтеза по улучшенной модели вейвлетов Морле).
Восстановленный PC — s'^it).
Основными требованиями, предъявляемыми к разрабатываемым методам, являлись:
— использование для удаления помех технологии преобразования "звук-изображение-звук", предполагающей создание специализированных методов и алгоритмов реконструкции и восстановления PC, а также применение известных и перспективных методов редактирования изображений в графических редакторах;
— высокая точность обнаружения и устранения помех;
- обработка РС в режимах реального времени и многоканальной обработки (до четырех каналов);
- возможность реализации методов и алгоритмов на современных, в том числе, встраиваемых, бортовых и переносных аппаратных средствах;
- возможность многопоточной реализации разработанных алгоритмов на современной, в первую очередь, многоядерной электронной элементной базе.
Выдвинуто предположение, что реализация данных методов, с одной стороны, позволит более эффективно проводить обработку РС и удаление из него помех, особенно при наличии нескольких независимых каналов получения информации, и, с другой стороны, поможет более точно оценивать реальную степень защищенности объектов информации с учетом возможностей злоумышленника по записи перехваченной РИ и ее дальнейшей обработке на современных вычислительных средствах.
В табл. 1 перечислены технические каналы утечки РИ и значения критерия эффективности защиты выделенных помещений (ВП) конфиденциальных переговоров и систем голосовой связи в зависимости от целей их защиты.
Табл.1. Каналы утечки РИ и значения критерия эффективности защиты ВП
Цель зашиты Технические каналы утечки информации Критерий эффективности защиты Отношение сигнал/белый шум, Дб Уточненное отношение сигнал/белый шум, Дб
Скрытие факта ведения переговоров в ВП Прямой акустический (ПА), акустовибрационный (АВБ), акустооптический (АКО), акустоэлектрический (АКЭ), акустоэлектромагнитный (АКЭМ) и; <10% -12.0 ±0.5 -13.0 ±0.5
Скрытие предмета переговоров в ВП ПА, АВБ, АКО, АКЭ, АКЭМ №„¿20% -9.0 ±0.5 -12.0 ±0.5
Скрытие содержания переговоров в ВП ПА, АВБ, АКО, АКЭ, АКЭМ ¡¥„¿30% -7.0 ±0.5 -11.0 ± 0.5
Скрытие содержания переговоров в ВП ПА без применения технических средств (непреднамеренное прослушивание) \У„ <40% -5.0 ±0.5 -10.0 ±0.5
В качестве критерия эффективности защиты ВП на практике применяется такой показатель, как нормированная РР \Уп. Отмечается, что ВП считается защищенным при 1¥„< 30%, однако в некоторых случаях можно восстановить смысловое содержание речи при данном уровне разборчивости. Такую возможность злоумышленника надо учитывать при разработке новых методов оценки защищенности.
Приведенные в табл. 1 значения УУ„ предлагается использовать для определения необходимости дополнительной защиты РИ, а также для определения эффективности применяемых методов обработки РС и нейтрализации помех.
Во второй главе диссертационного исследования рассмотрены возможности графического представления PC во временной и частотной областях. Анализируются возможности образного анализа изображений спектрограмм и фазограмм применительно к восстановлению искаженной РИ. Предложены направления совершенствования методов синтеза речеподобных сигналов по изображениям узкополосных спектрограмм.
В рамках уточнения аналитических описаний для PC представлен анализ традиционных моделей PC на вокализованных участках, даны уточненные гильбертовские описания речевых вокализмов, рассмотрено представление акустического сигнала как суперпозиции узкополосных элементарных сигналов его составляющих.
В настоящее время в зависимости от задачи речевой обработки используются различные характеристики PC: амплитудные и мощностные характеристики (громкость), временные характеристики (темп), частотные характеристики (тембр), энергетические характеристики и фазовые характеристики.
Для описания амплитудно-фазовых характеристик часто применяется Гильбертовская модель сигнала
S(t) = A(t) cos(<p(t)), (1)
или ее модификации.
Для определения каждой из упомянутых выше характеристик при решении конкретной задачи речевой обработки используется своя математическая модель. Так, например, для получения частотных и фазовых характеристик сигнала наиболее часто применяется преобразование Фурье для широкого круга приложений. Наибольший интерес представляют собой вокализованные участки речи, имеющие следующую гармоническую структуру:
Sit) = Ek=Hk(t) cos(УсШ + <рок), (2)
где Ak(t) — амплитуда к-ой гармоники, П— частота основного тона, а <рок — начальная фаза к-ой гармоники.
Для описания гармонической структуры вокализованных участков речи можно использовать уточненную Гауссовскую модель, представляющую PC в виде суммы узкополосных процессов:
Sit) = Z£=1 Аке~(2/»» cos(cü0kt + 0(t) + <рок), (3)
где Ак и atk - соответственно амплитуда и коэффициент затухания к-ой гармоники, 6{t) — функция, отвечающая за нелинейную зависимость фазы от времени; wok - центральная частота к-ой гармоники. Именно по вокализованным участкам предполагается проводить реконструкцию гармонической и формантной структур искаженной речи.
Современные исследования показывают, что множество данных, необходимых для нахождения характеристик узкополосных сигналов, составляющих исследуемый PC, содержится в его динамических спектрограммах и фазограммах в процессе кратковременного Фурье-анализа (КФА). При построении изображений фазограмм используются модули косинуса или синуса
фаз элементов дискретного преобразования Фурье (ДПФ), а при построении спектрограмм - логарифмы модулей ДПФ.
Одной из решаемых задач нейтрализации краевых эффектов на изображениях спектрограмм являлось определение оптимального типа оконной функции. Для нахождения такой функции в работе был использован тестовый сигнал продолжительностью 1 сек с частотой дискретизации 8 кГц, представляющий собой сумму четырех кратных гармоник линейно растущей со временем частоты. Для построения спектрограмм тестового сигнала использовались наиболее распространенные оконные функции: Гаусса, Барлет-та, Блэкмана-Наталла и др.
Наиболее близкой к теоретически ожидаемой оказалась спектрограмма, построенная с помощью окна Гаусса с параметром а = 0.17:
. . д N-1
w(n) = е «л»/ ; А = —, (4)
где п — номер элемента ДПФ, N— база ДПФ.
При сравнении изображений оригинальной спектрограммы и спектрограммы синтезированного звукового сигнала использовалась метрика Мин-ковского
! (H-1W-1 11/2
<*.У)-сМ2
nvv [;=о 1=0
где Н и W - высота и ширина изображений соответственно, c(i,j) и C(i,j) -яркости (от 0 до 255) пикселя с координатами (i, j) на двух сравниваемых изображениях.
В работе были рассмотрены три вида синтеза:
— по всему спектральному срезу;
— по локальным максимумам или по кратным ЧОТ гармоникам;
— с оригинальной или синтетически рассчитанной фазой вида
(Pi(.t + At) = <pj(t) где; = arg max
(5)
(6)
шах je[i-3, f+з}
Дня оценки качества синтеза было взято изображение текущей спектрограммы, по которому синтезировался PC, после чего с данным изображением сравнивалась спектрограмма полученного сигнала посредством метрики Мин-ковского (5). В табл.2 приведены сравнительные характеристики различных видов синтеза по их точности, полученные для тестового речеподобного сигнала.
Вид синтеза Оригинальная фаза Синтетическая фаза
Синтез по всему спектральному срезу 0.002 0.006
Синтез по локальным максимумам 0.005 0.005
Синтез по кратным ЧОТ тону гармоникам 0.005 0.007
Исходя из табл.2, самым точным является синтез по всему спектральному срезу с оригинальной фазой. Однако для синтеза фрагментов PC, состоящих из вокализованных участков и шумовой составляющей, можно использовать синтез по локальным максимумам (JIM) с оригинальной или искусственной фазой. В случае, если важно сохранить только гармоническую структуру речи или следует добиться максимального ослабления шума в интервале между гармониками, следует использовать синтез по кратным ЧОТ гармоникам.
Помимо этого, в работе было проведено сравнение различных видов синтеза по быстродействию при использовании стандартного алгоритма быстрого преобразования Фурье (БПФ). Результаты данного сравнения представлены в табл.3.
Табл.3. Результаты сравнения времени работы синтеза (мсек)
Вид синтеза Оригинальная фаза Синтетическая фаза
Синтез по всему спектральному срезу 172 ± 15 177 ±8
Синтез по локальным максимумам 167 ±8 177 ±8
Синтез по кратным ЧОТ гармоникам 167 ±8 177 ±8
Синтез по локальным максимумам и синтез по кратным гармоникам выполняются быстрее из-за большего количества нулевых элементов на спектральных срезах. Данные алгоритмы можно дополнительно ускорить с помощью оптимизации ДПФ, учитывая только ненулевые элементы или непосредственным расчетом РПС по формуле (3). В работе рассмотрены возможности дополнительного ускорения выполнения данных видов синтеза за счет модификации алгоритма БПФ на случай малого числа ненулевых элементов.
В рамках проведенных исследований также была дана оценка различных видов синтеза в случае передачи произвольного изображения через канал звуковой связи. Для этого по тестовому изображению (рис.6) был проведен синтез звука без разбиения (рис.7) и после разбиения изображения на чередующиеся полосы (рис.8).
Рис.6. Исходное изобра- Рис.7. Изображение без Рис.8. Изображение с
жение разбиения на полосы разбиением на полосы
Наиболее высокое качество переданного изображения достигается при реализации следующего алгоритма: в исходном изображении выделяются полосы по координате У; внутри каждой из выделенных полос осуществляется синтез РС; на последнем этапе осуществляется «склейка» результирующего изображения из полос спектрограмм.
В третьей главе описываются разработанные методы реконструкции искаженных сонограмм на основе образного анализа-синтеза речи. В этой связи рассматривается метод восстановления РР через изменение и обработку ФФ посредством цифровой обработки изображений узкополосных ДС.
Для рассматриваемого метода представлен алгоритм обработки искаженных спектральных описаний с целью восстановления ФФ речи. Анализируются подходы к удалению мешающих аддитивных шумов и квазигармонических сигналов. Приводятся рекомендации для их практического использования.
В реализации другого предлагаемого подхода к восстановлению искаженной РИ рассмотрены: метод восстановления гармонической структуры искаженного PC; метод восстановления формантной структуры искаженного PC при наличии базы данных голоса диктора; возможности комплексного использования методов восстановления гармонической и формантной структур.
При реализации предложенных методов использовалась информация о точном положении ЧОТ. Для восстановления гармонической структуры одного спектрального среза и нахождения ЧОТ использовался критерий максимальной спектральной составляющей, согласно которому в первом приближении основным тоном считался элемент ДПФ с максимальной амплитудой:
*осн = arR max I, (7)
0СН 6 ,_80Н 250-«' V '
~ V V
а также критерий максимизации суммы амплитуд первых кратных основному тону гармоник:
*B = arg max EU|jfM|. (8)
*ehr; — J
Недостаток критериев (7) и (8) заключается в том, что ЧОТ находится с точностью до разности частот между двумя соседними элементами ДПФ. Для нахождения уточненного положения ЧОТ был разработан метод корректировки значения по вершинам парабол спектральных разверток. Суть данного метода заключается в следующем: через элемент ДПФ, наиболее близкий к основному тону, и два соседних ему элемента проводится парабола, вершина которой считается скорректированным значением ЧОТ (рис.9).
Гармонические структуры вокализованного участка речи до и после корректировки представлены на рис. 10 и рис. 11 соответственно.
Рис.9. Метод корректировки Рис.10. Гармоническая Рис. 11. Гармоническая
ЧОТ по вершинам парабол структура речи до кор- структура речи после
спектральных разверток ректировки ЧОТ корректировки ЧОТ
Для еще более точного нахождения ЧОТ, особенно на сильно зашум-ленных спектральных срезах, в работе была проанализирована возможность использования «протяжки» гармонической структуры во времени, суть которой заключается в следующем: линии основного тона и кратных ему гармоник предполагаются непрерывными, и на следующем спектральном срезе их положение ищется только вблизи значений ЧОТ на предыдущем спектральном срезе.
На рис.12 и рис.13 изображены соответственно спектрограмма и осциллограмма зашумленного РС, а на рис.14 и рис.15 - соответственно спектрограмма и осциллограмма после синтеза по линиям гармоник.
Рис.12. Спектрограмма зашумленного РС Рис.13. Осциллограмма зашумленного РС
Рис.14. Спектрограмма РС после синтеза Рис.15. Осциллограмма РС после син-
по линиям гармоник теза по линиям гавмоник
Как видно из рисунков, при синтезе по линиям гармоник из РС исчезает большая часть широкополосного шума. Применение данной технологии позволило уточнить критерий эффективности защиты выделенных помещений (табл. 1). После восстановления гармонической структуры (ГС) возможно реконструировать формантную структуру речи при наличии базы данных голоса диктора. Для этого в базе данных следует найти звук, слог или слово, чья ГС наиболее похожа на протянутую по линиям гармоник ГС искаженной речи, после чего заменить искаженный участок на другой из набора заранее записанных фраз конкретного диктора.
Для сравнения ГС также можно использовать метрику Минковского (5).
В четвертой главе представлена структура разработанного графического интерфейса программного комплекса "Sound Tool" (рис. 16) для обработки спектральных описаний звуковых сигналов и произвольных изображений, показаны результаты применения разработанных алгоритмов обработки изображений спектрограмм для нейтрализации помех и искажений различного характера. Показана возможность реализации интерфейса между разработанным ПО и стандартными графическими редакторами через импорт и экспорт изображений спектрограмм с использованием современных форматов (bmp, jpg, png, gif, tiff и др.) для использования средств редактирования изображений применительно к обработке звуковых сигналов.
Рис.16. Графическая оболочка ПО "Sound Tool" На рис.17 представлены различные инструменты ПО "Sound Tool" для редактирования изображений спектрограмм и фазограмм.
а) б) в) г)
Рис. 17. Различные режимы визуализации ПО "Sound Tool": а) - "Ластик", б) - ЗО-сонограмма, в) - "Коридор визуализации", г) - фазограмма
В работе было проведено экспериментальное исследование эффективности методов обработки спектрограмм и синтеза РС, рассмотренных в главе 2 и главе 3 настоящей работы.
С помощью разработанного программного комплекса проведен анализ совмещения различных методов обработки РС для нейтрализации сложных помех и искажений. Даны рекомендации по комплексному использованию разработанных методов, а также представлен анализ возможных областей применения разработанных методов.
Результаты испытаний подтвердили высокую эффективность разработанных методов и алгоритмов, реализованных в специализированных программных и технических средствах, позволяющих нейтрализовать большинство наиболее распространенных видов искажений РИ.
В заключении сформулированы основные результаты диссертационной работы.
ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ
На основании теоретических и экспериментальных исследований, проведенных в работе, можно сделать следующие выводы:
1. Рассмотрены различные виды искажающих воздействий (шумов, помех и др.) на РИ. Показано их влияние на изменение спектральных характеристик и информативность искаженных речевых сигналов (PC).
2. Предложен подход к нейтрализации помех и искажений РИ через обработку спектральных огибающих на основе технологии образного анализа-синтеза речи («звук-изображение-звук»), позволяющий использовать распространенные графические редакторы и специализированные программные средства для обработки графических образов PC (изображений узкополосных сонограмм) в целях повышения PP. Показана актуальность использования и развития данного подхода в связи с современными тенденциями в видеорегистрации, распознавания образов и использовании водяных знаков.
3. Обоснован выбор оконной функции, позволяющей корректно строить и использовать в дальнейшей обработке изображения узкополосных динамических спектрограмм. Проведенный анализ позволил выделить окно Гаусса с параметром ст = 0.17 как наиболее оптимальное с точки зрения образования ложных узкополосных составляющих речи на изображениях ДС, полученных в результате КФА.
4. Разработан алгоритм нахождения по изображениям ДС частоты основного тона вокализованных участков речи по вершинам парабол спектральных разверток в зоне JIM с погрешностью менее 1%.
5. Разработан и реализован в виде специализированного программного обеспечения метод восстановления гармонической структуры сигнала и синтеза речи по найденным реконструированным гармоникам для нейтрализации широкополосных и узкополосных помех. Предложен способ восстановления формантной структуры искаженной речи с использованием базы данных голоса диктора и результатов восстановления гармонической структуры искаженного речевого сигнала.
6. Разработан программный комплекс "Sound Tool", реализуемый на различных аппаратных платформах, для обработки спектральных описаний звуковых сигналов и произвольных изображений, состоящий из графической оболочки, библиотеки алгоритмов, библиотеки ЗО-визуализации и служебных библиотек используемых компиляторов. При создании комплекса использована технология параллельного программирования NVIDIA CUDA для выполнения наиболее трудоемких вычислений непосредственно на видеокарте. Это позволило существенно освободить ресурсы процессора.
7. Разработанная графическая оболочка позволяет обрабатывать звуковой сигнал, используя автоматические (восстановление гармонической структуры с протяжкой фазы по времени) и интерактивные методы ("Коридор визуализации", "Ластик" и "Антиластик", выделение, копирование и удаление областей спектрограммы и др.).
8. На основе разработанного ПО в НИЯУ МИФИ создан лабораторный практикум, позволяющий обучить студентов и магистров современным методам защиты и обработки PC.
9. Проведенные экспериментальные исследования показали возможность применения созданных методов и алгоритмов в бюджетных устройствах шумоподавления (в качестве приложений ОС "Android") и в качестве основы специализированного комплекса "Палитра" в интересах заказчиков из силовых ведомств.
10. Полученные научные и практические результаты дают возможность при осуществлении дальнейших исследований по-новому подойти к решению таких задач, как распознавание зашумленной речи и идентификация диктора, проверка подлинности PC, компьютерная стеганография, оценка защищенности маскирования PC и др., что может позволить решать их быстрее, экономичнее и эффективнее.
Основные публикации по теме диссертации
В изданиях, рекомендованных ВАК Минобрнауки России
1. Алюшин В.М. Интерфейсные модули для макетирования систем сбора и обработки данных с реконфигурируемой структурой / М.В. Алюшин, A.B. Алюшин, В.М. Алюшин, JI.B. Колобашкина, H.A. Короткова // Естественные и технические науки. -2011. — №4. - С.440-443.
2. Алюшин В.М. Реконфигурируемая шина для создания высокопроизводительных систем обработки данных со структурой, управляемой потоком данных / М.В. Алюшин, A.B. Алюшин, В.М. Алюшин, JI.B. Колобашкина // Естественные и технические науки. -2011.— №4. — С.444-451.
3. Алюшин В.М. 3U и 6U модули цифровой обработки данных для макетирования систем с реконфигурируемой структурой / М.В. Алюшин, A.B. Алюшин, В.М. Алюшин, JI.B. Колобашкина, H.A. Короткова // Естественные и технические науки. - 2011. - №4. - С.452-455.
4. Алюшин В.М. Технологии образного анализа в задачах цифровой обработки речевой информации / В.М. Алюшин, C.B. Дворянкин // Научная визуализация. -2013. - Том 5. -№3. - С. 75-88.
5. Алюшин В.М. Метод реконструкции гармонической структуры спектральных описаний искаженной шумами и помехами речи / C.B. Дворянкин, В.М. Алюшин // Известия института инженерной физики. — 2013. — Том 2. — №28. - С.57-62.
6. Алюшин В.М. Восстановление гармонической структуры искаженных речевых вокализмов посредством цифровой обработки изображений динамических спектрограмм / В.М. Алюшин, C.B. Дворянкин // Безопасность информационных технологий. —2013. — №3. — С. 41-49.
Публикации в других изданиях
7. Алюшин В.М. Акустические технологии для систем мониторинга функционального состояния персонала АЭС / М.В. Алюшин, A.B. Алюшин, В.М. Алюшин, C.B. Дворянкин, JI.B. Колобашкина // Высокие технологии, исследования, образование, финансы. Сборник статей Шестнадцатой международной научно-практической конференции "Фундаментальные и прикладные исследования, разработка и применение высоких технологий в промышленности и экономике" 5-6 декабря 2013 года, Санкт-Петербург, Россия. - Санкт-Петербург, Изд-во Политехи, ун-та, 2013. - С.68-70.
8. Алюшин В.М. Акустические технологии для «интеллектуальных» систем мониторинга функционального состояния оперативного состава управления объектами атомной энергетики / М.В. Алюшин, В.М. Алюшин, C.B. Дворянкин, JI.B. Колобашкина // Глобальная ядерная безопасность. -2013. -№4(9). - С.63-71.
Подписано в печать: 22.02.14
Объем: 1,0 п. л. Тираж: 100 экз. Заказ № 194 Отпечатано в типографии «Реглет» г. Москва, Ленинский проспект, д. 2 (495) 978-66-63; www.reglet.ru
Текст работы Алюшин, Виктор Михайлович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский ядерный университет "МИФИ"
04201457342 На правах рукописи
Алюшин Виктор Михайлович
ЦИФРОВАЯ ОБРАБОТКА ИЗОБРАЖЕНИЙ ДИНАМИЧЕСКИХ СОНОГРАММ ДЛЯ НЕЙТРАЛИЗАЦИИ СПЕКТРАЛЬНЫХ ИСКАЖЕНИЙ РЕЧЕВОЙ ИНФОРМАЦИИ
05.13.01 - системный анализ, управление и обработка информации
(в информационных системах) 05.13.19 - методы и системы защиты информации, информационная безопасность
Диссертация на соискание ученой степени кандидата технических наук
Научные руководители:
доктор физико-математических наук, профессор Кудряшов Н.А. (05.13.01)
доктор технических наук, профессор Дворянкин C.B. (05.13.19)
Москва, 2014
Оглавление
Введение...................................................................................................................7
1 Анализ существующих технологий восстановления искаженных речевых сигналов..................................................................................................................19
1.1 Речевая информация (РИ) и способы ее оценивания..............................19
1.1.1 Разборчивость и понятность как основные показатели целостности смыслового содержания РИ.........................................................................23
1.1.2 Особенности процесса речеобразования и слухового восприятия речи ..............................................................................................................32
1.1.3 Связь спектральных описаний речевого сигнала с его разборчивостью и фонетической функцией...............................................34
1.2 Причины и виды спектральных искажений речевой информации........40
1.2.1 Искажения, обусловленные акустической средой распространения звуковой волны..............................................................................................42
1.2.2 Искажения речевых сообщений в каналах голосовой связи...........44
1.2.3 Искажения речепреобразующих процессов и устройств.................47
1.2.4 Спектральные искажения без потери исходной РИ.........................49
1.2.5 Спектральные искажения с частичной потерей РИ.........................53
1.3 Модели нарушителя и угроз информации в выделенных помещениях 54
1.4 Анализ методов и средств нейтрализации речевых искажений.............58
1.4.1 Методы полосовой фильтрации и клиппирования...........................59
1.4.2 Методы адаптивного подавления помех...........................................61
1.4.3 Методы коррекции спектра РС...........................................................62
1.4.4 Методы сглаживания спектра РС.......................................................64
1.4.5 Технология «звук-изображение-звук»...............................................65
1.4.6 Сравнительная характеристика наиболее распространенных на
российском рынке средств обработки речи...............................................67
1.5 Постановка задачи и требования к программно-техническим средствам с учетом особенностей современных многоядерных процессоров.............70
Выводы по главе 1.............................................................................................74
2 Исследование возможностей образного анализа-синтеза речи к реконструкции и восстановлению искаженных аудиоданных.........................76
2.1 Уточнение аналитических описаний речевого сигнала..........................76
2.1.1 Анализ традиционных описаний речевого сигнала на вокализованных участках.............................................................................77
2.1.2 Уточненное Гауссовское описание речевых вокализмов................80
2.2 Кратковременный Фурье-анализ и графическое представление речевых сигналов в частотно-временной области........................................................82
2.2.1 Обоснование выбора шага частотно-временной сетки....................85
2.2.2 Обоснование выбора оконной функции............................................86
2.3 Совершенствование методов восстановления речеподобных сигналов по изображениям узкополосных спектрограмм.............................................89
2.3.1 Общие подходы к синтезу речеподобных сигналов по изображениям спектрограмм.......................................................................89
2.3.2. Синтез речи с использованием оригинальной фазограммы...........91
2.3.3 Синтез речи с использованием фазограммы с искусственной протяжкой фазы.............................................................................................92
2.3.4 Сравнение различных видов синтезов...............................................93
2.4.Тестирование алгоритмов синтеза звука для случая произвольного изображения.......................................................................................................96
Выводы по главе 2.............................................................................................99
3 Разработка и тестирование графического инструментария для восстановления искаженной речи на основе образного анализа-синтеза сонограмм.............................................................................................................101
3.1 Масштабирование и сдвиг изображений сонограмм............................101
3.1.1 Билинейная фильтрация....................................................................103
3.1.2 Интерполяция с помощью ДПФ.......................................................104
3.2 Расслоение, "склейка" и нелинейная фильтрация частотно-временных описаний...........................................................................................................105
3.2.1 Инструменты "Ластик" и "Антиластик"........................................105
3.2.2 «Коридор визуализации»...................................................................107
3.2.3 Обработка мультипликативно искаженных спектральных описаний с целью восстановления фонетической функции речи...........................108
3.2.4 Медианная фильтрация.....................................................................110
3.2.5 Выделение областей спектрограммы...............................................111
3.2.6 Удаление мешающих аддитивных шумов и квазигармонических сигналов........................................................................................................112
3.3 Восстановление гармонической и формантной структур искаженных речевых сообщений.........................................................................................114
3.3.1 Метод восстановления гармонической структуры искаженного речевого сигнала на фоне шумов..............................................................114
3.3.2 Восстановление гармонической структуры РС с потерей информации в частотных полосах.............................................................122
3.3.3 Протяжка по времени линий гармоник основного тона................123
3.3.4 Восстановление формантной структуры искаженного речевого сигнала при наличии базы данных голоса диктора.................................124
3.3.5 Особенности комплексного использования методов восстановления
4 Экспериментальные исследования предложенных методов нейтрализации спектральных искажений речевой информации в системах голосовой связи 129
4.1 Описание состава программно-технических средств, используемых в экспериментальном стенде по восстановлению речевой разборчивости . 129
4.1.1 Структура модулей разработанного программного обеспечения. 129
4.1.2 Инструменты и средства редактирования изображений спектрограмм, реализованные в ПО "Sound Tool"..................................130
4.1.3. Описание графического интерфейса разработанного программного обеспечения.................................................................................................131
4.2 Описание экспериментального стенда и условий проведения экспериментов по восстановлению искаженной речевой информации.... 144
4.3 Обобщение результатов проведенных экспериментов по нейтрализации спектральных искажений речевого сигнала.................................................146
4.4 Применения полученных результатов образного анализа сонограмм в задачах защиты и обработки речевой информации.....................................147
Выводы по главе 4...........................................................................................159
Заключение..........................................................................................................161
Список терминов, условных обозначений и сокращений..............................164
Список литературы.............................................................................................167
Приложение А. Описания и точность оконных функций...............................180
Приложение Б. Исходные коды библиотеки алгоритмов...............................186
гармонической и формантной структур
126
Выводы по главе 3
127
Приложение В. Примеры применения программного комплекса "Sound Tool" для решения различных стеганографических задач и задач обработки звуковых сигналов...............................................................................................202
Введение
Актуальность темы диссертационного исследования.
Речевые сообщения (PC) вместе с видеоданными являются наиболее широко используемым контентом информационного обмена (ИО), что обуславливает практическую необходимость создания эффективных методов и программно-технических средств качественной передачи речевой информации (РИ). Качество речевой передачи также важно для речепреобразующих устройств, работающих в защищенном от НСД режиме, предусматривающем намеренное искажение-восстановление её смыслового содержания и оценку эффективности такой защиты. Кроме того, при передаче, обработке и записи речи окружающая акустическая обстановка и сама среда распространения PC довольно часто являются неблагоприятными, что приводит к изменению главной характеристики качества передачи РИ — речевой разборчивости (РР), ее снижению и затруднению в понимании PC. В дополнение к этому, при передаче PC по линиям связи низкого качества или низкой пропускной способности разборчивость также может быть снижена за счет ограничений алгоритмов аудиокодирования и воздействия канальных помех. В связи с этим, в системах защиты и обработки РИ актуальной является задача восстановления смыслового содержания (семантики) преднамеренно или непреднамеренно искаженных PC с целью улучшения понятности устной речи, иногда даже в ущерб другим качественным характеристикам: натуральности, естественности звучания и комфортности восприятия.
Анализ существующих методов и средств восстановления частично разрушенной, искаженной речевой информации показал, что все они, так или иначе, влияют на трансформацию спектральных характеристик речевого сигнала, прежде всего изменяя значения амплитудного спектра. С его огибающей связана и фонетическая функция (ФФ), согласно работам A.A. Пирогова [99] и других ученых, определяющая понятность устной речи, ее смысловое содержание (семантику), которое в конечном итоге можно представить в текстовом виде.
Разработке и исследованию различных методов цифровой обработки и защиты речевой информации, определению и повышению разборчивости PC посвящены работы ведущих отечественных и зарубежных ученых: Пирогова
A.A., Калинцева Ю.К., Сапожкова М.А., Женило В.Р., Хорева A.A., Карга-шина B.JL, Чудновского JI.C., Шалимова И.А., Малинина Ю.И., Соболева
B.М., Фанта Г., Фланагана Дж., Рабинера Р., Шафера Р., Продеуса А.Н. и др.
Опираясь на результаты этих работ, можно построить единую методическую и алгоритмическую базу, позволяющую бороться с наиболее распространенными видами помех и искажений даже при их значительном воздействии на спектральные характеристики PC. Современные многоядерные процессоры значительно расширяют возможности цифровой обработки сигналов, основывающейся, как правило, на кратковременном спектральном Фурье-анализе (КФА) [100], который может быть принят за основу построения базовых методов коррекции спектральных характеристик искаженного PC [59], а также фильтрации, удаления и/или компенсации (вместе нейтрализации) сопутствующих ему шумов и помех.
Посредством КФА реализуется оригинальный подход к обработке акустических сигналов, базирующийся на технологии преобразования информации "звук-изображение-звук" (далее - технология образного анализа-синтеза) [21, 60-65, 80]. Первая часть преобразования "звук-изображение", приводящая к построению и визуализации узкополосных динамических сонограмм (ДС), известная более полувека, довольно хорошо изучена, но требует уточнений. Однако вторая часть - "произвольное изображение-звук" - в открытых источниках появилась относительно недавно и её возможности до конца ещё не исследованы.
В рамках предлагаемого подхода нейтрализация воздействия на РИ шумов и помех, воссоздание разрушенных или утерянных фрагментов речи, могут быть реализованы посредством обработки (реконструкции и восстановления) изображений искаженных ДС с последующим синтезом по ним нового восстановленного PC. Обратный переход от нового изображения к рече-
подобному сигналу (РПС) возможен либо с помощью обратного преобразования Фурье обновленных спектральных срезов на изображениях ДС, либо непосредственным расчетом по корректно рассчитанным параметрам подобранных подходящих частотно-временных описаний самого РС.
Перспективность использования указанного подхода для восстановления семантики искаженных РС обусловлена также активным развитием технологий анализа и обработки видеоданных в повсеместно развивающихся системах видеоконференций, трансляций, наблюдения, обработки и регистрации. Используя результаты работ Претта У., Гоулда Б., Ярославского Л.П., Грибунина В.Г., Брукштейна А.М., Хольта Р.Дж. и других известных авторов в сфере цифровой обработки изображений и компьютерной стеганографии, можно использовать наработанный потенциал видеоанализа и обработки применительно к графическим образам РС, в качестве которых берутся изображения ДС, для трансформации и восстановления спектральной огибающей при нейтрализации различных типов речевых искажений.
Таким образом, в связи с вышеизложенным, актуальным является совершенствование технологии преобразования информации "звук-изображение-звук", использование существующих и разработка перспективных решений к видеоанализу и обработке для создания новых методов, алгоритмов и программно-технических средств нейтрализации разнообразных семантических искажений РИ.
Объектом исследования являются системы речевой обработки, связанные с обнаружением и нейтрализацией спектральных искажений речевой информации.
Предметом исследования являются модели речевых сигналов, методы и алгоритмы обработки изображений узкополосных динамических соно-грамм, пригодные для восстановления искаженной речевой информации.
Целью диссертационного исследования является разработка методов и алгоритмов реконструкции и восстановления изображений искаженных узкополосных динамических сонограмм с последующим переходом к волновой
форме нового речеподобного сигнала и их реализация в программно-технических средствах для нейтрализации семантических искажений речевой информации.
Задачи исследования:
1. Исследование свойств речеобразования и слухового восприятия, анализ существующих описаний речевых сигналов для обоснования выбора способов графического представления ключевых для понимания параметров РС на изображениях ДС.
2. Исследование возможности применения методов обработки изображений для нейтрализации спектральных помех и искажений семантики речевой информации с учетом требований к реализации в специальных технических средствах.
3. Совершенствование технологии преобразования "звук-изображение-звук" в части восстановления (синтеза) речеподобных сигналов по изображениям узкополосных спектрограмм.
4. Разработка и исследование специализированных методов и алгоритмов восстановления гармонической и формантной структур искаженных речевых сигналов.
5. Разработка и исследование универсальных методов обработки спектральных характеристик РС на изображениях динамических сонограмм с оценкой возможности их комплексного применения.
6. Реализация предложенных методов и алгоритмов в едином программном комплексе, их экспериментальное тестирование, а также разработка интерактивного графического интерфейса и интерфейса взаимодействия с внешними распространенными графическими редакторами.
7. Оценка эффективности предложенных программно-технических решений.
Методы исследования
В работе использовались методы системного анализа, цифровой обработки сигналов и изображений, математического и компьютерного модели-
рования, спектрального и корреляционного анализа, а также методы оценки защищенности речевой информации.
Общей методологической основой проведения, исследований является системный подход.
Обоснованность и достоверность результатов диссертации Обоснованность результатов диссертации определяется корректным применением используемых методов исследования. Достоверность основных положений диссертационного исследования обеспечивается корректностью применения математического аппарата, доказанностью выводов, совпадением теоретических результатов с экспериментальными данными, а также успешной практической реализацией результатов в образовательной деятельности, апробацией на научно-технических конференциях, семинарах и выставках, внедрением результатов исследований в ряд практических разработок. Основные положения, выносимые на защиту:
— уточненное описание речевого сигнала, подходящее для описания вокализованных и невокализованных участков речи, которое вместе с обоснованно выбранной оконной функцией позволяет корректно рассчитывать изображения ДС и интерпретировать результаты КФА на изображениях ДС;
— усовершенствованный метод синтеза звуковых сообщений по изображениям спектрограмм, позволяющий генерировать звук РПС без оригинальных фазовых значений или с частичным использованием оригинальной фазы в зависимости от поставленной задачи и параметров звуко�
-
Похожие работы
- Компьютерные технологии обеспечения безопасности оперативных аудиоданных в условиях информационно-технического противодействия
- Моделирование процессов управления речевой разборчивостью в многоканальных системах конфиденциальной голосовой связи
- Методика анализа и синтеза элементов тракта речепреобразования для низкоскоростных систем связи
- Разработка программного обеспечения для исследования речевых сигналов
- Разработка принципов построения оптических процессоров для предварительной обработки речи в системах автоматического распознавания
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность