автореферат диссертации по радиотехнике и связи, 05.12.04, диссертация на тему:Использование распознавания образов для обработки и восстановления музыкальных сигналов
Автореферат диссертации по теме "Использование распознавания образов для обработки и восстановления музыкальных сигналов"
На правах рукописи УДК 681.84.087
Кудинов Александр Александрович
Использование распознавания образов
для обработки и восстановления музыкальных сигналов
Специальность: 05.12.04 — Радиотехника, в том числе системы и < устройства радионавигации, радиолокации и телевидения
Автореферат диссертации на соискание учёной степени кандидата технических наук
/
Москва 2003
Работа выполнена на кафедре «Радиовещание и электроакустика» Московского технического университета связи и информатики (МТУСИ)
Научный руководитель — доктор технических наук, профессор С. Л. Мишенков
Официальные оппоненты — доктор технических наук, профессор Б. П. Хромой — кандидат технических наук, доцент Л. В. Шитов
Ведущая организация — Федеральное государственное унитарное
предприятие «Научно-исследовательский институт радио» (ФГУП НИИР)
(л 4
Защита состоится » 2003 года в часов на заседании
диссертационного совета К.219.001.02 в Московском техническом университете связи и информатики по адресу: 111024, г. Москва, ул. Авиамоторная, д. 8а, ауд. А-455
С диссертацией можно ознакомиться в библиотеке МТУСИ.
Автореферат разослан « 2003
года
Ученый секретарь диссертационного совета 1^219 кандидат технических наук, доцент
001.02
0.8. Матвеева
Общая характеристика работы
Актуальность тематики
Современное состояние проблемы реставрации музыкальных фонограмм характеризуется определенным противоречием между возможностями, предоставляемыми техникой цифровой обработки сигналов, и результатами, получаемыми на практике. Современные аппаратные и программные средства реставрации сигналов позволяют повысить эффективность подавления импульсных помех и широкополосных шумов. В то же время, нередко субъективные оценки квалифицированных экспертов свидетельствуют о потерях в эстетических свойствах фонограмм. В связи с этим возникает проблема принципиального характера о целесообразности реставрации архивных звукозаписей при современном уровне развития аудиотехнологий. В частности, некоторые специалисты предлагают ограничиться простой «консервацией» оригинальных фонограмм. В рамках подобной технологии звукозапись преобразуется в цифровую форму с использованием высококачественных аналого-цифрового преобразователей и переносится на долговечный носитель типа компакт-диска. Существующие способы восстановления музыкальных сигналов основываются *на~ .субъективных методах обнаружения дефектов и уменьшения их влияния. Актуальность тематики определяется необходимостью сохранения музыкальных звукозаписей, представляющих историческую и культурную ценность. Для этого необходима разработка объективных методов восстановления, нацеленных на устранение последствий нежелательных искажений.
Цель и задачи работы
Целью работы является повышение качества (по критерию субъективной оценки) восстановления музыкальных сигналов.
Для достижения этой цели в работе ставятся и решаются следующие задачи:
1. Разработка управляемого системой распознавания алгоритма цифровой обработки сигнала на уровне структуры отдельного звукового объекта.
2. Разработка системы распознавания образов для управления автоматической и автоматизированной обработкой сигнала в процессе реставрации.
В задачи восстановления музыкальных сигналов входят:
а) устранение компонентов спектра, не составляющих полезный сигнал (продукты нелинейных искажений, компоненты шумов и помех);
б) восстановление компонентов сигнала, утраченных из-за изменений, вносимых трактом формирование-запись и/или носителем записи (линейные искажения), из-за длительного и/или неправильного хранения носителя записи.
Для решения этих задач необходимо в процессе наблюдения реализации сигнала классифицировать звуковые объекты, что по определению является задачей распознавания образов.
Структура музыкального звукового объекта — соотношение амплитуд, начальных фаз и частот основного тона и обертонов как функций времени.
Распознавание музыкального сигнала — принятие решения о частоте основного тона, длительности, громкости и тембре звуковых объектов.
Сведения о частоте основного тона и длительности звукового объекта позволяют
а) классифицировать компоненты спектра не только как полезные, но и как относящиеся к конкретному звуковому объекту;
б) на основе априорных знаний или эвристических моделей синтезировать утраченные компоненты (обертоны) звуковых объектсш_и,,при—необходимости, управлять соотношением параметров (амплитуд, фаз) ».
Методы исследования
При исследовании свойств музыкальных сигналов использованы методы математической статистики и методы спектрального анализа на основе дискретного преобразования Фурье (ДПФ).
При разработке алгоритма распознавания музыкального сигнала использованы методы спектрального и корреляционного анализа на основе ДПФ, численные методы анализа дискретных последовательностей, положения общей теории распознавания образов, сведения о психофизиологии восприятия звука, сведения о физике звукоизвлечения в музыкальных инструментах, положения элементарной теории музыки.
Научная новизна работы
1. Для управления обработкой сигнала в процессе реставрации используется информация, полученная при предварительном распознавании сигнала. Т.е. к решению задачи восстановления музыкальных сигналов по неполной или искажённой информации применены методы распознавания образов.
2. Алгоритмы сегментации и распознавания музыкального сигнала построены с учётом априорной информации о распознаваемых реализациях образов. Априорная информация о музыкальном сигнале состоит в заранее известном соотношении ОТ звуковых объектов, подлежащих распознаванию. В европейской музыке частоты основных тонов звуков составляют множество /¡ог, зная один из членов которого (например, эталонный тон /э, по которому настраиваются инструменты), можно с незначительными отклонениями восстановить все остальные. Например, для равномерного строя: = /э где /э — эталонная
частота, для натурального строя /¡ог = /, •—, где т, п е 2, т,п 21.
и
Практическая значимость
1. Автоматическое распознавание музыкальных сигналов с расширением множества распознаваемых сигналов найдёт своё применение в современной звукозаписи. Автоматическое распознавание музыкального сигнала позволяет звукозапись музыкального произведения поставить в соответствие с его нотной записью. Такая возможность используется:
— при создании электронных архивов партитур музыкальных произведений;
— аранжировщиками и композиторами для сокращения рутинной работы по написанию партитур.
Соответственно, практическую значимость представляет разработанный алгоритм распознавания музыкальных сигналов.
2. Развитие систем распознавания звуковых и зрительных образов и их объединение в единые комплексы приведёт к тому, что наиболее эффективная обработка и видео-, и звуковых сигналов будет проводиться именно на основе распознавания. Результаты работы разработанной системы восстановления несложных звучаний — подтверждение целесообразности и реализуемости распознающих систем обработки, один из первых шагав в данном направлении.
3. Предложенная методика определения параметров основного тона и обертонов звуковых объектов позволяет повысить качество аддитивного синтеза музыки и речи по критерию натуральности звучания.
4. Разработанное для анализа квазипериодических сигналов программное обеспечение (ПО) может быть использовано для объективной оценки качества звучания музыкальных инструментов.
Апробация результатов работы
Основные результаты и предложения, полученные в ходе работы над диссертацией, докладывались и опубликованы в виде тезисов докладов 55-ой студенческой НТК МТУСИ, профессорско-преподавательских конференций МТУСИ 2001-2003 гг., 10-ой межрегиональной конференции МНТОРЭС им А. С. Попова, 4-ой международной НТК «Перспективные технологии в средствах передачи информации» (Владимир). Также результаты опубликованы в статьях, депонированных ЦНТИ «Информсвязь», докладывались на заседаниях кафедры РВ и ЭА, НТС МТУСИ.
Всего по теме работы опубликовано 2 статьи в открытой печати, 8 тезисов докладов на конференциях, депонировано 5 статей.
Положения, выносимые на защиту
1. Целью реставрации фонограмм является повышение субъективной оценки качества сигнала путём устранения нежелательных последствий прохождения сигнала через тракты формирования, записи и воспроизведения, а также последствий длительного и/или неправильного хранения фонограмм.
2. Для повышения эффективности реставрации фонограмм необходима'' применение распознавания образов.
3. Использование для автоматической сегментации априорной информации в виде распределения значений одного из признаков потенциально эффективнее методов, применяемых в обучаемых и самообучающихся системах распознавания.
4. В задачах автоматического распознавания музыкальных сигналов целесообразно использовать предлагаемую в работе классификацию музыкальных инструментов, основанную на типе возбуждаемых колебаний (автоколебания или свободные затухающие колебания).
5. Натуральность звучания сигналов, получаемых при воссоздании звуков музыкальных инструментов и вокализованных звуков речи аддитивным синтезом, достигается при наличии информации о каждом полном цикле колебаний.
Краткое содержание работы
Введение
Описано и проанализировано современное состояние техники реставрации музыкальных фонограмм. Обсуждены универсальность понятия «реставрация» и необходимость общего для разных отраслей науки и техники понимания ев целей и задач. Сформулированы цели и задачи реставрации и на их основе выявлены проблемы развития устройств и систем, используемых для реставрации и восстановления сигналов звукового вещания.
Обсуяздена целесообразность выполнения реставрации фонограмм. Построена общая схема (рис.1) процесса реставрации на основе распознавания, иллюстрирующая предлагаемый подход к решению задач восстановления сигналов.
Цели и задачи
Обсуждается актуальность тематики, некоторые аспекты субъективной и объективной оценок качества сигналов звукового вещания (ЗВ). Формулируются цели и задачи диссертационной работы (см. выше).
Принципы построения систем распознавания образов
■ В параграфе «Общая теория распознавания образов» систематизированы применительно к сигналам звукового вещания основные понятия теории распознавания образов, приведена классификация систем распознавания, обсуадаются задачи распознавания образов, а также назначение и цель создания
систем распознавания образов. Кроме того, обсуждается в общем виде последовательность распознавания образов.
■ В параграфе «Распознавание образов с информационной точки зрения» обсуждаются два основных вопроса: информативность музыкальных произведений (т.е. содержание и характер информации, переносимой музыкальным сигналом) и преобразования информации в процессе распознавания образов.
Различают два типа информации:
а) семантическая информация, имеющая структуру, допускающая точное представление, записываемая символами;
б) эстетическая информация, «непереводимая», относящаяся к набору знаний, общих для приёмника и передатчика.
Семантическая информация в музыке частично описывается с помощью нотной записи. При распознавании происходит выделение семантической информации, переносимой звуковым сигналом.
■ Параграф «Статистический подход к распознаванию образов» посвящён постановке задачи и общим принципам выполнения распознавания образов как статистической задачи. В большинстве случаев имеют дело с вероятностными признаками, при этом области значения признаков перекрываются. В такой ситуации принимается решение о вероятности принадлежности к5 тому или иному классу. Частота основного тона музыкальных звуков — величина случайная. Однако области значений основных тонов нот для равномерного и натурального строев не перекрываются.
■ В параграфах «Распознавание звуковых образов» и «Системы распознавания музыкальных сигналов» обсуждаются проблемы распознавания звуковых сигналов, определяется набор важнейших признаков, характеризующих звуковые объекты, кратко описывается история развития систем распознавания музыкальных сигналов, обсуждаются принципы их построения.
Проблема автоматического распознавания звуковых образов оказалась замкнутой на распознавание звуков речи, другие приложения развивались мало. Современные успехи теории распознавания музыкальных сигналов не убедительны — на сегодняшний день не создано ни одной коммерчески используемой системы распознавания многоголосных мелодий.
Формулируется в виде предположения основание физической теории распознавания образов: основные признаки, необходимые для автоматического распознавания образа, содержатся в самом сигнале.
Основные признаки звуковых объектов:
1. Энергетические параметры, размах сигнала, мощность сигнала, относительная средняя мощность.
2. Спектральные характеристики: характер кратковременного спектра, непрерывный или дискретный (соответственно, шумовой или тональный сигнал), положение на частотной оси формант кратковременного амплитудного спектра, соотношение амплитуд соответствующих спектральных составляющих, соотношение амплитуд и фаз гармоник, частота основного тона, кратковременная автокорреляционная функция сигнала.
Исторически первыми появились системы распознавания мелодий (одноголосных последовательностей). Первая система распознавания многоголосия создана в 1975 году. В разделе приведён аналитический обзор современных систем распознавания музыкальных сигналов, выявлены достоинства и недостатки этих систем, обоснован выбор предлагаемого подхода.
Развитие систем распознавания музыкальных сигналов (СРМС) происходит в рамках более общего направления — компьютеризированного анализа звуковых картин (КАЗК, CASA - computational auditory scene analysis). Бурное развитие КАЗК
связано с развитием многоканальных систем звукозаписи. Основными тенденциями в развитии СРМС является:
1. моделирование восприятия человеком громкости для сегментации сигнала и выделения ритма;
2. использование экспертных систем («блэкбордя-архитектура, методология «классной доски» (blackboard — классная доска)) при анализе амплитудных спектров созвучий на предмет определения основных тонов отдельных звуков — учет законов гармонии, особенностей музыкального строя.
Сложность распознавания полифонических музыкальных сигналов определяется перекрытием звуковых объектов во временной и частотной областях. Традиционные методы определения высоты, используемые при анализе речевых и одноголосных музыкальных сигналов, неприменимы.
■ Теоретическим подходам к разделению созвучий тональных звуков посвящёны параграфы — «Сложности распознавания полифонических сигналов» и «Современные подходы к распознаванию полифонических сигналов». Формулируются основные свойства созвучий тональных звуков — соотношение частот основных тонов и гармоник. На основе этих свойств формулируются требования к алгоритмам разделения созвучий тональных звуков. Приводятся правила, на которых строятся экспертные системы для разделения созвучий. Все сведения — результат анализа публикаций зарубежных авторов.
■ Выводы:
1. Система распознавания всегда является элементом системы управления, цель создания системы распознавания — повышение эффективности решений, принимаемых при управлении.
2. Частота основного тона (ОТ) музыкальных звуков — вообще говоря, случайная величина. Области значений частот ОТ звуков, отличающихся на полутон, не перекрываются, поэтому вероятность принятия ошибочного решения о высоте тона ноты по частоте основного тона звукового объекта равна 0. Ошибки возникают при определении значения данного признака, а не при классификации.
3. Основные направления развития систем распознавания музыкальных сигналов — моделирование восприятия звука человеком, объединение при принятии решения источников разнородных сведений о распознаваемом сигнале с помощью методологии «классной доски»
Современная техника восстановления музыкальных сигналов
Рассматриваются возможности современных программных и аппаратных средств, используемых для реставрации музыкальных сигналов. Выявлены достоинства и недостатки этих систем.
ш Рассматриваются возможности и алгоритм работы двух компьютеризированных систем реставрации: «NoNoise» компании Sonic Studio и «Канонъ» российской компании Digiton. Операции, выполняемые с помощью этих систем: подавление импульсных помех (щелчков), подавление широкополосного шума с предварительным обучением по фрагменту шума, устранение последствий ограничения мгновенных значений сигнала, маскировка шума с помощью многополосной АРУ («Канонъ»).
Эффективность подавления импульсных помех достаточна для реставрации грамзаписей. Эффективность же подавления широкополосных шумов в значительной степени зависит от статистических свойств самого шума, а также опыта реставратора. Нередко причиной снижения качества реставрации по субъективным критериям является именно «грубое» шумоподавление.
■ В параграфе «Психоакустические процессоры» рассматриваются структурные схемы, и обсуждается принцип работы этого отдельного класса комбинированных устройств обработки.
Психоакустические процессоры широко используются при реставрации фонограмм и восстановлении сигналов с пониженным техническим качеством. Используются они, в частности, для устранения субъективного ощущения глухости звучания или ограниченности полосы частот сигнала.
■ Заключительный параграф раздела — «Общая характеристика современной техники реставрации». Для подведения итогов раздела построена обобщенная схема процесса реставрации звуковых сигналов, отражающая современное состояние данной области техники. Схема приведена на рисунке 2, показательно её сравнение со схемой на рисунке 1.
Принципиальные отличия этих двух схем:
1. В схеме на рис. 2. формирование ЧХ фильтра производится на основе сравнения амплитудных спектров, полученных с помощью БПФ, обрабатываемой и обучающей выборок, а не на основе распознавания звуковых объектов.
2. Синтез гармоник целочисленным умножением частоты сигнала не идентичен синтезу модулированных колебаний с управляемыми параметрами.
3. В схеме на рис. 2 чётко разделяются процессы шумоподавления и синтеза гармоник, в схеме на рис.1 эти процессы объединены управляющим воздействием процесса распознавания.
■ Выводы:
1. Работу современных алгоритмов шумоподавления можно назвать шумоподавлением на основе обнаружения сигнала (в отличие от предлагаемого шумоподавления на основе распознавания звуковых объектов): спектральные компоненты классифицируются как «шумовые» и «нешумовые».
2. В современных подходах к реставрации целью синтеза новых спектральных составляющих является создание у слушателя ощущения наличия высокочастотных составляющих, широкого спектра сигнала, а не восстановление структур звуковых объектов, т.е. спектральной структуры сигнала.
Исследование структуры звуковых объектов
Этот раздел посвящён изучению свойств сигналов, задачу распознавания которых предстоит решать. Исследуемым материалом стали записи реализаций отдельных нот, исполненных на механико-акустических музыкальных инструментах.
■ Параграф «Описание исследования» посвящён постановке задачи и целей исследования, описанию инструментов исследования. Основным инструментом исследования стало разработанное программное обеспечение (в среде Delphi 5 для IBM PC с ОС Windows), выполняющее чтение звуковых файлов, спектральный анализ сигнала, вывод графических и текстовых отчётов.
Траектория амплитуды (начальной фазы, частоты) гармонической составляющей — зависимость амплитуды (начальной фазы, частоты) от времени
Последовательность анализа звукового объекта:
1. определение ориентировочной продолжительности полного цикла колебаний сигнала;
2. разбиение всего звукового объекта на непересекающиеся фрагменты, соответствующие полным циклам колебаний;
3. для каедого полного цикла колебаний выполняется разложение в гармонический ряд Фурье; * -
4. средние значения амплитуд и фаз колебаний основной частоты и обертонов на данном цикле колебаний принимаются равными значениям, соответственно, модулей и аргументов коэффициентов комплексного ряда Фурье.
Всего проанализировано около 150 фрагментов звучания различных музыкальных инструментов различной длительности и с различным периодом колебаний. Исследовались, в основном, звуки инструментов симфонического оркестра (струнных и духовых).
ш Обобщению результатов анализа посвящён параграф «Результаты исследования». По итогам обобщения предложена альтернативная классификация музыкальных инструментов. Для классификации предлагается использовать следующие факторы (в порядке убывания уровня классификации):
— характер колебаний (свободные или автоколебания);
— способ возбуэдения (щипок, удар молоточка, трение, вдувание воздуха и т.д.);
— колеблющееся тело (струна, пластинка, тарелка, цилиндр, столб
воздуха и т.д.);
— конструкция колеблющегося тела (закрытая или открытая труба, струна с обмоткой и без обмотки и т.д.); — материал колеблющегося тела (кожа, металл, дерево, стекло, жила и т.д.).
Также в параграфе приводятся некоторые статистические данные о параметрах основных тонов и обертонов звуковых объектов:
— отклонения частот колебаний обертонов от значений, кратных частоте основного тона;
— коэффициенты корреляции траекторий амплитуд обертонов.
В заключении параграфа предложены модели музыкального звукового объекта. Во временной области музыкальный звуковой объект с достаточной точностью описывается суммой модулированных гармонических колебаний:
N
* £ Л, (0 • sin[2ff • /„(/) + (рм, где (1)
я=0
An(t) — мгновенное значение амплитуды n-ого обертона (основного тона);
/„(/) = F0(/)•« + Д/„ — мгновенное значение частоты n-ого обертона,
F0(t) — мгновенное значение частоты основного тона,
Д/"„ — постоянная величина, отражающая отклонение частоты обертона от значения, кратного частоте ОТ;
9,0) — начальная фаза колебаний n-ого обертона (основного тона).
Функции /„(*). <Рп(0 описывают структуру звукового объекта.
В частотной области музыкальный звуковой объект может быть представлен следующим образом:
S(je>) = SK]6 (ja) ■ Нкс (ja) ■ Н^ (ja), где (2)
^«jjíCy®) — комплексный спектр функции возбуждения;
HkcU03) — частотная характеристика колебательной системы музыкального инструмента;
^PaUa>) —частотная характеристика резонатора музыкального инструмента.
| тииаи*»йГ
1
Комщкцт —
юяеВпацаосяпкпа
Метрит —\ юпебпоирюся тою
Рис. 3 Классификация музыкальных инструментов по типу колебаний
■ Выводы
1. В задачах распознавания музыкальных сигналов и идентификации музыкальных инструментов целесообразно использовать классификацию музыкальных инструментов, основанную на типе возбуждаемых колебаний (автоколебания или свободные затухающие колебания).
2. Стабильность автоколебаний в музыкальных инструментах определяется в основном стабильностью возбуждающего воздействия, стабильность свободных колебаний — стабильностью колебательной системы.
Разработка системы распознавания музыкальных сигналов
■ В первом параграфе раздела «Предлагаемая общая концепция» формулируются требования к алгоритму распознавания, являющемуся основой системы управления обработкой сигнала. Предлагается способ достижения этих требований.
Основное требование: система распознавания должна сформировать поток данных для формирования АЧХ фильтра подавления шума и сигналы, управляющие синтезом обертонов.
При решении задачи сегментации предлагается использовать априорные сведения о распознаваемом сигнале, при решении задачи определения высот тонов в созвучиях звуковых объектов предлагается использовать гипотезы, сформированные на стадии сегментации.
■ Современное понимание задачи сегментации музыкального сигнала и существующие способы её решения описаны в параграфе «Современные подходы к сегментации музыкальных сигналов».
Наиболее развитый подход к сегментации — сегментация по громкости, состоящая в моделировании восприятия человеком громкости звука и локализации её максимумов. Испопьзуемая модель слухового восприятия основана на наборе полосовых фильтров, таких, что полоса пропускания каждого фильтра близка к критической полосе слуховой системы.
При сегментации многокомпонентных сигналов использование параллельного спектрального анализатора неизбежно. Чем уже полоса анализа, тем меньше звуковых объектов модулируют энергию колебаний в ней и тем проще «найти след» каждого звукового объекта. Системы сегментации по громкости используются для выделения ритма музыкального сигнала и ориентированы на локализацию моментов начала звучания нот (sound onset detection в зарубежных публикациях.)
Другой подход основан на визуализации звукового сигнала. Для визуализации используется графическое представление спектрограммы (сонограммы) сигнала — временной зависимости модулей коэффициентов комплексной формы дискретного преобразования Фурье. Анализ и обработка сигнала осуществляются на основе анализа изображения. Отображение интервалов нестационарности сигнала на спектрограмме имеет характерные признаки.
■ «Разработка алгоритма сегментации полифонических музыкальных сигналов». Очевидно, для разделения звуковых объектов, перекрывающихся во времени необходимо их разделение в частотной области. Разделяемые сигналы квазипериодичны, при этом, множество примерных значений периодов звуковых объектов известно заранее. Поэтому желательно использовать фильтрацию по периоду.
Фильтром, настроенным на определённый период сигнала будем называть фильтр, такой, что интенсивность его отклика тем больше, чем ближе период входного сигнала к периоду, на который настроен фильтр. Группа параллельно включённых полосовых фильтров (такая группа образует гребенчатый фильтр), чьи
центральные частоты образуют ряд Fu,2FB,*Fa,tF„,i6Fn,32Fll..... будет в
наименьшей степени подавлять сигналы с периодами, образующими ряд
1 _!__!__!__!__L, т.е. сигналы с основными тонами, отличающимися на
""32Fu 'Wu' 8F„ ■ AF„ ' 2Fu ' F„
октаву. Это предположение подтверждено теоретическими рассуждениями и опытными данными.
Для сегментации используется набор из 12 гребенчатых фильтров — по числу полутонов в октаве. Каждый гребенчатый фильтр настроен на периоды ОТ, отличающиеся на целое число октав: например, на все «ля», на все «до».
Если частоты основных тонов соотносятся как m,«€z, т.ть то некоторые
п
их гармоники имеют совпадающие частоты. Такие соотношения имеют место для натурального строя, с некоторым приближением — для равномерного. Поэтому идеального разделения звуковых объектов с разными основными тонами в описанной системе фильтров не происходит, необходимо использование
дополнительных признаков. Такими признаками выбраны основной тон и огибающая выходного сигнала гребенчатого фильтра.
Для каждой временной выборки определяется максимальное значение Еилх огибающей откликов фильтров и происходит полное подавление сигнала тех откликов, интенсивность которых меньше порога к ■ Ешх (* < 1).
Далее на каждой временной выборке определяется основной тон отклика фильтра и если он не относится к набору основных тонов, на которые настроен фильтр, выходной сигнал фильтра также полностью подавляется. Схема процесса представлена на рисунке 4. «В.О.Т» — выделитель основного тона.
Рис. 4 Схема разработанной системы сегментации музыкальных сигналов
Результатом работы системы по предложенному алгоритму являются 12 сигналов, представляющие собой огибающие откликов составных фильтров, полностью подавленные на интервалах несоответствия указанным условиям. Использование именно огибающей откликов необходимо по двум причинам:
1. отличие огибающей отклика от нуля позволяет определить временные границы звукового объекта и сформировать гипотезы для алгоритма определения высоты тона;
2. огибающую удобнее использовать для управления амплитудами синтезируемых гармонических составляющих.
Таким образом, требования к алгоритму сегментации выполнены.
■ «Разработка алгоритма определения основных тонов компонентов созвучий».
Определение основных тонов звуковых объектов сводится к проверке гипотез (т.е. неподтверждённых предположений), сформированных системой сегментации. Во-первых, необходимо отбросить ложные гипотезы, во-вторых, уточнить значение ОТ для подтвержденных гипотез — система сегментации при определении частоты основного тона может «ошибиться» на целое число октав.
Для проверки гипотезы из набора {Fffl, Л)'2, Л)'3} в исходном амплитудном спектре приравниваются нулю значения на частотах основных тонов Л)'2, РО',, на частотах их гармоник, а также в некоторой окрестности основных тонов и гармоник. Если в полученном амплитудном спектре не обнаруживается ни одного локального максимума, превышающего порог 0,125 -Л,^ {Аилх — максимальное
значение амплитудного спектра на данной выборке), гипотеза признаётся ошибочной.
Соответствующие поправки вносятся и в выходные сигналы системы сегментации: на интервалах времени, соответствующих ошибочным гипотезам приравнивается нулю огибающая отклика, сформировавшего ошибочную гипотезу.
Обратным БПФ квадрата полученного амплитудного спектра вычисляется соответствующая автокорреляционная функция (АКФ). За истинное значение F0,
принимается значение —, где ти — положение на оси времени наибольшего
ти
локального максимума АКФ. Работа алгоритма иллюстрируется рисунком 5. Рисунок соответствует проверке гипотезы F0J. Жирной сплошной линией изображён амплитудный спектр после подавления всех составляющих, не относящихся к проверяемой гипотезе, тонкой пунктирной — исходный амплитудный спектр.
Разработанные алгоритмы сегментации и распознавания реализованы в комплексе прикладных программ для работы в операционной системе Windows.
1 . с
Рис. 5 Нормированный амплитудный спектр и соответствующая АКФ при проверке гипотезы частоты ОТ
■ Вывод
1. Подход к сегментации, основанный на модели слухового восприятия (сегментация «по громкости») может быть использован для любого типа звучания, но ориентирован на определение моментов начала звучания, поэтому, в основном, используется для выделения ритма.
2. Использование «фильтрации по периоду» может быть использована только для сегментации сигналов, состоящих из звуковых объектов с основными тонами из заранее известного набора, но такой подход позволяет определять длительность нот, формировать гипотезы для алгоритма определения основного тона.
3. Взаимодействие алгоритмов сегментации и распознавания, при котором алгоритм сегментации формирует гипотезы частот основных тонов для алгоритма распознавания, а алгоритм распознавания исправляет ошибки алгоритма сегментации, повышает достоверность распознавая.
4. Использование для сегментации музыкального сигнала описанной системы фильтров позволяет сформировать сигналы, управляющие амплитудами обертонов при синтезе.
Разработка алгоритма обработки сигнала на основе распознавания
Для шумоподавления используется БПФ-фильтр — простейший способ сформировать АЧХ сложного вида при линейной ФЧХ. Формирование АЧХ фильтра происходит следующим образом. Из частот основных тонов распознанных звуковых
объектов формируется массив частот, соответствующих основным тонам и их гармоникам. АЧХ фильтра приравнивается 1 в окрестности частот этого массива.
Ширина такой окрестности задаётся пользователем величиной эквивалентной добротности. В остальной области частот значение АЧХ фильтра приравнивается значению Нппд < 1, также задаваемому пользователем (см. рис. 6)
/ к«
А. А—
ВС«/™» <5(0 3^00 эА» «00
Рис. 6 Формирование АЧХ фильтра шумоподавления
Г. Гц
БПФ фильтрация осуществляется с перекрытием временных окон для избежания скачкообразных изменений спектра при переходе от выборки к выборке.
Наконец, синтез гармоник осуществляется под управлением пользователя на основе полученных при распознавании сведений о сигнале. Синтезируемые обертоны — гармонические колебания с управляемой амплитудой, начальной фазой и частотой.
Частота синтезируемого обертона определяется частотой основного тона звукового объекта, определённой при распознавании, и целочисленным множителем — порядком обертона:
/м-'' °л-*.где
-ГО, — частота основного тона п-ого распознанного звукового объекта (п=1...4).
к — порядковый номер обертона (к=2...20).
Амплитуда обертона определяется значением огибающей выходного сигнала и множителем, установленным пользователем при ручном регулировании. При этом необходимо коммутирование нужного сигнала огибающей на генератор нужного обертона. Т.е. для синтеза обертонов «до-диез» третьей октавы нужно выбрать сигнал с фильтра «до-диез».
Начальная фаза обертона меняется при переходе от одной выборки к другой. Для каждой выборки запоминается мгновенное значение фазы обертона на последнем отсчёте выборки. Это значение запоминается и используется при начале синтеза на новой выборке. Таким образом, обеспечивается непрерывность мгновенной фазы обертонов.
Схема синтеза обертонов представлена на рисунке 7. Выходной сигнал синтезатора суммируется с выходным сигналом шумоподавителя, согласно схеме на рис. 1.
Синтезируются только обертоны, не обнаруженные в исходном сигнале, т.е. мощность которых меньше определённого порога.
ш Выводы
1. Разработанные алгоритм распознавания музыкального сигнала формирует весь набор данных, необходимых для обработки сигнала на уровне структуры
отдельного звукового объекта, поэтому фильтрация сигнала и синтез обертонов становятся чисто техническими операциями.
2. Процесс обработки сигнала с использованием распознавания образов становится полностью контролируемым и управляемым пользователем, в отличие от работы многих психоакустических процессоров.
От системы сегментации
Рис.7 Разработанная схема синтеза обертонов
Заключение
В заключительном разделе подводятся итоги работы, обсуждается полнота выполнения поставленных задач. Обсуждается применение достигнутых результатов. Выявляются недостатки разработанных систем распознавания и обработки сигнала, намечаются перспективы их развития.
Основные результаты работы
1. Предоставлена возможность осуществлять ранее невыполнимые операции: с минимальными искажениями тембра изменять баланс громкостей звуковых объектов, по-отдельности обрабатывать звуковые объекты, перекрывающиеся во времени.
2. Обеспечено отображение музыкального сигнала нотной записью (по аналогии с отображением речевого сигнала текстом), что позволяет оператору системы восстановления быстро находить нужный фрагмент восстанавливаемого сигнала, а также оценивать правильность восстановления.
3. Предоставлена возможность сократить время обучения неподготовленных или неопытных пользователей систем восстановления музыкальных сигналов за счёт, наделения устройств обработки интуитивно более понятными функциями, например, регулировка амплитуд отдельных обертонов и мощности отдельных звуковых объектов вместо регуляторов АЧХ эквалайзера.
4. Повышено качество восстановления музыкальных сигналов. Проведённые субъективно-статистические экспертизы показали, что при сравнении результатов
работы двух систем: разработанной и одной из существующих, 65% экспертов
отдали предпочтение звучанию, восстановленному с помощью разработанной
системы
Список публикаций соискателя
1. Восстановление музыкальных сигналов с использованием распознавания образов // «Наукоёмкие технологии» №3,2003, том 4.
2. Реставрация без иллюзий // Broadcasting. Телевидение и радиовещание, №4, 2003.
3. Распознавание музыкальных сигналов // Депонирована в ЦНТИ «Информсвязь», №2177св. 2000 от 04.05.00, с. 108-121.
4. Подавление взаимного влияния сигналов, соответствующих разным группам инструментов, при многомикрофонной звукозаписи // Депонирована в ЦНТИ "Информсвязь", № 2200св. 2001 от 22.05.01, с. 2-9. Л
5. Исследование структуры звуковых объектов // Депонирована в ЦНТИ «Информсвязь», № 2208св. 2002 от 10.06.02, с. 95-117.
6. Распознавание музыкальных образов// 55-ая студенческая НТК МТУСИ. -Москва, 2000. - Тезисы докладов, с.65-67.
7. Автоматическая сегментация речевых и музыкальных сигналов// 55-ая студенческая НТК МТУСИ. - Москва, 2000. - Тезисы докладов, с.67-69
8. Основной тон неречевых сигналов // 10-ая Межрегиональная конференция МНТОРЭС им. А.С.Попова «Обработка сигналов в системах двусторонней телефонной связи». М.—: МТУСИ, 2000. Тезисы докладов, с.127-128.
9. От вокодера к музкодеру // 4-я международная НТК «Перспективные технологии в средствах передачи информации». — Владимир, 2001. Тезисы докладов, стр. 112-113.
10. Обработка звукового сигнала на основе распознавания// 4-я международная НТК «Перспективные технологии в средствах передачи информации». — Владимир, 2001. Тезисы докладов, стр. 113-115.
11. Узнавание тембра: что важно и что - нет? II НТК ППС и ИТС М.: МТУСИ, 2002. -Тезисы докладов, с. 213-214.
12. Классификация музыкальных инструментов // НТК ППС и ИТС М.: МТУСИ, 2002. - Тезисы докладов, с. 214-215.
13. Аддитивный синтез вокализованных звуков речи II НТК ППС и ИТС М.: МТУСИ, 2003. - Тезисы докладов, с. 196-197.
( I
Кудинов Александр Александрович
Подписано в печать 21.04.03 г. Формат 60x84/16.
Объем 1.0 усп.п.л. Тираж 100 экз. Заказ 120._
ООО «Инсвязьиздат». Москва, ул. Авиамоторная.8.
г
\
^ооЗ-А
» - 744 t
Оглавление автор диссертации — кандидата технических наук Кудинов, Александр Александрович
1. Введение.
2. Цели и задачи.п
2.1. Актуальность тематики.и
2.2. Цели и задачи.
3. Принципы построения систем распознавания образов.
3.1. Общая теория распознавания образов.
3.1.1. Основные определения.
3.1.2. Классификация систем распознавания.
3.1.3. Цели и задачи систем распознавания образов.
3.1.4. Последовательность распознавания образов в общем виде.
3.1.5. Определение полного перечня признаков, характеризующих объекты.
3.2. Распознавание образов с информационной точки зрения.
3.2.1. Информативность музыкальных произведений.
3.2.2. Преобразование информации при распознавании музыкального сигнала.
3.3. Распознавание звуковых образов.
3.4. Статистический подход к распознаванию образов.
3.4.1. Реализации и признаки.
3.4.2. Процедуры принятия решения.
3.5. Системы распознавания музыкальных сигналов.
3.5.1. Развитие систем распознавания музыкальных сигналов.
3.5.2. Задачи распознавания музыкальных сигналов.
3.6. Сложности распознавания многоголосных мелодий.
3.6.1. Общие соображения.
3.6.2. Созвучия тональных звуков.
3-7- Современные подходы к распознаванию полифонических мелодий.6i
3.7.1. Представление данных в системах распознавания музыкальных сигналов.
3.7.2. Методология «классной доски».
3.7.3. Недостатки современных систем распознавания музыкальных сигнааов.
3.8. выводы.
4. Современная техника восстановления музыкальных сигналов.
4.1. Компьютеризированные системы восстановления.
4.1.1. Система "NoNoise".
4.1.2. Система «Канонъ».
4.2. Психоакустические процессоры.
4.2.1. Эксайтер (Exciter).
4.2.2. Энхэнсер (Enhanser).
4.2.3. Максимайзер (Maximizer).
4.2.4. Виталайзер (Vitalizer).
4.3. Общая характеристика современной техники восстановления и обоснование предлагаемого подхода.
4.4. Выводы.
5. Исследование структуры звуковых объектов.
5.1. Структура звукового объекта и тембр.
5.2. Описание исследования.
5.2.1. Цели и задачи исследования.
5.2.2. Объект исследования.
5.2.3. Методика и последовательность исследования.
5.2.4. Инструменты исследования.
5-3- Результаты исследования.
5.3.1. Классификация музыкапьных инструментов.
5.3.2. Гармоничность музыкапьных звуков. Модель синтеза звукового объекта.
5.3.3. Узнавание тембра: что важно и что нет? Модель анализа звукового объекта.
5.4. выводы.
6. Разработка алгоритма распознавания многоголосных музыкальных сигналов.
6.1. Разработка алгоритма сегментации.
6.1.1. Современные подходы к сегментации музыкальных сигналов
6.1.2. Сегментация музыкального сигнала с использованием априорной информации.
6.2. Разработка алгоритма определения основных тонов звуковых объектов перекрывающихся во времени.
6.3. Выводы.
7. Разработка алгоритма обработки сигнала на основе распознавания.
Введение 2003 год, диссертация по радиотехнике и связи, Кудинов, Александр Александрович
Процесс реставрации фонограмм длителен и трудоёмок. Начинается он почти всегда с обработки носителя записи — механического или магнитного, затем проводится обработка сигнала. Обработка носителя записи — процесс не менее важный, чем обработка сигнала, однако именно работа с сигналом, точнее проблемы, возникающие в её ходе, требуют разработки новых методов. Субъективные оценки качества восстановленных сигналов заставили всерьёз задуматься о целесообразности реставрации фонограмм на современном этапе развития техники. Нередко организации, занимающиеся хранением и реставрацией фонограмм, представляющих художественную ценность, для продления срока хранения фондов «консервируют» копии «до лучших времён». Для этого сигналы преобразуются в цифровую форму с использованием высококачественных АЦП (например, 24-битное квантование и дискретизация с частотой 192 кГц) и переносятся на долговечный носитель (например, компакт-диск)
Как правило, восстановления требуют сигналы, некоторые технические параметры которых деградировали: ограничена полоса частот, утрачены фрагменты фонограммы, уменьшено отношение сигнал/ шум за счёт шумов, например, магнитного носителя и старения магнитного слоя, присутствуют нелинейные искажения. Задачи реставрации фонограмм можно сформулировать следующим образом:
1. устранение «лишних» спектральных составляющих, т.е. компонентов спектра, не содержавшихся в исходной фонограмме по окончании процесса её формирования, — продуктов нелинейных искажений, всевозможных помех и шумов и т.п.
2. восстановление компонент спектра, утраченных из-за линейных искажений — ограничение полосы частот сигнала, «провалы» АЧХ тракта запись-воспроизведение, и т.п.
Очевидно, исходная форма сигнала неизвестна и потому достижима с некоторой вероятностью. Поэтому процесс реставрации фонограммы — такой же творческий, как и процесс её создания.
Реставрация — понятие универсальное, используемое различными областями человеческих знаний. Не разумно ли сформулировать и общие подходы, принципы и задачи реставрации? Восстановлению подаежат и памятники письменности, и живописные полотна, и уник&пьные звукозаписи, материалы кинохроники. В любом случае, имеют дело с носителями звуковой или визуальной информации. Восстановление становится возможным при условии достаточности информации, содержащейся в носителе, требующем реставрации, а также информации, полученной об объекте реставрации из разных источников.
Утрата частей физического носителя информации или части информации, переносимой носителем не всегда исключает достоверную передачу этой информации. Очевидно, существует такое количество информации (предел), при утрате которого делается невозможным восприятие остальной части. Обратимся к рисунку 1. Допустим, нам предлагают восстановить исходное изображение по одному из фрагментов — большему или меньшему. Априорная информация в данном случае состоит в том, что восстановлению подлежат фрагменты симметричного изображения (человеческого лица). Чтобы решить поставленную задачу, мы должны, прежде всего, понять, что изображено на предложенной нам части листа, т.е. узнать (распознать) часть объекта и, согласно своим представлениям домыслить недостающие части. Распознать — значит принять решение о принадлежности изучаемого объекта к одному из известных классов. Таким образом, мы приходим к мысли о том, что достоверность восстановления зависит от достоверности распознавания, достоверность распознавания (т.е. вероятность принятия верного решения о принадлежности распознаваемого объекта к тому или иному классу) зависит, в частности:
1. от количества информации, содержащейся в исследуемом фрагменте носителя информации,
2. от количества априорной информации, которой располагает распознающий субъект о распознаваемом объекте, т.е. от набора разнородных знаний, которыми обладает человек.
При восстановлении музыкального сигнала мы всегда обладаем меньшим количеством информации, чем содержалось в исходном объекте, иначе реставрация бессмысленна. Одним из путей восстановления утраченной информации является её «интерполяция» и «экстраполяция» на основе данных, полученных при распознавании.
Рис. /. Пример восстановления зрительного образа при наличии априорной информации: а) исходный образ и фрагменты, подлежащие восстановлению; б) восстановление с большой достоверностью; в) восстановление с малой достоверностью.
Реставратор, восстанавливающий живописное полотно, прежде всего, решает задачу распознавания образов, которые он восстанавливает — он принимает решение о том, что изображено на полотне и, только исходя из этих сведений, устраняет ненужные фрагменты изображения и добавляет недостающие. При этом «недостачу» и «ненужность» фрагментов определяет сам реставратор в зависимости от того, как он распознал восстанавливаемые образы и насколько он себе представляет то, что было изображено на полотне.
Первым этапом восстановления сигнала является фильтрация, поскольку проще сначала подавить шум, а затем провести синтез спектральных составляющих, чем наоборот. Какие сведения необходимо получить при распознавании сигнала и как сформировать АЧХ фильтра на основе этих данных? Очевидно, необходимо локапизовать в частотной области полезные составляющие — основные тоны и обертоны. Соответственно, при таком подходе считается, что область частот, не занятая полезным сигналом, занята шумом.
После фильтрации можно переходить непосредственно к восстановлению утраченных компонентов спектра - синтезу обертонов. Известны приблиа) б) в) зительные частоты недостающих обертонов, а их амплитуды должны либо назначаться пользователем, либо определяться в результате анализа спектра (предсказание, интерполяция, экстраполяция), либо определяться в соответствии с априорными сведениями об обрабатываемом сигнале.
Важно отметить, что применение распознавания образов предоставляет возможность обрабатывать отдельный звуковой объект (реализацию отдельной ноты). По сути, отдельный звуковой объект является минимальным элементом - «кирпичиком» восприятия звукового сигнала, и возможность работать со звуковым сигналом на «элементарном» уровне пока не предоставляет ни один подход к обработке сигнала.
Теперь можно изобразить схему действий и управления процессами при восстановлении музыкального сигнала с использованием распознавания образов (рис. 2).
В схеме выделим ветвь управления и ветвь обработки. Процессы, входящие в ветвь управления формируют данные, управляющие процессами ветви обработки. Процесс распознавания сигнала — наиболее важный, эффективность восстановления почти полностью зависит от его результатов. Остальные процессы управления, действуя по намного более простым алгоритмам, механически исполняют указания процесса распознавания. Процесс распознавания формирует информацию, необходимую для работы остальных процессов.
Распознавание — задача статистическая, и достоверность распознавания современных систем не превышает 80%. Ошибки распознавания (неверное определение высоты тона, ошибочная сегментация), вообще говоря, приведут к непредсказуемым последствиям, как на стадии фильтрации, так и на стадии синтеза обертонов. Поэтому внедрение любых устройств обработки на основе распознавания станет возможным лишь при условии создания устойчивых систем распознавания. Современные системы распознавания звуковых сигналов не универсальны, создание и использование же универсальных систем распознавания, отличающих речь от музыки и, тем более, распознающих смесь речевого и музыкального сигналов значительно удорожат устройства обработки. ветвь управления л
ВХОД о
РАСПОЗНАВАНИЕ СИГНАЛА ручная настройка параметров фильтра
Л V
XZ
ФОРМИРОВАНИЕ ЧХ ФИЛЬТРА
XZ
ФИЛЬТР
ФОРМИРОВАНИЕ СПИСКА НЕДОСТАЮЩИХ ОБЕРТОНОВ 7
ГЕНЕР модулИр коле! АТОРЫ юванных Заний •-
А V ручная регулировка амплитуд обертонов
ВЫХОД
-> ветвь обработки
Рис 2. Схема управления и последовательность процессов обработки при восстановлении с использованием распознавания
Обратим внимание на то, что применение распознавания к восстановлению сигналов — это попытка провести действительно восстановление исходной спектральной структуры сигнала, а не создать иллюзию восстановления, обмануть слуховую систему.
• Научная новизна работы
1. Дня управления обработкой сигнапа в процессе реставрации используется информация, полученная при предварительном распознавании сигнала. Т.е. к решению задачи восстановления музыкапьных сигналов по неполной или искажённой информации применены методы распознавания образов.
2. Алгоритмы сегментации и распознавания музыкального сигнала построены с учётом априорной информации о распознаваемых реализациях образов. Априорная информация о музыкальном сигнале состоит в заранее известном соотношении ОТ звуковых объектов, подлежащих распознаванию. В европейской музыке частоты основных тонов звуков составляют множество /, зная один из членов которого (например, этапонный тон f3, по которому настраиваются инструменты), можно с незначительными отклонениями восстановить все остальные. Например, для равномерного строя: г г ОТ г П где /э — эталонная частота, для натурального строя /( = Jэ —, где п m,n е Z,m,n>\.
• Апробация результатов работы
Основные результаты и предложения, полученные в ходе работы над диссертацией, докладывапись и опубликованы в виде тезисов докладов 55-ой студенческой НТК МТуСИ, профессорско-преподавательских конференций МТУСИ 2001-2003 гг., 10-ой межрегиональной конференции МНТОРЭС им А. С. Попова, 4-ой международной НТК «Перспективные технологии в средствах передачи информации» (Владимир). Также результаты опубликованы в статьях, депонированных ЦНТИ «Информсвязь», докладывались на заседаниях кафедры РВ и ЭА, НТС МТУСИ.
Всего по теме работы опубликовано 2 статьи в открытой печати, 8 тезисов докладов на конференциях, депонировано 5 статей.
2 . ЦЕЛИ И ЗАДАЧИ
Заключение диссертация на тему "Использование распознавания образов для обработки и восстановления музыкальных сигналов"
Выводы:
1. Разработанные алгоритмы сегментации и распознавания музыкального сигнала формируют весь набор данных, необходимых для обработки сигнала на уровне структуры отдельного звукового объекта, поэтому фильтрация сигнала и синтез обертонов становятся чисто технической операцией.
2. Процесс обработки сигнала с использованием распознавания образов становится полностью контролируемым и управляемым пользователем, в отличие от работы многих психоакустических процессоров.
Данная глава яв.ляется наиболее важной главой диссертации, все результаты которой являются следствием результатов, полученных в предыдущих главах. По сути, итоги и результаты данной главы являются итогами и результатами всей работы.
8 . ЗАКЛЮЧЕНИЕ
Разработанные алгоритмы сегментации и определения основных тонов реализованы в программном обеспечении. С помощью этого программного обеспечения и получены примеры работы разработанных алгоритмов. Система обработки сигнала реализована лишь в части подавления шумов. Реализация синтезатора обертонов по разработанному алгоритму составляет предмет дальнейших исследований.
Значительным недостатком разработанной системы является её неприспособленность к детонации. При детонации происходит отклонение основных тонов звуковых объектов от того строя, на который настроена система сегментации. Происходят серьёзные ошибки при определении высот тонов, и, как следствие, снижается эффективность шумоподавления.
Проведённые субъективно-статистические экспертизы показали, что более половины слушателей предпочли звучания, обработанные с помощью разработанной системы фильтрации, звучаниям, обработанным с помощью программного средства восстановления сигналов DART, а также подключаемых модулей (Plug In) программы Steinberg WaveLab. Экспертам были предъявлены различные несложные (количество голосов не более двух-трёх) звучания, средний процент экспертов, отдавших предпочтение звучаниям, полученным с помощью разработанной системы составляет 65%. Таким образом, достигнута цель исследования — повышено качество (по субъективным критериям) восстановления сигналов.
Полностью выполнены и задачи исследования: разработана система распознавания музыкальных сигналов, способная автоматически управлять восстановлением сигнала. Разработан и алгоритм обработки музыкального сигнала на уровне структуры отдельного звукового объекта, полностью управляемый и контролируемый пользователем. Алгоритм фильтрации реализован в программном обеспечении.
Сформулируем основные результаты работы:
2. Повышено качество восстановления музыкальных сигналов. Проведённые субъективно-статистические экспертизы показали, что при сравнении результатов работы двух систем: разработанной и одной из существующих, 65% экспертов отдали предпочтение звучанию, восстановленному с помощью разработанной системы
2. Оператору системы реставрации предоставлена возможность осуществлять ранее невыполнимые операции: с минимальными искажениями тембра изменять баланс громкостей звуковых объектов, по-отдельности обрабатывать звуковые объекты, перекрывающиеся во времени.
3. Процесс реставрации фонограмм — процесс творческий. Реставратору предоставлен инструмент творческой работы, инструмент, для овладения которым не требуются специальной технической подготовки.
4. Сокращено время обучения неподготовленных или неопытных пользователей систем восстановления музыкальных сигналов за счёт интуитивно более понятных функций, выполняемых системой, например, регулировка амплитуд отдельных обертонов и мощности отдельных звуковых объектов вместо регуляторов АЧХ эквалайзера.
Защищаемые положения:
1. Целью реставрации является повышение качества сигнала по субъективным критериям путём устранения нежелательных последствий прохождения сигнала через тракты формирования, записи и воспроизведения, а также последствий длительного ц/или неправильного хранения фонограмм.
2. Для повышения эффективности реставрации фонограмм необходимо применение распознавания образов.
3. Использование для автоматической сегментации априорной информации в виде распределения значений одного из признаков потенциально эффективнее обучения и самообучения без предоставления этой информации.
4. В задачах автоматического распознавания музыкальных сигналов целесообразно использовать предлагаемую в работе классификацию музыкальных инструментов, основанную на типе возбуждаемых колебаний (автоколебания или свободные затухающие колебания).
5. Натуральность звучания сигналов, получаемых при воссоздании звуков музыкальных инструментов и вокализованных звуков речи аддитивным синтезом, достигается при наличии информации о каждом полном цикле колебаний.
Обсудим и практическую значимость полученных в работке результатов:
Автоматическое распознавание музыкальных сигналов с расширением множества распознаваемых сигналов найдёт своё применение в современной звукозаписи. Автоматическое распознавание музыкального сигнала позволяет звукозапись музыкального произведения поставить в соответствие с его нотной записью. Такая возможность используется: при создании электронных архивов партитур музыкальных произведений, а также аранжировщиками и композиторами для сокращения рутинной работы по написанию партитур. Соответственно, практическую значимость представляет разработанный алгоритм распознавания музыкальных сигналов.
Развитие систем распознавания слуховых и зрительных образов и их объединение в единые комплексы приведёт к тому, что наиболее эффективная обработка и видео-, и звуковых сигналов будет проводиться именно на основе распознавания. Результаты работы разработанной системы восстановления несложных звучаний — подтверждение целесообразности и реализуемости распознающих систем обработки, один из первых шагов в данном направлении.
Использование для автоматической сегментации априорной информации в виде распределения значений одного из признаков потенциально эффективнее обучения и самообучения без предоставления этой информации.
Предложенная методика определения параметров основного тона и обертонов звуковых объектов позволяет повысить качество аддитивного синтеза музыки и речи по критерию натуральности звучания.
Разработанное для анализа квазипериодических сигналов программное обеспечение (ПО) может быть использовано для объективной оценки качества звучания музыкальных инструментов.
В работе предложен новый подход к решению задачи восстановления сигнала по неполной или искажённой информации. Выявлены недостатки подхода, предложены пути устранения этих недостатков, а также расширения возможностей обработки музыкального сигнала и использованием распознавания образов.
Библиография Кудинов, Александр Александрович, диссертация по теме Радиотехника, в том числе системы и устройства телевидения
1. Алдошина И. Основы психоакустики часть 14. Тембр часть 1 // Звукорежиссёр № 2, 2001.
2. Алдошина И. Основы психоакустики часть 14. Тембр часть 2 // Звукорежиссёр № 3, 2001.
3. Баскаков С. И. Радиотехнические цепи и сигнапы: Учеб для вузов по спец. «Радиотехника» — 4-е изд., перераб. и доп. — М.: Высш. шк., 2003. — 462 с.
4. Вахромеев В. А. Элементарная теория музыки. М.: Музыка, 1999. — 173 с.
5. Волков A.JT. Адаптивный алгоритм цифровой обработки звуковых сигналов доя реставрации фонограмм: Автореферат диссертации на соискание ученой степени канд. техн. наук: 05.09.08. -СПб., 2000. -23 с.
6. Гольденберг J1. М., Матюшкин Б. Д., Поляк М. Н. Цифровая обработка сигналов: справочник. — М.: Радио и связь, 1985. — 312 с.
7. Горон Е. И. Радиовещание: Учебник для вузов. — М.: Связь, 1979. — 368 с.
8. Дворянкин С. Взаимосвязь цифры и графики, звука и изображения / / Открытые системы №3, 2000.
9. Иванченко Г. В. Психология восприятия музыки: подходы, проблемы, перспективы. — М.: Смысл, 2001. — 264 с.
10. Ковалгин Ю. А. Стереофония. — М.: Радио и связь, 1989. — 272 с.
11. Лейтес Р. Д., Соболев В. Н. Цифровое моделирование систем синтетической телефонии. — М.: Связь, 1969. — 208 с.
12. Маркел Дж. Д., Грэй А. X. Линейное предсказание речи, пер. с англ. / Под ред. Ю. Н. Прохорова и В. С. Звездина. — М.: Связь, 1980. — 308 с.
13. Моль А. Теория информации и эстетическое восприятие — М.: Мир, 1966. 312 с.
14. Мясников J1. JL, Мясникова Е. М. Распознавание звуковых образов. — М.: Наука, 1984. 158 с.
15. Назаров М. В., Прохоров Ю. Н. Методы цифровой обработки и передачи речевых сигналов. — М.: Радио и связь, 1985. — 148 с.
16. Некоторые проблемы обнаружения сигнала, маскируемого флюктуаци-онной помехой. Сборник статей: Пер с англ. Под ред. Н. И. Шнер. — М.: Советское радио, 1965. — 263 с.
17. Никамин В. А. Форматы цифровой звукозаписи. — С.-Пб.: ЗАО «Элби», 1998. 264 с.
18. Павленко А. Реставрация фонограмм с помощью программы DART Pro. // Мир ПК, №11,1997.
19. Потапова Р. К. Речь: коммуникация, информация, кибернетика: Учеб. пособие для вузов. — М.: Радио и связь, 1997. — 528 с.
20. Применение цифровой обработки сигналов под ред. Э. Оппенгейма, пер. с англ. М: Мир, 1980. - 552 с.
21. Рабинер JL, Гоулд Б. Теория и применение цифровой обработки сигналов, пер. с англ. — М.: Мир, 1978. — 848 с.
22. Рабинер Р., Шафер Р. Цифровая обработка речевых сигналов, пер. с. англ.- М.: Мир, 1981. 496 с.
23. Радиовещание и электроакустика: Учебное пособие для вузов / С. И. Алябьев, А. В. Выходец, Р. Гермер и др.; Под ред. Ю. А. Ковалгина. — М.: Радио и связь, 1999. — 792 с.
24. Римский-Корсаков А. В. Электроакустика. — М.: Связь, 1973. — 272 с.
25. Сапожков М. А. Электроакустика. Учебник для вузов. — М.: Связь, 1978.- 272 с.
26. Система цифровой реставрации и ремастеринга фонограмм «Канонъ» http:// ru.ecomstation.ru/showarticle.php?id=68
27. Станции ТРЕК от фирмы «Тракт» / / 625, №7,1998.
28. Фомин Я. А., Тарловский Г. Р. Статистическая теория распознавания образов. — М.: Радио и связь, 1986. — 264 с.
29. Фу К. Последовательные методы в распознавании образов и обучении машин, пер. с англ. — М.: Наука, 1971. — 256 с.
30. Харкевич А. А. Автоколебания. — М.: Государственное издательство технико-теоретической литературы, 1954. — 212 с.
31. Харкевич А. А. Спектры и анализ. — М.: Государственное издательство технико-теоретической литературы, 1962. — 236 с.
32. Чернецкий М. Психоакустические процессоры что это такое? // Звукорежиссёр, №8,1999.
33. Чулаки М. Инструменты симфонического оркестра. — П.: Союз советских композиторов СССР Ленинградское отделение Музфонда, 1950. — 94 с.
34. Шелухин О. И., Лукьянцев Н. Ф. Цифровая обработка и передача речи / Под ред. О. И. Шелухина. — М.: Радио и связь, 2000. — 456 с.
35. Blauert J. Spatial Hearing. MIT Press, 1983.
36. Bregman A. Auditory Scene Analysis. Bradford Books MIT Press, 1990.
37. Cooke M. Modelling auditory processing and organization. / / PhD thesis, University of Sheffield Dept of Computer Science, 1991.
38. Dolson M. The phase vocoder : a tutorial. /'/ Computer Music Journal №10(4), 1986.39.
-
Похожие работы
- Идентификация музыкальных объектов на основе непрерывного вейвлет-преобразования
- Модели инвариантного распознавания сигналов при наличии искажений в среде распространения
- Интерактивная система синтеза/обработки музыкальной информации реального времени на базе персональной ЭВМ
- Алгоритмы распознавания речевых команд в управляющих системах
- Исследование математических моделей, разработка алгоритмов и интерфейса программного комплекса обработки звуковых фрагментов в формате MIDI
-
- Теоретические основы радиотехники
- Системы и устройства передачи информации по каналам связи
- Радиотехника, в том числе системы и устройства телевидения
- Антенны, СВЧ устройства и их технологии
- Вакуумная и газоразрядная электроника, включая материалы, технологию и специальное оборудование
- Системы, сети и устройства телекоммуникаций
- Радиолокация и радионавигация
- Механизация и автоматизация предприятий и средств связи (по отраслям)
- Радиотехнические и телевизионные системы и устройства
- Оптические системы локации, связи и обработки информации
- Радиотехнические системы специального назначения, включая технику СВЧ и технологию их производства