автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.18, диссертация на тему:Разработка математических моделей и алгоритмов анализа и синтеза звуковых сигналов в цифровых слуховых аппаратах

кандидата технических наук
Белов, Александр Сергеевич
город
Белгород
год
2009
специальность ВАК РФ
05.13.18
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка математических моделей и алгоритмов анализа и синтеза звуковых сигналов в цифровых слуховых аппаратах»

Автореферат диссертации по теме "Разработка математических моделей и алгоритмов анализа и синтеза звуковых сигналов в цифровых слуховых аппаратах"

На правах рукописи

Белов Александр Сергеевич

РАЗРАБОТКА МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ И АЛГОРИТМОВ АНАЛИЗА И СИНТЕЗА ЗВУКОВЫХ СИГНАЛОВ В ЦИФРОВЫХ СЛУХОВЫХ АППАРАТАХ

Специальность 05.13.18 - математическое моделирование, численные методы и комплексы программ (технические науки)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Белгород - 2009

003469798

Работа выполнена в Белгородском государственном университете

Научный руководитель доктор технических наук, профессор

Жиляков Евгений Георгиевич

Официальные оппоненты: доктор физико-математических наук, доцент

Ломазов Вадим Александрович

кандидат технических наук, доцент Санников Владимир Григорьевич

Ведущая организация: Ставропольский государственный

университет, г. Ставрополь

Защита диссертации состоится Юиюня 2009 г. в 10 часов на заседании диссертационного совета Д212.014.06 при Белгородском государственном технологическом университете им. В.Г.Шухова по адресу: 308012, г. Белгород, ул. Костюкова, 46.

С диссертацией можно ознакомиться в библиотеке Белгородского государственного технологического университета им. В.Г.Шухова

Автореферат разослан 30 апреля 2009 г.

Ученый секретарь - "'.¿^Рй«- "

диссертационного совета ^^ Т.А.Дуюн

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы обусловлена необходимостью разработки новых эффективных алгоритмов и вычислительных процедур обработки звуковых сигналов в слуховых аппаратах (СА), применение которых позволит повысить комфортность использования СА слабослышащими людьми.

В настоящее время существует развитая индустрия по производству слуховых аппаратов (СА), предназначенных для протезирования людей с ослабленным слухом, которых по данным Всемирной организации здравоохранения (ВОЗ) в мире насчитывается свыше 10%. В большинстве случаев потери слуха проявляются в виде снижения или даже полной потери подвижности (эластичности) отдельных элементов механической системы человеческого уха, что приводит к ослаблению реакции на воздействие внешней акустической волны.

Для компенсации указанных потерь реакции на акустическое воздействие необходимо осуществлять довольно сложную обработку звуковых сигналов, что доступно только при использовании технических устройств на базе цифровых процессоров. Так как потери слуха индивидуальны для каждого пользователя, то предусматривается процедура адаптации к ним за счёт соответствующих настроек режимов функционирования СА на этапе и подбора (как правило, врачом - сурдологом).

Основой для таких настроек служат так называемые аудиограммы, которые отражают реакцию механической системы уха пациента на акустическое воздействие определённой частоты. Для компенсации потерь реакции в том или ином частотном интервале применяется соответствующее усиление компонент звуковых сигналов. Иными словами, процедура обработки звуковых сигналов в СА состоит из этапа разделения входного сигнала на требуемые частотные компоненты (этап анализа) и этапа синтеза, то есть формирования выходного сигнала с уч&гом требуемого усиления этих компонент.

Таким образом, адекватными при построении алгоритмов анализа и синтеза звуковых сигналов в СА являются модели их генерации на основе частотных представлений

к

х„ = х(Ш) = $ Х„(й>)ехр(/й>(& - 1))Жи/2я-, (1)

Здесь и далее предполагается, что дискретизация осуществляется с постоянным шагом по времени Д/, а большими буквами обозначаются соответствующие трансформанты Фурье отрезков обрабатываемых отсчётов длительности N, то есть

*„(«) = £ *»«р(-М*-1)). (2)

1.1

В настоящее время модели анализа предусматривают некоторые процедуры выделения частотных компонент входного сигнала, относящихся к различным частотным интервалам вида С1Г = {-Уг ,-(/г_|)и, К ), К0 = 0;КЯ = л, (Я- количество используемых частотных интервалов), которые затем подвергаются необходимым преобразованиям в соответствии с аудиограммами.

В современных цифровых С А используется от трёх до 16 частотных диапазонов (каналов обработки). Применяемые при этом способы разделения на частотные компоненты (аппроксимации отрезков трансформант Фурье) и соответствзтощие процедуры синтеза являются ноу-хау и детально неизвестны.

Вместе с тем, несмотря на постоянное совершенствование СА, отзывы пользователей свидетельствуют о том, что в настоящее время отсутствуют эффективные алгоритмы разделения анализируемых отрезков сигналов на информационные частотные компоненты, то есть содержащие важную акустическую информацию, в том числе речевую, и неинформационные, обусловленные неизбежным присутствием так называемых помех окружающей среды и аппаратурных шумов. Ясно, что в последнем

случае синтез выходных сигналов на основе аудиограммы за счёт усиления в том числе и компонент, обусловленных помехами, приводит к некомфортности пользования СА. Иллюстрацией к сказанному является рисунок 1 расположенный ниже, на котором изображены квадраты модулей трансформанты Фурье отрезка сигнала, не содержащего звуков речи, поступающего на вход СА марки Oticon Safran (Швейцария) и трансформанты Фурье сигнала зарегистрированного на его выходе в режиме с подавлением шумов.

Легко видеть, что некоторые из частотных компонент синтезированного сигнала в СА существенно усилены. Именно это обстоятельство обуславливает дискомфорт его применения даже при использовании механизма подавления шума.

0016 0014 001Ï 001 0. О.ОС8

о.оое

0004 0.002

о

О SOO 1000 1600 Ш 29Ю ЭССО 3SÛ0 «00

F.HI

Рисунок 1. Квадраты модулей трансформа] ггы Фурье отрезка сигнала, не содержащего звуков речи, поступающего на вход СА марки Oticon Safran (Швейцария) (сплошная линия) и трансформанты Фурье сигнала зарегистрированного на его выходе в режиме с подавлением шумов (пунктирная линия)

В диссертации предлагается следующая обобщенная форма модели синтеза выходных сигналов

R

йдг = £ crurN, (3)

г-l

ürN

я л

ил = \ Xrf!{eo)çxy{j(ù(k - \))da!2n,k = 1,.., N.

Здесь и в дальнейшем w v - вектор значений выходного синтезированного сигнала СА; верхний индекс Г означает транспонирование;^- коэффициенты синтеза (усиления) в частотных диапазонах, указанных выше, a X (со) - результаты аппроксимации в них отрезков трансформанты Фурье входного сигнала на этапе его анализа (частотные компоненты).

Таким образом, необходимо разработать метод оптимальной аппроксимации этих отрезков в смысле минимизации меры погрешности приближения к следующему идеальному случаю

%,„ и = Хи {(О), со 6 Q, ; Хм (®) В 0, ffl (S Я •

Поэтому и синтезируемый выходной вектор представляется естественным считать оптимальным.

Кроме того, спецификой предлагаемой модели является то, что для частотных интервалов, энергии анализируемых отрезков сигналов в которых обусловлены неинформационными частотными компонентами предлагается использовать единичные коэффициенты.

- 1 i f

d л _ _... ..Л i .... i i i i

Определение конкретных значений коэффициентов синтеза для информационных частотных компонент не является предметом диссертационных исследований. Предполагается, что они могут быть вычислены на основе аудиограмм с использованием в настоящее время стандартных для СА процедур.

Иными словами, необходимо разработать новые адекватные с точки зрения решаемых задач модели анализа в СА входных отрезков звуковых сигналов.

Прежде всего, они должны позволять эффективно с точки зрения достоверности обнаружить паузы в информационных звуковых сигналах (которые нет необходимости усиливать).

С другой стороны, известно, что подавляющие доли энергий отрезков речевых сигналов (и информационных сигналов, генерируемых механизмами и другими источниками квазициклических акустических воздействий) сосредоточены в малой доле оси частот (информационные частотные компоненты). Поэтому и усилению должны подвергаться только указанные информационные частотные компоненты, так как усиление других приводит к повышению уровня неинформационных частотных компонент.

Следовательно, разрабатываемые модели анализа должны обеспечить и эффективную реализацию указанной селекции информационных частотных компонент.

Таким образом, разработка математических моделей анализа и синтеза звуковых сигналов в СА, адекватных с точки зрения построения эффективных методов и алгоритмов селекции информационных и неинформационных частотных компонент (в том числе пауз в речевых сообщениях) является актуальным направлением исследований, способствующих созданию СА, удовлетворяющих требованию комфортности их использования большим контингентом испытывающих такую потребность людей

Целью данной работы является разработка на основе частотных представлений математических моделей анализа и синтеза в цифровых слуховых аппаратах (ЦСА) звуковых сигналов, позволяющих создать оптимальные алгоритмы их обработки при селекции информационных частотных компонент (в том числе при обнаружении пауз) и формировании выходных сигналов с низким уровнем неинформационных частотных компонент.

Для достижения этой цели были сформулированы и решены следующие задачи исследований:

1. Разработка моделей синтеза и соответствующих оптимальных алгоритмов обработки информационных и неинформационных частотных компонент звуков речи и шумов в паузах между ними при формировании выходных сигналов цифровых СА;

2. Построение моделей распределения энергий отрезков звуков русской речи по заданным частотным интервалам с позиций выявления потенциальных возможностей селекции на этой основе информационных и неинформационных частотных компонент и обнаружения отрезков, соответствующих паузам между звуками речи;

3. Разработка моделей анализа и соответствующих оптимальных алгоритмов обработки в цифровых СА входных звуковых сигналов при селекции информационных и неинформационных частотных компонент звуков речи;

4. Разработка алгоритмов обнаружения пауз между звуками речи с этапом обучения и без него.

5. Оценка эффективности (достоверность принятия решений и качественная оценка комфортности звучания формируемых выходных сигналов) разработанных алгоритмов анализа и синтеза в СА звуковых сигналов на основе вычислительных экспериментов.

Методы исследований:

- Методы анализа и синтеза сигналов на основе частотных представлений и использования вариационных принципов;

- Методы статистической теории принятия решения;

Вычислительный эксперимент.

Научную новизну работы составляет следующее:

1. Впервые с позиций потенциальных возможностей селекции информационных и неинформационных компонент установлены модели распределений по оси частот энергий отрезков речевых сигналов, соответствующих различным звукам русской речи (фундаментальные результаты исследований);

2. Модели решающих функций для обнаружения пауз в звуках речи и селекции информационных частотных компонент;

3. Модель синтеза с малым уровнем неинформационных частотных компонент выходных сигналов в СА на основе оптимальных аппроксимаций отрезков трансформант Фурье входных сигналов в заданных частотных интервалах и результатов селекции информационных частотных компонент;

4. Результаты исследований на основе вычислительных экспериментов с речевыми данными работоспособности предлагаемых алгоритмов анализа входных звуковых сигналов в СА в виде оценок достоверностей принимаемых решений и уровня неинформационных частотных компонент в синтезируемых выходных сигналах.

Практическая значимость работы обусловлена тем, что полученные в ней результаты могут найти применения в новых модификациях цифровых СА, которые будут обладать высокой комфортностью звучания выходных сигналов, что важно для миллионов людей с ослабленным слухом.

Положения, выносимые на защиту:

1. Модель синтеза выходного сигнала в цифровом СА на основе селекции информационных частотных компонент и оптимальной аппроксимации отрезков трансформант Фурье входных сигналов в соответствующих частотных интервалах;

2. Модели генерации речевых сигналов, порождаемых звуками русской речи в виде концентраций их энергий в частотной полосе;

3. Модели решающих функций при обнаружении отрезков сигналов без информационных частотных компонент (сигналы в паузе);

4. Модели селекции информационных и неинформационных частотных компонент;

5. Модель оптимальной аппроксимации отрезков трансформант Фурье входных сигналов в соответствующих частотных интервалах;

6. Методики проведения вычислительных экспериментов с речевыми сигналами (натурными данными) и результаты исследований на их основе эффективности разработанных алгоритмов обработки звуковых сигналов в цифровых СА.

Достоверность выводов и рекомендаций обеспечивается обоснованным использованием моделей генерации звуковых сигналов на основе частотных представлений, корректностью их математических преобразований, непротиворечивостью результатов преобразований с установленными ранее фундаментальными фактами теории звуковых сигналов и их цифровой обработки, а также подтверждается результатами вычислительных экспериментов с реальными речевыми сигналами.

Личный вклад соискателя. Все изложенные в диссертации результаты исследований получены либо соискателем лично, либо при его непосредственном участии.

Апробация результатов диссертационных исследований.

Результаты диссертационных исследований обсуждались на следующих научно-технических конференциях:

1. Восьмая международная научно-техническая конференция УГАТУ

«Проблемы техники и технологии телекоммуникаций», г. Уфа, 2007 г.

2. Десятая международная конференция и выставка «Цифровая обработка сигналов и ее применение», М., 2008 г.

Связь с научными и инновационными программами. Диссертационные исследования проводились в рамках следующих программ фундаментальных, поисковых и инновационных исследований:

1. Аналитическая ведомственная целевая программа федерального агентства по образованию РФ «Развитие научного потенциала высшей школы в 2006 - 2008г.г.г.», проект РНП.2.1.2.4974 «Разработка и исследование вариационных методов анализа и восстановления сигналов в линейных системах по дискретным эмпирическим данным ограниченной длительности»;

2. Федеральная целевая программа «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России 2007 - 2012гг.», поисковые исследования в рамках Госконтракта от 26 февраля 2007 года № 02514114010, проект «Разработка и исследование методов и алгоритмов обработки речевых данных для создания информационных технологий их сжатия при хранении, передаче и обеспечении скрытности в информационно-телекоммуникационных системах»;

3. Федеральная программа «Участник молодежного научно - исследовательского конкурса»

3.1. «УМНИК 07-05», Госконтракт от 20 июля 2007 года № 5269р/7733 тема «Информационная технология обнаружения пауз в речевых сообщениях, предназначенной для реализации в слуховых аппаратах (СА)», этап 1

3.2. «УМНИК 2-08-8», Госконтракт от 30 сентября 2008 года № 6345р/8765, тема «Разработка информационной технологии цифровой обработки звуковых сигналов для реализации в слуховых аппаратах (СА)», этап 2;

4. Аналитическая ведомственная целевая программа федерального агентства по образованию РФ «Развитие научного потенциала высшей школы в 2009 - 2010 гг.», проект 656 «Разработка на основе частотных представлений математических моделей и оптимальных методов обработки речевых сигналов при хранении и передаче речевых сообщений в информационно-телекоммуникационных системах».

5. Внутривузовский грант Белгородского государственного университета в номинации аспирантов.

Некоторые из результатов исследований используются в рамках преподавания дисциплины «Обработка речевых сигналов в информационно - телекоммуникационных системах» студентами факультета компьютерных наук и телекоммуникация Белгородского государственного университета.

Публикации.

По теме диссертационных исследований опубликовано 9 печатных работ (из них 2 в изданиях из списка ВАК РФ), в том числе 1 Патент РФ и 1 Свидетельство Роспатента РФ об официальной регистрации программ для ЭВМ.

Объем и структура работы

Диссертация состоит из Введения, четырех глав, Заключения и Приложения. Работа изложена на 153 страницах машинописного текста, включающего 58 рисунков, 45 таблиц и список литературных источников из 165 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Введение

Во введении обосновывается актуальность диссертационных исследований, формулируется его основная цель и даётся обзор содержания основных глав диссертации.

В первой главе диссертации «Основные модели и алгоритмы анализа и синтеза звуковых сигналов в слуховых аппаратах» на основе анализа состояния вопроса и основных проблем построения, эффективных с точки зрения комфортности звучания выходных звуковых сигналов СА, алгоритмов их формирования (анализа входных и синтеза выходных) уточняются формулировки конкретных задач исследований, решение которых способствует достижению основной цели диссертации.

Вторая глава диссертации «Исследование свойств звуковых сигналов на основе частотных представлений» посвящена изложению результатов фундаментальных исследований свойств распределений энергий отрезков речевых сигналов, соответствующих различным звукам русской речи, по частотным интервалам. Целью таких исследований является построение моделей, которые определяют потенциальные возможности использования этой характеристики для селекции информационных частотных компонент, обрабатываемых при синтезе выходных сигналов СА в соответствии с соотношением (3). Отметим, что на этой основе разрабатываются также процедуры принятия решений о полном отсутствии информационных компонент (обнаружение пауз в информационных сигналах), то есть когда в модели синтеза (3) все коэффициенты равны единице. . '

В качестве основы для моделей анализа служит понятие частей энергий отрезков речевых сигналов, попадающих в соответствующий частотный интервал, определяемых интегралами вида

Prf¡ = J IX „И11 dalls,r = \..,R. (4)

oieO,

В качестве инструмента проводимых исследований в диссертации использовалось полученное в ['] представление

= = (5)

которое позволяет вычислять интегралы вида (4) непосредственно во временной области (не вычисляя трансформанты Фурье анализируемого отрезка).

Здесь х,, = {xl,..,xNf - вектор анализируемых отсчётов; ArN = {сГл\ик = 1 ,..N;r = 1,.., Л - матрицы с элементами вида

al = {sin[F, (i - *)] - sin[F,_, (/ -*)]}/ K{i - k). (6)

Эти матрицы естественно называть субполосными.

Легко видеть, что реализация вычислений согласно (5) требует доопределения значений длительностей анализируемых (а в дальнейшем и синтезируемых) отрезков сигналов и количества используемых частотных интервалов. Очевидно, что с позиций обеспечения детальности анализа свойств отрезков звуковых сигналов целесообразно использовать как можно большее количество частотных интервалов, а их длительности выбирать как можно меньшими (для минимизации влияния эффектов от стыков различных звуков).

Вместе с тем необходимо обеспечить высокую достоверность принимаемых решений при селекции информационных частотных компонент, от чего зависит комфортность звучания выходных сигналов СА. Поэтому потребовалось провести специальное исследование, чтобы обосновать рекомендуемое минимальное значение длительности отрезка данных и вполне определённое отношение последней к количеству частотных интервалов.

Ясно также, что непосредственная реализация квадратичных форм вида (5) требует больших вычислительных затрат, которые затрудняют аппаратную реализацию в СА. В разделе 2.1. разработаны вычислительные алгоритмы, применение которых позволило существенно уменьшить объём вычислений (и соответственно времени) при сохранении их высокой точности.

В основе построения алгоритмов используется то, что симметричные и положительно определённые субполосные матрицы обладают полным набором ортонормальных собственных векторов и положительных собственных чисел,

'Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. [Текст] / Е.Г. Жиляков,- Белгород: Изд-во БелГУ, 2007. - 160 с.

8

удовлетворяющих уравнениям Л'ш<}гш = Аг11дгк^,к = = где предполагается

упорядоченность собственных чисел по убыванию> ХЫ1Ы1 ,к = -\,г = 1,..,Л. Поэтому они могут быть представлены в виде разложений:

N Ы

где С?,* =

п

Следовательно, представлению (5) можно предать видРгМ = £ Хкн(а'ЛК)2, где а^ -

а.)

скалярные произведения анализируемого вектора и соответствующего ортогонального собственного вектора (соответствующие проекции)

Собственные числа и векторы субполосных матриц обладают рядом замечательных свойств. Во-первых, имеет место важное равенство

хиы = I 1й!*И|2 с1ю12к,к = \-Ж,г = \,..Я, (8)

<У€0,

которое связывает значение собственного числа с долей энергии соответствующего собственного вектора, попадающей в рассматриваемый частотный интервал, причём в силу ортонормированности собственных векторов выполняются неравенства

0< <1Д = 1,..,Лг;г = 1„.,Л, (9)

причём, как известно из теории положительно определённых матриц, справедливы

N N N N

соотношения £ Хш = ¿4 = N / К\йЛАм Хш < а'и =1/й".

Таким образом, при достаточно больших длительностях анализируемого отрезка и количестве частотных интервалов, среди собственных чисел субполосных матриц могут быть очень близкие к нулю, то есть можно положить

>Хг„ >..>Хш.0-,Х^ *0,k = l,..,N-J;r = \,..,R, (10)

а вместо представления (5) использовать приближённое соотношение

= (П)

4=1

что и позволяет уменьшить объём вычислений.

В результате проведенных исследований с использованием реальных речевых сигналов установлено, что для всех частотных интервалов при выполнении неравенства

М = А7Л >6 (12)

очень точно выполняются равенства Хш = \,к = \,..,М, а выбор в (11) количества слагаемых равным

У = Л/ + 2 (13)

позволяет вычислить искомые доли энергии с погрешностью не хуже 0,1 процента.

Отметим, что собственные векторы и числа субголосных матриц целесообразно вычислить заранее. Тогда при сохранении высокой точности по сравнению с исходным представлением (5) достигается уменьшение объёма вычислений приблизительно в Я раз.

В Таблице 1 ниже приведены некоторые из результатов вычислительных экспериментов, иллюстрирующие утверждение о том, что использование вместо точной квадратичной формы (5) приближения (11) при выполнении (12) позволяет достичь высокой точности.

Таблица 1. Значения собственных чисел Л^ субполосной матрицы, при N=60,11=10

Ч Границы \ интервалов номер вектора О|=0; и2=1г/10 и,=тг/10 иг=2тг/10 и,=Зтг/10 и1=4*/10 и,=5х/10 и2=6т/10 и | =71г/10 о2=8х/10 1)|=87Г/Ю и2=9тг/10 и,=9тг/10 02=5Г

1 1 1 1 1 1 1 1

2 1 1 1 1 1 1 1

3 1 0,97 0,97 0,97 0,97 0,97 1

4 1 0,97 0,97 0,97 0,97 0,97 1

5 0,95 0,74 0,73 0,73 0,74 0,74 0,95

6 0,71 0,73 0,73 0,73 0,73 0,73 0,71

7 0,29 0,26 0,26 0,26 0,26 0,26 0,29

8 0,05 0,26 0,26 0,26 0,26 0,26 0,05

9 0,01 0,04 0,04 0,04 0,03 0,03 0,03

10 0,00 0,03 0,03 0,034 0,03 0,03 0,03

В разделе 2.2 второй главы описаны результаты исследований с помощью вычислительных экспериментов потенциальных возможностей селекции информационных и неинформационных частотных компонент на основе различий в сосредоточенности их энергий в малой доле, а у шумов - соответственно по всей ширине частотной полосы звуковых сигналов.

Была применена следующая методика исследований. Из записанных на диктофон лекций выделялись на слух отрезки, которые бьии обусловлены только вполне определенными звуками русской речи. При этом для каждого из звуков было выделено большое количество таких отрезков.

Несмотря на то, что различные звуки речи порождают отрезки разной длительности, оказалось возможным при различных сочетаниях длительностей интервалов анализа и количеств частотных интервалов оценить характеристику сосредоточенности их энергий вида

(14>

где в числителе справа стоит минимальное количество частотных интервалов (частотная концентрация), в которых сосредоточена заданная доля энергии звукового отрезка, так что имеет место

/-=тйиС. (15)

Здесь для правых частей выполняется неравенство

£ х^ (16)

к=1 /=! а верхний индекс I обозначает один из звуков русской речи, причём индекс в скобках у слагаемых суммы слева соотношения (16) означает, что доли энергий Ра, упорядочиваются по убыванию, то есть имеет место

е{рты,г = 1 ^Р№ун,к = 1,..,Л, (17)

а т - задаваемая доля общей энергии, которая должна быть сосредоточена в указанном минимальном количестве частотных интервалов.

Усреднённые по количеству использованных отрезков имеющихся звуков речи результаты этих исследований помещены в Таблице 2, приведенной ниже. Они показывают, что частотная концентрация энергий звуков речи гораздо выше, чем у шумов. В частности для всех звуков речи даже при очень большой доле энергии т = 0,95 для её частотной концентрации выполняется неравенство

К«= Л" /Л 2 0,5, (18)

тогда как в случае отрезков, порождённых только шумами, имеет место

И'™ =/«'*> 0,7.

Таблица 2. Частотная концентрация () звуков речи и шумов в паузах, при заданной концентрации энергий т. Частота дискретизации 8000 Гц, с N=60,11=10. Данные Таблицы получены при обработке выборки объёма 1200

\ Доля энергии N. т 0,85 0,87 0,89 0,90 0,91 0,92 0,94 0,95 0,97 0,99

Звуки \

а 0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,4

б 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3

в 0,2 0,2 0,2 0,2 0,2 0,3 0,3 0,3 0,3 0,6

г 0,2 0,2 0,2 0,2 0,3 0,3 0,3 0,3 0,3 0,4

д 0,2 0,3 0,3 0,3 0,3 0,3 0,3 0,4 0,5 0,8

е 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3 0,4

ё 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,6

ж 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3 0,3

3 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3

и 0,1 0,1 0,1 0,2 0,2 0,2 0,2 0,2 0,2 0,5

й 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2

к 0,2 0,2 0,2 0,3 0,3 0,3 0,3 0,4 0,4 0,6

л 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3 0,7

м 0,1 0,1 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,4

II 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,4

0 0,1 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3

п 0,2 0,2 0,2 0,2 0,2 0,2 0,3 0,3 0,4 0,7

р 0,2 0,2 0,3 0,3 0,3 0,3 0,3 0,4 0,4 0,5

с 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3

т 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3 0,5

У 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3

ф 0,3 0,3 0,3 0,3 0,3 0,3 0,4 0,4 0,5 0,8

X 0,1 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3 0,3

ц 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3

ч 0,2 0,3 0,3 0,3 0,3 0,3 0,4 0,5 0,6 0,8

ш 0,4 0,4 0,4 0,4 0,4 0,4 0,5 0,5 0,5 0,6

Щ 0,3 0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,4 0,6

ы 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,4

э 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,3 0,4 0,7

ю 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3

я 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,3 0,5

ПАУЗА 0,5 0,5 0,6 0,6 0,6 0,6 0,7 0,7 0,7 0,9

Установленное свойство концентрации заданного количества энергии сигналов, порождаемых звуками русской речи, в малой доле частотной полосы, позволяет вполне обоснованно рекомендовать его для построения метода селекции информационных компонент без этапа обучения. Конкретный алгоритм селекции описан в четвёртой главе

диссертации. Следует отметить, что распределение долей энергии отрезков сигналов соответствующих звукам «Ш» и «Щ» довольно равномерно по оси частот и напоминает распределение долей энергии неинформационных частотных компонент.

В разделе 2.3. второй главы диссертации приводятся результаты исследований на основе вычислительных экспериментов поведения нормированной характеристики распределения частей энергий (как шума, так и информационных компонент) вида

2„ = maxZrA.,l<r<ß, (20)

где

ZM=PMl&M\±r<.R. (21)

Здесь знаменатели являются оценками математических ожиданий соответствующих частей энергии отрезка сигнала, не содержащего информационных компонент, то есть обусловленного только шумами. Эти оценки получались усреднением по большому количеству отрезков записанного сигнала, которые заведомо не содержали информационных компонент в виде звуков речи.

Отметим, что такой подход к обнаружению пауз был описан в работе [2]. Целью настоящих исследований являлось установление потенциальных возможностей использования характеристики (20) в качестве модели решающей функции (РФ) при селекции информационных компонент. В данной диссертации были проведены детальные исследования проблемы выбора наиболее подходящих компромиссных сочетаний значений длин обрабатываемых отрезков и количества используемых при этом частотных интервалов.

Проблема поиска компромисса возникает в силу того, что для минимизации искажений из-за неточности определения границ пауза/звук необходимо использовать как можно меньшие по длительности отрезки для анализа.

В свою очередь, требование достижения высокой детальности в анализе распределения частей энергии по частотным интервалам приводит к необходимости использования как можно большего их количества.

Вместе с тем, соотношение (12) говорит о том, что имеется нижняя граница отношения длительности анализируемого отрезка к количеству частотных интервалов, которую необходимо соблюдать.

С целью поиска компромисса в диссертации впервые для всех звуков русской речи были проведены вычислительные эксперименты по оценке вероятности обнаружения на основе моделей (20) и (21) границ пауза/звук.

Для целей этого исследования и дальнейших применений в цифровых CA была разработана итерационная процедура обработки неинформационных данных с целью установления значения порогов частоты пересечений которых близки к задаваемым вероятностям ошибок первого рода при обнаружении пауз (ложных тревог).

Соответствующий вычислительный алгоритм описан в 4-ой главе диссертации (см. ниже). В результате вычислительных экспериментов показано, что для всех звуков русской речи, записанной на диктофон в процессе чтения в аудитории лекции, наблюдалось уверенное пересечение порогов, определённых из условия частоты ложных тревог менее 0,005. На помещённом ниже рисунке 2 приведен график поведения характеристики (20) как при отсутствии информационных компонент, так и при наличии их.

ЬКиляков, Е.Г. Методы обработки речевых данных в информационно телекоммуникационных системах на основе частотных представлений [Текст] / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко. - Белгород: Изд-во БелГУ, 2007. - 136 с.

Рисунок 2. Повеление РФ на длине отрезка сигнала при N-60; Д=/0.

Вычислительные эксперименты показали, что сочетание Лг - 60, й = 10 при частоте дискретизации 8000 Гц обеспечивает вероятность правильного обнаружения информационных' компонент не менее чем 0, 99.

В Таблице 3 приведены результаты пычцелительных экспериментов при различных сочетаниях Лг и Я Данные Таблицы получены при обработке выборки объемом 10000. Соответствующий алгоритм анализа входных сигналов описывается в четвертой главе диссертации.

Таблица 3. Оценки вероятностей превышения порога решающей функцией при наличии (сс„„) и отсутствии (й,,) информационной компоненты. Иа - величина порога, обеспечивающего заданный уровень вероятности ошибок первого рода.

Номер N К Иа а»

эксперимента

1 20 г 6.9 0,98 0,01

2 20 5 8.9 0,98 0,01

3 20 10 10,6 0,98 0,01

4 60 2 5.1 0,98 0,01

5 60 6 7,1 0,98 0.01

6 60 10 8.3 0,99 0,01

7 60 15 11,5 0,99 0,01

8 60 30 30 0,98 0,01

9 200 2 5,6 0,99 0,01

10 200 20 12,8 0,99 0,01

В разделе 2.4 второй главы приводится краткий анализ основных ей результатов и рекомендаций об их использовании в СА.

В третьей главе диссертации «Модели анализа н синтеза звуковых сигналов в цифровых слуховых аппаратах» приводятся результаты разработки теоретических основ алгоритмов обработки в СА при анализе входных сигналов и синтезе выходных на основе селекции информационных компонент и воздействий на них в соответствии с аудиограммой. Напомним, что модель процедуры синтеза выходных сигналов в СА описываемся соотношением (3).

В соответствии с разрабатываемым в работе подходом неинформационные компоненты не должны подвергаться воздействиям, так что соответствующие им коэффициенты синтеза должны быть равны единице.

В свою очередь именно коэффициенты при аппроксимациях XrN(a) отрезков трансформант Фурье в частотных интервалах, где присутствует заметная часть энергии информационных компонент, должны компенсировать потери слуха.

Таким образом, другой (первая заключается в селекции информационных компонент) проблемой анализа/синтеза сигналов в CA является разработка метода вычисления указанных аппроксимаций и его алгоритмическая реализация. Она рассматривается в разделе 3.1 третьей глары с позиций минимизации погрешностей аппроксимаций (оптимальность).

Как уже отмечалось выше в идеальном случае должно выполняться условие

X ,v (со) = X„(со), со еП; (со) = 0 ,соёП. (22)

Ясно, что при конечной длительности обрабатываемого отрезка равенство вида (24) выполнить невозможно. Вместе с тем можно использовать меру погрешностей приближений в виде квадратических отклонений

4= J \Х„(со)-Хг„(сй)\ЧЫ2к- \ \X^(co)Ucol2K,r = \,..,R- (23)

Тогда оптимальность аппроксимаций можно понимать в смысле минимума правой части последнего представления. Для поиска оптимальной в этом смысле аппроксимации положим

Легко понять, что при этом векторы в правой части представления (3) определяются из соотношений

к

",.v = X AÄ • (24) .

В диссертации показано, что минимум правой части (23) достигается тогда и только тогда, когда выполняются равенства

(25)

Таким образом, как и при анализе распределения энергий обрабатываемых отрезков по частотным интервалам необходимо вычислять скалярные произведения вида (7). Важно отметить, что быстрое уменьшение собственных чисел субполосных матриц в представлении (24) позволяет сделать вывод, что в нем достаточно использовать только J слагаемых (см. (13)). При этом относительные погрешности получаемых аппроксимаций могут быть вычислены на основе следующего представления

)//>„vГ. (26)

i.l

В соответствии со сложившейся в частотном анализе сигналов терминологии вычисление коэффициентов (25) аппроксимаций вида (24) именуется оптимальным субполосным анализом. В разделе 3.1 приведены также результаты вычислительных экспериментов по вычислению на основе представления (26) относительных погрешностей аппроксимаций отрезков трансформант Фурье речевых сигналов. Некоторые из них даны в Таблице 4, расположенной ниже. Легко видеть, что эти погрешности ничтожно малы, то есть предложенная форма аппроксимаций (субполосного анализа) является очень точной.

Таблица 4. Среднеквадратические относительные погрешности аппроксимаций 5гК(26) при N=60, К==10. Данные Таблицы получены при обработке выборки объема 10000

Границы частотного интервала о,=0; и2=5г/1 0 и,=Зтг/10; и2=4т/10 О|-4х/10; 02=551/10 О,=55г/Ю; и2=6х/10 и,=7тг/10; 02=851/10 о,=8я/10; и2=9тг/10 О|=91г/10; 02=101/10

0,007 0,001 0,000 0,001 0,001 0,001 0,001

В разделе 3.2 третьей главы диссертации описывается процедура селекции информационных частотных компонент обрабатываемых отрезков сигналов, которая разработана на основе полученных во второй главе и в разделе 3.1. результатов.

Целью такой селекции является определение тех частотных интервалов, энергия звуковых сигналов в которых обусловлена компонентами, реакция на которые важна для жизнедеятельности пользователя.

Такие компоненты должны усиливаться при синтезе на основе модели (3), тогда как не имеющие такого важного значения частотные компоненты остаются без изменений.

Важно подчеркнуть, что под информационными компонентами понимаются не только те, которые обусловлены речевым воздействием, но и иные, которые характеризуют окружающую человека обстановку с позиций его жизнедеятельности. В качестве примера можно привести рабочие звуки различного рода машин, в том числе требующие реакции на опасность их близости. Определяющим возможность селекции информационных компонент является то, что подавляющие доли их энергий сосредоточены в малой доле частотной полосы. Тогда компоненты в остальных частотных интервалах принимаются за неинформационные.

Процедура селекции информационных частотных компонент осуществляется только после того, как было принято решение о том, что в анализируемом отрезке сигнала они присутствуют, то есть они обусловлены не только шумами с почти равномерным частотным распределением энергии.

Поэтому для реализации процедуры селекции используются значения частей энергии обрабатываемого отрезка, попадающих в частотные интервалы. Проведенные в диссертации исследования свойств речевых сигналов показали, что целесообразно выбирать частотные интервалы

аг=[-К,-К-^ ,К)Л = 0;Уя=я, (27)

одинаковой ширины, то есть когда выполняется

Уг-Уг_1=л/Л,Уо=0;Уя=л. (28)

Дальнейшее заключается в определении номеров частотных интервалов, сосредоточенная в которых суммарная доля энергии входного сигнала не меньше заданной. При этом количество этих интервалов должно быть наименьшим из возможных.

В основе процедуры селекции информационных компонент используются соотношения вида (14)-(17) (модель анализа).

В разделе 3.3 третьей главы диссертации описывается процедура синтеза выходных сигналов слуховых аппаратов на основе модели (3).

Прежде всего, следует отметить, что отрезки сигнала, в которых не обнаружено присутствия информационных компонент (сигналы пауз) синтезируются с коэффициентами равными единице.

В свою очередь равные единице коэффициенты используются и для неинформационных частотных компонент отрезков сигналов, обусловленных не только шумами. Процедура их определения описана выше (см. раздел 3.2).

Имея в виду представление (24), равенства (25) и ограничение (13), можно получить модель синтеза, позволяющую вычислить оптимальный выходной вектор

К ]

В разделе 3.4 приводятся основные результаты и выводы, полученные в третьей главе диссертации.

В четвёртой главе диссертации «Алгоритмы анализа/синтеза звуковых сигналов в цифровых слуховых аппаратах» описываются предлагаемые алгоритмы обработки звуковых сигналов в цифровых СА, позволяющие компенсировать определяемые аудиограммами потери слуха без неоправданного усиления частотных компонент, энергии которых обусловлены неинформационными частотными компонентами. Таким образом, использование этих алгоритмов позволяет достичь высокой комфортности звучания выходных (синтезированных) сигналов. Кроме того, в этой главе приводятся результаты исследований работоспособности этих алгоритмов на основе вычислительных экспериментов, включая экспертное оценивание комфортности звучания синтезированных сигналов слабослышащими людьми.

Раздел 4.1 содержит описание алгоритмов селекции информационных компонент, как с этапом обучения, так и без него.

В основе алгоритма обработки в цифровых СА при обнаружении пауз в информационных сигналах с этапом обучения используется модель решающей функции (РФ) определяемая соотношениями (20) и (21). При этом формулировка основной гипотезы имеет вид:

#0: отсчеты анализируемого отрезка входного сигнала не содержат информационных компонент.

Ниже приводится словесное описание алгоритма обработки данных при принятии решений.

Блок подготовительных вычислен™

1. Ввести количество Д и значения границ полного набора частотных интервалов с проверкой выполнения равенств у0 = 0 ;уя= я;

2. Ввести значение длительности обрабатываемого отрезка сигнала N;

Для г = \,..,Я,1,к = осуществить вычисления элементов матриц

= {5ш(у, (/ - к)) - ьт^Ц - к))}171(1 - к);

3. Положить 3г = 1\Ы{\Г -уг_,)/2я'] + 2;

4. Для г = \,..,К вычислить матрицы собственных векторов и чисел

Блок оценивания математических ожиданий частей энергии отрезков шумов в паузе и порогов для обеспечения заданной вероятности ошибок первого рода при проверке гипотезы о принадлежности анализируемого отрезка к паузе. 1. Ввести заведомо относящиеся к паузе данные длительностью N N;.

2. Для к = выполнить:

3. Ввести вектор значений обрабатываемого отрезка сигнала хш = (хи,..,хш)Т;

4. Вычислить вектор ууш = у[я )1 = ААхкы

]

5. Для г = 1,..,Л вычислить (Рг)" = £ 0^),;

5. Сформировать матрицу АА =

N у

6. Для г = 1,..,Л вычислить Рг" = £ (Рг)"Шу

7. Для к = 1,.„Ы,вычислить ЭЦ = тах((РДп /Ргп)Уг = 1,..,Д;

н, ы, _

8. Вычислить Ип = £ и£>; = £ (8Ц)ЧЫУ ;

9. Ввести значение вероятности ошибок первого рода (ложной тревоги) а « 1;

10. Выполнить итерации по определению порога:

11. Положить т = 0;а0 = 2;

12. Вычислить А™ <£„ +Оп1ат4а\

.V,

13. Вычислить Д, = £ яДО" - Л;),•»£(*) = 1,х> 0; л£(;г) = 0,х<0;

14. Если | а - Рт |< а2 то положить йа = /г" и прекратить итерации;

15. В противном случае при а> Рт положить := (1 - сшт) * ат ,ссли же выполняется неравенство а < /?„, то положить а„+, := (1 + аая)*ат, положить т = т +1 и перейти к выполнению 11;

Блок обработки отрезков входных сигналов при проверке гипотезы об отсутствии информационных компонент (анализируемый отрезок принадлежит паузе).

1. Задать длительность обрабатываемого отрезка N (необходимо согласование с предварительными вычислениями);

2. Ввести предназначенные для обработки данные = (х,)г;

3. Вычислить вектор уу = (у[,-,уя )г = ААх„ размерности

Jr

4. Для г = вычислить Рг = £ у\;

м

5. Вычислить = шах(Рг / Р"), V/- = 1,.., Я;

6. Если > Иа, то принимается решение о наличии в анализируемом отрезке информационных компонент и передаётся управление алгоритмам селекции информационных частотных компонент и синтеза выходных сигналов.

В противном случае (неравенство ^ > Ьа не выполняется) принимается решение о принадлежности паузе анализируемого отрезка данных, которые передаются на выход СА без изменений (этап синтеза).

Алгоритм селекции информационных и неинформационных отрезков входных сигналов без этапа обучения имеет вид.

1. Задаются максимальная величина И'т доли частотной полосы вида (14) IVи требуемая доля т попадающей в неё энергии анализируемого отрезка (см. (16)).

2. Ввести отрезок анализа хК = (х, ,..,х}1)Т;

3. Вычислить вектор уу = (у[,-,уя)т = ААхы, размерности

4. Для г = вычислить Рг=2и у\ >

м

5. Упорядочить по убыванию, полученные в предыдущем пункте значения, и, определить минимальный из верхних пределов в сумме вида (16), когда выполняется неравенство

К, N

к=\ 1*1

6. Вычислить = ттс?" и IV= /Л;

7. Проверить выполнение неравенства < ;

8. Если оно выполняется, то основная гипотеза отвергается и передаётся управление алгоритмам селекции информационных частотных компонент и синтеза выходного сигнала;

9. Если оно не выполняется, то передаётся управление алгоритму синтеза выходных сигналов пауз.

В разделе 4.2 описаны алгоритмы селекции информационных частотных компонеот отрезков сигналов, не принадлежащих паузам, и алгоритм синтеза выходных сигналов СА.

Алгоритм селекции информационных частотных компонент, не принадлежащих паузе отрезков входных сигналов, повторяет пункты 1-6 предыдущего алгоритма. Дополнением к ним служат пункты:

7. Положить О ж = тш (¡„я + 2 и отнести к информационным частотные интервалы с номерами (к) = 1,.., О™ , то есть такие, в которых сосредоточена заданная доля энергии плюс два частотных интервала с последующими по величине частями энергии.

8. Вычислить вектор сК = (с, ,..,сЛ)г, компоненты которого должны быть равны единице для частотных интервалов с неинформационными компонентами (в том числе все равны нулю для сигналов в паузах) и вычисляются согласно применяемым в настоящее время технологиям на основе аудиограммы пользователя.

Отметим, что существующие технологии расчета этих коэффициентов являются нелинейными и адаптивными, так как результат вычислений зависит от текущего уровня энергии входного сигнала. В диссертации эти расчеты не рассматриваются.

В основе алгоритма синтеза выходных сигналов СА используется соотношение (29), которое на основе предыдущих обозначений целесообразно преобразовать к виду более удобному для вычислений

$К=ААтСуу, (30)

где С = diag(cl,..,c¡¡).

В разделе 4.3 диссертации приводятся результаты исследований работоспособности разработанных алгоритмов обработки звуковых сигналов в цифровых СА на основе вычислительных экспериментов с реальными речевыми сигналами.

Оценивались: Относительные количества пересечений на длительностях звуков речи порога, соответствующего уровню значимости СС (анализируемый отрезок принадлежит паузе) с этапом обучения; Относительные количества пересечений на длительностях звуков речи порога, при \¥'т > Ь,'т (анализируемый отрезок принадлежит паузе) без этапа обучения; Уровень шумов в выходных сигналах реального СА и сформированных на основе предлагаемых алгоритмов обнаружения пауз и селекции информационных частотных компонент в речевых сигналах; Комфортность звучания синтезированных сигналов.

Результаты оценивания вероятностей ошибок первого рода при обнаружении пауз в речевых сообщениях и вероятностей правильного обнаружения звуков с этапом и без этапа обучения приведены ниже в Таблице 5. Параметры алгоритмов (длительность обрабатываемых отрезков, количество частотных интервалов, пороговые значения решающих процедур) приводятся там же.

Легко видеть, что в обоих случаях может быть достигнут-приемлемый компромисс между вероятностями ошибок первого и второго родов.

Для сравнительного оценивания уровней шумов проводилась запись в компьютер выходного сигнала слухового аппарата Оисоп (производство Швейцария) с исходной настройкой коэффициентов усиления, который формировался под воздействием произнесенной диктором фразы «Покушай хачапури». При этом в СА использовалась настройка на подавление шумов.

Параллельно этот входной сигнал записывался в память компьютера, для дальнейшей обработки на основе разработанных алгоритмов анализа/синтеза. На этапе синтеза для неинформационных частотных компонент использовались коэффициенты, ослабляющие их влияние на формирование выходного сигнала (коэффициенты меньше 1), что равносильно очистке от шумов.

Исследования шмели целью сравнить уровни неинформационных компонент в зашумленных сигналах (зашумление проводилось по формуле: 1!к=Хк+ек, где

шх

Ек = а' Пк> 1к~ выборка из нормального распределения, а = Л —г, а р - определяет

V И7?*

отношение шум/сигнал) и синтезированных с применением предлагаемых алгоритмов обработки, включая интервалы отсутствия звуков речи (сигналы в паузе). Для этого сравнивались доли энергий в различных частотных диапазонах у входных и выходных сигналов.

Таблица 5. Относительные количества пересечений на длительностях звуков речи порога, соответствующего уровню значимости ОС (анализируемый отрезок принадлежит паузе) с этапом обучения и при < К-н без этапа обучения. Параметры алгоритма: N=60, Я=10, .1=8. Данные Таблицы получены при обработке выборки объёма 1000

Способ обработки С обучением Без обучения

Звуки Диктор 1 Диктор 2 Диктор 1 Диктор 2

а =0,005 а =0,005

1 2 3 4 5

а 1 1 1 1

б 1 1 0,99 1

в 1 1 1 1

г 1 1 1 1

д 1 1 0,99 0,99

е 1 1 1 1

ж 1 1 1 0,99

3 1 1 1 1

и 1 1 1 1

к 1 1 1 1

л 1 1 1 1

м 1 1 1 1

н 1 1 0,98 0,99

0 1 1 1 1

п 1 1 0,98 0,99

Продолжение Таблицы 5

1 2 3 4 5

р 1 1 1 1

с 1 1 1 1

т 1 1 0,98 0,99

У 1 1 1 1

Ф 1 1 1 1

X 1 1 0,98 0,99

Ц 1 1 1 1

ч 1 1 1 0,99

ш 0,99 0,99 0,92 0,91

щ 1 1 0,94 0,94

ы 1 1 1 1

э 1 1 1 1

ПАУЗА 0,00 0,00 0,01 0,01

На рисунке 3, приведенном гаже, иллюстрируются результаты вычислений частей энергий исходного, зашумленного и очищенного от шумов отрезков. Высокая достоверность обнаружения информационных частотных компонент позволяет говорить о преимуществах предлагаемых алгоритмов анализа/синтеза сигналов в цифровых слуховых, аппаратах перед используемыми в настоящее время даже в высококлассных и дорогих моделях.

В качестве ещё одного подхода к оцениванию качества предлагаемых алгоритмов и применяемых в настоящее время использовался метод оценивания с помощью экспертов. При этом предлагалось качественно оценить уровень зашумленности синтезируемых сигналов. В качестве исследовательской группы были привлечены четыре человека. Результаты оценивания приведены в Таблице 6. В этой таблице приведены следующие обозначения результирующих сигналов: CAI - цифровой слуховой аппарат фирмы Oticon модель Safran. 16 каналов (в режиме подавления шума); СА2 - цифровой слуховой аппарат фирмы Oticon модель Tego Pro. 8 каналов (в режиме подавления шума); САЗ -на основе применения предлагаемого алгоритма селекции информационных частотных компонент без этапа обучения при обнаружении пауз для N=60, R=10, J=8; СА4 - на основе применения предлагаемого алгоритма селекции информационных частотных компонент с этапом обучения при обнаружении пауз для N=60, R=10, J=8.

Обозначения для испытуемых: И1 И2 ИЗ И4

Отметим, что исследователи подтвердили основной вывод о преимуществах предлагаемых моделей и алгоритмов анализа/синтеза звуковых сигналов в цифровых СА перед применяемыми в настоящее время.

Рисунок 3. Распределение частей энергий отрезков сигналов, соответствующих звуку «Ч» о -исходного сигнала; 0 - зашумленного сигнала;^ - сигнала после очистки от шумов.

Таблица 6. Результаты оценивания уровня комфортности звучания синтезируемых сигналов с помощью исследовательской группы. Оценивание производилось по 10-ти бальной шкале.

Слитная речь при наличии шума 4=0.5 (6,22 с)

СА1 СА2 САЗ СА4

Оценка качества воспроизведения речи И1 7 5 8 9

Оценка качества воспроизведения речи И2 7 5 9 9

Оценка качества воспроизведения речи ИЗ 7 4 9 9

Оценка качества воспроизведения речи И4 8 4 8 9

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ ДИССЕРТАЦИОННЫХ ИССЛЕДОВАНИЙ

1. Разработана модель синтеза выходных сигналов с малым уровнем неинформационных компонент на основе оптимальных аппроксимаций отрезков трансформант Фурье и результатов селекции информационных частотных компонент.

2. В рамках моделей генерации звуковых сигналов на основе частотных представлений предложена концепция разделения входных сигналов в СА на информационные, то есть такие, которые несут в себе важную для жизнедеятельности человека информацию (включая признаки опасности для его жизни) и обусловленные различными акустическим помехами неинформационные сигналы (паузы в информационных сигналах). Целесообразность введения этой концепции обусловлена тем, что для достижения высокой комфортности звучания отрезки неинформационных сигналов не должны усиливаться при формировании выходных сигналов СА.

3. Обоснована целесообразность использования при разработке алгоритмов синтеза выходных сигналов CA моделей информационных частотных компонент отрезков звуковых сигналов, суммарная энергия которых составляет подавляющую часть энергии всего отрезка, причём она сосредоточена в малой части частотной оси (высокая частотная концентрация). Учёт этого свойства информационных сигналов позволяет селективно осуществлять усиление только этих компонент, что также повышает комфортность звучания выходных сигналов CA, так как некоторые из частотных компонент неизбежно присутствующих в сигнале помех не усиливаются.

4. Разработан метод вычислений в CA долей энергий входных сигналов в заданных частотных интервалах. Созданы алгоритмические реализации этого метода, эффективность которых с точки зрения допустимых погрешностей и задержек при вычислениях исследована на основе вычислительных экспериментов, результаты которых свидетельствуют о высокой эффективности предлагаемого подхода.

5. С использованием вычислительных экспериментов с натурными данными установлены модели генерации речевых сигналов на основе частотных представлений, описывающие свойства распределений долей энергий отрезков речевых сигналов, соответствующих отдельным звукам русской речи, т.е. модели соответствующих информационных частотных компонент, позволяющие построить алгоритмы их селекции при синтезе выходных сигналов в CA.

6. На основе моделей распределений энергий информационных частотных компонент на частотной оси и алгоритма вычисления в заданных частотных интервалах долей энергий разработаны модели решающих функций при обнаружении пауз в информационных сигналах с этапом обучения и без него и их алгоритмические реализации. На основе вычислительных экспериментов получены оценки достоверности принимаемых решений и уровней возникающих искажений звуков при ошибочных решениях, что дало возможность рекомендовать наиболее приемлемые в том числе с точки зрения вычислительных затрат (времени реализации) длительности обрабатываемых отрезков входных сигналов и количество частотных интервалов для их анализа.

7. Разработаны модели субполосного анализа, позволяющие осуществлять оптимальную аппроксимацию отрезков трансформант Фурье входного сигнала в заданных частотных интервалах.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи в научных изданиях, входящих в перечень рекомендованных ВАК

1. Белов, A.C. О фильтрации пауз в речевых данных для реализации в слуховых аппаратах / Е.Г. Жиляков, A.C. Белов // Вопросы радиоэлектроники. Серия «Электронная вычислительная техника (ЭВТ)». - 2008. - Вып. 1. - С. 123-131.

2. Белов, A.C. О различиях частотных свойств информационных и неинформационных звуковых сигналов речевого диапазона / С.П. Белов, A.C. Белов // Научные ведомости БелГУ. Серия История. Политология. Экономика. Информатика. -2008. - Вып. 7(38). - С. 214-221.

Статьи в научных журналах и сборниках трудов

1. Белов, А. С. Новый алгоритм обработки звуковых сигналов для обнаружения пауз//Труды учебных заведений связи. - СПб., 2007. - №176.-С. 163-170.

2. Белов, А. С. Исследования алгоритма обнаружения пауз в речевых сообщениях [Текст] // Научные ведомости БелГУ. Серия «Информатика и прикладная математика». -2007. - Вып. 7(38). - С. 214-221.

Статьи в материалах и сборниках трудов научных конференций

1. Белов, А. С. Об одном подходе к обнаружению пауз в речевых сообщениях / Е.Г. Жиляков, A.C. Белов // Проблемы техники и технологии телекоммуникаций:

Материалы 8-ой Междунар. науч.-техн. конф., г. Уфа, 2007 г'. - Уфа: УГАТУ, 2007. -С.73-74.

2. Белов, А. С. Об оптимальной линейной фильтрации / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко, A.C. Белов // Цифровая обработка сигналов и ее применение : Материалы 10-ой Междунар. конф. и выставки. - М., 2008. - С. 146-148.

3. Белов, А. С. Об одном методе обнаружения пауз в речевых сигналах [Текст] / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко, A.C. Белов // Цифровая обработка сигналов и ее применение : Материалы 10-ой Междунар. конф. и выставки. - М., 2008. - С. 153-155.

Патенты и Свидетельства об официальной регистрации программ для ЭВМ

1. Белов, А. С. Способ обнаружения пауз в речевых сигналах и устройство его реализующее / Е.Г. Жиляков, С.П. Белов, A.C. Белов, Е.И. Прохоренко. - Патент России № 2317595 от 20 февраля 2008 года.

2. Белов, А. С. Программная система обработки информационных и неинформационных звуковых сигналов / Е.Г. Жиляков, С.П. Белов, A.C. Белов, В.В. Муромцев, A.B. Курлов. - Программа для ЭВМ. Свидетельство об официальной регистрации программ для ЭВМ, №2008614716 от 6 августа 2008 года.

Подписано в печать 29.04.2009. Формат 60x84/16. Гарнитура Times. Усл. п. л. 1,0. Тираж 100 экз. Заказ 88. Оригинал-макет подготовлен и тиражирован в издательстве Белгородского государственного университета 308015 г. Белгород, ул. Победы, 85

Оглавление автор диссертации — кандидата технических наук Белов, Александр Сергеевич

ВВЕДЕНИЕ.

Глава 1 Основные модели и алгоритмы анализа и синтеза звуковых сигналов в слуховых аппаратах.

1.1 Модели восприятия звука человеком.

1.2 Модели потерь слуха и их компенсации в слуховых аппаратах.

1.3 Существующие основы и алгоритмы анализа/синтеза звуковых сигналов в цифровых слуховых аппаратах.

1.4 Задачи исследования.

Глава2 Исследование свойств звуковых сигналов на основе частотных представлении.

2.1 Вычисление частей энергий отрезков звуковых сигналов в заданных частотных диапазонах.

2.1.2 Исследования алгоритма на основе вычислительных экспериментов с речевыми сигналами.

2.2 Распределение частей энергий отрезков звуковых сигналов по частотным интервалам.

2.2.1 Экспериментальные исследования распределения частей энергий отрезков звуковых сигналов по частотным интервалам.

2.3 Исследование нормированных частей энергии отрезков звуковых сигналов с этапом обучения.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Белов, Александр Сергеевич

Актуальность работы обусловлена необходимостью разработки новых эффективных алгоритмов и вычислительных процедур обработки звуковых сигналов в слуховых аппаратах (СА), применение которых позволн г повысить комфортность использования СА слабослышащими людьми.

В настоящее время существует развитая индустрия по производству слуховых аппаратов (СА) [6,7,110,160-162], предназначенных для протезирования людей с ослабленным слухом, которых по данным Всемирной организации здравоохранения (ВОЗ) в мире насчитывается свыше 10% [7,110]. В большинстве случаев потери слуха проявляются в виде снижения или даже полной потери подвижности (эластичности) отдельных элементов механической системы человеческого уха, что приводит к ослаблению реакции на воздействие внешней акустической волны.

Для компенсации указанных потерь реакции на акустическое воздействие необходимо осуществлять довольно сложную обработку звуковых сигналов, что доступно только при использовании технических устройств на базе цифровых процессоров. Так как потери слуха индивидуальны для каждого пользователя, то предусматривается процедура адаптации к ним за счёт соответствующих настроек режимов функционирования СА на этапе их подбора (как правило, врачом - сурдологом) [6,7,110, 160-162].

Основой для таких настроек служат так называемые аудиограммы, которые отражают реакцию механической системы уха пациента на акустическое воздействие определённой частоты [110]. Для компенсации потерь реакции в том пли ином частотном интервале применяется соответствующее усиление компонент звуковых сигналов. Иными словами, процедура обработки звуковых сигналов в СА состоит из этапа разделения входного сигнала на требуемые частотные компоненты (этап анализа) и этапа синтеза, то есть формирования выходного сигнала с учётом требуемого усиления этих компонент.

Таким образом, адекватными при построении алгоритмов анализа и синтеза звуковых сигналов в СА являются модели их генерации на основе частотных представлений [50]: хк = x(kAt) = J XN (<у) exp(Ja>(k -1 ))dco 12л, (1)

Здесь и далее предполагается, что дискретизация осуществляется с постоянным шагом по времени At, а большими буквами обозначаются соответствующие трансформанты Фурье отрезков обрабатываемых отсчётов длительное ш N, то есть [93,117,121]:

XN (о) = £ хк cxp(—ja>(k -1)). (2)

4=1

В настоящее время модели анализа предусматривают некоторые процедуры выделения частотных компонент входного сигнала, относящихся к различным частотным интервалам вида [47]: г =0;VR=n, (3) где R - количество используемых частотных интервалов, которые затем подвергаются необходимым преобразованиям в соответствии с аудиограммами.

В современных цифровых С А используется от трёх до 16 частотных диапазонов (каналов обработки) [160-162]. Применяемые при этом способы разделения на частотные компоненты (аппроксимации отрезков трансформант Фурье) и соответствующие процедуры синтеза являются ноу-хау и детально неизвестны.

Вместе с тем, несмотря на постоянное совершенствование СА, отзывы пользователей свидетельствуют о том, что в настоящее время отсутствуют эффективные алгоритмы разделения анализируемых отрезков сигналов на информационные частотные компоненты, то есть содержащее важную акустическую информацию, в том числе речевую, и неинформациоипые, обусловленные неизбежным присутствием так называемых помех окружающей среды и аппаратурных шумов. Ясно, что в последнем случае синтез выходных сигналов на основе'аудиограммы за счёт усиления, в том числе и компонент, обусловленных помехами, приводит к некомфортности пользования СА.

Иллюстрацией к сказанному является рисунок 1 расположенный ниже, на котором изображены квадраты модулей трансформанты Фурье отрезка сигнала, не содержащего звуков речи, поступающего на вход СА марки Oticon Safran (Швейцария) и трансформанты Фурье сигнала зарегистрированного на его выходе в режиме с подавлением шумов.

Легко видеть, что некоторые из частотных компонент синтезированного сигнала в СА существенно усилены. Именно это обстоятельство обуславливает дискомфорт его применения даже при использовании механизма подавления шума.

0016 0 014 0 012 0 01

0 О СЮ8 0 005 0 004 0 002 о I, л

2000 F Н r^dfeutSJAiLzu.

3311 ЗЕОО 4000

Рисунок 1. Квадраты модулей грансформанты Фурье отрезка сигнала не содержащего звуков речи, поступающего на вход СА марки Oticon Safran (Швейцария) (сплошная линия) и трансформанты Фурье сигнала зарегистрированного на ei о выходе в режиме с подавлением шумов (н> нктирная линия)

В диссертации предлагается следующая обобщенная форма модели синтеза выходных сигналов и\ (И,,.,И^У = £ crurN. (4) Ч

UrN — (ur\ ,-;UrN ) ; К и)к = | X/N (co)exp(jco(k-l))dco / 2тг,к = l.,N . л

Здесь и в дальнейшем й'Л. - вектор значений выходно1 о синтезированного сигнала СА; верхний индекс Т означает транспонирование; сг - коэффициенты сишеза (усиления) в частотных указанных выше диапазонах, а XrN (со) - результаты аппроксимации в них отрезков трансформанты Фурье входного сигнала на этапе его анализа (частотные компоненты).

Таким образом, необходимо разработать метод оптимальной аппроксимации этих отрезков в смысле минимизации меры погрешности приближения к следующему идеальном}' случаю

XrN (со) = Хы (со), со е Qr; XrN (со) = 0, со g Qг Поэтому и ситттезируемый выходной векшр представляется естественным считать оптимальным.

Кроме того, спецификой предлагаемой модели является то. что для частотных интервалов, энергии анализируемых отрезков сигналов в которых обусловлены 5 неинформационными шумами (неинформационные частотные компоненты) предлагается использовать единичные коэффициенты.

Определение конкретных значений коэффициентов синтеза для информационных частотных компонент не является предметом диссертационных исследований. Предполагается, что они могут быть вычислены на основе аудиограмм с использованием в настоящее время стандартных для СА процедур.

Иными словами, необходимо разработать новые адекватные с точки зрения решаемых задач модели анализа в СА входных отрезков звуковых сигналов.

Прежде всего, они должны позволять эффективно с точки зрения достоверности обнаружить паузы в информационных звуковых сигналах (которые нет необходимости усиливать).

С другой стороны, известно [48], что подавляющие доли энергий отрезков речевых сигналов (и информационных сигналов, генерируемых механизмами и другими источниками квазициклических акустических воздействии) сосредоточены в малой доле оси частот (информационные частотные компоненты). Поэтому и усилению должны подвергаться только указанные информационные частотные компоненты, так как усиление других компонент приводит к повышению уровня неинформационных помех.

Следовательно, разрабатываемые модели анализа должны обеспечить и эффективную реализацию указанной селекции информационных частотных компонент.

Таким образом, разработка математических моделей анализа и синтеза звуковых сигналов в СА, адекватных с точки зрения построения эффективных методов и алгоритмов селекции информационных и неинформационных частотных компонент (в том числе пауз в речевых сообщениях) является актуальным направлением исследований, способствующих созданию СА, удовлетворяющих требованию комфортности их использования большим контингентом испытывающих такую потребность людей

Целью данной работы является разработка на основе частотных представлений математических моделей анализа и синтеза в цифровых слуховых аппаратах (ЦСЛ) звуковых сигналов, позволяющих создать оптимальные алгоритмы их обработки при селекции информационных частотных компонент (в том числе при обнаружении пауз) и формировании выходных сигналов с низким уровнем неинформационных помех.

Методы исследований:

- Методы анализа и синтеза сигналов на основе частотных представлений и использования вариационных принципов;

- Методы статистической теории принятия решения;

- Вычислительный эксперимент. СОДЕРЖАНИЕ РАБОТЫ

Диссертация состоит из Введения, четырех глав, Заключения и Приложений, в которых приведены блок-схемы разработанных алгоритмов и документы, подтверждающие новизну результатов, полученных в работе.

Заключение диссертация на тему "Разработка математических моделей и алгоритмов анализа и синтеза звуковых сигналов в цифровых слуховых аппаратах"

4.4 Основные результаты и выводы главы

1. Экспериментальные исследования разработанных алгоритмов проводились с использованием натурных данных в виде реальных речевых сигналов;

2. Результаты вычислительных экспериментов показали высокую работоспособность предложенных алгоритмов обработки звуковых сигналов в цифровых СА;

3. Исследовательская группа, состоящая из трех человек с нормальным слухом и одного человека с нейро-сенсорной тугоухостью, подтвердила существенно лучшее звучание синтезированных сигналов, полученных па основе применения разработанных алгоритмов, по сравнению с существующими в настоящее время в цифровых СА;

4. Сравнительный анализ предложенных алгоритмов обработки звуковых сигналов в цифровых СА с этапом обучения и без него показал, что в обоих случаях может быть достигну г приемлемый компромисс между вероятностями ошибок первого и второго родов.

ЗАКЛЮЧЕНИЕ

В ходе выполнения диссертационного исследования были получены следующие результаты:

1. Разработана модель синтеза выходных сигналов с малым уровнем мешающих шумов на основе оптимальных аппроксимаций отрезков трансформант Фурье и результатов селекции информационных частотных компонент (либо обнаружения пауз).

2. В рамках моделей генерации звуковых сигналов на основе частотных представлений предложена концепция разделения входных сигналов в СА на информационные, то есть такие, которые несут в себе важную для жизнедеятельности человека информацию (включая признаки опасности для его жизни) и обусловленные различными акустическим помехами неинформационные сигналы (паузы в информационных сигналах). Целесообразность введения этой концепции обусловлена тем, что для достижения высокой комфортности звучания отрезки неинформационных сигналов не должны усиливаться при формировании выходных сигналов СА.

3. Обоснована целесообразность использования при разработке алгоритмов синтеза выходных сигналов СА моделей информационных частотных компонент отрезков звуковых сигналов, суммарная энергия которых составляет подавляющую часть энергии всего отрезка, причём она сосредоточена в малой части частотной оси (высокая частотная концентрация). Учёт этого свойства информационных сигналов позволяет селективно осуществлять усиление только этих компонент, что также повышает комфортность звучания выходных сигналов СА, так как некоторые из частотных компонент неизбежно присутствующих в сигнале помех не усиливаются.

4. Разработан метод вычислений в С А долен энергий входных сигналов в заданных частотных интервалах. Созданы алгоритмические реализации этого метода, эффективность которых с точки зрения допустимых погрешностей и задержек при вычислениях исследована на основе вычислительных экспериментов, результаты которых свидетельствуют о высокой эффективности предлагаемого подхода.

5. С использованием вычислительных экспериментов с натурными данными установлены модели генерации речевых сигналов, на основе частотных представлений, описывающие свойства распределений долей энергий отрезков речевых сигналов, соответствующих отдельным звукам русской речи, т.е. модели соответствующих информационных частотных компонент, позволяющие построить алгоритмы их селекции при синтезе выходных сигналов в СА.

6. На основе моделей распределений энергий информационных частотных компонент на частотной оси и алгоритма вычисления в заданных частотных интервалах долей энергий разработаны модели решающих функций при обнаружении пауз в информационных сигналах с этапом обучения и без пего и их алгоритмические реализации. На основе вычислительных экспериментов получены оценки достоверности принимаемых решений и уровней возникающих искажений звуков при ошибочных решениях, что дало возможность рекомендовать наиболее приемлемые в том числе с точки зрения вычислительных затрат (времени реализации) длительности обрабатываемых отрезков входных сигналов и количество частотных интервалов для их анализа.

7. Разработаны модели субполосного анализа, позволяющие осуществлять оптимальную аппроксимацию отрезков трансформант Фурье входного сигнала в заданных частотных интервалах;

Библиография Белов, Александр Сергеевич, диссертация по теме Математическое моделирование, численные методы и комплексы программ

1. Алдошина, И. Основы психоакустики. Слух и речь. Часть 2 Текст. / И. Алдошина // Информационно-технический журнал «Звукорежиссер». 2002. -№3. - С.54-58.

2. Алдошина, И. Основы психоакустикн. Слух и речь. Часть 3 Текст. / И. Алдошина // Информационно-технический журнал «Звукорежиссер». 2002. - №4. - С.38-44.

3. Алдошина, И. Основы психоакустики. Слух и речь. Часть 4 Текст. / И. Алдошина // Информационно-технический журнал «Звукорежиссер». 2002. - №5. - С.44-50.

4. Алдошина, И. Основы психоакустики. Слух и речь. Часть 1 Текст. / И. Алдошина // Информационно-технический журнал «Звукорежиссер». -2002. -№1. С.38-44.

5. Алдошина, И. Слуховые модели восприятия линейных и нелинейных искажений в музыке и речи. Часть 1 Текст. / И. Алдошина // Информационно-технический журнал «Звукорежиссер». 2006. - №3. - с. 38-44.

6. Бабкина Л.Н., Молчанов А.П. «Способ адаптивной фильтрации речевых сигналов в слуховых аппаратах», патент RU -2047946 от 10.11.95

7. Бабкина J1.H., Молчанов А.П. Особенности отображения частотной структуры сигналовв периферическом отделе слухового анализатора в норме и патологии. Текст./ JI.H. Бабкина. А.П. Молчанов // Вестник оториноларингологии, 2000 N 3, стр. 28-30

8. Бахвалов Н.С. Численные методы Текст./ Н.С. Бахвалов, Н.П. Жидков, Г.М, Кобельников. 3-е изд., перераб. И доп. - М.: БИНОМ. Лаборатория знаний, 2003. -.632 е., ил.

9. Беллами, Дж. Цифровая телефония Текст.: Пер. с англ. / Дж. Беллами. — М.: Радио и связь, 1986. -544 с.

10. Белов, А.С. О фильтрации пауз в речевых данных для реализации в слуховых аппаратах Текст. / Е.Г. Жиляков, А.С. Белов // Вопросы радиоэлектроники. Серия «Электронная вычислительная техника (ЭВТ)». Москва, 2008.-вып.1.-с.123-131.

11. Белов, А. С. Новый алгоритм обработки звуковых сигналов для обнаружения пауз

12. Текст.// Труды учебных заведений связи. СПб, 2007г, №176, с. 163-170

13. Белов, А. С. Исследования алгоритма обнаружения пауз в речевых сообщениях

14. Текст.// Научные ведомости БелГУ, серия «Информатика и прикладная математика»

15. Белгород: Изд-во БелГУ, Вып. 7(38), 2007 г., с. 214-221

16. Белов, А. С. Об одном подходе к обнаружению пауз в речевых сообщениях Текст. / Е.Г. Жиляков, А.С. Белов // Материалы 8 он международной научно-технической конференции УГАТУ «Проблемы техники и технологии телекоммуникаций г. Уфа, 2007 г. с.73-74

17. Белов, А. С. Об оптимальной линейной фильтрации Текст. / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко, А.С. Белов // Материалы 10-ой Международной конференции и выставки «Цифровая обработка сигналов и ее применение» Москва, 2008.-С. 146-148.

18. Белов, А. С. Способ обнаружения пауз в речевых сигналах и устройство его реализующее Гсксг. / Е.Г. Жиляков, С.П. Белов, А.С. Белов, Е.И. Прохоренко -Патент России № 23 17595 от 20 февраля 2008 года

19. Блсйхут, Р. Быстрые алгоритмы цифровой обработки сигналов Текст. / Р. Блейхут; пер. с апгл. И. И. Грушко. М.: Мир, 1989. - 448 е.: ил.

20. Быков. С.Ф. Цифровая телефония Текст. / С.Ф. Быков, В.И. Журавлев, И.А. Шалимов.- М.: Радио и связь, 2003. 144 е.: ил.

21. Лисовский, В.А. «Слуховые приборы и аппараты» Текст./ В.А. Лисовский, В.А. Елисеев, Москва, Радио и Связь, 1991, 191 стр.

22. Введение в цифровую фильтрацию Текст./ Под ред. Р. Вогнера, А. Константинидиса.1. М.: Мир, 1976. —216 с.

23. Верешкин, А.Е. Линейные цифровые фильтры и методы их реализации Текст./ А.Е.

24. Верешкин, В.Я. Катковник— М.: Сов. радио, 1973.

25. Витязев В.В. Цифровая обработка сигналов; ретроспектива и современное состояние//Электросвязь. — 1997. —№6.

26. Витязев В.В. Цифровая частотная селекция сигналов. М.: Радио и связь, 1993. 240 с.

27. Воеводин, В. В. Вычислительные основы линейной алгебры Текст. / В. В. Воеводин. -М.: Наука, 1977.-304 с.

28. Воеводин, В. В. Вычислительные процессы с теплицевыми матрицами Текст. / В. В. Воеводин, Е. Е. Тыртышников. — М.: Наука, 1987. -319 е.: ил.

29. Воеводин, В. В. Матрицы и вычисления Текст. / В.В. Воеводин, Ю. А. Кузнецов. -М.: Наука, 1984.-318 с.

30. Вокодерная телефония. Методы и проблемы Текст. / Под ред. А.А. Пирогова1. М.: Связь, 1974.-246 с.

31. Вологдин, Э. И. Аналоговая и цифровая звукозапись Текст. / Э. И. Вологдин. СПб.: СТ «Факультет ДВО», 2004. - 52 с.

32. Вологдин, Э. И. Слух и восприятие звука Текст.: учеб. пособие / Э. И. Вологдин. — СПб.: СТ «Факультет ДВО». 2004. 52 с.

33. Ворсано, Д. Кодирование речи в цифровой телефонии Текст. / Д. Ворсано // Сети и системы связи. 1996. - №8. - С. 24-27.

34. Галунов, В. И. О моторной теории восприятия звуковых сигналов Текст.: Вопросы бионики / В. И. Галунов, В. В. Люблинская, Л. А. Чистович М.:Наука, 1967. - 286с.

35. Гантмахер, Ф.Р. Теория матриц Текст. / Ф.Р. Гантмахер. — М.: Физматлит, 2004. —560с.

36. Гардишян, Г. Оптимизация обработки данных в реальном масштабе времени для систем VoIP Текст. / Г. Гардишян // Научно-технический журнал Цифровая обработка сигналов. 2005. - № 1 (15) - С. 36-41.

37. Гельфанд, С.А. Слух: Введение в психологическую и физиологическую акустику

38. Текст. / С.А. Гельфанд. М.: Медицина, 1984. - 350 с.

39. Герасимов, А.В. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов Текст. / А.В.Герасимов, О.А. Морозов, В.Р. Фидельман // Радиотехника и Электроника. -2005.-том 50. №10.-С. 1287-1292.

40. Гихман, И. И. Теория случайных процессов Текст. / И. И. Гихман, А.В. Скороход. -М.: Наука, 1971.-644 с.

41. Голд. Б. Цифровая обработка сигналов Текст. : пер. с англ. / Б. Голд, Ч. Рейдер. М.: Сов. радио, 1973. - 376 с.

42. Гольденберг, Л. М. Цифровая обработка сигналов Текст.: справочник / JI. М. Гольденберг, Б. Д. Матюшкин, М. Н. Поляк. М. : Радио и связь, 1985. - 308 с.

43. Гольденберг, JT. М. Цифровая обработка сигналов Текст.: учеб. пособие / JI. М. Гольденберг, Б. Д. Матюшкин, М. Н. Поляк. 2-е изд., перераб. и доп. - М. : Радио и связь, 1990. - 256 с. : ил.

44. Гусинская, Е.И. Оптимизация банка фильтров в задачах субполосного кодирования: тематический обзор Текст. / Е.И. Гусинская, А.А. Зайцев // Научно-технический журнал Цифровая обработка сигналов. 2004. - № 3(12). - С. 18-29.

45. Дженкинс, Г. Спектральный анализ и его приложения Текст.: Пер. с англ. / Г.Дженкинс, Д. Ватте; под ред. В. Ф. Писаренко. — М.: Мир, 1971. 316 с.

46. Дьяконов, В.П. Matlab Текст. / В.П. Дьяконов. СПб.: Питер, 2001. - 553 с.

47. Дьяконов, В.П. MATLAB. Обработка сигналов и изображений. Специальный справочник Текст. / В.Г1. Дьяконов. СПб.: Питер, 2002. - 608 с.

48. Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. Текст. / Е.Г. Жиляков.- Белгород: Изд-во БелГУ, 2007. 160 с.

49. Жиляков, Е.Г. Методы обработки речевых данных в информационно — телекоммуникационных системах на основе частотных представлений Текст./ Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко.- Белгород: Изд-во БелГУ, 2007. 136 с.

50. Жиляков, Е.Г. Вариационные методы частотного анализа звуковых сигналов Текст. /

51. Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Труды учебных заведений связи. СПб, 2006. -№ 174.-С. 163-170.

52. Жиляков, Е.Г. Методы и алгоритмы обработки экспериментальных данных в атомно-абсорбционной спектрометрии Текст. / Е.Г. Жиляков, Н.И. Корсунов, Д.П. Лагода. —1JZ

53. Киев: Наукова думка, 1992. 125 с.

54. Жиляков, Е.Г. О кодировании пауз в речевых сигналах Текст. / Е.Г. Жиляков. С.П.Белов, Е.И. Прохоренко // Материалы Шестой Международной научно-технической конференции «Проблемы техники и технологии телекоммуникаций». — Уфа, 2005.-С. 73-74.

55. Жиляков, Е.Г. О субполосном кодировании сигнала Текст. / Е.Г. Жиляков, И.Г.Попов, И.И. Чижов // Вестник национального технического университета «ХПИ». 2004. — № 46. - С.

56. Жиляков. Е.Г. Статистики максимальной чувствительности в задаче обнаружения изменений параметров процессов авторегрессии Текст. / Е.Г. Жиляков, Э.К.Шпилевский // Заводская лаборатория. 1992. -№7. - С.31-34.

57. Жиляков, Е.Г. Частотный анализ речевых сигналов Текст. / Е.Г. Жиляков, Е.И.Прохоренко // Научные ведомости Белгородского государственного университета. Белгород, 2006. - №2(31), выпуск 3. - С. 201-208. - (Серия: информатика и прикладная математика).

58. Загуменков, А.П. Компьютерная обработка звука Текст. / А.П. Загуменков. М.: ДМК Лайт, 1999. - 382 с.

59. Зюко, А.Г. Методы низкоскоростного .кодирования при цифровой передаче речи Текст. / А.Г. Зюко, B.J1. Банкет, В.Ю. Лехан // Зарубежная радиоэлектроника. 1986. -№11.-С. 53-70.

60. Игнатьев Н.К. Оптимальная дискретизация двумерных сообщений., Изв. Вузов СССР, Радиотехника, 36, 1957.

61. Иконин, С.Ю. Система автоматического распознавания речи SPIRIT ASR Engine Текст. / С.Ю. Иконин. Д.В. Сарана // Научно-технический журнал Цифровая обработка сигналов.-2003.-№ 4 (10).-С. 2-13.

62. Калинцев, Ю.К. Разборчивость речи в цифровых вокодерах. / Ю.К. Калиицев. М.: Радио и связь, 1991. -220 е.: ил.

63. Карманов. В.Г. Математическое программирование Текст. : учеб. пособие. 5-ое изд., стерео гни. - М.: ФИЗМАТЛИТ, 2004. - 264 с.

64. Кендалл, М. Дж. Многомерный статистический анализ и временные ряды Текст.: Пер. с англ. / М. Дж. Кендалл, А. Стыоарт; под ред. А. Н. Колмогорова, Ю. В.Прохорова. — М.: Наука, 1976.-736 с.

65. Кириллов, СЛ. Проектирование банков фильтров на основе теории кратномасштабного анализа Текст. / С.Н. Кириллов, С.В. Зорин // Научно-технический журнал Цифровая обработка сигналов. 2005. - № 4 (16). - С. 9-16.

66. Ковалгин, Ю.А. Цифровое кодирование-звуковых сигналов Текст. / Ю.А. Ковалгин, Э.И. Вологодин. СПб: Корона-принт, 2004. - 240 е.: ил.

67. Кораблин, М.А. Оценка эффективности использования технологий VoIP и VAD в корпоративных IP-сетях Текст. / М.А. Кораблин, А.В. Мороз // Электросвязь. — 2004,-№8.-С. 15-18.

68. Коротаев. Г.А. Анализ и синтез речевого сигнала методом линейного предсказания

69. Текст./ Г.А. Коротаев // Зарубежная радиоэлектроника. 1990. — №3. - С. 31-52.

70. Коротаев, Г.А. Некоторые аспекты линейного предсказания при анализе речевого сигнала Текст. / Г.А. Коротаев // Зарубежная радиоэлектроника. — 1991. — № 7. — С.13-31.

71. Крамер, Г Математические методы статистики Текст. / Под ред. Академика А.Н. Колмогорова М.: Мир, 1975. - 648 с.

72. Куля, В. И. Влияние фазовых соотношений в спектре речи на ее восприятие Текст. / В. И. Куля // Электросвязь. 1970. - № 7. - С. 23-31.

73. Куприянов, М.С. Цифровая обработка сигналов Текст. / М.С. Куприянов, Б.А.Матюпткин. С-Пб.: Питер, 1998. - 416 с.

74. Лабутин, В. К. Модели механизмов слуха Текст. / В. К. Лабутин, А. П. Молчанов. -М.: Энергия, 1973.-200 с.

75. Лайонс, Р. Цифровая обработка сигналов: Второе издание. Пер. с англ. М.: ООО «Бином - Пресс», 2007 г. - 656 с.

76. Ланнэ, А. А. Исследования моего голоса Текст. / А. А. Ланнэ, С.М. Арбузов, А.О. Таланов //-СПб.: СПбГУТ, 2005. 52 с:: ил.

77. Ланнэ, А. А. Передача информации о состоянии фильтра-предсказателя с помощьюспектральных пар Текст. / А. А. Ланнэ, Д. А. Улахович // Радиоэлектроника и связь. —i jt1991. -№ l.-C. 43-47.

78. Ланцош, К. Практические методы прикладного анализа Текст.: справ, рук. / К.Ланцош ; пер. с англ. М. 3. Кайпера. М.: Физматгиз, 1961. - 524 с.

79. Латхи Б.П. Системы передачи информации Текст.: пер. с англ./ под общей редакцией Б.И. Кувшинова,- М.: «Связь», 1971.- 324 с.

80. Линович, А.Ю. Субполосная адаптивная фильтрация в задачах обратного моделирования Текст. / А.Ю. Линович, В.В. Витязев // Научно-технический журнал Цифровая обработка сигналов. 2004. - № 1 (11). - С. 31-38.

81. Маркел, Дж. Линейное предсказание речи Текст.: Пер. с англ. / Дж. Маркел, А.Х.Грэй; под ред. Ю.Н. Прохорова и B.C. Звездина. М.: Связь, 1980. - 308 с.

82. Мартынович, П.В. Специфика детектора речи для системы верификации диктора по голосу Текст. / П.В. Мартынович // Научно-технический журнал Цифровая обработка сигналов. 2004. - № 3 (12). - с. 43-47.

83. Методы сжатия данных: устройство архиваторов, сжатие изображений и видео Текст. /Д. Ватолин, А. Ратуишяк, М. Смирнов, В. Юкпн,- М.: ДИАЛОГ-МИФИ, 2003, 384 с.

84. Мизии И.А., Матвеев А.А. Цифровые фильтры (анализ, синтез, реализация с использованием ЭВМ). М.: Связь, 1979. - 240 с.

85. Минин, С.А. Кодер АДИКМ аппаратуры цифровой спутниковой связи Текст. / С.А.Минин // Электросвязь. 1992. - №11. - С. 32-44.

86. Михайлов, В.Г. Измерение параметров речи Текст. / В.Г.Михайлов, Л.В.Златоустова; под ред. М.А. Сапожкова. М.: Радио и связь, 1987. - 168 е.: ил.

87. Назаров, Х.З. Методы цифровой обработки и передачи речевых сигналов Текст. / Х.З. Назаров, Ю.Н. Прохоров. М.: Связь, 1982. - 236с.

88. Никольский, С. М. Квадратурные формулы Текст. / С. М. Никольский. М.: Наука,1988.-256 е.: ил.

89. Нуссбаумер. Г. Быстрое преобразование Фурье и алгоритмы вычисления сверток Текст. / Г. Нуссбаумер ; ред.: В. М. Амербаев, Т. Э. Кренкель ; пер. с англ.: Ю. Ф. Касимов, И. П. Пчелпнцев. М. : Радио и связь, 1985. - 248 с. : ил., табл., граф.

90. Оберхеттингер, Ф. Преобразование Фурье распределений и их обращения Текст.: табл. / Ф. Оберхеттингер; пер. с англ. М. С. Никулина. М.: Наука, 1979. - 248 с.

91. Оппенгейм, А.В. Цифровая обработка сигналов Текст.: Пер. с англ. / А.В.Оппенгейм, Р.В. Шафер; под ред. С.Я. Шаца. М.: Связь, 1979. - 416 с.

92. Основы цифровой обработки сигналов Текст.: курс лекций : учеб. пособие / А.И.Солонина, Д. А. Улаховпч, С. М. Арбузов и др. СПб. : БХВ-Петербург, 2003. -608 е.: пл.

93. Перцева, JI.B. Качество передачи речи при использовании низкоскоростных кодеков на абонентских линиях Текст. /Л.В. ГГсрцева//Электросвязь. — 1987. -№8. — С. 48-64.

94. Петленко, Б.И. Речевая связь в искусственных атмосферах Текст. / Б.И. Петленко, J1.C. Бутырский; под ред. И.Т. Турбовича. М.: Связь, 1978. - 144 с.

95. Петровский, А.А. Низкоскоростной вокодер с моделью речеобразования «гармоники + шум» Текст. / А.А. Петровский, В.В. Серков // Цифровая обработка сигналов. 2002. -№2. - С.2-12.

96. Попов О.Б., Рихтер С.Г. Цифровая обработка сигналов в трактах звукового вещания

97. Текст./ Учебное пособие для ВУЗов. М.: Горячая линия — Телеком, 2007. — 341 с.

98. Применение цифровой обработки сигналов Текст. / С. Л. Фрини, Дж. Ф. Кайзер, X. С. Макдональд и др. ; пер. с англ. А. М. Рязанцева ; под ред. Э. Оппенгейма. — М. : Мир, 1980.-552 с.

99. ЮО.Применение цифровой обработки сигналов/Под ред. Э. Оппенгейма. — М.: Мир, 1980, —552 с.

100. Прокис, Дж. Цифровая связь Текст. / Дж. Прокис; под ред. Д.Д. Кловского. М.: Радио и связь, 2000. - 800 с.

101. Прохоренко, Е.И. Метод обнаружения пауз в речевых сигналах Текст. / Е.И.Прохоренко // Вестник московской академии рынка труда и информационных технологий. Москва, 2006. -№4(26). - С. 13-20.

102. Прохоренко, Е.И. О пакетной передаче речи Текст. / Е.И. Прохоренко // Вестник национального технического университета «ХПИ». Харьков, 2004. — №46. — С. 5661. - (Сборник научных трудов. Тематический выпуск: Информатика и моделирование).

103. Прохоров, Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов Текст. / Ю.Н. Прохоров. — М.: Радио и связь, 1986. — 316 с.

104. Рабинер, JI. Теория и применение цифровой обработки сигналов Текст. / Л. Рабинер, Г. Голд. М.: Мир, 1988.-512 с.

105. Рабинер, Л.Р. Цифровая обработка речевых сигналов Текст.: Пер. с англ. / Л.Р.Рабинер, Р.В. Шафер; под ред. М. В. Назарова, Ю. Н. Прохорова. М.: Радио и связь 1981.-495 с.

106. Радзишевский,А. Компьютерная обработка звука Текст. / А. Радзишсвский. М.: Нолидж, 2000. - 240 с.

107. Рамишвили, Г. С. Автоматическое распознавание говорящего по голосу Текст. / Г. С.Рамишвили. М.: Радио и связь, 1981, - 224 с.

108. Росляков, А.В. IP-телефония Текст. / А.В. Росляков, М.Ю. Самсонов, И.В. Шибаева. -М.: Эко-Тредз, 2001. 250 с.

109. ПО.Руленкова Л.И., Смирнов О.И. Аудиология и протезирование Текст. / Л.И.

110. Савченко, В.В. Метод переопределенного словаря в задаче распознавания речевых сигналов Текст. / В.В. Савченко, П.Г. Лукин // Радиотехника и Электроника. 2006. — Том 51. -№2. - С. 202-207.

111. Сапожков, М. А. Речевой сигнал в кибернетике и связи Текст. / М. А. Сапожков. — М.: Связьиздат, 1963.-452 с.

112. Сапожков, М.А. Вокодерная связь Текст. / М.А. Сапожков, В.Г. Михайлов. М.: Радио и связь. 1983.-248 с.

113. Себер, Дж. Линейный регрессионный анализ Текст.: Пер. с англ. / Дж. Себер; под ред. М. Б. Малютова. М.: Мир, 1980. - 456 с.

114. Пб.Секунов, Н.Ю. Обработка звука на PC Текст. / Н.Ю. Секунов. СПб.: БХВ-Петербург. 2001. - 1248 с.

115. Сергиенко, А. Б. Цифровая обработка сигналов Текст.: учеб. пособие для студ. вузов / А. Б. Сергиенко. СПб. : Питер, 2002. - 603с.: ил. - (Учебник для вузов).

116. Сжатие данных в системах сбора и передачи информации Текст. / В.И. Орищенко, В.Г. Санников, В.А. Свириденко; под ред. В.А. Свириденко. М.: Радио и связь, 1985.- 184 е., ил.

117. Сиберт, У. Преобразование стимула в периферической слуховой системе Текст. / Вкн.: Распознавание образов: Пер. с англ./ У. Сиберт; под ред. Л. И. Титомира. М.:и /1. Мир, 1970.-236 с.

118. Слуховая система Текст. / Сб. статен под ред. Я.А. Альтман. Л.: Наука, 1990. — 620 с.

119. Смоленцев, Н.К. Основы теории вейвлетов. Вейвлеты в MATLAB Текст. М.:ДМК Пресс, 2005,- 304 с.

120. Смирнов, Д.В. Аудиосистема PC Текст. / Д.В. Смирнов. СПб.: Питер, 1999. - 384с.

121. Сорокин. В. Н. О роли подглоточной области в процессе речеобразования Текст. / В кн.: Проблемы построения систем понимания речи. / В. Н. Сорокин. М.: Наука, 1980.-354 с.

122. Сорокин, В. Н. Потери в речевом тракте Текст. / В. Н. Сорокин // Акустический журнал. 1977. - Т. 23. - № 6. - С. 939-946.

123. Спектральные методы сокращения избыточности высококачественных звуковых сигналов Текст. / В. М. Колесников, М. У. Банк. А. М. Синильников, В. А. Сучплин // Радио и телевидение ОИРТ. 1989. - № 1. - С. 36-39. - № 2. - С. 35-39'.

124. Таблицы математической статистики Текст. / Л.Н. Болыпев, Н.В. Смирнов: — М.: Наука. Главная редакция физико-математической литературы, 1983. — 416с.

125. Титчмарш, Е. Введение в теорию интеграла Фурье Текст. / Е. Тптчмарш ; пер. с англ. Д. А. Райкова. М.: ОГИЗ Гостехиздат, 1948. - 479 с.

126. Фант, Г. Акустическая теория речеобразования Текст. / Г. Фант. — М.: Наука, 1964. -283 с.

127. Физиология речи. Восприятие речи человеком Текст. / Л. А. Чистович и др.— М.: Наука, 1976-386 с.

128. Фланаган, Дж. Анализ, сиитез и восприятие речи Текст.: Пер. с англ. / Дж.Фланаган; под ред. А. А. Пирогова. М.: Связь, 1968. - 396 с.

129. Функции с двойной ортогональностью в радиотехнике и оптике Текст. США. 19611968 гг./ Перевод и научная обработка М.К. Размахппна и В.П. Яковлева. — М.: Советское радио, 1971. 256 с.

130. Хорн, Р. Матричный анализ Текст. / Р. Хорн, Ч. Джонсон. М.: Мир, 1989. - 395 с.

131. Хургин, Я. И. Финитные функции в физике и технике Текст. / Я. И. Хургин, В. П. Яковлев. М.: Наука, 1971. - 408 е.: ил.

132. Цвикер, Э. Ухо как приемник информации Текст.: Пер. с нем./ Э. Цвикер, Р. Фельдкеллер; под ред. Б. Г. Белкина. М.: Связь, 1971. - 256 с.

133. Цифровые фильтры и их применение/В. Каппелини, А.Дж. Константинидис, П. Эмилини. — М.: Энергоатомиздат, 1983. — 360 с.

134. Шелухин, О.И. Цифровая обработка и передача речи Текст. / О.И. Шелухин,13»

135. Н.Ф.Лукьянцев; под ред. О.И. Шелухина. М.: Радио и связь, 2000. - 456с.: ил.

136. Шульгин, В.И. Основы теории передачи информации Текст.: Учебное пособие / В.И. Шульгин. Харьков: Нац. аэро-косм. ун-т. «Харыс. авиац. ин-т», 2003. - 102 с.

137. Ярославский Л.П. Введение в цифровую обработку изображений. — М.; Сов. радио, 1979.

138. Alessandro, С. Effectiveness of a periodic and aperiodic decomposition method for analysis of voice sources / C. Alessandro, V. Darsinos, B. Yegnanarayana // IEEE Transactions on Speech and Audio Processing. 1998. - vol.6 - № 1. - P. 12-23.

139. Alrera Devices. 15.06.2004. http://wwvv.altera.com/producLs/dcvices/dev-index.jsp.

140. Atol, B.S. High quality speech at very low bit rates: multipulse and stochastically excited linear predictive coders Text. / B.S. Atol // Proc. of the Int. Conf. on ASSP, 1986. -P.1065-1069.

141. DARPA TIM1T Acoustic-Phonetic Continuous Speech Corpus, Department of Commerce, NIST. Springfield, Virginia, 1990.

142. Fant G.C.M., Acoustic Theory of Speech Production, Mouton and Co., The Hague, The Netherlands, I960.

143. Flanagan J. L., Speech Analysis Synthesis and Perception, 2nd ed., Springer-Verlag, New York, 1972.

144. Gray, A.H. Distance measures for speech processing. / A.H. Gray, J.D. Markel // IEEE Trans, on Acoustics, Specch and Signal Processing. — 1976. vol.24. - № 5. - P. 380-391.

145. Jackson, P.J.B. Pitch-scaled estimation of'simultaneous voiced and turbulence-noise components in speech. / P.J.B. Jackson, C.TI. Shadle // IEEE Transactions on Speech and Audio Processing.-2001.-vol.9.-№ 7.-P. 713-726.

146. Jayant, N. Digital Coding of Waveforms: Principles and Applications to Speech and Video. / N. Jayant, P. Noll. New Jersey, 1984. - 320 p.

147. Kim. S.-J. Split vector quantization of LSF parameters with minimum of dLSF constraint / S.-J. Kim, Y.-H. Oh, // IEEE Signal Proc. Letters. 1999. - vol. 6. -№ 9. - P. 227-229.

148. Mitsubishi Electric Corporation. The characteristics of the turbulences appeared in objective test and voice signal transmission of Rec. G.726, COTT contrib. D. 301/XV, 1991. 39 p.

149. MusicProfiRu Основы психоакустики.htm

150. National P/N TP11368 Octal Adaptive Differentia. PCM Processor. - 12.08.2003. http://ww.mtioml.com/pf/TP/TPl 1368.html

151. Stylianou, Y. Applying the harmonic plus noise model in concatenative speech synthesis. / Y. Stylianou // IEEE Trans, on Speech and Audio Proc. 2001. - vol. 9. - №1. - P. 21 -29.

152. Xilinx Home: Products and Services: Spartan-11 fPGAs. 11.06.2004. http://www.xilirLx.com/xlnx/xil prodcat landingpage.jsp?title=Spartan-l 1.

153. Q. v. Bekesy, Phys. Z. 30, 115, 1929.

154. G. v. Bekesy. Ann. d. Phvs. 5, 13, 111, 1932; A. Rejto, Verh. mdl. d. deutsch. otolog. Ges. 29 Versaml., стр. 265, 1014; H. Herzog, Z. Hals -usw. Heilkunde 27, 402, 1930.