автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Разработка метода автоматической фонетической сегментации и маркировки речевого сигнала

кандидата технических наук
Зеленый, Алексей Иванович
город
Москва
год
1992
специальность ВАК РФ
05.13.11
Автореферат по информатике, вычислительной технике и управлению на тему «Разработка метода автоматической фонетической сегментации и маркировки речевого сигнала»

Автореферат диссертации по теме "Разработка метода автоматической фонетической сегментации и маркировки речевого сигнала"

РОССИЙСКАЯ АКАДЕМИЯ НАУК

Вычислительный центр

На правах рукописи

ЗЕЛЕНЫЙ Алексей Иванович

Разработка метода автоматической фонетической сегментации и маркировки речевого сигнала

(специальность 05.13.11—математическое и программное обеспечение вычислительных машин, комплексов, систем и сетей)

Автореферат

диссертации на соискание ученой степени кандидата технических наук

Москва—1992

Работа выполнена в Вычислительном центре Российской

Академии наук.

Научные руководители:

кандидат технических наук М. В. Кулагин,

кандидат технических наук И. М. Полковский,

Официальные оппоненты:

доктор технических наук, профессор А. А. Пирогов, кандидат технических наук С. И. Кринов.

Ведущая организация: Институт кибернетики Украинской Академии наук.

Защита диссертации состоится " ,1992 г.

ГА

в часов на заседании специализированного совета

К 002.32.01 при Вычислительном центре Российской Академии наук.

Адрес совета: 117967, ГСП1, Москва, ул. Вавилова, дом 40. С. диссертацией можно ознакомиться в библиотеке института.

Автореферат

1992 г.

Ученый секретарь специализированного Совета кандидат физико-математических наук

К. В. РУДАК

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Проблема распознавания речи приобретает се большее значение в различных областях науки и техники. Это бусловлено тем, что устройства распознавания речи способствуют существлейию-вз-гГимодейст-вия человека с ЭШ в наиболее естеетвен-ой для него речевой фотаге. Кроме того, применение этих устройств-озволяет создать аппаратуру телефонной связи» обладйщую более носкими техшко-экокомическимк показателями, чем ьщускаемая в асгояшее время.

Вместе с тем, существует ряд нерешенных вопросов, связанных разработкой формализованного подхода к выбору конкретных моделей емейетв алгоритмов распознавания- и классификации, а также с еыяс-ением рЬяи априорной информации в распознавании речи и порядком е использования* Не в полной мере изучены задачи обучения и самобучения систем распознавания речи. Все это определяет актуаль-ость темы диссертационной, работы.

Целью диссертационной работы является теоретическое и эксне-«ментальное обоснование и разработка методов автоматической фоне-ической сёгйентации и маркировки речевого сигнала.

Msto-д исследования опирается на использование основных--поло-ений теории информации, алгебраического подхода к решению задач ©опознавания или классификации образов, метода интерпретации-(аксиоматического метода), теории чисел, акустической теории ренеоб-азования^ психофизики и некоторых положений теории .разборчивости. Научная новизна работы заключается в следующем; Епервые для описания процессов сегментации и маркировки рече-■ых сигналов применен математический аппарат алгоритмической теории информации; . "

на основе алгебраического подхода к решению задач распознава-:ия или классификации образов с использованием-основных понятий еории информации, осуществлен выбор конкретных моделей семейств лгоригмов распознавания и классификации единиц речи;

выявлена обобщенная зависимость восприятия человеком гром-:оСти и высоты акустических сигналов от их уровня и частоты;

разработан ыетод автоматической фонетической сегментации к иркйровки речевого сигнала, основанный на сочетании дйтерминиро-¡анного и вероятностного, подходов к анализу процесса речевой коммуникации и учете выявленной обобщенной зависимости.

Практическая ценность .работе -заключается с создании научной

о слова .идя решения уацачл повышения точности автомагмческсй йоне-тическок сегментация и маркировки речевого сигнала, программной ре-пллзсдки алгоритмов и разработки на этой основе модсаи фонемного (сегментного) вокодера. Оценена технико-экономическая аффектлв ноеть формального, полосного и фонами ovo (сегментного) вокодеров,

Р^ал'/лааяя результатов работы. Диссертационная работа выполнялась по планет научно-исследовательских работ сектора автоматического распознавания и цифровой обработки речевого сигнала ВЦ АН СССР, а такай в/ч 25871.

Результаты работы Енедрены в НИР "Логика МО", "Логика MQ-I", "РучеЙ~1б" й используются в в/ч II520 и Пензенском научно-ксследо гательском электротехническом институте при разработке фонемного вокодера.

Публикации. Основное содержание диссертационной работы осе8-"иено в восьми научно-технических статьях и в описании изобретения

Аггозбаш-ш работы. Результаты работы докладывались на Все союз ных школах-семинарах по автоматическому распознаванию слуховых об разов (в ИГЛ, г. Каунас, 1986 г., в ЙК АН ?ССР, г. Таллинн,1989 г на Всесоюзной конференции "Диалог-87" (в ИВМ АН ГрССР, г.Тбилиси, 1987 г.), на Всесоюзном совещании по проблеме "Автоматическое рас познавание и синтез речи (б Ж АН УССР, г. Киев, 1988 г.), на постоянно действующих семинарах "Опыт создания локальных сетей ЗВ;>!' и "Системные средства САПР" (в ВДНТП им. §.Э. Дзержинского, г. Мс сква, 1988, 1989 г.г.), на семинарах, сектора автоматического распознавания и цифровой обработки резвого сигнала ВЦ АН СССР, на сеиинаре ШЯ им, Мориса Тереза и МГЛУ (г. Москва, 1989, 1991 г.г

Содержание работы» Диссертационная работа состоит из введет пяти глав, заключения, приложения и содержит 150 страниц основж го текста, 34 рисунка., а также 25 таблиц. В списке литературы 154 наименования.

СОДЕРЖАНИЕ РАБОТЫ

Введение содержит анализ публикаций по основным методам обрг ботки, сегментации и маркировки речевого сигнала, а также сбосно! ние актуальности выбранной темы. Очерчен круг вопросов, подлежал:; исследованию.

Первая глаза посвшена теоретическим исследованиям, раскрывающим сущность процесса речевой коммуникации между людьми.

Известно, что для определения понятия "количество инфорыаци! используются три подхода: комбинаторный, вероятностный и алгорит; ческий. Применение первых двух обычно связана с рядом трудностей

принципиального характера, так как они не б полной мере учитывав? информационные свойства человека как приемника информации. Более широкие возможности открываются, если воспользоваться понятиями алгоритмической теории информации, а именно - понятиями энтропии или сложности конечного объекта, предложенными А»Н.Колмогоровым. £ рамках данной теории относительную сложность конечного объекта Т, при заданном обгекте ^ предложено измерять длиной семой короткой последовательности р (программы для х ), состоящей из 0 и I, по которой, используя у. , можно восстановить х

Кс ({¿(р) | в (р.у) = х}> (I)

где ¿(р) - дайна последовательности р ; В- функция, для которой-имеется вычисляющий. ее значения алгоритм, А.Н.Колмогоровым также доказано, что в силу существования универсальной функции, имеет место такая частично рекурсивная функция Вс- (р,у) , которая по отно:пенип ;< любой другой частично рекурсивной функции В - (Р>1/) характеризуемся неравенством

где С ~ константа, не запясязая от ос и у- .

Рассмотрение процесса измерения разборчивости речи в раджах алгоритмической тесгии информации позволяет однозначно определить свойства источника (диктора) и приемников (аудиторов) сообщения [1,2]. В качестве основного побуждающего к действию фактора следует считать наличие у диктора слоговой таблицы, являющейся программой для Формирования артикуляторных движений, вырабатывающих заданную последовательность речевых единиц. П'обуквешая запись слогов в таблице дает возможность представить ее в виде конечной последовательности двоичных кодов букв и трактовать.как исходную программу конечной дайны.

Колебания тонкой временной структуры речевого сигнала также могут бкть представлены в виде конечной двоичной последовательности в силу применимости е-данном случае теоремы В.А.Котельникова. Для аудиторов исходной программой является речь диктора, которую они распознают и фиксируют в виде букв на стандартном бланке. Если в артикуляционных измерениях участвует И человек, каждый из которых передает и притвлает слоговые таблицы, то данный процесс можно записать е еидр совокупности формул

((а#А (4(4>.Х)?А. (3)

где 2 _ двоичные последоЕатель-ности кодов букв е слоговых: таблвдах у - двоичные-последоватеяьнести кодов.значений дискретных оточатов речевого сигнала; ух) 15 ~ частично ре-

курсивные (функции, для которых имеются вычислявшие их значения программы ; „х еМ , , -функции

из М. ъ-М. ; М - множество двоичных последовательностей .различной дайны.

При отсутствии-акустических шумов в помещении аудитор практически точно распознает все слоги как произнесенные им самим, так у, другими дикторами. Обозначая слоги, произнесенные другими дикторами через , те же слоги, произнесенные самим оператором, - через Ну и через -процесс правильного распознавания слогов мокно записать следующее утверждение:

у У3/з, Зу ШуА %Д (4)

Аналогичное утверждение можно получить и для случая чтения дикторе стоговой таблицы. Обозначая слоги, записанные буквами, через, Рх. слоги, записанные иными лингвистическими символами, через Нх и через б^х - процесс правильного распознавания будем-иметь

^с (Рк^НхУ (РМ^х)-* 3* (Н*Л ЩосУ). (5)

Известно, что утверждения (4) и (5) истинны. Следовательно, посредством программ и Д. человек осуществляет-классификацию образов, еычислкя значения частично рекурсивных - функций и . Значит, истинно утверждение А ^¡(/З^ХЩ^.'!/))

входяиеё в состав утверждений (3). Поэтбцу, каковы бы ни были зна чвния двуместной предикатной переменной А и двуместных функци ональных-переменных и , из того, что для

некоторого X формула А Я/,у)) истинна при любом

у , следует, что найдется Ж& М , для которого >£))

истинна. Известно, что формула

об'.дэзкачима и при » = $ принимает вид

Зя^А СЩ , V п^, А Ш, ># (7)

формул (6) и (7) вытекает, что человек осуществляет классификацию образов, ставя в соответствие,одним и тем же слогам одинаковые номера £ . Кроме того, в силу истинности формуя (3) и (7), процесс речевой коьвдгаикации между- людьми является детерминированным. В то же время сам.речевой сигнал характеризуется наличием значительного количества'случайных компонентов. Поэтому необходимо оценить возможность применения алгоритмической теории информации и для анализа речевог-о.сигнала.-

Йзввстйо, что речевой ^гнаг представляет собой свертку сигнала возбувдекия'и передаточной характеристики речевого-тракта. Следовательно, колмогоровскую слоимость речевого сигнала правомерно сопоставить с трудоемкостью осуществления операции развертки - опэ-рации обратной обертке. Используя аксиоматический метод,, осуществим интерпретацию математической модели дискретной свертки в рамках арифметики действительных периодических либо апериодических чисел, записанных в позиционной системе счисления. В результате этого представление свертки как видоизмененного пройезкуточного результата перемножения двух чисел по методам "татстха" либо йурье позволяет интерпретировать набор сверточньк фмм кан совокупность линейных уравнений. Для-стационарных участков огласовакнкх звуков речи развертка возможна, так как еверточкыз су?аы представляют собой систему неоднородных линейных уравнений с коэффициентами-, величины которых тождественно равны.значениям в разрядах сомножителя на интер- • вале периода/переходных участков мезэдг звуками и для стационар-кых участков йумовнх звуков сверточные суммы образует совокупность диофантоБЫХ уравнений-, методы решения которых отсутствуют. Это объ-ясняетоя тем, -чт-'о оба ссыиожителя адериодичны. В связи с этим для переходных участков между оглаеованными звуками и для шумовых звуков по наблюдаемым во временных интервалах отрезкам не представляется возможным выявить формирующие их "программы". Кроме того, фрагменты гласных и некоторых кумовых звуков могут характеризоваться начальными отрезками. ■ Аналогичными отрезками характеризуется бер-цуллневские последовательности, в которых отдельные элементы "независимы" и появляются с некоторой вероятностью. Согласно А.Н. Колмогорову," у считается ^г-бернуллиевской последовательностью, если существует такое пь , при котором Есе у^ являются начальными участками конечных т.-бернуллиегских последовательностей". При этом условная энтропия может быть определена из неравенства

- ь -

"'.Чкке последовательности по {¿артш-Лё^У имею? отрезки, сложность которых почтя максимальна. Следовательно, в раусах понятий алгоритмической теории информации отрезки ззуков иокно характеризовать ksj тслучайные" процессы, Tai: как же сложность стремится к бесконечности или мало отличается от логарфгг, вэрокткост-и коявкэняя отдельных отрезков звуков (звукот-нпов). Условьс-к энтропия отрезков кумовых звуков и переходных учаеисоэ- кзззду огяасовангеыи звуками монет 'ыть определена из неравенства

где <г. ~ колпчзство значимых ыфааетров на интервале длительности звукотипа. Если энтропия близка к данной верхней границе, то это свидетельствует об отсутствии более экономного способа задания ^ , чем указание значений С , fi и номера п. последовательности^ -описания звукотипа среди всех значений й'f •

Под компактность» речевых образов» как правило, понкшст изоморфное отображение'

Y fe) (Ю)

{травящее кьадому подмножеству рэ&иязкда с^кеглчзсгао: единиц из ъ соответствие только одну лингвистамскуо единицу из кноаества^С . Объединяя б оды-: jüigcc вез фонетические единицы из множества. , Лингвистические единицы которых и мно;-пествз ^ совпадают, получим " разбиение ^ на кепэрзсеказооиася классы . При ото;.;

каждое подмнокество характеризуется соэтветствуэдш ему образом к является классом зквизыентьостй. Етагодаря зтом\ иожно использовать понятия логики высказываний, согласно которым Коязю утверждать, что элемент

обладает свойством А , причек с какдам предикатом (свойством) езязывазтея класс элементов йз рассматриваемой области, обяадаксж этш свойством. Известно, vro лингвистические едишщы не ике»г дарткзе закономерностей, кроме «зрояткостных. Кх основным свойством яЕДяется частость появления ^ i ксшсрвтhoü языке. Использование данного свойства дал единиц мзнь-ис че;»; слог связано с трудностями пр-лкцкпиаяько^о характера. Обусловлено это тек, что в разговорной речи звукотипа иногда пропадает либо подвергается искажениям к их коррекция ¿юзмоша только с йсиощыэ.боязе крусных отрэзкоз речи. Поэтому для распознавания ре-правомерно выбрать слог в качзсгБз шшшалдыой едкж££т{ которая ЗДее? одно н vo та свойство £ на ликгбнстичэсхом и фонетической уровнях. 3 раде практических ситуаций полезно заменить<j кгили/.--. 3 заключение сдат-и», "«о изложенное шгав не противоречит из-

вести «."у утгеркдению А.п.Колмогорове о нал/, т/и кеэд* алгоритмически и з^рортностным опреселелиями количества информация связи, еы-ракаёй?:^ зависимость,-:)

« Я + (И)

где ~ % у¡4 - последовательность фонетических

единиц в »»еледо ватол ь но ст я слов длиной , состоящей из ^ фонетических единиц длины 'С ; О. - частость вховдёкя^ } -ей лингвистической единицы и соответствующей ей фонетической единины длины z

в последовательности ; I »1,2,3.....т\ =1,2,,.., д* ;

при ¿'•»о« . Зависимость (II) всегда выполняется и под-твергсдазт слраъе,идивость гипотезы о компактности речевых образов.

Вторая глав,?, етзевязена разработке алгоритма автоматической фонетической е&гиектацта ч маркировки речевого сигнала.

В силу универсальности предложенного Ю.И.Журавлевым алгебраического подхода к решению задач распознавания или классификации образов в кем содержатся емкие по смыслу положения, которые позволяет осуществить целенаправленный выбор л формирование экстремальных алгоритмов автоматической фоьетическоЯ сегментации и маркировки слитной речи. При этом необходимо использовать знания как об информационной сущности процесса речевой коммуникации, так и о характере восприятия и формирования речевого сигнала людьми. В силу дискретности слухового восприятия и частичной схожести голосов, а такае речзебрагуадих ТрактоЕ людей множество описаний слогов на фонетическом уровне (.и-ъ]} не может быть бесконечным и должно включать не более, чем йэдмно.*еств описаний. При этом каждое -ое

подмножество содержит т различных по входящим в них признаков (фор;.! проявления) /, но одинаковых по смысловому содержанию слогов. Такое множество мокко представить в виде матр;зды Распознающий алгоритм посредством ряда операций сравнивает описание слогов с описанием распознаваемого слога Щ . Дяя этого используется числовая оценка близости слога к классу , которая также является элементом матрицы !| ("$011 . Применив к элементам этой матрицы пороговое рекгэдзе правило, получим информационную матрицу > элементы которой и указывают, какое решение вычислил распознаний алгоритм дяя свойства А///"??), и у, п1 • Можно построить такзке матрицу ойисания слогов на лингвистическом уровне 11 ««и. и матрицу встречаемости слогов в текстах реального языка II, В силу выполнения гипотезы компактности речевых образов на уровне слогов (см,первую главу) понятие класса мскно отождествить с поня-

- о -

тием частости появления слога. Поэтоь^у осуществляя соответствушее перемножение матрйц, получим выражения, которые представляет собой распознающие операторы

4OUji, Jjc^d) и?»*-¡¡Jja^);¡rr:,-(12)

, = Uji!í ^ ■íí fjG^dl^= . (13)

Объединив 6t и в2- получим более сложный оператор, включающий в себя описания слогов на акустико-фонетическом и лингвистическом уровнях. Полагая, что результат выполнения оператора &., ест^ новое описание слогов, можно, применив к нему оценки близости &(^У) и соответствующее пороговое- рашащеа правило, сформировать другую ' информационную матрицу ¡Ц? Ц х » где • Умно-

жив ifi¿j;(l}.x„ на Sí будем иметь

С помелья оператора монно создавать системы распознавания речи с самообучением. Однако "учитель" первоначально должен обучить систему хотя бы на одного диктора. Другим достоинством оператора В2 является наглядное подтверждение гипотезы о компактноста слогов как образов речевого сигнала. Однако ёд еще не представляет всего алгоритма -распознавания речи, так как не отражает процессов обработки речевого сигнала.

Выделение наиболее информативных векторов признаков из речево-'го сигнала мщз? быть осуществлено с использованием фонетической функции реч;^, предложенной АД. Пироговым. Действительно, разность логарифмов интеноивноетей спектральных срезов является тем параметром, на основе которого может приминаться решение об одинаковое?] либо различии сравниваемых фрагментов речевого сигнала. С помощью данного параметра речевой сигнал может расчленяться на элементарные отрезки различной .длительности, содержание внутри которых считается одинаковым. Мерой различия в этом случае служит пороговая величина Ж-cí,, определяемая экспериментально. При этом вид сегментирующей функции (информационного вектора) определяется выражением ¿ ' ^ 9 (r5>

~ í^. С - во всех остальных случаях. Здесь <p(cj ~ фонетическая функция речи; (¿J и ¿й? (t-2r) _ спектральные интенсивности речевого сигнала на частотах «J* , отстоящие друг о г друга на интервал времени . . Изменяя в (15) зна-

¡те , можно осуществить сегментация речевого сигнала на зву-зтипы и более мелкие отрезки. При этом исключается влияние теша эчи, так как расстояние между началом и концом таких отрезков и ■ зукотипов определяется только существенными изменениями состояний 5чеобразующего тракта на величину порога либо & . Другой

зложитёльной особенностью является наличие изменений зна-

1 разностей логарифмов огибавдих спектров, которые на нестационар-лс участках речевого сигнала близки к местам расположения фор>зант антиформант (максимумам и минимумам огибающих спектров). Это свой-!"во либо ее аналогов может быть использовано при первич-

>й ббработке речевого сигнала для формирования номеров П. либо »кторов , характеризующих описания как звукотшов, тате и от-

;зков речи внутри юя. Наконец, изменив в (15) знак неравенства I противоположный, можно осуществить предложенную М.А.Сапожковым ¡гментацию речевого сигнала на "слоги".

Известны результаты исследований свидетельствуйте о наличии )ух наиболее выраженных значений постоянной времени слуха. При :ализе звуков ее значение составляет 20»..30 мс, а при анализе сло-!В - 200...300 мс. Постоянная времени слуха представляет собой вещую функций, матричная запись которой монет иметь вид 1| , $ ~ ПР0С'ГЬ'1Э числа. _

Пусть известно множество эталонных векторов {_Ч. Тогда :я сравнения текущих с эталонными воспользуемся критерием .

: близости

к

1 ' ) (16)

СО - во всех остальных случаях, _

,е - частичные описания ¿-го эталонного вектора ;

- частичные описания I -го распознаваемого вектора ;

^ £ - значение величины поро_га, выше которого срав-

ваемые векторы считаются разными. Если = 0 , то геяторы

итаются разными. Если £ (У,~.( , то Еекторы заменяются на

в соответствии с выражением

Ж; = (I?)

е маркер либо его часть. Далее последовательность

кторов -/?СУ2-,1%?) взвешивается с помощью-функции временно-

окна, эквивалентного постоянной времени слуха. При этом будем еть матрицу £ » сумма, элементов которой уникальна.

силу простоты "" ""

Здись У/к. - описание более крупной по сравнению с VI единицы ■дет. В-двоичной форме аагмси может рассматриваться как ректор , элементы которого принадлежат иночеству {-,<3} . Если описание звуке; ппа (сегмента звука), то тД/к - I_ спл_ оание слога. Если да последовательность векторов , ,...,

,... .таллется ояксаниями-фрагментов ззукотшов, то над н;аш предварительно осуществляется операции аналогичное 116),(I?) и (16) с тойли;иь разницей, что всем промежуточным списаниям большим чем фрагмент, но менысим чем звукотип, временно присваиваются одинаковые маркеры на интервале зцукотилд, по ¡ссгорзйд окончательно осуществляв? маркировку зеукотипа.

В третьей главе основноз внимание уделяется зкепе.ржэнгадькь: и теоретическим исследованиям по изысканию информативных парзлетр речэвого сигнала. Методики постановки и проведения экслер.-гвнт^.ь-ных исследований были заимствованы у Э.Цзикера и Ф.Итакуры.

Анализ известных и вноэь полученных результатов эксперимента!! ных исследований показал,, что значения приростов уровней звукового давления р или'частоты / стимулов могут быть описаны схемой суммирования - 9Гл + , где *€г и ¿£.,1 - эн^че няя величин сравниваемых стимулов, а А(¿£4) ~ значение величины прироста. При Л (%„£.)"будем иметь

Применяя к (19) центральную предельную теорему, получим распредели ние Кептейна, плотность вероятности которого описывается выраяени;

где - монотонная дифференцируемая функция •

При № ^ • тогда </Г.

Подставляя полученное значение в (20), окончательно будем иметь

* у I О , Г<0.

Выражение (21) описывает плотность вероятности логарифмически нор мального закона распределения. Прологарифмировав левую и правую г ти (19), получим ^^А-^^А • ^ теоремы

Крамера следует, что если подчиняется логарифмически нормальнс закону распределена, то их логарифмы подчиняется нормальному заг

™11; v

*55Г» а значит и взлкздша ^(cij;]^ токе распределена по нормаль-

закону. Следовательно, случайная величина { )4 тзет ло-глр/личзсхи коркая&яоз распределение. Из изложенного вэтэкаэт.что громкость к высоту акуггичзсхпз; воздействий пояно рассчитать по Sophie ,,

(22)

'дз У - Ее.:::ппгка стжо'л^иого гоздейсгзия; £ -м?.сатаинкЛ по

t ~ (¿rt5"-m)f'd ; .пг.,©" -параметр:: исходного расгтрзделеккл.

1 1.3,4} попасено» что зааисдаюзть (22) обладает болез высокой • 'очностьй, чем заг-:огтх. Вз^ера-Зггднера* Стнзгнеа и Забродина. Ее ас-, :ользозгт;ие позволяет болзэ ?оч1-;о определить как критические поло-ал слуха и критические полоски речи, 'iuii к пат квантования по уров-зз составл.-сгля: рзчезого сигнала з дакжег полссза:г. Вез это поззо-яет создать спзктрально-полоскый ак&сизатор рзп с хараэтзрйстгсса.-л блнз'п:;л;! к оптимальна:!.

До наето;;:;е?о врешнд е-татояк, что сэгг.з-дт£цки слитной речи 05'дтщп образом ;«сзко ссуц&с-гвкть, пргдгэкяз ¿:-/.'од Мапшла-Итакура

а¡и лр, ¿ммса«) * 5 ^ {23/

> ' (.0 - ко всех остальных случая,;, re d(£/S) - илзеольксг зясчзкио окаЗкл прогноза-для ¿-го фраг-зктп E54-W,: d(iprz/~ з^дкиз зз!я?;;к прогноза-при использовании эзффиплзятог /-го фрагмента з п, -о:.: фрагменте;

2 -• величина города. Однако лрезз^к^,-» в даклс\. работе сравнительна oxcnepib'us.v.'siibit.- г иссяздозгик? указывал? на зозиозкость пргаззне-1Я для этой дали дг-лвч'лкйской (15) либо езклидеза расстоя-!я не:.ту отхжиы&г» всгяаязеаис й!1льтроз прэдегазатэ-

Йсз указакчгге • зтодз- дел» о.и:.Яо1:ово. высокие результаты, но про-шад!су:кся nepsjo два из глее. Поэтов/ целесообразность использо-«кия лзбогз -,;з нугх определяется вреддв всего архитектурой разраба-ш^сиого ycrpc.istaa и количеством зычнеяктедьккх операций. Резуль-tTd зкспер.с.:с-ьталзг^гс исследований приведены в табл.1.

Таблица I

Мера

г^лла-Птглу?" з^трл

пульензго оу.слй!:а ¿йл/.тра

ilooor Бесоягкость Ошибки

сегментации ошибки различия д

0,4 0,14 0,05

0,56 0,15 0,08

0.Д35 0,15 0,05

о.м 0Д5 0,1

Б табл. I Дот- максимальный прирост вероятности ощибки различения звуков пр-д изменении порога на +10% от -оптимального.

В четвертой главе рассматриваются вопросы, связанные с раэра-боткой алгоритмов сегментации и маркировки слитной речи и,их эксп риментальной проверкой.

Для разделения огласованных.и щумовых звуков в [5] предложен алгоритм, использующий два признака: число переходов..речевого сиг нала через ноль на интервале 25 мс и относительную глубину миниму ма сдвиговой функции на интервале от 2 до 17. мс. Значения пар&мет ров каждого из этих признаков в разной мере, подвержены искажениям при изменениях наклона частотных характеристик электроакустически трактов и-речевого сигнала.

В предложенном алгоритме правила и используемое параметры ос таится неизменными. Амплитудно-частотной коррекции подвергается только анализируемый речевой сигнал. Предварительное решение об î ласованностн принимается с помощью сдвиговой функции (СФ). Для ai го выбираются фрагменты речи с явно выраженной периодичностью. Зг тем на интервале трех смежг-ьк кадров речи подсчктывается среднее число переходов сигнала через ноль No в кадре. Если выхода за установленные пределы, то через 1,25'с осуществляется изменен] наклона частотной характеристики корректирующего фильтра. Ре.чево; сигнал на интервале анализа считается огласованным, если его зфф тивноа значение превышает порог и выполняется одно из четырех пр вил:

1. Глубина каждого из двух относительных- минимумов СФ больш 6 дБ, а Л£< ?0.

2. Наиболее глубокий из двух относительных минимумов СФ бол ше 9 и меньше 15 a No < 100. '

3. Глубина любого относительного минимума СФ больше 15 дБ.

4. Ло< 30.

Разработанный алгоритм разделения огласованных и-щумовых эе ков превосходит известные ранее. Экспериментальная проверка пока ла, чгго его погрешность составляет 1,32$.

Для выбора порога сегментации слитной речи на звукотипы бш воспроизведен алгоритм, реализующий метод Магилда-Итакуры. Экспе ментально оценивались содержание и длительности огласованных и с вых сегментов. Полученные данные свидетельствуют о том, что длит ности сегментов находятся в диапазоне длительностей звуков речи. Экспертное прослушивание речи с исключенными отдельными сегмент; показало, что при значении порога равном 0,4 часть сегментов мо5

содержать два звука. Поэтому более приемлемом оледуе-Т-считать значение порога^, равное 0,55.

Экспериментальная проверка совокупности- разработанных алгоритмов сегментации и маркировки фонетических эяёментов слитной ре*да осуществлялась с помощью программно реализованной -на ЭВМ типа 2СЮ45 математической модели фонемного (сегментного), вокодера.

Описания, об разов -звукотшов представпены группами параметров, которые формируются в результате обработки сегментов речевых сигналов методами линейного предиктивного иодирования (ЛПК) и спектрально слоеного анализа. К числу таких - описаний' относятся! группы койф*-£ишентов ЛПК для эталонных и анализируемых-, зву-

:сотипов, а также кх векторов Ч;, и соответственно: 24-мерный двоичный вектор V/ , единичные.элементы которого сигнализируют о гом, что в фильтрах с номерами / ,/ и/£ расположены формангные максимумы, С целью исключения полного перебора ¡эталонов в кодовой-кни-?е при. распознавании и_записи эталонов в кодовую книгу вычисляется цвоичшй код £>1 = /Т У) ,9 разрядов которого характеризуют места юлокения 3-х первых•формант (по 3 разряда на форманту)а один эазряд - оглаеованность либо глухость анализируемого звукотипа. Совокупность групп элементов кода Е суть общий адрес элементов > • ■•» с/'> " "> св{ £ Ш}; » по которому в-режиме Обучения кодовой-книги вокодера осуществляется просмотр, выявление с.вобод-фгх ячеек и производится запись в них С!/»' » й в рабочем ре-

жиме - сравнение [Л/¿> с { . Результатом сравнения-является |Гказание ячейки с адресом 8 , содеркимоё-котброй-.удовлетворяют фитерию близости ^

10 -_ео всех остальных случаж. Сели критерии близости 'с Г К'?, У,) = * , то и пере-

дающая часть вокодера выдает в канал связи последовательности маркеров (У19) - I- Ъ) » по, которым из кодовой книги во-содера считываются последовательности {&3; , а затем по известным алгоритмам ЛПК синтезируются и озвучиваются звукстипы. Кроме ^¿(У^,) ю каналу связи передаются параметры длительности и интенсивности ?онкрстннх звукоткпое.

Необходимо отметить, что обучение кодовой книги осуществляется = два этапа. На первом этапе запись эталонов производится только в тчейки памяти с адресами £*■■ . При этом 60% памяти остается пустой. 1оэтому на втором этапе обучения осуществляется пёреадрёсация не-записавшихея на первом этапе эталонов звукотипов в пустые ячейки ¡амяти с адресами Е/Е£ б . Здесь £>ц!Ег, £;фЕ£.

Для удобства пёреадресации адрес Ел записывается в последит 9-ук> ячейку-памяти с адресом £Г/, а в 9-ую ячейку памяти по адресуй Перечень формируемых вокодером параметров с .указанием количества разрядов в кодах для каждого из нта .приведен втабл. 2,

Таблица 2.

Вариант Пороговое значение меры

сегментации таг.йлля- -Г.так-УР« .

Параметр ' -— . 0,4 . 0,55 0,71

Адрес зталона, бит 12 12 12

Ддкт-ельность сегмента, бит 4 4 3

-Длительность паузы, бит 3 3 3

Основной тон (тон/шум), бит 5 5 '6

Усиление, бит 3 . 3 5

Синхронизация, бит I 1 I

Число сегментов в секунду 10,3 13,7 ■17,6

Обзэе число бит на сегмент 28 28 30

Требуемая скорость передачи, бит 269 384 526

Оптимальность кодовой книги (2471 оглассванных и 51? неоглас ванных эталонов, составлявших 99л и 1005» обучащей выборки) проье рялось путем сравнительной оценки речи, преобразованной формантнь полосным и фонемным .вокодерами. Для зтой цели привлекались также новые дикторы (мужчины и жекзины) к тексты, которые ранее не учас вовали при обучении кодовой книги. Вариант фонемного вокодера с г рогом сегментации 0,71 обеспечивает качество .преобразованной реш практически такое же, как и полоснкй вокодер при скорости передач речи по каналу связи 2400 бит/с. С уменьшением порога до 0,55 ка< честЕО речи почти не ухудааетсл. Критически.} является порог 0,41, при котором становятся заметны искажения типа пропадания звуков ] чк и появления посторонних призвуков.

Пятая глава посвящена вопросам практической реализации резу; тагов исследований. Рассмотрены особенности организации речевого алога человека с ЭБЛ б САПР [6] , а-также применения фонемного О ментнсго^ вокодера и д?,уг:<х рэчевых диалоговых систем (РДС) в пи; внх сетях связи [7.,.9}. Осуществлена сравнительная оценка техни: номичоской г-ф^хтивностк (ТЭГ>> вокг'дерсв ;р5 г-, личных типов.

Наименьшим значение показателя ТЗЗ обладает формантный вон гер (С,649), а наибольшим (0,876> - фономети.

ОСКСК-ЛЗ •'1СУЛЬГЛП> РАЕСГЫ

1. Установлено, что процесс речевой коммуникации меэду людьми зляатся детерминированным, колмсгорорская сложность речевого сигна-д как псевдослучайного процесса стремится к бесконечности, а свой-гво компактности- речевых образов слогов совпадает со свойством /нкций отображения из их множества на фонетическом (акустическом) зовне в их множество на лингвистическом уровне. При этом численные качения функции отображения тождественно равны частостям встречае-5сти слогов в текстах реального языка.

2. Предложен метод маркировки звукотипов, ставящий з соответствие отдельным подпоследовательностям их параметров двоичные записи здов номеров таких подпоследовательностей.

3. Выявлена обобщенная закономерность восприятия человеком эсмкостк и высоты акустических воздействий, с помощью которой меж: более точно определить иирину критических полосок слуха и речи, также шаг кЕантсвания энергетических составляющих в данных полосах. Это позволило создать математическую модель спектрально-по-зеного анализатора речи с характеристиками, близкими к оптимальным.

4. На основе результатов экспериментальных исследований оиене-и различные методы сегментации слитной речи. Определены значения зрогов сегментации речевого потока на звукотипы при использовании качестве мер - сигнала ошибки предсказания (метод Магилла-Итикуры)„ жетичзской функции А.А.Пирогова и евклидова расстояния мекду ш-гльенши откликами всеполюсных фильтров предсказателей. Установле-з, что все перечисленные методы имеют высокую эффективность, одна> более просто реализуются первые деэ из них.

5. При разработке математической модели фонемного (сегментного) жодера впервые применен алгебраический подход к решению задач гепознавания или классификации образов для целенаправленного выбо-

1 оптимальных алгоритмов сегментации и маркировки распознавае!тых ;иниц в речевом потоке.

6. Разработаны методы и экспериментально опробированы реали-ляаие их алгоритмы, посредством которых осуществляются автемати-:ская фонетическая сегментация и маркировка единиц речи, адаптив-зе заполнение кодоеой книги фонемного (сегментного) вокодера и )иск в ней .оптимального образца звукотипа. Экспериментальное ис-гедованиэ такого вокодера на скоростях передачи информации 300, Ю и 600 бит/с показали, что преобразованная им речь имеет приемные разборчивости и натуральность.

7. Выполнена количественная интегральная оценка технико-экономической объективности paujjmtjHb'x типов вокодеров, и рассмотрены пррокомическке аспекты применения .устройств преобразования и распознавания речи б САПР и ЛВС.

основные шозеэдш диссертации опублжовшы -в сщящсс работ;

Т.. Зеленый А.И. Анализ .прооэссов восприятия'и формирования речи на основе понятий алгоритмической теории информация // Цифровал обработка акустических сигналов,- - М.: ВЦ АН СССР, 1959.

2. Зеленый А.И», Дулагин.¡L'B. Интерпретация проблемы распознавания слуховых образов на осногг яонйтий алгоритмической теории информации. / Сообщения по прикладной математика, -3!.: БЦ АН СССР,

- 1990.

3. Зеленый А.И. Модель распознавания речи на основе психофизических принципов // Автоматическое распознавание и синтез слуховых образов. - М.: ВЦ АН СССР, 1987.

4.' Зеленый Д.й. ,-Kossshíocob В,-П., •НолкйесйиЯ И.М. Универсальная закономерность физических характеристик речи и слуха // Техника средств связи. Серия ЛОСС, Бал.2, 1990.

5. Бурмистров Д.-П., Зеленый А. И. Адштйвный метод определения огласованности речевых фрагментов // Цифровая обработка зкустическ •сигналов. - М.: Щ АН СССР, 1989.

6. Ковалев В.М., -Зеленьй А.И. и др. Зргоксмичеокке аспекты организации речевого диалога в CAS? // .Сястемяве средства САПР. Мат« риала семинара. - М.: МД НТП им; Ф.Э.Дзерящского, 1969.

'7. Зеленый А.И., Ковалев BJá. js др. Управление связью в локал них вычислительных сетях на основе распознавания речи // Опыт, созд ний локальных сетей ЭВМ. Материалы семинара. - jt: ¿ЩНШ им. Ф.З. /'Дзержинского, 1988.

8. А.с. 1538273 (СССР). Устройство для одновременной передачи речевых сообщений и--команд--управления от голоса.'Б.Л.Крысин, А.П. Шабанов, В.Г.Юдаев, В.М.-КоваяеЕ, кЛ.Зеленый. - Оцубл. в Б.И.,1990 » 3.

9. Зеленый А.И., Кулагйн М.-В. и др.- Микропроцессорная неадап-тигчая система распознавания -дискретной речи // Тезису докладов и сообщений Х1У Всесоюзного семинара- "-Автомагическое распознавание слуховых образов. - Каунас.: КПИ, 1986»

По,цписано к печати 14,02.92. Об-ьж уч.-изд.л. 1,2.

~ Заказ 4Ü92.