автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи

кандидата технических наук
Карпов, Николай Вячеславович
город
Нижний Новгород
год
2009
специальность ВАК РФ
05.13.17
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи»

Автореферат диссертации по теме "Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи"

На правах рукописи

КАРПОВ Николай Вячеславович

РАЗРАБОТКА АЛГОРИТМА АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ ФОНЕТИЧЕСКОЙ БАЗЫ ДАННЫХ НА ОСНОВЕ ИНФОРМАЦИОННОЙ ТЕОРИИ ВОСПРИЯТИЯ РЕЧИ

Специальность 05.13.17 - Теоретические основы информатики (технические науки)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Нижний Новгород

2009

003473434

Работа выполнена в аспирантуре на кафедре «Математика и информатика» Государственного образовательного учреждения высшего профессионального образования Нижегородского государственного лингвистического университета им. Н.А. Добролюбова

Научный руководитель: - доктор технических наук, профессор

Ведущая организация - Институт прикладной физики Российской академии наук г. Нижний Новгород.

Защита состоится « 18 » июня 2009 г. в 13-00 часов, в аудитории jP.b $ на заседании диссертационного совета Д.212.165.05 в Нижегородском государственном техническом университете им. P.E. Алексеева по адресу: 603950, г. Нижний Новгород, ГСП-41, ул. Минина, 24.

С диссертацией можно ознакомиться в библиотеке Нижегородского государственного технического университета.

Автореферат разослан « 18 » мая 2009 г.

Ученый секретарь диссертационного совета,

Владимир Васильевич Савченко

Официальные оппоненты: - доктор технических наук, профессор

Владимир Алексеевич Утробин

- доктор физико-математических наук, профессор Александр Григорьевич Флаксман

кандидат технических наук

А. С. Суркова

Актуальность темы исследований. Большинство современных методов автоматической обработки речи основывается на процедуре предварительного сегментирования сигналов на короткие отрезки данных. В результате задача сводится к поэтапному анализу речи. На первом, базовом этапе, формируются элементарные речевые единицы (ЭРЕ) типа отдельных фонем. На втором, заключительном этапе, исследуются слова, фразы и целые тексты как соответствующим образом структурированные последовательности разных ЭРЕ. В результате, задача формирования ЭРЕ и фонем является неотъемлемой частью фонетического анализа слитной речи (ФАР) в общем случае. Соответственно, работа всей системы автоматической обработки во многом зависит от эффективности фонетического анализа речи. При этом состав и качество базового словаря, или фонетической базы данных (ФБД), некоторого фиксированного объема R <50 во многом определяют достигаемое качество ФАР. Поэтому формирование или настройка ФБД является ключевой для большинства современных методов автоматической обработки сигнала. В информационной теории восприятия речи (Савченко В.В. Информационная теория восприятия речи. // Известия вузов России. Радиоэлектроника. - 2007. - Вып.6) для решения указанной задачи предложена модель «фонетического дерева)) и информационный (Я +1)-элемент. В основе функционирования последнего используется статистический подход к задаче R-альтернативного распознавания образов и критерий минимума информационного рассогласования распределений (МИР) в метрике Кульбака-Лейблера. В отличие от других известных алгоритмов информационный (Я+ 1)-элемент имеет дополнительный (R +1) -й выход, который сигнализирует об отказе при распознавании образов одновременно от всех возможных R альтернатив. Данная особенность может служить, в свою очередь, основой для построения эффективного алгоритма статистической классификации сигналов «без учителя», когда ни точные распределения-классы {fVr}, ни их суммарное число R исследователю заранее не известны. Теории и практике осуществления анализа речи на основе принципа минимума информационного рассогласования распределений (МИР) и посвящена представленная диссертация. Ее тема представляется актуальной одновременно по ряду причин.

Во-первых, информационная теория восприятия речи (ИТВР) представляет собой одну из наиболее перспективных ветвей развития акустической теории речеобразования, которая своими корнями уходит в классические работы Г. Гельмгольца 1870-х г.г. /см., напр., Helmholtz H. Die Lehre von der Tonempfindungen als physiologische Graudlage fur die Theorie de r Musik, Brounschweig, 1870/. Основная идеология этих работ осталась без изменения до настоящего времени, и в явном или неявном виде принимается большинством современных специалистов в области обработки речи. При этом, конечно, учитывается целый ряд математических и технико-технологических усовершенствований, введенных и исследованных в работах Т.Чибо и М.Каджияма (Chiba T., Kajiama M. The vowel, its nature and structure. - Tokyo,1941), Г.Фанта (Акустическая теория речеобразования.- M.: Наука, 1964) и ряде других работ последнего периода (см., напр., 1. Kent R.D at al.(Eds) Papers in Speech Communication: Speech production, Ac.Soc.of America, 1991; 2. Сорокин В. H. Теория речеобразования. - M.: Радио и связь, 1985; 3. Фланаган Дж. JI. Анализ, синтез и восприятие речи. - Связь., М.: 1968). Среди работ российских авторов в

данном направлении следует отметить, прежде всего, тематический цикл работ проф. Галунова В.И. (см., напр., Галунов В.И., Соловьев А.Н. Современные проблемы распознавания речи // Информационные технологии и вычислительные системы, 2004, №2). ИТВР в своей идеологии следует в русле гипотезы JI.A. Варшавского и И.М. Лигвака о том, что качество звуков зависит, в основном, от уровня соотношений мощности в соседних спектральных полосах, а форманты (максимумы в спектре) являются лишь доступным способом достижения необходимых межполосных соотношений. Проблема состоит в том, что особенности формы частотных спектров мощности сильно варьируются (изменяются произвольным образом) не только от одной ЭРЕ к другой, но и от одного диктора к другому в пределах одной и той же ЭРЕ и далее в пределах одного диктора в зависимости от времени суток, его эмоционального состояния и других второстепенных факторов речи. Данный эффект в теории обработки речи известен как проблема вариативности устной речи. До настоящего времени она является главным препятствием на пути автоматического формирования речевых баз данных, включая и ФБД как их фундаментальную разновидность. Как следствие, все существующие на данный момент речевые или фонетические базы данных, как в нашей стране, так и за рубежом (см., напр., 1. Галунов В.И. и др. Коллекция речевых баз данных.: Труды XXXIII Международной филологической конференция. - СПб., 2005; 2. http://wvvw.nuance.com - ИС Nuance speech recognition, 8.0) основываются, как правило, на эвристических процедурах обработки речевого сигнала. В противовес всем им ИТВР предлагает строгий подход к решению проблемы вариативности речи - на основе теоретико-информационного определения самого понятия «фонема». В этом состоит второй довод в подтверждение актуальности темы диссертационной работы.

Объект и предмет исследования. Исследуется речевой сигнал в задаче формирования из слитной речи словаря эталонов элементарных речевых единиц, образующих звуковой (фонетический) строй разговорной речи.

Цель диссертационного исследования - разработка адаптивного, с настройкой на конкретного диктора, алгоритма формирования фонетической базы данных по конечному фрагменту его устной речи на основе критерия минимума информационного рассогласования и метода обеляющего фильтра для систем фонетического анализа слитной речи. Для достижения этой цели в диссертации решались следующие задачи:

1. Поставлена задача автоматического распознавания элементарных речевых единиц и проанализированы подходы для ее решения.

2. Исследовано влияние нормировки элементарных речевых единиц на величину информационных рассогласований между реализациями каждой фонемы и, как следствие, на эффективность системы фонетического анализа-речи.

3. Исследовано влияние словаря эталонов элементарных речевых единиц на результирующие характеристики системы фонетического анализа речи.

4. Разработан новый, двухэтапный алгоритм формирования словаря эталонов элементарных речевых единиц на основе критерия минимума информационного рассогласования.

5. Разработан программный блок обработки входных данных для информационной системы фонетического анализа речи.

6. Исследованы новые подходы к решению задачи формирования фонетической базы данных по группе дикторов.

7. Разработан новый метод сравнительного анализа фонетического состава речи одного диктора относительно другого на основе их объединенного фонетического дерева.

Методы исследования. Для решения поставленных задач в работе использовались методы теории информации, теории вероятностей, теории сигналов, а также информационной теории восприятия речи.

Научная новизна работы состоит в следующем:

1. Разработан новый двухэтапный алгоритм, автоматического формирования ФБД из слитной речи, отличающийся от известного одноэтапного дополнительной процедурой объединения в единый сегмент данных одноименных смежных сегментов речевого сигнала по критерию минимума информационного рассогласования. Благодаря указанному отличию повышается точность последующего авторегрессионного анализа и в след за ней качество формируемой ФБД в теоретико-информационном смысле.

2. Получены экспериментальные оценки эффективности ФАР в зависимости от значений параметров разработанного алгоритма в сравнении с теоретическими оценками. Даны рекомендации в отношении выбора оптимальных значений параметров: порядка авторегрессионной модели речевого сигнала типа ЭРЕ, длины сегмента, порога по величине информационного рассогласования при сегментации (1 этап), а также порога по величине информационного рассогласования при кластеризации (2 этап).

3. Впервые определены экспериментальные оценки выигрыша по эффективности ФАР за счет автоматической нормировки ЭРЕ в разработанном алгоритме; показано, что предложенная нормировка привела к уменьшению вариации величины информационного рассогласования в пределах множества реализаций фонем, за счет чего вероятность перепутывания ЭРЕ при их автоматической классификации в асимптотическом случае (при большом объеме выборки) понизилась в среднем на порядок: с 4,5% до 0,5% для контрольной последовательности из десяти наиболее распространенных фонем.

4. Разработан новый метод сравнительною анализа речи, который основан на структурировании словаря эталонных ЭРЕ в виде фонетического дерева одного диктора и его переопределения фонетическим составом другого диктора, используя информационную метрику Кульбака-Лейблера. Показано, что чем сильнее отличается фонетический состав дикторов, тем большее новых «листьев» добавляется в переопределенное . фонетическое дерево, что позволяет дать количественные оценки качественных различий фонетических составов.

Практическая ценность работы состоит в том, что разработанный алгоритм и его модификации могут бьггь применены в современных системах обработки речи-, как на основе существующей структуры и состава таких систем, так и путем включения в эти системы в качестве вспомогательных (дополнительных) блоков для обработки и подготовки данных в режиме обучения.

Разработанный алгоритм был использован при создании программного блока обработки речевого сигнала по проекту Российского фонда фундаментальных исследований (РФФИ) № 07-07-12042-офи (ориентированные фундаментальные исследования) «Разработка и создание информационной теории восприятия речи на основе критерия минимума информационного рассогласования» под руководством д.т.н., проф.- В.В. Савченко. В составе «Информационной системы фонетического анализа слитной речи» он

зарегистрирован в государственном реестре программ для ЭВМ под № 2008615442 - по заявке 2008614233 от 15.09.2008.

Решением Ученого совета НГЛУ от 25.01.2008 г. результаты диссертационной работы внедрены в учебный процесс для студентов и аспирантов лингвистических специальностей.

Достоверность полученных результатов подтверждается протоколом натурных испытаний лабораторного образца информационной системы, разработанного на основе предложенного алгоритма фонетического анализа речи.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Научной всероссийской конференции «Информационные системы и технологии» (Нижний Новгород, НГТУ, 2007), на Восьмом международном симпозиуме «Интеллектуальные системы» (Нижний Новгород, НГТУ, 2008), а также на трех (2006 - 2008) научных семинарах кафедры «Математика и информатика» НГЛУ.

Личный вклад автора заключается в разработке нового алгоритма автоматического формирования фонетической базы данных из речевого сигнала. На основе этого алгоритма им же разработана и реализована программная часть подсистемы ввода и обработки входных данных в составе информационной системы фонетического анализа слитной речи, поставлены и проведены экспериментальные исследования алгоритма на речевом сигнале от группы дикторов. Кроме того, в соавторстве с научным руководителем (50%), разработан метод сравнительного анализа фонетического состава речи разных дикторов на основе их объединенного фонетического дерева.

Публикации. Основные результаты, полученные в диссертации, опубликованы в одиннадцати работах, в том числе в шести статьях, среди которых две статьи - в журналах из списка ВАК «Известия вузов России. Радиоэлектроника» и «Системы управления и информационные технологии». Полный список публикаций представлен в заключительной части автореферата.

Основные положения, выносимые на защиту:

1. Проблема оптимальности словаря эталонов элементарных речевых единиц является ключевой проблемой для большинства современных методов фонетического анализа речи, таких как метод обеляющего фильтра и другие; их эффективность сильно варьируется при изменении состава обучающей выборки.

2. Использование оптимальных свойств решающей статистики минимума информационного рассогласования в предложенном двухэтапном алгоритме автоматического формирования фонетической базы данных по методу обеляющего фильтра с нормировкой ' элементарных речевых единиц в значительной мере ослабляет указанную проблему. Как следствие, границы применения алгоритма выходят за рамки гауссовых распределений сигналов.

3. Разработанный алгоритм автоматического формирования фонетической базы данных не только эффективно моделирует человеческий механизм восприятия речи, но и усиливает качественные характеристики, которые используются в основе метода объединенного фонетического дерева.

Структура и объем работы. Диссертационная работа включает введение, четыре главы, заключение, список используемой литературы и приложения. Вся работа изложена на 174 страницах текста, включающих 49 рисунков, 18 таблиц, 32 страницы приложения. Количество библиографических ссылок - 114.

Во введении содержится обоснование актуальности, описываются объект, предметы и методы исследования. Отмечена научная новизна и практическая значимость результатов, приведены основные положения диссертационной работы, выносимые на защиту, а также сведения об апробации, реализации и внедрении результатов работы.

В первой главе рассматриваются «Основные положения информационной теории восприятия речи»: во-первых, это критерий минимума информационного рассогласования Кульбака-Лейблера. Сводя задачу статистической классификации к случаю параметрической неопределенности и выдвигая встречную гипотезу о гауссовом законе распределения речевого сигнала, приходим к выражению для величины информационного рассогласования общего вида:

Здесь К' и Кг - матрицы автоковариации для распределений IV' и Шг соответственно, а №(...) - операция взятия тренда (следа) матрицы.

Именно гауссовым законом распределения, а также линейной авторегрессионной (АР) моделью формирования речевого сигнала (общеизвестная и распространенная модель) в ИТВР обосновывается метод обеляющего фильтра для решения задач проверки статистических гипотез общего вида.

При этом набор оптимальных решающих статистик или величины информационных рассогласований из выражения (1) принимает следующий вид:

1

Р --Х,г 2

сг2(х)/о-2+1п(о-2/о-2)-1

г = (2)

- 1 1

Здесь а (х) = — ,(0]2 • выборочная дисперсия отклика г-го обеляющего фильтра

= *(<)- £ а. А*-о, 1 = 1,2,...,К, (3)

на вектор анализируемого сигнала х = {х(0}. а <У~ е {а^} - дисперсия его порождающего процесса; А ={а .}, ; = 1,р, - вектор АР-коэффициентов АР-

V Т,1

модели г-го речевого сигнала. Нетрудно увидеть, что набор из Я таких векторов {А^} и образует, в конечном итоге, априорную базу данных для практического

осуществления метода обеляющего фильтра (МОФ) в задачах статистической многоальтерна'йшной классификации. Применительно к элементарным речевым сигналам типа ЭРЕ - это и есть ФБД. Алгоритм ее автоматического формирования по конечному фрагменту речевого сигнала на этапе подготовки данных для применения МОФ в задачах фонетического анализа речи является главным предметом исследования диссертационной работы. При этом применяется строгое, теоретико-информационное определение фонемы как множества (типа кластера) одноименных (подобных) ЭРЕ, объединенных между собой по критерию МИР. Указанное определение - еще один базовый элемент ИТВР. Эффективность метода обеляющего фильтра (2)...(3) может быть охарактеризована набором условных вероятностей перепутывания каждого у-го и г-го сигналов:

a,= 0,5[1 -Ф{ (р( /W,)-m)l JlitSim}]. (4)

Здесь Ф{*} - интеграл вероятности или функция Лапласа, т - число степеней свободы величины xl Пирсона, й - математическое ожидание xl, ■ Чем больше удельная величина информационного рассогласования p(W,,/W,)> тем больше вероятность ошибки av r.

Кардинальным направлением дальнейших исследований служили возможности метода обеляющего фильтра с нормировкой элементарных речевых единиц по дисперсии порождающего белого шума в их авторегрессионных

2 2 2

моделях формирования: Vr < Л: er^ = а ^ = и^.

Целесообразность такой нормировки применительно к сигналам типа ЭРЕ продиктована физиологическими особенностями голосового механизма человека. На интервалах длительностью в слово, а иногда и в течение целой фразы воздушный поток на входе «акустической трубы» имеет приблизительно одну и ту

же интенсивность = const. При учете этого свойства предыдущий результат (2)

приобретает предельно простой вид

V-iH^'o2-1] (5а)

или, переходя в частотную область, будем иметь

где Ox(f) - выборочная оценка спектральной плотности мощности сигнала х в функции дискретной частоты /; Gr (/) - спектральная плотность мощности г-о го сигнала из словаря эталонов; F - верхняя граница сигнала или используемого канала связи. Решение здесь принимается в пользу v -го речевого класса (образа) Wi:(x) по признаку минимальной решающей статистики.

В процессе проведенных исследований решалась задача автоматического распознавания десяти наиболее характерных фонем русского языка: гласных «а», «и», «о», «э», взрывных согласных «б», «р», назальной «н», и шипящих «ф», «ш», «щ». Для каждой фонемы было сформировано 20 файлов данных - по двадцати её независимым реализациям. Из этого экспериментального словаря был выбран один массив х" в качестве эталонной реализации данной фонемы, длина которого равна 0,03 с * 8000 Гц ~ 240 отсчётов. При этом в каждом случае выбирались наиболее типичные (на слух и вид) реализации. В результате был сформирован словарь эталонов ЭРЕ X* = {х*, г = 1,10}. Далее, по каждому массиву данных х* из этого словаря был рассчитан вектор коэффициентов авторегрессии Аг порядка к 20 и соответствующая дисперсия порождающего шума а) - при помощи рекуррентной вычислительной процедуры Берга-Левинсона. После этого последовательно по каждой фонеме, используя сформированный экспериментальный словарь, извлекались все 20 ее реализаций xrj-, / = 1,20. Для каждой такой реализации решалась задача классификации по методу обеляющего

фильтра в его первоначальной формулировке (2), (3), и по результату классификации рассчитывалась оценка вероятности правильного распознавания.

Наихудший результат (вероятность 0,80) получен при распознании фонемы «а». Причём, три реализации данной фонемы были перепутаны с фонемой «р» и одна с «ф». Это хорошо согласуется с данными теоретического анализа. С использованием словаря эталонов была получена оценка информационного рассогласования (1) двух фонем «а» и «р», равная 0,784. Подставляя её в формулу (4), в которой т=55, Я? =0,671, будем иметь а,, =0,5[1-Ф{0,867}]=0,19, что

хорошо согласуется с результатами эксперимента а,, г = 0,20. Отметим, что полученный результат существенно хуже аналогичных результатов при распознавании целых слов целиком. В этом состоит главная особенность автоматического распознавания ЭРЕ: их спектральный состав значительно беднее спектра мощности целого слова.

Для решения указанной проблемы в диссертации разработана модификация метода обеляющего фильтра с нормировкой ЭРЕ в формулировке (5). Его эффективность была исследована с применением сформированного ранее экспериментального словаря и словаря эталонов. В этом варианте частота ошибок при распознавании фонемы «а» (проблемная фонема) здесь сократилась практически до нуля. Для всех других фонем (всего их 10) при этом достигается аналогичный эффект, что означает вероятность выигрыша, близкую к единице. Сделанный вывод имеет ясное физическое обоснование: введённая нормировка элементарных речевых единиц по дисперсиям порождающего шума приводит к уменьшению вариации величин информационного рассогласования (5) в пределах множества различных реализаций каждой фонемы.

В заключительной части первой главы исследована проблема оптимизации словаря эталонов ЭРЕ. Для этого последовательно, по каждой фонеме, используя сформированный экспериментальный словарь, извлекались все 20 ее реализаций. Для каждой из них рассчитывались отклики десяти обеляющих фильтров (3), настроенных на отобранные случайным образом реализации соответствующих фонем. Частота распознавания практически всех фонем уменьшилась, в ряде случаев существенно: на 15% и более. Это явилось следствием выбора файлов с записанными в них не типичными реализациями фонем. В таком случае логично предположить и обратное: существует некий оптимальный (в пределах заданного конечного множества) набор ЭРЕ для формирования словаря эталона.

Таким образом, основным результатом данной главы можно считать вывод о существенном влиянии словаря эталонов на результирующие характеристики системы фонетического анализа слитной речи в целом и, соответственно, об актуальности задачи оптимизации указанного словаря. Информационная теория восприятия речи дает ответ на вопрос выбора таких эталонных ЭРЕ, при которых вероятность правильного распознавания будет максимальной в пределах выбранного множества. Автоматическому формированию оптимального словаря эталонов посвящена вторая глава. Задача в общем случае формулируется как статистическая классификация «без учителя». Поэтому ее решение не сводится к вышеупомянутому методу обеляющего фильтра. В этом состоит еще один довод в пользу актуальности темы диссертации.

Во второй главе «Формирование словаря эталонов элементарных речевых единиц» проведен обзор способов описания фонемы. Для синтеза алгоритма формирования фонетической базы данных выбрано определение

фонемы, с точки зрения ИТВР - это множество элементарных речевых единиц, объединенных в группу по критерию МИР. На основе данного определения был синтезирован двухэтапный алгоритм формирования словаря ЭРЕ типа отдельных фонем из слитной речи с адаптацией, или самообучением в режиме «без учителя».

Первый этап алгоритма - это деление имеющегося фрагмента речевого сигнала на короткие (Т порядка 10 мс) сегменты (отрезки) приблизительной его стационарности с одновременным вычислением по каждому сегменту данных соответствующих значений авторегрессионных параметров. Для этого применялась известная рекуррентная вычислительная процедура Берга-Левинсона: а„(0 = «„-,(0 + к\А_1(т-/), / = 1 ,т\ (6)

На этом этапе вычислений предложен метод редукции данных, основанный на объединении однородных смежных сегментов в один без потери полезной информации. Решение об объединении принималось по критерию допустимого информационного рассогласования,

/Ф„х,+1)^Л> (7)

где р, - некоторый пороговый уровень, характеризующий допустимую степень неоднородности одноименных сегментов речевого сигнала.

ЭРЕ 1 ЭРЕ 1-1

^ А__

"V V ^

0 Т 2Т х, х)+1 ,

1 1 I •• I I 1 I I I_I I

Рис. 1. Сегментация речевого сигнала.

Кроме того, для отбора надежных фонем дополнительно применялась процедура проверки речевой единицы в отношении ее длительности гь:

гь>г0=лТ, (8)

т0 - порог по длительности, кратный периоду сегментации Т.

На втором этапе алгоритма все множество выделенных элементарных речевых единиц было разбито на Я подмножеств - путем последовательной группировки подобных в одну фонему-кластер - все по тому же критерию МИР:

хшп р(Х1,Хм)^р2. (9)

Здесь р2 - второй пороговый уровень, характеризующий допустимую степень неоднородности в метрике Кульбака-Лейблера одноименных ЭРЕ.

После этого на основе критерия, минимума суммы информационных рассогласований в пределах каждого г-го кластера

рГ=£рс0(х„хд к=и~„____(10)

л-------

определялся (согласно ИТВР) его информационный центр-эталон вида

х;=аг8шт (Н)

к

Все основные параметры разработанного алгоритма: уровень порога при сегментации р,, порог по длине элементарной речевой единицы г0, пороговый уровень р2, порядок модели - были установлены по результатам его экспериментальных исследований.

На первом этапе исследований были обоснованы значения длины минимальной элементарной речевой единицы Т=15 мс и первого

информационного порога 0,9...1,0. Для этого поставлен и проведен эксперимент по объединению сегментов 20 характерных фонем русского языка: а, о, у, э, ш, щ, р, с, в, з, ж, и, л, ль, ф, х, ч, е, ы, м. Дальнейший эксперимент по формированию фонетической базы данных был проведен по ограниченному набору из десяти слов-числительных: от нуля до девяти. Предварительно было записано по сто реализаций каждого слова. Далее создавалась база данных из отдельных сегментов по каждому числительному описанным выше методом. Для набора из десяти числительных всего получили примерно 25000 сегментов. При значениях порядка модели и второго порога информационного рассогласования, соответственно: 20 и 1 было сформировано около ста отдельных фонем. Таким образом, предложенный алгоритм позволяет формировать фонетические базы данных в автоматическом режиме или, как говорят, «без учителя». Зависимость количества выделенных фонем от объема выборки речевого сигнала (количества

Рис. 2. Зависимость количества новых фонем от объема выборки.

Суммарное количество выделяемых фонем с увеличением количества анализируемых сегментов асимптотически стремится к некоторому постоянному числу. Так, для последних 2262 сегментов добавилось всего 3 новые фонемы. Из приведенных исследований видно, что предложенный алгоритм обладает свойством насыщения, то есть выделяет ограниченное число отдельных фонем, характерное для конкретного национального языка.

Полученные результаты были сопоставлены с аналогичными результатами от применением известного однозтапного алгоритма. Показано, что в двухэтапном алгоритме существенно (с 11,3% до 4%) сокращенно число проблемных фонем с низкой вероятностью различимости (критический уровень 0,2), что приводит, в свою очередь, к более чем двукратному уменьшению средней вероятности перепутывания'фонем с 0,058 до 0,027.

Таким образом, можно сделать вывод, что благодаря предложенному алгоритму удается разбить все множество ЭРЕ на ряд подмножеств-кластеров, число элементов которых согласуется с числом фонем из звукового строя языка. При этом среднее значение величины информационного рассогласования внутри кластера, которое можно назвать его «радиусом», почти не зависит от количества элементов в этом кластере и регулируется параметром рг - порогом из правила (9). Поэтому предложенный алгоритм можно использовать для анализа звукового строя речи, причем, как для отдельных дикторов, так и их произвольных групп.

¡Фонема /и/ Фонема /э/ ¡Фонема Ш ¡Фонема Ш ¡Фонема /а/ ¡Фонема М ¡Фонема 3 ЗФонема /9/ ^Фонема/а/

шшш

шшш

Перерасчет эталона кластера

Добавление нового кластера в базу данных

\

Начало

Сегментация

ъ

Выбор очередного сегмента

Конец

В третьей главе «Элементы информационной системы фонетического анализа слитной речи» представлена авторская программная разработка на базе синтезированного выше алгоритма автоматического формирования фонетической базы данных (5)...(11). Главное окно программы представлено на рис. 3. Здесь перечислены все фонемы диктора из сформированной фонетической базы данных. В правой части окна дается информация о фонеме.

Рис. 3. Главное окно информационной системы. Программа реализована в среде математического моделирования \1atlab-6.5. Ее структурная блок-схема показана на рис. 4.

Фильтрация сегмента по ^длине.

лЛ \ /\

ч. \ "

тш /?(Х, ,ХЬ1) > р.

''Сравнение ЭРЕ с^ ^эталонами в базе, данных

пт р(Х;, X,.,) < р.

Добавление новой реализации в кластер

Рис. 4. Блок-схема алгоритма формирования фонетической базы данных.

Проанализирована степень полноты фонетической базы в зависимости от значений параметров алгоритма. По результатам экспериментов строились долевые диаграммы вероятностей правильного распознавания при перечисленных значениях параметров как на рис. 5. В таблице под диаграммой приведено количество верно и ошибочно распознанных сегментов.

Рис. 5. Процентная диаграмма вероятности верно и ошибочно распознанных элементарных речевых единиц.

Представленная таблица характеризует высокую степень полноты фонетической базы данных одновременно по всем десяти числительным, и вслед за этим характеризует предложенный алгоритм как эффективный способ автоматического выделения из слитной речи полного списка фонем по каждому диктору.

Отметим, что сделанные выводы был подтверждены на множестве разных дикторов, т.е. параметры синтезированного алгоритма являются мало критичными по отношению к фонетическим особенностям конкретных дикторов. Это важное положительное качество предложенного алгоритма.

В четвертой главе «Формирование фонетической базы данных группы дикторов» рассмотрена задача следующего уровня сложности - установление индивидуальных и групповых особенностей произношения дикторов по их персональным ФБД. Предложено ее решение методом переопределенного дерева. Его идея поясняется диаграммой на рис. 6.

Рис. 6. Кластер одноименных фонем.

Метод реализуется в два этапа. Все множество альтернативных классов-распределений {¡V,} из фонетической базы данных конкретного диктора разобьем

сначала на Я2 всевозможных пар К] ^ Л, и для каждой из них согласно

критерию МИР вычислим удельную величину информационного рассогласования

где X, - п-выборка из /-ой генеральной совокупности IV,. Из них два распределения

(13)

и

с максимальным значением величины информационного рассогласования между собой образуют первый ярус, или уровень, нашего «дерева». Разобьем (сгруппируем) после этого элементы исходного множества {IVг} на два подмножества по принципу их максимальной близости (в смысле Кульбака-Лейблера) к одной из двух сформированных нами вершин:

О, :1Жв)>тХ (14)

Вычисления (13), (14) повторяются циклически, пока в каждом множестве не окажется по одному элементу. Блок схема программной реализации алгоритма представлена на рис 7.

Рис. 7. Блок-схема метода переопределенного дерева.

На рис. 8 показан пример фонетического дерева для некоторого диктора, построенное согласно алгоритму (5).. .(14) по тестовому речевому сигналу «Съешь еще этих сладких французских булок да выпей чаю» при жестких требованиях к качеству фонем (р, =0.9, г0 = 0.1 с, р2= 1). Видим, что всего выделено 14 надежных фонем. Здесь символами ?? отмечены нечеткие на слух фонемы. При этом разным дикторам будут соответствовать разные «деревья».

Для каждого отдельного диктора фонетическое дерево содержит, в общем случае, разное число фонем, а также индивидуальный 'порядок их

структурирования. Нетрудно понять, что в этом и проявляются индивидуальные фонетические особенности дикторов. Их выявление и сравнение между собой -главная цель фонетического анализа речи. В этом состоит второй этап вычислений методом переопределенного дерева.

Рис. 8. Фонетическое дерево первого диктора.

Воспользуемся, в качестве иллюстрации, структурой ФБД первого диктора как образцом, по которому определяются фонетические особенности второго диктора. Его речевой сигнал X последовательно, по всем отдельным ЭРЕ, соотнесем по критерию МИР

р* = тшр,(Х). (17)

' ]-\.....3 '

Процесс переопределения «дерева» может распространяться на произвольное число дикторов. В каждом случае мы, в результате, будем иметь структуру с очевидной физической интерпретацией: чем больше новых «листьев», тем больше различия между дикторами по фонетическому составу их речи, различия в листьях менее существенны по сравнению с различиями по составу вершин и, особенно, уровней деревьев и так далее. Для иллюстрации на рис. 9 и 10 показаны два варианта переопределенного дерева нашего первого диктора со вторьм и третьим дикторами соответственно.

Диктор 1+2

Рис. 9. Пример 1 переопределенного дерева.

Рис. 10. Пример 2 переопределенного дерева.

Видно, что оба варианта объединенного фонетического дерева отличаются от его исходного варианта на рис. 8. Полужирным шрифтом в них выделены вновь добавленные в общий список фонемы. В этом и состоит признак переопределения рассматриваемых деревьев. Причем, степень отличий второго варианта (рис. 10) относительно базового дерева существенно выше по сравнению с первым вариантом (рис. 9). Это говорит, в свою очередь, о существенно больших различиях в фонетическом строе первого и третьего дикторов, чем со вторым.

Это, по-видимому, первый опыт сравнительного анализа речи разных дикторов в строгом, количественном отношении.

В заключении сформулированы основные результаты работы по теме исследований.

1. Рассмотрена проблема оптимальности словаря эталонов элементарных речевых единиц в задачах фонетического анализа слитной речи. Предложен для ее решения критерий минимума суммы информационных рассогласований, заимствованный из числа базовых положений и элементов информационной теории восприятия речи.

2. На основе критерия минимума информационного рассогласования разработан новый алгоритм оптимизации словаря эталонов с автоматической настройкой по речевым сигналам от отдельных дикторов. Его ключевым звеном служит адаптивный обеляющий фильтр.

3. На основе предложенного алгоритма разработан программный блок автоматической обработки речевого сигнала для информационной системы автоматического выделения фонем из слитной устной речи.

4. С применением программного блока проведены экспериментальные исследования эффективности разработанного алгоритма и оптимизации его параметров. ______________________________

5. На основе метода переопределенного дерева рассмотрена и решена задача формирования единой фонетической базы данных по группе разных дикторов с целью последующего сравнительного анализа фонетического строя их речи.

На основании полученных результатов сделаны следующие выводы:

1. Проблема оптимальности словаря эталонов является ключевой для большинства современных методов фонетического анализа речи, таких как метод обеляющего фильтра и другие; их эффективность сильно варьируется при изменении состава обучающей выборки.

2. Благодаря критерию минимума информационного рассогласования и методу обеляющего фильтра в составе математического аппарата информационной теории восприятия речи проблема оптимальности эталонов элементарных речевых единиц в задаче автоматического формирования фонетической базы данных впервые решена в строгом теоретико-информационном смысле.

3. Благодаря применению метода обеляющего фильтра с нормировкой элементарных речевых единиц удается в полной мере использовать оптимзльные свойства решающей статистики МИР. Как следствие, полученные результаты выходят далеко за рамки гауссовых распределений сигналов.

4. Разработанный алгоритм автоматического формирования фонетической базы данных не только эффективно моделирует человеческий механизм восприятия речи, но и усиливает его качественные характеристики.

Основные публикации автора по теме диссертации Публикации в изданиях, рекомендованных ВАК

1. Савченко, В.В. Анализ фонетического состава речевых сигналов методом переопределенного дерева / Н. В. Карпов, В. В. Савченко II Системы управления и информационные технологии, 2.2 (32), 2008. - С. 297-303.

2. Савченко, В.В. Автоматическое распознавание речевых единиц методом обеляющего фильтра / Н. В. Карпов, В. В. Савченко, Д. Ю. Акатьев // Известия вузов России. Радиоэлектроника. 2007,- Вьш.4,- С. 11-19.

Публикации в журналах и сборниках научных трудов

3. Карпов, Н.В. Формирование фонетической базы данных на основе информационной теории восприятия речи / Н.В. Карпов, Н.Д. Чикова // МОСТ (язык и культура) BRIDGE (language & culture). - Набережные Челны: Издательско-полиграфический отдел Набережночелнинского филиала НГЛУ им. H.A. Добролюбова, 2008. - № 22,- С. 13-17.

4. Карпов, Н.В. Создание базы элементарных речевых единиц методом обеляющего фильтра для задачи автоматического распознавания речи / Н. В. Карпов // МОСТ (язык и культура) BRIDGE (language & culture). - Набережные Челны: Изд-во Набережночелнинского филиала Нижегородского государственного лингвистического университета им. H.A. Добролюбова, 2007. -№19. С. 22-24.

5. Карпов, Н.В. Адаптация эталонного словаря элементарных речевых единиц методом обеляющего фильтра для задачи автоматического распознавания речи // Аспирант: Сборник научных трудов аспирантов. Выпуск VII. - Нижний Новгород: НГЛУ им. H.A. Добролюбова, 2007. - С. 83-87.

6. Карпов, Н.В. Метод редукции фонетической базы данных для систем автоматического распознавания речи / Н. В. Карпов // Актуальные проблемы прикладной лингвистики: Сборник научных статей. - Минск: МГЛУ, 2008. - С. 295 - 298.

7. Карпов, Н.В. О некоторых методах формирования фонетической базы данных для систем автоматической обработки речи / Н. В. Карпов, Н. Д. Чикова //

Труды восьмого международного симпозиума «Интеллектуальные системы» / под редакцией К.А. Пупкова. - М.: РУСАКИ, 2008. - С. 423-426.

8. Карпов, Н.В. Автоматическое создание эталонной базы элементарных речевых единиц методом обеляющего фильтра для задачи автоматического распознавания речи / Н. В. Карпов // Информационные системы и технологии (ИСТ-2007): Материалы международной научно-технической конференции, посвященной 90-летию НГТУ. - Нижний Новгород: НГТУ, 2007. - С.227.

9. Карпов, Н.В. Адаптация базового словаря для автоматического распознавания речи в автоматизированных системах обучения / Н. В. Карпов // Молодежь в современном мире: вызовы цивилизации: Материалы VIII научно-практической конференции «Человек в системе коммуникаций», Нижний Новгород. 28-30 мая 2007 г. / Под ред. проф. Е.П. Савруцкой - Нижний Новгород: НГЛУ им. H.A.Добролюбова, 2007,- С. 314-315.

Ю.Карпов, Н.В. Классификация элементарных речевых единиц методом обеляющего фильтра для задачи автоматического распознавания речи / Н. В. Карпов // Материалы Всероссийских научных и научно-технических конференций (Computer-Based Conferences) Нижний Новгород: Нижегородский научный и информационно-методический центр «Диалог» (ННИМЦ «Диалог»), 2007.-С. 12.

Н.Савченко, В.В. Информационная система фонетического анализа слитной речи / В.В.Савченко, Н.В.Карпов и др. - Программа для ЭВМ / Свидетельство о гос. регистрации № 2008615442 по заявке 2008614233 от 15.09.2008.

Лицензия ПД№ 18-0062 от 20.12.2000 г.

Подписано в печать 14.05.2009 Печ. л. 1,25

Тираж 100 экз._

Типография НГЛУ им. НА. Добролюбова 603155, г. Н. Новгород, ул. Минина 31а

Формат 60x90 1/16 Заказ

Цена бесплатно

Оглавление автор диссертации — кандидата технических наук Карпов, Николай Вячеславович

Обозначения и сокращения.

Введение.

Глава 1. Основные положения информационной теории восприятия речи

1.1. Задача фонетического анализа слитной речи.

L.2. Метод обеляющего фильтра.

1.3. Результаты экспериментальных исследований.

1.4. Выводы.

Глава 2. Формирование словаря эталонов элементарных речевых единиц

2.1. Задача классификации элементарных речевых единиц.

2.2. Результаты экспериментальных исследований.

2.3. Критерий минимума суммы информационных рассогласований.

2.4. Выводы.

Глава 3. Элементы информационной системы фонетического анализа слитной речи.

3.1. Архитектура и интерфейс блока ввода информационной системы

3.2. Используемые средства для программирования.

3.3. Оптимизация параметров информационной системы.

3.4. Выводы.

Глава 4. Формирование фонетической базы данных группы дикторов

4.1. Постановка задачи.

4.2. Структурирование фонетической базы данных методом дерева.

4.3. Переопределение дерева фонетической базы данных.

4.4. Выводы.

Введение 2009 год, диссертация по информатике, вычислительной технике и управлению, Карпов, Николай Вячеславович

Актуальность темы исследований. Большинство современных методов автоматической обработки речи основывается на процедуре предварительного сегментирования сигналов на короткие отрезки данных. В результате задача сводится к поэтапному анализу речи. На первом, базовом этапе, формируются элементарные речевые единицы (ЭРЕ) типа отдельных фонем. На втором, заключительном этапе, исследуются слова, фразы и целые тексты как соответствующим образом структурированные последовательности разных ЭРЕ. В результате, задача формирования ЭРЕ и фонем является неотъемлемой частью фонетического анализа слитной речи (ФАР) в общем случае. Соответственно, работа всей системы автоматической обработки во многом зависит от эффективности фонетического анализа речи. При этом состав и качество базового словаря, или фонетической базы данных (ФБД), некоторого фиксированного объема во многом определяют достигаемое качество ФАР. Поэтому формирование или настройка ФБД является ключевой для большинства современных методов автоматической обработки сигнала. В информационной теории восприятия речи [1] для решения указанной задачи предложена модель «фонетического дерева» и информационный (А'+ 1)-элемент. В основе функционирования последнего используется статистический подход к задаче R-альтернативного распознавания образов и критерий минимума информационного рассогласования распределений (МИР) в метрике Кульбака-Лейблера. В отличие от других известных алгоритмов информационный (R +1)-элемент имеет дополнительный (R+Y)-й выход, который сигнализирует об отказе при распознавании образов одновременно от всех возможных R альтернатив. Данная особенность может служить, в свою очередь, основой для построения эффективного алгоритма статистической классификации сигналов «без учителя», когда ни точные распределения-классы {Wr}, ни их суммарное число Я исследователю заранее не известны. Теории и практике осуществления анализа речи на основе принципа минимума информационного рассогласования распределений (МИР) и посвящена представленная диссертация. Ее тема представляется актуальной одновременно по ряду причин.

Во-первых, информационная теория восприятия речи (ИТВР) представляет собой одну из наиболее перспективных ветвей развития акустической теории речеобразования, которая своими корнями уходит в классические работы Г. Гельмгольца 1870-х г. [2]. Основная идеология этих работ осталась без изменения до настоящего времени, и в явном или неявном виде принимается большинством современных специалистов в области обработки речи. При этом, конечно, учитывается целый ряд математических и технико-технологических усовершенствований, введенных и исследованных в работах Т.Чибо и М.Каджияма [3], Г.Фанта [4] и ряде других работ последнего периода [5, 6, 7]. Среди работ российских авторов в данном направлении следует отметить, прежде всего, тематический цикл работ проф. Галунова В.И. [8].

Основные особенности модели Гельмгольца сводятся к двум постулатам:

1. Процесс речеобразования состоит из двух независимых компонент: возбуждения как такового звука и формирования фонетического качества звука типа ЭРЕ за счет возбуждения резонансных частот артикуляционного тракта (у Гельмгольца) или фильтрации (в современном рассмотрении).

2. Фонетическое качество ЭРЕ определяется так называемыми формантами, которые определяются как резонансные частоты артикуляционного тракта (или же полюса передаточной функции артикуляционного фильтра) или как максимумы спектра речевого сигнала.

Указанные постулаты до настоящего времени не подвергались пересмотру, хотя, как всем это было очевидно, они не вполне соответствуют действительности. Рассмотрим, в первую очередь, постулат об определяющем значении формант, то есть максимумов в частотном спектре ЭРЕ, с точки зрения тонкой структуры речи. То, что с помощью таких формант можно добиться определенного качества звучания, не вызывает сомнения. Но определяют ли именно эти максимумы спектра это качество? Первые сомнения были внесены еще в 30-х годах после создания полосного вокодера [9]. В начале 60-х годов была сформирована на основе большого экспериментального материала теория расчета разборчивости речи, принявшая за основу полосное представление речевого сигнала [10], исключавшая из рассмотрения форманты. Все это вместе взятое заставило российских исследователей JI.A. Варшавского и И.М. Литвака ввести гипотезу о том, что фонетическое качество звуков зависит, в основном, от уровня соотношений мощности в соседних спектральных полосах, а форманты (максимумы в спектре) являются лишь доступным способом достижения необходимых межполосных соотношений. ИТВР в своей идеологии следует в русле именно такой гипотезы, сводя все наиболее существенные признаки звукового строя речи к особенностям формы частотных спектров мощности отдельных ЭРЕ. Проблема состоит в том, что указанные особенности сильно варьируются (изменяются произвольным образом) не только от одной ЭРЕ к другой, но и от одного диктора к другому в пределах одной и той же ЭРЕ и даже в пределах одного диктора в зависимости от времени суток, его эмоционального состояния и других второстепенных факторов речи. Данный эффект в теории обработки речи известен как проблема вариативности устной речи. До настоящего времени она является главным препятствием на пути автоматического формирования речевых баз данных, включая и ФБД как их фундаментальную разновидность. Как следствие, все существующие на данный момент речевые или фонетические базы данных, как в нашей стране, так и за рубежом [11, 12] основываются, как правило, на эвристических процедурах обработки речевого сигнала. В противовес всем им ИТВР предлагает строгий подход к решению проблемы вариативности речи - на основе теоретико-информационного определения самого понятия «фонема». В этом состоит второй довод в подтверждение актуальности темы диссертационной работы.

Радикальным средством для преодоления рассматриваемой проблемы является статистический подход. Наиболее ярким представителем такого подхода является группа методов, объединенных общим понятием скрытых марковских моделей [13] (СММ-методы). Альтернативой СММ-методам могут служить методы на основе многослойных нейросетей. Они реализуют собой детерминистский подход. Ключевой проблемой в этом направлении является проблема в переобучении нейросетей. По сути, данная проблема сводит все направление в тупик: чем больше объем обучающей выборки, тем ниже качество работы нейросетей. В рамках же статистического подхода главная проблема - это проблема точности СММ (об этом см., напр., упомянутую выше работу В.И. Галунова и А.Н. Соловьева за 2004 г.). Особенно актуальной она становится в задачах распознавания из больших словарей. Здесь по каждому отдельному слову для обучения СММ требуются десятки, и даже сотни независимых образцов. Проблема точности СММ резко обостряется на практике еще и малыми выборками наблюдений, а также связанной с ней проблемой неоднородности речевого сигнала (во времени и в пространстве). По сути, мы снова возвращаемся к проблеме вариативности речи. А это тупик. Естественный выход из указанного тупика представляет собой идея применения эталонного словаря ЭРЕ или словаря эталонов. Однако здесь возникает актуальнейшая проблема оптимальности словаря эталонов. Именно на ее преодоление в задаче автоматического определения эталонов ЭРЕ и направлен, главным образом, математический аппарат информационной теории восприятия речи: критерий минимума информационного рассогласования и метод обеляющего фильтра. Это последний, решающий довод в подтверждение актуальности темы диссертации.

Объект и предмет исследования. Исследуется речевой сигнал в задаче формирования из слитной речи словаря эталонов элементарных речевых единиц, образующих звуковой (фонетический) строй разговорной речи.

Цель диссертационного исследования - разработка адаптивного, с настройкой на конкретного диктора, алгоритма формирования фонетической базы данных по конечному фрагменту его устной речи на основе критерия минимума информационного рассогласования и метода обеляющего фильтра для систем фонетического анализа слитной речи. Для достижения этой цели в диссертации решались следующие задачи:

1. Поставлена задача автоматического распознавания элементарных речевых единиц и проанализированы подходы для ее решения.

2. Исследовано влияние нормировки элементарных речевых единиц (ЭРЕ) на величину информационных рассогласований между реализациями каждой фонемы и, как следствие, на эффективность системы ФАР.

3. Исследовано влияние словаря эталонов ЭРЕ на результирующие характеристики системы ФАР.

4. Разработан новый, двухэтапный алгоритм формирования словаря эталонов ЭРЕ на основе критерия минимума информационного рассогласования.

5. Разработан программный блок обработки входных данных для информационной системы ФАР.

6. Исследованы новые подходы к решению задачи формирования фонетической базы данных по группе дикторов.

7. Разработан новый метод сравнительного анализа фонетического состава речи одного диктора относительно другого на основе их объединенного фонетического дерева.

Методы исследования. Для решения поставленных задач в работе использовались методы теории информации, теории вероятностей, теории сигналов, а также информационной теории восприятия речи.

Научная новизна работы состоит в следующем:

1. Разработан новый двухэтапный алгоритм, автоматического формирования ФБД из слитной речи, отличающийся от известного одноэтапного дополнительной процедурой объединения в единый сегмент данных одноименных смежных сегментов речевого сигнала по критерию минимума информационного рассогласования. Благодаря указанному отличию повышается точность последующего авторегрессионного анализа и в след за ней качество формируемой ФБД в теоретико-информационном смысле.

2. Получены экспериментальные оценки эффективности ФАР в зависимости от значений параметров разработанного алгоритма в сравнении с теоретическими оценками. Даны рекомендации в отношении выбора оптимальных значений параметров: порядка авторегрессионной модели речевого сигнала типа ЭРЕ, длины сегмента, порога по величине информационного рассогласования при сегментации (1 этап), а также порога по величине информационного рассогласования при кластеризации (2 этап).

3. Впервые определены экспериментальные оценки выигрыша по эффективности ФАР за счет автоматической нормировки ЭРЕ в разработанном алгоритме; показано, что предложенная нормировка привела к уменьшению вариации величины информационного рассогласования в пределах множества реализаций фонем, за счет чего вероятность перепутывай ия ЭРЕ при их автоматической классификации в асимптотическом случае (при большом объеме выборки) понизилась в среднем на порядок: с 4,5% до 0,5% для контрольной последовательности из десяти наиболее распространенных фонем.

4. Разработан новый метод сравнительного анализа речи, который основан на структурировании словаря эталонных ЭРЕ в виде фонетического дерева одного диктора и его переопределения фонетическим составом другого диктора, используя информационную метрику Кульбака-Лейблера. Показано, что чем сильнее отличается фонетический состав дикторов, тем большее новых «листьев» добавляется в переопределенное фонетическое дерево, что позволяет дать количественные оценки качественных различий фонетических составов.

Практическая ценность работы состоит в том, что разработанный алгоритм и его модификации могут быть применены в современных системах обработки речи, как на основе существующей структуры и состава таких систем, так и путем включения в эти системы в качестве вспомогательных (дополнительных) блоков для обработки и подготовки данных в режиме обучения.

Разработанный алгоритм был использован при создании программного блока обработки речевого сигнала по проекту Российского фонда фундаментальных исследований (РФФИ) № 07-07-12042-офи (ориентированные фундаментальные исследования) «Разработка и создание информационной теории восприятия речи на основе критерия минимума информационного рассогласования» под руководством д.т.н., проф. В.В. Савченко. В составе «Информационной системы фонетического анализа слитной речи» он зарегистрирован в государственном реестре программ для ЭВМ под №2008615442-по заявке 2008614233 от 15.09.2008.

Решением Ученого совета НГЛУ от 25.01.2008 г. результаты диссертационной работы внедрены в учебный процесс для студентов и аспирантов лингвистических специальностей.

Достоверность полученных результатов подтверждается протоколом натурных испытаний лабораторного образца информационной системы, разработанного на основе предложенного алгоритма фонетического анализа речи.

Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Научной всероссийской конференции «Информационные системы и технологии» (Нижний Новгород, НГТУ им. Р.Е.Алексеева, 2007), на Восьмом международном симпозиуме «Интеллектуальные системы» (Нижний Новгород, НГТУ, 2008), а также на трех (2006 - 2008) научных семинарах кафедры «Математика и информатика» НГЛУ.

Личный вклад автора заключается в разработке нового алгоритма автоматического формирования фонетической базы данных из речевого сигнала. На основе этого алгоритма им же разработана и реализована программная часть подсистемы ввода и обработки входных данных в составе информационной системы фонетического анализа слитной речи, поставлены и проведены экспериментальные исследования алгоритма на речевом сигнале от группы дикторов. Кроме того, в соавторстве с научным руководителем (50%), разработан метод сравнительного анализа фонетического состава речи разных дикторов на основе их объединенного фонетического дерева.

Публикации. Основные результаты, полученные в диссертации, опубликованы в одиннадцати работах, в том числе в шести статьях, среди которых две статьи - в журналах из списка ВАК «Известия вузов России. Радиоэлектроника» и «Системы управления и информационные технологии». Полный список публикаций представлен в списке литературы.

Основные положения, выносимые на защиту:

1. Проблема оптимальности словаря эталонов элементарных речевых единиц является ключевой проблемой для большинства современных методов фонетического анализа речи, таких как метод обеляющего фильтра и другие; их эффективность сильно варьируется при изменении состава обучающей выборки.

2. Использование оптимальных свойств решающей статистики минимума информационного рассогласования в предложенном двухэтапном алгоритме автоматического формирования фонетической базы данных по методу обеляющего фильтра с нормировкой элементарных речевых единиц в значительной мере ослабляет указанную проблему. Как следствие, границы применения алгоритма выходят за рамки гауссовых распределений сигналов.

3. Разработанный алгоритм автоматического формирования фонетической базы данных не только эффективно моделирует человеческий механизм восприятия речи, но и усиливает качественные характеристики, которые используются в основе метода объединенного фонетического дерева.

Заключение диссертация на тему "Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи"

4.4. Выводы

• Для выявления индивидуальных характеристик разработан новый метод анализа качества речи одного диктора относительно речи другого на базовом, фонетическом уровне.

• Синтезирован алгоритм для решения задачи сравнения речи двух дикторов, в котором один диктор используется в качестве фонетического образца. Множество фонем при этом представляет собой структуру в виде дерева. Для второго вычисляют количество отличных фонем во время переопределения дерева.

• На основе предложенного алгоритма синтезирована экспериментальная установка, с помощью которой исследована работа этого алгоритма на тестовом сигнале из двадцати базовых фонем русского языка. Приведены примеры формирования дерева ФБД для тестового отрезка непрерывной речи.

Заключение

Рассмотренный теоретико-информационный подход в задачах фонетического анализа речи, по-видимому, не имеет серьезных альтернатив ввиду острейшей проблемы вариативности устной речи. Однако сама идея статистического (по ансамблю реализаций) усреднения сигналов наталкивается здесь на ряд принципиальных препятствий. Прежде всего, это особенности речевого механизма человека. У разных людей он сильно разнится по своим параметрам, например, по частотным характеристикам его модели «акустической трубы». Последняя, к тому же, может сильно варьироваться под действием целого ряда факторов: времени суток, эмоционального состояния диктора и т.п. Как результат, даже одноименные речевые метки от одного и того же диктора, разнесенные между собой во времени и в пространстве, могут иметь существенно разные автокорреляционные (статистические) свойства. И здесь логично возникает идея объединения близких друг другу по своему звучанию, однородных в теоретико-информационном смысле элементарных речевых единиц в соответствующие фонемы-кластеры. Границы каждого такого кластера устанавливаются исследователем в зависимости от особенностей решаемых им задач. Это базовое положение информационной теории восприятия речи.

Благодаря проведенным исследованиям в диссертации получены следующие основные результаты:

1. Рассмотрена проблема оптимальности словаря эталонов элементарных речевых единиц в задачах автоматической обработки и распознавания речи. Предложен для ее решения критерий минимума суммы информационных рассогласований, заимствованный из числа базовых положений и элементов информационной теории восприятия речи.

2. На основе критерия минимума информационного рассогласования разработан новый алгоритм оптимизации словаря эталонов с автоматической настройкой по речевым сигналам от отдельных дикторов. Его ключевым звеном служит адаптивный обеляющий фильтр.

3. На основе предложенного алгоритма разработан программный блок автоматической обработки речевого сигнала для информационной системы автоматического выделения фонем из слитной устной речи.

4. С применением программного блока проведены экспериментальные исследования эффективности разработанного алгоритма и оптимизации его параметров.

5. На основе метода переопределенного дерева рассмотрена и решена задача формирования единой фонетической базы данных по группе разных дикторов с целью последующего сравнительного анализа фонетического строя их речи.

На основании полученных результатов сделаны следующие выводы:

1. Проблема оптимальности словаря эталонов является ключевой для большинства современных методов автоматической обработки и распознавания речи, таких МОФ и другие; их эффективность сильно варьируется при изменении состава обучающей выборки;

2. Благодаря критерию МИР и МОФ в составе математического аппарата ИТВР проблема оптимальности эталонов элементарных речевых единиц в задаче автоматического формирования ФБД впервые решена в строгом, теоретико-информационном смысле.

3. Благодаря применению метода обеляющего фильтра с нормировкой ЭРЕ удается в полной мере использовать оптимальные свойства решающей статистики МИР. Как следствие, полученные результаты выходят далеко за рамки гауссовых распределений сигналов;

4. Разработанный алгоритм автоматического формирования ФБД не только эффективно моделирует человеческий механизм восприятия речи, но и усиливает его качественные характеристики.

На основании сделанных выводов даны рекомендации по практическому применению результатов диссертационной работы на практике и их дальнейшему развитию при решении широкого круга актуальных задач как в области теоретической, так и прикладной информатики. Например, это задача разработки речевых баз данных в пределах конкретного национального языка - как от отдельных его носителей, так и их групп, объединенных по их полу, году рождения, месту жительства и прочим признакам, - с автоматическим наполнением и непрерывным развитием (модернизацией) во времени. В этом примере наглядно реализуются все основные преимущества МОФ: высокая чувствительность к рассогласованию данных, способность к эффективной выборочной адаптации, минимум вычислительных затрат и требований к объему запоминающих устройств и другие. Центральная идея ИТВР об информационном центре-эталоне каждого речевого образа приобретает здесь очевидный практический смысл и дополнительное обоснование.

К числу приоритетных направлений для практического применения относится также область современной прикладной лингвистики в части теории и практики преподавания иностранных языков. Разработанная система позволяет существенно расширить арсенал используемых технических и программных средств, особенно для самостоятельной работы учащихся. В подтверждение сказанного можно сослаться на акт о внедрении результатов диссертационной работы в учебный процесс НГЛУ, размещенный в приложении.

Библиография Карпов, Николай Вячеславович, диссертация по теме Теоретические основы информатики

1. Савченко В. В. Информационная теории восприятия речи // Известия вузов России. Радиоэлектроника. 2007. - Вып.6.

2. Helmholtz Н. Die Lehre von der Tonempfindungen als physiologisclie Graudlage fur die Theorie der Musik, Braunschweig, 1870.

3. Chiba Т., Kajiama M. The vowel, its nature and structure. Tokyo,! 941.

4. Фанта Г. Акустическая теория речеобразования,- М.: Наука, 1964.

5. Kent R.D at al.(Eds) Papers in Speech Communication: Speech production, Ac.Soc.of America, 1991.

6. Сорокин В. H. Теория речеобразования. М.: Радио и связь, 1985.

7. Фланаган Дж. JT. Анализ, синтез и восприятие речи,- М.: Связь, 1968.

8. Галунов В.И., Соловьев А.Н. Современные проблемы распознавания речи // Информационные технологии и вычислительные системы, 2004, №2.

9. H.Dudley The Vocoder, Bell Labs. Record 17, 1939. Ю.Покровский H. Б. Расчет и измерение разборчивости речи,- М.:1. Связьиздат, 1962.

10. Галунов В.И. и др. Коллекция речевых баз данных,- Труды ХХХШ Международной филологической конференция. СПб., 2005.12. http: /7 www, nuance .com/ ИС Nuance speech recognition, 8.0.

11. Винцюк Т. К. Сравнение ИКДП и EMM - методов распознавания речи // Методы и средства информации речи. Киев, 1991.

12. Солонина А. И., Улахович Д. А., Яковлев J1. А. Алгоритмы и процессы цифровой обработки сигналов / СПб.: БХВ-Петербург, 2002. -464 е.: ил.

13. Кисельман Б. А. Разработка и исследование алгоритмов распознавания речи для голосового управления через телефонную сеть: Дис.канд. физ.-мат. наук. 05.13.17- Н.Новгород, 2001.

14. Собакин А. Н. Математические методы исследования фонационно-артикуляционных параметров речи: дис. докт. филол. наук. 10.02.21 -М. 2007. '

15. Хайдер А. Математические модели и комплекс программ для автоматического распознавания дикторов: дис. канд. тех. наук 05.13.08 -СПб. 2004.

16. Макхоул Дж., Русос С., Гиш Г. Векторное квантование при кодировании речи. ТИИЭР.- 1985,- 73 с.

17. Адкин М. Ю. Разработка спектральных и апроксимальных методов идентификации объектов и синтез автоматических регуляторов: Дис.канд. физ.-мат. наук 05.13.01- Обнинск. 1998.

18. Репалов С. А. Разработка математических моделей и рабочих алгоритмов идентификации дикторов по их речи: дис.канд. физ.-мат. наук 05.13.18- Ростов на Дону, 2003.

19. Потапова Р. К. Речь: коммуникация, информация, кибернетика: Учебное пособие: Изд. 2-е доп. М.: Эдиториал УРСС, 2001.

20. Левин Б.Р. Теоретические основы статистической радиотехники. — 3-е изд., перераб. и доп. -М.: Радио и связь, 1989,- 656 е.: ил.

21. Фукунага К. Введение в статистическую теорию распознавания образов.: Пер. с англ. М.: Наука. Главная редакция физико-математической литературы,- 1979,- 368 стр.

22. Саврасов Ю. С. Оптимальные решения. Лекции по методам обработки измерений. -М.: Радио и Связь. 2000. 152 е.: ил.

23. Тихонов В. И. Статистическая радиотехника. М.: Советское радио, -1966,- 678 с.

24. Robinson, Е. A. A Historical Perspective of Spectrum Estimation. Переведено под заглавием «История развития теории спектрального оценивания» / ТИИЭР, Т. 70. №9,- сентябрь 1982.

25. Косарев Ю. А. Естественная форма диалога с ЭВМ. Л.: Машиностроение,- 1989.

26. Русанова О. А. Исследование и разработка методов анализа и оценки качества синтезированной устной речи: дис.канд. тех. наук 05.13.17 -Красноярск. 2004.

27. Picone J. Signal Modeling Techniques in Speech Recognition Proceedings of the IEEE, //vol.81, no 9, pp. 1215-1246, Sept. 1993.

28. Маркел Дж. Д., Грэй А. X. Линейное предсказание речи Пер. с англ.; / Под ред. Ю.Н. Прохорова и B.C. Звездина. М.: Связь, 1980. - 308 е., ил.

29. Герасимов А. В. Методы вычисления параметров устойчивой модели и признаков в задаче распознавания речевого сигнала: дис. канд. физ.-мат. наук 05.13.01. Н.Новгород. 2007.

30. Боровков А. А. Математическая статистика. Оценка параметров, проверка гипотез. М.: Наука,- 1984,- 472 с.

31. Дубров А. М, Мхитарян В. С., Трошин JI. И. Многомерные статистические методы. М.: Финансы и статистика, 1998.

32. Савченко В. В., Акатьев Д. Ю. Теоретико-информационное обоснование метода обеляющего фильтра в задачах автоматической обработки речи // Системы управления и информационные технологии. 2008. - №1 (31). - с. 21-30.

33. Кульбак С. Теория информации и статистика. М.: Наука,- 1967.

34. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. - Т.50 №3. -С. 309-314.

35. Савченко В. В. Теоретико-информационное обоснование гауссовой модели сигналов в задачах автоматической обработки речи // Известия вузов России. Радиоэлектроника. 2008. - Вып.1. - С. 24-33.

36. Деврой JL, Дьерфи JI. Непараметрическое оценивание плотностей: Lx-подход: Пер. с англ. М.: Мир,- 1988.- 408 с.

37. Шкулев А. А. Исследование и оптимизация линейной оценки прогнозирования при случайных импульсных искажениях в данных: Дис.канд. тех. наук 05.13.17. Н.Новгород. 2004.

38. Уидроу Б, Стирнз С. Адаптивная обработка сигналов: Пер. с англ-М.: Радио и связь, 1989. 440 е.: ил.

39. Савченко В. В., Акатьев Д. Ю. Автоматическое распознавание случайных сигналов по критерию минимального информационного рассогласования с переспросом // Известия вузов России. Радиоэлектроника. 2006. - Вып.1. - С. 20-29.

40. Goh Z., Tan К.-С., Tan В. Kalman filtering speech enhancement method based on voiced/unvoiced speech model // IEEE Trans. Speech Audio Proces. 1999. -7. P. 510-525.

41. Gannot S., Burnstein D., Weinstein E. Iterative and sequential Kalman filter-based speech enhancement algorithms // IEEE Trans. Speech Audio Proces. 1998. - 6. - P. 373-385.

42. Кисляков С. В. Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания: дис.канд. тех. наук 05.12.13. СПб. 2004.

43. Кильдишев Г. С., Френкель А. А. Анализ временных рядов и прогнозирование. Серия: Математическая статистика для экономистов,- М.: Статистика,- 1973г.- 104 с.

44. Афанасьев В. Н., Юзбашев М. М. Анализ временных рядов и прогнозирование: Учебник. М.: Экзамен, 2001.

45. Savchenko V.V. Autoregressive Model for Recognition of Speech Signals Based on Theoretical Information Approach // VI International Congress on Mathematical Modeling, N. Novgorod, University of N. Novgorod,- 2004,-P.347.

46. Марпл, С.Л.-мл. Цифровой спектральный анализ и его приложения. -М.: Мир, 1990.

47. Levinson, S.C. Mathematical models for speech technology. / Chichester, England: John Wiley & Sons Ltd. 2005. 26lp.

48. Савченко В. В. Различение случайных сигналов в частотной области. // Радиотехника и электроника. 1997. - Т.42. №4. - С. 426.

49. Карпов Н. В., Савченко В. В., Акатьев Д. Ю. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Известия вузов России. Радиоэлектроника.- 2007,- Вып.4,-С. 11-19.

50. Винцюк Т. К. Организация вычислений при распознавании больших словарей // Автоматическое распознавание и синтез речевых сигналов: Сб. науч. тр. Киев, 1989.

51. Мерков А. Б. О статистическом обучении, версия: 20 января 2006. http://www.reco gnition. mccme.ru/pub/RecognitionLab.html/slt.html

52. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. - Т.42. №4. - С.426.бО.Ченцов Н. Н. Статистические решающие правила и оптимальные выводы. М.: Наука, 1972.

53. Мюллер П., Нойман П., Шторм Р. Таблицы по математической статистике. / Пер. с нем. под ред. В.М. Ивановой. М.: Финансы и статистика. - 1982.

54. Савченко В. В. Адаптивные методы спектрального оценивания на основе принципа минимакса энтропии: дис.докт. тех. наук. 05.13.17. Н. Новгород, 1993. - 208 с.

55. Савченко В. В. Принцип минимакса энтропии в задачах статистических решений по ограниченным наблюдениям // Радиотехника и электроника,- 1990. Т.35. №9,- С. 1892 1899.

56. Bahl L. R., Brown P. F., De Souza P. V., Mercer R. L., Picheny M. A. A Method for the construction of acoustic Markov models for words // IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING. Vol. l.N 4. October 1993.

57. Рабинер Л.P. Скрытые марковские модели ' и их применение в избранных приложениях при распознавании речи. ТИИЭР. 1989 т.11 № 2. С. 86 - 120.

58. Ликянюк В. Распознавание речи. Немного истории // http://art.bdk.com.ru/uovor/infasti .htm

59. Федоренко О. Г. Разработка и использование методов повышения эффективности и программно-аппаратных вычислительных средств обработки речевых сигналов: дис.канд. тех. наук. 05.13.17 -Таганрог. 1999.

60. Топровер Г. Л. Базовые единицы слитной речи и их использование в решении задачи свободного естественного языкового человеко-машинного общения: дис.канд. тех. наук. 05.13.01.- М. 1995.

61. Чекмарев, А. Речевые технологии проблемы и перспективы // Компьютерра,- №49 -8 дек,- 1997 г.htip://offline.computerra.ru/1997/226/937/.

62. Bloomfield L. Language. New York: Holt and Co., 1933. русский перевод: Л. Блумфилд. Язык. М., 1968.

63. Аркадьев А. Г. Браверманн Э. М. Обучение машин классификации объектов. -М.: Наука, 1974.

64. Савченко В. В., Карпов Н. В. Анализ фонетического состава речевых сигналов методом переопределенного дерева // Системы управления и информационные технологии, 2.2 (32), 2008. С. 297-303.

65. Савченко В. В. Автоматическое распознавание речи методом дерева на основе информационного (R + 1) -элемента // Известия вузов России. Радиоэлектроника. 2006. - Вып.4. - С. 13-22.

66. Deller J. R., Hansen J. H. L., Proakis J. G. Discrete-Time Processing of Speech Signals, Piscataway (N.J.), IEEE Press. 2000.

67. Нго Куанг Минь, Исследование эффективности адаптивных линейных предсказателей речи для низкоскоростных кодеков: Дис.канд. тех. наук 05.13.17.-М. 1997.

68. Савченко В. В., Пономарев Д. Н. Автоматическое сегментирование речевых сигналов методом обеляющего фильтра // Известия вузов России. Радиоэлектроника. 2008,- Принята к опубликованию.

69. Карпов Н. В. Метод редукции фонетической базы данных для систем автоматического распознавания речи // Актуальные проблемы прикладной лингвистики: Сборник научных статей. Минск: МГЛУ, 2008.-С. 295-298.

70. Карпов Н. В. Адаптация базового словаря для автоматического распознавания речи в автоматизированных системах обучения //

71. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования. Серия: Математическая статистика для экономистов. — М.: Статистика 1979 г. - 254 с.

72. Дружинин Н. К. Математическая статистика в экономике. Введение в математико-статистическую методологию. М. Статистика. 1971 г,-264с.

73. Савченко В. В., Акатьев Д. Ю. Автотестирование качества произношения речи по принципу минимального информационного рассогласования // Современные тенденции компьютеризации процесса изучения иностранных языков: Сборник научных трудов.

74. Луганск: Восточно-украинский национальный университет. 2005. Вып.З. С.205-206.

75. Савченко В. В., Акатьев Д. Ю., Шерстнев С. Н. Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования // Известия вузов. Радиоэлектроника. 2006. - Вып.5. - С. 10-14.

76. Савченко В. В., Карпов Н. В. и др. Информационная система фонетического анализа слитной речи- Программа для ЭВМ. / Свид-во о гос. регистрации № 2008615442 по заявке 2008614233 от 15.09.2008.

77. Дьяконов В. П. MATLAB 6: Учебный курс. СПб.: Питер, 2002.

78. Тимофеев, В. В. С++ как он есть. Самоучитель. М.: ООО «Бином-Пресс», 2004 г. - 336 е.: ил.

79. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. - Т50. №3. - С. 309-314.

80. Савченко В. В., Губочкин И. В. Оптимизация авторегрессионной модели сигналов // Известия вузов России. Радиоэлектроника. 2008. -Вып. 2.системы» / Под редакцией К.А. Пупкова. М.: РУСАКИ, 2008. - С. 423-426.

81. Радзишевский А. Ю. Основы аналогового и цифрового звука. М.: Издательский дом «Вильяме»,-2006.-288 е.: ил.

82. Корнилов, А. Ю. Управление процессом речевой реабилитации с использованием биологической обратной связи: дис.канд. тех. наук. 05.13.01.-Томск. 2005.

83. Серов А. А. Фонематическая таксономия и ее применение для оценки стартовых параметров СММ системами распознавания речи: Дис. кап д. тех. наук. 05.13.05. -М. 2001.

84. Нгуен Ань Туан. Автоматический анализ, распознавание и синтез тональной речи (на материале вьетнамского языка): дис.док. тех. наук 01.01.10.-Москва, 1984.

85. Мандель ИД. Кластерный анализ. М.: Финансы и статистика, 1988.

86. Савченко В. В., Губочкин И. В. Фонетический анализ речи методом переменного дерева // Известия вузов России. Радиоэлектроника. 2008.

87. Савченко В. В., Лукин П. Г. Метод переопределенного словаря в задаче распознавания речевых сигналов // Известия вузов России. Радиоэлектроника. 2006. - Т. 51. №2. С.202-206.

88. Ю1.Миркин, Б. Г. Анализ качественных признаков и структур / Б. Г. Миркин-М.: Статистика, 1980.

89. Когалова Е. А. Роль фонетических средств в формировании культуры устной речи: дис.канд. фил. наук 10.02.05. М. - 2005.

90. Baseline WSJ Acoustic Models for НТК and Sphinx: Training Recipes and Recognition Experiments, Keith Vertanen. Technical Report, Cavendish Laboratory, 2006.

91. Бек Н. Н., Голенко Д. И. Статистические методы оптимизации в экономических исследованиях. Серия: Математическая статистика для экономистов. М.: Статистика. 1971 г. - 136 с.

92. Савченко В. В. Фонема как элемент информационной теории восприятия речи // Известия вузов России. Радиоэлектроника. 2008.

93. Xucdong Huang, Kai-Fu Lee On Speaker-Independent, Speaker-Dependent, and Speaker-Adaptive Speech Recognition // IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING. Vol. 1.1. N2. April- 1993.

94. Соколов А. В., Стеианюк О. M. Методы информационной защиты объектов и компьютерных сетей. М.: ООО «Фирма «Издательство ACT» СПб: ООО «Издательство «Полигон»,- 2000. -272 е.: ил,-(«Шпионские штучки»).

95. Под ред. У. Ли. Методы автоматического распознавания речи: В 2-х книгах. Пер с англ. М. Мир, 1983.

96. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ. Под ред. М.В. Назарова и Ю. Н. Прохорова. М.: Радио и связь,- 1981. -496 е.: ил.

97. Ибрагимов И. А., Хасьминский Р. 3. Асимптотическая теория оценивания. М.: Наука, 1979.