Методы и модели распознавания русской речи в информационных системах

Гусев, Михаил Николаевич

Системный анализ, управление и обработка информации (по отраслям)

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Методы и модели распознавания русской речи в информационных системах

доктора технических наук: Гусев, Михаил Николаевич
город: Санкт-Петербург
год: 2014
специальность ВАК РФ: 05.13.01

Автореферат по информатике, вычислительной технике и управлению на тему «Методы и модели распознавания русской речи в информационных системах»

Автореферат диссертации по теме "Методы и модели распознавания русской речи в информационных системах"

На правах рукописи

З^Ьз—-

Гусев Михаил Николаевич

МЕТОДЫ И МОДЕЛИ РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ В ИНФОРМАЦИОННЫХ СИСТЕМАХ

05.13.01 - Системный анализ, управление и обработка информации (связь и информатизация)

Автореферат диссертации на соискание ученой степени доктора технических наук

005556371

Санкт-Петербург - 2014

005556371

Работа выполнена в Федеральном государственном образовательном бюджетном учреждении высшего профессионального образования «Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича».

Научный консультант: доктор технических наук, профессор

Официальные оппоненты:

Александров Виктор Васильевич, доктор технических наук, профессор, Санкт-Петербургский институт информатики и автоматизации РАН, заведующий лабораторией автоматизации научных исследований

Михайлов Александр Николаевич, доктор технических наук, профессор, ОАО "АВАНГАРД", начальник научно-производственного комплекса

Лебедев Илья Сергеевич, доктор технических наук, доцент, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, профессор кафедры «Безопасные информационные технологии»

Ведущая организация: Санкт-Петербургский государственный университет аэрокосмического приборостроения, г. Санкт-Петербург

Защита состоится 22 октября 2014 г. в 14.00 на заседании диссертационного совета Д 219.004.02 при Федеральном государственном образовательном бюджетном учреждении высшего профессионального образования «Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича», 193232, Санкт-Петербург, пр. Большевиков, д. 22, корп. 1, ауд. 554.

С диссертацией можно ознакомиться на сайте www.sut.ru и в библиотеке Федерального государственного образовательного бюджетного учреждения высшего профессионального образования «Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича» по адресу Санкт-Петербург, наб. реки Мойки, д. 65. Автореферат разослан 22 июля 2014 года.

Ученый секретарь

диссертационного совета Д 219.004.02,

канд. техн. наук, доцент В.Х. Харитонов

Дегтярев Владимир Михайлович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Десятилетиями ученые и инженеры искали способы, которые позволили бы общаться человеку с компьютером на естественном языке. Но до 50-х годов XX века термин «диалог» относился только к разговору двух людей.

В июне 2006 года в Санкт-Петербурге прошла XI Международная конференция SPECOM' 2006. На официальном открытии профессор Лоуренс Рабинер отметил, что исследователи речевых технологий прошли долгий путь. Так, например, исследователями Кембриджского университета (CUED) разработана система НТК, в университете Карнеги-Меллона (CMU) создана система Sphinx, а в Технологическом университете Брно — система Kaldi.

Но, несмотря на успехи, достигнутые в этой области, проблему автоматического распознавания речи еще нельзя считать решенной.

Вопросами общения человека с компьютером (или человека с человеком посредством компьютера) на естественном языке в звуковой форме занимается одно из направлений информационных технологий -речевые технологии.

Бурное развитие речевых технологий вызвано насущными потребностями современного общества в решении практических задач от создания голосовых интерфейсов к информационным системам до инструментов, используемых службами безопасности.

Речевые технологии сегодня - это целый комплекс направлений компьютерной обработки речи человека (синтез и распознавание речи, идентификация диктора по голосу, изменение тембра голоса и т.п.).

Практические задачи решаются на основе исследований и разработок программных и аппаратных систем синтеза, анализа и распознавания речи. Живая человеческая речь значительно отличается от всех технических сигналов. Для ее автоматической обработки недостаточно традиционных способов обработки сигналов - необходимо учитывать свойства восприятия и образования речн. Особенно это относится к распознаванию русской речи.

На сегодняшний день программные средства распознавания русской речи представлены единичными разработками. В России было создано лишь несколько коммерческих систем распознавания русской речи. В основном они обеспечивают распознавание небольшого словаря и рассчитаны на организацию речевых запросов к базам данных и для голосового управления оборудованием.

Это объясняется отсутствием необходимых методов, моделей и алгоритмов, позволяющих решать задачи организации интерактивных голосовых сервисов с должным качеством.

На современном этапе развития информатизации страны особенности строения и восприятия речевого сигнала не учитываются теорией распознавания русской речи, возникает сложная научная проблема разработки и обоснования обобщенного описания методов и моделей распознавания русской речи.

Таким образом, тема исследования является актуальной.

Теоретические и практические предпосылки к проведению данного исследования развиты в работах ученых И.А. Алдошиной, П.А. Скрелина, В.Н. Сорокина, В.В. Александрова, A.JI. Ронжина, В.И. Галунова, A.B. Аграновского и других исследователей.

Цель работы и задачи исследования. Целью диссертационной работы является повышение качества распознавания русской речи в информационных системах путем создания новых методов, моделей и алгоритмов, основанных на углубленных знаниях о свойствах русской речи.

Для достижения цели в диссертационной работе поставлены и решены следующие задачи:

1. Разработка моделей звуков речи на основе структуры звуковой волны.

2. Разработка модели длительности звуков речи.

3. Создание звуковых баз данных.

4. Исследование вариативности произнесения слов русской речи.

5. Исследование особенностей восприятия звуковых сигналов человеком.

6. Разработка модели усредненной речи для распознавания.

7. Создание методов оценки качества передачи речи.

8. Экспериментальная проверка предложенных методов, моделей и алгоритмов их реализаций на комплексе программных средств распознавания речи.

Объект исследования. Русская речь.

Предмет исследования. Методы, алгоритмы и методики распознавания русской речи.

Методы исследования. В диссертационной работе использованы методы: теории информации; теории множеств; теории вероятности,

экспертного и статистического анализа; теории графов; распознавания образов; интеллектуального анализа данных, обработки текстовой информации; распознавания человеческой речи; цифровой обработки сигналов; психоакустики; объектно-орнентированного программирования.

Положения, выносимые на защиту:

1. Модель длительности звуков речи; классификация и модели звуков русской речи, учитывающие структуру звуковой волны, их применение для распознавания речи.

2. Концепция статистической модели речи и метод транскрипционного моделирования вариативности произнесения слов русской речи; их применение для построения универсальных речевых баз.

3. Психоакустическая модель восприятия звуковых сигналов человеком и ее применение в распознавании речи и оценке качества передачи речи.

4. Модель усредненной речи и средства минимизации фонетической сети для поиска ключевых слов и распознавания речи.

5. Методы и программные средства оценки качества передачи речи.

Научная новизна. В работе исследована новая предметная область:

применение методов и моделей распознавания речи, основанных на знаниях свойств речевого сигнала и особенностей его восприятия. Наиболее важные результаты, составляющие научную новизну:

1. Разработана, экспериментально обоснована и исследована статистическая модель длительностей звуков русской речи, отличающаяся использованием модифицированной формулы закона нормального распределения для описания зависимостей и средствами учета длительности в алгоритме распознавания. Статистическая модель длительностей звуков русской речи дает дополнительные возможности повышения качества распознавания речи за счет учета длительности при вычислении подобия, и увеличения скорости распознавания путем исключения из рассмотрения цепочек с некорректной длительностью звуков. Также разработаны классификация и модели звуков русской речи, учитывающие структуру звуковой волны и открывающие широкие возможности повышения точности описания звуков в системах распознавания речи.

2. Разработана концепция статистической модели речи, представляющей собой универсальную речевую базу данных и знаний современного состояния языка. Отличается тем, что объединяет в себе элементы синтезатора речи, статистические данные и корпуса речевых

данных большого объема, со следующими целями: повышения качества синтетической речи, выдаваемой системами синтеза, создания звуковых потоков для обучения систем распознавания речи, тестирования и оценки качества вокодеров и каналов связи. Также статистическая модель речи позволяет проводить фундаментальные исследования.

3. Предложен метод транскрипционного моделирования, отличающийся тем, что правила транскрипционного моделирования формируют с учетом правил пропуска и замены символов, отображающих соответствующие звуки, вставки и смещения новой последовательности относительного центрального звука. Также при формировании правил учитываются как теоретически возможные искажения идеального произнесения, так и зависимости, полученные в результате анализа реальных звукозаписей речи. Предложенный метод позволяет с высокой степенью достоверности определять реальный звуковой состав произносимых высказываний.

4. Разработаны метод и программные средства автоматизации аннотирования речевых баз данных, отличающиеся использованием транскрипционного моделирования для выявления реализованного звукового состава записей базы, позволяющие существенно повысить эффективность процесса разработки.

5. Предложена психоакустическая модель, основанная на теории восприятия звука человеком, расширяющая возможности предварительной обработки звукового сигнала для исключения из него компонент, несущественных для восприятия. Предложенная модель отличается полнотой учитываемых одновременно свойств восприятия звука человеком.

6. Разработаны модель усредненной речи и методика ее построения, основанная на автоматизированном обучении по речевой базе, отличающаяся тем, что для каждого искомого слова формируется персональная структура, исходя из его звукового состава. Модель усредненной речи позволяет унифицировать построение антимоделей в системах поиска ключевых слов и снизить количество ложных срабатываний. Также предложены средства минимизации фонетической сети, позволяющие повысить скорость работы систем распознавания и поиска ключевых слов.

7. Разработаны методы и программные средства оценки качества передачи речи, позволяющие контролировать качество речевого сигнала; Метод АС>иА отличается использованием расширенного набора критических

полос слуха, включая логарифмические и резонаторные полосы; учетом коэффициентов важности различных полос; использованием алгоритмов синхронизации исходного и оцениваемого сигнала; раздельной обработкой активной и неактивной фаз сигнала; возможностью использования специализированных сигналов для оценки качества. Метод М1(}А отличается используемыми параметрами, вычисляемыми как в спектральной, так и во временной областях; применением психоакустической модели; использованием базы ассоциаций, используемых в качестве эталонов при вычислении оценок; формирование базы ассоциаций в результате обучения. Метод 11ес(3иа1 отличается тем, что оценка выполняется не на основе анализа параметров сигнала, а по результатам работы системы распознавания речи. Предложенные методы позволяют получать большую степень соответствия вычисляемых и экспертных оценок.

8. В результате экспериментальных исследований с применением разработанных программных средств доказана эффективность предложенных методов, моделей и алгоритмов.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет всестороннего анализа состояния исследований в данной области, подтверждается корректностью предложенных моделей, результатами тестов, апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях, результатами опытной эксплуатации и внедрения разработанных программных средств.

Практическая ценность работы. Разработанные и предложенные в данной работе методы и модели дают возможность:

— проводить анализ речевых данных;

— создавать системы распознавания речи и поиска ключевых слов с высокой точностью;

— повысить эффективность служб безопасности и аналитики бизнеса;

— повысить уровень автоматизации и качества обслуживания пользователей информационных систем;

— понизить нагрузку на операторов экстренных служб;

— автоматизировать классификацию звуковых архивов;

— ускорить работу операторов колл-центров;

— развивать смежные области, например: определение качества передачи речи и определение языка диктора.

Реализация результатов работы. Результаты работы были использованы при реализации проекта по созданию программного обеспечения голосовых ресурсов в ООО НПФ «Беркут»: на основе упрощенной статистической модели речи был создан компактный синтезатор речи по тексту, работающий в микроконтроллере.

Разработанные программные средства внедрены: в ООО «Новавокс» в системе повышения качества обслуживания звонков Novavox Smartphone Speech Attendant; в ООО «Сарапульские системы» при создании программного обеспечения «Словоискатель»; в программном обеспечении автоматизированной системы самообслуживания лаборатории 17 ИПУ РАН.

Исследования, отраженные в диссертации, реализованы при создании комплекса обработки мультимедийной информации «Буква-2» во ФГУП «НИИ «Квант», а также внедрены в учебном процессе на кафедре информатики и компьютерного дизайна СПбГУТ.

Апробация работы. Результаты работы докладывались на: 57, 58 НТК профессорско-преподавательского состава научных сотрудников и аспирантов ГУТ (Санкт-Петербург, 2005-2006); 11 и 12 международных конференциях SPECOM (Санкт-Петербург, 2006-2007); IV международном конгрессе «Нейробиотелеком - 2010» (Санкт-Петербург, 2010); II и III Международных научно-технических и научно-методических конференциях «Актуальные проблемы инфотелекоммуникаций в образовании и науке» (Санкт-Петербург, 2013-2014); 3-й Международной научно-практической конференции «Современное машиностроение» (Санкт-Петербург, 2013); VIII Международной научно-практической конференции «Перспективные вопросы мировой науки-2013» (Прага, 2013); X Международной научно-практической конференции «Наука и образование-2013/2014» (Прага, 2014).

В 2006 году проекты «Разработка развивающей игры «говорящие кубики»» и «Разработка статистической модели русского языка» вышли в финал конкурса Русских Инноваций 2006.

Публикации. По теме диссертации опубликовано 41 научная работа, из них: 2 монографии и 17 работ в изданиях, входящих в перечень ВАК (4 патента на изобретения, 2 патента на полезные модели, 3 свидетельства о регистрации программы для ЭВМ и 8 статей в научных изданиях).

Личный вклад автора. Все результаты, представленные в диссертации, получены автором лично или в соавторстве. В работах, выполненных в соавторстве, участие автора является определяющим.

Структура и объем диссертации. Диссертация состоит из введения, семи глав, заключения, списка литературы, включающего 189 наименований, и пяти приложений. Работа изложена па 297 страницах без приложений, содержит 11В рисунков, 54 таблицы.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована важность и актуальность темы работы, сформулированы цели и решаемые задачи, определена научная новизна работы и ее практическая значимость. Кратко описаны разработанные методы и модели, а также представлены основные результаты диссертационной работы.

В главе 1 выделены основные элементы систем распознавания (рисунок 1) и проведен анализ методов, моделей и алгоритмов, используемых в распознавании речи.

Инструментарий Скрытых Марковских Моделей (Hidden Markov Model, НММ) может использоваться для моделирования любого временного ряда. НММ - являются мощным инструментом распознавания речевых сигналов и на сегодняшний день представляются оптимальной базой для создания систем распознавания. Большинство известных систем, используемых на практике, основано на НММ.

I Кснстральпмс пффнннепты

I't.l1

Автокорреляционная функция

Ко.ффнннен.ы

Нули ннгенсивпоеш н кратковременная шерпи

J Марковское | моделирование

1 lpoci ые харакпернсгикИ Лноетернорная вероягноеть Отношения нравдонолобия

-| N il

- Mummy.m —| Oiitiimi

Рисунок I - Соответствие этапов распознавания методам и алгоритмам обработки речи

Установлено, что рассмотренные методы и модели не содержат средств, позволяющих учитывать длительность звуков речи в процессе распознавания. Создание модели длительности звуков речи может обеспечить повышение точности описания речевого сигнала.

Выявлена необходимость построения структур моделей, учитывающих

строение звуковой волны, всех звуков русской речи для повышения эффективности распознавания реального речевого сигнала. В настоящее время используется всего одна структура моделей для всех звуков русской речи, т.к. одновременное использование моделей с различной структурой в алгоритме Витерби и его модификациях приводит к некорректному расчету подобия. Требуется усовершенствование алгоритма Витерби и его модификаций с учетом применения моделей звуков речи с различной структурой.

В главе также рассмотрены классификационные признаки систем распознавания речи и предложена классификация (таблица 1), позволившая упростить выбор архитектуры разрабатываемой системы распознавания речи.

В диссертации разработана дикторонезависимая система распознавания слитной речи и ключевых слов с большим словарем, определяемым переменным комплектом фиксированных грамматик, использующая в качестве эталонов элементы слов.

Таблица 1 — Признаки классификации систем распознавания речи

Признаки Тип речи Зависимость от диктора Степень детализации эталонов Объем словаря Тип грамматики

Классы систем Команды Дикторозависимые Слова Малый Командная

Слитная речь Дикторонезависимые Элементы слов Большой Фиксированная

Ключевые слова Автоматическая настройка Диктовка

В главе 2 исследованы классификационные признаки звуков русской речи и предложена смешанная классификация (рисунок 2).

В предложенной классификации звуки объединены в группы не только по артикуляционным признакам, но и по особенностям структуры сигнала:

- щелевые согласные разделены на две дополнительных группы по уровню энергии звуков: громкие и тихие;

- звук «Т'» отнесен к мягким аффрикатам, т.к. его структура к ним ближе, чем к глухим взрывным;

- по близости структуры «V» и «V'», а также глайды «Ь», «Ь'» и «1'» отнесены к назальным сонантам;

- в отдельную категорию выделены дрожащие «Г1» и «Л'»;

- гласные разделяются на два класса не по критерию участия губ в

звукообразовании, а по сложности спектральной картины;

- дополнительно для гласных введен признак твердости/мягкости по взаимодействию с предшествующим «I»;

— дополнительно введен «неопределенный» гласный, который не может быть однозначно идеитифицирован.

ВфЫНПМС

Лффрикить

Тихие

Щс. 1СН1.ТС (фрика | nitiii.li)

Твердые

Тпсрдые

Назальные Твердые

Твердые Ударные

V, Ь, М, N

Мягкие Безударные

У\.Г, 1Л М\№

Мягкие

Ударные _А0, 00

Безударные А1

Твердые

Ударные

' 10. У0, но

Безударные

1 11,1)1

Мягкие

Ударные _ио

Безударные 111

Рисунок 2 - Классификация звуков русской речи

Для потока речи характерна строгая временная направленность, поэтому используется определенная топологическая схема потока, направленного слева направо. Для описания структуры звуков речи идеально подходят скрытые Марковские цепи. Обычно в системах распознавания речи используется общая для всех звуков структура моделей. Примеры таких структур приведены на рисунке 3. Однако такие общие структуры не обеспечивают оптимального результата распознавания, т.к. не учитывают особенности строения, характерные для различных звуков речи.

\ /й« ""'(/О" Q

Рисунок 3 - Примеры общих структур моделей звуков

Для сопоставления звукового сигнала с НММ используется рекуррентный алгоритм Витерби: W,

позволяющий вычислять значение логарифмического правдоподобия на текущем шаге Щ¡(t) исходя из значения на предыдущем шаге 1),

вероятности перехода ач из состояния i в состояние /, и вероятности

порождения ¿До,) состояния j наблюдением о,. Использование логарифма позволяет избежать потери значащих разрядов, имеющих место при прямом вычислении правдоподобия.

В главе исследована структура звуковой волны, соответствующая различным типам звуков русской речи. Было выделено 6 групп звуков (ударные и безударные гласные, сонанты, дрожащие R и R', взрывные и шумные согласные) и для них предложены модели, учитывающие структуру звуковой волны. Выполнена экспериментальная оптимизация предложенных структур моделей звуков. Рассмотрим в качестве примера ударные гласные и сонанты.

С акустической точки зрения гласные представляют собой периодические колебания, вызванные действием голосовых связок и осложненные резонансными частотами речевого тракта. На осциллограмме гласные отображаются как последовательность примерно одинаковых по рисунку участков, соответствующих периодам основного тона.

Ударные гласные можно условно разделить на три основных участка (рисунок 4): начальный переходный процесс (21), «стационарный участок» (3), конечный переходный процесс (4). Особенность ударных гласных состоит в том, что все три обозначенных участка практически всегда

1 Номера участков на осциллограммах соответствую номерам состояний в структурах моделей

встречаются в звуке.

I I

и1 л Т '1

Рисунок 4 - Пример осциллограммы ударного гласного ОО

На основе этой информации для ударных гласных можно рекомендовать использование модели со структурой, представленной на рисунке 5.

Рисунок 5 - Структура МММ для ударных гласных

Из рисунка 5 видно, что выделяются три обязательных состояния и вводится дополнительное, необязательное, «неопределенное» состояние (5). К ударным гласным (рисунок 2) относятся: АО, ЕО, ОО, 10, У0, Ш, _А0, _00,

_ио.

Осциллограммы сонант очень похожи на осциллограммы гласных, но амплитуда сонант обычно меньше амплитуды гласных. Для сонант характерно наличие слабого шума по всему спектру. Сонанты состоят из условно «стационарного» участка (2) и необязательного, неопределенного состояния (3) (рисунок 6). Структура НММ, используемая для описания сонант, представлена на рисунке 7.

Шуи ШЛш

ту Ч Ч гЛМн !» и ¥ Ь (И!

Рисунок 6 - Пример осциллограммы сонанта N

Рисунок 7 - Структура НММ для сонант

К сонантам относятся (рисунок 2): I, Ь\ А/, М, И, V, V, I и К'. Для твердого предусмотрена отдельная модель, т.к. он может содержать как

один, так и два удара.

В результате моделирования для всех звуков были сформированы матрицы переходов, использованные для дальнейшей оптимизации структур моделей. Матрицы переходов показали, что все возможные переходы, предусмотренные исходя из знаний о временном строении звуков, имеют не нулевые вероятности. Это подтверждает «устойчивость» структуры моделей звуков и хорошее соответствие между теорией и практикой.

Матрицы также показали наличие переходов с малой вероятностью. В результате экспериментов было установлено, что переходы с низкой вероятностью можно исключить из матриц и заменить нулем без ущерба для точности распознавания. Таким образом структура звуковых моделей была оптимизирована.

Эффективность системы распознавания речи во многом зависит от точности представления фонетических явлений в языке с помощью математических структур. Первым шагом на пути повышения точности описания стало использование специализированных структур моделей для звуков разных групп. Дальнейшее повышение точности может быть достигнуто с использованием специальных способов обучения.

Для обучения звуковых моделей применяются большие звуковые базы данных, содержащие сотни часов записей речи множества дикторов, и фонетическую транскрипцию этих записей. Обычно транскрипция формируется автоматически по текстам, соответствующим звукозаписям, на основе канонических правил транскрибирования. Сложность заключается в том, что в реальной речи произношение далеко не всегда совпадает с идеальным, а значит и параметры моделей, полученные в результате обучения, не будут описывать речевой сигнал с высокой точностью.

В главе предложен способ автоматизации аннотирования больших речевых баз, позволяющий минимизировать долю ручного труда и влияние человеческого фактора. При аннотировании используются модели звуков речи, учитывающие структуру звуковой волны. Для учета вариативности произнесения фраз дикторами и повышения точности описания звукового состава высказываний разработан метод транскрипционного моделирования.

В основе предлагаемого способа лежат три основных компонента: система распознавания речи, текстовый процессор и система транскрипционного моделирования. Основная идея заключается в том, что нужно «научить» систему распознавания речи подготавливать обучающие

данные.

Общая схема способа (рисунок 8) включает 7 этапов обработки: первый- ручной, последний - автоматизирован частично, остальные -полностью автоматизированы.

Рисунок 8 - Общая схема способа автоматизации аннотирования речевых баз

Из схемы видно, что на четвертом этапе к каждой идеальной транскрипции применяется алгоритм транскрипционного моделирования, формирующий множество «реально возможных» транскрипций, из которых далее будет осуществляться выбор варианта произношения, наиболее близкого к реально реализованному диктором (рисунок 9).

Идеальные гранскрнпним

~7~

ринскрникмонн»! (I мо.и\ч|||х>н;шия

Ф.|Н!Ы рсально-но |Ч(1Жных фанскримкнн

Рисунок 9 - Транскрипционное моделирование

Необходимость транскрипционного моделирования объясняется тем, что произнесение слов обладает значительной вариативностью - одно и то же слово, сказанное одним и тем же человеком, может состоять из разных наборов звуков.

Цель транскрипционного моделирования: сформировать максимально

возможное количество вариантов произношения, для последующего выбора наиболее близкого к реально реализованному диктором.

Транскрипционное моделирование основано на применении правил моделирования, список которых формируется как на основании знаний, так и в результате наблюдений. Такой двойной подход к формулированию правил позволяет строить транскрипции наиболее близкие к произношениям, встречающимся в действительности.

Описанный способ автоматизации аннотирования больших речевых корпусов позволяет значительно снизить объем ручной работы, что в несколько раз сокращает временные и материальные затраты. Использование лингвистического процессора и модуля транскрипционного моделирования дает возможность автоматически определять реальный звуковой состав фраз, а знание о строении звуков, перенесенное в модели, позволяют системе распознавания определять границы звуков с высокой точностью.

Алгоритмы коррекции границ звуков позволяют учесть особенности строения сигнала и неточности сегментации, получаемой на выходе системы распознавания, а также скорректировать сегментацию таким образом, что ручной постобработки практически не потребуется, и автоматически сформированная аннотация может сразу применяться для формирования синтезированного речевого потока или обучения системы распознавания речи.

Аннотация звуковой базы, полученная с применеЕшем алгоритмов коррекции границ звуков, оказывается более адекватной и позволяет осуществлять синтез речи по тексту с высокими показателями разборчивости и естественности.

Выбор реально реализованных транскрипций фраз, используемых при обучении системы распознавания речи, позволяет повысить точность обучения звуковых моделей и, соответственно, увеличить качество распознавания.

Особенность предлагаемого способа состоит в том, что он позволяет получить аннотацию практически любой записи речи, даже если она изначально не предназначалась для использования в качестве речевой базы данных. Необязательным является и наличие текстов звукозаписей - они могут быть сформированы во время подготовительного этапа.

Для проверки предлагаемого способа было проведено тестирование на

звуковой базе, не участвовавшей в обучении и содержащей более 25000 высказываний (около 13 часов звука), относящихся к 5 грамматикам. В результате эксперимента были получены следующие проценты распознавания для стандартных моделей звуков и моделей звуков со структурой, учитывающей особенности их артикуляции (таблица 2).

Из таблицы 2 видно, что на всех тестовых грамматиках имеет место прирост процента правильного распознавания при использовании моделей звуков, учитывающих процессы речеобразования и обученных на звуковой базе, аннотированной с помощью предложенного способа. Вероятность ошибочного распознавания сокращается на 18-41 %.

Таблица 2 - Сравнительные точности системы распознавания

Грамматика распознавания Количество Точность распознавания, % Уменьшение ошибки, %

Слов Записей Без применения модели С применением модели

Названия фильмов 193 2853 97,05 98,27 41,36

Названия станций метро 95 3142 98,02 98,54 26,26

Даты 43 7536 97,67 98,10 18,45

Названия стран 55 4523 99,20 99,46 32,50

Названия городов 234 5376 97,31 98,32 37,55

В главе 3 предложена концепция статистической модели речи, представляющей собой отображение современного состояния русского языка, на основании которого потомки смогут узнать, что и как говорили, какими голосами, с какими интонациями.

В последние годы во многих странах мира ведется работа по организации звукового материала в виде компьютерных баз данных. Основная идея статистической модели речи заключается в создании универсальной базы данных и знаний, позволяющей решать, как прикладные задачи, так и проводить фундаментальные исследования.

Создание статистической модели представительной по типам голосов, по наборам звуков, по интонационному оформлению и словарному запасу, позволяющей моделировать речевой поток групп населения, различных по возрасту, полу, роду деятельности и социальному положению, снимет вопрос об ограниченности по многим параметрам исследуемых речевых корпусов.

В работе предложены способы предварительной обработки звуковых

сигналов и способы модификации физических характеристик звуков речи, сокращающие высокочастотные искажения и повышающие естественность звучания сформированного речевого сигнала.

Также в работе предложена программная реализация упрощенного варианта статистической модели, включающая в себя все необходимые алгоритмы и основные структуры данных. Упрощенная модель позволяет разрабатывать системы синтеза, генерирующие речь разными голосами с высокой естественностью и разборчивостью; обучать звуковые модели в системах распознавания и моделировать речевой поток, предназначенный для оценки качества систем передачи и обработки речи.

Упрощенная статистическая модель будет пополняться по мере подготовки данных и постепенно становиться полноценной моделью.

Статистическая модель объединяет статистические данные о составе населения, речевые базы типовых дикторов (ТД), средства обработки речевого сигнала (алгоритмы синтеза), средства для определения параметров звуков речи, алгоритмы генерации распределений звуков и дикторов. Общая структура статистической модели представлена на рисунке 10.

Рисунок 10 - Укрупненная структура статистической модели

Интерфейсный блок (блок № 1) обеспечивает взаимодействие с внешним миром (или Пользователем). Он также осуществляет синхронизацию работы остальных блоков статистической модели.

Блок выбора диктора (блок № 2) осуществляет генерацию выборки ТД (или последовательности индексов ТД). В зависимости от команды может быть сгенерирована либо представительная выборка ТД, либо выборка, состоящая из одного ТД. Выборка является представительной в том смысле, что распределение параметров речи в выборке будет соответствовать распределению параметров речи населения, описываемого моделью.

Сформированная последовательность идентификаторов ТД сохраняется для дальнейшего использования в блоке выборки ТД (блок № 3).

Блок выбора звуков (блок № 4) формирует просодику (описания звуков). В зависимости от команды просодика формируется либо для представительной выборки звуков, либо для заданной последовательности звуков, либо для одного заданного звука.

Просодика сохраняется в буфере просодики (блок № 5) до дальнейшего использования.

Блок формирования речевого потока (блок № 6) преобразует описания звуков в отсчеты звукового сигнала.

Блок описаний ТД (блок № 7) хранит описания ТД и возвращает по запросу: необходимые части описаний, информацию об их количестве, список дикторов.

Статистическая модель речи предназначена для работы в составе различных систем, в которых требуется моделировать речевой поток. Пользователь может выполнять запросы следующих типов:

- запрашивать список типовых дикторов (ТД), представленных в модели;

- синтезировать отдельные звуки голосом любого ТД;

- синтезировать цепочки звуков голосом любого ТД;

- генерировать звуковой поток, характеризующий одного ТД;

- генерировать звуковой поток, характеризующий население, описываемое моделью;

- отменять генерацию звукового потока.

Создание статистической модели подразумевает ряд особенностей с точки зрения наполнения базы данных:

- больший объем исходного речевого корпуса;

- использование большего количества классификационных признаков при сегментации и описании речевого корпуса;

- включение в базу дополнительной статистической информации по каждому ТД;

- наличие описаний интонационных контуров для каждого ТД;

- возможность одновременной работы со структурными элементами разного размера и формата.

Особенностью модели также являются применяемые алгоритмы обработки:

- возможность выбирать из базы цепочки звуков (или отдельные звуки), требующие наименьшей модификации, или вовсе в ней не нуждающиеся;

- специально разработанные алгоритмы изменения длительности звуков разных типов, минимизирующие искажение перцептивных свойств звуков;

- специально разработанные (или модифицированные) алгоритмы изменения ЧОТ звуков разных типов, минимизирующие искажение их перцептивных свойств;

- разнообразие контекстных реализаций звуков позволит синтезировать речевой поток, обладающий высокой естественностью;

- достижение высокой естественности за счет применения интонационных контуров, специально подобранных для каждого ТД.

Статистическая модель не зависит от языка. Язык, с которым будет работать модель, определяется лишь теми данными, которыми наполнена модель — все алгоритмы и интерфейсы сохранятся. В будущем возможно создание не «статистической модели русского языка», а «статистической языковой модели», охватывающей все живые языки мира.

Область применения статистической модели крайне широка. Статистическая модель может быть востребована во всех областях науки и техники, связанных с передачей, обработкой, сжатием и хранением, синтезом и распознаванием речевых сигналов.

В главе 4 исследованы причины вариативности звуков речи: стиль речи, эмоциональное состояние диктора, наличие акцента. Также исследованы зависимости длительностей звуков от длины высказывания, положения звука во фразе и звукового контекста.

Построены гистограммы вероятностей появления фонем различной длительности и установлено их существенное различие. Выявлены основные формы зависимости вероятности появления фонем от их длительности.

В результате анализа 40 часов сегментированных записей речи, были построены гистограммы вероятностей появления фонем различной длительности. Звуки короче 36 мс и длиннее 720 мс считались невалидными, н при построении гистограмм не учитывались. Диапазон допустимых длительностей был разбит на 57 отрезков по 12 мс каждый.

Выяснилось, что зависимости для разных фонем существенно различаются. Были выявлены три основных формы зависимостей,

получившие условные названия «коса» (рисунок 11, а), «нормальное» (рисунок 11,6) и «шляпа» (рисунок 11, в). Наиболее часто встречается распределение вида «нормальное». Им описывается около 2/3 всех зависимостей. Еще около 1/3 фонем описываются зависимостью типа «коса», и только для трех фонем характерна зависимость типа «шляпа».

в)

Рисунок 11 Подбор параметров законов распределения разных видов: а) распределения для фонемы «@»; 6) распределения для фонемы «а»; в) распределения для фонемы «/;'»

Для моделирования зависимостей предложена модифицированная формула закона нормального распределения (1). Видно, что (1) получена из закона нормального распределения путем введения трех параметров:

Изменение параметра а\ приводит к сдвигу кривой (при увеличении -влево, при уменьшении - вправо); параметр аг регулирует вертикальное растяжение/сжатие (увеличение параметра растягивает кривую, уменьшение - сжимает); параметр аз управляет горизонтальным растяжением/сжатием (увеличение аз сжимает кривую, уменьшение -растягивает).

Для подбора параметров законов распределений фонем разработано программное обеспечение, реализующее метод градиентного спуска с переменным шагом. В качестве минимизируемой целевой функции

используется квадратичная ошибка:

Е, (а,, а,, а,) = £ (/ё(. - /,. (а,, а,, а,))", (2)

/=э

где /е( - экспериментальное значение вероятности появления фонемы в отрезке у; /Да,,;;,,^) - моделируемое по (1) значение вероятности появления фонемы в отрезке у.

Есть две причины выбора целевой функции вида (2): важнее добиться высокой точности описания для больших значений функции распределения, чем для меньших; в некоторых отрезках ] значение /е; может равняться нулю из-за того, что количество реализаций данного фона мало.

В таблице 3 представлены параметры законов распределений, использованных в качестве примера форм зависимостей (рисунок 11).

Таблица 3 - Параметры законов распределения и величина ошибки

Фонема т О а\ О! аз Е

@ 4,296139 4,004516 1,873084 3,059915 0,233991 0,000195

а 7,877618 8,097394 0,470001 1,867001 1,985900 0,000318

К 9,718665 17,485761 0,460000 6,694901 6,969100 0,000741

Из рисунка 11 и таблицы 3 видно, что предложенная общая формула закона распределения (1) позволяет с высокой точностью моделировать зависимость вероятности появления фона от его длительности. Дополнительно следует заметить, что при моделировании длительность бралась не в мс, а в интервалах.

Считается, что длительности звуков зависят от длины высказывания и с увеличением длительности высказывания средняя длительность звуков уменьшается. Также считается, что начальные сегменты оказываются короче конечных, причем длительность зависит от количества звуков, оставшихся до конца высказывания.

Данное мнение было проверено экспериментально. Для различных звуков речи были построены экспериментальные законы распределения вероятности появления звука заданной длительности в заданной позиции высказывания. На основании полученных семейств распределений сделаны следующие выводы о том, что зависимость длительности звука от положения в высказывании не так велико, как принято считать; и что законы распределения длительностей для начальных и конечных фонем

высказываний существенно отличаются от законов распределений звуков, расположенных внутри высказываний.

Также считается, что длительности звуков речи зависят от количества звуков в высказывании. Для проверки этой гипотезы были определены средние значения длительностей звуков в высказываниях, содержащих от 2 до 78 звуков. Полученные зависимости подтверждают: наличие связи между количеством звуков во фразе и их длительностью, существование общей тенденции убывания длительности звуков с увеличением их числа в высказывании и уникальность вида зависимости для звуков разных типов.

Сказанное свидетельствует о целесообразности учета длительности высказываний (выраженной в количестве звуков речи) в модели длительностей звуков.

В системах синтеза речи по тексту широко применяются правила для коррекции длительности звуков в зависимости от контекста. Так, например, следующий за ударным звуком согласный звук укорачивается на 25 мс; звук, следующий за укорачиваемым согласным, также укорачивается на 25 мс; гласный, предшествующий звонкому согласному, удлиняется на 20 мс; предшествующий щелевому согласному гласный удлиняется на 15 мс; и т.д.

В результате исследования встречаемости звуков в различных контекстах было решено выделить четыре контекстных группы, для которых были построены зависимости вероятностей. Эксперимент показал, что контекст определяет форму зависимости и, следовательно, включение контекстов в создаваемые модели длительностей звуков представляется целесообразным.

На основе алгоритма пересылки маркера разработаны способы учета длительности фонем в алгоритмах распознавания: способ тающего максимума и способ контроля за пересылкой маркера.

В таблице 4 приведены результаты тестирования системы распознавания на пяти грамматиках. В тестировании использовалось более 15 тысяч файлов с записями команд (от 2 до 4 тысяч команд на грамматику).

Проведенные эксперименты показали устойчивое увеличение процента правильного распознавания на всех грамматиках и верность выбора учитываемых зависимостей. Следовательно, экспериментально подтверждена эффективность предложенной модели длительности звуков русской речи и способов учета длительности фонем в алгоритмах распознавания.

Таблица 4 - Точности системы распознавания с учетом моделей длительности фонем

Грамматика распознавания Точность распознавания, %

без применения модели с применением модели разница

Список ФИО сотрудников 1 89,6 95,2 5,6

Список ФИО сотрудников 2 91,2 94,5 4,3

Служебные слова 96,8 98,2 1,4

Названия станций метро 93,3 97,9 4,6

Названия цифр пинкода 80,5 84,3 3,8

В главе 5 исследованы процессы образования и восприятия речи, а также свойства звуковых сигналов и особенности восприятия звука человеком. На их основе предложена психоакустическая модель, позволяющая выделять компоненты звукового сигнала, существенные для восприятия человеком.

Основу психоакустической модели (рисунок 12) составляют различные, полученные экспериментально, зависимости, оформленные в виде таблиц значений. Модель включает в себя три уровня: пси-фильтрацию, нормализацию уровней и перевод в различимые градации.

Пси-фильтр

тг

Укрупненная схема пси-фильтра

11ре;и-|дуии1н фрейм

Нормализация уровней

О-

Перевод в различимые градации громкости

Текущий фрейм

Пс и-маскер

Результирующий фрей

Прсыбра'ини

Рисунок 12 - Укрупненная схема психоакустической модели и пси-фильтра Пси-фильтрация - наиболее сложный уровень обработки. На рисунке 12 представлена укрупненная схема пси-фильтра. Поступающий фрейм данных сохраняется в блоке текущего фрейма и передается на вход пси-маскера. На основе поступивших данных формируется пре-маска. Пре-маска накладывается на предыдущий фрейм данных, и результат маскирования

принимается за выходное значение фильтра.

Кроме того, маскером формируется текущая маска, являющаяся объединением внутренней- и пост-масок. Текущая маска накладывается на текущий фрейм данных, и результат маскирования сохраняется в блоке предыдущего фрейма.

Процедура построения масок включает следующую последовательность действий: загрузка спектра; обработка порога слышимости; маскирование флюидных уровней; разделение спектра на тоны и шумы; построение масок от тональных компонент; построение масок от шумовых компонент; объединение масок от тональных и шумовых компонент; объединение текущей маски с пост-маской; формирование пост-маски для следующего фрейма; формирование маски для предыдущего фрейма; перевод маски в пользовательский диапазон значений.

Воспринимаемый уровень громкости звука имеет сложную зависимость от интенсивности и частоты. Второй уровень психоакустической модели осуществляет перевод интенсивностей компонент спектра в соответствующие значения уровня воспринимаемой громкости. Для пересчета используется семейство кривых равной громкости. По значению частоты и интенсивности компоненты спектра определяется пара кривых равной громкости, между которыми находится нормализуемое значение. Затем, с помощью линейной интерполяции, определяется соответствующее значение громкости в фонах. В рамках реализованной психоакустической модели под различимой градацией понимается минимально заметное на слух изменение амплитуды сигнала. Частотная разрешающая способность слуха -не учитывается.

Известно, что в зависимости от уровня громкости и частоты сигнала разрешающая способность слуха варьируется от 2 до 40 %. Общая громкость сигнала определяется как сумма максимальной громкости по всем компонентам спектра и 0,3 средней громкости по всем остальным компонентам спектра. Так как при расчете градаций используются воспринимаемые уровни громкости, вызов третьего уровня психоакустической модели возможен только после применения второго уровня.

Для рассчитанного уровня громкости интерполируется кривая амплитудной разрешающей способности. Для каждой компоненты спектра определяется минимально-различимое изменение громкости, и текущий

уровень громкости компоненты спектра делится на найденное значение.

Внедрение фильтров, учитывающих особенности восприятия звука человеком, позволило убрать несущественные для восприятия компоненты спектров и повысить для системы распознавания различимость звуков речи.

Проведены эксперименты по распознаванию речи с использованием предложенной психоакустической модели (таблица 5). Выявлены элементы модели, позволяющие повысить процент правильного распознавания, а также элементы модели, требующие дальнейшего исследования свойств восприятия звуковых сигналов: временная маскировка, различимые градации громкости и нормализация уровней громкости.

Таблица 5 - Точность системы распознавания «без» и «с» использованием психоакустической модели

Грамматика распознавания Точность без применения модели Точность с применением модели Разница

Список ФИО сотрудников 1 71,4 78,3 6,9

Список ФИО сотрудников 2 66,7 71,1 4,4

Служебные слова 78,6 83,9 5,3

Названия станций метро 70,3 74,2 3,9

Названия цифр пинкода 59,1 64,3 5,2

Установлено, что моделирование порогов слышимости, флюидных уровней, тонального и шумового маскирования повышает процент правильного распознавания на 3,9-6,9 %.

В главе 6 изучены возможные подходы к созданию систем поиска ключевых слов и фраз, определены основные компоненты разработанной системы поиска.

Предложен алгоритм минимизации фонетической сети (ФС), позволяющий ускорить работу компонент системы, отвечающих за распознавание речи. Приведены данные по сокращению количества узлов сети при применении предложенного алгоритма, подтверждающие его эффективность (таблица 6). Среднее сокращение узлов сети составляет 37 %.

Задача модели усредненной речи - описать слова речи, не являющиеся искомыми. В работе рассмотрены различные способы построения моделей усредненной речи и выбора параметров поиска, реализуемые различными режимами работы разработанных программных средств.

Таблица 6 - Результаты минимизации

Название фонетической сети Кол-во узлов Слева на право Справа на лево Итого

проходы проходы узлы проходы узлы узлы относ.

Названия улиц Москвы 41892 8 15396 42 9063 17433 0,58

Названия городов России 1256 5 128 14 151 977 0,22

Служебные слова 88 2 3 9 15 70 0,20

Фамилии и имена 7600 7 2905 19 1293 3402 0,55

Названия станций метро 826 5 32 19 186 608 0,26

Фамилии 3974 6 914 13 764 2296 0,42

В результате экспериментов была разработана универсальная модель усредненной речи, позволяющая выполнять поиск любых ключевых слов (КС). Универсальность обеспечивается за счет построения персональной модели для каждого искомого слова, на основании общей схемы (рисунок 13).

Можно выделить три части модели: две модели заполнения, представляющих собой префикс и постфикс, и модель речевого мусора. Модели заполнения отличаются списками филлеров, которые определяются исходя из начального/конечного звуков искомого слова. Длина модели речевого мусора определяется длиной транскрипции искомого слова, а состав филлеров в каждом элементе - фонами, образующими транскрипцию.

Для всех звуков были обучены списки филлеров, обеспечивающие максимальную точность поиска при минимальном количестве ложных срабатываний. Также были обучены списки начальных и конечных филлеров для различных начальных и конечных звуков.

Введены критерии оценки точности работы системы поиска ключевых

слов. Правильно найденной считается реализация, если пересечение между найденными границами слова и реальными (Мкр) составляет не менее 85 %

(3):

RL > FR

(Ш > FL)&(RR < Г К)

м„,.. = т-\ „„ „; , {RL<FL)&(RR>FR), (3)

{Ш<Р1)&(1{11> и.)

1 fr- fl

rr-rr- rl fl

rr-fr- rl rl

rr- rl

(rl < fr)&(rr > fr)

где ЯЬ - реальная левая граница слова; Ш1 - реальная правая граница слова; ИЬ - найденная левая граница слова; БИ. - найденная правая граница слова.

Результаты тестирования разработанного программного обеспечения в различных режимах работы представлены в таблице 7. Тестирование системы проводилось на звуковых файлах общей длительностью звучания чуть больше часа (1 час 2 минуты и 37 секунд). Звонки были выполнены с городских телефонных аппаратов. В тестировании приняло участие 10 дикторов (6 мужчин и 4 женщины).

Таблица 7 - Показатели качества работы системы

Ключевое слово Тюнингованные Смарт-авто Стандарт Короткий

DR FA2 DR FA2 DR FA2 DR FA2

Кодовое слово 100,00 38,49 100,00 14,94 100,00 400,97 96,00 1350,48

Кредит 96,00 170,00 87,00 11,05 93,00 362,00 96,00 3570,27

Задолженность 100,00 48,11 91,00 5,14 100,00 131,52 83,00 1376,14

Номер карты 83,00 38,49 93,00 10,32 96,00 109,06 76,00 1661,63

Конфиденциально 95,00 79,57 85,00 9,56 88,00 230,67 74,00 982,59

Ваканси 95,00 84,04 89,00 3,73 91,00 167,00 84,00 1957,15

94,83 76,45 90,83 9,12 94,67 233,54 84,83 1816,38

DR (Detection Rate) - определяет процент правильно обнаруженных слов;

FA (False Alarm) - определяет количество ложных срабатываний в час.

Модели усредненной речи с фиксированной структурой (графы «Стандарт» и «Короткий») обеспечивают высокую точность обнаружения, но количество ложных срабатываний делает невозможным практическое

применение универсальных моделей.

Наилучшие показатели точности работы системы обеспечиваются настройкой модели усредненной речи по обучающим данным (графа «Тюнингованные»), Основной недостаток такого режима состоит в том, что пока не выполнена настройка моделей по обучающим данным, поиск невозможен. А это значит, что список искомых КС не может изменяться оперативно по мере необходимости.

В результате оптимальным оказывается режим автоматического формирования моделей усредненной речи исходя из фонетического состава КС (графа «Смарт-авто»). Режим обеспечивает приемлемое для практического применения качество обнаружения КС и уровень ложных срабатываний.

В главе 7 проведен анализ основных особенностей стандартных методов оценки качества передачи речевых сигналов, предложена классификация методов. Обоснована необходимость разработки новых методов оценки качества, позволяющих получать оценки с большей точностью.

В работе предлагаются три метода оценки качества передачи звуковых сигналов.

Предложен метод оценки качества AQuA (Audio Quality Analyzer) -представляющий собой альтернативу стандартным методам оценки качества, зафиксированным в рекомендациях ITU-T Р.861и Р.862. Метод AQuA можно рекомендовать для оценки качества связи в CDMA сетях, т.к. согласно исследованию Bruno Daniel M.L. в этом случае точность оценок AQuA превосходит точность оценок PESQ.

Проведенные эксперименты на речевой базе ITU-T также показывают предпочтительность использования предложенного метода в ряде случаев (таблица 8).

Таблица 8 - Сравнение алгоритмов 1TU-T Р.562 и AQuA

Язык Сумма ошибок

по ITU-T Р.562 (MOS-WB-LQO) по AQuA

Японский 59,31 103,63

Французский 80,03 74,12

Английский 135,92 75,58

Предложен метод NIQA (Non-Intrusive Quality Analyzer) в качестве альтернативы стандарту Р.563. Для испытаний использована речевая база

ITU-T. В тестировании задействованы записи фраз на английском языке (всего 376 файлов). Все записи были разделены на 4 группы в зависимости от полученных экспертных оценок MOS. По всем группам записей были определены средние экспертные оценки и средние оценки и ошибки NIQA (таблица 9). Для сравнения в таблице 9 также приведены средние значения ошибок, полученные при испытании алгоритма Р.563.

Таблица 9 - Сравнение результатов алгоритмов NIQA и Р.563 с экспертными оценками

Диапазон MOS Средняя оценка Средняя ошибка

по MOS по NIQA по NIQA по Р.563

4-5 4,25 3,44 0,83 1,79

3-4 3,42 3,06 0,51 1,69

2-3 2,56 2,61 0,43 0,97

1-2 1,68 2,36 0,68 0,55

Проведенные эксперименты показали, что алгоритм NIQA обеспечивает лучшее соответствие вычисляемых оценок экспертным, чем алгоритм рекомендации Р.563. Точность алгоритма NIQA уступает точности алгоритма Р.563 только на записях с очень низкими значениями экспертных оценок (в диапазоне от 1 до 2). Во всех остальных случаях точность оценок NIQA оказывается в 2-3 раза выше.

Предложен метод оценки качества RecQual (Recognition + Quality) в качестве альтернативы стандарту Р.563. В таблице 10 представлено сравнение оценок, полученных для выбранных тестовых файлов по алгоритмам RecQual и Р.563.

Сравнение метода RecQual со стандартом измерения Р.563 по таблице 10 показывает, что среднее отличие RQ оценки от экспертной в два раза меньше, чем у принятой рекомендации Р.563, которая обеспечивает высокий уровень корреляции автоматических оценок с экспертными. Следовательно, основная гипотеза метода верна, а предложенный метод адекватен и применим. Однако требуются дополнительные исследования и учет дополнительных параметров сигнала для повышения точности и осмысленности оценок.

Таблица 10-Сравнение результатов алгоритмов 11ес(3иа1 и Р.563 с экспертными оценками

Диапазон МОБ Средняя оценка Средняя ошибка

МОБ яо яо Р.563

4-5 4,24 3,32 0,92 1,79

3-4 3,44 2,81 0,71 2,08

2-3 2,52 2,56 0,53 0,88

1 -2 1,69 1,94 0,25 0,74

Методы ЛС)иА и Ы1(}А нашли широкое практическое применение и зафиксированы в патентах РФ (№ 2312405 и № 2435232). Яес0иа1 находится в стадии апробации и проработки деталей, однако уже сейчас проведенные эксперименты подтвердили эффективность данного метода.

ЗАКЛЮЧЕНИЕ

В диссертации содержится постановка и решение крупной научной проблемы — учет особенностей строения и восприятия речевого сигнала в теории распознавания русской речи и на этой основе разработка методов и моделей распознавания русской речи в информационных системах, имеющей важное хозяйственное и культурное значение.

Получены следующие основные результаты, обеспечивающие достижение цели диссертационного исследования:

1. Разработана, экспериментально обоснована и исследована статистическая модель длительностей звуков русской речи; разработаны классификация и модели звуков русской речи, учитывающие структуру звуковой волны, использованные в разработанных программных средствах распознавания речи и поиска ключевых слов. Проведенные эксперименты показали увеличение точности распознавания на 1,4-5,6 %.

2. Разработана концепция статистической модели речи, представляющей собой универсальную речевую базу данных и знаний современного состояния языка, позволяющая проводить фундаментальные исследования и решать прикладные задачи.

3. Предложен метод транскрипционного моделирования, позволяющий учитывать вариативность звукового состава произносимых высказываний в системах распознавания речи и при подготовке речевых баз данных.

4. Разработаны метод и программные средства автоматизации аннотирования речевых баз данных, сокращающие долю ручного труда по обработке и анализу исходных звуковых данных. Эксперименты показали, что использование предложенного способа аннотации при обучении систем распознавания позволяет сократить вероятность ошибочного распознавания на 18—41%.

5. Предложена психоакустическая модель и программные средства предварительной обработки звукового сигнала, позволяющие исключить из его дальнейшего анализа компоненты, несущественные для восприятия. Экспериментально установлено, что применение психоакустической модели увеличивает точность распознавания на 3,9-6,9 %.

6. Разработаны модель усредненной речи и методика ее построения, основанная на автоматизированном обучении по речевой базе, экспериментально подтверждена эффективность их применения для поиска ключевых слов: средняя точность обнаружения составляет 90 % при 10 ложных срабатываниях в час.

7. Разработаны методы и программные средства оценки качества передачи речи, позволяющие контролировать качество речевого сигнала, в том числе и с использованием средств распознавания речи.

8. В результате экспериментальных исследований с применением разработанных программных средств подтверждена эффективность предложенных методов, моделей и алгоритмов распознавания, анализа и обработки речевых сигналов.

СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Гусев, М. Н. Оценка качества восстановленной и синтетической речи / М. Н. Гусев, В. М. Дегтярев // Труды учебных заведений связи, СПбГУТ. - 2005. -№ 172. - С. 64—72 {на момент публикации входил в перечень ВАК).

2. Гусев, М. Н. Компьютерная статистическая модель русского языка / М. Н. Гусев, В. А. Смирнов, В. М. Дегтярев // Труды учебных заведений связи, СПбГУТ. - 2006. -№ 174. - С. 129-135 {на момент публикации входил в перечень ВАК).

3. Гусев, М. Н. Моделирование длительности звуков в системе распознавания речи / М. Н. Гусев, В. М. Дегтярев // Вопросы радиоэлектроники. Серия Общетехническая. -2010. - Вып. 2. - С. 106-115 {из перечня ВАК).

4. Гусев, М. Н. Увеличение производительности системы распознавания речи / М. Н. Гусев, В. М. Дегтярев // Вопросы радиоэлектроники. Серия Общетехническая. -2010. - Вып. 2. - С. 115-126 {из перечня ВАК).

5. Гусев, М. Н. Функция лингвистического процессора в системе

автоматического анализа неструктурированной речевой информации / В. А. Смирнов, М.Н.Гусев, М. П. Фархадов // Автоматизация и современные технологии. - 2013. -№ 8. - С. 22-28 (из перечня ВАК).

6. Гусев, М. Н. Функция модуля акустического моделирования в системе автоматического анализа неструктурированной речевой информации / В. А. Смирнов, М. Н. Гусев, М. П. Фархадов // Управление большими системами. - 2013. - Вып. 45. -С. 181-205 (из перечня ВАК).

7. Гусев, М. Н. Психоакустическая модель в системе распознавания речи / М. Н. Гусев // Системы управления и информационные технологии. - 2014. -№ 1.1 (55). -С. 125-131 (из перечня ВАК).

8. Гусев, М. П. Построение модели усредненной речи / М.Н. Гусев, В. А. Смирнов // Системы управления и информационные технологии. - 2014. - № 2.1 (56). - С. 133-137 (из перечня ВАК).

9. Пат. 2296377 Российская Федерация, МПК в 10 Ь 19 / 14 (2006.01). Способ анализа и синтеза речи, Гусев М. Н., Дегтярёв В. М., Ситников В. В.; заявитель и патентообладатель Гусев М. Н. - № 2005118283/09; заявл. 14.06.2005; опубл. 27.03.2007, Бюл. № 9 - 2 с.: ил.

10. Пат. 2312405 Российская Федерация, МПК в 10 Ь 19 / 02 (2006.01), 010Ы5/00 (2006.01). Способ осуществления машинной оценки качества звуковых сигналов, Гусев М. П., Дегтярёв В. М., Жарков И. В.; заявитель и патентообладатель М. Н. Гусев. -№ 2005128572/09; заявл. 13.09.2005; опубл. 10.12.2007, Бюл. -№ 34 (ч. 2)- 2 с.: ил.

11. Пат. 2386178 Российская Федерация, МПК в 10 Ь 13 / 08 (2006.01), в 06 Г 17/ 21 (2006.01). Способ предварительной обработки текста, Гусев М. Н., Егорова О. Б., Смирнов В. А.; заявитель и патентообладатель Общество с Ограниченной Ответственностью «ВОКАТИВ». - №2007143417/09; заявл. 22.11.2007; опубл. 10.04.2010, Бюл. № 10 - 2 с.: ил.

12. Пат. 2435232 Российская Федерация, МПК О 10 Ь 15 / 14 (2006.01). Способ машинной оценки качества передачи речи, Гусев М. Н.; заявитель и патентообладатель Гусев М. Н. - №2010133428/08; заявл. 09.08.2010; опубл. 27.11.2011, Бюл. №33. - 2 с. : ил.

13. Пат. 61924 Российская Федерация, МПК в 10 Ь 21 / 00 (2006.01). Статистическая модель речи, Гусев М. Н., Жарков И. В., Ситников В. В.; заявитель и патентообладатель Гусев М. Н. - № 2006108050/22; заявл. 14.03.2006; опубл. 10.03.2007, Бюл. № 7 (ч. 2) - 2с : ил.

14. Пат. 60767 Российская Федерация, МПК в 09 В 19 / 22 (2006.01). Устройство развивающей аудиоигры (варианты), Жарков И. В., Гусев М. Н., Ситников В. В.; заявитель и патентообладатель Жарков И. В., Гусев М. Н., Ситников В. В. -№ 2006129334/22; заявл. 11.08.2006; опубл. 27.01.2007, Бюл. № 3 (ч. 2)-2с : ил.

15. Гусев, М. Н. РзуПкег / Свидетельство о государственной регистрации программы для ЭВМ № 2014610248 от 09.01.2014.

16. Гусев, М. Н. /\QuA-SE / Свидетельство о государственной регистрации программы для ЭВМ № 2014610633 от 15.01.2014.

17. Гусев, М. П. МКЗА-ЭЕ / Свидетельство о государственной регистрации

программы для ЭВМ № 2014611132 от 24.01.2014.

18. Гусев, М. Н. Расчет и измерение качества речевых сигналов [монография] / М. Н. Гусев, В. М. Дегтярев. - СПб.: Геликон Плюс, 2008. - 275 с.

19. Гусев, М. Н. Система распознавания речи: основные модели и алгоритмы [монография] / М. Н. Гусев, В. М. Дегтярев. - СПб. : Знак, 2013. - 128 с.

20. Gusev, М. N. Physical properties modification of speech signals fragments / Mikhail N. Gusev // New Approaches to High-Tech: Nondestructive Testing and Computer Simulations in Science and Engineering" Preprints and Program. - St.Peterburg, Russia, 2003. - PP. 5-7.

21. Gusev, M. N. Physical properties modification of speech signals fragments / Mikhail N. Gusev // New Approaches to High-Tech: Seven International Workshop on Nondestructive Testing and Computer Simulations in Science and Engineering. - St.Peterburg, Russia, 2003. -PP. 300-305.

22. Gusev, M. N. About a method of preprocessing of sound base / Mikhail N. Gusev, Vladimir M. Degtyarev, Valery V. Sitnikov // Proceedings of SPAS Vol.9 Ninth International Workshop on New Approaches to High-Tech: Nondestructive Testing and Computer Simulation in Science and Engineering, edited by Alexander I. Melker. - PP. 120-125.

23. Gusev, M. N. Preparation of sound base for a text-to-speech synthesis system / Vladimir M. Degtyarev, Mikhail N. Gusev // In Eighth International Workshop on Nondestructive Testing and Computer Simulations in Science and Engineering, edited by Alexander I. Melker, Proceedings of SPIE Vol. 5831 (SPIE, Bellingham, WA, 2005). -PP. 207-213.

24. Гусев, M. H. Голос Времени / И. Жарков, П. Скрелин, М. Гусев // Компьютер пресс. - 2005. - № 8. - С. 86-92.

25. Gusev, М. N. Objective method of speech signal quality estimation / Valentin Smirnov, Mikhail Gusev // Proceedings of the 11-th International Conference "Speech and Computer" SPECOM'2006. - St.Petersburg, Anatolya Publishers, 2006. - PP. 242-244.

26. Гусев, M. H. Практическое применение статистической модели русского языка / М. Н. Гусев, В. М. Дегтярев, В. А. Смирнов, И. В. Жарков // 58 научно-техническая конференция профессорско-преподавательского состава, научных сотрудников и аспирантов ГУТ. - СПб.: СПбГУТ, 2006. - С. 137-138.

27. Gusev, М. N, Speech Recognition System for the Russian Speech / Olga Bolotova, Michael Gusev, Valentin Smirnov // Proceedings of the 12-th International Conference "Speech and Computer" SPECOM'2007. - V.II. - Moscow, 2007. - PP. 475^180.

28. Гусев, M. H. Оптимизация системы распознавания речи с учетом особенностей артикуляции / М. Н. Гусев, В. М. Дегтярев, Н. Н. Семенов // Труды учебных заведений связи, СПбГУТ. - 2007. - № 177. - С. 20-24.

29. Гусев, М. Н. Автоматизация аннотирования звуковых баз слитной речи / М. Н. Гусев, В. М. Дегтярев, Н. Н. Семенов // Труды учебных заведений связи, СПбГУТ. - 2008. - № 178. - С. 13-20.

30. Гусев, М. Н. Детализация моделей звуков русской речи, учитывающих особенности артикуляции / М. Н. Гусев, В. М. Дегтярев, Н. Н. Семенов // Труды учебных заведений связи, СПбГУТ. - 2008. - № 179. - С. 24-31.

31. Гусев, М. Н. Определение произнесения слов, не входящих в словарь системы

распознавания / М.Н.Гусев // 61 научно-техническая конференция профессорско-преподавательского состава, научных сотрудников и аспирантов ГУТ. - СПб. : СПбГУТ,

2009.-С. 214.

32. Гусев, M. Н. Моделирование длительности звуков в системе распознавания речи / M. Н. Гусев // 62 научно-техническая конференция профессорско-преподавательского состава, научных сотрудников и аспирантов ГУТ. - СПб. : СПбГУТ,

2010.-С. 325-326.

33. Гусев, M. Н. Метод оценки качества речевых сигналов NIQA / В. М. Дегтярев, M. Н. Гусев // Инфокоммуникационные технологии в науке, здравоохранении и образовании: сб. научн. трудов IV международного конгресса «Нейробиотелеком-2010». - СПб. : СПбГУТ, 2010.-С. 13-18.

34. Гусев, M. Н. Выделение ключевых слов / M. Н. Гусев, В. М. Дегтярев // Речевые технологии. - 2012. -№ 1. - С. 15-21.

35. Гусев, M. Н. Программный комплекс оценки качества систем распознавания речи / M. Н. Гусев, В. М. Дегтярев // Актуальные проблемы инфотелекоммуникаций в образовании и науке, Н-я Международная научно-техническая и научно-методическая конференция: сб. научн. статей под. ред. С. М. Доценко. - СПб. : СПбГУТ, 2013. - С. 559 -563.

36. Гусев, M. Н. Расширенная модель длительности звуков для системы распознавания речи / M. II. Гусев // Современное машиностроение. Наука и образование: Материалы 3-й Междунар. науч.-практ. конференции / Под ред. M. М. Радкевича и А. Н. Евграфова. - СПб. : Изд-во Политехи, ун-та, 2013. - С. 1112-1121.

37. Gusev, M. N. Evaluation of the speech transmission quality by phonemic récognition / Vladimir M. Degtyarev, Mikhail N. Gusev, Helen V. Plotnikova, Endre Domiczi // Nauka i Studia. - 2013. - NR 30 (98). - PP. 78-85.

38. Гусев, M. H. Определение языка звучащей речи / M. H. Гусев, В. M. Дегтярев, Е. В. Плотникова // Материали за 9-а международна научна практична конференция, «Бъдещето въпроси от света на науката» - 2013. - Т. 34. Съвременни технологии на информации. - София, «Бял ГРАД-БГ», ООД, 2013. - PP. 41-50.

39. Гусев, M. Н. Определение неречевых сигналов / M. Н. Гусев, В. М. Дегтярев, Е. В. Плотникова // Materiâly X mezinârodni vëdecko - praktickâ konference «Véda a vznik-2013/2014». - Dil Moderni informacni technologie.: Praha, Publishing House «Education and Science» s.r.o, 2013/2014. - PP. 40^15.

40. Gusev, M. N. Psychoacoustic model in évaluation of speech transmission quality / Vladimir M. Degtyarev, Mikhail N. Gusev, Helen V. Plotnikova, Endre Domiczi // Nauka i Studia. - 2013.-NR42 (110). - Prezemysl, Nauka i Studia, 2013. - PP. 79-91.

41. Gusev, M. N. Language identification of sounding speech / Vladimir M. Degtyarev, Mikhail N. Gusev, Helen V. Plotnikova, Endre Domiczi // Nauka i Studia. - 2014. -NR 6 (116). - Prezemysl, Nauka i Studia, 2014. - PP. 16-26.

Подписано в печать 30.06.2014. Формат 60x84 1/16.

_Печ. л. 2.0. Тираж 100 экз._

Отпечатано в СПбГУТ, 191186, Санкт-Петербург, наб. реки Мойки, 61

Похожие работы

Информатика, вычислительная техника и управление
05.13.00