автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка системы автоматического формирования фонетической базы данных на основе информационной теории восприятия речи
Автореферат диссертации по теме "Разработка системы автоматического формирования фонетической базы данных на основе информационной теории восприятия речи"
□□3452557
На правах рукописи
/
КАРПОВ Николай Вячеславович
РАЗРАБОТКА СИСТЕМЫ АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ ФОНЕТИЧЕСКОЙ БАЗЫ ДАННЫХ НА ОСНОВЕ ИНФОРМАЦИОННОЙ ТЕОРИИ ВОСПРИЯТИЯ РЕЧИ
Специальность 05.13.17 - Теоретические основы информатики (технические науки)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
НИЖНИЙ НОВГОРОД
2008
003452557
Работа выполнена в аспирантуре на кафедре «Математики и информатики» Государственного образовательного учреждения высшего профессионального образования Нижегородского государственного лингвистического университета им. H.A. Добролюбова
Научный руководитель: доктор технических наук,
профессор, Владимир Васильевич Савченко
Официальные оппоненты: доктор технических наук,
профессор Владимир Александрович Утробин
доктор физико-математических наук, профессор Александр Григорьевич Флаксман
Ведущая организация - Институт прикладной физики российской Академии Наук г. Нижний Новгород
Защита состоится 27 ноября 2008 г. в 13.00 часов, в аудитории 1258 на заседании диссертационного совета Д.212.165.05 в Нижегородском государственном техническом университете им. P.E. Алексеева по адресу: 603950, г. Нижний Новгород, ГСП, ул. К.Минина, 24.
С диссертацией можно ознакомиться в библиотеке Нижегородского государственного технического университета им. P.E. Алексеева.
Автореферат разослан 23 октября 2008 г.
Ученый секретарь диссертационного совета,
кандидат технических наук - ^ С. Суркова
Актуальность темы исследований. Для задачи автоматической обработки устной речи вероятностный или теоретико-информационный подход, по-видимому, не имеет серьезных альтернатив ввиду острейшей проблемы ее вариативности. Однако сама идея статистического (по ансамблю реализаций) усреднения сигналов наталкивается здесь на ряд принципиальных препятствий. Прежде всего, это особенности речевого механизма человека. У разных людей он сильно разнится по своим параметрам, например, по частотным характеристикам его модели «акустической трубы». Последняя, к тому же, может сильно варьироваться под действием целого ряда факторов: времени суток, эмоционального состояния диктора и т.п. Как результат, даже одноименные речевые метки от одного и того же диктора, разнесенные между собой во времени и в пространстве, могут иметь существенно разные автокорреляционные (статистические) свойства. И здесь логично возникает идея объединения близких друг другу по своему звучанию, однородных в теоретико-информационном смысле элементарных речевых единиц в соответствующие фонемы-кластеры. Границы каждого такого кластера устанавливаются исследователем в зависимости от особенностей решаемых им задач.
Условно говоря, человеческий мозг объединяет и запоминает как нечто целое (в виде абстрактного образа) разные образцы (произношения) каждого отдельного слова в соответствующей «сфере» своей памяти вокруг абстрактного «центра» с заданным «радиусом». Это главный постулат информационной теории восприятия речи (ИТВР), созданной в рамках проекта РФФИ 07-07- 12042-офи под научным руководством профессора В.В. Савченко.
Благодаря информационной теории восприятия речи появляются возможности не только эффективно моделировать человеческий механизм восприятия речи, но и усиливать его качественные характеристики. Ее применение открывает целый ряд новых возможностей и перспектив при решении актуальнейшей задачи автоматического распознавания речи. Перечислим наиболее интересные задачи первого ряда:
- оптимизация словаря эталонов;
- адаптация словаря эталонов для решения проблемы нескольких дикторов в задачах автоматического распознавания речи (АРР);
- обнаружение и исправление ошибок при автоматическом распознавании речи;
- автоматическая периодизация (сегментирование) речевых сигналов по критерию минимума информационного рассогласования;
- разработка фонетической базы данных с самонастройкой и развитием по
критерию минимума информационного рассогласования;
- анализ качества речи по ее звуковому ряду и др.
Объект и предмет исследования. Исследуется речевой сигнал в задаче формирования из слитной речи словаря используемых элементарных речевых единиц типа фонем.
Цель диссертационного исследования - разработка адаптивного, с настройкой на конкретного диктора, алгоритма формирования фонетической базы данных по конечному фрагменту его устной речи для систем автоматического распознавания речи. Для достижения этой цели в диссертации решались следующие задачи:
1. Исследовать влияние словаря эталонов на результирующие характеристики системы автоматического распознавания речи в целом.
2. Проанализировать воздействие нормировки элементарных речевых единиц на величину информационных рассогласований между реализациями одной фонемы с целью повышения эффективность системы распознавания речи.
3. Разработать новый алгоритм формирования словаря эталонов для системы автоматического распознавания речи на основе критерия минимума информационного рассогласования и метода обеляющего фильтра.
4. Создать программный блок обработки входных данных для информационной системы «Фонетическая база данных».
5. Разработать новый метод анализа качества речи одного диктора относительно другого на базовом, фонетическом уровне, а также сравнения группы дикторов по фонетическому составу их речи с помощью словаря структурированного в виде дерева.
Методы исследования. Для решения поставленных задач в работе используются методы теории информации, теории вероятностей, теории сигналов, а также метод обеляющего фильтра (МОФ) информационной теории восприятия речи.
Научная новизна работы состоит в следующем:
- создан новый алгоритм формирования и адаптации словаря эталонов типа фонетической базы данных для систем автоматического распознавания речи, основанный на критерии минимума информационного рассогласования;
- на основе алгоритма сконструирован блок обработки входных данных информационной системы «Фонетическая база данных»;
- для разработанного и реализованного алгоритма определены оптимальные параметры системы обработки: порядок модели, длина сегмента, порог по величине информационного рассогласования при сегментации (1 этап), порог по величине информационного рассогласования при кластеризации (2 этап) и др.;
- разработан новый метод анализа качества речи основанный на сравнении фонетического состава одного диктора относительно другого;
Практическая ценность работы состоит в том, что разработанные алгоритмы могут быть использованы в современных системах обработки речевых сигналов, как на основе существующей структуры и состава этих систем, так и путем включения в эти системы дополнительных блоков для обработки и подготовки данных в режиме их обучения.
Результаты внедрения. Разработанный алгоритм был использован при создании программного блока обработки входных данных на первом этапе работ по проекту Российского фонда фундаментальных исследований (РФФИ) № 07-07-12042 - офи «Разработка и создание информационной теории восприятия речи на основе критерия минимума информационного рассогласования» под руководством проф. В.В. Савченко.
Решением Ученого совета от 25.01.2008 г. результаты диссертационной работы внедрены в учебный процесс НГЛУ для студентов и аспирантов лингвистических специальностей.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Научной всероссийской конференции «Информационные системы и технологии» (Нижний Новгород, НГТУ им. Р.Е.Алексеева, 2007 г.), на Восьмом международном симпозиуме «Интеллектуальные системы» (Нижний Новгород, НГТУ, 2008 г.), а также на трех (2006 - 2008 г.г.) научных семинарах кафедры «Математика и информатика» НГЛУ.
Личный вклад автора заключается в синтезе нового алгоритма формирования фонетической базы данных. На основе этого алгоритма им же разработана и реализована программная часть подсистемы ввода и обработки входных данных в информационной системе «Фонетическая база данных». Проведено исследование работы алгоритма при помощи информационной системы на речевых сигналах.
Публикации. Основные результаты, полученные в диссертации, опубликованы в восьми работах, в том числе в пяти статьях, среди которых есть статьи в журналах из списка ВАК «Известия вузов России. Радиоэлектроника» и «Системы управления и информационные технологии».
Полный список публикаций приведен в заключительной части автореферата.
Основные положения, выносимые на защиту:
1.Задача оптимизации словаря эталонов. Влияние состава обучающей выборки на эффективность современных методов автоматического распознавания речи.
2. Система автоматического распознавания речи на основе оптимальной решающей статистики минимума информационного рассогласования при ее реализации по методу обеляющего фильтра с нормировкой элементарных речевых единиц.
3. Система автоматического формирования фонетической базы данных. Результаты экспериментальных исследований по моделированию человеческого механизма восприятия речи с усиление его качественных характеристик.
4. Метод анализа качества речи одного диктора относительно другого на базовом, фонетическом уровне по составу их речи с помощью словаря эталонных элементарных речевых единиц структурированного в виде дерева.
Структура и объем работы. Диссертационная работа включает введения, четыре главы, заключение, список используемой литературы и приложения. Вся работа изложена на 172 страницах текста, включающих в себя 46 рисунков, 18 таблиц, 30 страниц приложений. Количество библиографических ссылок -125.
Введение содержит обоснование актуальности, описываются объект, предметы и методы исследования. Отмечена научная новизна и практическая значимость результатов, приведены основные положения диссертационной работы, выносимые на защиту, а также сведения об апробации, реализации и внедрении результатов работы.
Первая глава «Основные положения информационной теории восприятия речи» посвящена обзору основных положений информационной теории восприятия речи, на базе которых решается актуальная задача распознавания элементарных речевых единиц (ЭРЕ). Особенностью
представленного в главе исследования является анализ теоретико-информационного подхода, основанного на нормировании речевых сигналов по дисперсии порождающего шума в их авторегрессионной модели. Основное внимание уделяется проблеме повышения достоверности распознавания элементарных речевых единиц.
Рассмотрены современные методы устойчивого представления речевых сигналов. Сделан выбор в пользу описания сигнала методом обеляющего фильтра, который основан на коэффициентах линейного предсказания и авторегрессионной модели случайного сигнала. Описан теоретико-информационный подход к распознаванию речи, сводящийся к критерию минимума информационного рассогласования (МИР) в метрике Кульбака-Лейблера и реализованный в методе обеляющего фильтра. Показано, что набор оптимальных решающих статистик применительно к АР-модели наблюдений принимает вид
1
Р = — ИХ,Г 2
о-2(х)/о-2+1п(сг2/<г2)-1
r v / r \ г х/
г = 1,Д, (1)
где <т2(Х) = ^[>> Jk)f - выборочная дисперсия отклика г-го
обеляющего фильтра на вектор анализируемого сигнала х = {*(£)}, а сг2 е |т2|
- дисперсия его порождающего процесса. Подход используется в информационной теории восприятия речи, а так же согласуется с моделью формирования речи в виде акустической трубы, широко применяемый в современных системах автоматического распознавания речи.
Предложен алгоритм автоматического распознавания элементарных речевых единиц на основе метода обеляющего фильтра, учитывающий разный вклад фонем в формирование слитной речи (с нормировкой по дисперсии 2
порождающего шума сг^ = const). При учете такой нормировки предыдущий результат (1) приобретает предельно простой вид
v4^2(x)/ctН (2)
Решение здесь принимается в пользу v-ro речевого образа W^X) по признаку минимальной дисперсии отклика соответствующего обеляющего фильтра. По этому алгоритму построена экспериментальная система АРР, для которой приведена структурная схема и подробно описан принцип работы.
С использованием экспериментальной установки проведено исследование автоматического распознавания ограниченного набора типичных фонем русского языка. Основные результаты эксперимента сконструированной системы, приведены в табл. 1-3.
Табл. 1
Частота распознавания фонем с не оптимальными эталонными реализациями в словаре
Входной сигнал «а» «и» «о» «э» «б» «р» «н» «ф» «ш» «щ»
Относительная частота распознавания 0,80 0,9 1 0,95 0,80 1 0,85 0,95 1 0,95
Табл. 2
Частота распознавания фонем с оптимальными эталонными реализациями в словаре
Входной сигнал «а» «и» «О» «э» «б» «р» «н» «ф» «ш» «щ»
Относительная
частота 0,80 1 1 1 0,90 1 0,85 1 1 1
распознавания
В соответствии с информационной теорией восприятия речи табл. 1-2 демонстрирует ключевую роль поиска эталонной из множества реализации фонемы (кластера), для максимизации вероятности распознавания. Эталон представляет собой образ всей фонемы, для сравнения с ним анализируемых звуков. Все множество эталонных элементарных речевых единиц называем словарем эталонов.
Табл. 3
Частота распознавания фонем с эталонными реализациями в словаре и нормировкой по дисперсии порождающего шума
Входной сигнал «а» «и» «0» «э» «б» «р» «н» «ф» «ш» «щ»
Относительная
частота 1 1 1 1 0,95 1 1 1 1 1
распознавания
В табл. 2 и 3 представлены вероятности распознавания фонем для двух методов: с нормировкой по дисперсии порождающего шума и без нее. Видно, что нормированный метод как более близкий к механизму речеобразования
дает лучшие результаты. Повышение качества распознавания обосновывается по информационной теории восприятия речи как уменьшение вариации величины информационного рассогласования в пределах множества одноименной фонемы (одного кластера).
Основным результатом можно считать вывод о существенном влиянии словаря эталонов на результирующие характеристики системы автоматического распознавания речи с нормировкой по дисперсии порождающего шума и необходимости для их повышения оптимизации указанного словаря. В связи с этим возникает задача поиска оптимального словаря эталонов элементарных речевых единиц.
Во второй главе «Формирование словаря эталонов элементарных речевых единиц» в терминах информационной теории восприятия речи формулируется понятие фонемы как множество элементарных речевых единиц сгруппированных по критерию допустимых информационных различий (кластер). Сформулирована задача выделения и классификации элементарных речевых единиц из слитной речи. Показана необходимость ее решения путем введения набора параметров, показывающих на сколько «близко» или «далеко» по звучанию располагаются друг от друга речевые сигналы. Таким образом, можно сказать, что эти параметры речи должны преобразоваться в «расстояние» между сигналами.
На основе критерия минимума суммы информационных рассогласований из информационной теории восприятия речи разработан новый алгоритм формирования словаря элементарных речевых единиц типа отдельных фонем. Он реализуется с помощью метода обеляющего фильтра с автоматической нормировкой речевого сигнала по дисперсии порождающего шума в его авторегрессионной модели, с адаптацией или самообучением в режиме «без учителя». Алгоритм состоит их двух этапов. На первом этапе сигнал разбивается на однородные сегменты (отрезки) данных. На втором этапе все сегменты по критерию минимума информационного рассогласования классифицируются в несколько (по числу фонем речи) подмножеств. Внутри каждого подмножества (типа кластера), среди всех его элементов осуществляется автоматический поиск эталонной реализации, которая становится кодом или образом всего кластера. При этом эталонная элементарная речевая единица, которая будет образом всей фонемы диктора, находится как информационный центр группы (кластера). Благодаря критерию минимума информационного рассогласования и применению метода обеляющего фильтра строго решена проблема оптимальности эталонов.
Поставлен эксперимент по формированию фонетической базы данных на ограниченном наборе слов числительных. Приведены результаты проведенного эксперимента, иллюстрирующие влияние вариативности речи на объем и состав базы полученной с помощью синтезированного алгоритма.
Рис. 1. Зависимость количества новых фонем от количества сегментов в анализируемых словах.
Основным результатом можно считать вывод о том, что объем и состав данных хоть и зависят от вариативности речи, но с увеличением объема выборки асимптотически стремятся к некоторому постоянному значению. Из этого следует , что предложенный алгоритм можно использовать для анализа качества речи на фонетическом уровне.
В третьей главе «Информационная система «Фонетическая база данных» описан созданный на основе разработанного алгоритма программный блок обработки входных данных и формирования словаря эталонов элементарных речевых единиц для информационной системы, разработанной в рамках проекта Российского фонда фундаментальных исследований. Программная часть реализована в среде математического моделирования Ма^аЬ 6.5. Блок ввода данных здесь работает как система классификации элементарных речевых единиц или формирования кластеров. Формирование кластеров происходит при последовательной обработке поступающих элементарных речевых единиц, и пополняются они только теми реализациями, которые расположены не далее выбранного порога от информационного центра. Новый кластер формируется из речевого сегмента удаленного от ближайшего информационного центра далее заданной величины. Все
множество реализаций отнесенных к одному кластеру называем фонемой, а информационный центр - эталонной реализацией кластера. Применяется также механизм очистки фонетической базы данных путем отбраковки маргинальных фонем. Маргинальными при этом считаются те фонемы, в составе кластера которых содержится малое количество реализаций.
В главе приведена общая схема работы информационной системы и как ее часть описан блок ввода данных. Сформулированы назначение, и принципы работы программы, а так же описаны использованные средства программирования. Рассмотрены функциональные возможности созданной информационной системы «Фонетическая база данных» в каждом из режимов ввода данных. Описан основной интерфейс информационной системы, и интерфейс блока ввода данных, для различных режимов работы. Главное окно программы представлено на рис. 3.
Информационная системЙЩЩ;
Реадак Ниже!
Пономарев Дмитрий
Рис. 3. Интерфейс информационной системы.
Проанализирована степень полноты фонетической базы данных для различных параметров системы формирования, таких как размер сегмента и порядок авторегрессионной модели обеляющего фильтра и порог по величине информационного рассогласования. Экспериментально определены оптимальные их значения, оказывающие влияние на эффективность работы алгоритма. Сделан вывод, что при длине сегмента в восемьдесят отсчетов и двадцатом порядке модели и информационном пороге равным единице сформированная база данных может считаться полной.
В зависимости от величины информационного порога мы предъявляем различные требования к назначению формируемой фонетической базы данных. Под информационным порогом мы понимаем порог по величине информационного рассогласования. Чем ниже порог, тем меньше реализаций
попадет в один кластер, то есть тем жестче требования к базе данных. Чем выше информационный порог, тем больше элементов в кластере и база данных менее чувствительна к вариациям речи. Система должна изменяться в зависимости от цели проводимого анализа. Если мы хотим подчеркнуть индивидуальные особенности диктора, то мы должны выделять максимальное число фонем, то есть кластеров. Это важно в задачах идентификации (верификации) диктора. Для нивелирования индивидуальных особенностей диктора в таких задачах как распознавание речи необходимо увеличивать порог (радиус кластера).
В четвертой главе «Формирование фонетической базы данных по группе дикторов» проведено исследование задачи следующего уровня сложности - установление групповых особенностей произношения дикторов по сравнению с выявлением индивидуальных характеристик. Предложено ее решение в виде классификации одноименных фонем от разных дикторов в одну с помощью метода обеляющего фильтра и нахождения в ней эталонной реализации при условии, что произносительные особенности дикторов схожи. Результаты такой работы проиллюстрированы на примере набора элементарных речевых единиц нескольких дикторов, которые подтверждают эффективность предложенного подхода.
Для дикторов с различными произносительными особенностями предложен другой метод анализа их фонетического состава. Он основан на структурировании фонетической базы данных в виде дерева, для чего предложен алгоритм построения дерева фонем, использующий метод обеляющего фильтра.
Рис. 4. Фонетическое дерево одного диктора.
Фонемы в узлах построенного дерева, которые не удалось идентифицировать на слух, обозначены знаком «?». Для каждого диктора такое дерево содержит разное число фонем, а также индивидуальный порядок их перечисления. Нетрудно понять, что в этом проявляются личные фонетические особенности дикторов. Их выявление и сравнение между собой - главная цель фонетического анализа речи.
Предложенный метод позволил разработать количественный способ анализа качества речи одного диктора относительно другого на базовом, фонетическом уровне, а также проводить сравнение группы дикторов по фонетическому составу их речи. Описан синтезированный алгоритм для решения задачи сравнения речи двух дикторов, в котором один диктор используется в качестве фонетического образца. Множество его, при этом, представляет собой структуру в виде дерева. Для второго вычисляют количество отличных фонем во время переопределения дерева. На основе предложенного алгоритма синтезирована экспериментальная установка. Для иллюстрации на рис. 5 и 6 показаны два модернизированных варианта дерева первого диктора после обработки в нем согласно предложенному алгоритму речевого сигнала соответственно от второго и третьего дикторов.
Рис. 5. Переопределенное дерево первого диктора с фонемами второго диктора.
Рис. 6. Переопределенное дерево первого диктора с фонемами третьего диктора.
Видно, что оба варианта дерева отличаются от своего прототипа на рис. 4. Полужирным шрифтом в нем выделены вновь добавленные реализации разных фонем. Это признак переопределения рассматриваемых деревьев. Степень отличий второго варианта переопределенного дерева (рис. 6): прежде всего, по числу добавленных вершин - существенно выше по сравнению с первым вариантом (рис. 5). Это говорит о том, что первый диктор по фонетическому составу своей речи ближе ко второму, чем к третьему диктору. Предложенные алгоритмы, несомненно, могут найти свое применения в решении ряда актуальных задач обработки речевых сигналов.
Каждая глава завершается перечислением полученных результатов и основными выводами.
В заключении содержится сводка основных результатов по всем главам, сформулированы основные выводы по работе в целом, а так же даны рекомендации по практическому применению и дальнейшему развитию.
Результаты могут быть использованы при решении широкого круга актуальных задач как в области теоретической, так и прикладной информатики. Например, это задача разработки разнообразных речевых баз данных в пределах национального языка - как от отдельных его носителей, так и их групп, объединенных по их полу, году рождения, месту жительства и прочим признакам - с автоматическим наполнением и непрерывным развитием (модернизацией) во времени. В этом примере наглядно реализуются все основные преимущества метода обеляющего фильтра: высокая чувствительность к рассогласованию данных, способность к эффективной выборочной адаптации, минимум вычислительных затрат и требований к
объему запоминающих устройств и другие. Центральная идея информационной теории восприятия речи об информационном центре-эталоне каждого речевого образа приобретает здесь очевидный практический смысл и дополнительное обоснование.
К числу приоритетных направлений для практического применения принадлежит также область современной прикладной лингвистики в части теории и практики преподавания иностранных языков. Разработанная система позволяет существенно расширить арсенал используемых здесь технических и программных средств, особенно для самостоятельной работы учащихся. В подтверждение сказанного можно сослаться на акт о внедрении результатов диссертационной работы в учебный процесс Нижегородского государственного лингвистического университета, размещенный в приложении.
Приложение I содержит протокол натурных испытаний информационной системы «Фонетическая база данных».
В приложении II приводится листинг программ авторской части ввода-обработки данных информационной системы «Фонетическая база данных».
В приложении III помещен акт о внедрении результатов работы в учебный процесс.
Основные результаты работы
1. Предложено решение задачи автоматического распознавания речи с использованием оптимальных свойств решающей статистики минимума информационного рассогласования при ее реализации с использованием метода обеляющего фильтра с нормировкой элементарных речевых единиц. Как следствие, полученные результаты выходят далеко за рамки гауссовых распределений сигналов.
2. На основе критерия минимума суммы информационных рассогласований заимствованного из числа базовых положений и элементов информационной теории восприятия речи разработан новый алгоритм оптимизации словаря эталонов с обучением речевым сигналам отдельных дикторов.
3. На основе предложенного алгоритма разработан ряд ключевых элементов системы автоматического формирования фонетической базы данных с усилением качественных характеристик восприятия речи, таких как избирательность и верификация личности по голосу.
4. С применением разработанной системы проведены экспериментальные исследования формирования фонетических баз данных группы разных дикторов.
5. На основе метода переопределенного дерева предложено решение задачи сравнения состава фонетических баз данных группы дикторов между собой, представлены результаты их сравнительного анализа.
Список работ по теме диссертации
1. Карпов, Н. В. Анализ фонетического состава речевых сигналов методом переопределенного дерева / Н. В. Карпов, В. В. Савченко // Системы управления и информационные технологии, 2.2 (32), 2008. - С. 297-303.
2. Карпов, Н. В. Автоматическое распознавание речевых единиц методом обеляющего фильтра / Н. В. Карпов, В. В. Савченко, Д. Ю. Акатьев // Известия вузов России. Радиоэлектроника. 2007.- Вып.4.- С. 11-19.
3. Карпов, Н. В. Создание базы элементарных речевых единиц методом обеляющего фильтра для задачи автоматического распознавания речи // МОСТ (язык и культура) BRIDGE (language & culture). - Набережные Челны: Изд-во Набережночелнинского филиала Нижегородского государственного лингвистического университета им. H.A. Добролюбова, 2007. - № 19. С. 22-24.
4. Карпов, Н. В. Адаптация эталонного словаря элементарных речевых единиц методом обеляющего фильтра для задачи автоматического распознавания речи // Аспирант: Сборник научных трудов аспирантов. Выпуск VII. -Нижний Новгород: НГЛУ им. H.A. Добролюбова, 2007. - С. 83-87.
5. Карпов, Н. В. Метод редукции фонетической базы данных для систем автоматического распознавания речи / Н. В. Карпов // Аюуальные проблемы прикладной лингвистики: Сборник научных статей. - Минск: МГЛУ, 2008. -С. 295-298.
6. Карпов, Н. В. О некоторых методах формирования фонетической базы данных для систем автоматической обработки речи / Н. В. Карпов, Н. Д. Чикова // Труды восьмого международного симпозиума «Интеллектуальные системы» / под редакцией К.А. Пупкова. -М.: РУСАКИ, 2008. - С. 423-426.
7. Карпов, Н. В. Адаптация базового словаря для автоматического распознавания речи в автоматизированных системах обучения / Н. В. Карпов
// Молодежь в современном мире: вызовы цивилизации: Материалы VIII научно-практической конференции «Человек в системе коммуникаций», Нижний Новгород. 28-30 мая 2007 г. / Под ред. проф. Е.П. Савруцкой -Нижний Новгород: НГЛУ им. Н.А.Добролюбова, 2007,- С. 314-315.
8. Карпов, Н. В. Классификация элементарных речевых единиц методом обеляющего фильтра для задачи автоматического распознавания речи / Н. В. Карпов // Материалы Всероссийских научных и научно-технических конференций (Computer-Based Conferences) Нижний Новгород: Нижегородский научный и информационно-методический центр «Диалог» (ННИМЦ «Диалог»), 2007. - С. 12.
Лицензия ПД № 18-0062 от 20.12.2000 г.
Подписано в печать 20.09.2008 Формат 60x90 1/16
Печ. л. 1,25 Заказ
Тираж 100 экз._Цена бесплатно
Типография НГЛУ им. H.A. Добролюбова 603155, г. Н. Новгород, ул. Минина 31а
-
Похожие работы
- Разработка алгоритма автоматического формирования фонетической базы данных на основе информационной теории восприятия речи
- Разработка алгоритмов анализа и распознавания речи на основе адаптивной кластерной модели и критерия минимального информационного рассогласования
- Исследование и разработка методов автоматического синтеза речи по фонемному тексту
- Исследование и разработка нейросетевых методов анализа и обработки речевого сигнала в задаче распознавания речи
- Повышение показателей качества радиотехнических устройств обобщённой спектрально-корреляционной обработки речевых сигналов
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность