автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах
Автореферат диссертации по теме "Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах"
Южно-Российский государственный технический университет (Новочеркасский политехнический институт)
На правах рукописи
СИНБЦКИЙ Роман Михайлович
СТРУКТУРНО-АППРОКСИМАЦИОННЫЕ МЕТОДЫ РАСПОЗНАВАНИЯ РЕЧЕВЫХ ОБРАЗОВ И ИХ ПРИМЕНЕНИЕ В ТРЕНАЖНО-МОДЕЛИРУЮЩИХ СИСТЕМАХ
Специальность 05.13.01 - «Системный анализ, управление и обработка информации (вычислительная техника и информатика)»
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
Новочеркасск - 2008
003463781
Работа выполнена в Южно-Российском государственном техническом университете (Новочеркасском политехническом институте), г. Новочеркасск.
Научный руководитель:
кандидат технических наук, доцент Гавриков Михаил Михайлович
Официальные оппоненты:
доктор технических наук, профессор Веселов Геннадий Евгеньевич
кандидат технических наук, доцент Мохов Василий Александрович
Ведущая организация:
ООО «Центр тренажеростроения и подготовки персонала», г. Москва
Защита состоится «Н » cpdpcus loos г. в : 1о__ на заседании диссертационного совета Д 212.208.22 при Таганрогском технологическом институте Южного федерального университета по адресу: 347928, г. Таганрог, пер. Некрасовский, 44, ауд. Д-406. С диссертацией можно ознакомиться в библиотеке университета.
Автореферат разослан
Ученый секретарь диссертационного cobi доктор технических нау:
А.Н. Целых
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Проблема речевого взаимодействия «человек-машина» рассматривалась различными исследователями еще с середины XX века. Определенные успехи в этой области были достигнуты, однако задача в целом все еще далека от своего решения. О применении голосового управления в составе тренажерных систем можно найти лишь краткие упоминания или информационные сообщения, но какие-либо обширные исследования в этом направлении не проводились, либо данные о них закрыты. Можно утверждать, что эта область исследований является недостаточно изученной и освещенной.
В рамках данной работы рассматривается применение систем голосового управления в составе пультов контроля и управления (ПКУ) тренажно-моделирующих систем (ТМС). Выигрыш от применения автоматических систем распознавания голосовых команд в составе ПКУ ТМС обусловлен множеством факторов:
- повышение удобства управления за счет возможности обойти некоторые недостатки графических компьютерных интерфейсов;
-обеспечивается возможность перемещения оператора по тренажерному залу с микрофоном для подачи голосовых команд (оператор не должен постоянно находиться непосредственно возле пульта управления);
- освобождаются руки оператора для выполнения другой работы;
- в некоторых случаях достигается меньшее время распознавания голосовой команды по сравнению со временем подачи этой команды другим способом, что способствует под держанию нормального темпа тренировки.
Анализ современного состояния систем речевого управления показывает непригодность коммерческих систем для применения в ТМС, обусловленную следующими факторами:
- многие системы имеют недостаточные (или искусственно завышенные в рекламных целях) показатели надежности распознавания;
-системы, обладающие хорошими показателями надежности, имеют
3
высокую стоимость;
- большинство систем непригодно для распознавания русского языка; -узкая специализация многих существующих систем и отсутствие документации на программное обеспечение не позволяют их встраивание в ТМС;
-процесс внедрения системы голосового управления в составе ТМС требует участия разработчика этой системы, что ограничивает применение зарубежных систем в закрытых военных тренажерах.
В последнее время появилась тенденция к созданию программных библиотек распознавания голосовых команд, добавляющих возможности голосового управления в использующие их программные комплексы. Такую библиотеку можно назвать командно-речевым интерпретатором (КРИ). Как правило, библиотеки КРИ специфичны и ориентированы на конкретную область приложений, но имеют наилучшие показатели надежности распознавания и возможность встраивания. Существуют библиотеки для систем телефонии, автоматических справочных, управления технологическим оборудованием и других приложений, однако упоминания о применении КРИ в составе тренажерных систем в отечественной и зарубежной литературе встречаются крайне редко.
На сегодняшний день разработано достаточно много различных методов и алгоритмов распознавания речевых образов (РО), обладающих как достоинствами, так и недостатками. Реализация методов, которые представляются наиболее эффективными, требует больших объемов априорных данных для настройки параметров, трудоемкого процесса настройки, больших вычислительных затрат, что затрудняет применение этих методов в составе ТМС.
В данной работе для распознавания речевых образов предлагается использование схемы метода структурной аппроксимации одномерных временных образов, обладающей достаточной эффективностью для построения на ее основе алгоритмов распознавания РО, а также невысокими вычислительными затратами в реализации. Ранее этот метод успешно применялся для оценивания параметров электрофизиологических сигналов (электрокардиограмм, сфигмограмм и др.), но для распознавания речевых сигналов (РС) применяется впер-
4
вые. Метод относится к классу методов структурного анализа одномерных образов. Для его использования применительно к распознаванию РО необходимо решить ряд научных задач: определить математические модели структурных РО, сформулировать постановку задачи синтеза аппроксимационной структурной модели, определить конкретные критерии качества аппроксимации, позволяющие на их основе выполнять синтез аппроксимационной модели, разработать соответствующие алгоритмы синтеза и распознавания.
Целью данной диссертационной работы является разработка комплекса структурно-аппроксимационных алгоритмов синтеза и распознавания речевых образов и реализация на этой основе командно-речевого интерпретатора для управления сценариями тренировки в тренажно-моделирующих системах.
Для достижения указанной цели в диссертационной работе решаются следующие основные задачи исследования:
1. Анализ процессов формирования и реализации сценариев проведения тренировки и выработка требований к КРИ в составе ТМС.
2. Разработка и исследование комплекса алгоритмов цифровой обработки РС, предназначенных для синтеза и распознавания структурных РО.
3. Разработка функциональной модели КРИ для численной реализации схемы метода структурной аппроксимации и распознавания РО в составе пультов управления ТМС.
4. Разработка методики формирования эталонных РО с учетом специфики ТМС.
5. Экспериментальные исследования эффективности применения КРИ в составе пультов контроля и управления ТМС.
Методы исследования. В работе использованы методы алгебраической теории структурных образов, цифровой обработки сигналов (спектральный анализ), математического программирования, знания прикладной фонетики, теории анализа и синтеза речевых сигналов. Экспериментальные исследования выполнены на основе теории планирования эксперимента, результаты обработаны с использованием аппарата математической статистики.
Основные положения, выносимые на защиту:
1. Обоснование применимости концепции структурной аппроксимации одномерных временных образов для распознавания РО на основе формализации понятия структурно-детерминированного речеобразующего процесса и свойств моделей структурных РО.
2. Спектрально-параметрические формы представления структурных РО и алгоритмы их построения.
3. Математическая постановка задачи синтеза аппроксимационной модели для выбранных форм представления структурных РО.
4. Оптимизационные схемы синтеза аппроксимационных моделей с использованием метода динамического программирования.
5. Постановки задач и алгоритмы сегментации/приведения структурных РО к заданной мощности.
6. Функциональная модель КРИ для применения в составе ПКУ ТМС.
Научная новизна работы заключается в следующем:
1. Показано, что в рамках проблемы распознавания речеобразующие процессы можно рассматривать и представлять как структурно-детерминированные процессы, порождающие РО, обладающие квазирегулярными свойствами. Такое представление речеобразующих процессов позволяет применять схему метода структурной аппроксимации одномерных временных образов для распознавания РО.
2. Схема метода структурной аппроксимации одномерных временных образов, применяемая ранее в задачах структурного анализа и оценивания параметров электрофизиологических сигналов, впервые на практике успешно применена к задаче распознавания РО. Эффективность ее применения подтверждена результатами экспериментов в реальных условиях функционирования ТМС, показывающими не худшие характеристики по сравнению с аналогичными характеристиками других систем распознавания голосовых команд.
3. Разработан комплекс структурно-аппроксимационных алгоритмов синтеза и распознавания РО, главной отличительной особенностью которых
6
является одновременный учет:
а) квазидетерминированности фонетической структуры речеобразующего процесса и вариабельности значений его параметров в различных реализациях;
б) искажений, содержащихся в реально наблюдаемых образах.
В алгоритмах обработки речевых сигналов этот учет реализуется при синтезе структурно-аппроксимационной модели РО на основе критериев векторной оптимизации, вид которых адекватно отражает указанные свойства (а)-(б) речеобразующего процесса.
Научная значимость. Разработан комплекс оригинальных алгоритмов синтеза и распознавания РО, учитывающих естественные структурно-детерминированные свойства РС, функциональная модель КРИ и методика формирования списка эталонных структурных РО.
Практическая значимость полученных результатов заключается в реализации и эффективном применении КРИ для решения задач голосового управления в составе ТМС.
Достоверность результатов диссертации подтверждается корректным использованием математического аппарата и методов решения поставленных задач в рамках границ их применения, а также практическим внедрением КРИ в составе ТМС.
Результаты внедрения. Предложенные алгоритмы реализованы в КРИ, который внедрен в составе ПКУ тренажера «Калина-ЦТО» обучения экипажей подводных лодок. Планируется дальнейшее внедрение КРИ в другие тренажеры, разрабатываемые Донским филиалом Центра тренажеростроения (г. Новочеркасск).
Апробация работы. Основные положения диссертации докладывались на научно-практических конференциях Южно-Российского государственного технического университета (Международные научно-практические конференции «Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем» КИС-2004, КИС-2005, КИС-2006, Международные научно-практические конференции «Компьютерные техноло-
гии в науке, производстве, социальных и экономических процессах» КТ-2004, КТ-2006).
Публикации. По теме диссертации опубликовано 9 научных трудов, в том числе: статьи в периодических изданиях, тезисы докладов и материалы международных научно-практических конференций.
Объем и структура диссертации. Диссертация состоит из введения, четырех глав, заключения и приложений, изложена на 217 страницах и содержит: 26 таблиц, 48 рисунков и список литературы, включающий 126 наименований.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность работы, формулируются цель работы и основные задачи исследования.
В первой главе рассмотрены процессы управления тренировкой в ТМС, примеры использования КРИ в составе ПКУ ТМС, проведен анализ существующих систем и методов распознавания голосовых команд, проанализированы их основные достоинства и недостатки, сформулированы задачи исследования и требования к КРИ.
Управление тренировкой в ТМС осуществляют инструкторы, для работы которых в составе ПКУ тренажеров предусмотрены специализированные рабочие места. В простейшем случае в качестве рабочего места инструктора используют терминал ЭВМ, имеющий средства отображения (мониторы), на которые выводятся объекты графического интерфейса, и управления (клавиатура, мышь), а также средства связи (микротелефонная гарнитура).
Программные средства ПКУ обеспечивают информационный интерфейс между инструкторами и средствами тренажера. Этот интерфейс строится на основе графических форматов (совокупность компонентов управления: окон, 'кнопок, списков, полей ввода и т. д.), выводимых на дисплеи рабочих станций, посредством которых осуществляется процесс управления тренировкой (см. рис. 1).
Рис. 1 - Примеры форматов ПКУ
Управление в таких интерфейсах осуществляется при помощи манипуляторов «мышь» и клавиатуры. Это удобный и эффективный способ взаимодействия «человек-ЭВМ», однако не лишенный некоторых недостатков:
- часть окон может быть скрыта под другими, при этом, для того, чтобы получить доступ к органам управления на скрытом окне, необходимо «вытянуть» его над другими окнами;
-некоторые команды могут подаваться через разветвленную систему меню, при большой вложенности которой требуется длительное время для того, чтобы отыскать в меню нужный пункт;
-управляя процессом тренировки, инструктор не может, не прерывая процесса управления, покинуть свое рабочее место, чтобы, например, что-либо
9
показать обучаемому.
Применение КРИ в графических интерфейсах совместно со стандартными устройствами ввода, клавиатурой и мышью, позволяет устранить эти недостатки и повысить удобство и оперативность управления тренажером. К примеру, подача голосовой команды вызова определенного режима существенно легче и быстрее поиска этого режима в меню системы. Если оснастить ПКУ переносными микротелефонными гарнитурами, то инструктор получит возможность подавать голосовые команды, отходя от ПКУ и не прерывая при этом процесса тренировки.
Анализ существующих методов распознавания позволяет выделить их достоинства и недостатки, в частности: недостаточная эффективность детерминистских методов распознавания ввиду большой вариабельности параметров в различных реализациях PC, соответствующих одной и той же команде, необходимость учета большого количества априорной информации при построении системы распознавания на нейросетевых и стохастических моделях, для структурно-синтаксических методов требуется трудоемкая разработка сложных программных инструментов восстановления грамматик.
В качестве основы функциональной модели КРИ в работе обосновывается использование схемы метода структурной аппроксимации и распознавания одномерных временных образов (ОВО), обладающего конструктивной простотой и не требующего большого количества априорной информации и времени для настройки. Метод оперирует со следующими абстрактными моделями (см. рис. 2): идеальные структурные модели (ИСМ) с, описывающие эталоны классов ОВО; деформированные структурные модели (ДСМ) с , рассматриваемые как искаженные копии идеальных моделей и описывающие реальные распознаваемые ОВО; аппроксимационные структурные модели (АСМ) с, являющиеся аппроксимациями идеальных и деформированных моделей одновременно. Центральное место в схеме структурной аппроксимации занимает процедура синтеза аппроксимационной модели с. Особенность концептуальной постановки задачи синтеза заключается в «компромиссности» получаемой модели с:
10
Требуется найти такое преобразование Р:(с,с)->с, при котором модель с является в определенном смысле хорошей аппроксимацией моделей с и с одновременно.
Критерий качества аппроксимации имеет вид:
Ez=yE{c,c) + (l-y)E{c,c), (1)
где Е{с,с) - мера различия между моделями с и с; Е(с,с) - мера различия между моделями с и с ; у - взвешивающий коэффициент.
СИСТЕМА РАСПОЗНАВАНИЯ ОВО
Первичные ouL
разы (сигналы)
Л
Синтез 'г' Синтез ' >
ДСМ АСМ
Блок распознавания ОВО
Идентифика^
торы классов
ТЕХНОЛОГИЯ СИНТЕЗА ИСМ
Процедуры синтеза ИСМ
Программные инструменты
Оператор
Рис. 2 - Схема структурной аппроксимации и распознавания ОВО
Классы РО задаются в виде множества идеальных моделей {с,,....^}, где N - количество классов. Распознаваемый образ описывается в виде деформированной модели с , синтезируемой из распознаваемого РС. В процессе распознавания для каждой пары (с,,с), / = 1,...,ЛГ синтезируется оптимальная ап-проксимационная модель с,, при этом оптимальность синтезируемой модели обеспечивается условием минимальности критерия аппроксимации:
Е2(с„с,с,)-> шт.
Значения критериев £Е(с(,с,с,), / = 1 позволяет оценить близость распознаваемого образа к каждому из эталонов. Индекс г класса распознаваемого образа определяется как индекс модели с минимальным значением критерия (1):
г = а^гшп{£1(с,,с,с1)}. {2)
»1.....N у '
Вторая глава посвящена разработке математических моделей структурных РО, алгоритмов их синтеза и распознавания. В главе определяется пространство структурных РО, механизмы его порождения из пространства сигналов, предлагаются конкретные формы представления моделей РО, формулируются задачи их синтеза и разрабатывается оптимизационная схема синтеза с использованием процедуры динамического программирования. На этой основе предлагается функциональная модель КРИ, а также методика настройки КРИ на заданный список речевых команд.
Предполагается, что источниками структурных образов являются структурные процессы. Пусть X - действительная прямая, с которой связывается время г (/е1). Структурный процесс при наблюдении на интервале времени Т = [а,Ь\с.Х может находиться в Ь различных состояниях - фазах процесса <р еФ, ¡ = \,...,Ь (Ф- множество идентификаторов фаз процесса) и выполнять переходы <р, —> (р! из одной фазы в другую. Пусть (Т) - некоторое фиксированное разбиение интервала Т на N смежных интервалов Тк :
Кт = {Т„ I Тк = [/,_„/,],* = 1 ,...,М,а = /„<<,<... <1Н=Ь), (3)
а /(Т) - множество граничных точек (к интервалов Тк е (Т):
КТ) = {Ч I'о =Ь,Ч =ТкГ\Ты,к = 1,...,М-1}, (4)
Разбиение КС„(Т) интервала Т, в котором кавдый интервал Тк е Яст(Т) соответствует одной из фаз процесса <р,, называется существенным разбиением интервала Т. Граничные точки 1к е Iе(Т) интервалов Тк е Йст (Т) называют существенными моментами времени интервала Т.
Реализация процесса Ф^ мощности т на интервале Г с X определяется как тройка Ф^= (Л^(Г),Ф,/), где /(Г)Ф - функциональное отношение: / = {(Хк,<р,)\Т1 е кст(Т),к = \,..,т, <р, е Ф}. Структурные процессы, у которых сменяемость фаз происходит в строго определенном порядке, задаваемом в
12
виде постоянного для всех реализаций Ф^ отношения /': 7^(Г)->Ф, называют структурно-детерминированными (СД-процессами). Все реализации одного СД-процесса Фт мощности т представляются одной и той же последовательностью идентификаторов фаз <р1,...,<рт.
В работе показано, что в задачах распознавания речевых команд речеоб-разующие процессы (РО-процессы) можно рассматривать как СД-процессы -источники структурных речевых образов. Тогда все реализации одной и той же речевой фразы идентифицируются одной единственной последовательностью фаз. Под фазами понимаются фонемы, их сочетания или паузы. Структурная детерминированность РО-процесса проявляется и в речевых сигналах, порождаемых этим процессом. Регулярные свойства РО-процессов, конечно, не сводятся к простой повторяемости последовательностей фонем в различных реализациях, но поскольку главной функцией КРИ является распознавание речевых образов, а не их детальное описание, то предположение о структурной детерминированности РО-процессов можно принять в качестве рабочей гипотезы.
Структурные РО определяются в терминах образующих (неделимых элементов, из которых строятся образы) и конфигураций (структурных объединений образующих), принятых в теории структурных образов (рис. 3). По современным представлениям, необходимая для восприятия фонетическая информация содержится в изменениях кратковременного спектра речевого сигнала на интервалах времени г = [с?,е]еХ, поэтому образующие § определены как операторы Фурье:
В качестве числовых признаков образующих используются оценки амплитудных спектров Х'(/) = \х'(/)\, / е [0,/,] (/а - эффективная ширина спектра) и
их параметрические представления, а в качестве показателей связей с другими образующими - концевые точки интервалов г.
е
(5)
\р-Оужш—@—щ»щу©-<т
т
Рис. 3 - Схематичное изображение конфигурации
Пространство регулярных конфигураций определяется как тройка 5(3?) = ((3,9?, 5), где б - множество образующих; 9? - правила соединения образующих: 3? = (2,р), £ - отношение порядка, р - отношение согласования показателей связей образующих; 5 - множество преобразований подобия «: О -> С. Для выбранного способа определения образующих (5) пространство В(9?) определено следующим образом: б = £ = ^х^)]', *ег,гс Х,х(1)еУ}; £ - линейный порядок, р- равенство (такое правило 9? означает, что выходная связь Р£* образующей gk соединена с входной связью Ры образующей gk+^, и между соответствующими показателями связей выполняется отношение согласования «=» - равенство: рм _ рт^ = ); в качестве Б рассматриваются переносы 5 кон-
фигураций с на оси времени: 5 = : ? -»г + г}.
Структурный образ с мощности N, определяемый на некотором интервале времени Т = [а,Ь] с X, в пространстве В(9!) может быть представлен в
виде конфигурации с = (рис. 3), которая определяется
на разбиении кК(Т) = {Г,,...,7^} интервала Т (3), а ее образующие - на интервалах Тк ЯЛ, (Г). Длительности интервалов Тк равны тк = т(Тк) = !,. -1к1. Концевые точки ¡к, к = О,...,А' этих интервалов образуют множество /(с) = /(Т)- показателей связей (4) конфигурации с. В общем случае числовые характеристики конфигурации с представляются в виде вектора с = (Хт< (/),г„-Г* {/),тг,...,Хт* (/), г,).
В работе определяется механизм порождения пространства В(9?) из «универсального» пространства сигналов и посредством конфигураторов. Под конфигуратором понимается абстрактное устройство, преобразовывающее речевой сигнал хТ (хт е и у) в структурный образ
c = c(йЛ,(Г)) = (g1,g2,...,gЛ,) е В(ЧЯ). Конфигуратор выполняет две основные функции: построение разбиения к^(Т) интервала Т и определение на этом разбиении образующих gl = Р[хт], Т, е ЯЫ(Т). Пусть Ф° - РО-процесс мощности т с идентификатором а, а и а- множество реализаций РС хТа&иа, порождаемых процессом Ф^. Рассматривается три вида конфигураторов: универсальный, идеальный и реальный. Универсальный конфигуратор Р выполняет преобразование и -> В(9?) и порождает из Иа подпространство конфигураций Ва (3!) с В(3?). Идеальный конфигуратор Рш выполняет преобразование РС хта в конфигурацию с = Р1\хта~\ = с{кст(Т)), которой соответствует существенное разбиение кс„(Т). Идеальный конфигуратор выделяет в Ва(9!) класс /в идеальных структурных речевых образов, обладающих следующими квазирегулярными свойствами:
1) конфигурации с,с'е1а определены на существенных разбиениях
кст(Т) и кст{Т') заданной мощности т, равной мощности РО-процесса Ф°;
2) образующие glec и g'¡ е. с' имеют близкие в смысле определенных критериев значения числовых характеристик: спектральных функций ХТ' (/) и Хт:{/), 7; е кст('/'), Т'е кст(Т') и значений длительностей т, =т(Т,) и г,' = т(Т,') интервалов 7] и Т\ соответственно.
Реальный конфигуратор Рр в качестве результата сегментации определяет некоторое разбиение кт. (Т), не совпадающее с существенным разбиением к'т (Т). В результате обработки одного и того же речевого сигнала хта идеаль-
ный и реальный конфигураторы генерируют разные конфигурации с = Ри [хта ] и с =Рр\хта~\. Конфигурация с рассматривается как искаженная копия с, то есть как результат действия в В(91) некоторых деформирующих преобразований Л. В работе рассматриваются два вида деформаций, £> = {^,,с/2}: - преобразование типа расщепления образующих и с1г - преобразование типа поглощения образующих. Соотношения между рассмотренными множествами и конфигураторами иллюстрирует рис. 4.
Рис. 4 - Соотношения между множествами регулярных конфигураций
В практических задачах структурной обработки РС в большинстве случаев приходится иметь дело с деформациями в результате которых деформированный структурный образ с имеет мощность не меньшую, чем мощность его идеального аналога с, то есть т'>т. Прежде всего, это связано с несовершенством алгоритмов сегментации (реальных конфигураторов), а так же с искажениями сигналов помехами.
На основе установленных свойств классов структурных РО вводятся понятия идеальной, деформированной и аппроксимационной моделей РО. Квазирегулярные свойства 1-2 идеальных РО с е 1а позволяют определить одну эта-
лонную модель с, представляющую весь класс 1а. Поэтому под идеальной моделью с понимается некоторая гипотетическая конфигурация c = (g,,...,gm) с эталонным вектором признаков с =(Х^/),т1,Х2(/),г1,...,Хт(/),тт). Деформированная структурная модель - это конфигурация, синтезируемая реальным конфигуратором из PC хТ на определенном интервале времени Т:
c=Pp[xr] = c(km.(f)) = (gl,g2,...,gm,), где gj=F[xT<], fjeAm,(f). Числовые характеристики модели определяются вектором
c={XT'(f),T\,Xh{f),T2,...,XTm'(f),Tm.), а показатели связи - множеством /(с) = {tj | /0 = a,tm. = b,tj = Tj П T]it, j = 1,...,m'-1}. Аппроксимационная структурная модель представляет собой конфигурацию с = (¿',,. •■,£„), где
gt = F[4t)Y', Т, е Rm(T)~ интервалы времени, на которых определены образующие g,. Числовые характеристики модели определяются вектором
Согласно концепции структурной аппроксимации, модель с является результатом синтеза (преобразования) />[с,с]-»с и должна иметь сходство с моделями с и с одновременно, поэтому в работе в формальном виде заданы требования структурной согласованности (ТСС) для соответствующих пар моделей (с,с) и (с ,с):
(ТСС 1) АСМ должна иметь такую же мощность, как ИСМ, равную т;
(ТСС 2) Образующие с одинаковыми значениями индексов g, и g, должны обладать сходными качествами, что означает: а) сходство спектров ХТ' (/) и X7' (/) в смысле определенных критериев; б) близость значений длительностей г, и г, интервалов Т, и Т, соответственно.
(ТСС 3) Интервалы Tt е R„(T) образуются путем слияния р смежных
~ -Г ~ к*Р-1 ~
интервалов Г, eRm,(T): Т,= U 7\, а образующие gt - путем поглощения обра-
j-t
зующих gk,...,gt+pA;
(ТСС 4) Множество показателей связей /(с) модели с содержится в множестве показателей связей /(с) модели с , причем внешние показатели связей обоих моделей совпадают: i(c) с /(с), t0=70= a, tm =7m,=b.
На основе этих требований предложены две формы критериев Ег качества синтезируемой модели с:
Ez = тш\у[и{Х, {f),Xf> (/)) + q,a>] +(1 - у) тф(ХТ' (f)X' (/)))}; (6а)
E^^rluiXXflxHfV+grt+Q-ril.ui^'ifbxHf)) ]■ (66)
m ы 1 i] ei;
A
В данных критериях: u{XT{f),Xr(,f))=\{XT(f)-Xr{f))2df - мера
о
различия между спектрами XT(f)и Xr(f); qi - коэффициент, принимающий значение q,= 0, если условие ТСС 2(6) для /-й образующей аппроксимацион-ной модели выполняется, и qt= 1 в противном случае; ы = const - значение штрафа.
Математическая постановка задачи синтеза аппроксимационной модели имеет вид задачи векторной оптимизации:
Построить модель с, доставляющую минимум функционалу:
Ч.Ш = тт(тах{гИХ,(/),А^ (/)) +<?,«] +
+ (1 -у) тф(ХТ' (f),Xfl (/))}J j (7а)
- в случае использования критерия (6а);
Q[/(c)] = . min (!£[у[и{Х,{f)X' (/)) +q,(0] +
+ (1-Г)Е«(ХГЧ/),^(/)) ]l (76)
fyci J
- в случае использования критерия (66).
Эффективной процедурой для решения подобного класса задач является процедура динамического программирования, позволяющая построить оптимальную в смысле критериев (6а-6б) модель за т шагов. Получены рекуррентные соотношения, определяющие схему построения модели с:
+ (1 - /)тах],(Г< (1)Х>{1))\КГ[ |, + (1 - у) тах \,{Хг (/),Хг; '
IV," = тт ии(Х ШХ1" + +
+(1 -у)±и(хНЛ,хТ'(Л) + К~1 /=/+ 1
< = аг§тт \у[и{Х^ (/),ХГ<" (/)) + +
+ (1 - у) £и(ХТ' (Л,ХТ> (/)) + 1ГГ'
(86)
1=т' - р,...,0, р = \,...,т.
Для сокращения объема вычислений в работе предложены два способа
более компактного описания структурных РО. В первом способе характеризующая образующую оценка спектра Хг(/) заменяется вектором рТ = (/,7,/2г,/37,,,у3г). В спектре Хт(/) можно выделить частотные диапазоны с1х,(1г,с1г £ [0,/с] - трех наиболее мощных пиков (см. рис. 5).
1 000 2000 ЗООО 4ООО 5 000 6 000 7 000 8 000 9 000 10 000 !, Гц
Рис. 5 - Спектр фрагмента РС и три диапазона наибольшей мощности
Каждый из этих пиков характеризуется частотой fj и весом vf, i = l,...,R, R = 3. Частоты fj е dt соответствуют максимальным значениям спектра Xх (f) внутри соответствующих диапазонов d,: fx <fx <...<//. Веса vf имеют смысл относительной мощности спектра в диапазоне dl: S R
vT = ' ^vf = 1 где 5, - полная мощность спектра в диапазоне :
tSj' '='
м
S, = \[XT(f)fdf. Еще более компактное параметрическое представление спектров XT(f) можно получить, если использовать единственный параметр
средневзвешенной частоты /т, определяемой из соотношения: /' = Y.f ' v] ■
i=i
Для этих форм получены частные случаи соотношений (8а-8б), определяющих схему синтеза модели с, которые значительно более эффективны в вычислительном отношении.
Для реализации полученных алгоритмов в программах цифровой обработки сигналов определены дискретные аналоги структурных РО. При цифровой обработке аналоговый сигнал х(/) представляется своими дискретными отсчетами х(п) в моменты времени /„ =иД: х{п) = x(t = tn =иЛ), где Д = const -период дискретизации сигнала. В качестве дискретного аналога определенных выше образующих используется дискретный аналог выражения (5), определяемый преобразованием Фурье Fa дискретного сигнала на интервале г:
g=\Fa[x{ri)tMA | = Х(*), * = <>,...,ЛГ-1, N =[_г/д].
П=1
С учетом введенных дискретных аналогов структурных речевых образов разработана функциональная модель КРИ (рис. 6).
Рис. 6 - Функциональная модель командно-речевого интерпретатора
Важное место в работе занимает методика полуавтоматического формирования эталонных структурных речевых образов (идеальных структурных моделей), позволяющая выполнять настройку КРИ на заданный список голосовых команд.
Исходными данными для методики являются Ь реализаций х1 {п),...,х1 (п) сигналов, соответствующих одной речевой команде, а результатом является эталонная модель РО с = (&|,с вектором признаков с = (Х\{/),тх,Х2{/),т2,...,Хт(/),тт). Идеальный конфигуратор (алгоритм сегментации), позволяющий получать существенные разбиения кст^{Т), определяющие идеальные модели РО, реализовать невозможно. Однако можно получить достаточно хорошие приближения Яст (Г), если возложить функцию их
нахождения на оператора, выступающего в качестве «квазиидеального» конфигуратора, обеспечив его соответствующими программными инструментами, позволяющими выполнять автоматическую сегментацию сигнала, его визуализацию, прослушивание отдельных сегментов и прочие функции. Автоматическим алгоритмом сегментации каждый РС х'(п),...,х1(п) разбивается на заданное
число т' сегментов {т>тс, тс - мощность существенного разбиения), в результате чего формируются соответствующие разбиения ...Ат,(Т1). Затем оператором выполняется процедура редактирования полученных разбиений, в результате которой формируются новые разбиения Ят(Т')...Ат(Т1), принимаемые в качестве приближений существенных разбиений Й1, (Т,)...кст (Т'). На рис. 7 приведен пример выполнения процедуры редактирования разбиений для двух реализаций РС, соответствующих фразе «Воспроизведение тренировки».
а) б)
Рис. 7 - Пример выполнения процедуры редактирования: а) до выполнения процедуры, т' = 25; б) после выполнения процедуры т = \1
Такой подход к формированию эталонов позволяет учитывать при формировании эталона естественную детерминированность фонетической структуры речевых образов, порождаемых различными реализациями одного и того же РО-процесса. В отличие от существующих методик обучения распознаванию образов (с учителем и без учителя) в данной методике оператор имеет возможность сам определять структуру эталонного РО. В случае необходимости увеличения показателя надежности КРИ, например, за счет повышения надежности распознавания плохо различимых РО, оператор может изменить структуры соответствующих эталонов, переопределив последовательность фаз, с которыми связываются отдельные фрагменты РС.
Третья глава посвящена разработке, численной реализации и исследо-
ванию алгоритмов обработки РС и распознавания РО, входящих в состав КРИ: алгоритма определения временных границ РС, алгоритмов сегментации структурных РО и алгоритмов формирования РО (деформированной модели) для различных форм их представления. Для указанных алгоритмов получен ряд численных соотношений и соответствующих расчетных процедур для эффективной реализации их на современных ЭВМ. Выполнена комплексная оценка надежности распознавания и вычислительной эффективности КРИ в целом и каждого из алгоритмов в отдельности.
Алгоритм автоматического выделения границ РС является модификацией классических алгоритмов обнаружения начала прихода сигнала, основанных на пороговых критериях. В качестве пороговой характеристики выбрано значение кратковременной энергии сигнала:
Е>1Е + гсг,
где Е, а - среднее значение энергии и среднеквадратичное отклонение фонового шума; I, г - константы.
Отличием предложенного алгоритма от существующих является дополнение порогового критерия условиями, позволяющими учесть особенности РС (паузы, невокализованные участки речи и так далее). Показано, что РС полностью содержится внутри найденных алгоритмом границ с надежностью 98%.
Разработаны алгоритмы формирования деформированной модели для предложенных способов представления РО: 1) в виде дискретных оценок амплитудных спектров с = (Х1(к),т1,...,Хт.(к),тт.); 2) в виде векторов параметров спектров с =(р1,т1,...,рт,,тт,); 3) в виде средневзвешенных частот с = {%, г,,...,/;,, тт.).
Для получения вектора р, = на основе которого
строится вторая и третья формы представления, разработан алгоритм, который выделяет в спектре три непересекающихся диапазона й?,,с/2,с/3 с=[0,/с] с наибольшими мощностями (рис. 8), выполняет численное интегрирование спек-
тральной функции и вычисляет значения пиковых частот и относи-
тельные веса полной мощности в каждом из диапазонов.
Рис. 8 - Выделение интервалов мощности спектра
Большое внимание уделено разработке и исследованию алгоритмов сегментации РО. В теории структурных образов задача сегментации формулируется в терминах приведения конфигураций, и ее суть заключается в приведении некоторой исходной конфигурации с" =(gl,...,gN)sI (/ - класс эквивалентности) к конфигурации с1 = (gl,...,gk = g' ,-,gN.f) при помощи правила приведения rf, по которому некоторая ее подконфигурация c = (gJ,...,gJt/_l) из / образующих /у-эквивалентна конфигурации с =(g'): = (g')/modr/-, 2<f<N (это означает, что образующие gj,—,ghf_x сливаются (поглощаются) в новую образующую g'). Задавая различные правила /у, можно получать различные алгоритмы сегментации A(rf ):с° —>с'.
В работе формулируются две постановки задачи приведения исходной конфигурации с0 к заданной мощности т . В качестве исходной используется конфигурация с" =(g, ,...,gm„), заданная на равномерном разбиении
Rm,{T) = (Tl \ т(Т,) = Т/т° = const, i = l,...,m°) интервала T.
Первая задача (квазиоптимальной сегментации/приведения структурного РО) формулируется следующим образом: располагая исходной конфигурацией с" мощности т", получить приведенную конфигурацию с заданной мощно-
emu m , используя правило приведения:
= gpj I u{X^-\k),Xp~l{k)) = _ min¿и(ХГ(к),Х$(Л))}, р = 1,...,/и° - т , при выполнении ограничений
m<m\tla=t\,tUl^i{c\tl,t\ei{c), (9)
где u(X?~x(k),Xjll{k)) - расхождение между спектрами.
Для решения этой задачи сегментации разработан алгоритм А(г2). Этот алгоритм на каждом р -м шаге процедуры приведения «выбирает для слияния» две соседние образующие, имеющие наименьшее среди всех других расхождение между их амплитудными спектрами.
Вторая задача формулируется как задача оптимальной сегментации/приведения структурного образа к заданной мощности: располагая исходной конфигурацией с0 мощности т°, требуется построить такую конфигурацию с' заданной мощности т , при которой достигается минимум функционалов".
min max - при использова-
Цс')а(с') V.1.....лЛ "
нии «минимаксного» критерия;
fi[/(c*)] = min j—Y с Г', 1 - при использова-
i(c')d(c°)[m ,=1L J J
нии «суммарного» критерия, при выполнении ограничений (9).
Соотношения, определяющие оптимизационную схему построения приведенной конфигурации с', получаются путем соответствующей модификации соотношений (8) и составляют основу алгоритма A(rf) решения этой задачи.
Получаемая в результате приведения модель с* используется в качестве деформированной модели (с = с') при синтезе оптимальных аппроксимацион-ных моделей с* для каждого / -го эталонного РО, на основе которых выполняется распознавание. В процессе исследований выяснялась степень влияния параметра т на надежность распознавания Р№И. Рассмотрено несколько част-
25
ных случаев определения параметра т', и сделан вывод, что для каждого ¡' -го класса РО существует интервал (область) значений [/и, ,/и,] параметра т', на котором достигается максимальная надежность распознавания Р' РО /-го класса. Показано, что если т » т,, то число вариантов построения аппрокси-мационных моделей очень велико, и среди них нередко находятся варианты, при которых лучшая структурная аппроксимация достигается моделями с большим числом образующих (более «длинными» моделями). Это приводит к ошибкам распознавания, когда «короткая» голосовая команда распознается как одна из более «длинных» команд.
Результаты экспериментов представлены в виде графиков (рис. 9) зависимости надежности распознавания от вспомогательного параметра <р, определяющего значение т .
.......Вариант 1 -----Вариант 2----Вариант 3 -Вариант 4
Рис. 9 - Зависимости Р%рИ от <р, полученные в различных экспериментах
Анализ этих зависимостей позволил разработать два способа определения параметра т , при которых достигается разумный компромисс между требованиями уменьшения объема вычислений и достижения достаточного показателя надежности КРИ.
В работе проведены комплексные эксперименты, результаты экспериментов представлены в виде таблиц, одна из которых приведена ниже (табл. 1).
Анализ результатов позволил оценить надежность распознавания, вычислительную трудоемкость КРИ в целом, осуществить выбор наиболее предпочтительного алгоритма сегментации, способа представления РО, а также предложить рекомендуемые значения параметров используемых в составе КРИ алгоритмов.
Таблица 1 - Сводные результаты экспериментов
Способ представления РО Алгоритм сегментации ту минчане о/ КРИ > /0 РКГИ> % V мс
Способ 1 А(гг) 88,0 98,5 20024
A{rf) 89,5 99,5 20839
Способ 2 Л(гг) 91,5 98,0 1249
А{гг) 91,5 98,5 1588
Способ 3 А(Г2) 82,0 95,0 282
А(г,) 82,0 95,0 623
Способ 4 А(Г2) 83,5 98,0 58
A{rf) 84,0 98,0 383
В четвертой главе описана техническая реализация КРИ в виде динамически загружаемой библиотеки (DLL) в составе программного обеспечения ПКУ тренажера «Калина-ЦТО», предназначенного для обучения экипажей подводных лодок. В процессе управления тренировкой средства КРИ позволяют инструктору использовать речевые команды для вызова основных режимов ПКУ, установки некоторых параметров, запуска/остановки тренировки и управления форматами. Также описана инструментальная реализация предложенной в работе методики настройки списка эталонов голосовых команд КРИ.
В заключении приведены основные результаты работы, намечены пути продолжения исследования.
В приложениях приведены свидетельство о регистрации библиотеки КРИ, спецификация алгоритма синтеза оптимальной аппроксимационной модели, описания функций программного интерфейса библиотеки КРИ, файлов БД эталонов и конфигурации КРИ.
ЗАКЛЮЧЕНИЕ
В работе рассмотрено применение метода структурной аппроксимации и распознавания одномерных временных образов для распознавания РО. Основные результаты работы следующие:
1. Разработана математическая схема структурно-аппроксимационного синтеза и распознавания РО, в рамках которой определены модели представления структурных РО, сформулирована задача и разработаны алгоритмы синтеза оптимальных аппроксимационных моделей РО.
2. Сформулированы постановки задач и разработаны алгоритмы оптимальной и квазиоптимальной сегментации/приведения структурных РО к заданной мощности. Рассмотрены вопросы влияния мощности деформированного структурного РО на надежность распознавания и предложены обоснованные способы определения значения мощности для достижения высокой надежности распознавания.
3. Предложена функциональная модель КРИ, реализующая схему структурно-аппроксимационного синтеза и распознавания РО, на основе которой разработано программное обеспечение для речевого управления сценариями тренировок в ТМС.
4. Разработана методика, алгоритмы и программные инструменты формирования эталонных РО для заданного списка голосовых команд КРИ.
5. Проведены комплексные эксперименты по настройке параметров и оценке эффективности алгоритмов КРИ, показавшие достаточную надежность распознавания голосовых команд для применения КРИ в составе ТМС. Эксперименты позволили определить рекомендуемые значения параметров алгоритмов и получить конфигурацию КРИ с требуемыми характеристиками.
СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Гавриков М.М., Синецкий P.M. Методика и инструменты синтеза эталонных образов в методе структурной аппроксимации и распознавания речевых сигналов. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем: Материалы II Междунар. науч.-практ. конф., г. Новочеркасск, 21 мая 2004 г./ Юж.-Рос. гос. техн. ун-т (НПИ).- Новочеркасск; ЮРГТУ, 2004. - с. 229-237.
2. Синецкий P.M., Гавриков М.М. Процедуры формирования эталонов структурных речевых образов со спектрально-временными характеристиками. // Компьютерные технологии в науке, производстве, социальных и экономических процессах: материалы V Междунар. науч.-практ. конф., г. Новочеркасск, 12 нояб. 2004 г. : В 3 ч. / Юж.-Рос. гос. техн. ун-т (НПИ).- Новочеркасск; ЮРГТУ, 2004. - ч.2 - с. 4-7.
3. Гавриков М.М., Синецкий P.M. Технология синтеза структурно-аппроксимационных эталонов речевых образов в командно-речевых интерпретаторах // Изв. вузов: Электромеханика - №1 - 2005 - с.40-46.
4. Синецкий P.M., Гавриков М.М., Мезенцева А.Ю. Применение командно-речевых интерпретаторов в тренажно-моделирующих комплексах. // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем: Материалы III Междунар. науч.-практ. конф., г. Новочеркасск, 20 мая 2005 г./ Юж.-Рос. гос. техн. ун-т (НПИ).- Новочеркасск; ЮРГТУ, 2005. - с. 66-70.
5. Синецкий P.M. Задачи голосового управления в тренажерных системах // Теория, методы проектирования, программно-техническая платформа корпоративных информационных систем: материалы IV Международной научно-практической конференции, 26 мая 2006 г., г. Новочеркасск / Юж.-Рос. гос. техн. ун-т (НПИ).-Новочеркасск: ЮРГТУ, 2006.-е. 69-77.
6. Синецкий P.M., Гавриков М.М. Свидетельство об отраслевой регистрации разработки №7208 «Программа обработки цифровых речевых и звуковых
29
сигналов «Анализ сигналов» И Отраслевой фонд алгоритмов и программ. Государственный координационный центр информационных технологий. 9 ноября 2006 г.
7. Синецкий P.M., Гавриков М.М. Свидетельство об отраслевой регистрации разработки №7209 «Библиотека распознавания голосовых команд «Командно-речевой интерпретатор» // Отраслевой фонд алгоритмов и программ. Государственный координационный центр информационных технологий. 9 ноября 2006 г.
8. Синецкий Р. М. Библиотека голосового управления прикладными программами. // Компьютерные технологии в науке, производстве, социальных и экономических процессах: Материалы VII Междунар. науч.-практ. конф., г. Новочеркасск, 17 ноября 2006 г. / Юж.-Рос. гос. техн. ун-т (НПИ).- Новочеркасск; ЮРГТУ, 2006.
9. Гавриков М.М., Синецкий Р.М. Алгоритмическая и численная реализация структурно-аппроксимационного метода распознавания речевых образов. // Изв. вузов: Электромеханика - №2 - 2007.
Личный вклад автора в работах, выполненных в соавторстве: /1,2/- параметрическое представление спектров в моделях структурных речевых образов, алгоритмическая и программная реализация; /3/ - алгоритмическая и программная реализация, экспериментальная апробация; /4/ - алгоритмическая и программная реализация; /6, 7/ - программная реализация; /9/ - постановка задачи синтеза аппроксимационной структурной модели речевого образа, оптимизационная схема решения задачи, алгоритмическая и программная
реализация процедуры синтеза, экспериментальная апробация алгоритмов.
„_
Соискатель ' S;__P.M. Синецкий
СИНЕЦКИЙ Роман Михайлович
СТРУКТУРНО-АППРОКСИМАЦИОННЫЕ МЕТОДЫ РАСПОЗНАВАНИЯ РЕЧЕВЫХ ОБРАЗОВ И ИХ ПРИМЕНЕНИЕ В ТРЕНАЖНО-МОДЕЛИРУЮЩИХ СИСТЕМАХ
Автореферат
Подписано в печать 25.12.2008. Формат 60x84 '/i6. Бумага офсетная. Ризография. Усл. печ. л. 1,0. Уч.-изд. л. 1,56. Тираж 100 экз. Заказ 1014.
Издательство ЮРГТУ (НПИ) 346428, г. Новочеркасск, ул. Просвещения, 132
Оглавление автор диссертации — кандидата технических наук Синецкий, Роман Михайлович
список сокращений. введение.
1. анализ проблемы речевого управления тренировкой в тренажно-моделирующих системах.
1.1. Характеристика процессов управления сценариями тренировок.
1.2. Модели использования командно-речевых интерпретаторов в тренажномоделирующих системах.
1.3. Анализ современного состояния компьютерных речевых технологий и формирование требований к командно-речевым интерпретаторам в составе тренажно-моделирующих систем.
1.4. Анализ современных методов распознавания речевых образов.
1.5. Задача разработки инструментов и технологий построения эталонных речевых образов командно-речевых интерпретаторов.
1.6. Выводы.
2. разработка математических моделей и метода структурной аппроксимации и распознавания речевых образов.
2.1. Предварительные замечания.
2.2. Структурная детерминированность речеобразующих процессов.
2.3. Определение структурных моделей речевых образов
2.4. Математическая постановка задачи синтеза аппроксимационной модели
2.5. Оптимизационная схема решения задачи синтеза аппроксимационной модели.
2.6. Синтез аппроксимационных структурных моделей при параметрических представлениях спектров.
2.7. Функционально-логическая модель командно-речевого интерпретатора.
2.8. Методика построения эталонных моделей речевых образов.
2.9. Выводы.
3. разработка, численная реализация и исследование алгоритмов обработки речевых сигналов в командно-речевом интерпретаторе.
3.1. Характеристика задач исследования.
3.2. Численные соотношения, используемые в алгоритмах цифровой обработки речевых сигналов.
3.3. Алгоритм определения временных границ речевого сигнала.
3.4. Алгоритмы формирования речевых образов.
3.5. Разработка и исследование алгоритмов сегментации речевых образов.
3.6. Комплексная оценка надежности и вычислительной эффективности командно-речевого интерпретатора.
3.7. Выводы.
4. программная реализация командно-речевого интерпретатора и его применение в составе тренажерных систем.
4.1. Программная реализация командно-речевого интерпретатора.
4.2. Программная реализация методики настройки эталонов голосовых команд.
4.3. Технологические приемы повышения надежности распознавания речевых сигналов.
4.4. Применение командно-речевого интерпретатора в составе тренажерных систем.
4.5. Выводы.
Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Синецкий, Роман Михайлович
Проблема речевого взаимодействия «человек-машина» рассматривалась различными исследователями еще с середины XX века. За более чем 60 лет исследований были достигнуты определенные успехи в этой области, предпринимались попытки создания систем распознавания слитной речи и изолированных слов. Однако, обобщая накопленный опыт, можно сказать, что задача в целом все еще далека от своего решения, речевое общение на естественном разговорном языке не стало, как планировалось, обычным способом взаимодействия с машиной. Вместе с тем, имеются примеры эффективного применения систем распознавания изолированных слов (или словосочетаний - голосовых команд) для решения частных задач в некоторых прикладных областях [1, 2, 3, 4, 5, 6].
Одними из таких перспективных областей применения речевых технологий являются обучающие и тренажерные системы. Однако о применении голосового управления в составе тренажерных систем можно найти лишь краткие упоминания или информационные сообщения [7, 8, 9, 10]. Возможно, это связано с тем, что практически все передовые тренажерные системы являются закрытыми военными разработками и какие-либо обширные исследования в данном направлении, как правило, не публикуются. Можно утверждать, что эта область исследований является недостаточно изученной и освещенной.
Задача голосового управления в составе тренажерных комплексов заключается в построении такой системы распознавания речевых команд, которая с достаточной надежностью распознавания и требуемым быстродействием обеспечивает распознавание команды, поданной оператором в микрофон, ее интерпретацию и трансляцию в управляющие сигналы тренажерной системы.
Речевое управление имеет определенные преимущества перед другими способами управления [И]: освобождаются руки оператора для выполнения другой работы; оператор не должен занимать фиксированную позицию; не имеют значения условия освещения, механической вибрации и так далее. Вместе с тем, имеются и недостатки: речевой сигнал (РС) подвержен шумовым помехам; применение речевого управления затруднено в условиях, когда речевой канал используется для выполнения другой работы (например, для радиосвязи с другими операторами).
Кроме того, если оценивать целесообразность голосового управления по времени взаимодействия, отсчитываемого от момента, когда пользователь приступает к выполнению задачи, и до момента, когда он получает ответ, то речевой ввод не всегда обеспечивает меньшее время взаимодействия по сравнению с другими видами управления. Его применение отдельно от других органов управления не дает положительного эффекта, а скорее наоборот, ухудшает оперативность. Поэтому голосовое управление должно функционировать совместно с существующими органами, стать дополнительным каналом ввода информации. Функционируя совместно, все каналы ввода информации позволяют устранить недостатки друг друга и повысить общую эффективность управления.
Применение голосового управления в составе тренажерных комплексов представляется целесообразным для следующих систем: системы контроля и управления тренировкой, в составе которой функции голосового управления предназначены для повышения удобства и оперативности управления системами тренажера со стороны инструкторов и руководителей тренировки; системы моделирования объекта, в составе которой функции голосового управления используются в обучающем процессе (например, обучение командира надводного корабля отдаче нужных команд в определенных ситуациях, управление техническими системами тренажера со стороны обучаемого).
В рамках данной работы рассматривается применение голосового управления в составе систем контроля и управления тренировкой тренажно-моделирующих систем (ТМС).
В последнее время в разработке систем распознавания речи появилась тенденция к созданию программных библиотек распознавания голосовых команд (в иностранной литературе называемых «Speech Recognition SDK»), добавляющих возможности голосового управления в использующие их программные комплексы. Такую библиотеку можно назвать командно-речевым интерпретатором (КРИ). Как правило, библиотеки КРИ специфичны и ориентированы на конкретную область приложений, но имеют наилучшие показатели надежности распознавания и возможность встраивания. Существуют библиотеки для систем телефонии, автоматических справочных, управления технологическим оборудованием и других приложений, однако, упоминания о применении КРИ в составе тренажерных систем в отечественной и зарубежной литературе встречаются крайне редко. В рамках диссертационной работы рассматривается разработка такой библиотеки для тренажерных систем и ее внедрение в составе конкретных тренажеров.
В данной работе для распознавания речевых образов (РО) предлагается использование схемы метода структурной аппроксимации одномерных временных образов, обладающей достаточной конструктивностью для построения на ее основе алгоритмов распознавания РО, а также небольшими вычислительными затратами в реализации и невысокими требованиями априорной информации для настройки. Ранее этот метод успешно применялся для оценивания параметров электрофизиологических сигналов (электрокардиограмм, сфигмограмм и др.), но для распознавания PC применяется впервые.
Целью данной диссертационной работы является разработка комплекса структурно-аппроксимационных алгоритмов синтеза и распознавания речевых образов и реализация на этой основе командно-речевого интерпретатора для управления сценариями тренировок в тренажно-моделирующих системах.
Для достижения указанной цели в диссертационной работе решаются следующие основные задачи исследования:
1. Анализ процессов формирования и реализации сценариев проведения тренировки и выработка требований к КРИ в составе ТМС.
2. Разработка и исследование комплекса алгоритмов цифровой обработки РС, предназначенных для синтеза и распознавания структурных РО.
3. Разработка функциональной модели КРИ для численной реализации схемы метода структурной аппроксимации и распознавания РО в составе пультов управления ТМС.
4. Разработка методики и соответствующих инструментальных средств формирования эталонных РО с учетом специфики ТМС.
5. Экспериментальные исследования эффективности применения КРИ в составе пультов контроля и управления ТМС.
Заключение диссертация на тему "Структурно-аппроксимационные методы распознавания речевых образов и их применение в тренажно-моделирующих системах"
4.5. Выводы
1. Описана программная реализация КРИ в составе ПКУ в виде динамически загружаемой библиотеки с функциональным интерфейсом. Программные функции библиотеки позволяют выполнять инициализацию, управление библиотекой, получение результата распознавания и обработку ошибок. Конфигурация и база данных эталонов КРИ хранятся во внешних файлах заданной структуры, редактирование которых возможно при помощи соответствующего программного инструментария. Реализация в виде динамически загружаемой библиотеки является универсальным решением, которое позволяет однотипно использовать КРИ из различных модулей ТМС, подгружая библиотеку при необходимости, экономит дисковую и оперативную память ЭВМ ПКУ.
2. Представлена программная реализация полуавтоматической технологии формирования эталонов голосовых команд КРИ, и описан технологический процесс настройки эталонов. Особенностью предложенной технологии является участие оператора в процессе формирования эталонов, которое позволяет контролировать при формировании эталона результаты автоматической сегментации, выделения границ РС и исправлять ошибки автоматических процедур. Процесс формирования эталонов является интуитивно понятным и позволяет оператору с минимальной подготовкой в области цифровой обработки РС и прикладной фонетики получать качественные эталоны голосовых команд.
3. Предложены технологические приемы снижения количества ошибок распознавания КРИ, включающие в себя: запрос на подтверждение исполняемой команды, формирование списка наиболее вероятных команд, контекстное разделение команд. Эти приемы не влияют на показатель надежности распознавания КРИ, но их разработка и реализация существенно проще и легче совершенствования алгоритмов КРИ с целью повышения его показателя надежности.
4. Описано применение КРИ в составе конкретного тренажера, позволяющее подавать через микрофон ряд общесистемных команд тренажера. Часть этих команд требует подтверждения исполнения, которое может быть подано либо через микрофон, либо при помощи клавиатуры или мыши. В состав системного меню ПКУ добавлены команды включения, выключения режима голосового управления и выбора диктора.
ЗАКЛЮЧЕНИЕ
В работе рассмотрены применение метода структурной аппроксимации и распознавания одномерных временных образов для распознавания РО и разработка на его основе КРИ для использования в составе ТМС, удовлетворяющего требованиям этих систем. Основные результаты работы следующие:
1. Введено предположение о структурной детерминированности речеоб-разующего процесса, на основе этого предположения обоснована применимость метода структурной аппроксимации одномерных временных образов для распознавания РО.
2. Введена алгебра структурных речевых образов, позволяющая оперировать речевыми сигналами как со структурными объектами (структурными моделями речевых образов) и в комплексе применять как традиционные понятия и методы цифровой обработки сигналов, так и алгебраические понятия и методы структурной теории образов.
3. Схема метода структурной аппроксимации одномерных временных образов, применяемая ранее в задачах структурного анализа и оценивания параметров сигналов, впервые успешно применена к задаче распознавания речевых образов. Для реализации схемы структурной аппроксимации предложены конкретные формы представления структурных РО и виды критериев аппроксимации.
4. В рамках концепции структурной аппроксимации одномерных временных образов сформулирована математическая постановка задачи синтеза аппроксимационной модели для предложенных форм представления РО.
5. Разработаны оптимизационные схемы синтеза аппроксимационных моделей с использованием метода динамического программирования, получены соответствующие рекуррентные соотношения Беллмана, определяющие вычислительную схему синтеза.
6. В рамках проблематики распознавания речевых образов задача сегментации структурного образа, порождаемого структурно-детерминированным источником, сформулирована как задача его приведения к заданной мощности, определяемой мощностью структурно-детерминированного источника. Предложены постановки задач и разработаны алгоритмы сегментации/приведения структурных РО к заданной мощности. Рассмотрены вопросы влияния мощности деформированной модели на результат распознавания, и предложены способы обоснованного выбора мощности для достижения высокой надежности распознавания.
7. Разработана функциональная модель КРИ на основе метода структурной аппроксимации одномерных временных образов.
8. Разработаны инструменты формирования эталонных РО, пригодные для применения в составе ТМС и позволяющие добиться высокой надежности распознавания.
Научная значимость полученных результатов заключается в разработке комплекса оригинальных алгоритмов синтеза и распознавания РО, учитывающих естественные структурно-детерминированные свойства РС, и функциональной модели КРИ.
Практическая значимость полученных результатов заключается в реализации и эффективном применении КРИ для решения задач голосового управления в составе ТМС.
Результаты экспериментальной оценки надежности распознавания и вычислительной эффективности КРИ показали, что данные характеристики существенно зависят от способа представления РО и вида критерия аппроксимации. Перспективным направлением дальнейших исследований являются поиск более эффективных критериев аппроксимации и разработка новых способов представления, позволяющих повысить надежность распознавания и снизить вычислительную трудоемкость КРИ.
Другим перспективным направлением дальнейшего исследования струк-турно-аппроксимационного подхода к распознаванию РО является формализация и решение задачи синтеза эталонных (идеальных) моделей структурных
РО. Целью этих исследований является разработка инструментов и технологий формирования эталонных образов, простых в использовании и требующих минимального участия со стороны оператора, вместе с тем, синтезирующих качественные эталоны, позволяющие достигать высокой надежности распознавания.
Третьим перспективным направлением может быть дальнейшее исследование задачи сегментации структурных РО с целью разработки алгоритмов, позволяющих получать результаты сегментации, близкие к естественным фазам структурно-детерминированного речеобразующего процесса. Применение таких алгоритмов актуально как для задачи распознавания РО на основе метода структурной аппроксимации, так и для задачи формирования эталонных структурных моделей РО.
В данной диссертационной работе на примере использования в составе ТМС показано, что метод структурной аппроксимации является перспективным для применения в системах распознавания РО. Результаты экспериментов по оценке надежности и вычислительной трудоемкости КРИ показывают высокую эффективность применения метода. Полученные характеристики КРИ не хуже соответствующих характеристик аналогичных систем, а в некоторых аспектах применения в ТМС превосходят их.
Библиография Синецкий, Роман Михайлович, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
1. Леонович, A.A. Современные технологии распознавания речи / A.A. Леонович // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог'2005» (Звенигород, 1-6 июня, 2005 г.) / Под ред. И.М. Кобозевой,
2. A.C. Нариньяни, В.П. Селегея. М.:Наука, 2005. - 616 с.
3. Методы автоматического распознавания речи: в 2-х книгах. Пер. с англ. / Под. ред. У. Ли.-М.: Мир, 1983.-Т. 1.-328 с.
4. Методы автоматического распознавания речи: в 2-х книгах. Пер. с англ./ Под. ред. У. Ли.-М.: Мир, 1983.-Т. 2.-392 с.
5. Обжелян, Н. К. Речевое общение в системах «Человек-ЭВМ» / Н. К. Обжелян, В. Н. Трунин-Донской. Кишинев: «Штиинца», 1985.-176 с.
6. Козадаев, Б.П. Теоретико-методологические основания проблемы автоматического распознавания и понимания речи / Б.П. Козадаев. М.: ВЦ АН СССР, 1991 - 64 с.
7. Вопросы кибернетики. Анализ и синтез речи в системах управления / Под ред. В. Н. Емельянова. -М.: Изд. ВИНИТИ, 1981. 152 с.
8. Speech recognition: Wikipedia, The free encyclopedia Электронный ресурс. / Электрон, дан. Режим доступа: http://en.wikipedia.org/wiki/Speechrecognition/, свободный.
9. The CMU Sphinx Group Open Source Speech Recognition Engines Электронный ресурс. / Sphinx Group, Carnegie Mellon University Электрон, дан. - Режим доступа: http://cmusphinx.sourceforge.net/html/cmusphinx.php/, свободный.
10. Современные тренажерные технологии Электронный ресурс. / ЗАО «КоШэ». Электрон. дан. - Режим доступа: http://www.traintech.ru/, свободный.
11. Центр речевых технологий Электронный ресурс. / Электрон, дан. Режим доступа: http://speechpro.ru/, свободный.
12. Потапова, Р.К. Речевое управление роботом: лингвистика и современные автоматизированные системы / Р.К. Потапова. М.:КомКнига, 2005. - 328 с.
13. ГОСТ 26387-84. Система человек-машина. Термины и определения. / Государственный комитет СССР по стандартам. М., 1984.
14. Тренажерные комплексы и тренажеры. Технологии разработки и опыт эксплуатации /
15. B. Е. Шукшунов, В. В. Циблиев, С. И. Потоцкий и др. Под ред. В. Е. Шукшунова. М.: Машиностроение, 2005. - 384 с.
16. Huang, X. Spoken Language Processing: a guide to theory, algorithm, and system development / X. Huang, A. Acero, H.-W. Hon. USA, New Jersey: Prentice-Hall, 2001. - 980 c.
17. Харт, Дж. М. Системное программирование в среде Microsoft Windows / Дж. M. Харт-М.: Вильяме, 2005. 592 с.
18. AudiTech, Ltd (ООО «ОДИТЕК») Электронный ресурс. / Электрон, дан. Режим доступа: http://www.auditech.ru/, свободный.
19. Научно-производственный центр «Истра-Софт» Электронный ресурс. / Электрон, дан. Режим доступа: http://www.istrasoilt.ru/, свободный.
20. Philips Speech Recognition Электронный ресурс. / Электрон, дан. — Режим доступа: http://www.speechrecognition.philips.com/, свободный.
21. Microsoft Speech Technologies Электронный ресурс. / Электрон, дан. Режим доступа: http://www.microsoft.com/speech/, свободный.
22. Nuance Communications Электронный ресурс. / Электрон, дан. Режим доступа: http://www.nuance.com/, свободный.
23. BBN Technologies Электронный ресурс. / Электрон, дан. Режим доступа: http://wvvw.bbn.com/, свободный.
24. AT&T Lab Research. Watson ASR Электронный ресурс. / Электрон, дан. Режим доступа: http://www.research.att.com/, свободный.
25. Voice Recognition. 21st Century Eloquence, Inc. Электронный ресурс. / Электрон, дан. -Режим доступа: http://www.voicerecognition.com/, свободный.
26. Стэл Компьютерные Системы. Распознавание речи, речевые технологии Электронный ресурс. / Электрон, дан. - Режим доступа: http://www.stel.ru/speech/, свободный.
27. Wang, Y.-Y. Is word error rate a good indicator for spoken language understanding accuracy / Y.-Y. Wang, A. Acero, С. Chelba // IEEE Workshop on ASRU '2003, 30 Nov.-3 Dec. 2003 -p. 577-582.
28. Soft-Forum. Обзоры программного обеспечения. Электронный ресурс. / Электрон, дан.- Режим доступа: http://www.soft-forum.ru/forum/, свободный.
29. Софт-боард. Обзоры программного обеспечения. Электронный ресурс. / Электрон, дан. Режим доступа: http://www.softboard.ru/forum/, свободный.
30. Речевые технологии. Информационный портал. Электронный ресурс. / Электрон, дан.- Режим доступа: http://speech-soft.ru/, свободный.
31. Форум глухих, слабослышащих и всех. Электронный ресурс. / Электрон, дан. Режим доступа: http://www.deafnet.ru/forum/, свободный.
32. Информационное агентство «Пари» Электронный ресурс. / Электрон, дан. Режим доступа: http://vvwvv.pari.ru/, свободный.
33. Макс, Ж. Методы и техника обработки сигналов при физических измерениях: В 2-х томах. Пер. с франц. / Ж. Макс. М.: Мир, 1983. - Т.1 - 312 с.
34. Златоустова, JI. В. Общая и прикладная фонетика. Учебное пособие / JI. В. Златоустова, Р. К. Потапова. В. Н. Трунин-Донской М.: Изд-во МГУ, 1986. - 304 с.
35. Pickles, J.O. An Introduction to the Physiology of Hearing / J.O. Pickles USA, New York: «Academic Press», 1983. - 311 c.
36. Применение цифровой обработки сигналов / Под ред. А. Оппенгейма. М.: Мир, 1980552 с.
37. Потапова, Р.К. Речь: коммуникация, информация, кибернетика: Учебное пособие. Изд. 3-е, стереотипное / Р.К. Потапова М.: Едиториал УРСС, 2003. - 568 с.
38. Рамишвили, Г.С. Автоматическое опознавание говорящего по голосу / Г.С. Рамишвили- М.: Радио и связь, 1981. 224 с.
39. Фланаган, Д.Л. Анализ, синтез и восприятие речи. Пер. с англ. / Д.Л. Фланаган. М.: Связь, 1968.-198 с.
40. Горелик, A.J1. Методы распознавания. Учеб. пособие для вузов / A.JI. Горелик, В.А. Скрипкин. М.: «Высш. Школа», 1977. -222 с.
41. Горелик, AJI. Современное состояние проблемы распознавания: Некоторые аспекты / A.JI. Горелик, И.Б. Гуревич, В.А. Скрипкин. М.: «Радио и связь», 1985. - 160 с.
42. Загоруйко, Н. Г. Методы распознавания и их применение / Н.Г. Загоруйко -М.:«Советское радио», 1972. 208 с.
43. Винцюк, Т.К. Анализ, распознавание и интерпретация речевых сигналов / Т.К. Винцюк. -Киев: «Наук. Думка», 1987. 264 с.
44. Renals, S. Using Speech Recognition / S. Renals // ITNOW.- 1996 № 38 (6).- c. 27-72.
45. Itakura, F. Minimum prediction residual principle applied to speech recognition / F. Itakura // IEEE Trans. Acoustics, Speech, and Signal Proc. 1975. - vol.23.- c. 52-72.
46. Фу, К. Структурные методы в распознавании образов. Пер с англ./ К. Фу М.: Мир, 1977.-320 с.
47. Brown, P.F. Class-based n-gram models of natural language / P.F. Brown, V.J. Delia Pietra, P.V. deSouza, J.C. Lai, R.L. Mercer. // Computer Linguistics.-1992.-№18(4).-c. 467-479.
48. Круглов, В.В. Искусственные нейронные сети. Теория и практика / В.В. Круглов, В.В. Борисов -М.: Горячая линия-Телеком, 2001.-382 с.
49. Шевелев, А. Нейронные сети и распознавание образов / А. Шевелев // Программист. — 2001.-№10. с. 54-66.
50. Уоссерман, Ф. Нейрокомпьютерная техника: теория и практика / Ф. Уоссерман М.: Мир, 1985.-с. 294.
51. Рутковская Д. Нейронные сети, генетические алгоритмы и нечеткие системы / Д. Рут-ковская, М. Пилиньекий, JT. Рутковский М.: Горячая линия-Телеком, 2007 — 452 с.
52. Schmid, Н. Part-of-Speech Tagging with Neural Networks Электронный ресурс. / H. Schm-id // Proceeding of COLING-1994, ppl72-176 / Электрон, дан. Режим доступа: http://acl.ldc.upenn.edU/C/C94/C94-1027.pdf, свободный. - Электрон, версия печ. публикации.
53. Sameti, Н. HMM-Based Strategies for Enhancement of Speech Signals Embedded in Nonsta-tionary Noise / H. Sameti. H. Sheikhzadeh, L. Deng, L. Brennan // Trans, of IEEE on Speech and Audio Processing. 1998-№ 5 (9), vol. 6- c. 445-455.
54. Rabiner, L.R. A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition / L.R. Rabiner // Proc. of IEEE. -1989.- № 77 (2).-c. 257-286.
55. Pylkkonen, J. Duration Modeling Techniques for Continuous Speech Recognition / J. Pylkkonen, M. Kurimo // Proc. of the 8th ICSLP'04 (Interspeech 2004), October 4-8.-Jeju Island, Korea, 2004 -c. 385-388.
56. Ostendorf, M. From HMM's to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition / M. Ostendorf, V.V. Digalakis, O.A. Kimball // Trans, of IEEE on Speech and Audio Processing.- 1996.-№ 5 (9), vol. 4.- c. 360-378.
57. Гавриков, M.M. Метод структурной аппроксимации в обработке сигналов и экспериментальных кривых / М.М. Гавриков, А.Н. Иванченко // Изв. вузов. Электромеханика-1992.- №5.- с. 67-79.
58. Гавриков, М.М. Конструирование алгоритмов структурной аппроксимации сигналов / М.М. Гавриков, А.Н. Иванченко // Изв. вузов. Электромеханика.-1995.-№1-2.-е. 104112.
59. Гавриков, М.М. Оптимизационная процедура синтеза структурно-аппроксимационной модели сигнала на основе вероятностных критериев / М.М. Гавриков, А.Н. Иванченко; Новочерк. гос. техн. ун-т.-Новочеркасск, 1995.-9 с.-Деп. В ВИНИТИ 13.03.95. №662-В95.
60. Гавриков, М.М. Автоматизация процессов обработки информации в кабинетах функциональной диагностики / М.М. Гавриков, Н.Д. Листопад; Юж.-Рос. гос. техн. ун-т. Новочеркасск, 2000.-18 с.-Деп. в ВИНИТИ 24.04.2000 г. №1145-ВОО.
61. Гавриков, М.М. Структурная аппроксимация и распознавание одномерных временных образов. Концепция и применения / М.М. Гавриков // Изв.вузов. Электромеханика. -2003.-№6.-с. 52-60.
62. Гренадер, У. Лекции по теории образов. Пер. с англ. В 2-х томах / У. Гренадер М.: Мир, 1976-Т.1 -382 с.
63. Гренадер, У. Лекции по теории образов. Пер. с англ. В 2-х томах / У. Гренадер М.: Мир, 1976-Т.2-446 с.
64. Пелед, А. Цифровая обработка сигналов: Теория, проектирование, реализация: Пер. с англ / А. Пелед, Б. Лиу Киев: Вища школа. Головное изд-во, 1979. - 264 с.
65. Цифровая обработка сигналов: Справочник / Л. М. Голденберг, Б. Д. Матюшкин, M. Н. Поляк. М.: Радио и связь, 1985. - 312 с.
66. Гавриков, М.М. Алгоритмическая и численная реализация структурно-аппроксимационного метода распознавания речевых образов / М.М. Гавриков, P.M. Си-нецкий // Изв. вузов: Электромеханика. 2007.-№2. - с 51-59.
67. Арис, Р. Дискретное динамическое программирование. Введение в оптимизацию многошаговых процессов. Пер. с англ. / Арис Р, под ред. Б.Т. Поляка.-М.:Мир, 1969.-172 с.
68. Беллман, Р. Введение в теорию матриц / Р. Беллман М.: Наука, 1976. - 375 с.
69. Гавриков, М.М. Технология синтеза структурно-аппроксимационных эталонов речевых образов в командно-речевых интерпретаторах / М.М. Гавриков, P.M. Синецкий // Изв. вузов. Электромеханика. 2005. -№ 1.-е. 40-46.
70. Оппенгейм, А. В. Цифровая обработка сигналов: Пер. с англ./ А. В. Оппенгейм, Р. В. Шафер, под ред. A.C. Ненашева. М.: Техносфера, 2006. - 856 с.
71. Маклаков, С. В. Моделирование бизнес-процессов с AllFusion Process Modeler / С. В. Маклаков М.: Диалог-Мифи, 2002. - 240 с.
72. Феллер, В. Введение в теорию вероятностей и ее приложения. В 2-х томах. Пер. с англ./ В. Феллер. М.: Мир, 1984.-Т. 1-528 с.
73. Левин, Б.Р. Теоретические основы статистической радиотехники. В трех томах / Б.Р. Левин. М.: «Сов. радио», 1975. - Т.2 - 392 с.
74. Левин, Б.Р. Теоретические основы статистической радиотехники. В трех томах / Б.Р. Левин. М.: «Сов. радио», 1976. - Т.З - 288 с.
75. Ерохин, А.Н. Обнаружение сигнала на фоне пуассоновской помехи / А.Н. Ерохин, И.В. Тиме // Автоматика и телемеханика-1987.-№5 .-с. 174-178.
76. Борисенко, В.И. Сегментация изображения (состояние проблемы) / В.И. Борисенко, A.A. Златопольский, И.Б. Мучник // Автоматика и телемеханика.-1987.-№7.-с.З-56.
77. Коган, И.А. Оптимальная сегментация структурных экспериментальных кривых на основе метода динамического программирования / И.А. Коган // Автоматика и телемеханика.-! 983.-№7.-с. 146-156.
78. Воробьев, С.А. Алгоритмы выделения и классификации фрагментов повторяющейся формы на экспериментальных кривых / C.A. Воробьев // Автоматика и телемеханика-1985.-№8.-с.89-93.
79. Боденштайн, Г. Выделение признаков из электроэнцефалограммы методом адаптивной сегментации / Г. Боденштайн, X. М. Преториус // ТИИЭР.- 1977.-№ 5(65). с. 59-72.
80. Златопольский, A.A. Сегментация изображения по границам с разрывами / A.A. Злато-польский // Автоматика и телемеханшса.-1985.-№9.-с. 109-117.
81. Рабинер, Л. Р. Цифровая обработка речевых сигналов: Пер. с англ./ Л. Р. Рабинер, Р. В. Шафер / Под. ред. М. В. Назарова и Ю. Н. Прохорова. М.: Радио и связь, 1981. - 496 с.
82. Моттль, В.В. Сегментация структурных кривых на основе метода динамического программирования / В.В. Моттль, И.Б. Мучник // Автоматика и телемеханика.-1985.-№1— с.101-108.
83. Моттль, В.В. Оптимальная сегментация экспериментальных кривых / В.В. Моттль, И.Б. Мучник, В.Г. Яковлев // Автоматика и телемеханика.-1983.-№8.-с.84-98.
84. Моттль, В.В. Алгоритмическая реализация лингвистического подхода к анализу экспериментальных кривых / В.В. Моттль, И.Б. Мучник, В.Г. Яковлев // Автоматика и телемеханика -1984.-№4.-с.5-25.
85. Сорокин, В.Н. Сегментация и распознавание гласных / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы 2004- № 2, т. 4.-е. 202-220.
86. Валуева, Н.М. Автоматическая сегментация речевого сигнала по динамической спектрограмме / Н.М. Валуева, Е.Б. Каничева М.: ВЦ АН СССР, 1988.- 12 с.
87. Залманзон, Jl. А. Преобразования Фурье, Уолша, Хаараи их применение в управлении, связи и других областях / Л.А. Залманзон М.:Наука.Гл.ред.физ.-мат.лит., 1989. - 496 с.
88. Нуссбаумер, Г. Быстрое преобразование Фурье и алгоритмы вычисления сверток: Пер. с англ./ Г. Нуссбаумер М.: Радио и связь, 1985.-248 с.
89. Лайонс, Р. Цифровая обработка сигналов: второе издание. Пер. с англ. / Р. Лайонс М.: ООО «Бином-Пресс», 2006. - 656 с.
90. Марпл, С. Л.-мл. Цифровой спектральный анализ и его приложения: Пер. с англ. / С. Л. Марпл-мл. М.: Мир, 1990. - 584 с.
91. Блейхут, Р. Быстрые алгоритмы цифровой обработки сигналов: Пер. с англ. / Р. Блейхут -М.: Мир, 1989.-448 с.
92. Маккделлан, Дж. Г. Применение теории чисел в цифровой обработке сигналов: Пер. с англ. / Дж. Г. Маккделлан, Ч. М. Рейдер / Под ред. Ю. И. Манина. М.: Радио и связь, 1983.-264 с.
93. Бахвалов, Н.С. Численные методы. В 2-х томах. / Н.С. Бахвалов — М.: Наука, 1975. — Т.1 632 с.
94. Березин, И.С. Методы вычислений. В 2-х томах / И.С. Березин, Н.П. Жидков М.: Физматит.,1966. - Т.1 - 632 с.
95. Холл, М. Комбинаторика. Пер. с англ. / М. Холл М.: Мир, 1970. - 424 с.
96. Intel, Inc. Электронный ресурс. / Электрон, дан. Режим доступа: www.intel.com, свободный.
97. Multiple Channel Audio Data and WAVE Files Электронный ресурс. / Электрон, дан. -Режим доступа: http://www.microsoft.com/whdc/device/audio/multichaud.mspx, свободный.
98. Орлов, С. Технологии разработки программного обеспечения. 3-е изд. / С. Орлов -СПб.: Питер, 2004.-527 с.
99. Дейт, К. Дж. Введение в системы баз данных, 6-е издание: Пер. с англ. / К. Дж. Дейт -К., М., СПб.: Издательский дом «Вильяме», 2000. 848 с.
100. Тутевич, В.Н. Телемеханика. Изд. 2. / В.Н. Тутевич М.: Высшая школа, 1985. - 424 с.
-
Похожие работы
- Модели и алгоритмы управления тренажной подготовкой курсантов летных специальностей
- Аппроксимационная сплайновая фильтрация сигналов систем с нестационарными возмущениями
- Построение математического обеспечения систем распознавания речи на основе нелинейных методов сравнения образов
- Речевая коммуникация в системах ввода сообщений для автоматизации рабочих мест оперативно-диспетчерского персонала
- Принципы создания и разработка автоматизированных систем управления технологическими процессами
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность