автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.07, диссертация на тему:Разработка и исследование речевого интерфейса для системы автоматического управления робота
Автореферат диссертации по теме "Разработка и исследование речевого интерфейса для системы автоматического управления робота"
На правах рукописи
ИЗИЛОВ ЯКОВ ЮНОЕВИЧ РАЗРАБОТКА И ИССЛЕДОВАНИЕ РЕЧЕВОГО ИНТЕРФЕЙСА ДЛЯ СИСТЕМЫ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ РОБОТА
Специальность: 05.13.07 - автоматизация технологических процессов и производств (промышленность)
АВТОРЕФЕРАТ диссертации на соискание учёной степени
кандидата технических наук
Санкт-Петербург - 1998
Работа выполнена в Санкт - Петербургском государственном техническом университете.
Научный руководитель: доктор технических наук, профессор,
академик РИА Федотов А.И.
Научный консультант: кандидат технических наук, доцент,
Морозов Б.И.
Официальные оппоненты: доктор технических наук, профессор,
академик МАТК, МАИ, АНУД, АМАН Тимофеев A.B. кандидат технических наук Павлов В.А.
Ведущая организация: ГП "Северный завод", Санкт-Петербург
Защита состоится " 0-9" ШСНЛ 1998 г. в ^ часов на заседании диссертационного совета Д.063.38.16 Санкт-Петербургского государственного технического университета по адресу: 195251, Санкт-Петербург, Политехническая ул., д. 29, 1-й уч. корп., а. 41
С диссертацией можно ознакомиться в библиотеке университета.
Автореферат разослан
Учёный секретарь
- 1998 г.
диссертационного совета И.А. Сенчило
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность. При производстве деталей в цикле технологической подготовки работы оборудования возникает необходимость в разработке управляющих программ (УП). Общий недостаток процесса подготовки и контроля УП - большие затраты времени и наличие ручных операций.
На ряде крупных предприятий созданы вычислительные центры (ВЦ), которые позволяют автоматизировать разработку УП для технологического оборудования, в том числе - для робототехнических ячеек (РТЯ).
Однако, внедрение ВЦ возможно только на крупных предприятиях, так как это связано с большими капиталовложениями. В связи с этим, □ диссертационной работе произведён анализ особенностей производсва деталей типа "вал" для делительных головок, который позволил заключить, что ВЦ не является достаточно гибким звеном в технологической подготовке работы РТЯ. Не менее остро стоит проблема ускорения технологической подготовки работы промышленных роботов, РТЯ и обмена информацией между человеком и ЭВМ. Одним из актуальных и перспективных направлений для решения этой задачи является более полное использование возможностей робота путём его модернизации на основе предложенного речевого интерфейса.
Применение систем распознавания речи при автоматизации технологических процессов и производств, позволяет реализовать удобное взаимодействие человека с системой управления технологического оборудования, в том числе с устройством подготовки данных при разработки УП, атакже с другими техническими системами. Применение систем программного управления с вводом данных голосом повышает производительность операций, так как уменьшается работа с клавишной панелью.
Актуальной остаётся проблема улучшения характеристик существующих и создание новых речевых систем. Особый интерес представляет разработка систем и методов распознавания слов, произнесенных без
специальных пауз, то есть слитной речи. Необходимость и своевременность проведения научно-исследовательских работ в данном направлении обуславливается объективными требованиями совершенствования человеко-машинного интерфейса в условиях расширения областей применения автоматизированных систем. Условием для широкого использования речевых технологий является повышение вероятности распознавания слов и увеличение быстродействия систем распознавания речи. Последнее особенно важно при работе с системами распознавания слитной речи, так как при традиционном подходе время анализа речевого сигнала (РС) пропорционально числу слов в высказывании.
Целью работы является разработка и исследование речевого интерфейса (РИ) для системы автоматического управления (САУ) робота, обеспечивающего ввод информации с помощью слитно произнесённых указаний на русском языке.
Основные задачи исследования.
Обоснование выбора числа точек измерения и количества контрольных испытаний параметров акустического состояния (АС),
Обоснование преимущества использования меры схожести текущего АС с эталоном.по п - параметрам одновременно по сравнению с отдельно взятыми параметрами.
Исследование изменения времени и вероятности распознавания речевого высказывания в зависимости от количества составляющих его слов при испытании разработанного РИ.
методы: теории распознавания образов, цифровой обработки акустических сигналов, акустической теории речеобразования, теории планирования и постановки эксперимента, теории вероятностей.
Достоверность предложенных в работе положений подтверждена экспериментальными исследованиями, выполненными на эксперимен-
В диссертационной работе использовались
альном комплексе, имеющем в своём составе персональный компьютер, адио - и специально разработанные программные средства.
Научная новизна.
Разработана методика распознавания слов в слитной речи при неиз-зестном законе распределения PC.
Предложены формулы представления акустических состояний n-мерной областью, свободной от типа распределения на основе неравенства Маркова.
Разработана методика лексической интерпретации слитной речи, которая позволяет формировать возможные варианты лексической гипотез произнесённого высказывания в пределах межфразовых пауз и выделить исчерпывающий набор вариантов последовательностей слов, акустически схожих с произнесённым высказыванием. Это позволяет повысить вероятность распознавания слитно произносимых указаний.
Разработана структура РИ, включая структуру системы распознавания слитной речи (СРСР). Последняя содержит построитель лексических гипотез с двумя типами блоков лексического анализа. Лексический анализ слитной речи реализован с использованием методики лексической интерпретации, основанной на обнаружении эталонов слов слитной речи в текущем PC, и методики распознавания слов в слитной речи - в части реализации математического представления АС n-мерной областью свободной от типа распределения. Все это позволяет реализовать понимание речевых сообщений через распознавание их лексических элементов.
Предложена методика экспериментального исследования PC на основе разработанного программного комплекса "Звукоинженер", предназначенного для интерактивной работы с речевыми базами данных на персональной ЭВМ для операционной системы Microsoft Windows 95, а также для визуализации, анализа и подготовки баз данных PC, позволяющая установить объём экспериментальных работ для достижения необходимой
вероятности распознавания акустических состояний.
Практическая ценность заключается в создании дикторозависимого речевого интерфейса с использованием специально созданного программного обеспечения - "Пойми Меня", которое предназначено для оперативного преобразования речевых указаний в команды управления и визуального отображения результатов распознавания.
Речевой интерфейс позволяет повысить функциональную возможность робота за счёт использования дополнительного режима речевого ввода информации. Ввод данных достигается слитным произнесением указаний на русском языке.
Разработанный речевой интерфейс может быть использован не только при создании новых интеллектуальных роботов и автоматизации технологических процессов производств, но и при модернизации существующих промышленных роботов, станков с ЧПУ, робототехнических ячеек и систем, устройств подготовки данных.
Модернизация заключается в повышении функциональных возможностей технологического оборудования, в том числе робота путём использования дополнительного канала ввода информации непосредственно с голоса. Это доступно практическому внедрению речевого интерфейса как на крупных, так и на малых предприятиях машино - и приборостроения. Капиталовложения на проведение этой модернизации не соизмеримо мало по сравнению с приобретением нового оборудования.
Результаты сравнительного анализа и экспериментального исследования, показали, что вероятность распознавания слитно произнесённых высказываний РИ достигает 97,4%. Кроме этого, использование РИ позволяет сократить трудоёмкость ручных операций и ускорить технологическую подготовку производства деталей типа "вал".
Результаты диссертационной работы внедрены на Станкостроитель-
ном заводе "Свердлов" при создании устройства подготовки данных для разработки УП с использованием РИ. Ожидаемый годовой экономический эффект от внедрения одной единицы устройства подготовки данных для разработки УП с использованием РИ составляет 7200 рублей в ценах 1998 года.
Основные положения диссертационной работы использованы в Ленинградском оптико-механическом объединении (ЛОМО) при проведении научно-исследовательских работ по совершенствованию процессов технологической подготовки работы робототехнических систем.
Предложенная структура дикторозависимого речевого интерфейса и организация его работы используются при проведении исследовательских работ по созданию роботов с голосовым управлением в Центральном Научно-исследовательском Институте Робототехники и Технической Кибернетики (ЦНИИ РТК).
Публикации.
По материалам диссертационной работы опубликовано 6 печатных работ, в том числе 2 патента РФ на изобретение.
Апробация работы.
Основные теоретические положения, результаты, выводы, рекомендации докладывались и обсуждались на:
- Российской научно-технической конференции "Инновационные наукоёмкие технологии для России", г.Санкт-Петербург, 25-27 апреля 1995г.;
- научной военно-технической конференции "Автоматизация проце-сов управления соединениями и частями ПВО, информационные технологии. Состояние и перспективы создания единой автоматизированной радиолокационной системы", г. Санкт-Петербург, 15-16 мая 1996 г.;
- международной научно-технической конференции "Информационные технологии в моделировании и управлении", г. Санкт - Петербург,
25 -27 июня 1996 г.
Структура и объём работы.
Диссертационная работа состоит из 5 разделов, заключения, списка литературы и приложения. Общий объём диссертации состоит из 167 страниц машинописного текста, в том числе 146 страниц составляет основной текст, который поясняется 35 рисунками и 9 таблицами. Список литературы насчитывает 100 наименований.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении показана актуальность работы, сформулированы цель, изложены основные положения, которые выносятся на защиту и приведена краткая аннотация всех разделов диссертации.
В первой главе рассматриваются особенности серийного производства деталей типа "вал" и технологической подготовки процесса производства этих деталей, проблемы управления робототехническими системами. Приводится обзор известных робототехничесшх систем с речевым управлением и методов распознавания речи; сформированы задачи и определён способ расширения функциональной возможности промышленного робота, оснащением его САУ речевым интерфейсом.
Во второй главе рассматривается методика распознавания слов в слитной речи при неизвестном законе распределения РС. Предложено представление АС, на основе неравенства Маркова, «-мерной областью, свободной от типа распределения с определением его местоположения в многомерном пространстве.
Пусть случайный вектор псевдостационарного АС речевого сигнала со значениями в Шраспределение которого не известно представляется следующим образом:
У = (1)
где 91" - координатное пространство, состоящее из всевозможных век-
торов - столбцов, размерностью п; щ - параметр АС, 1=1,2,...,и; т - символ транспонирования. Матрица ковариации А и при условии, что |А|*0, обратная к А матрица А"
/
А =
№1 сиг 321 Згг
\3п1 3/12
Й1Л
3 гп
А"1 =
Г.-1 _-1
ап а\2
о'1
аг1 Эгг
--Л
йи
Згп
(2)
где Эу = М ( - корреляционная функция; 1,_/ =1,2, ... п\
VI = ц - ц,, - центрированное значение параметра АС; дг = Мц - математическое ожидание г - ой координаты; В"
а"1=-У— 1 щ. алгебраическое дополнение элемента а,> матрицы А.
• сИау]
Тогда местоположение АС в многомерном пространстве параметров определяется следующим образом:
£ £ а»Ч^-ц/НУ/"^)
¿ = 1 ; = 1 ^ у 1-у
где у - уровень доверия (надёжности); п - размерность пространства.
(3)
На практике параметры ц;, а;,' не известны, поэтому на основе зако-
на больших чисел они определяются приближенно по формулам :
1 5 / N
(4)
где V™У?*„..V
элементы обучающей выборки; 5 - число испытаний.
1 Д
5»=1
В качестве элементов распознавания используется дифон ; ОТ = (у .V )>
(5)
(6)
где (н) и (к) - символы начального и конечного АС соответственно.
На основе дифонной транскрипции слов производится описание лексем устойчиво обнаруживаемыми звуковыми образами - ожидаемыми по-
следовательностями АС. Распознавание слов в слитной речи реализуется на основе направленного поиска оптимальной последовательности вершин (пути), которым соответствуют доверительные области значений параметров АС на фиксированном временном интервале, в ориентированном графе лексического декодирования (ОГЛД), представляющем собой словарь со встроенным фонетическим транскриптором, правилами фонологии и лексикой для заданного набора слов. Проверка текущего АС на принадлежность к какому-либо эталону осуществляется в соответствии с неравенством (3).
В третьей главе рассматривается методика лексической интерпретации слитной речи. В основу представления элементов распознавания естественного РС положен принцип последовательного разложения фонем на аллофоны, а аллофонов - на составляющие их АС. Аллофоны легко различимы акустически, вследствие чего исчезает потребность применения фонологических правил на более низких уровнях. Они содержат информацию о границах между слогами и словами. Такую информацию предлагается получать посредством представления аллофонов в виде 3-х последовательных АС: начального, серединного и конечного. При этом тип серединного АС зависит только от типа выбранного аллофона, а тип начального или конечного - переходного АС зависит, кроме того, от типа предшествующей и последующей фонемы. ч
Пусть V? -АС, определяющее q-v^ интервал РС ф-ой фонемы; юф-1, юф+1 - предшествующая и последующая фонемы; £2т, Оп -множества фонем т-го и п-го типов, где д - индекс, определяющий тип АС, ц = 1,2,3 {д = 1 - начальное АС; q = 2 - серединное АС; # = 3 - конечное АС); ф -индекс, определяющий фонему, ф = 1,2, ...,Ф\ т - индекс, определяющий множество предшествующих фонем, т =1,2,..., М\ п - индекс, определяющий множество последующих фонем, п = 1,2, .., N. Тогда в общем случае АС представляется в виде многозначной функции:
VII, пРи «ф.^Пр ©ф + 1бГ21; V2,1. при Оф., 6 а2,Юф + 1 е Пр
при С0ф., е От.шф + 1 е пп;
Учитывая, что речевое высказывание - последовательность слов:
1У= С]ц , ..., С/,..... С/,/ (8)
где: IV - речевое высказывание; С - слово; I - номер слова в базе данных слов, / = 0,1,2,...,Ц ) - номер произношения /-го слова, ] = 0,1,2, I - порядковый номер слова в высказывании, г = 1,2,3,...,!, а слово - последовательность акустических состояний :
с1< ~ | Унмщ)^ 1' { ЧЬмЛ }к12 ' УЬ,к(Л=К
*0)=2 J,
(9)
где: ОйИ<Н, 0<1<Ь, 1 <кф<К, 0<;< Л, 1 <(< /, (10)
V - акустическое состояние; Ь, е - тип начального и конечного АС соответственно, выбираемый в соответствии с произношением у для 1-го слова; А: - число АС в слове, изменяющееся в зависимости от у для С/; , к = 1,2,3,... ,К\ к - номер АС в базе данных эталонов АС, Л = 0,1,2,...,Н\
то каждое АС задаётся п - мерной доверительной областью, свободной от типа распределения, математическое описание которой аналогично описанию, изложенному в главе 2.
Определение возможных вариантов лексической интерпретации исходного выражения основано на поиске оптимальной последовательности вершин (пути) в ориентированном графе лексической интерпретации (ОГЛИ), реализующем последовательное сокращение исходного множества эталонов АС и слов по критериям акустического подобия. По текущему АС, оценкам меры близости текущего АС и ожидаемых эталонов (3), формируют гипотезы о словах, акустически схожих своими начальными АС на текущее. Затем из множества сформировавшихся к этому моменту гипотез о словах отбирают эталоны, акустически схожие своими
следующими эталонными АС на следующее текущее АС. При этом производят формирование последовательностей слов с учётом чередования границ, составляющих их слов согласно (9). Процесс формирования последовательностей слов заканчивается, как только будет обнаружена межфразовая пауза. Полученные к этому моменту последовательности слов составляют набор возможных лексических гипотез или вариантов лексической интерпретации входного высказывания.
построителями лексических гипотез типа 1 и типа 2; организации ввода речевого сигнала в ЭВМ, аппаратуре и программному обеспечению РИ.
Аппаратная часть РИ состоит из микрофона и звукового адаптера. Программная часть состоит из драйвера, осуществляющего взаимодействие звукового адаптера с ЭВМ, и СРСР, обеспечивающей диалог между операторам и ЭВМ. На рис. 1 представлена структурная схема СРСР, которая применяется в РИ для САУ робота. Система содержит: построитель лексических гипотез (ПЛГ), состоящий из блока акустического анализа (БАА) и блока лексического анализа (БЛА), блок семантико-синтак-сического анализа (БССА), блок адресации (БА), блок проверки гипотез (БПГ), блок отображения информации (БОИ), блок интерпретации (БИ). БАА предназначен для ввода РС, измерения параметров АС и их передачи в БЛА для расшифровки. БЛА представляет источник лексических и фонологических знаний. Все акустико-фонетические данные представляются в БЛА в виде последовательностей АС, в основе которых лежит ОГЛИ. БССА представляет граф переходов слов, в которой допускаются только те предложения, которые имеют грамматический смысл. БОИ предназначен для отображения результатов распознавания. В качестве блока отображения информации может быть использован монитор ЭВМ или синтезатор речи. БПГ обеспечивает процедуру проверки лексических гипотез. БА выполняет функции планирования и координации работы всех блоков, входящих в систему. БИ предназначен для перевода
посвящена разработке структурных схем РИ, СРСР с
распознанного высказывания на язык понятной ЭВМ и формирования команд управления.
Речевой сигнал управления
Рис. 1. Структурная схема системы распознавания слитной речи
ПЛГ с блоком лексического анализа типа 1 (БЛА-1), разработанный на основе методики распознавания слов, изложенной в главе 2, позволяет формировать транскрипцию входного высказывания, по которой определяется последовательность слов входного высказывания. БАА (рис. 2) содержит: БПО - блок предварительной обработки, БСА - блок спектрального анализа, БХЗП - буфер хранения значений спектра, ВК - вычислитель коэффициента г), ВТАС - вычислитель текущего АС. БЛА-1 (рис. 3) содержит: ОАС - определитель ожидаемых АС, БДВ - блок хранения базы данных вершин, БДАС - блок хранения базы данных эталонных АС, БСЭ -блок сравнения с эталоном, БВОМ - блок выбора оптимальной оценки и маркировки вершин, БП1 - блок памяти 1, БУ - блок управления, БПГВ -блок проверки "граничной" вершины, БП2 - блок памяти 2, БПВП - блок проверки вершины- "паузы", БППВ - блок проверки последовательности вершин, БДС - блок хранения базы данных слов, БПЗ - блок памяти 3, БВ - блок вывода. БПО предназначен для ввода и фильтрации акустических сигналов. ОАС предназначен для приёма данных с блоков: ВК, БДВ, БУ, организации запросов БДВ, а также выдачи данных, связанных с опреде-
лением следующих возможных вершин с их номерами и параметрам АС. БСЭ предназначен для вычисления оценки степени совпадения между акустическими характеристиками ожидаемых эталонов АС и текущего участка РС. БП1 предназначен для временной записи, хранения, чтения и передачи оценок степени совпадения между параметрами ожидаемых эталонов АС и текущего участка РС, а также вершин к которым они принадлежат. БП2 предназначен для запоминания последовательности распознанных вершин. БПЗ предназначен для запоминания последовательностей слов. БВОМ предназначен для выбора наилучшей оценки степени совпадения, с соответствующими номерами вершин, имеющихся БП1, а также маркирования вершин. БУ предназначен для формирования запросов данных о вершинах с помощью блоков ОАС, БВОМ, БП1, БП2, БПЗ, а также управления блоками БП1, БП2, БПЗ. БПГВ предназначен для обнаружения априорно известных граничных вершин в БДВ. БПВП предназначен для обнаружения априорно известных вершин в БДВ типа "пауза" и управления блоком БППВ. БППВ предназначен для проверки последовательности распознанных вершин, организации запросов и приёма данных с блока БДС. БВ предназначен для вывода результатов распознавания.
ко входам блока лексического анализа
с выхода 2 блока лексического анализа
Рис. 2. Структурная схема блока акустического анализа
Работа ПЛГ с БЛА-1 является корректной в тех случаях, когда высказывание, состоит только из слов заданного словаря. Это ограничивает
Рис. 3. Структурная схема блока лексического анализа типа 1
его область применения. На рис. 4 представлен блок лексического анализа типа 2 (БЛА-2) с повышенной функциональной возможностью, основанный на использовании методики лексической интерпретации слитной речи, изложенной в главе 3. При этом обнаружение слов заданного словаря происходит по мере их реализации во входном высказывании и производится формирование вариантов возможных последовательностей слов, состоящих только из тех эталонов, которые обнаруживают сходство с соответствующими им реализациями АС. БЛА-2 использует блоки, взятые за основу из БЛА-1: ОАС, БСЭ, БП1, БП2, БПЗ, БУ, БВОМ, БДАС, БДС, БВ, а также нововведённые: БПР - блок проверки, БДГВ - блок хранения базы данных граничных вершин, БДЛВ - блок хранения базы данных локальных вершин, БФЛГ- блок формирования лексических гипотез. ОАС предназначен для приёма данных с блока ВК, БУ и блока БДЛВ, организации запросов данных в блоках БДГВ и БДЛВ, а также выдачи данных, связанных с определением следующих возможных вершин с их номерами и параметрами АС. БУ предназначен для формирования запросов данных о вершинах с помощью блоков ОАС, БВОМ, БПР, БП2, БФЛГ, а также управления блоками БП1, БП2, БПЗ. БПР предназначен для обнаружения априорно известных "граничных" вершин и вершин типа "пауза" в БДЛВ и БДГВ. БП2 предназначен для временной записи, хранения, чтения и передачи возможных вершин с АС подобными текущему участку РС. БФЛГ предназначен для формирования вариантов последовательностей слов акустически подобных произнесённому высказыванию. БПЗ предназначен для временной записи, хранения, чтения и передачи вариантов последовательностей слов (лексических гипотез) акустически подобных произнесённому высказыванию.
Повышение функциональной возможности ПЛГ достигается путём реализации в нём процесса интерпретации слитной речи, что позволило создать блок лексического анализа типа 2, который даёт более полный набор лексических гипотез, акустически схожий с произнесённым.
Рис. 4. Структурная схема блока лексического анализа типа 2
Пятая глава посвящена экспериментальному исследованию РИ для системы автоматического управления робота. Предложена методика экспериментального исследования PC, которая позволяет установить объём экспериментальных работ для достижения необходимой вероятности распознавания АС.
Приводится обоснование представления АС л-мерной областью, свободной от типа распределения с использованием разработанного программного комплекса "Звукоинженер" для визуализации, анализа и подготовки баз данных PC, функционирующего в ОС MS Windows 95.
Произведено исследование процесса изменения времени и вероятности распознавания речевого высказывания в зависимости от количества составляющих его слов. Увеличение числа слов в речевом выскзва-нии приводит к увеличению времени распознавания и оказывает незначительное влияние на вероятность распознавания слитно произносимых высказываний. Исследование проводилось с использованием разработанного РИ на основе созданного программного обеспечения -"Пойми Меня", предназначенного для оперативного преобразования речевых указаний в команды управления.
Произведён сравнительный анализ технологической подготовки работы РТЯ токарного станка с ЧПУ с клавиатурным и речевым вводом УП при производстве валов для делительных головок. Использование РТЯ с речевым вводом данных позволяет ускорить технологическую подготовку процесса производства деталей типа "вал" по сравнению с РТЯ с клавиатурным вводом данных.
В заключении даётся оценка полученных в работе результатов и отражена их практическая ценность.
ЗАКЛЮЧЕНИЕ
По результатам теоретических и экспериментальных исследований, проведённым в настоящей работе, можно заключить следующее:
1. Разработанный речевой интерфейс (РИ) на основе специально созданного программного обеспечения - "Пойми Меня" и применения стандартных аппаратных компонентов позволил повысить функциональ-
ную возможность робота за счет использования дополнительного режима речевого ввода информации. Ввод данных достигается слитным произнесением указаний непосредственно с голоса на русском языке.
2. Разработанная методика экспериментального исследования речевых сигналов (РС) позволяет установить объём экспериментальных работ для достижения необходимой вероятности распознавания акустических состояний (АС).
3. Отмечено, что РТЯ с речевым вводом данных позволит ускорить технологическую подготовку производства деталей типа "вал" по сравнению с РТЯ с клавиатурным вводом данных в 1,5 раза без учёта непроизводительного времени, а с учётом последнего - в 5 раз при переходе от выпуска деталей одного типа к выпуску другого.
4. Разработанная методика распознавания слов в слитной речи позволяет: представить АС п - мерной областью, свободной от типа распределения и определить его местоположение в многомерном пространстве; сформировать эталонные АС слитной речи на основе доверительной п ~ мерной области; распознать слова в слитной речи путём направленного поиска оптимальной последовательности АС в ориентированном графе лексического декодирования. Оптимальная последовательность АС формируется на основе проверок текущих состояний с эталонами.
5. Разработанная методика лексической интерпретации слитной речи дает возможность: выделить информацию о границах между слогами и словами без применения фонологических правил на низких уровнях; представить слова как последовательности АС, с учётом условия чередования границ слов, что позволяет формировать возможные варианты лексической интерпретации произнесённого высказывания в пределах межфразовых пауз; выделить исчерпывающий набор вариантов последовательностей слов, акустически схожих с произнесённым высказыванием, что позволяет повысить вероятность распознавания слов в слитной речи.
6. Разработанный построитель лексических гипотез с блоком лексического анализа типа 1 на основе методики распознавания слов в слитной речи, позволяет формировать наиболее вероятные лексические гипотезы минуя уровень фонетического декодирования.
7. Разработанный построитель лексических гипотез с блоком лексического анализа типа 2 на основе методики лексической интерпретации слитной речи, позволяет режекгировать сигналы, "не похожие" на заданные элементы распознавания и формировать более полный набор лексических гипотез, акустически схожий с произнесённым.
8. Разработанный программный комплекс "Звукоинженер", применён при создании РИ и предназначен для интерактивной работы с речевыми базами данных на персональной ЭВМ для ОС MS Windows 95, а также для визуализации, анализа и подготовки баз данных PC .
9. Реализован лексический анализ слитной речи путем использования методики лексической интерпретации, основанной на обнаружении эталонов слов слитной речи в текущем PC и методики распознавания слов в слитной речи - в части реализации математического представления эталонного АС п - мерной областью свободной от типа распределения и определения его местоположения в многомерном пространстве. При этом, реализовано понимание речевых сообщений через распознавание их лексических элементов.
10. Результаты экспериментального исследования позволяют заключить, что увеличение числа слов в высказывании оказывает незначительное влияние на вероятность распознавания испытуемого текста и наилучшее значение вероятности распознавания слитно произносимых высказываний составляет 97,4%.
11. Полученные в диссертации научные положения, методы и рекомендации могут быть использованы не только для автоматизации технологических процессов производств, но и для организации запросов баз данных, подготовки и корректировки документов; организации автоматических контрольно-пропускных пунктов; в кабинах летательных аппара-
тов, диспетчерских пультах атомных и гидроэлектростанциях и так далее, а также в условиях перегрузок, темноты или резкого изменения освещённости; при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, то есть там, где существует большое количество аварийных, предупреждающих и уведомляющих сигналов.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ.
1. Изилов Я.Ю., Морозов Б.И. Система речевого программирования промышленного робота. // Российская научно-техническая конференция "Инновационные наукоёмкие технологии для России" 25-27 апреля 1995 г. Тезисы докладов. ч.8. -Санкт-Петербург: СПбГТУ, 1995.
2. Изилов Я.Ю. и др. Система речевого ввода информации в ЭВМ на естественном языке. // Тезисы докл. и сообщ. научной военно-технической конференции "Автоматизация процессов управления соединениями и частями ПВО, информационные технологии. Состояние и перспективы создания единой автоматизированной радиолокационной системы" 15-16 мая1996 г. - СПб.: СПВУРЭ ПВО, 1996.
3. Изилов Я.Ю., Морозов Б.И. Система понимания слитной речи русского языка.// Тезисы докл. и сообщ. международной научно-технической конференции "Информационные технологии в моделировании и управлении" 25-27 июня 1996 г., -СПб: СПбГТУ 1996.
4. Изилов Я.Ю., Морозов Б.И., Федотов А.И. Система понимания речи., Вычислительные, измерительные и управляющие системы. Сборник научных трудов СПбГТУ, No.462, 1996 г.
5. Патент на изобретение № 2101782, Россия, МКИ G10L 5/00. Способ распознавания слов в слитной речи и система для его реализации/ Изилов Я.Ю., Морозов Б.И., Федотов А.И. (Россия).- №96108879/09; за-явл. 06.05.96: опубл. 10.01.98. Бюл. №1.
6. Способ лексической интерпретации слитной речи и система для его реализации Изилов Я.Ю. и др. // Решение о выдаче патента на изобретение по заявке № 97117246/09 (018636) от 17.02.98, заявл. 27.10.97.
-
Похожие работы
- Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях
- Методы создания и использования речевых баз данных и инструментальных средств анализа и исследования речи для развития речевых технологий
- Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд
- Выделение и предобработка сигналов в системах автоматического распознавания речевых команд
- Методы проектирования эффективных экранных интерфейсов систем электронного документооборота
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность