автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.16, диссертация на тему:Исследование и разработка методов смысловой интерпретации устной речи
Автореферат диссертации по теме "Исследование и разработка методов смысловой интерпретации устной речи"
РОССИЙСКАЯ АКАДЕМИЯ НАУК Санкт-Петербургский институт пнфошатиют н автоматизации
М" ОД
На правах рукошси
I
КОСАРЕВ Юрий Александрович
УДК 621.391
ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ СМЫСЛОВОЙ ИНТЕРПРЕТАЦИИ УСТНОЙ РЕЧИ
Специальности: 05.13.16 - Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях;
10.02.19 - Теория языкознания
АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук
САНКТ-ПЕТЕРБУРГ - 1994-
Работа выполнена в Санкт-Пе гербургском институте информатики и автоматизации Российское академии наук.
Официальные оппоненты:
профессор, доктор технических наук Н.И.БУРЕНИН профессор, доктор филологических наук Л.Н.БЕЛЯЕВА профессор, доктор технических наук Н.Д.ГОРСКИй
Ведущая организация - Московский государственный лингвистический университет
. СО
Защита состоится " L<~^и1994 г. в ' ' часов на заседании специализированного совета Д 003.62.01 Санкт-Петербургского института информатики и автоматизации Российской академии наук по адресу: 199178, Санкт-Петербург, В.О., 14-я линия, д. 39.
С диссертацией мокно ознакомиться в библиотеке специализированного совета Д 003.62.01.
Автореферат разослан " / 1994 г.
Ученый секретарь специализированного совета Д 003.62.01 кандидат технических наук В.Е.Марлей
Общая характеристика работы
Актуалънось темы дисертации. Одаовременно с ростом числа и объема задач, решаемых с помощью ЭВМ, все острее ощущаются недостатки традиционных форм человеко-машинной коммуникации, все заметнее несоответствие между огромной производительностью ЭВМ и чрезвычайно низкой эффективностью традиционного ручного ввода, все больше осознается необходимость организации более естественного диалога с ЭВМ. В этом плане большие перспективы имеет речевая форма диалога с машиной за счет ряда преимуществ таких, как высокая скорость и точность ввода в естественной и удобной форме, высвобождение рук и зрения пользователя, возможность управлять в экстремальных условиях, сокращение сроков подготовки специалистов по автоматизированному управлению. Возникает, наконец,.принципиальная возможность постепенного отказа от различных языков-посредников мекду человеком и машиной и восстановления законного статуса естественного языка как универсального средства выражения целей и желаний человека Таким образом, создание средств автоматического распознавания и понимания речи является важной народнохозяйственной проблемой, которая призвана резко повысить эффективность труда в в самых различных сферах деятельности.
Значительный вклад в решение данной проблемы внесли такие организации,как ИМ СО РАН, ИК АН Украины, НИИ Счетмаш, ВЦ РАН, ШЛИ РАН и др.
Надо сказать, что созданные на сегодняшний день прототипы и модели речевого ввода значительно уступают по основным параметрам речеслуховой системе человека, особенно при вводе фраз. Надежность ввода фраз оказывается ниже надежности слов (по известному закону перемножения вероятностей). Человек, напротив, демонстрирует надежность восприятия фраз выше, чем слов, что говорит о значительных неиспользуемых резервах речи и слуха.
Основной причиной, сдерживающей дальнейшее развитие и внедрение средств речевого диалога с машиной является недостаток знаний о процессах речевой коммуникации, недостаточное развитие моделирования процессов распознавания, понимания и смысловой интерпретацию! речи. Следовательно, для осуществления эффективного речевого управления на первый план выступает
проблема адекватного представления и совместной обработки разнородной речевой и неречевой информации для обеспечения надежной и устойчивой связи человека с машиной в реальных условиях.
При распознавании смысла устного высказывания основную трудность представляет процесс согласования входной информации с различными видами априорной информации (например, акустической, лексической, синтаксической, семантической, прагматической ) в условиях существенной неопределенности. Созданные на сегодня модели как правило используют на низших уровнях вероятностно-статистические процедуры, хорошо зарекомендовавшие себя в теории распознавания речи, и на высших уровнях (синтаксис, семантика, прагматика) - детерминированные, типичные для работ в области машинной лингвистики. Но последние плохо согласуются с мягкой (размытой, нечеткой, вероятностной) природой языка и речи,что и не позволяет достичь нужного эффекта в ходе распознавания смысла. Положение усугубляется отсутствием объективных критериев качества алгоритмов и систем понимания речи (как и систем искусственного интеллекта вообще).
Целью данной работы явилось создание методов смысловой интерпретации фраз в управляющих человеко-машинных системах за счет объединения компонентов знаний из различных научных областей на единой непротиворечивой основе.
Для достижения этой цели в работе решаются следующие конкретные задачи:
- создание концептуальной основы для адекватного представления речевого сообщения и синтеза алгоритмов, имитирувдих распознавание смысла сообщения;
- разработка комплекса взаимосогласованннх моделей речевого сообщения, процессов его разноуровневой обработки (акустико-лексической, синтаксической, семантический, прагматической) и интеграции этих уровней;
- разработка методов объективной оценки эффективности систем распознавания смысла фраз;
- решение узловых вопросов внедрения разработанных методов о практику речевого управления устройствами, системами и процессами.
Основными источниками знаний о природе речи и слуха явились психология, психоакустика, лингвистика.
Методы исследований. При решении перечисленных задач в данной диссертации использованы методы теории информации (в частности, теории избыточных структур и корректирующих кодов), теории динамического программирования, теории разборчивости речи, системного анализа, теории машинного моделирования, методологии экспертных систем.
Научная новизна работы заключается в следующем:
1. Создана концептуальная модель речевого сообщения как естественного многоуровневого корректирующего кода, позволяющего за счет естественной избыточности устойчиво передавать смысл сообщений в условиях значительных разнородных дестабилизирующих факторов. Модель опирается на статистические закономерности теории разборчивости речи и теорию избыточного кодирования и дает адекватный методический подход к решению задач.
2. Предложена и исследована модель сквозного понимания речи для стадии смысловой интерпретации. Модель позволяет:
- объединить разнородные источники априорной речевой и вне-речевой информации на основе интегрального критерия качества гипотез за счет взвешенного суммирования частных показателей;
- существенно повысить точность интерпретации фраз за счет отказа от концепции "послойного разбора" в пользу интегральной обработки.
2.1. В качестве одного из наиболее важных компонентов модели сквозного понимания предложен и исследован метод ассоциативной семантико-синтаксической обработки речи как альтернатива принципу "исчисления высказываний", что позволяет:
- включить семантико синтаксический компонент в интегральную оценку гипотез наряду с акустико-лексическим и прагматическим компонентами,
- для каждого альтернативного высказывания получить количественную меру семантико-синтаксического соответствия;
- упорядочить гипотезы по их качеству;
- корректно ограничивать множество гипотез, подлежащих интегральной оценке.
2.2. В качестве одного из неотъемлемых компонентов модели сквозного понимания предложен и исследован метод
прагматической обработки речи на основе согласования гипотез с текущей деловой ситуацией, помещеной в более широкий ситуативный контекст, что позволяет:
- включить прагматический компонент в интегральную оценку гипотез;
- для кавдого альтернативного высказывания получить меру прагматического соответствия;
- упорядочивать гипотезы по данному критерию;
- ограничивать множество гипотез.
Вопросы, выносимые на защиту
1. Концепция квантитативного метода распознавания смысла фраз на базе феномена сквозного понимания, позволяющая на единой количественной основе решать задачи представления и совместной обработки разнородной речевой и неречевой информации;
2. Комплекс взаимосвязанных моделей, построенных в рамках этой концепции, включающий в себя:
2.1. Модель речевого сообщения как естественного многоуровневого корретирущего кода;
2.2. Модель процесса смысловой интерпретации фраз на основе феномена сквозного понимания, включающая в себя:
- метод интеграции разнородных знаний;
- модель акустико-лексического уровня;
- модель семантико-синтаксического уровня на основе механизма ассоциаций;
- модель прагматического уровня на основе ситуативного представления предметной области;
3. Критерии качества алгоритмов распознавания смысла фраз.
Достоверность научных положений , выводов и практических рекомендаций подтвервдается их реализацией в моделях и системах, хорошей согласованностью результатов машинного моделирования с расчетными данными, полученными на основе аналогий со слуховой системой человека.
Практическая ценность работы
1. Разработаны принципы построения систем речевого управления на базе модели сквозного понимания, позволяющие сущест-
венно улучшить основные параметры устройств речевого ввода за счет интегральной обработки разноуровневой информации и более адкватного представления этой информации.
2. Разработаны архитектурные решения и комплекс программ для реализации моделей и систем сквозного понимания, ориентированные на персональные ЭВМ и сопроцессоры.
3. Сформулированы требования к методу проектирования промышленных систем смысловой интерпретации речи на основе проведенного анализа затрат машинных ресурсов, необходимых для реализации задач различной сложности.
4. Разработаны алгоритмы и программы заполнения ситуативной базы данных, позволяющие оперативно адаптировать модель или систему речевого управления к данной предметной области.
5. Разработаны алгоритмы и программы заполнения ассоциативной базы данных, позволящие оперативно адаптировать модель и систему к предметно-ограниченному языку заданной предметной области.
6. Предложены методики объективной оценки качества смысловой интерпретации, позволящие оценить степень улучшения системы за счет привлечения информации высокого уровня.
Реализация результатов работы
Основные научные результаты работы реализованы под руководством и при участии автора в виде действующих программно-аппаратных моделей, включающих аппаратные средства (для предварительной обработки речевого сигнала и сравнения образов) и программные комплексы (для решения в целом задач смысловой интерпретации речи). Они реализованы в ряде работ:
1. В работе, проходившей в ЛШШ в 1986-1988 гг. согласно Распоряжению Президиума АН СССР от 23.01.86 Л 10103-137 "Разработка и проведение испытаний в составе опытной зоны Академсети системы речевого диалога пользователя в информационно-вычислительных сетях",которая показала, в частности, что предложенные методы ввода речи в 5-10 раз снижают вероятность ошибки интерпретации по сравнению с традиционными решениями.
2. В Институте физиологии РАН для задач автоматизации научного эксперимента.
3. В стендово-моделирующем комплексе кабины самолета для эргономических исследований процессов речевого управления в
НИИ авиационного оборудования, где также подтверждены теоретические положения о высокой надежности ввода управляющих фраз.
4. В системе информационной поддержки оператора в составе стенда управления энергетическим объектом в Научно-исследовательском конструкторском институте энергетической техники, где подтверждена высокая точность ввода фраз и установлено сокращение в 2-3 раза затрат труда па формализацию знаний о языке диалога в заданной предметной области.
5. На основе материалов данной работы поставлен специальный курс лекций и лабораторный стенд в Санкт-Петербургском электротехническом университете.
Практическое использование результатов диссертационной работы подтверждено документами о внедрении.
Апробация работы. Основные результаты работы были доложены на IX, XIY, XY.XYI Всесоюзных семинарах "Автоматическое распознавание слуховых образов" (Минск, 1976 г., Каунас, 1986 г., Таллинн, 1989 г., Суздаль-Москва, 1991 г.), на IY Всесоюзной конференции "Диалог человек-ЭВМ" (Киев, 1985 г.), YIII Всесоюзной конференции "Планирование и автоматизация эксперимента" (Ленинград, 1.986 г.) Всесоюзном совещании по цроблеме автоматического распознавания ^синтеза речи (Киев, 1988 г.), на Международном симпозиуме "Информатика 1989" (Минск, 1989 г.), 4-й Всесоюзной конференции "Математические методы распознавания образов" (Рига, 1989 г.), 5-м Ленинградском симпозиуме "Адаптивные и экспертные система в управлении" (1991 г.), Германской акустической конференции DAGA 94, Международной конференции "Региональная информатика" РИ-94 (Санкт-Петербург, 1994 г.).
Публикации. В изданиях, ^рекомендуемых ВАК для опубликования научных результатов докторских диссертаций, непосредственно по теме диссертации опубликовано более 30 печатных работ, в том числе одна монография.
Структура и объем диссертации. Диссертация состоит из введения, четырех глав,4 заключения, списка использованной литературы, включающего 89 работ отечественных и зарубежных авторов 1 и приложений. Объем работы 220 стр. текста, из них рисунка ж список литературы на 20 стр.
Содержание работы
Во введении обосновывается важность и актуальность исследуемой в диссертации темы, формулируется цель работы и основные задачи, которые необходимо решить для ее достижения, характеризуется научная ноеизнз и практическая ценность работы.
В первой главе анализируются концепции и методы, применяемые в исследованиях по распознаванию и пониманию речи, анализируются различия между низкоуровневым анализом (акустико-лексическим) и высокоуровневым (синтаксическим,семантическим, прагматическим).
Рассматриваются особенности речевых процессов как объектов машинного моделирования. Отмечается, в частности, что речь относится к естественным объектам высшей сложности, она характеризуется плохо формализуемой (мягкой, нежесткой, размытой) структурой и это свойство прослеживается на различных уровнях описания (представления) речи. Обсуждается специфика организации вычислительного процесса при моделировании восприятия речи, проводится критический анализ ряда традиционных подходов к создании систем речевого управления, игнорирующих стадию моделирования, либо использующих недостаточно адекватные модели.
На низших уровнях обработки (кодирование, сравнение акустических образов) подавляющее число работ опирается на представление сигнала в виде модификаций спектрально-временного рельефа или других, более или менее адекватных наборов параметров (признаков). Отмечена как наиболее рациональная форма сжатия речевого сигнала его преобразование на основе метода векторного квантования, при котором множество различных сегментов речи, мощностью в согни тысяч элементов практически без потерь отображается на множество из 100-200 классов. Такое загрубление на самом деле согласовано с изменчивостью (вариативностью) речи и позволяет компактно размещать в памяти машины многие тысячи акустических образов слов.
Отмечается как наиболее специфическая особенность речевого сигнала его вариативность во временной области. Показана специфика этого явления и приведены наиболее известные методы нейтрализации временной нестабильности речи. Суть всех извес-
тных подходов состоит в оптимальном согласовании во временной области кода входного сигнала, заданного кортежем его сегментов, с кодом эталона (или эталонной модели). Один из ниболее эффектных методов нейтрализации вариативности темпа речи применил в 1968 г. Т.К.Винцюк, он основан на разновидности методов оптимизации - динамическом программировании. Затем данный метод применяли и развивали многие специалисты у нас в стране и за рубежом. В.Н.Туркин нашел упрощение этого метода на основе аналогий с методом градиентного спуска. Его модель значительно проще реализуется на современных вычислительных машинах, но по мнению автора диссертации, основаному на аналитическом и экспериментальном сравнении, уступает первому в надежности распознавания. Сравнительно недавно стал применяться метод, который американские исследователи назвали "скрытое марковское моделирование". Он основан на представлении эталонов звуков и слов в виде марковских моделей,при этом за счет вложенности модели звука в модель слова достигается экономичность в представлении эталонов и затратах на обработку. Но по оценкам, например, известного американского ученого С.Левинсона данный метод уступает по точности динамическому программированию.
Таким образом, успехи в распознавании сегментов, фонем и слов устной речи базируются главным образом на операциях типа оценки сходства/различия объектов в пространстве выбранных признаков, на концепции компактности объектов одного класса, что при некоторых допущениях можно трактовать как модификации метода "кодовой книги", хорошо известного в теории передачи сообщений. Это говорит об аналогиях между речевыми сообщениями и корректирующими кодами. При этом фактор непредсказуемости речи на нижних уровнях нейтрализуется в процессе распознавания с помощью вариационных методов в виде различных алгоритмов, использующих принципы динамического программирования, градиентного спуска, марковского моделирования.
При анализе подходов к высокоуровневой обработке устной речи выясняется, что они строятся на совершенно иной базе. Кроме того, единой теории или концепции восприятия речи, которая увязывала бы модельные представления разных уровней, сейчас не существует. Сами по себе метода высокоуровневой
обработки, традиционно оперирувдие орфографическими текстами, тоже далеко не отвечают специфике речи и языка, что отмечалось многими видными лингвистами. Среди методов, которые применяют при понимании текста, можно назвать фреймовые модели, порождающие грамматики, системы продукций,семантические сети. Применение этих логических по своей сути методов при высокоуровневой обработке речи не дает требуемых результатов с точки зрения надежного понимания.
Неудовлетворенность такой ситуацией высказывали многие видные специалисты в области компьютерных наук. Сейчас наметился поворот в сторону поиска нежестких алгоритмов синтаксического, семантического и прагматического анализа, о чем свидетельствуют недавние работы известных американских ученых Шенка, селфридаа и др. Появился даже термин "надежное понимание" как способность интерпретирующей системы преодолевать те или иные неточности грамматического или семантического характера во входном тексте. Однако эти работы носят пока характер введения в проблему, которая сама по себе требует поиска нетрадиционных путей решения.
Поскольку для реализации высокоуровневой обработки речи нужен математический аппарат, адекватный объекту исследования, то есть учитывающий его нежесткий, размытый характер, был проведен анализ ряда методов обработки нечетких знаний (метод шансов Харта и Нильсона, функции доверия Демстера-Шафера, коэффициенты уверенности Шортлиффа, вероятностная логика Нильсона, нечеткая логика Заде, модифицированный метод Байеса-Нейлора)., В итоге надо отметить, что эти методы не могут дать в нашем случае хорошего эффекта.поскольку они ориентированы на совместную обработку независимых источников знаний (независимых данных, переменных), в то время как в речевых процессах мы сталкиваемся с принципиально иной ситуацией - компоненты знаний взаимосвязаны.
В итоге отмечается небходамость разработки методов адекватного представления разнородной речевой и неречевой (но необходимой при понимании) информации и их взаимной увязки на единой непротиворечивой основе.
Во второй главе ведется неформальный анализ возможных подходов к решению поставленной проблемы. Автор исходаг из того, что в создавшейся ситуации простым наращиванием вычислительной мощности (точность, быстродействие, объем памяти) радикальных успехов не добиться. Необходим поиск адекватных моделей, учет наиболее важных, существенных закономерностей речевого процесса у человека.
Исследованы предпосылки для построения модели естественноязыкового сообщения как многоуровневого корректирующего кода. Установлен характер зависимостей между элементами и уровнями языковой структуры, что позволяет прогнозировать и оптимизировать некоторые важные вероятностные показатели процедуры машинного восприятия речи. Показано хорошее согласование расчетах данных с опытными данными по психоакустике речи. Показано, в частности, что зависимости разборчивости слов от разборчивое™ фонем W ( Б ) и разборчивости фраз от разборчивости слов J ( W ) по форме и по существу сходны с зависимостями вероятности правильного приема сообщения от вероятности правильного обнаружения символов Р ( Р1) при использовании корректирующего кода (в определенном смысле эквивалентного). Отмечены два вида иерархии речи - структурная (основанная на представлении единиц речи более мелкими единицами) и качественная (основанная на качественно различных компонентах знаний). Утверядается, что соответственно этому речь обладает двумя видами избыточности - структурной и качественной. Первая служит средством получения "надежных сообщений из ненадежных элементов", вторая может служить целям интеграции разнородных речевых и неречевых знаний в процессе смысловой интерпретации (этот вопрос раскрывается в гл. 3) с той ае самой целью повышения надежности приема сообщений за счет интеграции знаний.
При анализе подходов к интеграции знаний в процессе смысловой интерпретации были сопоставлены два подхода -традиционный "послойный разбор" и имитация феномена "сквозного понимания". В итоге этого анализа были сформулированы требования к этой модели, они реализованы в формальной модели. Суть модели сквозного понимания состоит в том, что в ней происходит генерация гипотез о входном сигнале,их оценка по сово-
купности разнородных критериев, объединение частных оценок в интегральный показатель и принятие решений по этому критерию.
Для количественной оценки семантико-синтак-сического компонента исследована возможность использования ассоциативных механизмов восприятия. В работах психологов (например, американского психолога Дизе) установлено, что для заданного подмножества слов из некоторой предметной области можно путем психологического эксперимента выявить его структуру асоциаций. В данном разделе были выработаны требования к модели семантико-синтаксического анализа фраз:
1) Семантический и синтаксический компоненты должны анализироваться совместно,
2) В качестве базовых данных выбираются межсловные ассоциации, которые определяются экспертным путем по некоторой количественной шкале,
3) При выводе ассоциативного показателя заданной фразы используются ассоциации для Bees' пар слов (не только соседних).
Для количественной оценки прагматического компонета высказывания необходимо учесть всевозможные неязыковые факторы, в данном случае, прежде всего установить степень соответствия фразы текущей ситуации в заданной предметной области (ПО). Были проанализированы подхода к построению модели ПО . Здесь сталкиваются два подхода. Один из них - традиционный, при котором множество разрозненных фактов и данных объединяют в большие списки или иерархические системы по некоторым формальным признакам. Другой подход, так сказать "человекоподобный", исходит из постулата, что человеческий внутренний мир структурирован в терминах потребностей и целей человека. В основе человеческого поведения лежит ситуация , из ситуаций образуются ситуативные контексты, контекстуальные каркасы. Такое представление помогает построить более простые и надежные модели восприятия деловой речи. Сформулированы требования к подсистеме прагматического анализа. Она должна давать количественные оценки соответствия гипотезы текущей ситуации в ПО, опираться при этом на ситуативную модель и процедуры нежесткого сравнения гипотез и канонических фраз. Эти неформальные соображения легли в основу формальной модели, которая исследована в третьей главе.
В третьей главе исследуется модель смысловой интерпретации и ее компоненты.
Модель интеграции источников знаний
Поскольку предварительный анализ подходов к объединению разнородной априорной информации, проведенный в главе I, показал, что эти подходы в основном ориентированы на независимые источники знаний, а в речевых исследованиях мы имеем дело преимущественно с взаимосвязанными источниками знаний и взаимосвязанными элементами структуры речевого сообщения, возникает необходимость обратиться к таким информационным структурам, которые оперируют взаимосвязанными компонентами. Поэтому была исследована модель интеграции знаний с учетом теории корректирующих кодов. Она основана на использовании совокупности критериев.
Будем предполагать, что устные команды, которые могут быть в принципе произнесены в данной ситуации, попарно различаются между собой с акустической, семантико-синтаксической и прагматической точек зрения и представляют собой естественный корректирующий код. Построим в общем виде модель интеграции этих источников знаний.
Пусть имеется подмножество устных команд К = { к^ }, 3 = Т77 , где J - число различных действий по управлению нашим объектом в текущей ситуации.
Предположим, что с помощью набора критериев
И = { г ) , в = 1имеется возможность количественно
3
оценить степень отклонения от нормы (штраф) по-3 различным критериям. Нормой будем считать канонические формы команд, в конкретной устной форме. Тогда оценки команд к^е К по критериям И будут представлять собой строки:
При сравнении конкретной команда к*е К с каждой к^ К получим матрицу вида:
Если на множестве упорядоченных пар строк данной матрицы
задана функция р(А., ,А. ), неотрицательная, симметричная, з1 йг
удовлетворяющая аксиоме треугольника, то такое множество можно считать метрическим пространством. Выберем метрику в виде:
Р'^а) =а| аз I V V' ' (3'1)
Началом координат этого пространства является строка й(к*) = О,О,...,О , которая соответствует случаю сравнения команды к* с самой собой.
Предположим далее, что реальное входное сообщение отличается от канонической фразы на величину помехи:
к** = к* + Ф . Предположим также, что критерии Н
обладают свойством аддитивности, т.е.
Н(к**) = Н(Г) + Н(Ф). Если на множестве строк обеспечивается минимальное расстояние рт1п с учетом (3.1), то можно утверждать, что при искажениях Ф, не приводящих к смещению в пространстве строк, превышающему рт1п /2, интерпретация будет верной, т.е. рт1п /2 можно считать корректирующей способностью нашего кода.
Тогда процесс смысловой интерпретации команды к** будет эквивалентен ее отображению на множество строк { } по критерию минимума расстояния (3.1) и мерой отклонения этой команды от нормы будет выражение (3.1) при подстановке
а = 0, т.е. •ч
3 Б
р(Ф) = £ а а - 2 а г ( Ф ) , (3.2)
з=1 3 з=1 3 3
то есть взвешенная суша частных оценок (линейная свертка), которая широко используется при многокритериальных оценках.
Наличие корректирующих свойств выражения (3.2) зависит главным образом от избыточности данного набора команд С К > с учетом сложости модели ПО. Это свойство самокоррекции можно
проверить путем обработки оценок: если в процессе статистических испытаний частота ошибок по интегральному критерию (3.2) окажется ниже, чем по любому из частных критериев г , то корректирующий эффект имеется. Конечно, это свойство нельзя проверить в отрыве от конкретного набора команд К. Статистические испытания модели подтвердили предполагаемое преимущество интегрального критерия (3.2): процент ошибок по этому критерию оказался на порядок меньше, чем по широко распространенному частному акустическому критерию.
Модель акустического уровня
На этом уровне происходит формирование гипотез фраз, их оценка и частичный отбор по акустическому критерию. Это происходит следующим образом.
Вначале речевой сигнал Б* в виде спектрально-временного рельефа или иного отображения (выбор которого не входит в задачу данного исследования, но предполагается, что выбранный способ кодирования является достаточно представительным), расчленяется с помощью так называемого "пословного" ввода на отрезки, соответствующие отдельным словам:
Затем выполняется сравнение каждого з* с эталонами ек е Е,
к = Т7К слов «к заданного словаря W, размером !5=|У(|.
Это сравнение ведется методом динамического программирования, в результате чего для любой пары (з*.ек)вычисляется расстояние с1к, которое является косвенным показателем качества гипотезы. Оно позволяет по принципу минимального расстояния (наилучшего сходства) сопоставить каждому элементу з* из Б* единственный элемент множества 'й.
Однако при таком унитарном отображении не сохраняется возможность корректировки ошибок акустического уровня за счет семантики и прагматики.Поэтому вместо единственного, "лучшего" кандидата для придания модели определенной устойчивости каждому входному слову сопоставляется подмножество ^ с К наиболее вероятных претендентов.
В результате формируется кортек подмножеств слов-кандидатов
, Я* .....И*.....IV* (3.3)
и подобный ему по структуре кортеж подмножеств расстояний *"■> соответствующих эталонов:
С* = с* , с* ,..., с* ,..., с* . (3.4)
Далее формируем множество Р" входных фраз-гипотез, ссот-ветствущее сигналу Э* как Декартово произведение
Г Ли; = < гп= ^^.....^ 1 .
и для каждой гипотезы I € Р* имеется совокупность расстояний
О = с ,с .....с (3.5)
» п, п2 х^
между эталонами входящих в нее слов те и соответствующими
±
отрезками сигнала Э*. Очевидно, что
ъ
f* I = п I w:
J . . ■* J-
1=1
Если принять | W*| = const = К , V i ="T7L , то вместо кортежей (3.3) и (3.4) далее можно рассмотреть соответственно две матрицы:
W[K.L] = | | ^ ' 5 W1 И
j=TTL
0„, ,, = I с,, .
1-1 ,к
[K.L] ~ I "ij I , —- ' Cij £ °i
Число различных гипотез при этом равно
| Г | = п I Л, | = Кь . 1=1 1
Например, если введена фраза из 3-х слов и обусловлено число кандидатов для каждого входного слова К = 10, то полное число гипотез фраз равно I Р* I = Ю3.
И, наконец, выражение для акустической оценки произвольной
фразы: _
1 = w , w ....,w , f е Р* , n = 1,I F*|,
n n.| п^ "jj п
ъ
будет иметь вид: Q(S*tE)= 2 С(з* .е. ).
1=1
Чтобы получить оценку, по возможности инвариантную длине Ъ фразы, введем множитель 1/Ь. Тогда акустическая оценка гипотезы фразы Г будет иметь вид:
Qak(n) = ~1Г J C(si ,ei 1 = 1-L* <3-5)-
Эта оценка используется в данной работе для ранжирования гипотез фраз с целью сокращения числа гипотез, передаваемых на более высокие уровни анализа. Она используется также в качестве компонента интегральной оценки. Отметим, что данный показатель имеет характер штрафа: он растет с ухудшением сходства сигнала с эталонами и наоборот.
Модель семантико-синтаксического уровня на базе межсловных ассоциаций
На множестве слов № = С и^ ..........}, 1 = ТТТт
для любой упорядоченной пары слов ) заданного словаря
языка (подъязыка) зададим показатели а1;) , количественно отражающие меру связанности этих слов такие, что закон коммутативности = в общем случае не выполняется,
кроме того, > 0, а^е г-ага1п • атах 1 • Создается матрица
А[Н = 1 а13 | размерностью N * N .
Для произвольной последовательности слов длиной Ь
Г = у? .....№ .....№ извлечем из А
п П1 "г П1 "х
\
подмножество А* показателей для всех упорядоченных по индексу 1 пар слов этой фразы:
А* = С а , а ,..., а , а ,...,а },
пгп2 пгп3 п2.п3 п2.пд "х-1 ■ пь
|А*| = С* .
Поскольку индекс п далее не потребуется,для упрощения записи произведем подстановку а =» Ь , тогда
"к1пз е
А* = { ь1.г ' Ь1.3.....ь2.з ' ъ2.4.....Ък.3 *
•••• Ь1-1 .Ъ
Просуммируем далее все элементы из А* и назовем эту сумму ассоциативным показателем фразы I :
On> = i • * <3 •
k, s=1
Ъ
Чтобы получить показатель, инвариантный длине фразы, необ-неодходимо ввести множитель 1/0? :
X»
QaS3<n> = 4" J , V ' k < 9 • (3'7>
UT k,s=1
J.«
Данная оценка используется в качестве критерия в процессе частичного сокращения множества фраз-гипотез-, подлежащего прагматическому анализу, и в качестве компонента интегрального критерия.
Модель прагматического уровня
На этом уровне необходимо количественно оценить согласованность гипотезы о входной фразе с моделью ПО.
Это согласование иногда реализуют за счет соответствующих ограничений на язык данной ПО,который формируют генеративной моделью. Однако здесь полезно вспомнить, что прагматическая информация в модели деятельности является первичной, вне-языковой информацией и ее характер в принципе зависит не от языка, а от деятельности в данной ПО. В данном случае лучше разделить языковый и неязыковый компоненты, что дает значительные преимущества при построении баз данных.
При выборе вида модели автор учитывал, что в исследованиях по искусственному интеллекту все большее внимание уделяется ситуативным моделям. Однако в известных моделях (которые, заметим, не используют речевой ввод) для описания ГО используют формальные языки. Такие модели плохо согласуются с естественным языком, который мы здесь пытаемся интерпретировать. Поэтому автор отказался от попыток ввести в модель еще один искусственный язык.
При описании ситуативной модели ПО здесь используется естественный язык, согласование входных фраз с текущей ситуацией также ведется на естественном языке. Для этого далее рассмотрим ситуативную модель ПО с привлечением понятий "каноническая фраза", "равноценные преобразования", "смысловое различие фраз".
Вначале надо отметить, что ПО представляет собой разновидность человеко-машинной системы (рис. З.Г.).
Оператор, анализируя состояние объекта управления (0У) и внешней среда, воздействует на ОУ с помощью устных команд, которые с помощью системы понимания передаются далее на вход системы управления объектом и далее - непосредственно на органы управления объектом. При этом процесс выработки решений в сознании оператора здесь не рассматривается, их правильность или оптимальность не подвергается сомнениям.
Бис. 3.1.
Был использован ряд допущений, связанных со структурой ПО и речевым поведением оператора.
1. ПО допускает структурирование деятельности оператора на уровне смысловых ситуаций. Множество ситуаций в ПО: БТ = { } , | БТ | < + оо , | БТ | ф 0. Суть управления состоит в регулировании смены ситуаций, причем из каждой ситуации э1; € ЗТ возможен переход в любую из ограниченного подмножества БТ. ситуаций:
БТ1 = БТ, БТ± € В(БТ). V 1 = 1,|БТ|
Отношение фзэ , задающее такие перехода на множестве ситуаций, ставит в соответствие каждому элементу из ЗТ подмножество из множеств всех таких подмножеств (булеэн) в(БТ):
Фзз : БГ - в(ЗТ) щи <Pss(at1) = БГ1 . 2. В конкретной ПО оператор в принципе может выполнять действия й1 из множества всех потенциально возможных действий
I), |Б| < + со.
В наждой ситуации разрешено подмножество действий Б1= Б, 0.е »(Б), где »(Б) - множество всех подмножеств множества В.
Отношение ф й . связывающее ситуации и действия, можно формализовать следующим образом:
: БТ 8(Б), или Фз^з"^)^. (3,8)
иначе можно сказать, что каждой ситуации з^е 8Т соответствует указанное выше подмножество 0±. При этом процесс выработки оператором решения о тех или иных действиях в данной работе не рассматривается, он может быть предметом иных исследований.
3. Оператор осуществляет управление в ПО посредством команд: К = { к1> , причем между множеством команд и множеством
действий существует взаимно однозначное соответствие
<рка с К * Б. (3.9)
Следовательно, с учетом (3.8), каждой ситуации соответствует свое подмножество разрешенных команд
Фвк(зг1)=К1с К, (3.10)
где фзк - отношение, связывающее множества ситуаций и команд.
4. Оператору в каждый момент времени известно, в какой ситуации находится объект. Он ведет себя разумно,т.е. произносит только те команды, которые уместны в текущей ситуации.
5. Смыслом устной команды будем считать действие, которое оператор желает инициировать, т.е. между множествами смыслов и действий существует взаимно однозначное соответствие:
БМ <—> Б
6. В конкретной ситуации а1; может быть подана одна из канонических фраз
на языке данной 1;Ц0.
Далее, на основе доступных нам преобразований (синонимических подстановок, перефразировок, допустимых перестановок слов и т.п.) каждая каноническая фраза может быть преобразована в одну из равноценных ей по смыслу форм. Это подмножество можно считать конечным, поскольку практически длины производных фраз ограничены и число правил равноценных преобразований также ограничено. Таким образом,
М1а ) -НР„- с гг1;)к} , к= 1,|иг1а| (3.11)
V кГ1Л € КР1 , |ЙР13| < + « ,
где к - номер равноценной фразы в подмножестве К?^ , НР13 - подакожество фраз, равноценных по смыслу канонической фразе ф^.- отображение, которое каждой канонической фразе ставит в соответствие некоторое подмножество равноценных по смыслу фраз.
Ввиду непредсказуемости речи с точки зрения отклонений от нормы необходимо допустить существование множества непредсказуемых форм команд ИР, которое значительно мощнее, чем БР или КР, |Щ>>|НР|,
У € ^ , (3.12)
где отображение, которое каждой равноценной форме ставит в соответствие некоторое подмножество ИР к непредсказуемых форм. По понятным причинам это отображение в отличие от ф^. не поддается формализации.
Можно считать,что перечисленные три формы охватывают весь спектр вариативности речи на лексическом уровне. 7. Предположим далее, что любой входной сигнал 3* является носителем смысла команды, представленной в одной из форм № и ЕР и КР.
Как уже отмечалось, входной сигнал Б* порождает множество Р* гипотез о входной фразе. Предположим, что мы можем оценить расстояние СЗп между входной фразой Р* и
некоторой равноценной фразой гГ1.,к :
^.Цк = В< Гп' > ' <3'13>
где 1 - номер ситуации, 3 - номер канонической фразы в данной ситуации, к - номер равноценной фразы для конкретных значений ( 1,3 ).
Тогда, выбирая минимальные из оценок (3.13), мы можем для каждой Г получить показатель <Зп± и номер Зп канонической фразы, наилучшим образом согласующейся с Г :
= ГП1Л { Б ( гп. гт13к) ) ,
3 « Л
(3.14)
= 8Г& ш1п ( 0 ( I. гХ, ) }
п
п* ¿¿к
(3.15)
Будем считать это расстояние прагматической оценкой гипотезы Г шш мерой соответствия этой гипотезы текущей ситуации Итогом прагматической обработки является
множество пар вида:
< ОрГ(п), > . (3.16)
Смысловое различие фраз
Теперь осталось только найти способ вычисления расстояний (смыслового различия) между фразами (ЗЛЗ). Б математической лингвистике эта задача не решена, она является одной из узловых в проблеме понимания естественного языка. В данной работе найдено частное, упрощенное решение данной задачи с учетом допущений:
1) Каждое слово » из фразы 1=»1 ,.......,»ь
имеет свой собственный относительный смысловой вес у (в данном языковом и ситуативном контексте), который в принципе может быть задан экспертным или иным способом).
2) Сумма смысловых весов слов произвольной фразы постоянна:
3) В устных простых командных фразах с частичными грамматическими нарушениями перестановки слов в большинстве случаев не приводят к изменению смысла фраз (например, "включить первый блок", "первый блок включить" и т.п.), поэтому будем рассматривать фразу как множество слов Г = { чг±У в отличие от общепринятого представления фразы как кортежа слов.
Тогда канонические фразы можно задать как неупорядоченные множества пар < слово,вес >:
Н? = { ,Ул>,<пг,Уг>, }, ь ЧЮЧ.
Для гипотез входных фраз такое представление практически невозможно ввиду их непредсказуемости, поэтому представим их £ более простом виде, без весов слов:
ъ
2 V = сопяг. 1=1 х
ер = { ^ , W2 ) , М = |СР|.
Для двух множеств КР и вР зададим отношение - смысловое отличие, которое зависит от КР.СР.М,!,^, 72,...,ть.
Представим меру отличия двух фраз с помощью диаграммы, изображающей пересечение А3= КР п множеств КР и вР и их разности А1 = ЙР\КР и Аг = КР\СР.
А1 А3 А2
Будем считать, что степень различия фраз должна возрастать
с ростом | А1|, с ростом | А2| и с ростом суммы весов слов канонической фразы, не обнаруженных в гипотезе, т.е. Аг . Для нормализации функционала по длине фраз используем множитель 1_
Ь + М
В итоге получен функционал в виде двух сомножителей:
Р1|Ач| + рг|Аг|
В ( КР.СР ) = —---^ < £ V. + 1 ), (3.17)
Ь + Ш 16 А2
где р1 , рг - весовые коэффициенты.
Модель смысловой интерпретации
Смысловой интерпретацией устной команды к±е К назовем отнесение сигнала Б* к одной из канонических форм кЗ^е КР на основании учета всей доступной языковой и неязыковой априорной информации.
Решение этой задачи предлагается искать в русле принятой в теории распознавания образов концепции "компактности", которая оперирует областями компактного распределения объектов одного класса, т.е. принадлежность классу определяется не логическими правилами, а количественными мерами сходства или различия.
Сформируем интегральную оценку гипотезы 1 в виде взвешенной суммы частных оценок:
<*п = °ак<П>+а2 аа3з<П> + Я3 °рг<П'*п> (3'18)
и рассмотрим множество двоек < Qn. Jn > •
Тогда решение о смысловой интерпретации на основе интегральной оценки (3.18) с учетом связанности оценки Qn с Зп примет вид:
т-------------------------1
| 3* = arg miniem (jn)> |
В четвертой главе рассмотрены вопросы разработки систем смысловой интерпретации устных команд оператора в процессе управления некоторым объектом, допускающм пошаговое управление, критерии объективной проверки, экспериментальная проверка модели.
На основе обобщенной модели смысловой интерпретации фраз, рассмотренной в гл. 3, были разработаны и экспериментально исследованы две версии унифицированной системы ввода фраз ГОЛОС-1 и Г0Л0С-2 для задач управления. Первая версия была построена на основе машин Электроника-60 и СМ-4, вторая - на основе персональных машин класса IBM PC. Блок-схома системы Г0Л0С-2 показана на рис. 4.1.
Рис.4.1. Блок-схема системы Г0Л0С-2
Модуль предварительной обработки служит для выделени спектральных признаков сигнала и ввода их в машину. Чтобы обеспечить работу в режиме реального времени, в систему включен модуль распознавания слов. Он выполнен на основе процессора обработки сигналов TMS 320 и может
быть установлен в свободный слот машины. Модуль синтеза служит для выдачи устных синтезируемых сообщений. В модели предусмотрена связь с объектом управления через стандартный интерфейс компьютера.
На акустическом уровне Происходит формирование временных описаний слов в выбранной системе признаков, сравнение слов с эталонами методом динамического программирования, отбор подмножества наилучших гипотез, построение гипотез фраз и их оценка по акустическому критерию (3.6). В качестве априорных данных при этом использованы эталоны слов, представленные в той же системе признаков. В качестве системы признаков использована специально разработанная модификация спектрального описания [8 ]. С целью сжатия описания речи и ускорения процессов сравнения слов с эталонами применено векторное квантование. В его основе в данном случае выбран метод аллофонного представления алфавита звуков и метод кодовой книги при идентификации сегментов речи. В качестве метрики из широкого класса метрик Иинковского экспериментальным путем по критерию минимальной ошибки распознавания была выбрана метрика вида:
Б = >_ | А1 - В1 | , где п - размерность вектора.
1=1
Для распознавания слов выбрана модификация алгоритма динамического программирования, допускающая 2-кратную (не Золее) локальную деформацию временного масштаба:
вЦ.З) = т!п
8(1-1,3-2) + 2(1(1, ) + <1(1,3) 8(1-1. ¿-1) + 2с1(1,3) 8(1-2.3-1) + 2(1 (1—1,3) + 1(1.3)
юскольку она наиболее хорошо согласуется с естественными деформациями теша речи и обеспечивает минимум (статистический) ипибок распознавания.
Процедуры ввода слов во многом определяют точность распо-щэвания. Данные версии системы используют ввод изолирован-
ных слов, т.е. разделенных паузами не менее 0,5 с. В идеальных акустических условиях эта задача решается старт-стопными способами. Но в реальных условиях для приемлнмой помехозащищенности необходимо привлекать различную априорную информацию.
Для определения границ слов был разработан и успешно применен рекуррентный метод ввода речи на основе проверю! системы неравенств, учитывающий структурные свойства выбранного тезауруса (информация о диапазоне длин слов, внутрисловных пауз, о распределении энергии и т.п.) [8 ].
Изолированный характер ввода слов не является принципиальным в данной модели. Со временем он будет заменен вводом слитной речи.
Распознавание слов, акустическая оценка фразы
В результате сравнения входных слов с эталонами и процедуры генерации на основе (3.6) получается множество фраз с соответствующими акустическими оценками.
Семантико-синтаксическая обработка
Этот вид обработки ведется в данной версии на основе межсловных ассоциаций, как это изложено в гл.З. Ассоциативные коэффициенты предварительно вводятся в соответствующую базу данных на основе субъективных экспертных оценок по 5-бальной шкале в системе Г0Л0С-1 и 4-бальной - в системе ГОЯОС-2. В последнем случае оценки означают: 1 - невероятно, 2 - маловероятно, 3 - допустимо, 4 - вполне возможно.
Прагматическая обработка Фраз Прагматическая база данных состоит из фрагментов, как это показано в табл. 4.1. Взаимосвязь ситуаций, фразы и веса слов задаются экспертом.
Код завершения перехода необходим на этапе совместной ра- , боты интерпретатора устных команд и АСУ объекта управления.'
Некоторые примеры прагматических оценок, полученных с помощью (3.16) приведены в табл. 4.2.
Табл. 4.1.
1 ИМЯ 1 фраза веса слов код
следующего фраза веса слов завершения
имя состояния - • перехода
состояния имя 2 фраза веса слов код
следующего фраза веса слов завершения
состояния . перехода
.... - ....
Смысловая интерпретация
Смысловая интерпретация реализована в соответствии с мето-ссой, изложенной в гл. 3 по минимуму интегральной оценки.
Окончательное решение о смысловой интерпретации прикадле-1т оператору,, который вызывает исполнение нажатием единствен-)й исполнительной кнопки. Возможность отменить исполнение зманда должна существовать всегда.
Работу алгоритма смысловой интерпретации можно продемон-'рировать на реальном примере.
<имер: Была произнесена фраза: ВСТАВИТЬ СЖГЕЗ РЕЧИ. Укажем по две лучшие альтернативы для каждого введенного ова и их акустические оценки, вычисленные ДП-алгоритмом:
Слово 1 Слово 2 Слово 3
ВСТАВИТЬ 269 СИНТЕЗ 226 ТЕКСТ 412 ПОВТОРИТЬ 278 ПРЕДЫДУЩИЙ 265 РЕЧЬ 472
Из этой таблицы можно составить 8 альтернативных фраз и гласно выражению (3.6) определить их акустические оценки:
1. ВСТАВИТЬ СИНТЕЗ ТЕКСТ 302
2. ВСТАВИТЬ СИНТЕЗ РЕЧЬ 322
3. ВСТАВИТЬ ПРЕДЫДУЩИЙ ТЕКСТ 315
4. ВСТАВИТЬ ПРЕДЫДУЩИЙ РЕЧЬ 335
5, ПОВТОРИТЬ СИНТЕЗ ТЕКСТ 305
6. ПОВТОРИТЬ СИНТЕЗ РЕЧЬ 359
7. ПОВТОРИТЬ ПРЕДУДЩИЙ ТЕКСТ 318
8. ПОВТОРИТЬ ПРЕДЫДУЩИЙ РЕЧЬ 338
Необходимую семантическую информацию система извлекает из матрицы межсловных ассоциаций, фрагмент которой приведен ниже:
СИНТЕЗ ПРЕДЫДУЩИЙ ТЕКСТ РЕЧЬ
ВСТАВИТЬ О с. 2 2 0
ПОВТОРИТЬ г 2 2 2
СИНТЕЗ 4 2 р 1
ПРЕДЫДУЩИЙ 1 4 1 1
Одна из канонических фраз,соответствующих текущей ситуации ции, была: ВСТАВИТЬ СИНТЕЗ РЕЧИ. Именно при сравнении с этой фразой было получено минимальное значение интегрального показателя (3.18).
Окончательный результат обработки для трех лучших альтернатив:
Фраза N сценки
акустич. аосоц. прагм. интегр.
2 1 7 322 302 318 ПО 150 110 0 125 825 432 577 1253 ..........................
- о! -
Табл. 4.2
Длина канонической фразы К Длина входной фразы Щ Число совпавших слов Б Веса слов канонической фразы. Номера не- совпавших слов ?пр
1 1 1 10 - 0
! 1 0 10 1 825
2 г 2 5,5 - 0
о С. 1 5,5 1 225
2 2 1 2,8 1 112
3 3 2 1,3,6 1 50
2 100
3 175
3 б 3 2,4,4 - 17
1 1,3,6 1,2 250
1 1,3,6 2,3 500
4 3 3 1 ,3,3,3 1 28
5 3 3 1 ,1 ,2,3,3 2,3 100
Оценка сложности реализации . Показано, как растут затраты памяти в зависимости от сложности задач. Видно, что задачи реальной сложности, с использованием словаря до 3-5 тысяч слов могут быть решены на современных РС.
Рис.4.2. Затраты памяти для различных видов данных в модели сквозного понимания.
Для выполнения режима реального времени могут потребоваться процессоры-ускорители, совместимые с персональным компьютером. Их разработка освоена в ходе данной работы.
Критерии качества. Предложены критерии, позволяющие объективно оценить то улучшение, которое дает смысловая обработка. Это коэффициент улучшения точности интерпретации Ри за счет эффекта понимания (Р - точность распознавания слов):
к - 1 - р"
и показатель устойчивости (в смысле нечувствительности разборчивости фраз к разборчивости звуков):
с!И
и
<Ы
Ри = 0,98
Например, при испытаниях прототипа на 3-словных фразах были получены следующие результаты: Р = 0,93 то есть, по первому критерию имеем:
к - 1 - 0.933 _ 1Л \ ~ 1 - 0,98 - 10'
т.е. в данном случав число ошибок снижается в 10 раз. Показатель и (И) также достаточно адекватно характеризует качество системы (или алгоритма) смысловой интерпретации, показывает нечувствительность к качеству дикции, щумам и другим дестабилизирующим факторам.
Экспериментальная проверка
Для объективной проверки модели были проведены статистические испытания, в которых участвовало 4 человека -2 мужчин и 2 женщины. Всего было произнесено около 600 фраз - канонических и равноценных.
Результаты испытаний сведены в табл.
Диктор
Точность распознавания слов, Р.
Точность смысловой интерпретации, Ри
Коэффициент улучшения качества, Кд
1 2 3 4-
0.9 0.92 0.95 0.99
0.946 0.969 0.990 0.998
5 7 12 16
Распечатки хода процесса обработки информации- при смысловой интерпретации фраз приведены в приложении к диссертации.
В процессе испытаний системе предъявлялись не только "правильные" фразы, т.е. канонические или равноценные им, но также фразы с различными отклонениями:
1) нарушение порядка слов;
2) замена одного из слов на его синоним,незнакомый системе;
3) добавление лишнего слова, например, "пожалуйста";
4) провторение одного из уже произнесенных слов.
5) пропуск одного из слов (неключевого)
В большинстве случаев система справлялась с такими искажениями, что говорит о хорошей имитации понимания естественного языка в устной форме.
Испытания позволили подтвердить правильность исходных предпосылок и перспективность предложенного метода распознавания смысла фраз в контексте деловой ситуации. Рис. 4.3 позволяет сравнить разработанную автором модель с известными зарубежными разработками систем понимания HEARSAY,SDC и Р26.
СП (СПб) Р26 (Италия) EEAESAY (США) SDC (США)
Рис. 4.3
Влияние высокоуровневой информации на качество смысловой интерпретации.
1 2 3 4 L, слов
Высокоуровневая обработка б БОС не дает корректирующего эффекта; НЕАББАУ и Р26 имеют незначительный корректирующий эффект. Приведенное сравнение говорит в пользу предложенного автором диссертации метода, хотя, конечно, исследовательские парадигмы несколько отличаются, и корректность данного сопоставления может быть поставлена под сомнение.
Выводы. Теоретические и практические результаты
В диссертации осуществлено теоретическое обобщение и решение научной проблемы, имеющей важное народнохозяйственное значение
- проблемы создания адекватной модели смысловой интерпретации фраз устной речи, ориентированной на создание качественно новых технических средств управления.
В диссертации получены следующие теоретические и практические результаты.
1.Выявлен ряд концептуальных противоречий в теории распознавания и понимания речи и показаны пути разрешения этих противоречий на основе предложенной концепции, сочетающей в себе модель речевого сообщения и модель процесса восприятия речи, построенные с учетом данных теории информации, теории разборчивости речи и ряда других теорий из смежных областей знаний.
2. Предложена и исследована модель речевого сообщения как многоуровневого корректирующего кода. Показана высокая степень адекватности модели посредством сопоставления оценок на основе теории разборчивости речи и теории корректирующих кодов. Модель- позволяет оценивать качество системы распознавания независимо от размера словаря одним единственным параметром, позволяет прогнозировать поведение системы в зависимости от изменения ее параметров или качества входного сигнала, позволяет сделать вывод о предпочтительности избыточного представления речевой информации в противовес ее предельному сжатию.
3. Предложен и исследован метод смысловой интерпретации речи на основе модели сквозного понимания, которая позволяет взвешенно учитывать разнородные оценки гипотез на этапе принятия решения и за счет этого значительно снизить вероятность ошибки.
При этом в частности:
а) предложен и исследован метод учета синтаксических и семантических закономерностей на базе речевых ассоциаций
б) предложен и исследован метод учета прагматической информации на базе ситуативной модели предметной области и "нежесткой" процедуры согласования входных сообщений с текущей ситуацией;
в) разработан алгоритм интегральной обработки разнородных речевых и неречевых знаний.
Статистические испытания модели ггокпяяли снижение вероят-
ности ошибки в 5-10 раз по сравнению с широко известными моделями на базе "исчисления высказываний".
4. Разработана и исследована система речевого диалога пользователя в информационно-вычислительных сетях с использованием механизмов смысловой интерпретации на базе предложенной модели сквозного понимания речи. Экспериментально подтверждено существенное улучшение качества речевого управления за счет привлечения высокоуровневой информации (семантики и прагматики) в рамках данной модели.
5. Рассмотрен комплекс вопросов промышленной реализации управляющих систем смысловой интерпретации устной речи на основе типовых структур (включающих в себя персональную ЭВМ, периферийные процессоры и электрическим способом программируемые долговременные запоминающие устройства) и информационной настройки систем на конкретную предметную область. Выполнены оценки роста затрат машинных ресурсов систем смысловой интерпретации речи с ростом сложности задач, что создает базу для инженерного проектирования средств речевого диалога, дает возможность прогноза практической реализуемости таких устройств
6. Предложены объективные критерии качества смысловой интерпретации в виде показателя снижения числа ошибок интерпретации за счет механизмов понимания.
Полученные в диссертации научные и практические результаты в виде теоретических рекомендаций, разработанных алгоритмов и программ используются на 5 предприятиях.
Основное содержание диссертации отражено в монографии и препринтах:
1. Косарев Ю.А. Естественная форма диалога с ЭВМ. Л Машиностроение, 1989. 143 с
2. Косарев Ю.А. Кодовая модель речевого сообщения. (Препринт ЛИИАН) I., 1986. 23 с.
3. Косарев Ю.А. Модель процесса сквозного понимания устной речи в диалоговой АСНИ. ( Препр. ЛИИАН АН СССР ) Л., 1987 . 21 с.
4-. Косарев Ю.А. Сетевая модель распознавания речи. Препринт ЛИИАН * 57.Л.1988. 22 С.
5. Косарев Ю.А..Виноградов C.B. Системы речевого ввода в ЭВМ. Препринт ЛИМАН № 30. Л. 1987. 24 с.
По теме диссертации опубликозаны следующие статьи и тезисы докладов:
6. Косарев Ю.А., Беляев Е.Я. Речевое командное устройство./ Труда Всесоюзного семинара АРСО-9. Минск, 1976.
7. Косарев Ю.А., Беляев Е.Я. Речевое командное устройство на основе сравнения форм огибающих. /Робототехника. Межвузовский сборник. Л., ЛПИ. 1979.
8. Косарев Ю.к., Осипов А.H. Система распознавания изолированных слов устной речи / Вычислительные процессы и структуры. Межвузовский сб./ ЛИАП : Вып. 154.. JI. 1982.с.92-94.
9. Виноградов C.B., Зиненков В.П., Косарев Ю.А. Разработка и применение речевых терминалов для интегральных сетей связи. Труды XYHI отраслевой научно-технической конференции. Л. 1983.
10. Косарев Ю.А. Устройство для моделирования классифицирующей нейронной сети . A.C. J6 943766, бшл. изобр. & 26, июнь 1982.
11. Косарев Ю.А. Вопросы применения речевого ввода/вывода в да8логе с ЭВМ./Прикладные вопросы создания информационно-вычислительных сетей. Л., ЛИИАН. 1984.
12. Косарев Ю.А., Виноградов C.B. Системы речевого ввода в АСШ /Труда IY Всесоюзной конференции "Диалог человек-ЭВМ". Киев. Институт кибернетики. 1985.
13. Косарев Ю.А., Виноградов C.B. Экспериментальное исследование алгоритмов нормализации темпа речи / Автом. расп. слуховых образов: Тез. докл. на 14-м Всесоюзном семинаре АРСО-14. Каунас, 1986, ч.1, с.76-77.
14. Косарев Ю.А. Модель сквозного понимания ограниченного естественного языка в диалоговой АСКИ. (там же).
15. Косарев Ю.А., Виноградов C.B. Речевой диалог в АСШ. Труда YIII Всесоюзной конференции "Планирование и автоматизация эксперимента ЛЗТИ. 1986.
16. Косарев Ю.А. Вопросы применения речевого ввода в диалоге с ЭВМ. (там ке).
17. Косарев Ю.А. Моделирование процессов сквозного понимания устной речи. Сб. трудов Всес.совещ. по проблеме автоматического распознавания и синтеза речи. (Киев, 1988).
Киев. Институт кибернетики.1989.
18. Виноградов C.B., Косарев Ю.А., Николаев В.А., Свердли-ченко М.В., Страховая Э.В. Система распознавания и смысловой интерпретации устных команд, (там же).
19. Косарев Ю.А. Распознавание речи и нейронные стрктуры. Проблемы обработки информации и интегральная автоматизация производства. Л., Наука.1989.
20. Виноградов C.B., Косарев Ю.А., Страхович Э.В. Исследование принципов смысловой интерпретации устных высказываний в ограниченной предметной области (там se) с. 224-236.
21. Виноградов C.B., Косарев Ю.А., Николаев В.А., Свердли-ченко М.В., Страхович Э.В. Экспериментальное исследование системы смысловой интерпретации устных команд пользователя Ака-демсети.Тезисы докл. Всес. семин. APC0-I5. Таллинн. 1989.
22. Виноградов C.B., Косарев Ю.А. Модуль синтеза речи методом адаптивной дельта-модуляции. /Рекламно-тематический сборник АН СССР, вып. I. 1989.
23. Виноградов C.B., Косарев Ю.А., Николаев В.А., Свердли-ченко М.В.,Страхович Э.В. многоуровневая система распознавания и понимания речи, (там же).
24. Косарев Ю.А., Николаев В.А. Автоматизированная система анализа речи. Ивф. просп. J5 4-87, ЛИИАН.
25. Косарев Ю.А. Сетевая модель распознавания речи. Труда 4-й Всес. конф. Матем. методы распозн. образов. Рига. 1989.
26. КосаревЮ.А. Интеллектуальный речевой терминал. Труды Международного симпозиума "Информатика 1989". Минск, 1989.
27. Ju.A.Kosarev. A neuron like model ior speech recognition. Proc. oi the Conl. or Speech Technology, p.p. 12-13. Tallinn. 1989.
28. Косарев Ю.А. Адаптивные и экспертные системы в речевом управлении. Труды Ленинградского симпозиума "Адаптивные и экспертные системы в управлении". Л., 1991.
29. Косарев Ю.А. Подходы к решению проблемы автоматического понимания речиУГруда Всес. семинара АРСО-16. Москва. 1991.
30. ' Yu.A.Kosarev. The Model of oral Speech semantic Interpretation : Quantitative Processing and integration or acoustic, syntactic, semantic and pragmatic data. Proc. German Acoustics Conference DAGA-94. (Drezden, 1994), 4 p.
-
Похожие работы
- Вероятностные характеристики сообщения устной казахской речи
- Построение математического обеспечения систем распознавания речи на основе нелинейных методов сравнения образов
- Информативные признаки на основе линейных спектральных корней в системах распознавания речевых команд
- Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов
- Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность