автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Математическое и программное обеспечение систем общения на упрощенном естественном языке

кандидата технических наук
Яснев, Михаил Игоревич
город
Москва
год
2007
специальность ВАК РФ
05.13.11
Автореферат по информатике, вычислительной технике и управлению на тему «Математическое и программное обеспечение систем общения на упрощенном естественном языке»

Автореферат диссертации по теме "Математическое и программное обеспечение систем общения на упрощенном естественном языке"

На правах рукописи

Яснев Михаил Игоревич

МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СИСТЕМ ОБЩЕНИЯ НА УПРОЩЕННОМ ЕСТЕСТВЕННОМ ЯЗЫКЕ

05 13 11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

| 003 161В51

Москва-2007

Работа выполнена на кафедре «Персональные компьютеры и сети» Московского государственного университета приборостроения и информатики

Защита состоится «13» ноября 2007 г. в 12 00 на заседании диссертационного совета Д 212.119.02 при Московском государственном университете приборостроения и информатики по адресу 107996, г. Москва, ул Стромынка, д 20 (тел 268-01-01)

С диссертацией можно ознакомиться в библиотеке МГУГШ

Автореферат разослан «11» октября 2007 г

Научный руководитель доктор технических наук, профессор

Михайлов Борис Михайлович

Официальные оппоненты доктор технических наук,

Петров Олег Михайлович

кандидат технических наук, Григорьев Александр Сергеевич

Ведущая организация ЗАО«Таркетт Рус»

Ученый секретарь

диссертационного совета Д212119 02 к т.н. профессор

Зеленко Г В

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследований. В связи с широким распространием персональных компьютеров и мобильных устройств сильно возросла роль приложений с поддержкой голосового интерфейса. Голосовой интерфейс на упрощенном естественном языке делает приложения доступнее для слабо подготовленных пользователей В случае компактных мобильных устройств, таких как смартфон и Pocket PC, голосовой интерфейс является наиболее удобным и эффективным из-за малых размеров стилуса, клавиатура и других средств ввода информации.

Также существует ряд приложений, в которых голосовой интерфейс является единственной альтернативой ввода данных (центры обработки вызовов, IP-телефония) или наиболее предпочтителен (например, бортовой компьютер автомобилей).

Точность распознавания слитной дикторозависимой речи, которая обеспечивается современными промышленными системами, достигает 99% (система Dragon Naturally Speaking 9 0) Но существующие стандарты, такие как Voice XML и SAPI не допускают прямого использования многих возможностей естественного языка для управления приложениями Диалоги, которые допустимо создавать при помощи этих интерфейсов, являются жестко фиксированными и не передают гибкость естественного языка

Поэтому в последнее время одной из наиболее актуальных является проблема связи семантического уровня с компонентами распознавания речи и упрощение разработки приложений с голосовым интерфейсом. При реализации новых подходов к созданию систем общения необходимо учитывать наличие множества функционирующих в настоящее время приложений на основе стандарта Voice XML и обеспечить совместимость с ними

Цель работы и задачи исследования

Целью работы является разработка программного комплекса для поддержки разработки приложений с голосовым интерфейсом на упрощенном естественном языке, основанных на современных промышленных стандартах Для достижения поставленной цели в диссертационной работе определены и решены следующие задачи

1 Анализ подходов к созданию систем общения на упрощенном естественном языке

2 Разработка методов общения с пользователем на упрощенном естественном языке в рамках основного промышленного стандарта для приложений с голосовым интерфейсом Voice XML

3 Разработка программного комплекса для создания систем общения на упрощенном естественном языке

Методы исследований

Для решения поставленных задач используются обобщенная теория неопределенности и методы искусственного интеллекта. Реализация разработанных методов проводилась с использованием методов объекто-ориентированного и компонентно-ориентированного программирования.

Научная новизна работы состоит в следующем-

1 Предложен метод использования крупномасштабной базы знаний OMCS как для автоматического расширения существующих приложений с целью поддержки новых команд, так и для использования базы знаний в в процессе адаптации системы общения на упрощенном естественном языке под конкретную предметную область

2. Предложен метод поиска объекта с использованием набора связанных критериев и персонализации Данный метод позволяет преодолеть существующее в настоящее время ограничение средств распознавания речи при вводе значений атрибутов и приблизить диалог пользователя с системой в процессе поиска к естественному общению В основе разработанного метода лежит использование персонализации и обобщенной теории неопределенности

Обоснованность и достоверность научных положений и основных результатов диссертации достигается путем анализа разработок в данной области, тестированием эффективности предложенных методов в составе разработанного программного продукта на основе общепринятой методике и представлением основных теоретических результатов на научных конференциях и в печатных трудах

Практическая ценность работы

Разработанный метод использования знаний из базы OMCS дает возможность улучшать с ее помощью произвольную систему общения, т.к. база содержит общие знания, используемые в диалогах в большинстве предметных областей. Метод был реализован в рамках компонента на распространенной платформе NET и может быть использован в качестве специализированного интерфейса к OMCS для разработчика системы общения.

Задача поиска объектов возникает при разработке любой системы общения, тк. для интерфейса на упрощенном естественном языке поиск является основной операцией, предшествующей их дальнейшей обработке Предложенный в работе метод поиска объекта с использованием ряда критериев и персонализации полезен для систем, которые включают задачи многокритериального поиска объекта на достаточно крупном базовом множестве (более 1000 элементов)

Реализация результатов работы

Разработанные методы были использованы для экспериментальной разработки голосового интерфейса к программному продукту

«Коммуникатор». Данный продукт является частью корпоративной системы компании ЗАО «Таркетт Рус» и предназначен для предоставления удобного интерфейса пользователя к корпоративной телефонии Голосовой интерфейс позволяет организовать в рамках клиентского приложения быстрый запуск часто используемых функций, доступ к которым сложно реализовать при помощи стандартного подхода на основе форм

Также полученные теоретические результаты были использованы для разработки программного продукта «Talk and Drive» компании Ambient Voice Technologies, представляющего собой голосовой интерфейс системы общения на упрощенном естественном языке для бортового компьютера автомобиля

Апробация результатов работы

Основные положения были представлены на Первой Международной конференции "Системный анализ и информационные технологии" САИТ-2005 (ИСА РАН, 2005), Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования 2006», конференции «Научная сессия МИФИ 2005»

Публикации

Основные результаты по материалам диссертационной работы опубликованы в 9 печатных работах Структура и объем работы

Диссертация объемом 115 машинописных страниц содержит введение, 4 главы и заключение, список литературы (58 наименований)

Содержание работы Во введении обоснована актуальность проблемы, сформулирована цель работы, представлена структура и краткое содержание диссертационной работы по главам

В первой главе диссертации рассмотрены основные проблемы создания систем общения на упрощенном естественном языке в настоящее время Приведен краткий обзор основных достижений в области разработки алгоритмов распознавания речи и их ограничения Описаны актуальные проблемы единственного промышленного стандарта в области разработки приложений с голосовым интерфейсом - Voice XML

Представлены основные подходы к созданию системе общения и обзор используемых сторонних компонентов

В 1 главе рассмотрены три наиболее успешные системы распознавания речи (Microsoft Speech SDK 6 1, IBM Via Voice и Nuance Dragon Naturally Speaking 9 0), проведен анализ данных средств, описаны их преимущества и недостатки По итогам анализа в качестве стандартного средства для распознавания речи в данной работе выбран Nuance Dragon 9 0

Также приведен обзор коммерческих; средств для генерации речи, систем для морфологического и синтаксического анализа

Рассмотрены наиболее удачные современные системы общения и средства для разработки систем общения

Также рассмотрены особенности реализации системы общения для бортового компьютера автомобиля, как одной из наиболее перспективных областей применения подобных систем

Во второй главе представлено формальное описание расширенных приложений с голосовым интерфейсом на базе стандарта Voice XML Рассмотрены основные составляющие процесса ведения диалога с пользователем

Стандартное голосовое Voice XML приложение может быть представлено структурой вида VXA = {<Ш„VXP,,\VChoice ,}>}, где VXA - множество состояний, составляющих приложение с голосовым интерфейсом,

VXS, - идентификатор состояния,

УХР: - подсказка пользователю, произносимая при переходе в состояние

ras,

\vChoicej} - множество переходов в другие состояния на основе ввода пользователя

В работе показан механизм возможного расширения данных приложений с целью приближения общения к естественному и повышению эффективности поддерживаемых диалогов WXA = {< WXS,, WXP,, {WChoicek }, WInf, >}, где WXA - модифицированное голосовое приложение, WInf\ - дополнительная информация о контексте выполнения приложения, связанная с состоянием WXS,

Выделены два класса совместимости со стандартом Voice XML Совместимость первого класса означает, что расширенное приложение сохраняет возможность работы на произвольном Voice XML сервере VVSrVj WXAt е JfFSrv^),

где VSrvj - произвольный Voice XML сервер A(VSrVj) - множество всех приложений, поддерживаемых VSrvt Совместимость второго класса подразумевает обеспечение работы расширений всех Voice XML приложений на специализированной среде исполнения.

V VXA, WXA, = Р(УХА,) s A(VSrvC),

где VSrvC- специализированный Voice XML сервер для расширенной обработки ситуаций

Введение подобной специализированной системы исполнения приложений VSrvC дает возможность реализации новых функций, недоступных из-за ограничений стандарта, сохраняя при этом совместимость с существующими системами,

Разработана схема описания всех основных этапов процесса общения с уделением значительного внимания процессу обработки знаний в системе На основе данного описания процесса общения строятся все разработанные в диссертационной работе методы

Предложена функция расширения стандартных результатов работы системы распознавания речи с целью учета и исправления ошибок, возникающих из-за схожести звучания различных фраз

SoundExt(ASR(MVS)) =< С,рс,{< Calt„p, >,MVS},{< Daltk,WXAj >} >,

где С- команда, выбранная в качестве результата распознавания, рс- вероятность произнесения пользователем команды С Calt, - альтернативная команда, которая могла быть произнесена пользователем, но была отброшена из-за меньшей вероятности по мнению ASR

р, - вероятность произнесения пользователем команды Calt, Daltk - альтернативы, добавляемые в множество рассматриваемых на этапе семантического анализа,

WXAj - приложение, к которому относится альтернатива Daltk Предложен подход для обеспечения работы системы в реальном времени Детально рассмотрены временные задержки на каждом шаге процесса общения

tcycle ~ t aar ^sowdexi Куш Кет Kns Kts

где iLyck - время цикла обмена фразами,

— время на распознавание речи (0,2 . 3 с), Komda, _ время на проведение дополнительного анализа на схожесть звучания (0,2 1 с),

'-у"' - время на морфологический и синтаксический анализ («0,1 с), Кет - время на семантический анализ (0,1 10 с); время на генерацию фразы-ответа («0,1 с),

- время на генерацию звукового сигнала ответа (1 10 с), Обоснована необходимость поддержки со стороны исполняющей платформы для обеспечения всех требований реального времени. Представлен механизм для переключения темы диалога между конечными приложениями

Основой для оценки предложенных в работе методов является комбинация из 6 критериев оценки по методике PARADISE

P({WXA,})=<Px({WXA,}), ,P6aWX4,})>

В процессе тестирования использовались эталонные задачи {TS,} и сопоставленные с ними эталонные объекты {<TS„{Obj,}} >}, которые определялись в процессе общения

В качестве первого критерия оценки использовалась средняя точность определения объектов на всем множестве тестовых задач В рамках одной задачи точность вычисляется через число объектов, совпавших с объектами из указанного эталонного множества

\Obhj\ '

где RObjl j (Г,, Userm) - набор объектов, полученный пользователем Userm при решении задачи {TS,}

Отсюда следует. I.PT,

Р1-

\Т,\

В качестве второго критерия оценки системы общения используется процент некорректных ответов системы в процессе диалога В случае Voice XML некорректным ответом является переход в неверное состояние

Представим упорядоченную последовательность состояний приложения

WXA

> во времени

TWXA,=<WXSn,i,>, <WXSln,tn >

Тогда по результатам проведенных тестов при решении тестовых задач можно вычислить значение критерия1

^Ы2Егг{ШХА,)

2>.

1

где N2Err количество ошибочных переходов между состояниями приложения в рамках решения задачи Т, в соответствующей последовательности TWXA,

Третьим критерием оценки является способность системы общения восстанавливаться после сбоев При переходе в ошибочное состояние WXSJ+I вместо WXSlJ+] система имеет контекст предыдущего состояния WXS] и распознанную команду WXCommandJ с альтернативами

Будем считать, что система смогла успешно восстановить диалог, если в результате перехода между последовательностью специальных состояний {WXSRk}система перешла в требуемое ранее состояние WXSlJtl или состояние WXFJ+l и при этом набор необходимых объектов RObj,j(TnUserm) эквивалентен образцу. Данная формулировка допускает, что восстановление диалога может быть более сложной процедурой, чем простой возврат в состояние WXSj и переход из него в WXSlJ+l по иной альтернативе команды WXCommandj

В итоге имеем для вычисления РЪ.

^NIRCTWXA,)

РЪ--

2NF(TWXA,)

где ЫЪЕгг - число восстановлений после сбоев, определенное по описанным выше принципам, а NF(TWXAl) - общее число отклонений от шаблонного диалога

Следующие три критерия оценки тесно связаны с ведением диалога в реальном времени

Для вычисления среднего времени ответа системы используем временную схему для обмена фразами пользователя с системой1

^resp ^asr Kovndexl ^synl ^sem ^ans

В данной формуле не используется компонент представляющий время произнесения фразы В момент начала произнесения фразы-ответа пользователь слышит ее начало Для приближения общения к естественному необходимо добиться условия t <2-3 с Минимизировать время tasr практически невозможно, оно определяется алгоритмами компонента распознавания речи. Поэтому данный критерий оценивает в первую очередь качество реализации функции SoundExt, скорость работы семантического анализатора и компонента генерации ответов системы Кроме того, время работы семантического анализатора включает время на вызовы внешних компонентов Для достижения условия trcsp< 2-3 с работа всех функций внешних компонентов, которая занимает относительно большой период времени должна быть реализована в асинхронном режиме, который в свою очередь требует отражения в структуре поддерживаемого диалога

рл __ I »(0_

1*0)

I

где п(0 - число переходов в последовательности TWXA,.

Пятым критерием оценки системы общения является число шагов в диалоге.

/>5 = _!-

|Г,|

Данный параметр зависит от конкретной задачи Tt, поэтому он имеет смысл в первую очередь при сравнении числа шагов диалога для решения конкретной эталонной задачи в процессе разработки системы и переходе между итерациями

Y rtjjiji)

ТЧ Л'>Тг) ДР5 = ——J"'

\Т,\

Введем дополнительную величину, оценивающую сокращение числа переходов между итерациями разработки системы общения для фиксированного тестового множества задач Tt

где я,(») - число переходов в последовательности TWXA, на итерации j создания системы

По аналогии с оценкой количества шагов в диалоге Р5 критерий средней длительности диалога оценивает скорость решения задачи.

Также можно ввести дополнительную величину для оценки повышения эффективности системы общения при переходе между итерациями

АР6= ' Г"-м1

\Т,\

В третьей главе представлены разработанные методы. Одним из основных методов является использование крупномасштабной базы знаний Open Muid Common Sense в процессе разработки и адаптации системы общения под конкретную предметную область В работе детально рассмотрены все составляющие этой базы знаний и указаны варианты использования различных типов ее фрагментов для автоматического и полуавтоматического преобразования системы общения с целью повышения ее эффективности

Элементы базы знаний OMCS представляются как OMCS = {ornes,} = {<otypenobj\l,obj2l >},

где о type, - тип связи между объектами для объекта omes,, obj\, и ob]2, - связанные объекты

Доступ к базе знаний обеспечивают функции поиска элементов вида FOOmcs( {о type,}, obj;) = {obj, | omes, e OMCS л otypeComcs,) e {otypes} л (objXpmcs,) = ob], v obj2(omcs¡) - obj,)}

Для совместимости с OMCS используется специальная разметка команд приложения по схеме VSOO.

MWXCommcmdj = MR(WXCommandу) =< Verbj, Subject}, {< Objectу t, ONameJ k >} >,

где MWXCommcmdj - модифицированная размеченная команда, Verbj - действие, определенное командой WXCommandj Subjectj - объект, над которым выполняется действие Verbj Object] к - объект-параметр для уточнения образа действия над объектом Subject j

ON ame j k - внешнее название параметра Object Jk для соблюдения порядка параметров при вызове внешней функции

Выделены три класса использования знаний из OMCS

1 Прямое изменение набора состояний приложения на основе использования семантически близких по смыслу конструкций

2 Расширение базы знаний о предметной области KW фактами из OMCS

3. Расширение словарей функции SoundExt для выявления слабо

охваченных областей KW

Предложен метод для эффективного управления множеством значений профиля пользователя Pfl(User) - {< Ptn,, Value, >} с использованием преимуществ голосового интерфейса

1 указание значение отдельного параметра < Pmt,Value, >

2 указание единого значения для группы параметров < Ртх,Value >, < Pnt„,Value >

3 указание последовательно различных значений для группы параметров путем сокращенной идентификации их по ряду признаков, однозначно выделяющих объект из класса

Search, < Ах, Ртх, Value{ >, < Ап, Рт„, Value„ >

>

где Search — общий критерий выборки группы параметров,

At - атрибуты для явного выделения параметра

4 присвоение имен группе параметров для ускорения последующего обращения к ним

LP =< LabelJ,{PmJ}>

5 создание на основе именованных групп параметров структуры профиля, которая может группировать значения параметров по функциональным блокам

Pfl(User) = {<Labelj,{Pmt,Valuej >}

6 осуществление редактирования - именованных групп LP =< Labelj, {PmJ} > путем выполнения операций удаления, замещения и добавления множества элементов

Предложен метод поиска объекта р в крупном множестве ¡>1000 при помощи набора связанных критериев и механизмов персонализации Отличительной особенностью предложенного метода является возможность его использования в системах поиска с голосовым интерфейсом и небольшое количество итераций (максимум 5-6 шагов). Система поиска объекта, основанная на предложенном принципе, должна позволять решить задачу нахождения объекта за 3-6 шагов диалога в 95-97% общения

Идея разработанного метода заключается в максимальном приближении процесса поиска к общению на естественном языке в рамках жестко ограниченной предметной области Процесс поиска можно представить последовательносьью двух видов фаз ввод параметров через диалог с пользователем и собственно происк поиска объекта, анализ указанных значений параметров поиска.

Метод ориентирован на использование связанных критериев, поэтому выстраивается иерархия параметров поиска, которая выражается последовательностю нечетких переменных <Хи ,хп >.

Для иллюстрации концепций метода будем использовать пример поиска географического объекта по адресу, В качестве параметров выступают «Страна», «Регион», «Город», «Улица», «Дом» и другие возможные атрибуты адреса

На первом этапе поиска выполняется начальная проверка наличия значений параметров в первой команде пользователя. Для обеспечения необходимой гибкости используется набор шаблонов Каждый шаблон определяет вариант следования значений параметров и возможность пропуска значения в данной последовательности.

ObjSearchTeml =< xind{, Y(xmd), xkeywordl, {SelectionTemplatei}, optional >, , <xindn,Y{xind„) ,xkeywordn,{SelectionTemplatem},optional„ > где xmd- индекс параметра в структуре <Х„ ,Х„ >, Y(xind) - множество значений параметра с индексом xmd, xkeywordr множество ключевых слов, которые входят в шаблоны выборки значений SelectionTemplate и позволяют выбирать необходимые для фразы шаблоны поиска путем ассоциативного поиска по ключевым словам,

SelectionTemplate- структура или компонент для извлечения значений параметров Х,из фразы

optional - флаг, указывающий на обязательное присутствие данного параметра в разбираемой фразе

Шаблоны позволяют определять возможные положения значений атрибутов в поисковом запросе пользователя и формировать гипотезы о возможных значения переменных <Хи ,Хп>

В силу того, что на выходе компонента распознавания речи информация представлена с долей вероятности получаем комбинирование нечетких отношений в рамках теории обобщенной неопределенности X, = rasr*rlmeYt,

где гтг - вероятностная характеристика значения, наследуемая из процесса распознавания речи

rhng - нечеткое отношение, которое возникает из-за особенностей естественного языка (неоднозначность описания параметров, средства языка для выражения неуверенности пользователя)

Y, - базовое множество значений, на котором определяется нечеткая переменная

Комбинирование нечетких отношений позволяет единообразно оценивать нечеткость на всех уровнях обработки фраз в процессе поиска

В процессе выделения значений параметров из фразы пользователя помимо расширения вариантов за счет анализа схожести звучания распознанных слов со словами в словаре добавляется нечеткость по границам описаний значений объектов. Если два критерия поиска находятся рядом в шаблоне, а их SelectionTemplate «претендуют» на одно и то же слово То необходимо рассмотреть все альтернативы по установлению границ между словами фразы и их отношению к параметрам <Х,, ,Хп>

В итоге после проведения предварительного анализа имеем множество гипотез о значениях параметров поиска

Отношение я, представляет структурно обобщенную нечеткую оценку значения параметра Далее для проверки гипотез необходимо построить дерево решений (см рис. 1)

Рис 1 Дерево решений в задаче поиска объекта

Построение дерева осуществляется в порядке следования параметров в структуре описания объектов <Х„ ,Х„>, от параметров, представляющих категории (область, город), до простых атрибутов (номер дома)

Листьями дерева могут выступать как элементы базового множества объектов Р, так и его подмножества, заключающие вариации искомого объекта по набору неопределенных в настоящий момент значений параметров

Выделение наиболее приоритетных ветвей и узлов дерева осуществляется по составной оценке, где нечеткие отношения Я, играют важную, но не ключевую роль, уступая приоритет персонализации и значению параметров, которым соответствует большее число объектов Структура оценки листа в дереве имеет вид гт«и = /(< {изег У),УМ, ЯС >),

где \UserY} - множество часто используемых пользователем значений УМ - наиболее важные элементы базовых множеств Определяется структурой задачи. В примере поиска адресов, множество УМ составляют крупные города и области

КС -комбинированная оценка на основе всех Я, для данной гипотезы на основе классификации уверенности в значении

1. Класс А Значения с высокой долей уверенности

2 Класс В Значения с низкой долей уверенности

3 Класс С Нет информации о значении

Ошибочные гипотезы отсекаются на основе анализа базового множества Р и допустимых значений комбинаций параметров для объектов в нем. На практике количество объектов в Р намного меньше числа всех возможных комбинаций значений <Х„ ,Хп>

Для продолжения поиска система формирует уточняющий вопрос Построение данного вопроса и план последующего поддиалога определяются конфигурацией дерева в области выбранных ветвей и классификации имеющихся средств

1 Менее 4 альтернатив В качестве уточнения используется альтернативный вопрос с указанием всех вариантов.

2 От 4 до 20-30 альтернатив Целесообразно использование специального вопроса по данному критерию

3. Более 30 альтернатив по одному из критериев, близких к корню дерева Используется побуквенный ввод для исключения генерации значительного числа гипотез на втором шаге диалога Помимо данных типов вопросов существует возможность фонового подтверждения последовательности узлов в ветви от корня, если ихдостоверность принадлежит множеству допустимых значений rmde е R0

В этом случае сообщение системы начинается с фразы подтверждения и завершается вопросом по проблемному критерию Хт Построение дальнейшего диалога в режиме с подтверждением первых параметров зависит от реакции пользователя

Ответ на вопрос о параметре ^автоматически фиксирует согласие пользователя на значения X,,

Опровержение одного из параметров в X,, ,Хт_, переводит поиск в иную ветвь или в худшем случае приводит к разрастанию числа гипотез И в дальнейшем на практике это разрастание гипотез зачастую приводит к тому, что требование обеспечить не более 4-6 шагов в диалоге нарушается

Нормальным завершением процесса поиска является достижение уровня R0 для всех R, в текущей гипотезе« R^v^R^,, ,R„v„ >

Научная новизна предложенного метода заключается в использовании персонализации на этапе выбора ветвей дерева и тесной связи обработки дерева решений со средствами языка общения Связь обеспечивают шаблоны распознавания значений параметров с окрестностями и разрешением конфликтов через генерацию гипотез и классификация вопросов и поддиалогов для уточнения параметров объекта

Тестирование эффективности разработанных методов проводилось на основе программного продукта «Talk and Drive» Результаты тестирования представлены в табл 1

Табл 1 Результаты тестирования программного продукта «Talk and Drive по методике Paradise

Критерий оценки Итерация 1 Итерация 2 Итерация 3 Итерация 4

Р1, % 82 93 95 97

Р2, % 5 3 2 2

РЗ, % 25 42 44 50

Р4, сек 2,5 3 3,2 2,4

Р5, шагов 14 11 7 6

Р6, сек 87 75 49 28

После 4 итераций процесса разработки точности идентификации необходимых объектов возросла с 82% до 97% (рис 2). Р1,%

100 90 80 70 60 50 40 30 20 10 0

-1 итерация 4

Рис 2 Точность определения необходимых объектов Р1, %

В четвертой главе представлены описания архитектур и основных принципов функционирования двух систем общения, использующих разработанные методы

Система общения, входящая в состав приложения «Коммуникатор» корпоративной информационной системы ЗАО «Таркетг Рус», позволяет пользователям использовать так называемые принципы end-user programming для удобства настройки и последующих вызовов часто используемых функций через голосовой интерфейс В данной системе общения был реализован метод создания персонального профиля и управления множеством значений переменных

Система «Talk and Drive» представляет голосовой интерфейс для бортового компьютера автомобиля Архитектура системы «Talk and Drive» представлена на рис. 3

>

8 а £

I

О

а

Сенсорный эцэам ТзЬЫ РС

/

Микрофон

Приложение ^{(чЗсмю 20

Г

Да

/г, М-

.....

Формы приложений

Синтаксичес»*»

Словарь зама»

У*ечи«&*ие раслоэнавввия

речи

Среда исполнения приг

Сервисы диалога

Координатор испопьэовйния форм

I

_1к

Модуль» генерации >„| семантических конструкций сообщений [ гзольдаеатаяю

Колонки —

ЭМЧ 6.1 ййбМ^епадыи 3 ТТЗЕщй» I

/ \

к>

"V

Приложения

Навигационная системе

Управление кондиционером

Управление магнитолой

Коорд инатор голосового канала

Кбавдтатор интерпретаций команд

Веб-сврвис навигации

Для разработки «Talk and Drive» применялись все основные методы, предложенные в работе. Результаты тестирования подтвердили их эффективность и позволили не только добиться высокой точности распознавания в автомобиле, но и предоставить водителю удобный интерфейс пользователя, для работы с которым не требуется предварительное изучение инструкции

Всю систему можно условно разбить на следующие модули

1. Обеспечение взаимодействия со средствами распознавания и генерации речи

2 Обеспечение контроля голосового канала

3 Единая среда исполнения приложений

4 Обеспечение доступа к внешним датчикам.

5 Предоставление интерфейса к формам для отображения информации, которая плохо передается через голосовой интерфейс

Для распознавания речи используется стандартное средство Dragon NS 9.0 Доступ к нему осуществляется опосредовано через компонент, обеспечивающий работу функции проверки на схожесть звучания Фактически в данной схеме компонент «словарь замен» играет роль, обратную фильтрации Он расширяет полученное множество альтернатив для обеспечения как минимум теоретической возможности повышения точности распознавания речи компоненту семантического анализа

В качестве средства генерации речи используется стандартный компонент Microsoft Speech SDK TTS 5 1 Взаимодействие с этим компонентом и с распознаванием речи осуществляется через компонент «Координатор голосового канала»

Применение разработанного метода переключения контекста между приложениями позволили организовать согласованную работу голосовых приложений «Управление магнитолой», «Управление кондиционером» и «Система навигации» в процессе вождения Метод поиска объекта с учетом набора связанных критериев и использованием персонализации позволил обеспечить высокую эффективность при вводе адреса назначения в компоненте «Система навигации»

Компоненты «Сервисы диалога» представляют реализацию методов, разработанных в диссертационной работе Все пользовательские приложения исполняются в рамках единой исполняющей среды, обеспечивающей унифицированный доступ к голосовому каналу и соблюдение требований работы в реальном времени

При помощи единого интерфейса приложения могут осуществлять вывод информации не только через голосовой канал, но и при необходимости на экран

Приложение «Навигационная система» имеет возможность обращаться к внешним устройствам Она использует подключение к GPS приемнику для

получения текущих координат А также веб-сервис навигации для получения дополнительной информации о ситуации на дороге (пробки, изменение маршрутов движения и т п ) Через компонент доступа к формам приложение работает со сторонним компонентом «Geobase», предоставляющим доступ к базе данных маршрутов

Функциональность, реализованная в рамках системы «Talk and Drive», превосходит все коммерческие аналоги, имеющиеся в настоящее время на рынке автомобильных информационных систем

В заключении приведены основные результаты, полученные в диссертационной работе

Основные результаты работы

1 В результате работы был проанализован один из наиболее актуальных вопросов в разработке систем общения - упрощение процесса разработки систем, поддерживающих диалоги на упрощенном естественном языке и приближающих процесс общения к естественному.

2 Разработан метод ускорения создания системы общения с использованием крупномасштабной базы знаний OMCS Предложен независящий от предметной области механизм извлечения знаний из OMCS для систем общения, построенных на основе промышленного стандарта Voice XML

3 Разработан метод организации диалога с пользователем для проведения поиска объекта с использованием множества связанных критериев и персонализации

4 Разработано программный комплекс для создания систем общения на упрощенном естественном языке Данный комплекс был использован в процессе создания программного продукта «Talk and Drive», обеспечивающего голосовой интерфейс к информационной системе бортового компьютера автомобиля Также результаты работы были использованы в рамках экспериментальной разработки системы общения для приложения «Коммуникатор», входящем в состав корпоративной информационной системы ЗАО «Таркетт Рус»

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

1 Яснев M И. Методы создания систем поиска информационных ресурсов // Научная сессия МИФИ 2005 Сборник научных трудов -МИФИ, 2005, с. 171-172

2 Яснев M И Использование естественного языка для создания сценариев //Труды Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования 2005», М. МГТУ им H Э Баумана, 2005, с 61

3 Костылев H С , Корниенко В В., Максимчук П И, Оленев А А., Яснев МИ, Проект «Вавилон» Н Международный конкурс программных проектов Microsoft Imagine Сир 2005, 3-е место в региональном финале (Россия и СНГ)

4 Костылев H С, Корниенко В В , Максимчук П И., Оленев А А, Яснев M И. Формирование единого контекста приложений // Первая Международная конференция "Системный анализ и информационные технологии" САИТ-2005, ИСА РАН, 2005, с 274-276

5. Костылев H С, Корниенко В В , Максимчук Т.И, Оленев А А, Яснев М.И Проект Speech Dnven Motion // Международный технологический конкурс Microsoft Imagine Сир 2006 Объединенная команда МГУПИ и МГТУ им Баумана 2-е место в России http //www.microsoft com/rus/news/issues/2006/04/imaginecup mspx

6 Максимчук Т.И., Яснев М.И Коррекция распознавания речи для приложений MS Speech SDK 6 1с использованием семантики //Труды Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования 2006», M МГТУ им Н.Э Баумана, 2006, с. 75.

7 Яснев M И Особенности речевого управления бортовым компьютером автомобиля на базе интерфейса, реализованного в системе «Talk and Drive» // Мехатроника, автоматизация, управление №7, M «Новые технологии», 2007, с 44-45

8 Яснев М.И. Разработка системы общения в реальном времени на основе стандарта Voice XML // Межвузовский сборник научных трудов «Программное и информационное обеспечение систем различного назначеня на базе персональных ЭВМ» вып 10 - M МГУПИ, 2007, с.137-138

9 Яснев M И. Регрессионное тестирование системы общения на упрощенном естественном языке // Межвузовский сборник научных трудов «Программное и информационное обеспечение систем различного назначеня на базе персональных ЭВМ» вып 10 - M МГУПИ, 2007, с.139-140

Отпечатано в ООО «Компания Спутник+» ПД № 1-00007 от 25 09 2000 г. Подписано в печать 10 10.07. Тираж 110 экз. Уел п л. 1,25 Печать авторефератов (495) 730-47-74,778-45-60