автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.15, диссертация на тему:Система интерактивного речевого самообслуживания с распределенными ресурсами

кандидата технических наук
Трощенко, Алексей Юрьевич
город
Москва
год
2008
специальность ВАК РФ
05.13.15
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Система интерактивного речевого самообслуживания с распределенными ресурсами»

Автореферат диссертации по теме "Система интерактивного речевого самообслуживания с распределенными ресурсами"

УЧРЕЖДЕНИЕ РОССИЙСКОЙ АКАДЕМИИ НАУК ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ ИМ. В.А. ТРАПЕЗНИКОВА (ИПУ РАН)

На правах рукописи УДК 681.324

ТРОЩЕНКО Алексей Юрьевич

СИСТЕМА ИНТЕРАКТИВНОГО РЕЧЕВОГО САМООБСЛУЖИВАНИЯ С РАСПРЕДЕЛЕННЫМИ РЕСУРСАМИ

□03458525

Специальность 05.13.15- Вычислительные машины и системы

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Москва - 2008

003458525

Работа выполнена в ИПУ РАН

Научный руководитель:

кандидат технических наук, с.н.с. Фархадов Маис Паша Оглы

Официальные оппоненты:

доктор технических наук, профессор Трахтенгерц Эдуард Анатольевич

кандидат технических наук Гуревич Игорь Михайлович

Ведущая организация:

Институт проблем передачи информации РАН (ИППИ)

Защита состоится

-ж-

2008 г. в часов на

заседании диссертационного совета Д 002.226.03 ИПУ РАН по адресу: 117997, Москва, ул. Профсоюзная, д. 65.

С диссертацией можно ознакомиться в библиотеке ИПУ РАН

Автореферат разослан " Л2 " г.

Ученый секретарь диссертационного совета

доктор технических паук / / Юркевич Евгений Владимирович

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Автоматизированные телефонные системы интерактивного речевого самообслуживания существенно снижают нагрузку на традиционные каналы обслуживания, такие как контакт-центр. Помимо уменьшения очереди в контакт-центр, повышается уровень его автоматизации - требуется существенно меньше операторов для обслуживания абонентов, увеличивается его пропускная способность, что в конечном итоге ведет к снижению затрат. Кроме того, системы такого класса позволяют внедрять принципиально новые автоматизированные сервисы, использующие распознавание и синтез речи для взаимодействия с абонентами.

Традиционным способом предоставления информации по телефону в настоящее время является центр обработки вызовов, или контакт-центр, где работают живые операторы. Такая модель работы не является эффективной при решении однотипных задач предоставления информации. Альтернативой традиционному способу является создание полностью автоматических интеллектуальных речевых приложений, которые частично заменят живых операторов.

Современные методы построения систем интерактивного речевого взаимодействия ограничены использованием тонового набора и работой с локальными данными, посредством доступа к базам данных. Для создания же систем, которые смогут заменить живого оператора необходимо, во-первых, использовать дикторонезависимое распознавание речи и синтез речи, во-вторых, научиться работать с удаленными данными, такими как \уеЬ-сервисы, доступные в сети Интернет. Использование распознавания русской речи успешно апробировано российскими исследователями, в том числе и в лаборатории систем массового обслуживания ИПУ РАН, однако вопросы интеграции речевого взаимодействия с \уеЬ-сервисами оставались открытыми. В частности, отсутствовали системы и методы, необходимые для построения таких речевых приложений, которые бы могли использовать \уеЬ-сервисы для ведения диалогов

с абонентом в режиме реального времени.

Автоматизированная система интерактивного речевого обслуживания создана для решения важной народнохозяйственной задачи автоматизации процесса предоставления информации, полученной при помощи \уеЬ-сервисов по телефону.

Цель работы. Целью работы является исследование и разработка системы интерактивного речевого самообслуживания с дикторонезависимым распознаванием речи и доступом к удаленным ресурсам посредством \veb-сервисов, для повышения эффективности обслуживания по телефону. Особое внимание в работе уделено следующим проблемам:

-анализу проблем и ограничений современных телефонных систем речевого самообслуживания;

-разработке интерфейсов работы системы интерактивного речевого взаимодействия с луеЬ-сервисами;

-аналитическому расчету длительности и вероятности успешного завершения диалога для различных сценариев их построения; -методам повышения надежности работы системы;

-созданию действующей системы интерактивного речевого самообслуживания с распределенной структурой.

Методы исследования. В диссертационной работе применены методы

теории массового обслуживания, теории вероятностей.

Научная новизна. Научная новизна диссертационного исследования

заключается в разработке архитектуры системы интерактивного речевого

взаимодействия с распознаванием речи и возможностью работы с удаленными

данными, которая позволяет существенно повысить уровень автоматизации в

контакт-центре.

В результате проведенных исследований получены следующие новые научные результаты:

-разработана и исследована архитектура автоматизированной системы интерактивного речевого взаимодействия с распознаванием речи на основе

стандартов СОА (сервисно-ориентированная архитектура), позволяющая работать с web-сервисами сети Интернет;

-разработана действующая система и исследованы возможности её работы с географически распределенными компонентами;

-созданы первые в России образцы интеллектуальных речевых приложений с дикторонезависимым распознаванием речи и доступом к удаленным данным посредством web-сервисов - Аэрофлот-Инфо и Голосовой Портал Центробанк; -проведены аналитические расчеты длительности и вероятности успешного завершения диалогов для различных сценариев их построения, позволяющие принимать решение об использовании той или иной стратегии в различных ситуациях.

Практическая ценность и реализация результатов работы.

Разработанная Автоматизированная Система Интерактивного Речевого Обслуживания позволяет создавать голосовые приложения, использующие удаленные информационные ресурсы, доступные через web-сервисы по открытому протоколу SOAP (Service Oriented Architecture Protocol), удаленные ресурсы распознавания и синтеза речи, доступные по открытому протоколу MRCP (Media Resource Control Protocol), и удаленную управляющую информацию, выполненную в открытом стандарте VXML (Voice Extensible Markup Language). Данный подход позволяет разделить написание логики приложения (на языке VXML) от сервисов получения удаленных данных (web-сервисы), что дает возможность создавать голосовые сервисы, аналогичные сервисам Интернет.

Разработанная система может быть использована для создания таких голосовых приложений как расписание и бронирование транспортных услуг, службы информационных каталогов, отслеживание статуса заказа в розничных сетях, управление счетом в финансовых структурах, службы напоминаний, различные развлекательные приложения и др.

Разработанные математические модели могут использоваться для анализа и предварительного расчета характеристик речевых диалогов, таких как вероятность успешного завершения и средняя длительность.

Полученные в диссертационной работе результаты внедрены в ЗАО ТАИС, в ООО Регионтранк и в работах ИПУ РАН.

Апробаиия работы. Основное содержание работы докладывалось и обсуждалось на Международной конференции «Высокие технологии XXI века. VIII Международный форум», 23-26 апреля 2007г., Москва; на Первой международной конференции "Управление развитием крупномасштабных систем", MLSD'2007, Москва 1-3 октября, 2007г.; на Конференции «Интеллектуальные услуги в телефонных сетях. Рынок VAS. Технологии и бизнес», 24 - 25 апреля 2007, Виноградово; на Международной конференции XII International Conference Speech and Computer (SPECOM'2007), 15-18 Октября, 2007г., Москва; на Международном семинаре по системам множественного доступа - МАСОМ-2008, Санкт-Петербург.

Основные положения, представляемые к защите:

1. Схемы построения речевых порталов с дикторонезависимым распознаванием речи и доступом к данным посредством web-сервисов;

2. Методы решения задач семантического анализа для речевых сервисов, на примере Аэрофлот-Инфо и Голосовой Портал Центробанк;

3. Методы увеличения вероятности успешного завершения речевых диалогов и уменьшения средней длительности диалога;

4. Схема повышения надежности успешного завершения речевого диалога.

Публикации. По основным результатам диссертационной работы опубликовано 8 работ, из которых 3 статьи опубликованы в ведущих рецензируемых журналах.

Структура и объем работы. Диссертация состоит из введения, четырех глав с выводами, заключения, списка литературы и приложений. Основная часть работы изложена на 159 страницах и содержит 57 иллюстраций и 18 таблиц с данными.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность работы, раскрывается ее цель, характеризуются научная новизна и практическая ценность, дается краткое изложение содержания диссертационной работы по главам.

Первая глава посвящена обзору и анализу телефонных автоматизированных систем массового обслуживания. Рассмотрены три типовые архитектуры построения современных контакт-центров (Центров Обработки Вызовов) - на базе традиционной телефонии, IP контакт-центр и программное решение с CTI интеграцией. Определен и описан типовой функциональный набор контакт-центра, включающий маршрутизацию вызовов, интерактивное речевое взаимодействие, обработку обращений по различным каналам (входящие и исходящие звонки, email, fax, sms, chat, web), рабочее место оператора, функции администрирования, программирования логики работы контакт-центра, системы записи, управления качеством и управления трудовыми ресурсами. Кроме того, определено место голосовых порталов в общей архитектуре контакт-центров, как выполняющих функции систем интерактивного речевого взаимодействия.

В табл.1 приведены преимущества и недостатки различных подходов к построению контакт-центров.

Схематично, архитектуру современного контакт-центра можно представить в виде уровней, см. рис.1. Ключевым моментом здесь является разделение на три независимых технологических слоя - сетевой уровень, связующий уровень и уровень приложений. Такое разбиение позволяет использовать различные компоненты контакт-центра от разных производителей. Компоненты системы взаимодействуют друг с другом на основе открытых протоколов, а также имеют открытые интерфейсы для взаимодействия с другими системами и источниками данных.

Таблица 1. Преимущества и недостатки различных архитектур контакт-центров

Плюсы Минусы

На базе традиционной телефонии - защита инвестиций для владельцев существующих УАТС - легкость обслуживания централизованного контакт-центра - закрытость архитектуры - централизованная архитектура

IP контакт-центр - меньшие инвестиции в телефонную инфраструктуру при создании с нуля - масштабируемость, простота наращивания числа абонентов; - поддержка распределенной архитектуры - экономия на междугородних переговорах - поддержка мультимедийности - высокая цена внедрения - необходимость создания отдельной 1Р телефонной системы для операторов - необходимость использования дополнительных устройств для сопряжения с Телефонной сетью общего пользования

Программный контакт-центр - открытость технологий и интеграция с другими приложениями - поддержка существующих УАТС и 1УЯ других производителей - большое количество приложений, дополняющих функционал - легкое написание дополнительных приложений для контакт-центра - ограниченный круг поддерживаемых УАТС и 1УЯ

X

в) X

о Ц

S

а. С

Бизнес Корпоративные приложения front office и back office

База Настройка Бизнес- Управление f.pM знаний процессов ресурсами (WFM)

у Консолидированная отчетность, .. , Аналитика Мемаа1пв

>s

ii

2? а> р) са

й ° n Q.

о £

к

а

is

с 5 л Sfth

ГФФ

Sue

Программные сервисы

Канальные сервисы

Интеллектуальная маршрутизация

Управление очередями

CTI Интеграция

Мониторинг работы операторов

IVR, Приложения самообслуживания

Текстовый чат

Web Collaboration

УАТС 1Р-УАТС

Исходящий обзвон

Голосовая почта

Мгновенные сообщения

Инфраструктура

Передача голоса Передача данных

Рис.1 Многоуровневая архитектура контакт-центров

первой главе также рассмотрены принципы работы системы

дикторонезависимого распознавания речи, а также систем синтеза слитной речи. Принцип работы системы дикторонезависимого распознавания речи проиллюстрирован на рис.2.

РЕЧЬ

РЕЗУЛЬТАТЫ

Системный словарь

Правила

ПрОИЗНОШ!

Правила произноше ния

Рис.2 Принцип работы системы дикторонезависимого распознавания речи

В данной главе также рассмотрена типовая архитектура построения голосовых порталов и рассмотрены технологии построения голосовых приложений на базе стандартов VoiceXML, SALT, приведено их сравнение, а также преимущества и недостатки двух подходов.

В качестве типовой архитектуры голосового портала можно представить два варианта:

-на базе традиционных технологий ;

-на базе открытых технологий.

Схематично, обе архитектуры представлены на рис.3

Технологии стандартных систем предполагают использование встроенных модулей доступа к базам данных, в то время как использование открытых технологий построения голосовых приложений, таких как VXML, позволяет использовать web-сервисы и получать данные в формате XML. Использование Web-сервисов позволяет избавиться от необходимости написания новых модулей взаимодействия с каждым источником данных.

Вторая глава посвящена разработке системы интерактивного речевого взаимодействия — Автоматизированной Системы Интерактивного Речевого Обслуживания. Отдельное внимание уделено возможности построения таких систем с распределенными ресурсами.

В работе была определена функциональная модель системы, определен необходимый набор подсистем, состоящий из системы IP телефонии, системы интерактивного речевого взаимодействия, системы голосового портала, системы распознавания речи и системы синтеза речи.

Подробно описана технологическая архитектура Автоматизированной

Системы Интерактивного Речевого Обслуживания и принцип её работы.

Структурная схема Автоматизированной Системы Интерактивного Речевого Обслуживания, реализованной в лаборатории автоматизированных систем массового обслуживания ИПУ РАН, приведена на рис.4.

Голосовой S1P адаптер

Linksys SPA3102

XO-j Ethemi

Ethernet Ethernet

Web сервисы

Маршрутизатор

D-Link DI-524

Коммутатор

D-Link DES-tOOSD |

VXML ASR система 1 Голосовой портал

платформа ScanSoff OSR 3 (Сервер голосовых

Voxeo Prophecy 7 Приложений)

Voice Portal 1

Рис.4 Структурная схема Системы Выбор технологий построения системы был основан на преимуществах открытых технологий, одним из определяющих факторов которых является возможность использования компонент от разных производителей и практически неограниченная гибкость и масштабируемость. Созданная система имеет в своей основе такие стандарты и технологии как: Voice XML 2.0 - Voice Extensible Markup Language; SRGS 1.0 - Speech Recognition Grammar Specification; SSML 1.0 - Speech Synthesis Markup; SISR 1.0 - Semantic Interpretation for Speech; CCXML 1.0 - Call Control; SIP: Session Initiation; MRCP: Media Resource Control Protocol; Web Services Architecture.

Схема взаимодействия компонент системы приведена на рис.5. Ниже приведено пошаговое описание взаимодействия компонентов системы в типовом сценарии звонка (Call Flow):

1. Звонок из ТСОП (Телефонной Сети Общего Пользования) поступает на голосовой шлюз, который в соответствии с прописанными на нем правилами маршрутизации взаимодействует с SIP сервером, входящим в состав ПО Voxeo Prophecy7. Взаимодействие осуществляется по протоколу SIP.

2. IP сервер в соответствии с прописанными на нем правилами соответствия между набранным номером (DNIS) и приложением делает запрос на VXML сервер, входящий в состав Voxeo Prophecy. Взаимодействие между компонентами осуществляется по внутренним протоколам.

3. Voxeo Prophecy запрашивает у Документ-сервера необходимый VXML документ. При этом Документ-сервер динамически генерирует VXML страницы, в зависимости от контекста вызова. Взаимодействие осуществляется по протоколу HTTP, ответ приходит в виде VXML файла.

4. Если приложение затрагивает взаимодействие с web-сервисами, Документ-сервер (Voice Portal) осуществляет взаимодействие с web-сервисами по протоколу SOAP over HTTP.

5. От сервера Web-сервисов приходит ответ на документ-сервер.

6. Документ-сервер, в свою очередь, формирует VXML документ, используя данные, полученные от web-сервиса, и направляет его на VXML интерпретатор/SIP сервер.

7. VXML интерпретатор направляет ответ голосовому шлюзу для установления голосовой сессии.

8. Голосовой шлюз взаимодействует с ТСОП для установления голосовой сессии.

9. Устанавливается голосовая сессия между оконечным устройством и VXML сервером (Voxeo Prophecy 7).

10. VXML сервер в работе использует ресурсы сервера распознавания и синтеза речи, а также ресурсы media server, на котором хранятся голосовые подсказки.

Рис.5 Схема взаимодействия компонент системы

Проведены экспериментальные исследования работы систем с распределенными компонентами. Среди компонент, которые могут быть разнесены, могут быть VXML платформа, система распознавания и синтеза речи, Web сервер (документ-сервер), источники данных.

Было проведено тестирование системы, у которой VXML платформа и система распознавания и синтеза речи находилась в США на стороне провайдера услуг голосовых приложений (Voxeo), web сервер (документ-сервер) находился в сети ИПУ РАН в Москве, источники данных находились в сети Центробанка РФ и были доступны по публичному веб-сервису. Для тестирования использовалось специально разработанное голосовое приложение Financial Services, предоставляющее информацию по курсам валют используя веб-сервис Центробанка. Взаимодействие всех компонент осуществлялось по открытой сети Интернет. Максимальная задержка при запросе абонента составила 2-3 секунды, что является вполне приемлемым при использовании систем интерактивного речевого взаимодействия в телефонных сетях. Таким образом, было показано, что использование более оптимальной с точки зрения затрат распределенной архитектуры возможно, при условии соблюдения необходимого качества

передачи голосового трафика.

Иллюстрация задержек, возникающих в диалоге интерактивного речевого приложения с распознаванием речи, приведена на рис.6. Было рассмотрено два основных случая - простой шаг диалога с распознаванием команды (Т1) и шаг диалога с выдачей результатов, т.е. когда данные запрашивались у веб-сервиса (Т2).

... __ ____ — - ___ -.1 тг R ____ __ _ . J _ Г - ... s E E — --- -

I Е|7 T I 7. .1 П I. F lz: __1— E: ГГ.] E 1

1 № - Ifl I I I i 1 I ll 1 Г I -I- г t К I 1 E tt i 1 -I

- 1 И i li t _ H - f — ' ' | I E Я -r-J — M

H P* 771 7T —i - 77

= _ F_ _ -- ~ T 1 - -+1- E - f 0 Г | - I-rp- hI

H m ва HI in --L. .HI zi § —. :н — .

— _ m HI -- HI :— JV in E —1— —1— — N, ~HI — Hj —1— Hj

2 —.—1 ~rr g E: rtz E Ё E E Г+Т L EH

Рис.6 Пример диалога в приложении Financial Services

Третья глава посвящена разработке голосовых приложений. Наряду с разработкой общей методологии создания речевых приложений, диссертантом было создано приложение Аэрофлот-Инфо, предоставляющее информацию о расписании и статусе рейсов. Информация при этом запрашивается через публичный web-сервис Аэрофлот.

В данной главе приведена классификация речевых приложений, разделяющая их на три основных класса - направленный диалог (directed dialog), смешанный диалог (mixed-initiative) и естественный диалог (natural language). Рассмотрены примеры и особенности всех трех классов и определены области их использования.

Представлена методика создания голосовых приложений, включающая три основных фазы - постановку задачи, дизайн и реализацию. Постановка задачи включает сбор требований и высокоуровневый дизайн приложения. Фаза дизайна включает смысловой дизайн, дизайн речевых особенностей, стратегии обработки ошибок и создание тестовых приложений и web аналогов. Фаза реализации состоит из разработки приложения и грамматик, работы с речевым диктором, тестирования и тонкой настройки.

Речевое приложение Аэрофлот-Инфо может использоваться для предоставления пользователям следующих сервисов:

-информация о расписании рейсов компании Аэрофлот посредством голосового интерфейса (Schedule);

-информация о конкретном рейсе компании Аэрофлот посредством голосового интерфейса (Flight Status).

-Схема используемых информационных web-сервисов приведена на рис.7.

Web-сервисы AerofIot.Ru

Поиск рейса

Входные параметры: • номер регулярного рейса Возвращаемая структура: код конкретного рейса в данный день

Подробная информация о рейсе I код

рейса! Входные параметры:

• код рейса

Возвращаемая структура:

- статус рейса (задержан, а полете)

- время вылета по расписанию

- фактическое время вылета

• время прибытия по расписанию

- фактическое время прибытия

• расчетное время прибытия

• код аэропорта назначения

- номер терминала аэропорта назначения

Информация q аэропорта

входные параметры:

- код аэропорта

1 Возвращаемая структура:

- город аэропорта

- имя аэропорта _

Поиск пейса Входные параметры:

- пункт отправления

- пункт назначения - ► - дата

Возвращаемая структура:

- номер регулярного рейса

- дата и время отправления • дата и время прибытия

Рис.7 Схема используемых публичных ^еЬ-сервисов Аэрофлот

В данной главе детально рассмотрены все фазы и этапы реализации данного приложения, использованные технологии и ноу-хау. Отдельное внимание уделено методам оптимизации речевых приложений. Основными количественными показателями являются вероятность успеха и длительность диалога. Если есть направленный диалог из п шагов с вероятностью

успеха на каждом шаге и средним числом повторений тогда

вероятность успешного завершения диалога будет Р = Р\* — *РЯ а сумма среднего числа повторений на каждом шаге будет характеризовать длительность диалога // = //, +... + /А.

Целью оптимизации диалога является увеличение ? и уменьшение Среди основных методов оптимизации можно выделить алгоритмические и системные. Алгоритмические методы включают использование различных методов построения диалогов, динамическую генерацию грамматик, использование результатов п-Ьез1 списков.

Во время изучения характеристик системы на примере приложения Аэрофлот-Инфо для некоторых слов была выявлена аномально низкая вероятность распознавания. Такие слова были условно названы «проблемными». Основной причиной послужила некорректная работа автоматической генерации фонетических транскрипций системой распознавания речи. Для выявления причин и нахождения метода оптимизации было использовано короткое приложение, пример диалога которого приведен на рис.8.

СИСТЕМА: Назовите юрод. ПОЛЬЗОВАТЕЛЬ: Москва СИСТЕМА: Вы сказали Москва'.' ПОЛЬЗОВАТЕЛЬ: Да СИСТЕМА: Назовите город. ПОЛЬЗОВАТЕЛЬ: Белгород СИСТЕМА: Вы сказали Белград?

ПОЛЬЗОВАТЕЛЬ: Нет_

Рис.8 Пример диалога для эксперимента

Пример анализа полученных результатов опыта приведен в табл.2. Основной причиной низкой вероятности распознавания т.н. «проблемных слов» была некорректная автоматическая генерация фонетических транскрипций системой распознавания речи.

Таблица 2. Результаты анализа «проблемных слов»

Город Системная фонетическая транскрипция Правильная фонетическая транскрипция Причина ошибки

Дели <Ш (ГеИ Ошибочная автоматическая фонетическая транскрипция «Дили» вместо «Дели»

Мюнхен типх'ш т'ипх'т Отсутствие указания на то что первый звук мягкий приводило к интерпретации как «Мунхен», вместо «Мюнхен»

Другой проблемой была низкая вероятность правильного распознавания

похожих слов. Для проведения экспериментов было использовано аналогичное голосовое приложение, и, кроме того, использовалось логгирование п-Ьев!

результатов и соответствующих системных параметров уверенности распознавания (score, confidence level) в специальную БД для дальнейшего анализа. Пример анализа полученных результатов приведен в табл.3.

Таблица 3. Результаты анализа похожих слов

nbest-1 score nbest-2 score nbest-3 score

Серия 1

афины 0,8 София 0,15 ташкент 0,04

афины 0,88 София 0,12

афины 0,77 София 0,17 барселона 0,00

афины 0,83 София 0,16

Серия 3

белград 0,56 белгород 0,44

белград 0,75 белгород 0,25

белград 0,71 белгород 0,29

белград 0,77 белгород 0,23

Предложенным диссертантом решением данной проблемы было добавление в диалог модуля, озвучивающего последовательно результаты п-ЬеБ! и требующего от пользователя лишь подтверждения да или нет. Пример приведен на рис.9.

СИСТЕМА: Паювше пожалупси юрод отравления. ПОЛЬЗОВАТЕЛЬ: Афины

СИСТЕМА: Повюрше пожалупаа, я не расслышала ПОЛЬЗОВАТЕЛЬ: Афины

СИСТЕМА Давашс попробуем ио-лрулому. Ни сказали София'' ПОЛЬЗОВАТЕЛЬ: Нет СИСТЕМА: Вы сказали Афины? ПОЛЬЗОВАТЕЛЬ. Да

Рис.9 Пример использования n-best для распознавания

Системные методы оптимизации включают создание пользовательских фонетических транскрипций «проблемных слов», использование n-best результатов для решения проблемы «похожих слов», использование системных параметров VXML для тонкой настройки работы системы и устранение операций, использующих большие мощности процессора (например предварительная компиляция грамматик).

Кроме того, в рамках работ по выявлению методов оптимизации, было произведено исследование системного параметра - уверенность распознавания (score, confidence level), результаты которого приведены на рис.10. Параметр

score характеризует, насколько система уверена в том, что слово распознано правильно, и описывается значением от 0 до 100.

Уверенность распознавания (Score, Confidence Level), от 0 до 100 Рис.10 Распределение системного параметра Score

Данные распределения показывают, что характер распознавания главным образом описывается следующим образом: система либо с большой вероятностью уверена в положительном результате распознавания, либо вероятность распознавания крайне низка. Об этом свидетельствует узость пиков в районе максимумов. При этом для удаленного абонента наблюдается расплывание пика, вызванное снижением качества передачи голосового трафика от абонента к системе.

Четвертая глава посвящена моделированию работы речевых приложений, а также экономическому анализу, доказывающему целесообразность использования голосовых порталов на предприятиях.

В главе освещен системный подход к моделированию информационных систем и рассмотрена аналитическая модель речевых диалогов. Целью построения аналитической модели для различных стратегий диалогов является получение математического аппарата для принятия решений об использовании той или иной стратегии при построении речевых диалогов.

В аналитических моделях рассмотрено три сценария речевых диалогов - с неограниченными повторами, с ограниченными повторами и с установкой порога распознавания. Определены области применимости этих стратегий, а также плюсы и минусы их использования.

Будем считать, что поведение системы распознавания описывается случайной величиной R, которая представляет собой вероятность распознавания,

0< R< 1. Пусть функция плотности вероятности этой величины Jr(г) — 0, а

функция распределения FR (г) .

Интересующими нас величинами будут:

—Р - среднее число повторений для шага, и ее дисперсия а;

— Р- вероятность успешного завершения диалога.

Стратегия 1-е неограниченными повторами.

В данной стратегии пользователь на каждом шаге подтверждает введенные данные. Если подтверждение полученное от пользователя положительное, диалог переходит к следующему шагу, если отрицательное, пользователь заново проходит шаг. Количество попыток при этом неограниченно. Предполагается что вероятность распознавания подтверждения ("Да, нет") равна 100%. Кроме того, предполагается что порог распознавания, т.е. порог системного параметра score, при котором система выдает результат, установлен нулевым, что означает что даже если score очень мал, система все равно выдаст результат.

Далее рассмотрим отдельный шаг диалога. Вероятность того, что система успешно распознает произносимое пользователем значение с первого раза, равна

г, со второго раза равна (1 >")г, с ' -го раза равна (1 — ' . В данной стратегии успех в конечном итоге наступит независимо от вероятности г, а распределение вероятностей получения успеха на шаге п выглядит следующим образом:

г(п) = (1-г)пАг <1Л>

Т.к. [1.1] это геометрическое распределение, то среднее значение и дисперсия числа шагов, нужных для успеха, будут следующими:

1 (1-2) г

2 \~Г (1-3)

Г

Используя формулу полной вероятности, для распределения вероятности распознавания с плотностью /ц (г) получим следующие результаты для ^ и а:

(1.4)

' г

VI

Мх = \-/(г)с1г, ог

=(¡^/(г)*)- {\-mdrf.

о

0 г ог

Стратегия 2-е ограниченными повторами.

Данная стратегия в целом повторяет Стратегию 1, за исключением того, что количество повторов в ней ограничено параметром т.

Аналогично рассуждениям, приведенным для стратегии 1, получим следующие результаты для :

\г(\-г)"-\ 1 <п<1 (2л>

1 (1 -г)т-\ п — т

Таким образом, получим следующие результаты для ^ и с:

1-(1 -гТ <2-2>

Мг=-

г

2 1 - г + (1 - 2m)r(\ - r)m - (1 - r)2m <2-3)

о: =

2 ~ 2 Г

Для заданного распределения /ц (г) получим следующие результаты для ^ и а.

уд — 0-гТ , ,,. (2-4)

м2 = I—-——

» г

1

2 г2 - г + r(l - r)m - 2rm(\ - r)m - 2(1 — г)

<*l = I-----г^-----—fR(r)dr

о г

/fl-(l-r)" , ( w ~(J-JR(r)dr) .

0 r

Кроме того, добавится ограничение на максимальное число повторений m и вероятность успеха. Если мы задаем вероятность успешного завершения шага

диалога Pq , то возникает минимальное ограничение на m. Действительно,

вероятность успешного завершения диалога на шаге m равна:

-Р = 1 — (1 — г) >Р0, откуда находим минимальное значение для m :

ln(l-r)

Стратегия 3-е установкой порога распознавания.

В данной стратегии мы будем учитывать confidence level, или уверенность распознавания, выраженную в неком показателе score, выдаваемом системой. Мы будем считать что confidence level, или score, представлен случайной

(2.5)

величиной X с плотностью распределения fx (-*■) — 0. Кроме того, нашим предположением будет связь между этой случайной величиной и вероятностью

распознавания R, т.е. будем считать что Р = 8 С^О . В данной стратегии также не будет использоваться подтверждение от пользователя, т.е. если confidence level больше некоего порога t, будем считать что распознавание прошло успешно, если меньше, то неуспешно и шаг повторяется заново.

Выделим следующие события, и рассчитаем для них вероятности:

(1) Система распознала правильно,

(2) Система распознала неправильно,

(3) Система не распознала правильно,

(4) Система не распознала неправильно. Вероятности для этих событий будут следующими:

|g(x), X > t (3-D

О, x<t

(3.2)

(3.3)

(3.4)

Учитывая распределения, получим следующие формулы:

1 (3.5)

Рх = j g{x)fx(x)dx, t

1 I (3.6)

P2 = J(1 - g(x))fx (x)clx = 1 - \f{x)dx - Px,

I

(3.7)

V V (3-8)

р4 = ¡0 - 8(х))/х {х)<Ь = \/{х)ск - Ръ,

о о

где

V (3.9)

¡/(х)ск = Рх(0.

о

Таким образом, получим следующие результаты для вероятности успешного завершения шага, вероятности неуспешного завершения шага и вероятности переспроса:

(1) Успешное завершение: ]

(3.10)

(2) Неуспешное завершение: 1

Р„у = |(1 - ё(х))/х (*)<& = 1 -F.it)-Ри

(3.11)

(3) Переспрос:

Вероятность успешного завершения шага на п-й попытке:

Р = Р"'1 Р (3.13)

1 У!п ГППГУ

Таким образом полная вероятность успешного завершения шага диалога будет следующей:

V (ЗЛ4)

р =У р — р У рк~1 =__= 1_•

Г ¿^ ГУ1к ГУ2_,ГПП . р . „ (Л

к=1 к=\ 1~ГПП 1~ГХ\1)

Для Р и а получим следующие результаты: 1

М =

1-^(0

(3.15)

(3.16)

О-рх«)У

На рис.11 приведена зависимость вероятности успешного завершения шага от вероятности распознавания г для стратегий 1 и 2. Для стратегии 3 приведена зависимость от порога распознавания ^.

Вероятность распознавания (т1. т2), порог распознавания (тЗ) Р2(г,К), N - мак. чншз повторений

Рис.11 Зависимость вероятности успешного завершения от вероятности распознавания (сценарии 1,2), порога распознавания (сценарий 3)

На рис.12 приведена зависимость среднего числа повторений от

вероятности распознавания г для стратегий 1 и 2. Для стратегии 3 приведена

зависимость от порога распознавания (.

та к

а, О

2 1.8 1 1 1 1 \м!М - ¿(г.фЧ 11/1 Vзм

МВД «г.З) '"'Х

р2(г.4)1.6 /

М2(г,3)

М2(г,2) М 14 '"'м2(г,2).__ "'"'^Ч. ^ /

1.2 1 1. 1 I- 1— ---Г 1 1 1

05

0.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

Вероятность распознавания (т1, т2), порог распознавания (тЗ) т2(г,К), К - макс, число по его рений

Рис. 12 Зависимость среднего числа повторений от вероятности распознавания (сценарии 1,2), порога распознавания (сценарий 3)

На основе полученных результатов можно сделать следующие выводы:

-Стратегия с неограниченными повторами дает гарантированный результат даже при низких вероятностях распознавания, за счет большего числа повторений. Например, при вероятности распознавания в 50% среднее число повторений будет равно 2, что в реальной промышленной системе не может быть допустимо. -Стратегия с ограниченными повторами не даёт 100% гарантии завершения диалога. Например, вероятность успешного завершения диалога при 50-процентной вероятности распознавания, с порогом в 2 повтора (т=2) будет 75%, с порогом в 3 (ш=3) будет 87,5%, а с порогом в 4 (ш=4) будет 94%. Плюсом данной стратегии является возможность отсечения повторов определенным порогом, что избавит пользователя от утомительных переспросов. -Стратегия с установкой порога распознавания позволяет гибко управлять требуемой вероятностью успешного завершения за счет увеличения устанавливаемого порога. Например, при гауссовском распределении

вероятности распознаванияг ~ ~ , если устанавливаемый порог будет

' , вероятность успешного завершения шага будет примерно равна

вероятности распознавания, т.е. за среднее число повторений . При

/ = 09

установке порогового значения больше этого значения, например при '

вероятность распознавания увеличится до 0,918 ^ но за счет Среднег0 количества

повторений, которое станет равным 6. Кроме того, данная стратегия не требует подтверждения от пользователя введенного значения, т.е. система сама принимает решение на основе значения confidence level.

В промышленных системах все перечисленные стратегии могут находить себе применение, а наиболее перспективным будет подход, в котором на различных этапах диалога применяется та или иная стратегия.

Помимо моделирования систем, был проведен сравнительный экономический анализ, позволяющий сделать расчет экономической эффективности внедрения голосовых систем самообслуживания с распознаванием речи. В основе анализа лежит расчет капитальных затрат на создание системы и операционных издержек. Исходные данные основаны на рыночных ценах на услуги в г.Москве и Московской области. Цены на оборудование и ПО, а также затраты на техническую поддержку рассчитывались для решений, основанных на продуктах ведущих мировых производителей контакт-центров, систем IVR, голосовых порталов, систем распознавания речи, телефонной инфраструктуры и инфраструктуры передачи данных.

На рис.13 приведена зависимость стоимости минуты разговора от объема поступающих звонков в час. Для расчета принято, что оператор имеет загрузку 90% (т.е. лишь 10% времени оператор не обрабатывает вызов). Кроме того, в оценке учтены как капитальные затраты, так и операционные издержки. Капитальные затраты при этом разбиваются на 3 года - ожидаемый срок возврата инвестиций.

Объем звонков в час

Рис.13. Зависимость себестоимости минуты разговора от объема звонков в час Результат моделирования показал, что для российских условий средняя стоимость минуты разговора с системой речевого самообслуживания в 3,5 - 5,5 раз ниже по сравнению со стоимостью минуты разговора в контакт-центре, что в совокупности с дальнейшим ростом расходов на живых операторов и на аренду помещения обеспечит привлекательность данных технологий для широкого спектра предприятий.

Заключение содержит основные результаты приведенных исследований и выполненной работы.

В Приложениях 1. 2 и 3 описана логика работы и Voice XML сценарии приложения Аэрофлот-Инфо, использующего для своей работы публичный web-сервис компании «Аэрофлот - российские авиалинии». Кроме того, описаны разработанные дополнительные диалоги и грамматики для распознавания цифр, дат и городов, а также конкатенации результирующих голосовых подсказок.

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ

1. Проведен анализ возможностей современных контакт-центров и предложена новая архитектура построения систем речевого самообслуживания, позволяющая решить проблему использования web-сервисов Интернет в речевых приложениях.

2. Разработана и проверена на практике схема построения речевых порталов, позволяющая разделять доступ к дорогостоящим ресурсам, таким как система распознавания речи, и таким образом сокращать расходы на аппаратную часть.

3. Впервые в России реализована система интерактивного речевого самообслуживания на базе стандарта Voice XML с использованием системы распознавания русской речи и созданы экспериментальные голосовые приложения Аэрофлот-Инфо и Голосовой Портал Центробанк, использующие web-сервисы для получения данных в режиме реального времени.

4. Предложена методология и разработана методика аналитического расчета длительности и вероятности успешного завершения диалога для различных стратегий диалогов.

5. Разработаны новые методы управления речевыми диалогами, позволяющие увеличивать вероятность успешного завершения диалогов и сокращать их длительность. Методы основаны на написании пользовательских фонетических транскрипций и динамическому управлению диалогом, в частности решены задачи «проблемных» слов и похожих слов.

6. Показана эффективность применения разработанных технологий на реальных примерах.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Основные положения и результаты диссертационной работы отражены в следующих публикациях:

1. Troshchenko A., Farkhadov M., Web-Service enabled Voice Applications and Dialogue optimization techniques / Proceedings of XII International Conférence "Speech and Computer (SPECOM'2007)". Moscow., 2007. P. 766-771.

2. Жожикашвили B.A., Трощенко А.Ю., Петухова H.B., Фархадов М.П., Автоматизация контакт-центров на основе речевых технологий и web-сервисов /

Материалы конференции «Высокие технологии XXI века». VIII международный форум. М.: 2007: стр. 310-314.

3. Жожикашвили В.А., Петухова Н.В., Трощенко А.Ю., Фархадов М.П., Автоматические информационные транспортные системы на основе речевых технологий и web-сервисов: Тезисы докладов Первой международной конференции «Управление развитием крупномасштабных систем MLSD'2007», M.: ИПУ РАН, 2007. стр. 125-126.

4. Жожикашвили В.А., Трощенко А.Ю., Петухова Н.В., Фархадов М.П., Архитектура и тенденции развития контакт-центров. / Автоматизация и современные технологии. 2007. №4. Стр. 19-31.

5. Фархадов М.П., Петухова Н.В., Трощенко А.Ю., Голосовые услуги с использованием речевых технологий и интернет-сервисов. Труды конференции "Интеллектуальные услуги в телефонных сетях. Рынок VAS. Технологии и бизнес". Виноградово., 2007. Стр. 6-9.

6. Жожикашвили В.А., Билик Р.В., Трощенко А.Ю., Петухова Н.В., Фархадов М.П., Интеграция систем массового обслуживания на основе речевых технологий и web-сервисов. / Проблемы управления. 2007. № 3. Стр. 54-58.

7. N. Petukhova, M. Farkhadov, A. Troshchenko "Multichannel Interactive Speech Self-Service Systems" // Selected Lectures on Multiple Access and Queuing Systems (revised selected papers from MACOM-2008), SUAI, Saint-Petersburg, Russia, 2008, pp. 108-113.

8. Петухова H.B., Фархадов М.П., Трощенко А.Ю. Анализ эффективности голосовой системы самообслуживания с распознаванием речи / Автоматизация и современные технологии. 2008. № 10. Стр. 21-27.

Личный вклад в работы. В работах [2,3,5,6] автору принадлежит идея использования web-сервисов при построении речевых приложений, в работах [4,7] автором предложена архитектура контакт-центров следующего поколения, в [1] автор разработал и описал действующую систему Аэрофлот-Инфо, в [8] автору принадлежит идея и разработка экономической модели са11-центра и голосовой системы самообслуживания.

Отпечатано в типографии «Остроумов и 29.И.2008г„ 1,75 усл. п. л. Заказ № 512 тираж 100 экз.

Оглавление автор диссертации — кандидата технических наук Трощенко, Алексей Юрьевич

ВВЕДЕНИЕ,

1 ГЛАВА. АНАЛИЗ ТЕЛЕФОННЫХ АВТОМАТИЗИРОВАННЫХ СИСТЕМ МАССОВОГО ОБСЛУЖИВАНИЯ.

1.1 Классификация и история развития телефонных АСМО.

1.2 Call и контакт-центры.

1.2.1 Типовая архитектура.

1.2.2 Функциональные возможности.

1.2.3 Голосовой портал как часть контакт-центра.

1.3 Речевые технологии.

1.3.1 Дикторонезависимое распознавание речи.

1.3.2 Синтез слитной речи.

1.4 технологии использования данных в голосовых приложениях.

1.4.1 Стандартные технологии закрытых систем.

1.4.2 Технологии SOA, XML и web-сврвисы.

1.5 голосовые порталы.

1.5.1 Типовая архитектура.

1.5.2 Технологии построения голосовых приложений - VXML, CXML и другие стандарты.

1.5.3 Преимущества и ограничения современных голосовых порталов.

1.6 Выводы к Главе 1.

2 ГЛАВА. РАЗРАБОТКА СИСТЕМЫ ИНТЕРАКТИВНОГО РЕЧЕВОГО САМООБСЛУЖИВАНИЯ С РАСПРЕДЕЛЕННЫМИ РЕСУРСАМИ.

2.1 Функциональная модель системы.

2.2 Поиск технологических решений по реализации системы.

2.3 Типовая архитектура голосового портала на базе VXML.

2.4 Технологическая архитектура системы АСИРО.

2.4.1 Система IP телефонии.

2.4.2 Система интерактивного речевого взаимодействия — IVR.

2.4.3 Система голосового портала—Application Voice Portal.

2.4.4 Система распознавания речи.

2.4.5 Система синтеза речи.

2.5 Процедурные алгоритмы системы.

2.6 Использование распределенных ресурсов для работы системы.

2.7 Выводы к Главе 2.

3 ГЛАВА. РАЗРАБОТКА ИНТЕЛЛЕКТУАЛЬНЫХ ГОЛОСОВЫХ ПРИЛОЖЕНИЙ И ИХ ОПТИМИЗАЦИЯ.

3.1 Классификация голосовых приложений.

3.1.1 Направленный диалог.

3.1.2 Смешанный диалог.

3.1.3 Естественный диалог.

3.2 Этапы создания интеллектуальных голосовых приложений.

3.2.1 Постановка задачи.

3.2.2 Дизайн.

3.2.3 Реализация.

3.3 Создание интеллектуального голосового приложения на примере «Аэрофлот-Инфо».

3.3.1 Постановка задачи и дизайн.

3.3.2 Состав приложения.

3.3.3 Используемые web-сврвисы.

3.4 Описание применяемых инновационных методов, алгоритмов и технологий.

3.5 Методы оптимизации голосового приложения.

3.5.1 Системные методы оптимизации.

3.5.2 Алгоритмические методы оптимизации.

3.6 Дальнейшие шаги развития голосовых приложений.

3.7 Выводы к Главе 3.

4 ГЛАВА. МОДЕЛИРОВАНИЕ РЕЧЕВЫХ ДИАЛОГОВ.

4.1 подходы к моделированию.

4.2 Цель построения модели.ill

4.3 Аналитическая модель диалогов в голосовых приложениях.

4.3.1 Стратегия 1-е неограниченными повторами.

4.3.2 Стратегия 2-е ограниченными повторами.

4.3.3 Стратегия 3 — с установкой порога распознавания.

4.3.4 А нализ приведенных стратегий.

4.4 Сравнительный экономический анализ.

4.4.1 Предварительная информация.

4.4.2 Корпоративный call-центр.

4.4.3 Аутсорсинг услуг саП-центра.

4.4.4 Голосовая система самообслуживания.

4.4.5 Результаты экономического анализа.

4.5 Выводы к Главе 4.

Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Трощенко, Алексей Юрьевич

Одним из классов автоматизированных систем массового обслуживания (АСМО) являются системы обслуживания по телефону, такие как контакт-центры и системы интерактивного речевого самообслуживания, или голосовые порталы. Эти системы эффективно используются в самых разных отраслях, таких как финансовый сектор и страхование, телекоммуникации, розничные сети, государственные организации, туризм и транспорт, здравоохранение и другие [1]. В то время, как контакт-центры уже получили широкое распространение в нашей стране, использование речевых порталов еще только набирает обороты.

Основной задачей обозначенных систем является предоставление услуг, или сервисов через телефонный канал связи. На сегодняшний день существует множество информационных сервисов, доступных массовому пользователю через различные интерфейсы. Под интерфейсом при этом мы понимаем правила взаимодействия информационной (операционной) системы с пользователем [2]. Примерами таких интерфейсов могут служить компьютерные программы, такие как \уеЬ-браузер, интерфейс командной строки, либо специализированные интерфейсы, такие как терминал банкомата или информационный киоск. В голосовых порталах, интерфейсом взаимодействия человека с информационной системой является речь или в более частном случае - телефонный диалог. Таким образом, автоматизированные системы массового обслуживания по телефону предназначены для предоставления аналогичных компьютерным системам услуг, но через телефонный канал взаимодействия.

Если говорить о предоставлении услуг по телефону, то их можно разделить на два основных класса [3] - автоматизированные услуги и услуги с помощью операторских центров, или са11-центров. В случае са11-центров, абонент общается с живым оператором, который в свою очередь взаимодействует с необходимыми информационными системами посредством ПК и прикладных программ.

В случае автоматизированных услуг, абонент общается с системой напрямую. При этом, до недавнего времени, в качестве интерфейса взаимодействия использовался только тоновый набор, т.е. абонент выслушивал предлагаемые варианты выбора, и при помощи DTMF набора осуществлял ввод информации со своей стороны. Очевидно, такая схема не оставляла возможности реализовать целый класс приложений, таких как справка о расписании поездов или поиск ближайшего магазина. Действительно, представляется невозможным осуществить выбор города отправления и города назначения, пользуясь исключительно тоновым набором. Поэтому, появление технологий дикторонезависимого распознавания речи дало возможность решению нового пласта задач и появлению первых таких систем в России [4].

С другой стороны, постепенный процесс стандартизации во всей ИТ индустрии стал приводить к появлению унифицированных механизмов взаимодействия между информационными системами, независимо от того, какие операционные системы, серверы приложений и языки программирования они используют. Так возникла методология, которая теперь называется Сервисно-Ориентированная Архитектура [5], и базируется на стандартах web-сервисов и XML. Границей раздела в этом случае служат уже не протоколы взаимодействия, а бизнес-функции, выполняемые тем или иным web-сервисом, запрос и ответ формируются в формате XML, а протоколом, регулирующим взаимодействие является SOAP.

Необходимо также отметить и экономический эффект от использования данного класса систем. По статистике, средняя стоимость разговора, обрабатываемого в call-центре США, составляет порядка 5$, в то время как обработка разговора в системе речевого самообслуживания обходится в 0,50$, т.е. в 10 раз меньше [6, 7]. В эти оценки включаются такие расходы как зарплата персонала, аренда помещений, расходы на телекоммуникации, программно-аппаратные комплексы. Для российского рынка наши оценки показали, что стоимость звонка для системы самообслуживания в 3,5 - 5,5 раз ниже, чем в cali-центре [8]. Таким образом, данные системы позволяют существенно сократить издержки по сравнению с традиционным подходом, оставляя при этом качество обслуживания абонентов на должном уровне.

Прогресс в области компьютеро-телефонной интеграции, распознавания речи и появление стандартизированных технологий web сервисов с одной стороны, и требования рынка по оптимизации затрат на обработку вызовов с другой, представляют собой главные причины возникшего интереса к построению систем интерактивного речевого самообслуживания, в частности голосовых порталов с распределенными ресурсами.

Всё вышесказанное свидетельствует об актуальности и новизне вопросов, связанных с усовершенствованием голосовых порталов, или систем интерактивного речевого обслуживания по телефону с распознаванием речи.

Актуальность темы диссертации. Автоматизированные телефонные системы интерактивного речевого самообслуживания существенно снижают стоимость предоставления информации телефонным абонентам. Традиционным способом предоставления информации по телефону в настоящее время является центр обработки вызовов, или контакт-центр, где работают живые операторы. Такая модель работы не является эффективной при решении однотипных задач предоставления информации. Альтернативой традиционному способу является создание полностью или частично автоматических интеллектуальных речевых приложений, которые заменят всех или часть живых операторов.

Современные методы построения систем интерактивного речевого взаимодействия ограничены использованием тонового набора и работой с локальными данными, посредством доступа к базам данных. Для создания же систем, которые смогут заменить живого оператора, необходимо, во-первых, использовать дикторонезависимое распознавание речи и синтез речи, вовторых, научиться работать с удаленными данными, такими как \¥еЬ-сервисы, доступные в сети Интернет. Использование распознавания русской речи успешно апробировано российскими исследователями, в том числе и в лаборатории систем массового обслуживания ИПУ РАН, однако вопросы интеграции речевого взаимодействия с \¥еЬ-сервисами оставались открытыми. В частности, отсутствовали системы и методы, необходимые для построения таких речевых приложений, которые бы могли использовать шеЬ-сервнсы для ведения диалогов с абонентом в режиме реального времени.

Автоматизированная система интерактивного речевого обслуживания создана для решения важной народнохозяйственной задачи автоматизации процесса предоставления информации, полученной при помощи \уеЬ-сервисов по телефону.

Цель работы. Целью работы является исследование и разработка системы интерактивного речевого. самообслуживания с дикторонезависимым распознаванием речи и доступом к удаленным ресурсам посредством \veb-сервисов, для повышения эффективности обслуживания по телефону. Особое внимание в работе уделено следующим проблемам: анализу проблем и ограничений современных телефонных систем речевого самообслуживания; разработке интерфейсов работы системы интерактивного речевого взаимодействия с шеЬ-сервисами; аналитическому расчету длительности и вероятности успешного завершения диалога для различных сценариев их построения; методам повышения вероятности успешного завершения диалогов; созданию действующей системы интерактивного речевого самообслуживания с распределенной структурой.

Методы исследования. В диссертационной работе применены методы теории массового обслуживания, теории вероятностей.

Научная новизна. В результате проведенных исследований, анализа и обобщения опыта создания интеллектуальных речевых приложений получены следующие новые научные результаты:

- разработана и исследована архитектура автоматизированной системы интерактивного речевого взаимодействия с распознаванием речи на основе стандартов СОА (сервисно-ориентированная архитектура), позволяющая работать с web-сервисами сети Интернет;

- разработана действующая система и исследованы возможности её работы с географически распределенными компонентами;

- созданы первые в России образцы интеллектуальных речевых приложений с дикторонезависимым распознаванием речи и доступом к удаленным данным посредством web-сервисов - «Аэрофлот-Инфо» и «Голосовой Портал Центробанк»;

- проведены аналитические расчеты длительности и вероятности успешного завершения диалогов для различных сценариев их построения, позволяющие принимать решение об использовании той или иной стратегии в различных ситуациях.

Практическая ценность и реализация результатов работы. Разработанная Автоматизированная Система Интерактивного Речевого Обслуживания позволяет создавать голосовые приложения, использующие удаленные информационные ресурсы, доступные через web-сервисы по открытому протоколу SOAP (Service Oriented Architecture Protocol), удаленные ресурсы распознавания и синтеза речи, доступные по открытому протоколу MRCP (Media Resource Control Protocol), и удаленную управляющую информацию, выполненную в открытом стандарте VXML (Voice Extensible Markup Language). Данный подход позволяет разделить написание логики приложения (на языке VXML) от сервисов получения удаленных данных (web-сервисы), что дает возможность создавать голосовые сервисы, аналогичные сервисам Интернет.

Разработанная система может быть использована для создания таких голосовых приложений как расписание и бронирование транспортных услуг, службы информационных каталогов, отслеживание статуса заказа в розничных сетях, управление счетом в финансовых структурах, службы напоминаний, различные развлекательные приложения и др.

Разработанные математические модели могут использоваться для анализа и предварительного расчета характеристик речевых диалогов, таких как вероятность успешного завершения и средняя длительность.

Полученные в диссертационной работе результаты внедрены в ЗАО ТАИС, в ООО Регионтранк и в работах ИПУ РАН.

Апробация работы. Основное содержание работы докладывалось и обсуждалось на Международной конференции «Высокие технологии XXI века. VIII Международный форум», 23-26 апреля 2007г., Москва; Первой международной конференции «Управление развитием крупномасштабных систем», MLSD'2007, Москва 1-3 октября, 2007г.; Конференции «Интеллектуальные услуги в телефонных сетях. Рынок VAS. Технологии и бизнес», 24 - 25 апреля 2007, Виноградове; Международной конференции XII International Conference Speech and Computer (SPECOM'2007), 15-18 Октября, 2007г., Москва.

Основные положения, представляемые к защите:

1. Схемы построения речевых порталов с дикторонезависимым распознаванием речи и доступом к данным посредством web-сервисов;

2. Методы решения задач семантического анализа для речевых сервисов, на примере Аэрофлот-Инфо и Голосовой Портал Центробанк;

3. Методы увеличения вероятности успешного завершения речевых диалогов и уменьшения средней длительности диалога;

4. Схема повышения надежности успешного завершения речевого диалога.

Публикации По основным результатам диссертационной работы опубликовано 8 работ, из которых 3 статьи опубликованы в ведущих рецензируемых журналах.

Структура и объем работы. Диссертация состоит из введения, четырех глав с выводами, заключения, списка литературы и приложений. Основная часть работы изложена на 159 страницах и содержит 57 иллюстраций и 18 таблиц с данными.

Заключение диссертация на тему "Система интерактивного речевого самообслуживания с распределенными ресурсами"

4.5 Выводы к Главе 4

1. Моделирование систем является необходимым для сокращения издержек на тестирование системы. Для моделирования различных аспектов поведения системы используется как аналитическое, так и компьютерное моделирование, каждое из которых решает ряд своих задач.

2. Аналитическое моделирование диалоговых структур по трем различным стратегиям: a. Стратегия 1-е неограниченными повторами; b. Стратегия 2-е ограниченными повторами; c. Стратегия 3-е установкой порога распознавания.

Позволяет определить область применимости этих стратегий, а также плюсы и минусы их использования.

3. Экономический эффект от внедрения систем речевого самообслуживания с распознаванием речи позволяет с уверенностью говорить о целесообразности их внедрения. Средняя стоимость минуты разговора с системой речевого самообслуживания в 3,5 - 5,5 раз ниже по сравнению со стоимостью минуты разговора в са11-центре. В США где стоимость рабочей силы выше, этот показатель доходит до 10, т.к. зарплата операторам является основной статьей расходов в са11-центре. Дальнейшее развитие российской экономики приведет к росту зарплат, что сделает внедрение таких систем еще более привлекательным.

5 ЗАКЛЮЧЕНИЕ

1. Проведен анализ возможностей современных контакт-центров и предложена новая архитектура построения систем речевого самообслуживания, позволяющая решить проблему использования web-сервисов Интернет в речевых приложениях.

2. Разработана и проверена на практике схема построения речевых порталов, позволяющая разделять доступ к дорогостоящим ресурсам, таким как система распознавания речи, и таким образом сокращать расходы на аппаратную часть.

3. Впервые в России реализована система интерактивного речевого самообслуживания на базе стандарта Voice XML с использованием системы распознавания русской речи и созданы экспериментальные голосовые приложения Аэрофлот-Инфо и Голосовой Портал Центробанк, использующие web-сервисы для получения данных в режиме реального времени.

4. Предложена методология и разработана методика аналитического расчета длительности и вероятности успешного завершения диалога для различных стратегий диалогов.

5. Разработаны новые методы управления речевыми диалогами, позволяющие увеличивать вероятность успешного завершения диалогов и сокращать их длительность. Методы основаны на написании пользовательских фонетических транскрипций и динамическому управлению диалогом, в частности решены задачи «проблемных» слов и похожих слов.

6. Показана эффективность применения разработанных технологий на реальных примерах.

Библиография Трощенко, Алексей Юрьевич, диссертация по теме Вычислительные машины и системы

1. Росляков A.B., Центры обслуживания вызовов (Call centre). 2002, Москва: Эко-Трендз.

2. Ронжин A.JL, Карпов A.A., Ли И.В., Речевой и многомодальный интерфейсы. 2006, Москва: Наука.

3. Гольдштейн Б.С., Фрейнкман В.А., Call-центры и компьютерная телефония. 2002, Санкт-Петербург: БХВ Санкт-Петербург.

4. Zhozhikashvili V.A., Farkhadov М.Р., Petukhova N.V., Zhozhikashvili A.V., The first voice recognition applications in Russian language for use in the interactive information systems, in SP EC О M 2004. 2004: Санкт-Петербург.

5. Долотин И., Web-cepeucbi миф или реальность? ubs.ru. 2005.

6. An Introductory Guide То Speech Recognition Solutions, Report. Datamonitor, 2006.

7. The Business Case for Speech Recognition. 2000: Nuance Communications.

8. Петухова H.B., Фархадов М.П., Трощенко А.Ю. Анализ эффективности голосовой системы. Автоматизация и современные технологии.2008. №10

9. Росляков A.B., Современное состояние и прогнозы развития центров обслуживания вызовов. Инфосфера, 2001.11.

10. Самолюбова А.Б., Call Center на 100%. 2004, Москва: Альпина Бизнес Букс.

11. Солонин В., Call-центры в современном бизнесе России, 2005 // http://www.cnews.ru/reviews/free/call-center/.

12. Жожикашвили В.А., Трощенко А.Ю., Петухова Н.В., Фархадов М.П., Автоматизация контакт-центров на основе речевых технологий и web-сервисов. Восьмой международный форум «Высокие технологии XXI века», 2007.

13. Жожикашвили В.А., Трощенко А.Ю., Петухова Н.В., Фархадов М.П., Архитектура и тенденции развития контакт-центров. Автоматизация исовременные технологии, 2007. 4.

14. Elliot В., Contact Center Architecture Layers Are Key, , Gartner Research.

15. Зарубин A.A., Call- и контакт-центры Решения российских разработчиков, 2003 // http://niits.ru/public/2003/081 .pdf.

16. Спиряев О., Эволюция операторских центров. Сети и телекоммуникации, 2007. 5.

17. Dahl D.A., 10 Innovative Speech Applications, in Spring SpeechTEK. 2007.

18. Вартанян И.А., Звук-слух-мозг. 1981: Наука.

19. OpenSpeech™ Recognizer, An Intelligent, Scalable, and Comprehensive Speech Recognition Solution from Speech Works, Whitepaper. ScanSoft (Nuance), 2005.

20. Рабинер Д., Гоулд Б., Цифровая обработка речевых сигналов.

21. Rabiner L., Juang В.-Н., Fundamentals of Speech Recognition. 1992, New Jersey: Prentice Hall.

22. ESPRIT E., SA MP A Speech Assessment Methods Phonetic Alphabet, 1980 // http://www.phon.ucl.ac.uk/home/sampa/index.html.

23. Ronzhin A.L., Yusupov R.M., Li I.V., Leontieva А.В., Survey of Russian Speech Recognition Systems, in SPECOM. 2006.

24. Сорокин B.H., Синтез речи. 1992: Наука.

25. W3C, SSML 1.0 Speech Synthesis Markup Language, 2004 // http://www.w3.org/TR/speech-synthesis/.

26. Долотин И., Циюг статей "Технологии web-cepeucoe", 2005 // http://www.ubs.ru/ws/ws basics 1 .html.

27. Ньюкомер Э., Web-сервисы. XML, WSDL, SOAP и UDDI. Для профессионалов. 2003, Санкт-Петербург: Издательский дом «Питер».

28. W3C, Web Services Architecture, 2004 // http://www.w3.org/TR/ws-arch/.

29. Miller D., Analytics and Reporting for Phone-Based Self-Service. Opus Research, 2007.

30. W3C, VXML 2.0 Voice Extensible Markup Language Version, 2004 // http://www.w3.org/TR7voicexml20/.

31. W3C, VXML 2.1 Voice Extensible Markup Language Version, 2007 // http://www.w3 .org/TR/voicexml20/.

32. Уланов Д., Язык голосовой разметки VoiceXML, 2000 // http://www.pcweek.rii/Year2000/N26/CP1251/Strategv/chaptl.htm.

33. SALTFORUM, SALT Speech Application Language Tags, 2002 // http ://www. saltforum. org/.

34. Кейтон M., Новые перспективы построения речевых приложений, 2004 // http://kis.pcweek.ru/Year2004/N36/CP125 l/Strategy/chapt4.htm.

35. Dawson К., Customers Find Speech Recognition Satisfying, www.callcentermagazine.com 2003.

36. Griol D., Torres F., Hurtado L., Grau S., Garcia F., Sanchis E., Segarra E., A dialog system for the DIHANA project, in SPECOM. 2006.

37. Edlund J., Hjalmarsson A., Applications of Distributed Dialogue Systems: the KTH Connector, in ASIDE 2005.

38. Гуриев В., Свобода слова интернет-телефония. Издательский Дом Коммерсантъ, 2006.

39. Башилов Г., IP-телефония для малых и средних. CONNECT! Мир связи, 2004. 9.

40. W3C, SRGS 1.0 Speech Recognition Grammar Specification Version, 2004 // http://www.w3.org/TR/speech-grammar/.

41. W3C, SISR 1.0 Semantic Interpretation for Speech Recognition, 2007 // http://www.w3.org/TR/semantic-interpretation/.

42. W3C, CCXML 1.0-Call Control XML, 2007 // http://www.w3.org/TR/ccxml/.

43. IETF, SIP: Session Initiation Protocol, 2002 // http://www.ietf.org/rfc/rfc3261 .txt.

44. IETF, MRCP: Media Resource Control Protocol, 2006 // http://tools.ietf.org/html/rfc4463.

45. Якубинский JT.П., О диалогической речи. Русская речь, 1923. 1.

46. Chotimongkol A., Dialog Structure for Task-Oriented Conversations. Technical Communications for Engineers, 2003. 76-379.

47. Cohen M.H., Giangola J.P., Balogh J., Voice User Interface Design 2004: Addison Wesley.

48. Beasley R., Farley K.M., O'Reilly J., Squire L.H., Voice Application Development with VoiceXML. 2001: Sams Publishing.

49. Shukla C., Dass A., Gupta V., VoiceXML 2.0 Developer's Guide : Building Professional Voice-enabled Applications with JSP, ASP & Coldfusion. 2002: Osborne.

50. Жожикашвили В.А., Петухова H.В., Фархадов M.П., Компьютерные системы массового обслуживания и речевые технологии. Проблемы Управления, 2006. 2.

51. Трощенко А.Ю., Web-Service enabled Voice Applications and Dialogue optimization techniques. SPECOM, 2007.

52. Жожикашвили B.A., Андрейчук А.Ю., Петухова H.B., Фархадов М.П., Методы повышения устойчивости систем с распознаванием речи и оценка временных параметров речевого интерфейса. Автоматизация и современные технологии, 2005. 10.

53. Jelinek F., Statistical Methods for Speech Recognition (Language, Speech, and Communication). 1998: The MIT Press.

54. Советов Б.Я., Яковлев С.А., Моделирование систем. 3-е изд. 2001 : Высш.шк.

55. Mehrotra V., Fama J., Call Center Simulation Modelling: Methods, Challenges, and opportunities, in Winter Simulation Conference. 2003.

56. Stolletz R., Performance Analysis and Optimization of Inbound Call Centers. 2003: Springer. 7

57. Гнеденко Б.В., Коваленко И.Н., Введение в теорию массовогообслуживания. 2005, Москва: КомКнига.

58. Хинчин А .Я., Работы по математической теории массовогообслуживания. 2004, Москва: Едиториал УРСС.

59. Росляков А.В., Ваняшин С.В., Решодько А.А., Сравнительный анализ математических моделей центров обслуживания вызовов. Электросвязь, 2004. 9.

60. Вавилов А.А., Имитационное моделирование производственных систем. 1983, Берлин: М.: Машиностроение.

61. Louloudis D., Georgila К., Efficient Strategy and Language Modelling in Human-Machine Dialogue, in SPECOM. 2005.

62. Niimi Y., Nishimoto Т., Mathematical analysis of dialogue control strategies, in Eurospeech. 1999.

63. Райзберг Б.А., Лозовский Л.Ш., Стародубцева Е.Б., Современный экономический словарь. 2-е изд. 1999: ИНФРА-М.