автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.15, диссертация на тему:Речевые технологии в автоматизированных системах массового обслуживания
Автореферат диссертации по теме "Речевые технологии в автоматизированных системах массового обслуживания"
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ
ИНСТИТУТ ПРОБЛЕМ УПРАВЛЕНИЯ
им. В.А. ТРАПЕЗНИКОВА РОССИЙСКОЙ АКАДЕМИИ НАУК
005011518
ФАРХАДОВ Маис Паша оглы
РЕЧЕВЫЕ ТЕХНОЛОГИИ В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ МАССОВОГО ОБСЛУЖИВАНИЯ
Специальность 05.13.15 - Вычислительные машины, комплексы и компьютерные сети
АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук
На правах рукописи УДК: 681.3:519.2:519:51-74:004-52
1 С 0ЕЗ 2012
Москва —2012
005011518
Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте проблем управления им. В.А.Трапезникова Российской академии наук
Научный консультант:
доктор технических наук, профессор
Жожикашвили Владимир Александрович
Официальные оппоненты:
доктор технических наук, профессор Трахтенгерц Эдуард Анатольевич
доктор технических наук, доцент Ронжин Андрей Леонидович
доктор технических наук, доцент Шаврин Сергей Сергеевич
Ведущая организация:
Институт проблем передачи информации им. A.A. Харкевича РАН (ИППИ РАН)
Защита состоится 19 марта 2012 г. в 11:00 часов на заседании Диссертационного Совета №3 Д 002.226.03 Института проблем управления им. В.А. Трапезникова РАН по адресу: 117997, Москва, ул. Профсоюзная, 65. Телефон диссертационного совета: (495) 334-93-29.
С диссертацией можно ознакомиться в библиотеке Института проблем управления им. В.А.Трапезникова РАН.
Автореферат разослан «_»
2012 г.
Ученый секретарь Диссертационного Совета кандидат технических наук, с.н.с.
Кулинич Александр Алексеевич
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Диссертационная работа посвящена разработке теоретических основ и выработке практических решений проблемы применения речевых технологий в автоматизированных системах массового обслуживания (АСМО) с целью повышения открытости этих систем и облегчения доступа населения к информации и услугам. Актуальность проблемы доступа людей к информации на переходном этапе продвижения страны и мира к информационному обществу не вызывает сомнений. Быстро развивающиеся информационные и телекоммуникационные технологии проникают во все сектора экономики: в производство, в сферу услуг, в образование, в государственное управление, банковскую сферу, в частный бизнес и др. Наблюдается тенденция к социализации информации - нарастанию количества информации, которая необходима людям в их повседневной жизни. Помимо наличия знаний и информации, для развития информационного общества необходимо создание условий для того, чтобы члены общества имели доступ к информации и могли ее использовать. Бурное развитие технологий обостряет существующую во всем мире проблему информационного неравенства. Для России сложилась ситуация, когда темпы роста информатизации оказались выше, чем темпы развития компьютеризации и коммуникаций. Это привело к обострению проблемы неравного доступа граждан к информации, особенно малообеспеченных людей и населения отдаленных регионов. В качестве одного из средств смягчения этой трудной проблемы в диссертации рассматриваются речевые технологии, достигшие за последние годы достаточно высокого уровня качества и способные обеспечить гражданам дополнительный, а иногда и единственный, канал доступа к информационным и сервисным системам. Создание телефонных сервисов самообслуживания, речевых порталов и речевых браузеров повышает эффективность и открытость АСМО и решает актуальную народнохозяйственную и социальную задачу облегчения доступа населения к информации и услугам и обуславливает важность и необходимость выполнения исследований в данной области.
Цель работы состоит в разработке теоретических основ и практически значимых решений фундаментальных проблем использования речевых технологий в сетевых и телефонных системах массового обслуживания.
Были поставлены и решены следующие задачи:
анализ современного состояния и тенденций развития автоматизированных систем массового обслуживания населения;
- анализ качества функционирования существующих распознавателей речи для создания речевого доступа к АСМО и экспериментальное исследование их свойств;
- разработка эффективного по затратам времени и по результативности речевого человеко-машинного интерфейса к АСМО как разновидности человеко-машинного взаимодействия;
- разработка и реализация метода автоматизированного накопления статистических данных об ошибках распознавания и методов и алгоритмов
коррекции результатов распознавания на основе накопленных данных и знаний об ошибках;
- разработка системы оценок и аналитических моделей для сравнительного анализа и оптимизации сценариев речевого диалога с различными процедурами обнаружения и коррекции ошибок;
- разработка математических моделей для расчета вероятностно-временных характеристик обслуживания вызовов и оптимизации функционирования контакт центров с сервисами самообслуживания на базе речевых технологий;
- внедрение полученных результатов в практических системах с речевым интерфейсом.
Методы исследования. В диссертационной работе применены методы теории систем массового обслуживания, теории вероятностей, математической статистики, математического моделирования, теории цепей Маркова, теории управления.
Научная новизна. Новизна диссертации состоит в том, что впервые разносторонне исследованы русскоязычные речевые технологии, пригодные для организации интерактивного речевого взаимодействия клиентов с системами массового обслуживания, и разработаны теоретические основы и практические решения проблем, относящихся к использованию речевых технологий в АСМО с целью повышения доступности информации и услуг этих систем населению.
К основным научным результатам, полученным в диссертационной работе, относятся:
- выполнен теоретический анализ и экспериментальное исследование характеристик дикторонезависимых распознавателей русской речи с целью определения свойств машинной стороны интерактивного речевого интерфейса. Разработан аппаратно-программный комплекс для автоматизации исследований характеристик распознавателей речи и диалоговых взаимодействий в многоканальном режиме;
- исследован относительно малоизученный и трудный для реализации речевой человеко-машинный интерфейс, разработаны новые методы повышения эффективности диалогового взаимодействия и созданы практические рекомендации для разработчиков речевых приложений АСМО;
- разработаны новые методы и алгоритмы повышения устойчивости и надежности систем массового обслуживания с речевым интерфейсом;
- разработан и программно реализован метод автоматизированного накопления статистических данных об ошибках распознавания речи;
- разработан метод и алгоритм коррекции результатов распознавания на основе использования накопленных данных и знаний об ошибках;
- решена задача определения оптимальной величины порога показателя уверенности распознавателя в предлагаемой гипотезе для вызова процедуры подтверждения, позволяющая своевременно обнаруживать ошибки распознавания и сокращать среднюю продолжительность диалогов;
- разработана классификация сценариев речевого диалога и система вероятностных и временных оценок и аналитических моделей для
сравнительного анализа сценариев с различными процедурами обнаружения и коррекции ошибок. Решена задача выбора оптимального сценария диалога на основе минимизации оценок продолжительности диалога с обеспечением заданной вероятности его успешного завершения;
- разработан комплекс математических моделей для расчета вероятностно-временных характеристик обслуживания заявок и оптимизации функционирования центров обработки вызовов с сервисами самообслуживания на базе речевых технологий.
Практическая ценность. Показана возможность и целесообразность применения речевых технологий в системах массового обслуживания. Разработаны практические рекомендации по речевому человеко-машинному интерфейсу и создана методология проектирования систем с речевыми технологиями. Разработанные принципы, модели и методы применены в первых в России прикладных системах телефонного самообслуживания различного профиля и в системах с нетрадиционным применением речевых технологий: веб приложение «Звуковой тренажер» и система речевого управления электронной картой г. Баку, для которой разработана методика адаптации турецкого языкового пакета для распознавания азербайджанского языка. Созданы универсальные блоки распознавания русской и азербайджанской речи, включающие словари и грамматики, и соответствующая им база аудио-файлов.
Применение результатов работы позволяет существенно расширить круг пользователей систем массового обслуживания, предоставив им удобный дополнительный, а иногда и единственный, канал доступа к услугам этих систем. Это обеспечит новый уровень информационных услуг, предоставляемых населению и организациям в режиме самообслуживания, а также повысит эффективность использования систем массового обслуживания.
Разработанные математические модели, алгоритмы и программы могут быть использованы для дальнейшего развития и совершенствования автоматизированных систем массового обслуживания.
Достоверность. Научные положения, выводы диссертации обоснованы с использованием теории массового обслуживания, теории вероятностей и математической статистики, теоретических основ программирования, а также проверены в процессе вычислительного эксперимента и подтверждены испытаниями на научно-исследовательском полигоне ИПУ РАН, актами внедрений, практическим применением в нескольких компаниях.
Связь с планом. Исследования по теме диссертационной работы проводились в соответствии с плановой тематикой работ Учреждения Российской академии наук Института проблем управления им. В.А. Трапезникова РАН, а также при поддержке РФФИ (гранты 05-08-18075-а, 08-08-01022-а, 09-08-01168-а).
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Международной конференции «Distributed Computer Communication Networks. Theory and Application» (Тель-Авив, 1999 г., София, 2009 г., Москва, 2010 г.); Международной конференции «Математические методы исследования систем и сетей массового
обслуживания» (Минск, 1998 г.); XIV международном симпозиуме по управлению большими системами «CONTROL'2000» (Тбилиси, 2000 г.); 8-ой Международной конференции «Проблемы управления безопасностью сложных систем» (Москва, 2000 г.); 16-ой Белорусской школе по теории массового обслуживания (Минск, 2001 г.); 9-ой Международной конференции «Речь и компьютер» (SPECOM'2004) (Санкт-Петербург, 2004 г.); Научной сессии Отделения информационных технологий и вычислительных систем РАН «Распознавание речи» (Москва, 2003 г.); II, III, IV Конференциях «Интеллектуальные услуги в телефонных сетях. Мобильный контент. Технологии и бизнес» (Виноградово, 2005 г., 2006 г., 2007 г.); IV, V, VIII, IX, X Международных форумах «Высокие технологии XXI века» (Москва, 2004 г., 2005 г., 2007 г., 2008 г., 2010 г.); Международной научной конференции «Проблемы кибернетики и информатики» (Баку, 2006 г.); Научно-практической конференции «Современные технические и программные средства обеспечения АСУ и АСУ ТП» (Москва, 2005 г.); Конференции «Перспективы развития робототехники для экстремальных ситуаций» (Москва, 2006 г.); Конференции «ИНФОТЕХ-2007» (Севастополь. 2007 г.); XII International Conference Speech and Computer (SPECOM'2007) (2007, Москва); International Workshop on Multiple Access and Queuing Systems MACOM-2008 (Saint-Petersburg, 2008); International Conference «Problems of Cybernetics and Informatics», 2008, 2010 Baku; I, II и III Международных конференциях «Управление развитием крупномасштабных систем MLSD», (Москва, 2007 г., 2008 г., 2010 г.); Российской конференции с международным участием «Технические и программные средства систем управления, контроля и измерения» (Москва, 2008 г., 2010 г.); IV Международной конференции по проблемам управления (МКПУ-IV) (Москва, 2009 г.); Международной конференции «Современные математические методы анализа и оптимизации информационно-телекоммуникационных сетей» BWWQT-2009 (Минск, 2009 г.), IX Международной конференции по финансово-актуарной математике и эвентоконвергенции технологий, Красноярск, 2010.
Результаты работы демонстрировались на 12 выставках (2003-2011 гг.) и неоднократно награждались медалями и дипломами.
Публикации. Результаты проведенных автором научных исследований опубликованы в 53 работах, среди которых 19 статей в ведущих рецензируемых журналах из списка ВАК России и 4 монографии.
Структура и объем работы. Диссертационная работа состоит из введения, 6 глав, заключения и приложения и содержит 324 страниц машинописного текста, включая 65 рисунков, 17 таблиц, а также список литературы (238 наименований).
СОДЕРЖАНИЕ ДИССЕРТАЦИИ
Во введении обоснована важность и актуальность темы диссертации, ее новизна, сформулированы цели исследований и основные задачи, которые необходимо решить для их достижения, определена практическая ценность и кратко излагаются основные результаты работы.
В первой главе проанализированы тенденции развития систем массового обслуживания населения с позиций повышения доступности информации и услуг широким слоям населения в условиях формирования информационного общества и рассмотрены современные речевые технологии как инструмент для создания новых интерфейсов к информационным и сервисным системам.
Анализируются два класса систем массового обслуживания населения: сетевые и телефонные. Сетевые системы обслуживания прошли эволюцию от моноцентральных систем бронирования мест с корпоративной сетью и специализированными терминалами до современных информационных порталов и интернет-магазинов с веб доступом к ним с компьютеров разного типа. Анализируя эволюцию сетевых систем, можно заметить, что с точки зрения населения наиболее важным моментом явилось исключение из цепочки «конечный потребитель» - «посредник» - «система» среднего звена -посредника и предоставление конечному потребителю возможности получения данных и услуг в режиме самообслуживания. Этот режим стал настолько популярен, что провайдеры информации и услуг начали сокращать число агентов-посредников, что стало затруднять доступ к системам той части населения, которая компьютеров не имеет или не имеет доступа в сеть, а это, как правило, наиболее бедная часть населения: пожилые люди, инвалиды, жители отдаленных регионов.
Телефонные системы обслуживания являются традиционным средством предоставления информации населению по телефону. Они также прошли путь от автоматизированных телефонных станций с простейшими механизмами распределения вызовов между операторами до современных контакт-центров, обслуживающих разнотипные вызовы и имеющих сложную систему контроля и управления работой персонала. Анализируя эволюцию телефонных систем обслуживания вызовов, можно отметить, что с точки зрения пользователя безусловным новшеством стало внедрение интерактивного голосового ответа (IVR - Interactive Voice Response) для автоматизации функций донесения абонентам ответов на часто задаваемые вопросы, позволившее получать часть информации в режиме самообслуживания, без участия оператора. Получение информации через автомат должно обходиться пользователю дешевле, что также может быть привлекательным для населения, особенно для беднейшего.
Дальнейшее расширение возможностей получения информации и услуг в режиме самообслуживания лежит на пути использования речевых технологий. Выполнен анализ современных речевых технологий и показаны области их применения. На Западе телефонные сервисы самообслуживания на базе речевых технологий получили довольно широкое распространение, и этот рынок успешно развивается. Так, по данным компании ВСС Research, специализирующейся на исследовании рынков и прогнозе успешности внедрения новых технологий [http://www.bccresearch.com], рынок технологии распознавания речи будет ежегодно расти на 8,8% между 2010 и 2015 годом. Объем рынка в 2015 году оценивается в 58,4 миллиардов долларов США.
В нашей стране речевые технологии до сих пор не получили широкого распространения. Наиболее существенными причинами для объяснения такого
отставания является отсутствие на рынке вплоть до последнего времени надежных распознавателей для русского языка и низкое качество передачи речи в телефонных сетях старого поколения. Не последнюю роль играет также недоверие потенциальных потребителей систем с распознаванием речи к новой технологии, которое объясняется опасением, что ошибки распознавания будут вызывать раздражение клиентов и нанесут вред имиджу компании.
Однако ситуация к настоящему времени существенно изменилась. Появились доступные для приобретения и использования русскоязычные распознаватели компаний Nuance, США, [http://nuance.com] и Loguendo, Италия, [http://loguendo.com], находятся на стадии тестирования продукты отечественных компаний Vocative [http://vocative.ru] и «Центр речевых технологий» [http://www.speechpro.ru/technologies/recognition]. Качество передачи речи по сети также улучшилось благодаря изменениям в сетевой инфраструктуре: происходит модернизация магистральных сетей, внедряются цифровые технологии, оптические кабели, высокоскоростной цифровой абонентский доступ. Надежность распознавателей заметно повышается.
Таким образом, при современных тенденциях в развитии коммуникационной техники и речевых технологий в нашей стране и при возрастании значимости доступа к информационным ресурсам и сервисам условия для использования речевых технологий для доступа населения к системам массового обслуживания населения имеются. Предлагаемые решения предоставят населению возможность более широко использовать телефон для получения информации и услуг. Эти решения могут использоваться как в сетевых информационных системах, дополняя традиционный Интернет браузер голосовым браузером, так и в центрах телефонного обслуживания, значительно расширяя функции IVR. Сервисы самообслуживания дешевле, чем услуги операторов, они могут функционировать круглосуточно и на разных языках. Помимо этого, услуги и данные могут быть предоставлены комплексно, из разных систем, путем организации интеллектуального диалога с сервером самообслуживания и взаимодействия этого сервера с разнообразными прикладными системами, что также выгодно и удобно для пользователей. Одновременно, поставщики услуг, контакт центры и контент провайдеры могут повысить свою эффективность путем внедрения у себя сервисов самообслуживания, что позволит им сократить число операторов, сгладить пиковые нагрузки, снизить расходы на организацию инфраструктуры.
Отдельную область применений речевых технологий составляют нужды людей с ограниченными возможностями. Для таких людей речевые технологии позволяют создать сервисы, которые помогут им получать информацию, образование, профессиональные знания и успешно включаться в общественную и трудовую жизнь.
При внедрении речевых технологий приходится сталкиваться с целым рядом все еще нерешенных проблем, суть которых определяется спецификой самих речевых технологий и психофизиологическими особенностями человека, вступающего во взаимодействие с ними. Наиболее общий характер имеют проблемы, относящиеся к построению эффективного речевого человеко-
машинного интерфейса, проблемы, связанные с повышением устойчивости систем с речевым интерфейсом к ошибкам распознавания и задачи оптимизации сценария диалога при различных вариантах организации процедур выявления и коррекции ошибок. Другую группу новых задач образуют задачи разработки математических моделей для расчета характеристик обслуживания заявок в центрах обслуживания вызовов, где речевые технологии применяются для организации функций самообслуживания, и задачи оптимизации функционирования таких центров. По всем этим вопросам был выполнен обзор публикаций, который позволил выявить современное состояние исследований в данных областях, показал актуальность перечисленных проблем и позволил конкретизировать задачи диссертации. При разработке принципов и методов создания эффективного речевого интерфейса эта конкретизация выразилась в объединении знаний из области компьютерного распознавания речи, когнитивной психологии и лингвистики, в экспериментальном изучении характеристик распознавателей и в применении теоретических знаний и практического опыта для создания рекомендаций по дизайну речевого интерфейса. Этим вопросам посвящена вторая глава диссертации. Проблема ошибок распознавания является одной из самых обсуждаемых в литературе по компьютерному распознаванию речи. В диссертации сделан акцент на решение задач, связанных с предотвращением ошибок, с их своевременным обнаружением и способах коррекции. Разработан и реализован метод автоматического накопления статистических данных об ошибках распознавания и алгоритм использования знаний об ошибках для повышения вероятности правильного распознавания, описанные в третьей главе. Решение задач оптимизации сценариев диалога с различными процедурами обнаружения и коррекции ошибок, описанное в четвертой главе, выполнено на основе минимизации оценок продолжительности диалога с обеспечением заданной вероятности его успешного завершения. Разработка математических моделей для описания функционирования и оптимизации работы центров обработки вызовов с сервисами самообслуживания на основе речевых технологий производилась с учетом особенностей, вносимых этими технологиями: необходимость перевода вызова на оператора по причине ошибок распознавания в процессе самообслуживания, разница в скоростях и стоимостях обслуживания вызовов портами самообслуживания и операторами. Эти результаты приведены в пятой главе диссертации.
Полученные научные результаты применены при создании первых в России прикладных систем телефонного самообслуживания различного профиля с речевыми технологиями. Разработанные принципы и методы использованы также в системах с нетрадиционным применением речевых технологий: веб-приложение «Звуковой тренажер» для людей с нарушением слуха и система управления объектами электронной карты г. Баку, в которой реализована идея применения для распознавания азербайджанской речи базового пакета распознавания для другого, фонетически близкого, языка.
Вторая глава посвящена исследованию и разработке речевого интерфейса к системам массового обслуживания населения как разновидности человеко-машинного взаимодействия.
Под унимодальным речевым интерфейсом понимается диалоговое человеко-машинное взаимодействие, где ввод запроса и вывод ответа осуществляется с помощью речи.
Речевой интерфейс отличается от графического наличием более серьезных ограничений по взаимодействию как с машинной стороны, так и со стороны человека. В связи с этим разработка принципов и методов создания эффективного речевого интерфейса включала, в первую очередь, исследование проблематики каждой из сторон интерфейса: распознавателей с одной стороны и человека с другой. На основании полученных результатов разработаны методы решения проблем и сформулированы правила проектирования эффективных интерфейсов для речевого взаимодействия клиентов с системами массового обслуживания.
Экспериментальные исследования свойств распознавателей
На Западе исследованию свойств и характеристик распознавателей речи уделяется серьезное внимание. Так, The National Institute of Standards and Technology (NIST), США, [http://www.itl.nist.gov] еще в 1980 годах начал работу по созданию речевых баз данных (речевых корпусов) и предоставлению их для отладки и тестирования систем, в которых используется распознавание американского и британского вариантов английской речи. Позднее были созданы базы речевых данных и выполнено тестирование систем для других языков.
Распознаватели для русского языка не исследовались. Речевые корпусы для русского языка представлены очень скудно.
Для исследования характеристик распознавателей русского языка и выявления зависимостей создана система, обеспечивающая доступ к реальным распознавателям через телефон. Система построена на компьютере Pentium 4 (операционная система Windows 2000/ХР), дополненном многоканальной интерфейсной платой Dialogic, к которой подключены телефонные линии. Использовались системы распознавания речи разработки компаний Nuance Communications и Philips.
Для выполнения экспериментов был разработан речевой диалог, созданы речевые блоки и записаны аудио файлы для озвучивания текста.
Тестирование производилось различными людьми, разного возраста, пола и национальности, что позволило представить достаточно полный набор вариантов произношения.
Выбор грамматик (грамматика - текстовый файл, описывающий множество слов и фраз, которые могут быть произнесены клиентом на некотором шаге диалога) осуществлялся таким образом, чтобы исследовать с одной стороны специфичные для систем массового обслуживания грамматики (цифры, числа, даты, месяцы, пин коды, города, улицы, телефонные номера, названия валют и др.), и, с другой стороны, охватить все наиболее интересные
для исследования аспекты проблем распознавания. Грамматики отличались размером, сложностью логики, длиной произносимых фраз, длиной слов.
Помимо лабораторных данных, использовались сохраняемые записи реальных вызовов, поступающих в работающую систему «Автосекретарь», в которой применено распознавание речи. Для исследования были взяты двухнедельные фрагменты архива, содержащие около 3000 диалогов клиентов с системой каждый. Звуковым файлам с записями речи клиентов было поставлено в соответствие несколько информационных меток: смысловое значение, качество записанного звука, половая принадлежность клиента, темп и громкость речи. Смысловое значение использовалось для определения правильности распознавания имен. Грамматика системы «Автосекретарь» содержит около 300 слов, представляющих собой имена, фамилии, отчества. Исследование проводилось путём многократной обработки звуковых файлов системой распознавания при различных значениях параметров распознавателя с последующим запоминанием результатов экспериментов.
Критерием качества распознавания было выбрано относительное число правильно распознанных слов WRR (Word Recognition Rate):
WRR = R/N,
где R - число правильно распознанных слов, N— общее число произнесенных слов.
Были получены зависимости WRR от сложности грамматики, от продолжительности высказывания, от типа моделей, от влияния шума, стиля произношения, темпа речи, громкости голоса, и другие.
Исследовано также влияние на результаты распознавания параметров распознавателей и величины порога уверенности распознавателя в результате. Полученные зависимости приведены в диссертации.
Проведенные экспериментальные исследования позволили сделать следующие выводы о поведении машинной части речевого человеко-машинного интерфейса:
- существуют зависимости качества распознавания от целого ряда факторов, и эти зависимости выявлены и представлены в диссертации;
- знание этих зависимостей позволяет разработчику управлять в определенных пределах поведением распознавателя, влияя на содержание ответов клиента путем формулирования вопросов в «нужной» форме;
- настройка параметров может повысить, и действительно повышает, качество распознавания.
Свойства человека в контексте речевого интерфейса
Главной проблемой унимодального речевого интерфейса является проблема невидимости: зрение не участвует в процессе взаимодействия с машинной стороной, и восприятие вопросов и ответной информации производится клиентом только лишь на слух. Исключение зрения из процесса взаимодействия с машиной приводит к значительному возрастанию когнитивной нагрузки на человека. Наибольшее внимание в процессе дизайна речевого интерфейса требуется уделять следующим составляющим когнитивной нагрузки: нагрузке на память, удержанию внимания и понятийной сложности.
Ограничения, присущие человеку в этих областях его деятельности, довольно хорошо изучены, поэтому задачей исследования был поиск путей и средств для снижения когнитивной нагрузки.
Снижение нагрузки на память. Нагрузка на память - едва ли не самая существенная проблема для речевого интерфейса. Размер кратковременной слуховой памяти оценивается в способность запоминания в среднем 4-6 концептов. Известно также, что лучше всего запоминаются самые последние слова, которые человек слышит. Известны временные характеристики сохранения информации в кратковременной памяти. На основании этих данных разработаны и экспериментально проверены принципы конструирования меню и формулирования промптов (промпт - произносимый системой текст: вопрос, инструкция, пояснение, помощь, подсказка и т.п.), которые позволяют сократить нагрузку на память. Эти принципы следующие:
- меню не должно содержать более 5 пунктов. Оптимальный размер меню - 3-4 пункта;
- наиболее популярные пункты меню должны располагаться в начале списка; это позволит сократить диалог при использовании функции barge-in (возможность перебивать систему, не дожидаясь окончания проигрывания ее сообщения);
- концепт, который пользователь должен запомнить лучше всего, необходимо помещать в конец промпта;
- промпт должен сначала объяснять функцию и только потом называть соответствующее ей действие;
- первичные промпты-инструкции должны быть короткими и должны содержать только самую необходимую информацию; дополнительная информация должна быть размещена в промптах помощи, которые могут быть несколько продолжительнее.
Удержание внимания. Проблема удержания внимания клиента становится наиболее актуальной на этапе предоставления ему выходной аудио информации. Крайний случай - вывод всех данных сразу. Ограниченность кратковременной памяти и потеря внимания имеют следствием необходимость повтора всего вывода. Кроме того, с большой вероятностью может оказаться, что далеко не вся эта информация является одинаково важной для клиента. Деление выводимой информации на фрагменты смягчает эти проблемы, но требует, в свою очередь, дополнительных затрат времени на диалог по поводу вывода этих фрагментов. Оптимальное число фрагментов зависит от контекста конкретного приложения и «делимости» выводимой информации. Следует помнить также, что фрагмент должен включать ограниченное число элементов данных для запоминания (в среднем 3-4 элемента).
Снижение понятийной сложности
Предложены следующие правила для снижения понятийной сложности при взаимодействии пользователя с системой:
- Унификация действий и терминологии с целью «формирования полезной привычки». Идея состоит в том, что если позволить клиенту выполнять похожие действия похожим образом и обеспечить на всем протяжении диалога
постоянство терминологии, то клиент быстрее сможет понять принцип работы интерфейса и его работа с системой упростится. Однако при этом необходимо позаботиться о том, чтобы избежать монотонности, которая приведет к снижению внимания и ошибкам, а также может раздражать пользователя.
- Использование универсальных команд навигации, всегда доступных пользователю вне зависимости от приложения и контекста. Перечень таких команд обсуждался международным сообществом и даже рекомендован европейскими комитетами по телекоммуникациям. Опыт автора и эксперименты, выполненные применительно к российскому сообществу, позволили создать свой список рекомендуемых универсальных команд, который в основном совпадает с рекомендациями европейских комитетов, но несколько короче и включает 5 команд. На рис. 2.1 показана относительная частота использования универсальных команд. Из рисунка следует, что команды «конец» и «до свидания» практически не использовались, поэтому список универсальных команд, обязательных для отработки на любом шаге диалога, включает команды «оператор», «помощь», «повторить», «назад», «начало».
- Пояснения и примеры. Примеры и пояснения позволяют снизить число ошибок при вводе данных, помогая клиентам правильно сформулировать ответы на вопросы системы. На рис. 2.2 показано влияние использования примеров на число ошибок при вводе даты подачи машины в системе заказа такси: когда вместо вопроса «Назовите дату подачи такси» стал использоваться промпт «Назовите дату подачи такси, например, сегодня, завтра, послезавтра или пятнадцатого мая», число ошибок значительно сократилось.
- Помощь, немедленная обратная связь (эхо-ответы), ориентация. Предоставление пользователю этих возможностей значительно повышает его уверенность в успехе, способствует сохранению спокойного стиля общения с системой, снижает задержки ответов, что способствует успешному распознаванию системой его ответов и снижению продолжительности диалога.
50
ш
0,5
ш
Р77Я
0.21
оператор помощь повторить назад начало конец до Команды
свидания
Относительное число ошибок
пример
без примера
Рис. 2.1. Относительная частота использования универсальных команд.
Рис. 2.2. Влияние примера на
снижение числа ошибок.
Рекомендации по проектированию речевого интерфейса и грамматик На основании проведенных исследований составлены рекомендации по проектированию речевого человеко-машинного интерфейса с системами обслуживания. Эти рекомендации касаются следующих проблем:
• Выбор голоса: мужской, женский, синтезированный, живой, тембр, тональность;
• Формулирование приветствия: задачи приветствия, продолжительность, состав инструкций;
• Реализация фазы ввода данных: выбор типа диалога, размер меню, порядок пунктов в списках, информационная поддержка и ориентация клиента, эхо-ответы, помощь, повторы, запросы подтверждения, примеры, использование извинений и вежливых слов и оборотов, информирование о завершении ввода;
• Процедуры коррекции ошибок: дифференциация подсказок, прогнозирование реакции клиента, число переспросов, переход к более простой грамматике, принцип нарастания подробностей в промптах помощи;
• Реализация фазы вывода информации: деление длинной информации на порции, способы запроса частей данных, правила навигации. Разработаны также рекомендации по проектированию грамматик.
Правильно спроектированные промпты и грамматики позволят добиться того, чтобы ответы клиентов соответствовали ожиданиям грамматик, в результате чего будет достигнута более высокая точность распознавания.
Для иллюстрации влияния на качество работы системы с распознаванием речи тщательного дизайна интерфейса, правильного согласования промптов и грамматик и оптимальной настройки параметров распознавателя на рис. 2.3 а) приведены обобщённые результаты работы ненастроенной системы «Автосекретарь», а на рис. 2.3 б) показаны результаты работы той же системы после выполнения необходимых корректировок и настройки параметров.
э
а) ненастроенная система б) настроенная система
Рис. 2.3. Обобщенные результаты работы системы «Автосекретарь».
На схемах использованы следующие обозначения: а - правильные высказывания, характеристика исходной выборки; Ь - неправильные высказывания (шумы, посторонние звуки и пр.), характеристика исходной выборки;
с - распознано правильных высказываний;
<1 - неверно распознано правильных высказываний; е - не распознано правильных высказываний; f~ верно отброшено неправильных высказываний; § - неверно распознано неправильных высказываний; Ь - верные результаты работы; I - нераспознанные высказывания; ] - неверно распознанные высказывания.
Как видно из приведенных рисунков, грамотно спроектированный интерфейс и оптимальная настройка параметров позволяет улучшить качество работы системы с распознаванием речи.
Таким образом, выполненная работа позволила дать практические рекомендации по дизайну эффективного речевого интерфейса для взаимодействия пользователей с системами массового обслуживания населения. Эти рекомендации основаны на экспериментально полученных данных о характеристиках распознавателей и на данных о функционировании действующих систем с распознаванием речи, спроектированных с участием автора. Они учитывают возможности человека, его слабые и сильные стороны, его опыт и ожидания. Оставаясь в определенной степени искусством, дизайн речевого интерфейса должен основываться также и на точных указаниях, содержащихся в составленных рекомендациях.
В третьей главе диссертации рассматриваются вопросы, связанные с обнаружением и исправлением ошибок. Стохастическая природа процессов, лежащих в основе работы распознавателей, обуславливает возможность появления на их выходе ошибочных результатов. Ошибки при распознавании снижают как полезность приложения, так и степень удовлетворенности пользователей. В связи с этим обнаружение и исправление ошибок распознавания является определяющим свойством речевых приложений.
Приводится классификация ошибок, возникающих при распознавании слов, и критериев, используемых для оценки качества работы распознавателей и речевых приложений.
Предложена общая стратегия обнаружения ошибок и способы их коррекции. Предложены новые методы прогнозирования и предупреждения ошибок и исследована их эффективность.
Выявление возможных ошибок на основе анализа показателя уверенности распознавателя в предлагаемой гипотезе.
Этот метод состоит в сравнении величины показателя уверенности распознавателя в результате распознавания с пороговым значением этого показателя, установленным для вызова процедуры подтверждения. Если показатель уверенности распознавателя в предлагаемой им гипотезе выше порогового значения, то считается, что вероятность ошибки невелика и гипотеза принимается, а диалог переходит на следующий этап. Если вероятность гипотезы ниже порога, то диалог развивается по пути активации процедуры подтверждения. Задача состоит в выборе оптимальной величины порога показателя уверенности в гипотезе.
Для определения оптимальной величины порога показателя уверенности в
гипотезе использовался принцип минимума ожидаемых затрат, примененный автором ранее в работах по повышению эффективности автоматизированных систем массового обслуживания, связанных с распределением ресурсов между потоками разной доходности. Применительно к данной задаче этот принцип формулируется следующим образом: порог уверенности должен быть таким, чтобы суммируемые по всем состояниям ожидаемые затраты для выбранного в соответствии с ним действия были минимальными.
Ожидаемые затраты S для некоторого действия в некотором состоянии есть произведение вероятности этого состояния р на величину затрат s, соответствующих предпринимаемому действию.
Рассмотрим состояние системы, соответствующее возврату результата распознавания на некотором шаге диалога. Пусть надежность используемого на этом шаге блока распознавания характеризуется случайной величиной R, описывающей ожидаемую вероятность правильного распознавания. Показатель уверенности распознавателя в возвращаемой гипотезе представляется случайной величиной А", определенной на интервале [0,1], с плотностью вероятности f(x). Существует зависимость между вероятностью правильного распознавания R и показателем уверенности в гипотезе X, т.е. R=g(x). Эта зависимость может быть выявлена путем тестирования блока распознавания.
Пусть порог уверенности равен к. Если возвращаемый вместе с гипотезой показатель уверенности в ней х меньше порога уверенности к, то инициируется процедура подтверждения. Если гипотеза была верной, то в ответ на запрос подтверждения клиент отвечает положительно, что соответствует затратам Если гипотеза была неверной, то затраты соответствуют процедуре исправления ошибки распознавания. Обозначим их через smm.
Если возвращенный показатель уверенности в гипотезе больше или равен к, то процедура подтверждения не инициируется. При этом в случае правильного распознавания затраты равны нулю, а в случае ошибки они составляют величину sH/m„, соответствующую затратам, связанным с последующим исправлением ошибки, не обнаруженной на данном шаге. Обычно
Таким образом, ожидаемые затраты S составляют:
8(x)f(x)dx + sHemy0 (l-g(x))f(x)dx + s,ia,„i>0(1 -g(x))f(x)dx. (3.1)
На рис. 3.1 и 3.2 показаны результаты обработки данных о работе блока распознавания имен в приложении «Автосекретарь».
Рис. 3.1 показывает зависимость соотношения процентов правильно и неправильно распознанных слов от уверенности в распознавании. Уверенность распознавания лежит в границах от 0 до 1 и разделена на 10 интервалов: от 0 до 0,1; от 0,1 до 0,2 и т.д. Эта зависимость иллюстрирует связь вероятности правильного распознавания и уверенности в гипотезе R=g(x). На рис. 3.2 показано распределение процентного количества результатов распознавания по тем же интервалам значений показателя уверенности.
Как видно из (3.1), ожидаемые затраты зависят также от значений затрат Sh/ош, sm-m, Sda, величина которых определяется конкретным приложением. Для удобства анализа целесообразно перейти к относительным затратам Somm
разделив обе части уравнения (3 Л) на s^: Som„ = S/sc
ill
''Hiверно * Верно
;
»Доля Bt-'схазыззмий
ш ш т
Уверенность в 8 Ж распознавании
о о о о о о о Уверенность е распознавании
Рис. 3.1. Зависимость соотношения Рис. 3.2. Гистограмма распределения
правильно/неправильно распознанных результатов распознавания по
слов от уверенности в распознавании. интервалам значений показателя
уверенности в гипотезах.
На рис. 3.3 показаны три составляющие ожидаемых относительных затрат и их сумма 8от„ для соотношения между 5н/ош, Бтт и я,*,, равного 2:1,5:1. Графики соответствуют экспериментальным данным, представленным на рис. 3.1 и 3.2, и показывают зависимость ожидаемых затрат £отн от порога уверенности к, установленного для вызова процедуры подтверждения.
Оптимальное значение порога уверенности копт соответствует точке, где кривая суммарных ожидаемых относительных затрат достигает минимума.
0,4
S отн
0,2
0,15 ;
0,1 I.........-.........-
0,05 ----
"Н/ОШ" •..._ ^отн
0,5
0,6
копт
0,8
0,9
Рис. 3.3. Зависимость ожидаемых относительных затрат Samil от порога
уверенности к, установленного для вызова процедуры подтверждения.
Автоматизация накопления статистических данных о результатах распознавания.
Коррекция ошибок может быть значительно более эффективной, если использовать знания, накопленные в результате сбора и обработки статистических данных об ошибках. В базовых системах распознавания речи предусмотрены средства для сбора статистических данных. Процесс сбора статистики заключается в последовательном прослушивании диалогов,
записанных в лог-файлах, и их описании. Описание диалогов состоит в оценке правильности распознавания и внесении дополнительных комментариев. Существующая процедура является трудоемкой и затратной по времени.
Предложен и программно реализован метод автоматизированного накопления статистики о результатах распознавания. Метод основан на анализе ответов на запросы подтверждения. Из ответа клиента на просьбу системы подтвердить гипотезу Sj, который может быть сформулирован по-разному («Да», «Да, правильно», «Правильно», «Да-да» и т.д.), извлекается смысл («да» или «нет») и фиксируется вместе со значением возвращаемой гипотезы Sj и показателем уверенности в ней. Ответ «да» соответствует успешному распознаванию данного слова или фразы. Ответ «нет» соответствует ошибке, которая относится к разновидности «замена». После ответа «нет» диалог переходит к фазе повторения ввода. Ответ «да» на запрос подтверждения повторного ввода (новой гипотезы ¿7) позволяет зафиксировать не только факт имевшей место ошибки распознавания, но и само искажение: распознавание слова как . Ответ «нет» на запрос подтверждения повторного ввода инициирует новую процедуру подтверждения, если это предусмотрено алгоритмом. Он также фиксируется и может свидетельствовать о том, что произносимое клиентом слово или фраза отсутствует в грамматике или имеет ошибку в фонетической транскрипции, особенно если возвращаемая уверенность в гипотезе невелика.
Собранная таким образом статистика использовалась для проверки фонетических транскрипций, для выявления часто встречающихся «лишних», т.е. отсутствующих в грамматике, слов и для составления таблиц искажений, которые использовались для коррекции ошибок, связанных с искажением слов, в соответствии с описанной ниже моделью.
Коррекция ошибок с учетом статистики искажения слов
Проверка правильности распознавания и исправление выявленной ошибки путем переспроса может быть неэффективным, если в диалоге встречаются слова с высокой вероятностью искажения типа /' —> _/, то есть слово часто распознается как слово Однако если бы система учитывала сведения об
искажениях, то поиск истинного слова осуществлялся бы быстрее, чем при переспросах без учета статистики искажений.
Предложен следующий алгоритм, учитывающий сведения об искажениях и способствующий сокращению числа переспросов.
Пусть задачей системы является распознавание слов из списка .
Система располагает статистическими данными о вероятности появления слов на входе в систему р, (г = 1, п) и о вероятностях искажения слов д0 (/',у = !>«) (Зу - вероятность того, что слово распознано как ^). Эти вероятности определяются статистически. Они используются для вычисления гу -вероятностей того, что произносилось слово ^ при условии, что система приняла его за слово . Вероятности ^ вычисляются по формуле условных
„ „ _ У¡4 у
вероятностей: г)} - — , где - вероятность того, что система восприняла слово V
п
как . Вероятность t¡ вычисляется по формуле (/ = РъЧу .
к=1
Когда клиент произносит некоторое слово, система пытается распознать его, выдает гипотезу sJ и просит клиента сообщить, правильна ли она. В случае ответа «да» процедура заканчивается. В случае ответа «нет» система выбирает наибольшую вероятность гц из ряда гьг2,...,гпп в котором нет величины гц, и предлагает слово ^ в качестве новой гипотезы с просьбой подтвердить её. Если и это не подтверждается, система ищет в ряду гч,г2г..., гп/ вторую по величине вероятность и предполагает, что было произнесено второе слово, и т.д. Математическое ожидание числа переспросов /у равно
Ь = 1; + + З'з,— + пггч, где Гц _ вероятности слов, предлагаемых последовательно системой в соответствии с данным алгоритмом при условии, что на первом шаге система распознала слово как Я].
Среднее число переспросов / вычисляется по формуле:
Л п ( п п 4
/ = 2>Л =1 1А?, ; .
)=\ ;=1\'=1 /=1 у
Проведено сравнение числа переспросов для алгоритма коррекции ошибок с учетом статистических данных об искажениях слов с числом переспросов для алгоритма без учета вероятностей искажений на примере распознавания произносимых пользователем цифр от 0 до 9. Вероятности Цч были определены
экспериментально и приведены в таблице 3.1. Вероятности р, были приняты равными между собой.
Таблица 3.1. Статистические данные о распознавании цифр
% 0 1 2 3 4 5 6 7 8 9
0 0,98 0,02 0 0 0 0 0 0 0 0
1 0 1 0 0 0 0 0 0 0 0
2 0,02 0 0,98 0 0 0 0 0 0 0
3 0 0,02 0 0,86 0 0 0 0 0 0,12
4 0 0 0 0 0,94 0 0 0 0 0,06
5 0 0 0 0 0 1 0 0 0 0
6 0 0 0 0 0 0,18 0,76 0,04 0 0,02
7 0 0,04 0 0 0 0 0 0,96 0 0
8 0 0,04 0 0 0 0 0 0 0,96 0
9 0 0 0 о 0 0 0 0,04 0 0,96
Среднее число переспросов по первому алгоритму составило 1,08, по второму 1,18, что свидетельствует о преимуществах алгоритма с коррекцией ошибок с учетом статистики искажений.
Предложенные методы и алгоритмы являются новым шагом в решении проблемы ошибок распознавания. Разработчики приложений, не имея возможности вмешаться во внутренние модели распознавателей и вынужденные рассматривать их как черный ящик, могут добиться достаточно высоких показателей качества работы приложения путем применения предложенных методов прогнозирования и коррекции ошибок и использования накопленных данных и знаний о работе распознавателя.
В четвертой главе рассматривается решение задач сравнительного анализа и оптимизации сценариев диалогов с различными процедурами обнаружения и коррекции ошибок и оценки их количественных характеристик.
Эти задачи возникают на этапе проектирования системы, когда принимаются решения относительно структуры и расположения элементов диалога и процедур подтверждения. Расчеты, проведенные на основании предложенных методов, позволяют выбрать из многочисленных сценариев и алгоритмов управления диалогом наиболее приемлемые и ограничить тем самым количество вариантов построения системы, которые подлежат последующему трудоемкому тестированию.
Выполнена классификация диалогов, в основу которой положены следующие признаки: типы элементов диалога, местоположение процедур выявления и корректировки ошибок, способ реализации процедур выявления и корректировки ошибок.
Элементы диалога могут быть простыми и составными. Простым элементом диалога назван такой ответ клиента на вопрос системы, который содержит одно самостоятельное смысловое понятие. Простой элемент диалога может состоять из одного или нескольких слов, распознаваемых как единое целое. Составным элементом диалога назван такой ответ клиента на вопрос системы, который содержит несколько самостоятельных смысловых понятий, после распознавания которых формируется несколько атрибутов. По признаку используемых типов элементов речевое взаимодействие клиентов с системой может быть организовано следующими способами:
- использование в ответах клиента только простых элементов,
- использование в ответах клиента простых и составных элементов,
- использование в ответе клиента единого составного элемента (монологовый тип взаимодействия).
Вторым признаком классификации является местоположение в диалоге процедуры выявления и корректировки ошибок по отношению к процессу формирования запроса клиента. Запрос подтверждения правильности распознавания и корректировка ошибок может осуществляться либо в процессе формирования запроса, либо после его окончания.
Разновидность процедуры выявления и корректировки ошибок распознавания является третьим признаком классификации. Она может осуществляться различными способами:
- по каждому элементу диалога, когда клиенту для подтверждения правильности распознавания его ответа на вопрос, заданный системой, последовательно озвучивается (в процессе диалога или после его окончания) каждый произнесенный им элемент диалога с просьбой подтвердить правильность его распознавания. В случае не подтверждения правильности распознавания система просит клиента повторить неправильно распознанный элемент диалога;
- клиенту после окончания формирования запроса единым блоком озвучиваются все зафиксированные элементы диалога с просьбой подтвердить правильность их распознавания одной общей репликой. Если клиент определит наличие одного или нескольких неправильно распознанных элементов, то он одной репликой отмечает факт наличия неправильного распознавания. Далее возможны два варианта определения неправильно распознанных элементов диалога:
1) система начинает последовательно опрашивать правильность распознавания элементов, заканчивая на последнем неправильно распознанном элементе;
2) клиент последовательно повторяет системе те элементы, которые, по его мнению, неправильно распознаны.
Классификационная схема речевого человеко-машинного взаимодействия с учетом рассмотренных классификационных признаков приведена на рис. 4.1.
©
0
Проверка распознавания н корректировка при приеме запроса
©
Проверка распознавания н корректировка после приема запроса
По каждому элементу запроса До последнего ®
(!) неправильно распознанного По каждому элементу запроса
элемента запроса
По опросу По указанию
системы клиента
©
Рис. 4.1. Классификационная схема речевого человеко-машинного взаимодействия.
Произведенная классификация позволяет охватить самые разные варианты организации взаимодействия клиентов с системой и производить сравнение этих вариантов.
Методика выполнения сравнительного анализа вариантов состоит в использовании модифицированного применительно к данной задаче принципа квантификации, когда варианты сравниваются на множестве одинаковых типовых количественных значений ряда параметров. Например, сравнительная оценка вероятности успешного завершения диалога осуществляется при одинаковом наборе значений вероятностей правильного распознавания речевых блоков и одинаковом допустимом числе переспросов для сравниваемых вариантов сценариев. Необходимость в таких допущениях диктуется большой размерностью моделей и широким диапазоном изменения параметров. Квантификация является достаточно популярным методом количественного анализа качества интерфейсов.
В качестве характеристик для сравнения вариантов выбраны два главных количественных критерия оценки качества речевого диалогового человеко-машинного взаимодействия: вероятность успешного завершения диалога и продолжительность диалога. Поиск оптимального сценария осуществляется на основе минимизации оценок продолжительности диалога с обеспечением заданной вероятности его успешного завершения.
Оценка вероятности успешного завершения диалога.
Для оценки вероятности успешного завершения диалогов вначале определяются вероятности правильного распознавания элементов диалога, а затем выводятся формулы вероятности успешного завершения диалогов, отличающихся типами элементов и местоположением и способами реализации процедур выявления и корректировки ошибок.
Вероятность правильного распознавания элемента диалога зависит главным образом от надежности соответствующего данному шагу диалога речевого блока. Однако при взаимодействии клиентов с системой проявляется так называемый «человеческий фактор», который чаще всего негативно отражается на вероятности распознавания. Вероятность правильного распознавания простого элемента, учитывающую как «внутреннюю» вероятность распознавания, так и влияние человеческого фактора, обозначим через р0. Ее можно трактовать как фактическую или «номинальную» вероятность правильного распознавания.
Выявление и исправление ошибок осуществляются путем вызова процедуры подтверждения и переспроса. Перед переспросом система, как правило, просит клиента говорить более четко, или дает пример ответа, или предлагает сделать выбор из более узкого множества. Эти действия снижают негативное влияние человеческого фактора и позволяют повысить вероятность распознавания переспрашиваемого элемента диалога до величины р01 при первом переспросе, до величины р02 - при втором переспросе и т.д., в пределе до величины внутренней вероятности распознавания. Это положение принято в качестве общего случая при последующем анализе процесса переспроса в диалоге из простых и составных элементов.
Вероятность правильного распознавания элемента диалога
Простой элемент
Обозначим через р0} вероятность правильного распознавания элемента диалога при }-и переспросе. Тогда вероятность правильного распознавания элемента диалога при п переспросах определяется формулой:
л
Pn=P0 + Y.PojШ-Pok), «=1,2,3..., (4.1)
)=\ к=О
где р0- номинальная вероятность правильного распознавания элемента диалога.
В условиях однородности процесса распознавания, когда вероятность распознавания при каждом переспросе равна р0, вероятность правильного распознавания элемента диалога представляется усеченным геометрическим распределением:
Р„ = ТРо(1-РоУ =Ро-1~(1:РоК =П1-РоГ\п=0,1,2,3.... (4.2) у=0 1-(1-Ро)
Величина Рт вычисленная по формуле 4.2, представляет собой нижнюю оценку вероятности правильного распознавания элемента диалога при п переспросах. Численные значения этой вероятности при различных значениях номинальной вероятности распознавания элемента и числа переспросов приведены в табл. 4.1.
Таблица 4.1. Вероятность правильного распознавания простого элемента диалога
Ро Р\ Рг Рг
0,6 0,84 0,936 0,974
0,7 0,91 0,973 0,9919
0,8 0,96 0,992 0,9984
0,9 0,99 0,999 0,9999
0,95 0,9975 0,9999 0,9999
Из таблицы видно, что при р0 > 0,7 один-два переспроса могут обеспечить вероятность распознавания элемента диалога более 0,99.
Составной элемент
Составной элемент, согласно определению, содержит М смысловых понятий (составляющих), распознаваемых самостоятельно. Вероятность распознавания каждой составляющей (ры) аналогична номинальной вероятности распознавания простого элемента. При этом номинальная вероятность
распознавания всего составного элемента рос определяется соотношением:
м
А)с = ПА>,> (4.3)
ы
Вероятность правильного распознавания составного элемента зависит от реализуемых в процессе диалога процедур выявления и корректировки ошибок распознавания, которые могут быть реализованы тремя способами:
- запрос подтверждения по всему составному элементу с последующей корректировкой путем переспроса всего составного элемента;
- запрос подтверждения по всему составному элементу с последующей корректировкой путем переспроса каждой из составляющих этого элемента;
- запрос подтверждения по каждой составляющей с последующей корректировкой путем переспроса каждой составляющей.
Для определения вероятности правильного распознавания составного элемента процедуры выявления и исправления ошибок рассматриваются как марковские процессы. Для каждого варианта определяется множество состояний элемента, строится граф переходов между состояниями, составляется матрица вероятностей переходов и выводятся формулы для вероятности состояний, соответствующих правильному распознаванию. В табл. 4.2 4.4 содержатся вычисленные по этим формулам вероятности правильного распознавания составного элемента для трех вышеназванных способов выявления и корректировки ошибок.
Таблица 4.2.
Вероятность правильного распознавания составного элемента: запрос подтверждения и переспрос производится по всему составному элементу
Ро и, Рос Рс сг
2 0,640 0,870 0,953 0,983
0,8 3 0,512 0,762 0,884 0,943
4 0,410 0,652 0,795 0,879
5 0,328 0,548 0,698 0,798
2 0,810 0,964 0,993 0,998
0,9 3 0,729 0,926 0,980 0,994
4 0,656 0,882 0,959 0,986
5 0,590 0,832 0,931 0,972
Таблица 4.3.
Вероятность правильного распознавания составного элемента: запрос подтверждения производится по всему составному элементу, корректировка - путем переспроса каждой из составляющих этого элемента
Ро М, Рос Рс
0,8 2 0,640 0,861 0,970 0,994
3 0,512 0,734 0,941 0,988
4 0,410 0,605 0,907 0,980
5 0,328 0,487 0,872 0,970
0,9 2 0,810 0,962 0,996 0,999
3 0,729 0,921 0,992 0,999
4 0,656 0,869 0,986 0,998
5 0,590 0,811 0,979 0,997
Вычисления произведены при следующих значения параметров: номинальная вероятность распознавания составляющей р0= 0,8 и 0,9, количество составляющих М= 2-5, допустимое число переспросов п = 1 - 3.
Сравнительный анализ таблиц 4.2 4.4 показывает, что наилучшие результаты обеспечивает вариант выявления и корректировки ошибок по каждой составляющей составного элемента.
Таблица 4.4.
Вероятность правильного распознавания составного элемента: запрос подтверждения и переспрос производится по каждой составляющей
Ро Л/, Ъ
2 0,921 0,984 0,9997
0,8 3 0,885 0,976 0,995
4 0,849 0,968 0,993
5 0,815 0,960 0,992
2 0,980 0,998 0,999
0,9 3 0,970 0,997 0,999
4 0,962 0,996 0,999
5 0,951 0,995 0,999
Вероятность успешного завершения диалога
Вероятность успешного завершения диалога Рдт состоящего из комбинации простых и составных элементов, каждый из которых может переспрашиваться п раз, определяется следующим соотношением:
Р»п = ПЛ П^ , (4.4)
м м
где N - общее число элементов в диалоге,
число составных элементов в диалоге. Анализ результатов
Полученные формулы были использованы для вычисления вероятностей успешного завершения диалогов при различных сценариях и при разных вариантах организации процедур выявления и корректировок ошибок распознавания. Расчеты производились для следующих значений параметров: номинальная вероятность правильного распознавания элемента р0 = 0.9 и 0.8, общее количество элементов диалога N=10, допустимое число переспросов п = 1, 2, 3. Результаты расчетов сведены в таблицы. Сравнительный анализ таблиц позволил сделать следующие выводы:
• наилучшие результаты с точки зрения вероятности успешного завершения диалога дает диалог из простых элементов;
•сравнение диалогов из составных элементов показало, что наибольшая вероятность успешного завершения диалога обеспечивается при процедуре выявления и корректировки ошибок по каждой составляющей составных элементов;
• процедура выявления и корректировки ошибок путем запроса подтверждения и переспроса составных элементов целиком дает наихудший результат для вероятности успешного завершения диалога;
•в диалоге смешанного типа с увеличением числа составных элементов вероятность его успешного завершения уменьшается, стремясь к величине, соответствующей вероятности успешного завершения диалога, состоящего из одних составных элементов.
Полученные формулы не только позволяют выполнить сравнительный анализ вариантов организации сценариев, но и могут быть использованы для
вычисления вероятности успешного завершения конкретных диалогов с элементами разных типов и для разных вариантов организации процедур выявления и коррекции ошибок. Исходными данными для расчетов являются оценки надежностных характеристик блоков распознавания, получаемых путем их предварительного тестирования, число и типы элементов диалога, ограничения на число переспросов.
Продолжительность диалога
Для анализа диалогов по критерию их продолжительности были введены количественные меры для оценки временных затрат на выполнение элементов диалога, получены формулы для вычисления времени выполнения элементов диалога с учетом переспросов, предложены типы оценок продолжительности диалогов, позволяющие выполнять сравнительный анализ вариантов, и произведено сравнение различных вариантов управления диалогом.
Время правильного распознавания элемента диалога при переспросах
Каждый 1-й элемент диалога характеризуется средним временем речевого обмена Ь, которое складывается из времени, затрачиваемого на задание клиенту вопроса типа «назовите...», времени, затрачиваемого на ответ клиента, времени запроса подтверждения правильности распознавания ответа системой и времени, требуемого клиенту на сообщение системе своей оценки правильности проведенного распознавания.
В общем виде среднее время распознавания одного элемента диалога при переспросах Тср]1 определяется соотношением:
N
^ф.э 1 ^I
У
>1 /
(4.5)
где: - время, затрачиваемое на запрос и ответ при первоначальном вопросе и каждом У-ом переспросе /'-го элемента диалога;
Ро - вероятность правильного распознавания ответа клиента в системе распознавания при первоначальном вопросе;
Пйоп - предельное число переспросов элемента диалога, установленное в системе;
8! - вероятность у-го переспроса элемента диалога.
Среднее время, затрачиваемое на простой элемент диалога, с учетом вероятности появления определенного числа переспросов определяется соотношением:
Ро + I (у + О-А, + . (4.6)
№ J
Среднее время, затрачиваемое на один составной элемент диалога, определяется по формуле (4.5), но с учетом особенностей, вносимыми вариантами процедур выявления и корректировки ошибок.
Разновидности оценок продолжительности диалога
Продолжительность диалога определяется рядом факторов: количеством элементов диалога; алгоритмом управления диалогом; величиной вероятности правильного распознавания для элементов диалога; временными затратами на
Т -
элемент диалога с учетом возможных переспросов при неправильном его распознавании.
Предложены две группы оценок продолжительности диалога:
- предельные оценки, позволяющие получить область значений продолжительности диалога с определенным алгоритмом управления;
- средняя оценка, учитывающая все возможные сочетания, число и взаимное расположение правильно и неправильно распознанных элементов диалога, вероятность каждого сочетания и их количество.
К предельным оценкам продолжительности диалога относятся:
- оценка снизу, определяющая минимально возможную продолжительность диалога с определенным алгоритмом управления;
- оценка сверху, определяющая максимально возможную продолжительность диалога с тем же алгоритмом управления.
Нижняя оценка вычисляется в предположении отсутствия неправильно распознанных элементов и характеризует алгоритм управления диалогом при идеальной системе распознавания. Оценка сверху характеризует тенденцию изменения продолжительности диалога при уменьшении вероятности распознавания элемента диалога.
Для удобства численного выражения величины нижней и верхней оценок продолжительности диалога введена условная единица измерения: временной квант т - время, затрачиваемое на озвучивание системой или клиентом одного среднестатистического слова русского языка. Поскольку нижняя оценка продолжительности диалога соответствует правильному распознаванию всех N его элементов, то, в общем виде, она описывается следующим соотношением:
Г N \
тн = ХА , (4.11)
Ч'=1 У
где ¿1 - количество временных квантов, затрачиваемых на /-й элемент диалога при правильном его распознавании (вопрос клиенту со стороны системы, ответ клиента, вопрос клиенту с просьбой подтвердить правильность распознавания его ответа, реплика клиента на эту просьбу).
Верхняя оценка продолжительности диалога определяется при условии неправильного распознавания всех его элементов, что требует их переспроса. Для удобства оценки влияния переспросов на среднее время, затрачиваемое на элемент диалога, введен так называемый временной коэффициент переспроса > который показывает, во сколько раз увеличивается время, затрачиваемое на один переспрашиваемый элемент диалога при заданном числе переспросов пЯ0П\
Т
К =
где: Т - среднее время распознавания элемента диалога при переспросах, определяемое по формуле (4.5),
/ - время, затрачиваемое на речевой обмен вопросами и ответами между клиентом и системой.
Тогда верхняя оценка продолжительности диалога выражается следующим соотношением:
Т =
1 а —
¿4
(4.12)
где: - временной коэффициент переспроса;
й ~ количество временных квантов на один элемент диалога при организации переспроса; - количество временных квантов на распознаваемую реплику клиента при переспросе.
Сравнение вариантов организации управления диалогом удобнее производить в виде безразмерных величин, которые могут быть получены делением обеих частей соотношений (4.11) и (4.12) на Г. Назовем получаемые величины соответственно коэффициентами нижней (КТн) и верхней (Кт ) оценок продолжительности диалога.
Коэффициенты нижней и верхней оценок определяют только границы возможных значений продолжительности диалога. Более точная оценка может быть получена с помощью среднего времени продолжительности диалога и соответствующего ему коэффициента средней продолжительности, которые учитывают все возможные сочетания, число и взаимное расположение правильно и неправильно распознанных элементов диалога, вероятность каждого сочетания и их количество.
При определении среднего времени продолжительности диалога учитывалось наличие двух разновидностей алгоритмов управления диалогом:
алгоритмы управления, обеспечивающие независимость продолжительности диалога от взаимного расположения правильно и неправильно распознанных элементов диалога по отношению друг к другу. Примером может служить алгоритм, при котором проверка правильности распознавания и корректировка осуществляются на каждом элементе в процессе формирования запроса клиента. Будем называть такие алгоритмы «позиционно независимыми»;
- алгоритмы управления, при реализации которых имеет место зависимость продолжительности диалога от взаимного расположения правильно и неправильно распознанных элементов диалога, например управление диалогом, когда проверка правильности распознавания и корректировка производятся после завершения формирования запроса по опросу системы до последнего неправильно распознанного элемента. Будем называть такие алгоритмы «позиционно зависимыми».
Среднее время продолжительности диалога при использовании позиционно независимых алгоритмов управления диалогом определяется следующим соотношением:
(4.13)
_т=0
где: - первое слагаемое в квадратных скобках показывает общее количество
временных квантов во всех правильно распознанных элементах диалога
28
при наличии в нем N элементов и т неправильно распознанных; - второе слагаемое в квадратных скобках показывает общее количество временных квантов во всех т неправильно распознанных элементах, включая затраты на организацию переспроса неправильно распознанных элементов; составляющие временных затрат £>ср и Сср ■ порознь или
совместно могут отсутствовать в конкретных вариантах алгоритмов управления диалогом.
При определении средней продолжительности при использовании позиционно зависимых алгоритмов управления диалогом учитывались дополнительные временные затраты на опрос правильно распознанных элементов диалога, который заканчивается при определении последнего из неправильно распознанных элементов. Эти временные затраты зависят от числа и взаимного расположения правильно и неправильно распознанных элементов, от вероятности появления различных вариантов их взаимного расположения, от количества таких вариантов. Средние дополнительные временные затраты определяются следующим образом:
где 1ср- среднее число временных квантов, затрачиваемое на опрос одного правильно распознанного элемента и на подтверждение этого клиентом.
Сравнительный анализ диалогов с различными стратегиями управления Выполнен сравнительный анализ вариантов речевого человеко-машинного взаимодействия с различными стратегиями управления диалогом. В соответствии с классификацией методов речевого взаимодействия были проанализированы следующие варианты организации диалогов:
- диалог из простых элементов;
- диалог из простых и составных элементов;
- режим «монолога».
Для каждого варианта были рассмотрены различные процедуры выявления и корректировки ошибок. Варианты сравнивались по критериям продолжительности диалога при обеспечении заданной достоверности распознавания элементов диалога.
Выполненный анализ дал следующие результаты:
• при использовании в диалоге только простых элементов наилучшие показатели по совокупности критериев имеет диалог с проверкой правильности и корректировкой распознавания по каждому элементу диалога;
• использование составных элементов улучшает временные характеристики диалогов со стратегией выявления и корректировки ошибок по каждому элементу после формирования запроса. Это улучшение тем больше, чем выше надежность речевых блоков, используемых в элементах диалога.
• режим «монолога» с проверкой правильности и корректировкой распознавания по каждому элементу после формирования запроса имеет
(4.14)
лучшую нижнюю оценку его продолжительности лучше, чем его аналог, состоящий из простых элементов, что свидетельствует о том, что при надежных речевых блоках этот алгоритм может быть предпочтительнее; • наилучшие характеристики по продолжительности в диапазоне реальных надежностных характеристик речевых блоков имеет диалог из простых элементов с проверкой правильности и корректировкой распознавания по каждому элементу диалога. При отсутствии конкретных данных о надежности распознавания рекомендуется выбирать этот вариант построения диалога. Однако получение более точных данных о вероятности правильного распознавания для всех элементов диалога позволит принять более обоснованные решения по дизайну диалога. На основе предложенных критериев определения эффективности стратегии управления диалогом создана методика выбора оптимальных сценариев и алгоритмов управления диалогом. Эта методика была использована при создании конкретных приложений: получение справки о рейсах, заказ такси, управление электронными кошельками.
Таким образом, полученные результаты позволяют:
- определять необходимое число переспросов клиента для получения требуемой достоверности распознавания элементов диалога;
- определять среднее время, затрачиваемое на элемент диалога с учетом рассчитанного для заданной достоверности распознавания числа переспросов;
- вычислять вероятности успешного завершения диалогов различной структуры;
- анализировать и сравнивать между собой различные стратегии управления диалогом по предложенным критериям продолжительности диалога и при обеспечении требуемой вероятности успешного завершения диалогов;
- производить обоснованный выбор сценариев и алгоритмов управления диалогом для конкретных задач на основе разработанной методики.
В пятой главе рассматриваются математические модели для расчета характеристик обслуживания заявок и оптимизации функционирования центров обработки вызовов современной архитектуры, имеющих сервисы самообслуживания на базе речевых технологий. Разработка математических моделей производилась с учетом особенностей, вносимых этими технологиями: необходимость перевода вызова на оператора по причине ошибок распознавания в процессе самообслуживания, а также разница в скоростях и стоимостях обслуживания вызовов портами самообслуживания и операторами. Примерами систем обработки вызовов с сервисами самообслуживания на базе речевых технологий могут служить система «Автодиспетчер» для приема заявок на подачу такси, система «Автосекретарь» для диспетчеризации телефонных вызовов и др.
Математические модели для расчета характеристик обслуживания заявок в центрах обслуживания вызовов с сервисами самообслуживания
Для описания функционирования центра обслуживания вызовов с сервисами самообслуживания использована открытая экспоненциальная сеть массового обслуживания с двумя узлами, первый из которых описывает порты
самообслуживания, а второй - операторскую группу. Узел / сети представляет собой многолинейную СМО с идентичными приборами, / = 1,2. Поток заявок из внешнего источника является пуассоновским интенсивности X и поступает в узел 1 или 2 в зависимости от рассматриваемой дисциплины обслуживания. Время обслуживания заявки в узле / распределено экспоненциально с параметром
С вероятностью 1 - р обслуживание заявки в первом узле является успешным и в момент завершения обслуживания эта заявка покидает систему. В противном случае с вероятностью р обслуживание является неудачным (в ходе обработки запроса произошла ошибка, и запрос должен быть обработан оператором), и заявка переходит во второй узел (рис. 5.1).
Узел 2
| а(о>и1,е2(о<и2
Рис. 5.1. Схема сети массового обслуживания с двумя узлами.
Задачей является нахождение характеристик обслуживания заявок в системе при различных моделях управления очередью на входе и различном числе мест для ожидания в узлах.
Пусть число мест для ожидания в первом узле ограничено числом N (N < со), а во втором узле - неограниченно. Если в узле 2 есть свободные приборы или в узле 1 нет свободных мест для ожидания, то заявки из внешнего источника поступают на узел 2, в противном случае заявки поступают на узел 1. Если также в узле 2 освобождается прибор, и нет заявок в очереди узла, то заявка, стоящая первой в очереди узла 1 (если очередь не пуста), переходит в узел 2 и занимает освободившийся прибор.
Введен случайный процесс, описывающий состояние сети в момент времени к
где £.(0 - число заявок в /-м узле, / = 1, 2. Процесс {Х(1)\ г о является
з
однородным, марковским и при выполнении условия —<1 является
п2м
эргодическим. Рассмотрены стационарные вероятности
= НтР^'С) = (',7)1'=oj¿J > 0.
Уравнения баланса для стационарных вероятностей системы имеют вид:
Ял(0,0) = (I - р)лг,я(1,0)+ц2 л-(ОЛ); (5.1)
{Л+щ +jfi2)n(i,j) = Ä7z(i,j -1) + (¡41)(l - + 1,у) +
+ (i + 1)pmMi +1, у -1) + (у + 1)//2/т(/, у +1),
О^/ог,, 0<j<n2; (5.2)
(Я + ¡//, )>r(i,0) = (i +1)(1 - p)ßxx(i +1,0) + //2л-(/,1), 0 < / < п,; (5.3)
(ЛЛ,А|МЙ„0) = ^(я„1); (5.4)
W + «i А + Ми,, у) = Я*(«„ у -1) + (у + 1)а2я"(«, , у +1), 0< у <«2; (5.5) (Я + «i//! + )гг(И], п2) = Яят(и,, «2 -1) + Яя-(«,-1,«2) +
+ «1 (! - +1, я2) + пгцгл(пх, n2 +1) +
+ и2(и2я-(и1+1,«2); (5.6)
(Я+///, + п2цг)*(/,у) = Дл-(/ -1, у)/{,>0( + Ял-(/,у - 1)/^ j +
+ min, {< + 1,п,}//,((! - p)n(i +1 ,у)+pn{i + 1,у-1))+ + n2v27t(i,j +1) + (i +1 )рщлЦ +1, у -1) + (у + 1)//2ят(/, у +1),
0 < i < и,, у > я2, (;,у) * (я„ л2); (5.7)
(Я + и,//, + nifi2Mi, у) = Яя-(; - I,y)/fi>o} + п, (1 - р)р,л(/ + 1,у) + + ",PMMi + 1,у -l)/^) + п2ц2я(1, у +1) +
+ п1м2ж(1 + \,пг)1[^П2), n]<i<N, у >«2; (5.8)
(Я + /?[//, +/г2//2)я-(Лг,у) = Ял,(Л'- l,y') + «2//2^(W,y' + l), у > /г2, (5.9)
где /{/.'j - функция-индикатор события Е.
Введены в рассмотрение векторы стационарных вероятностей
где л-(/,у) = 0дпя и, <i< N, 0< j <п2.
После преобразования уравнений (5.1)-(5.9) в векторно-матричную форму получены следующие уравнения для векторов лj,j>Q\
^060,0 + ^61.0=0,
Xj-ßj-U + *jQjj + я= 0, у > о,
где матрицы Q, j, е {y'-l,y,y + l} имеют вид
QJ-ij = + ^/^"{арД^Р,...,«,^,/,^,...^}, у = 1^, (5.10)
öj-u =diag~{plp,2plp,...,(nl ~\)pxp,n]p[p,...,nlßlp}, j>n2,
О.)., =
+ {//,(1 - р),2щ(1 - р),...,(1 - р),0,...,0}, ; = 0,п2 -1, в).1 = • ,,„2, 9„„„а,..., }+
+ "2- Р) + |}+ {я,...,Я}, у > п2,
О ни = ¿¿К |с/ +1),//;,,-,О' + 1),;/;,0,...о|, у = о,п2 -Т,
о^и = ^{п2р2,...,п2р2}, }>п2, где = -(Я +у>2). - диагональная матрица размера и с
диагональными элементами ах,...,ап, и -
соответственно, нулевые матрицы размера п с под- и наддиагональными элементами а„...,дп_,.
Алгоритм для вычисления стационарных вероятностей Данный алгоритм основан на матрично-аналитическом подходе к анализу многомерных цепей Маркова, имеющих не более одной счетной компоненты. 1) Вычисляются матрицы С,, / > 0 :
= Н?м,,41 -Й+і,,ч2С/+і)_10+і./, і = п2,0,
= і>пг,
где матрица С является минимальным неотрицательным решением матричного уравнения
+ + 0„+1,„+2С2 =0 (5.11)
для произвольного т>п2. Необходимо отметить, что в силу (5.10) матрицы, входящие в уравнение (5.11), не зависят от от.
2) Вычисляются матрицы:
^о=/, ^=(-а,, - а.,г1, / > і.
3) Векторы -т,,/>1, находятся как = я-/;, />1, а вектор л-0 -как решение системы уравнений
в которой одна из строк заменяется на условие нормировки = 1, где е
- вектор-столбец, состоящий из единиц.
После вычисления стационарных вероятностей вычисляются характеристики обслуживания.
• Среднее число занятых приборов в первом и втором узлах
"l W 00
Ni=H Z ix(.i,j), N2 = £min {j,n2}nj. i=o;=o y=i
• Среднее число заявок в системе
1 = ££(' +iX'J).
i=0 J=0
• Вероятности того, что заявка, поступив в систему, попадает в первый узел
и второй узел, соответственно,
N-1 <о
Г1 = Е1>('</), г2=1-г,.
i=0y=n2
• Среднее время ожидания в системе (находим по формуле Лиггла)
Л '
• Среднее время ожидания заявки во втором узле
w _ ZüoJTj^M'J)
2 Л(1-г,(1-р)) '
Приведены также модели и получены формулы для расчета характеристик обслуживания для других вариантов организации очередей ожидания в узлах: отсутствие мест для ожидания в первом узле, неограниченные очереди в узлах. Задача оптимизации числа приборов в узлах
Введена следующая структура штрафов за функционирование системы: со,к ~ стоимость в единицу времени ожидания в очереди узла к,
си,к - стоимость в единицу времени использования прибора в узле к, се,к ~ стоимость в единицу времени простоя прибора в узле к, Cf - фиксированная стоимость включения системы мониторинга состояний. Задача состоит в минимизации функционала потерь:
,rh) = У(1,/лх,ц2,р,щ,п2) min, "|."2
который в данном случае имеет вид
Щ,п2) = с012, + с02 Q2 + с„ д С, + с„2Сг + cel Z, +ce2Z2 + c/^,
где öi =Z/=oZji=o-'?r(i + "ii/) и Q2 = jn(i,j+nz)обозначают среднее
число заявок в очереди к-го узла,
С| =Z/to£J=ominfc"iK'J) и Сг = обозначают среднее
число занятых приборов в к -ом узле,
Zl =ZZoS"lo("i~'Mv) и Zi =Z,"i)Z"io("2-yM'V) обозначают среднее число свободных приборов в к -ом узле,
в = 1 п ~ средняя длительность цикла между соседними посещениями
/иг(и,0)
состояния (0, 0).
В качестве примера рассмотрена система со следующим набором параметров: (Лс0д,с0 2,с„,,с„ 2,сед,2,су) = (0.9, 0.5, 0.7, 0.001, 5.5, 2.5, 0.001, 0.005, 0.001, 0.005, 0.9). Для такой системы оптимальное число приборов
равно (N¡,¡1?) = (3, 4) и оптимальное значение функционала потерь У{щ,п2) = 0.247.
Для случая {Ам^Иг,Р.^,сол,си},сиЛ,сеЛ,сеа,сг) = (2.5, 0.5, 0.7, 0.001, 5.5, 2.5, 0.01, 0.05, 0.01, 0.05, 2.9) оптимальные значения определяются как: (и,,«г) = (6, 4), У(п\,п2) = 1.011. Зависимость функции У^.щ) от числа приборов показана на рис. 5.2.
а) б)
Рис. 5.2. Значение функции У(п{,пг) в зависимости от числа приборов: а) (fh.fi) = (3,4); б) (fi.fi) = (6,4).
Оптимальное управление очередью для центра обслуживания вызовов с быстрыми и медленными приборами.
Для центров обслуживания вызовов с сервисами самообслуживания характерным является разница в скоростях и стоимостях работы приборов первого и второго узлов. Узел 1, моделирующий порты самообслуживания на базе ненадежного распознавателя речи, имеет более низкую скорость обслуживания, но при этом малые затраты на обслуживание. Узел 2, моделирующий работу операторов, является надежным, более быстрым и одновременно более дорогим по сравнению с узлом 1. Задача оптимального управления общей очередью в такой системе принадлежит к области задач управляемых марковских систем массового обслуживания.
Применительно к центрам с функциями самообслуживания задачей является поиск оптимального управления общей очередью с целью минимизации среднего времени пребывания заявок в системе.
Центр обслуживания вызовов с функциями самообслуживания вновь рассматривается как открытая экспоненциальная сеть массового обслуживания с
двумя узлами, каждый из которых представляет собой многолинейную систему массового обслуживания типа М/М/п, с идентичными приборами. Поток заявок в сеть является простейшим с параметром Я. Заявка, прибывающая в сеть, поступает в узел 1 или 2 в зависимости от числа заявок в узле 2. Если последнее равно или превышает пороговый уровень д2 (д2 > п2), то заявка направляется в узел 1, в противном случае - в узел 2.
Как только число заявок в узле 2 уменьшается до д3 - 1, а в узле 1 есть ожидающие заявки, то заявка, стоящая в начале очереди узла 1, переходит в конец очереди узла 2. Выбор данного вида управления обусловлен тем фактом, что время обслуживания в узле 1 может превышать время ожидания в узле 2, так как приборы узла 2 имеют более высокую скорость обслуживания.
Для решения задачи вводится случайный процесс {Л'(/)}, г 0 = ^2,(0>£?2(')1 ,
обозначающий состояние сети в момент времени и где Q{t) - число заявок в г-м узле сети в момент времени I, I = 1,2. Через Е = {* = (/,./).■/> 0} обозначается множество состояний процесса {*(/)}, к0> где состояние (/, /) случайного процесса означает, что в узле 1 находится / заявок, а в узле 2 - / заявок. Случайный процесс {Х(()\го, описывающий поведение этой системы,
является однородным и марковским. В предположении, что существуют стационарные вероятности
*('".Л = Нт ?[*(') = («•,Л],
выписывается система уравнений равновесия.
Результатом решения задачи является доказательство существования мультипликативной формы стационарных вероятностей с представлением всех вероятностей системы в виде функции, зависящей от вероятности ;г(0,(72 + 1), которая, в свою очередь, вычисляется из условия нормировки.
Вычислив стационарное распределение вероятностей состояний сети, можно получить характеристики обслуживания вызовов, формулы для которых приведены в диссертации.
Оптимизация порогового уровня и численные примеры
Для оптимизации порогового уровня дг введена следующая структура штрафов:
со,к - стоимость ожидания заявки в очереди узла к в единицу времени,
с и,к - стоимость работы одного прибора в узле к в единицу времени.
Задача состоит в минимизации функционала потерь
ЙЯ2) ■= . №. Р>«1 »■пг <12) ™п,
?2
который в данном случае имеет вид
Замечание. Из формулы (5.13) следует, что: 1) если с0,к = с„ к = 1, к = 1,2, то задача сводится к минимизации среднего числа заявок в системе N или времени пребывания Т.
(5.12)
(5.13)
2) если Со,к = 1, си к = 0, к = 1,2, то задача сводится к минимизации среднего числа заявок в очереди Q или времени ожидания W.
На рис. 5.5 показаны оптимальные пороговые уровни для различных значений стоимостей и интенсивностей обслуживания при некоторых заданных значениях параметров сети. На рис. 5.5 (а) для X = 0.9 показано влияние вероятности р ошибки при обслуживании в узле 1, а на рис. 5.5 (Ь) - влияние интенсивности 1 поступления новых заявок для р = 0.01 на функционал потерь V(qг2). Очевидно, что увеличение значений параметров р и I приводит к увеличению оптимального порогового уровня q2, так как в этом случае возрастает нагрузка на систему и возникает необходимость более интенсивного использования быстрого, но при этом дорогого узла 2.
а) _ Ь)
Рис. 5.5. Значение функции V(q2) для различных значений q3,p и Л.
В дополнение к аналитическим моделям для описания функционирования и оптимизации центров обслуживания вызовов с распознаванием речи создана методика и приведены формулы приближенного расчета числа и типов плат компьютерной телефонии для организации сервисов самообслуживания.
Разработан также метод расчета потребности в вычислительных ресурсах для программной реализации приложений на базе речевых технологий и создан программный инструмент для выполнения этих расчетов, который позволяет определить количество процессоров заданной производительности и их загрузку при решении конкретной задачи. Разработанная программа является простым и удобным инструментом, пригодным для приближенного расчета потребности в вычислительных ресурсах на ранних стадиях проектирования приложений.
Таким образом, в этой части диссертационной работы выполнены исследования, относящиеся к этапу включения приложений с использованием речевых технологий в состав центров обслуживания вызовов с целью организации сервисов самообслуживания. Разработаны аналитические модели таких центров, получены формулы для расчета характеристик обслуживания вызовов, решены оптимизационные задачи: оптимизация числа приборов в узлах и оптимальное управление очередью. Эти исследования являются важным дополнением существующего теоретического аппарата для описания,
исследования и оптимизации центров обслуживания вызовов современной архитектуры. Методика приближенного расчета потребности в платах компьютерной телефонии и программный инструментарий для расчета необходимых вычислительных ресурсов для систем на базе речевых технологий предназначены для выполнения инженерных расчетов на ранних стадиях проектирования таких систем.
В шестой главе описаны применения полученных выше научных результатов для создания двух систем с нетрадиционным использованием дикторонезависимых распознавателей речи.
Первая система представляет собой звуковой тренажер для обучения людей с нарушениями слуха правильному произношению звуков русского языка. Принцип действия тренажера состоит в спектральном преобразовании входного аудио сигнала, выявлении его характеристик, сравнении с эталоном и в возврате и представлении результата. В нашей стране по данным Всероссийского общества глухих сотни тысяч людей страдают нарушениями слуха. Включение их в трудовую и общественную жизнь тесно связано с обучением их устной вербальной речи. Как правило, артикуляционный аппарат этих людей не нарушен, но пользоваться им они не умеют без специального обучения. Целью создаваемого компьютерного тренажера являлась не замена сурдопедагога, а предоставление пользователям возможностей для дополнительных самостоятельных занятий. Такие возможности особенно важны при обучении детей с пониженным слухом или с нарушениями артикуляции, поскольку к процессу обучения детей могут подключаться родители, да и сами дети получат возможность отрабатывать артикуляцию дома, а не только в кабинете педагога.
Размещение подобных программ в интернете и предоставление онлайн доступа к ним значительно увеличивает число людей, получающих возможность тренировать звукопроизношение с домашних компьютеров.
Для решения поставленной задачи было принято решение использовать компьютерное распознавание речи в качестве анализатора поступающего от пользователя аудио сигнала. Ядро распознавателя и соответствующие программы обработки и управления располагаются в центральной части обрабатывающего комплекса, размещаемого на сервере. Пользователи получают на экран необходимые изображения, инструкции и подсказки. Специальная справочная информация дает пользователям общие сведения о звуках и подробное описание способа произнесения каждого отрабатываемого звука. Разработанная в рамках данного проекта система представляет собой тренажер для обучения и отработки звуков русского языка с онлайн доступом через интернет.
На рис. 6.1 представлена программная архитектура приложения «Звуковой тренажер», в основе которой лежит концепция «клиент — веб-сервер — сервер приложений».
Рис. 6.1. Архитектура программного приложения «Звуковой тренажер».
Система состоит из следующих компонентов:
• Клиент, которым является приложение, написанное на платформе Adobe Flash и встроенное в веб-страницу.
• Программный фреймворк клиентского приложения Adobe Flex 4.
• Веб-сервер nginx.
• Сервер приложений - медиа-сервер Red5.
• Распознаватель речи Nuance Recognizer 9.
В ходе работы приложения на стороне сервера также используется программное обеспечение для кодирования и декодирования медиа-информации ffmpeg.
Фреймворк Adobe Flex 4, сервера nginx и Red5, ffrnpeg являются программным обеспечением с открытым исходным кодом и, соответственно, распространяются бесплатно.
Большое внимание было уделено привлекательности интерфейса. На рис. 6.2 представлен пользовательский интерфейс. Как показали проведенные ' исследования, наиболее важную информацию неслышащие люди получают, наблюдая движения губ. В связи с этим было принято решение поместить на экран два окна, где демонстрируется движение губ при произнесении выбранного звука (вид анфас и в профиль). Используется также окно, где можно I наблюдать анимационное изображение работы артикуляционного аппарата для выбранного звука. Приводится текстовое описание работы речевого тракта и предоставлена возможность демонстрации звука путем нажатия соответствующей кнопки. Пользователю также обеспечена возможность контроля движения своих губ при произнесении им выбранного звука, если к его компьютеру подключена веб-камера. Для обеспечения обратной связи предусмотрена визуализация звука: на экран выводится изображение импульсно-кодовой модуляции эталонного и произнесенного звука.
Оценка качества произнесения звука производится как в числовой форме по 100-балльной шкале, так и графическим методом путем вывода на экран смайлика (используется условная 5-балльная шкала).
Рис. 6.2. Пользовательский интерфейс.
Звуковой тренажёр м
Тренажер для ¡тренировка яраизно'шехия зеук?з ВыЬерете звук ем. агп* > ... - -у-жъ*/, а»«?*?,):
Л Б В Г Л Е Й Ж 3 И и К Л М ЙОГ? Р ОТ У Ф х Ц ч ш Щ м & К) Я
з'Г; 4 к- . г м: н' а: г с т Ф~ тс
Поаяарайтвс&.црипрвтноштии повторить движения:
Особенности артикуляции зеухв «А*
Рот ашреко открыт. Губы сиохоЯш (яв 'я&вря&мш. я я?
Кокни» языка находится у кглш* зубов,
зрег^аг. Голотожке связки |?з$оса»г. горло
я$)оксвт<<кть голос).
Щ&К [А} — ¿»/¡«сшС'.
V-
Разработка является новой и оригинальной. В России и в мире отсутствуют тренажеры для тренировки и коррекции звукопроизношения с онлайн доступом через интернет.
Развитие функциональности тренажера идет в следующих направлениях: добавление функций тренировки дифтонгов, слогов и слов, разработка методики корректировки произношения, ведение индивидуального дневника учащегося и создание индивидуального учебного курса, который подстраивается под пользователя в процессе обучения, создание сервисов для педагогов, использующих данный тренажер.
Второй проект представляет собой систему речевого доступа на азербайджанском языке к объектам электронной карты города Баку.
Идея этого проекта состоит в том, чтобы использовать для распознавания азербайджанской речи фонетические и лингвистические модели для распознавания другого, близкого по звучанию, языка. Разработка базовой системы распознавания для любого языка является весьма дорогостоящим делом, поэтому к настоящему времени созданы распознаватели только для наиболее распространенных в мире языков и диалектов. Распознавателей для азербайджанского языка нет в их числе.
Для создания речевого доступа к электронной карте города Баку был выбран базовый пакет для распознавания турецкого языка. Выбор диктовался тем, что оба языка, турецкий и азербайджанский, принадлежат к тюркской
группе, имеют много общего в произношении большинства звуков и слов, их алфавиты отличаются лишь одной буквой.
Были произведены эксперименты с использованием турецкого языкового пакета распознавателя речи Nuance Recognizer 9. Для этой цели были выбраны названия 100 объектов, содержащихся на электронной карте Баку, и составлена соответствующая грамматика. В турецком языке отсутствует буква Q азербайджанского алфавита, поэтому при написании грамматик она была заменена на букву е. Затем был программно сгенерирован словарь автотранскрипций по внутренним правилам фонетического транскрибирования для турецкого языка. Анализ словаря автотранскрипций показал, что большинство слов получило фонетическое описание, адекватно отражающее их звучание на азербайджанском языке. Однако для 16 слов из 100 транскрипции пришлось изменить. Например, турецкое слово heyder произносится на турецком языке как hEdEr, т.е. буква у опускается при произношении, но то же слово heyder на азербайджанском языке звучит как hEjdEr, т.е. буква у должна быть отражена в фонетической транскрипции.
В табл. 6.1 приведен список слов, для которых были сделаны исправления в фонетических транскрипциях, и указаны сами эти исправления.
Таблица 6.1.
Список исправленных транскрипций для азербайджанских названий улиц Баку
Слово в Автотранскрипция Исправленная Буква Транскрибирование
словаре транскрипция ошибочное правильное
heyder hEdEr hEjdEr У j
azadhq azadllk azadllg l I 1
mustafa mUsdafa mUstafa t d t
babek babEk barbEk a a a:
tbilisi tbilisi tlblli:sl i I i:
neft?iler nEftdZIlEr nEftSIlEr 9 dZ S
bag ba bag g
geray gEra gEraj У j
vurgun vUrlin vUrgUn g g
semed sEmEd samEt sEmEt d d t
re§id rESId rESIt d d t
behbudov bEhbUdQv pEhbUtQv d d t
seferli sEfErll safErll e E a
eliaga Eltaa Elljaga ё g
dairesi darEsI da:jrEsI a i a a: j
ukrayna Ukrajna Ukra:jna a a a:
После внесения изменений в фонетические транскрипции доля правильно распознанных слов составила 0,94. Этот результат подтвердил возможность и целесообразность применения турецкого языкового пакета для распознавания азербайджанской речи.
На рис. 6.3 представлена архитектура системы речевого доступа к объектам электронной карты.
Рис. 6.3. Архитектура системы речевого доступа к объектам электронной карты.
Обращение к объектам электронной карты оператор осуществляет голосом через микрофон или гарнитуру с помощью проводной или беспроводной связи. В ходе короткого диалога формируется в текстовой форме адрес нужного объекта. Поддерживается возможность уточнения деталей местонахождения искомого объекта. Результат диалога транслируется в модуль динамического управления объектом карты. Разработка была применена в системе управления безопасностью города Баку.
Данная архитектурная модель была использована также для создания речевого интерфейса к электронной карте Москвы, где был применен русскоязычный распознаватель.
Речевой интерфейс к электронной карте города облегчает оператору работу и повышает эффективность оперативного наблюдения за ситуациями с целью обеспечения безопасности города и быстрого реагирования на чрезвычайные ситуации.
В заключении диссертации подведены итоги проведенных исследований и кратко изложены основные выводы.
В приложении приводится описание других конкретных прикладных систем, реализованных по результатам диссертации и в ходе исследований.
Основные научные и практические результаты диссертации
В результате проведенных автором исследований разработаны теоретические положения, совокупность которых можно квалифицировать как новый вклад в теорию создания автоматизированных систем массового обслуживания с речевыми технологиями и ее применения.
• Выполнен обзор и анализ современного состояния и тенденции развития систем массового обслуживания с целью поиска путей повышения их открытости, эффективности и доступности для более широких масс населения.
• Разработан информационно-вычислительный аппаратно-программный комплекс для автоматизации исследований свойств и характеристик распознавателей речи и процессов самообслуживания.
• Впервые в отечественной практике экспериментально исследованы характеристики распознавателей речи в контексте создания речевого доступа к услугам и сервисам систем массового обслуживания населения. Выявлены зависимости качества распознавания от фонетической модели, порога уверенности в распознавании, структур речевых блоков, от внешних влияний. На основе выполненных экспериментов получен ряд методических рекомендаций, которые позволяют разработчику речевых приложений прогнозировать показатели качества и обеспечивать их стабильность.
• Исследован речевой интерфейс как относительно малоизученный тип человеко-машинного взаимодействия, определены присущие ему ограничения с учетом слабостей человека и ошибок машинной стороны и выработаны практические рекомендации для проектировщиков. Разработана методология создания прикладных систем с речевым интерфейсом.
• Реализован метод автоматизированного накопления статистических данных об ошибках распознавания речи и разработаны модели и алгоритмы коррекции результатов распознавания на основе знаний об ошибках.
• Разработана система оценок и аналитические модели для анализа и оптимизации речевого диалога с различными процедурами обнаружения и коррекции ошибок на основе применения принципа квантификации.
• Созданы математические модели для расчета вероятностно-временных характеристик обслуживания вызовов и оптимизации функционирования контакт-центров с сервисами самообслуживания на базе речевых технологий.
• Разработанные принципы, модели и методы внедрены:
- в системах с нетрадиционным применением речевых технологий: веб приложение «Звуковой тренажер», предназначенное для онлайн-обучения людей с нарушением слуха правильному произношению звуков русского языка, и система речевого управления электронной картой г. Баку, в которой реализована идея применения для распознавания азербайджанской речи пакета другого, фонетически близкого, языка;
- в первых в России прикладных системах телефонного самообслуживания различного профиля с речевыми технологиями (получение справок об авиарейсах, заказ такси, автосекретарь, речевое управление электронными кошельками и др.);
- в универсальных блоках распознавания русской речи, включающих словари и грамматики: цифры, числа, города, даты, время суток, денежные суммы, номера телефонов, названия улиц Москвы и др., и соответствующей им базе аудио-файлов.
Публикации по теме работы а) Публикации в рецензируемых журналах ВАК
1. Фархадов М.П. Распознавание речи в системах массового обслуживания населения // Труды СПИИРАН. 2011. Вып. 19. С. 65-86.
2. Фархадов М.П., Петухова Н.В., Ефросинин Д.В., Семенова О.В. Моделирование гибридного центра связи с сервисами самообслуживания и пороговым управлением размещением заявок / Управление большими системами. 2010. №30-1. С. 352-370.
3. Фархадов М.П., Петухова Н.В., Ефросинин Д.В., Семенова О.В. Двухфазная модель с ограниченными очередями для расчета характеристик и оптимизации речевых порталов самообслуживания / Проблемы управления. 2010. № 6. С. 53-57.
4. Фархадов М.П., Васьковский C.B., Ревонченкова И.Ф. Построение интеллектуальных информационных контакт-центров // Автоматизация и современные технологии. 2011. № 4. С. 14-23.
5. Билик Р.В., Жожикашвили В.А., Петухова Н.В., Фархадов М.П. Анализ речевого интерфейса в интерактивных сервисных системах I. /
Автоматика и телемеханика. 2009. №2. С. 80-89.
6. Билик Р.В., Жожикашвили В.А., Петухова Н.В., Фархадов М.П. Анализ речевого интерфейса в интерактивных сервисных системах II. /
Автоматика и телемеханика. 2009. №3. С. 97-113.
7. Петухова Н.В., Фархадов М.П., Трощенко А.Ю. Анализ эффективности голосовой системы самообслуживания с распознаванием речи // Автоматизация и современные технологии. 2008. № 10. С. 21-27.
8. Жожикашвили В.А., Билик Р.В., Вертлиб В.А., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Интеллектуальные телефонные услуги на основе речевых технологий // Информационно-измерительные и управляющие системы. 2007. № 2. С. 75-78.
9. Жожикашвили В.А., Билик Р.В., Трощенко А. Ю., Петухова Н.В., Фархадов М.П. Интеграция автоматизированных систем массового обслуживания на основе речевых технологий и web-сервисов // Проблемы управления, 2007, № 3. С. 54-58.
10. Жожикашвили В. А., Трощенко А. Ю., Петухова Н.В., Фархадов М.П. Архитектура и тенденции развития контакт-центров// Автоматизация и современные технологии. 2007. №3. С. 19-31.
11. Фархадов М.П., Жожикашвили А. В. Математическая модель для расчета среднего числа переспросов при компьютерном распознавании речи // Проблемы управления. 2006. №2. С. 38-41.
12. Жожикашвили В.А., Петухова Н.В., Фархадов М.П. Компьютерные системы массового обслуживания и речевые технологии II Проблемы управления. 2006. № 2. С. 3-7.
13. Жожикашвили В.А., Андрейчук А.Ю., Петухова Н.В., Фархадов М.П. Методы повышения устойчивости систем с распознаванием речи и оценка временных параметров речевого интерфейса // Автоматизация и современные технологии. 2005. № 10. С. 22-28.
14. Жожикашвили В.А., Билик Р.В., Вертлиб В.А., Жожикашвши A.B., Петухова Н.В., Фархадов М.П. Открытые системы массового обслуживания с распознаванием речи // Проблемы управления. 2003. № 4. С. 55-62.
15. Жожикашвили В.А., Жожикашвили A.B., Петухова Н.В., Фархадов М.П. Применение распознавания речи в автоматизированных системах массового обслуживания // Автоматизация и современные технологии. 2003. №11. С. 22-28.
16. Жожикашвили В.А.. Жожикашвили A.B., Петухова Н.В., Ребортович Б.И. Фархадов М.П. Построение структуры человеко-машинного интерфейса для автоматизированных систем массового обслуживания // Автоматизация и современные технологии. № 3. - 2000. - С. 5-9.
17. Ефросинин Д.В., Фархадов М.П. Оптимальное управление системой с постепенными и внезапными отказами / Надежность. 2009. №1 (29). С. 27-42.
18. Жожикашвили В.А., Никифоров C.B., Талибов Е.Г., Фархадов М.П. Интегрированная автоматизированная система управления Ямбургского газоконденсатного // Автоматизация и современные технологии. №11. 2001.
19. Ахмедов М.А., Талибов Э.Г., Фархадов М.П. Создание динамической экспертной оболочки и организация обработки знаний в виде системы продукции в автоматизированных системах управления технологическими процессами газоконденсатного месторождения // Автоматика и Телемеханика. 1998. № 6. С. 172-178.
б) Монографии
20. Билик Р.В., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Под ред. проф. Жожикашвили В.А. Анализ речевого интерфейса при взаимодействии клиента с автоматизированной системой массового обслуживания. M.: МАКС Пресс. 2007. 112 с.
21. Билик Р.В., Мясоедова З.П., Петухова Н.В., Фархадов М.П., Трощенко А.Ю. Принципы построения интерактивных систем самообслуживания с речевыми технологиями. М.: МАКС Пресс, 2008. - 142 с.
22. Вертлиб В.А., Фархадов М.П., Петухова Н.В. «Электронное государство» как Автоматизированная система массового обслуживания населения. М.: МАКС Пресс, 2008. -148 с.
23. Билик Р.В., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Инженерные методы расчета сетей при проектировании распределенных автоматизированных систем массового обслуживания; ИПУ РАН. - М.: МАКС Пресс, 2010. - 256 с.
в) Статьи в научных сборниках и периодических научных изданиях
24. Абраменков А.Н., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Исследование влияния параметров настройки распознавателя на качество распознавания речи // Труды 2-ой Российской конференции с международным участием «Технические и программные средства систем управления, контроля и измерения» (УКИ-10). ИПУ РАН. 2010. С. 01-07.
25. Билик Р.В., Вертлиб В.А., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Речевые технологии как инструмент улучшения информационного и сервисного обслуживания населения // Сборник материалов II Ежегодной всероссийской научно-практической конференции «Перспективы развития информационных технологий». Новосибирск: СИБПРИНТ, 2010. С. 300-303.
26. Жожикашвили В.А., Петухова N.B., Фархадов М.П. Мультисерверная архитектура интеллектуальных порталов самообслуживания // IY Международная конференция по проблемам управления (МКПУ-IV). - Москва. - 2009. - С. 17441748.
27. N. Petukhova, M. Farkhadov, A. Troshchenko. Multichannel Interactive Speech SelfService Systems // Selected Lectures on Multiple Access and Queuing Systems (revised selected papers from MACOM-2008), SUAI, Saint-Petersburg, Russia, 2008, pp. 108113.
28. Мясоедова З.П., Петухова H.B., Фархадов М.П. Сурдосервер на основе речевых и мультимедийных технологий II IX Международный форум «Высокие технологии XXI века - 2008». Материалы конференции. M.: ВК ЗАО «Экспоцентр». 2008. С. 248-251.
29. Alexey Troshchenko, Mais Farkhadov. Web-Service enabled Voice Applications and Dialogue optimization techniques. Proc. of XII International Conference «Speech and Computen (SPECOM'2007). Moscow: MSLU, 2007. P. 766-771.
30. Жожикашвили B.A., Трощенко A. Ю„ Петухова H.В., Фархадов М.П. Автоматизация контакт-центров на основе речевых технологий и web-сервисов // Материалы конференции «Высокие технологии XXI века. VIII Международный форум». 2007. С. 310-314.
31. Жожикашвили В.А., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Речевые технологии как основа повышения эффективности автоматизированных систем массового обслуживания // Международная научная конференция "Проблемы кибернетики и информатики". Баку. 2006. С. 53-56.
32. Жожикашвили В.А., Билик Р.В., Вертлиб В.А., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Речевые технологии как инструмент улучшения обслуживания населения в современном информационном обществе. H VI Международный форум «Высокие технологии XXI века ВТ XXI - 2005». M.: ВК ЗАО «Экспоцентр». 2005. С. 274-276.
33. Жожикашвили В.А., Билик Р.В., Вертлиб В.А., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Компьютерное распознавание речи в автоматизированных системах массового обслуживания // Российский форум «ПРОМЭКСПО». «Современные технические и программные средства обеспечения АСУ и АСУ ТП». M.: ГАО ВВЦ. 2005. С. 19-22.
34. Жожикашвили В.А., Билик Р.В., Жожикашвили A.B., Петухова Н.В., Фархадов М.П. Распознавания речи в системах массового обслуживания. Труды Института. Том XXIII. М.: Институт проблем управления им. В.А. Трапезникова. 2004. С. 110116.
35. У. A. Zhozhikashvili, M.P. Farkhadov, N. V. Petukhova and A.V. Zhozhikashvili «The first voice recognition applications in Russian language for use in the interactive information systems». Proceedings of the Ninth International Conference «Speech and Computer» SPECOM'2004, Saint-Petersburg, 2004, p. 304-307.
36. Жожикашвили B.A., Жожикашвили A.B., Петухова Н.В., Фархадов М.П. Новый человеко-машинный интерфейс для автоматизированных систем массового обслуживания // Труды Института проблем управления РАН. - М.: ИПУ РАН им. В.А. Трапезникова. -2000. - T. IX. - 5 с.
37. Жожикашвили В.А., Жожикашвили A.B., Петухова Н.В., Ребортович Б.И. Фархадов М.П. Голосовое управление в новом поколении больших автоматизированных систем массового обслуживания // Труды XIV международного симпозиума управление большими системами «CONTROL'2000». - Тбилиси. - 2000. - С. 119-121.
38. Жожикашвили В.А., Вертлиб В.А., Ребортович Б.И., Петухова КВ., Фархадов М.П. Автоматизированные системы управления процессами массового обслуживания нового поколения // Труды Института проблем управления РАН. -М.: ИПУ РАН им. В. А. Трапезникова. - 1999. - T. IV. - С. 17-26.
39. Zhozhikashvili V.A., Farkhadov M.P. and Zhozhikashvili A.V. Mathematical model of Man-machine Dialogue that Involves Natural Language in Queuing Systems of New Generation // International Conference «Distributed Computer Communication Networks (DCCN-99), Theory and Application», Pros., Tel-Aviv, 1999. P. 230-235.
40. Жожикашвили B.A., Жожикашвили A.B., Фархадов М.П. Принципы построения системы общения с использованием естественного языка в больших автоматизированных системах массового обслуживания нового поколения // Массовое обслуживание. Потоки, системы, сети. Сборник материалов 14-й Белорусской зимней школы-семинара по теории массового обслуживания. -Минск, - 1998. С. 190-194.
г) Публикации в материалах научных мероприятий (международных и российских конференциях)
41. М. Farkhadov, N. Petukhova, D. Efrosinin, О. Sentenova A model to control a queue in a voice self-service portal with fast and slow servers // The Third International Conference «Problems of Cybernetics and Informatics» September 6-8, 2010, Baku, Azerbaijan. Section №4 «Applied Stochastic Analysis» www.pci2010.science.az/4/29.pdf. Baku: Elm, 2010. P. 239-243.
42. Вертлиб B.A., Жожикашвили B.A., Петухова H.B., Фархадов М.П. Интеллектуальные методы доступа к информации и услугам на основе речевого интерфейса / Материалы II Международной конференции «Управление развитием крупномасштабных систем MLSD'2008». Том II. М.: ИПУ РАН, 2008. С. 76-78.
43. Вертлиб В.А., Мясоедова М.А., Петухова Н.В., Фархадов. Создание виртуального сурдопереводчика с применением технологии распознавания речи / V Всероссийская школа-семинар молодых ученых «Управление большими системами». Региональная конференция молодых ученых. Липецк: 2008.Том 2. С. 12-13.
44. Mais Farkhadov. Architecture of the open server for interactive information and service systems / The Second International Conference «Problems of Cybernetics and Informatics РСГ2008». V. I. Baku: Azerbaijan National Academy of Sciences, 2008. Pp. 153-154.
45. Radiy Bilik Nina Petukhova, Mais Farkhadov. Creation of mathematical models for research of the speech interface // The Second International Conference «Problems of Cybernetics and Informatics РСГ2008». V. I. Baku: Azerbaijan National Academy of Sciences, 2008. Pp. 154-155.
46. Жожикашвили B.A., Петухова H.B., Фархадов М.П. Методы анализа речевого потока / Материалы Российской конференции с международным участием «Технические и программные средства систем управления, контроля и измерения УКИ'08». М.: ИПУ РАН, 2008. С. 304-305.
47. Петухова Н.В., Мясоедова З.П., Фархадов М.П. Сервер доступа для систем массового обслуживания / Материалы Российской конференции с международным участием «Технические и программные средства систем управления, контроля и измерения УКИ'08». М.: ИПУ РАН, 2008. С. 306-307.
48. Жожикашвили В.А., Петухова Н.В., Трощенко А.Ю., Фархадов М.П. Автоматические информационные транспортные системы на основе речевых технологий и web-сервисов//Труды конференции MLSD'2007. С. 125-126.
49. Фархадов М.П., Петухова Н.В., Трощенко А.Ю. Голосовые услуги с использованием речевых технологий и интернет-сервисов / Труды конференции «Интеллектуальные услуги в телефонных сетях. Рынок VAS. Технологии и бизнес». М.: КомпТек, 2007. С.6-9.
50. Билик Р.В., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Математические модели для выбора сценария в информационных системах с распознаванием речи Н Труды Международной научно-практической конференции «Информационные технологии и информационная безопасность в науке, технике и образовании (ИНФОТЕХ-2007)». Севастополь: СевНТУ. 2007. С. 134-136.
51. Жожикашвили В.А., Петухова Н.В., Фархадов М.П. Речевые технологии в информационных и управляющих системах // Труды III Международной конференции по проблемам управления. - М.: ИПУ РАН. - 2006. - Т 1. - С. 119.
52. Жожикашвили В.А., Билик Р.В., Вертлиб В.А., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Распознавания речи в системах массового обслуживания. У-й Международный форум «Высокие технологии XXI века», Материалы конференции. М.: ВК ЗАО «Экспоцентр». 2004. С. 316-317.
53. Билик Р.В., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Речевой интерфейс как разновидность человеко-машинного взаимодействия // Материалы международной научно-практической конференции «Информационные технологии и информационная безопасность в науке, технике и образовании (ИНФОТЕХ-2009)». Севастополь: СевНТУ, 2009. С. 279-282.
Личный вклад автора в совместные публикации
В работах [2, 3, 41] автору принадлежат постановки задач, а также архитектура СМО с сервисами самообслуживания и математическая модель для расчета количественных характеристик системы. В [4, 7, 8, 25, 30, 31, 40] автором написаны разделы, относящиеся анализу эффективности систем с распознаванием речи, и получены соответствующие результаты. В [5, 6, 20, 36, 45, 50, 53] выполнена разработка аналитических моделей для оценки ряда характеристик человеко-машинного диалога, предложена классификация диалогов при речевом взаимодействии клиента с АСМО, разработаны методы анализа и оптимизации диалога на основе применения принципа квантификации. Вклад в работах [9, 10, 21, 27, 29, 49] заключается в разработке структуры для создания интеллектуальных интерактивных телефонных приложений с речевым интерфейсом и сервисами самообслуживания. В [11, 13, 14, 15, 35, 39] автором предложены методы повышения устойчивости систем с распознаванием речи, реализован метод автоматизированного накопления статистических данных об ошибках распознавания и разработаны модели и алгоритмы управления диалогом на основе знаний об ошибках. В [17, 18, 19] разработаны методические рекомендации по оптимальному управлению системой с отказами и создана динамическая модель управления и организации обработки знаний. В [24, 47] автором предложены методы тестирования распознавателей и экспериментально исследованы их характеристики в контексте создания речевого доступа к услугам и сервисам систем массового обслуживания населения. В [22, 23, 26, 33, 34, 52] написаны разделы относительно областей применения речевых технологий и предложена концепция их интеграции в СМО. В [28, 43] исследованы области нетрадиционного применения речевых технологий для поддержки людей с нарушением слуха. В [12, 32, 37, 38, 46, 48, 51] автором разработана серия интеллектуальных систем речевого диалога клиентов по телефону с АСМО на основе технологии распознавания речи.
Напечатано с готового оригинал-макета
Издательство ООО "МАКС Пресс" Лицензия ИД N 00510 от 01.12.99 г. Подписано в печать 23.01.2012 г. Формат 60x90 1/16. Усл.печл. 2,0 Тираж 120 экз. Заказ 012. Тел. 939-3890. ТелУФакс 939-3891. 119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова, 2-й учебный корпус, 527 к.
Оглавление автор диссертации — доктора технических наук Фархадов, Маис Паша оглы
Введение.
Глава 1. АНАЛИЗ РАЗВИТИЯ АСМО И КОНЦЕПЦИЯ 13 ИСПОЛЬЗОВАНИЯ СОВРЕМЕННЫХ РЕЧЕВЫХ И ТЕЛЕКОММУНИКАЦИОННЫХ ТЕХНОЛОГИЙ ДЛЯ ПОВЫШЕНИЯ ДОСТУПНОСТИ И ЭФФЕКТИВНОСТИ АСМО.
1.1. Системы массового обслуживания населения на современном этапе: сетевые и телефонные системы обслуживания.
1.2. Речевые технологии.
1.3. Скрытые марковские модели
1.4. Концепция системного решения проблемы повышения доступности и эффективности АСМО на базе современных речевых и телекоммуникационных технологий и условия ее реализации.
Глава 2. ИССЛЕДОВАНИЕ И РАЗРАБОТКА РЕЧЕВОГО
ЧЕЛОВЕКО-МАШИННОГО ИНТЕРФЕЙСА.
2.1. Архитектура и характеристики распознавателей.
2.1.1. Архитектура распознавателей.
2.1.2. Терминология и специальные свойства распознавателей речи.
2.1.3. Экспериментальные исследования свойств распознавателей.
2.1.4. Влияние настройки параметров системы на результаты распознавания.
2.1.5. Влияние порога уверенности на результаты распознавания.
2.1.6. Зависимость качества распознавания от нескольких параметров.
2.2. Проектирование речевого интерфейса.
2.2.1. Свойства речи как элемента человеко-машинного взаимодействия.
2.2.2. Общие принципы проектирования человеко-машинных интерфейсов.
2.2.3. Особенности проектирования речевого интерфейса
2.2.4. Взаимосвязь между грамматиками и промптами.
2.2.5. Рекомендации по проектированию речевого интерфейса.
2.3. Проектирование грамматик
2.4. Влияние дизайна интерфейса и настройки параметров на качество работы системы с распознаванием речи.
Глава 3. ОБНАРУЖЕНИЕ H КОРРЕКЦИЯ ОШИБОК
РАСПОЗНАВАНИЯ РЕЧИ.
3.1. Виды ошибок.
3.2. Критерии надежности распознавания.
3.3. Критерии качества и устойчивость систем с распознаванием 95 речи.
3.4. Общая стратегия выявления и коррекции ошибок.
3.5. Способы обнаружения ошибок.
3.5.1. Анализ возвращаемого распознавателем сообщения об ошибке.
3.5.2. Анализ уровня уверенности в гипотезе.
3.5.3. Анализ возвращаемой гипотезы.
3.6. Выбор оптимальной величины порога уверенности в гипотезе для вызова процедуры подтверждения.
3.7. Запросы подтверждения.
3.8. Разработка методов коррекции ошибок на основе накопления и использования статистических данных.
3.9. Адаптивная коррекция ошибок при несимметричном искажении слов.
Глава 4. АНАЛИЗ И ОПТИМИЗАЦИЯ СЦЕНАРИЕВ И АЛГОРИТМОВ УПРАВЛЕНИЯ ДИАЛОГОМ С
ПЕРЕСПРОСАМИ.
4.1. Классификация типов диалогов.
4.2. Оценка вероятности успешного завершения диалога при переспросах.
4.2.1. Диалог из простых элементов
4.2.2. Диалог из составных элементов.
4.2.3. Диалог из простых и составных элементов.
4.3. Время правильного распознавания элемента диалога при переспросах.
4.3.1. Простой элемент диалога
4.3.2. Составной элемент диалога
4.4. Оценка продолжительности диалога.
4.4.1. Предельные оценки продолжительности диалога.
4.4.2. Средняя оценка продолжительности диалога.
4.5. Сравнительный анализ алгоритмов управления диалогом.
4.5.1. Диалог из простых элементов.
4.5.2. Диалог из простых и составных элементов.
4.5.3. Диалог без подсказок системы при формировании запроса клиента(«монологовое» взаимодействие).
4.6. Анализ результатов исследования сценариев и алгоритмов управления диалогом.
4.7. Методика выбора оптимальных сценариев и алгоритмов управления диалогом.
4.8. Примеры применения методики выбора оптимальных сценариев и алгоритмов управления диалогом.
4.8.1. Получение справки о рейсах.
4.8.2. Заказ такси.
Глава 5. АНАЛИЗ И ОПТИМИЗАЦИЯ ФУНКЦИОНИРОВАНИЯ
ТЕЛЕФОННЫХ КОНТАКТ ЦЕНТРОВ С СЕРВИСАМИ САМООБСЛУЖИВАНИЯ НА ОСНОВЕ РЕЧЕВЫХ ТЕХНОЛОГИЙ.
5.1. Структура центров обслуживания вызовов с сервисами самообслуживания.
5.2. Математические модели для расчета характеристик обслуживания заявок в центрах обслуживания вызовов с сервисами самообслуживания.
5.2.1. Случай отсутствия мест для ожидания в первом узле и неограниченного накопителя во втором узле.
5.2.2. Случай ограниченного числа мест для ожидания в первом узле и неограниченного накопителя во втором узле.
5.2.3. Бесконечное число мест для ожидания в обоих узлах.
5.3. Оптимальное управление очередью для центра обслуживания 242 вызовов с сервисами самообслуживания.
5.3.1. Стационарное распределение вероятностей состояний 244 сети.
5.3.2. Характеристики обслуживания вызовов для случая 250 порогового управления общей очередью.
5.3.3. Оптимизация порогового уровня и численные 253 примеры.
5.4. Приближенный расчет числа и загрузки телефонных каналов
5.5. Расчет вычислительных ресурсов.
Глава 6. СИСТЕМЫ С НЕТРАДИЦИОННЫМ ПРИМЕНЕНИЕМ
РЕЧЕВЫХ ТЕХНОЛОГИЙ.
6.1. Звуковой тренажер для обучения правильному звукопроизношению людей с нарушением слуха.
6.1.1. Разработка интерфейса для звукового тренажера. Назначение и принцип работы.
6.1.2. Программная архитектура системы.
6.1.3. Техническое решение и характеристика.
6.2. Система речевого доступа на азербайджанском языке к объектам электронной карты города Баку.
Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Фархадов, Маис Паша оглы
Диссертационная работа посвящена применению речевых технологий в автоматизированных системах массового обслуживания (АСМО) с целью облегчения доступа населения к информации и услугам. Актуальность проблемы доступа людей к информации на переходном этапе продвижения страны и мира к информационному обществу не вызывает сомнений. Быстро развивающиеся информационные и телекоммуникационные технологии проникают во все сектора экономики: в производство, в сферу услуг, в образование, в государственное управление, банковскую сферу, в частный бизнес и др. Наблюдается тенденция к социализации информации -нарастанию количества информации, которая необходима людям в их повседневной жизни. Помимо наличия знаний и информации, для развития информационного общества необходимо создание условий для того, чтобы члены общества имели доступ к информации и умели ее использовать. Несмотря на бурное развитие технологий, в мире существует проблема информационного неравенства. Для России сложилась ситуация, когда темпы роста информатизации оказались выше, чем темпы развития компьютеризации и коммуникаций. Это привело к обострению проблемы неравного доступа граждан к информации, особенно малообеспеченных людей и населения отдаленных регионов. В качестве одного из средств для смягчения этой трудной проблемы в диссертации рассмотрены речевые технологии, достигшие за последние годы достаточно высокого уровня качества и способные обеспечить гражданам дополнительный, а иногда и единственный, канал доступа к информационным и сервисным системам. Создание телефонных сервисов самообслуживания, речевых порталов и речевых браузеров повышает эффективность АСМО и решает актуальную народнохозяйственную и социальную задачу облегчения доступа населения к информации и услугам.
Цель работы состоит в разработке теоретических основ и практически значимых решений фундаментальных проблем использования речевых технологий в сетевых и телефонных системах массового обслуживания.
Были поставлены и решены следующие задачи:
- анализ тенденций развития автоматизированных систем массового обслуживания населения на современном этапе;
- анализ качества функционирования существующих распознавателей речи и экспериментальное исследование их свойств;
- разработка эффективного по затратам времени и по результативности речевого человеко-машинного интерфейса к АСМО как разновидности человеко-машинного взаимодействия; разработка новых алгоритмов и программ накопления и использования знаний о результатах распознавания речи для коррекции ошибок распознавания;
- анализ и оптимизация сценариев речевого диалога;
- разработка математических моделей для расчета вероятностно-временных характеристик обслуживания вызовов и оптимизации функционирования контакт центров с сервисами самообслуживания на базе речевых технологий;
- внедрение полученных результатов в практических системах с речевым интерфейсом.
Научная новизна. Новизна диссертации состоит в том, что впервые разносторонне исследованы русскоязычные речевые технологии, пригодные для организации интерактивного речевого взаимодействия; разработаны принципы создания эффективного речевого человеко-машинного интерфейса; созданы методы повышения устойчивости и надежности систем с речевым интерфейсом; разработаны математические модели анализа и оптимизации речевого диалога; созданы алгоритмы и программы коррекции ошибок на основе автоматического накопления и использования статистических данных и знаний о результатах распознавания; разработаны 6 математические модели для расчета характеристик обслуживания заявок и оптимизации функционирования центров обслуживания вызовов современной архитектуры, имеющих сервисы самообслуживания на базе речевых технологий.
Научная новизна выполненной работы по ее постановке и основные результаты, выносимые на защиту, состоит в следующем:
1. разработаны и исследованы новые методы и алгоритмы эффективного речевого взаимодействия клиентов с АСМО на базе речевых технологий;
2. разработан технологический аппаратно-программный комплекс для автоматизации исследований свойств и характеристик распознавателей речи и процессов самообслуживания в многоканальном режиме;
3. предложены новые методики разработки речевых порталов, сетевых и телефонных сервисов самообслуживания с речевыми технологиями на основе результатов экспериментального определения качества и эффективности распознавателей речи;
4. разработаны новые алгоритмы, программы и методы для выявления и коррекции ошибок на основе автоматического накопления статистических данных и знаний о результатах распознавания речи, позволяющие сократить длительность диалога;
5. разработана классификация речевого диалогового человеко-машинного взаимодействия и методы и алгоритмы оценок для сравнительного анализа и оптимизации сценариев речевого диалога;
6. разработаны математические модели для расчета вероятностно-временных характеристик обслуживания заявок и оптимизации функционирования сетевых СМО с автоматическим выбором типа сервиса самообслуживания.
Достоверность и обоснованность научных положений, выводов и рекомендаций. Научные положения, выводы диссертации обоснованы с использованием теории массового обслуживания, теории вероятностей и математической статистики, теоретических основ программирования, а также проверены экспериментально и подтверждены испытаниями на научноисследовательском полигоне ИЛУ РАН, актами внедрений, практическим применением в нескольких компаниях.
Исследования по теме диссертационной работы проводились в соответствии с плановой тематикой работ ИЛУ РАН (в рамках тем 331-04/17, 305-07/17, 817-08/17), а также при поддержке РФФИ (гранты 05-08-18075-а, 08-08-01022-а, 09-08-01168-а).
Практическая ценность. Показана возможность и целесообразность применения речевых технологий в системах массового обслуживания. Разработаны практические рекомендации по речевому человеко-машинному интерфейсу. Создана методология проектирования систем с речевыми технологиями и методика оптимизации и управления диалогом. Реализованы различные интерфейсы взаимодействия с удаленными прикладными системами. Созданы универсальные речевые блоки, база аудио файлов и конкретные системы с их использованием, в том числе система «Звуковой тренажер» для людей с ограниченными возможностями.
Применение результатов работы позволяет существенно расширить круг пользователей систем массового обслуживания, предоставив им удобный дополнительный, а иногда и единственный, канал доступа к услугам этих систем. Это обеспечит новый уровень информационных услуг, предоставляемых населению и организациям в режиме самообслуживания, а также повысит эффективность использования систем массового обслуживания.
Разработанные математические модели, алгоритмы и программы могут быть использованы для дальнейшего развития и совершенствования автоматизированных систем массового обслуживания.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Международной конференции «Distributed Computer Communication Networks. Theory and Application» (Тель-Авив, 1999 г., София, 2009 г., Москва, 2010 г.); Международном семинаре «Информационные сети, системы и технологии (ИССТ-97)» (Ярославль, 1997 8 г.); Международной конференции «Математические методы исследования систем и сетей массового обслуживания» (Минск, 1998 г.); XIV международном симпозиуме по управлению большими системами «CONTROL'2000» (Тбилиси, 2000 г.); 8-ой Международной конференции «Проблемы управления безопасностью сложных систем» (Москва, 2000 г.); 16-ой Белорусской школе по теории массового обслуживания (Минск, 2001 г.); 9-ой Международной конференции «Речь и компьютер» (SPECOM'2004) (Санкт-Петербург, 2004 г.); Научной сессии Отделения информационных технологий и вычислительных систем РАН «Распознавание речи» (Москва, 2003 г.); II, III, IV Конференциях «Интеллектуальные услуги в телефонных сетях. Мобильный контент. Технологии и бизнес» (Виноградово, 2005 г., 2006 г., 2007 г.); IV, V, VIII, IX, X Международных форумах «Высокие технологии XXI века» (Москва, 2004 г., 2005 г., 2007 г., 2008 г., 2010 г.); Международной научной конференции «Проблемы кибернетики и информатики» (Баку, 2006 г.); Научно-практической конференции «Современные технические и программные средства обеспечения АСУ и АСУ ТП» (Москва, 2005 г.); Конференции «Перспективы развития робототехники для экстремальных ситуаций» (Москва, 2006 г.); Конференции «ИНФОТЕХ-2007» (Севастополь. 2007 г.); XII International Conference Speech and Computer (SPECOM'2007) (2007, Москва); International Workshop on Multiple Access and Queuing Systems MACOM-2008 (Saint-Petersburg, 2008); International Conference «Problems of Cybernetics and Informatics», 2008, 2010 Baku; I, II и III Международных конференциях «Управление развитием крупномасштабных систем MLSD», (Москва, 2007 г., 2008 г., 2010 г., 2011 г.); Российской конференции с международным участием «Технические и программные средства систем управления, контроля и измерения» (Москва, 2008 г., 2010 г.); Научно-практической конференции «Современные информационные технологии в городском хозяйстве» (Москва, 2008 г.); IV Международной конференции по проблемам управления (МКПУ-IV) (Москва, 2009 г.); Международной конференции 9
Современные математические методы анализа и оптимизации информационно-телекоммуникационных сетей» В\¥\\^)Т-2009 (Минск, 2009 г.), IX Международной конференции по финансово-актуарной математике и эвентоконвергенции технологий, Красноярск, 2010.
Результаты работы демонстрировались на 12 выставках (2003-2010 гг.) и неоднократно награждались медалями и дипломами.
Состав диссертации. Диссертация состоит из Введения, 6 глав, Заключения и Приложения.
Заключение диссертация на тему "Речевые технологии в автоматизированных системах массового обслуживания"
вывод V
Управление диалогом у~ Внешние" системы Г И БД
Рис. 2.1. Элементы речевой системы.
Модуль распознавания речи получает на входе акустические сигналы и преобразует их в текстовое представление. Выходом этого модуля является, как правило, не одно слово или словосочетание, а так называемый граф слов, который содержит альтернативные гипотезы. Каждая из этих альтернатив в графе слов содержит показатель уверенности распознавателя в данной гипотезе. Эта информация может использоваться далее для оценки ситуации и управления диалогом. Количество альтернатив на выходе задается при программировании приложения. Преобразование акустических сигналов в текст, соответствующий произнесенным звукам, словам и фразам, производится с использованием акустических и лингвистических моделей. Для повышения точности распознавания могут использоваться различные модификации акустических и лингвистических моделей в зависимости от состояния диалога, качества канала, характера поведения пользователя. Модуль распознавания речи является наиболее ресурсоемким блоком системы.
Модуль понимания речи предназначен для выделения из графа слов, полученного на предыдущей фазе обработки, наиболее вероятного смысла. Включение в состав системы этого блока позволяет использовать в приложениях не только так называемые закрытые грамматики, ограничивающие речь пользователя включенными в них словами и фразами, но и открытые грамматики, ориентированные на распознавание смысла высказываний и позволяющие пользователю более свободно формулировать свои ответы на вопросы системы, в результате чего диалог становится более естественным.
Модуль управления диалогом является центральным компонентом системы. Он контролирует как взаимодействие пользователя с системой, так и взаимосвязи компонентов системы. В его функции также входит интерпретация входной информации, формирование запросов во внешние системы и базы данных и обработка ответов из них. Для сложных систем этот модуль рекомендуется разделять на ряд более мелких компонент, чтобы обеспечить гибкость, наращиваемость и модульность системы в целом.
Модуль формирования речевого вывода управляет речевым выводом ответной информации и реплик системы. Вывод информации состоит из двух фаз: формирование контента и озвучивание сообщения. Содержание выходных фраз и реплик зависит от конкретных условий, которые определяются текущим состоянием диалога. Для озвучивания машинного сообщения может использоваться метод конкатенации предварительно записанных слов и фраз и метод компьютерного синтеза речи. Метод конкатенации предварительно записанных фрагментов речи предоставляет больше возможностей для использования таких важных компонентов речи, как интонации и смысловые ударения, а также позволяет приводить контекстно зависимые примеры ответов и требуемого произношения, что бывает важно для создания удовлетворяющего пользователя интерфейса с автоматизированной системой. Однако этот метод непригоден для озвучивания информации большого объема, непредсказуемого содержания, электронных писем или новостей. Для этих целей используется компьютерный синтез текста в речь. Модуль синтеза речи получает на вход текст, который может также включать коды, контролирующие произношение и другие параметры синтезированного голоса.
2.1.2. Терминология и специальные свойства распознавателей речи
Грамматика. Принципы создания эффективных грамматик
В системах распознавания речи грамматикой называется заданное по некоторым правилам множество слов и фраз, которые пользователь может произнести на некотором шаге диалога и на которые должна реагировать система распознавания. Задача автора грамматик состоит, таким образом, в том, чтобы предвидеть, что именно скажет клиент в ответ на вопрос или реплику системы, и правильно интерпретировать сказанное.
Грамматика представляет собой текстовый файл, составленный по определенным правилам. Файл грамматики является основным компонентом речевого блока, куда кроме грамматики входит файл словаря или лексикона и соответствующая языковая модель.
Обязательными элементами файла грамматики являются наименование грамматики, указание на используемый язык, определения возвращаемых переменных и правило грамматики. Правило содержит список слов и операторов, определяющих фразы, подлежащие распознаванию.
Синтаксис описания произносимых и подлежащих распознаванию фраз в разных распознавателях во многом схож. Например, для обозначения конкатенации слов в грамматиках и Nuance, и SpeechPearl используются круглые скобки: (А В С) означает, что все перечисленные слова должны будут произнесены, и именно в этом порядке, т.е. и А, и В, и С. Необязательное присутствие слова в Nuance обозначается знаком вопроса: ?А означает, что А может быть произнесено, а может и не присутствовать в фразе, а в SpeechPearl - квадратными скобками: [А]. Один или более повторов слова и в Nuance, и в SpeechPearl обозначается знаком плюс с той лишь разницей, что в Nuance этот знак должен предшествовать слову: +А означает один или более повторов А, а в SpeechPearl - следовать за ним: А+, и т.д.
На рис. 2.2 представлена грамматика городов, написанная по правилам Nuance, а на рис. 2.3 - аналогичная грамматика, предназначенная для приложения, запускаемого на SpeechPearl. Author Mais Farhadov ; Grammar Name
City [ москва {<city "moskva">} киев {<city "kiev">} баку {<city "baku">} с {<city "samara">} ]
Рис. 2.2. Пример грамматики Nuance для распознавания названий городов. grammar city; ; Author Mais Farhadov language rurstandard; declarations {
String city: <city>; startrule {<cityr>} public city> = москва { city:= "moskva";} |киев { city:-'kiev";} |баку { city:="baku";} |берлин { city:="berlin";} |лондон { city:="london";} |тбилиси { city:="tbilisi";}
Петербург | санкт Петербург) { city:= "peterburg";} ¡Владивосток { city:= "vladivostok" ; } |рига { city:-'riga";}
Рис. 2.3. Пример грамматики 8реесЬРеаг1 для распознавания названий городов.
Консорциум W3C (World Wide Web Consortium) разработал Спецификацию для создания грамматик SRGR (Speech Recognition Grammar Specification) [70] и Рекомендацию SISR (Semantic Interpretation for Speech Recognition) [71], которая определяет синтаксис и семантику содержимого тегов спецификации SRGS. Этих рекомендаций придерживаются сейчас все создатели последних версий промышленных распознавателей.
На рис. 2.4 представлена грамматика городов, написанная в соответствии с правилами SRGS и SISR. xml version-'1.0" encoding="UTF-8"?>
DOCTYPE grammar PUBLIC "-//W3C//DTD GRAMMAR 1.0//EN" "http://www.w3.org/TR/speech-grammar/grammar.dtd"> grammar xml:lang="ru" version="1.0" mode="voice" xmlns=http://www. w3 .org/2001 /06/.gram mar xmlns:xsiHittp://www. w3.org/2001/XMLSchema-instance xsi:schemaLocation="http://www. w3.org/2001/06/grammar http://www.w3.org/TR/speech-grammar/grammar.xsd" root="main"> meta name-'author" content-' Mais Farhadov"/> <rule id="city" scope="public"> <one-of> item>MOCKBa<tag>City="moskva";</tag></item> item>KHeB<tag>City="kiev";</tag></item> item>6aKy<tag>City="baku";</tag></item> one-of> </rule> </grammar>
Рис. 2.4. Пример грамматики в формате SRGS и SISR.
Бывают закрытые и открытые грамматики. В закрытых грамматиках описываются варианты высказываний, которые может произнести клиент и которые система должна распознавать целиком, от первого до последнего слова произнесенной фразы. Открытые грамматики ориентированы на распознавание только ключевых слов, а все другие слова, произносимые пользователем, считаются словами-наполнителями и игнорируются.
Закрытые грамматики больше подходят для относительно простых задач в силу присущих им ограничений на допустимые высказывания. Открытые грамматики более гибки, они предоставляют пользователю больше свободы для формирования предложения. Однако следует учесть, что открытые грамматики требуют обязательного обучения, в то время как закрытые грамматики в обучении не нуждаются.
Словари (лексиконы)
Словари или лексиконы представляют собой списки слов и соответствующих им фонетических транскрипций. Существует базовый словарь, поставляемый в составе распознавателя, пользовательские словари, составляемые разработчиком для фонетического описания отсутствующих в базовом словаре слов, и словари автотранскрипций, образуемых системой на основании своих внутренних правил для слов, отсутствующих в базовом и пользовательских словарях.
Для каждого поддерживаемого распознавателем языка существует свой базовый словарь, содержащий наиболее употребительные слова данного языка и их фонетическое представление. Набор знаков для представления фонем различных языков можно найти на официальном сайте SAMPA (Speech Assessment Methods Phonetic Alphabet) [72]. Набор символов для звуков русского языка (6 гласных звуков и 36 согласных), а также символы для обозначения ударения и смягчения звуков приведен в [73].
На рис. 2.5 приведен фрагмент лексикона для описания фонетических транскрипций улиц Москвы в распознавателе SpeechPearl.
DSLexicon 2 DSPhoneticWord languageTag rurstandard DSOrdinaryWordLex 1 3049
PAUSE# #sil# author Mais Farhadov абакумова abakumava абельмановская ab'il'manafskaja абрамцевская abramtsefskaja газопровод gazapravot ra30np0B0fl<gazaprovat> gazaprovat реутовская r'iutafskaja peyTOBCKafl<r'eutafskaj a> r'eutafskaja
DSCategoryWordLex 1 0
Рис. 2.5. Лексикон для улиц Москвы (распознаватель 8реесЬРеаг1).
Как видно из рис. 2.5, в лексикон могут быть включены варианты произношения.
Речевые блоки
Грамматика и лексикон являются обязательными составляющими речевых блоков - основных ресурсов речевых приложений. Помимо файлов с грамматикой и лексиконом, речевой блок содержит файл языковой модели, соответствующей данной грамматике, и ссылки на языковый ресурс и на используемую акустическую модель. Языковая модель для закрытых грамматик создается автоматически во время компиляции на основании базовой языковой модели и конкретной грамматики. В зависимости от размера и сложности грамматики сетевая языковая модель может содержать от единиц до тысяч узлов.
В табл. 2.1 представлены данные о числе узлов сетевых языковых моделей для некоторых речевых блоков, созданных автором. Наименьший размер имеет языковая модель для грамматики месяцев, имеющей простую логику и двенадцать альтернативных слов. Грамматика пин кодов имеет в своем составе всего лишь десять слов (цифры), но ее логика значительно сложнее, чем для грамматики месяцев, поскольку цифры могут быть произнесены в любом порядке, и это обстоятельство находит свое отражение в размере языковой модели. Относительно большое число слов в грамматике Да/нет объясняется наличием разных вариантов произнесения положительного и отрицательного ответа, однако логика этой грамматики несложна. Напротив, грамматики для распознавания времени суток и телефонных номеров отличаются значительной сложностью, что сразу сказывается на числе узлов языковой модели. Наибольший размер из представленных в таблице имеет языковая модель для грамматики улиц Москвы, содержащая большое количество (более 3000) слов, но обладающая довольно простой логикой с тремя (в среднем) вариантами произнесения названия улицы.
ЗАКЛЮЧЕНИЕ
В результате проведенных автором исследований разработаны теоретические положения, совокупность которых можно квалифицировать как новый вклад в теорию создания автоматизированных систем массового обслуживания с речевыми технологиями и ее применения.
Основные научные и практические результаты диссертации
• Выполнен обзор и анализ современного состояния и тенденции развития систем массового обслуживания с целью поиска путей повышения их открытости, эффективности и доступности для более широких масс населения.
• Впервые в отечественной практике экспериментально исследованы характеристики распознавателей речи в контексте создания речевого доступа к услугам и сервисам систем массового обслуживания населения. Выявлены зависимости качества распознавания от фонетической модели, порога уверенности в распознавании, структур речевых блоков, от внешних влияний. На основе выполненных экспериментов получен ряд методических рекомендаций, которые позволяют разработчику речевых приложений прогнозировать показатели качества и обеспечивать их стабильность.
• Разработан информационно-вычислительный аппаратно-программный комплекс для автоматизации исследований свойств и характеристик распознавателей речи и процессов самообслуживания.
• Исследован речевой интерфейс как относительно малоизученный тип человеко-машинного взаимодействия, определены присущие ему ограничения с учетом слабостей человека и ошибок машинной стороны и выработаны практические рекомендации для проектировщиков. Разработана методология создания прикладных систем с речевым интерфейсом.
• Реализован метод автоматизированного накопления статистических данных об ошибках распознавания речи и разработаны модели и алгоритмы коррекции результатов распознавания на основе знаний об ошибках.
• Разработана система оценок и аналитические модели для анализа и оптимизации речевого диалога с различными процедурами обнаружения и коррекции ошибок на основе применения принципа квантификации.
• Созданы математические модели для расчета характеристик обслуживания вызовов и оптимизации функционирования контакт-центров с сервисами самообслуживания на базе речевых технологий.
• Разработанные принципы, модели и методы внедрены:
- в системах с нетрадиционным применением речевых технологий: веб приложение «Звуковой тренажер», предназначенное для онлайн-обучения людей с нарушением слуха правильному произношению звуков русского языка, и система речевого управления электронной картой г. Баку, в которой реализована идея применения для распознавания азербайджанской речи пакета другого, фонетически близкого, языка;
- в первых в России прикладных системах телефонного самообслуживания различного профиля с речевыми технологиями (получение справок об авиарейсах, заказ такси, автосекретарь, речевое управление электронными кошельками и др.);
- в универсальных блоках распознавания русской речи, включающих словари и грамматики: цифры, числа, города, даты, время суток, денежные суммы, номера телефонов, названия улиц Москвы и др., и соответствующей им базе аудио-файлов.
Личный вклад автора в публикациях, выполненных в соавторстве
В работах [211, 213, 232] автору принадлежат постановки задач, а также архитектура СМО с сервисами самообслуживания и математическая модель для расчета количественных характеристик системы. В [49, 52, 102, 213, 220, 224, 232] автором написаны разделы, относящиеся анализу эффективности систем с распознаванием речи, и получены соответствующие результаты. В [45, 214, 215, 216, 218, 223, 235,] выполнена разработка аналитических моделей для оценки ряда характеристик человеко-машинного диалога, предложена классификация диалогов при речевом взаимодействии клиента с АСМО, разработаны методы анализа и оптимизации диалога на основе применения принципа квантификации. Вклад в работах [11, 51, 211, 222] заключается в разработке структуры для создания интеллектуальных интерактивных телефонных приложений с речевым интерфейсом и сервисами самообслуживания. В [45, 46, 47, 50, 229, 230] автором предложены методы повышения устойчивости систем с распознаванием речи, реализован метод автоматизированного накопления статистических данных об ошибках распознавания и разработаны модели и алгоритмы управления диалогом на основе знаний об ошибках. В [217] разработаны методические рекомендации по оптимальному управлению системой с отказами. В [219, 238] автором предложены методы тестирования распознавателей и экспериментально исследованы их характеристики в контексте создания речевого доступа к услугам и сервисам систем массового обслуживания населения. В [53, 103, 219, 226, 227] написаны разделы относительно областей применения речевых технологий и предложена концепция их интеграции в СМО. В [127, 154, 229] исследованы области нетрадиционного применения речевых технологий для поддержки людей с нарушением слуха. В [225, 234, 236, 237, 238] автором разработана серия интеллектуальных систем речевого диалога клиентов по телефону с АСМО на основе технологии распознавания речи.
Библиография Фархадов, Маис Паша оглы, диссертация по теме Вычислительные машины и системы
1. Жожикашвили В. А. Принципы построения общесоюзной АСУ процессами распределения мест на самолетах. // Управляющие системы и машины. 1978. N3. - с. 123 - 125.
2. Технический проект московского центра АСУ-5. Документ № 4. Комплекс обработки данных реального времени. Том 2. Информационное и программное технологическое обеспечение. / Ордена Ленина Институт проблем управления (автоматики и телемеханики). М., 1979.
3. Жожикашвили В.А., Вертлиб В.А., Ребортович Б.И., Петухова Н.В., Фархадов М.П. Автоматизированные системы управления процессами массового обслуживания нового поколения. Труды ИПУ, Москва, 1999.
4. Жожикашвили В. А., Вишневский В. М. Сети массового обслуживания. Теория и применение к сетям ЭВМ. -М: Радио и связь, 1988. 191 с.
5. Вишневский В. М. Разработка теоретических основ построения сетей передачи данных распределенных вычислительных систем массового обслуживания. Диссертация на соискание ученой степени доктора технических наук. - Москва, 1989.
6. Билик Р.В., Вертлиб В.А., Мясоедова З.П., Петухова Н.В., Фархадов М.П. Автоматизированная система массового обслуживания для управления процессом реализации мест на авиатранспорте «СИРЕНА» (История создания и развития). М.: МАКС Пресс, 2008. - 76 с.
7. Жожикашвили В.А., Жожикашвили A.B., Петухова Н.В., Фархадов М.П. Новый человеко-машинный интерфейс для автоматизированных систем массового обслуживания // Труды Института проблем управления РАН. -М.: ИПУ РАН им. В.А. Трапезникова. 2000. - Т. IX. - 5 с.
8. Трощенко А.Ю. Система интерактивного речевого самообслуживания с распределенными ресурсами. Дис. канд.техн.наук. по специальности 05.13.15. / Учреждение российской академии наук Институт проблем управления им В.А. Трапезникова РАН. М.: 2009.
9. Жожикашвили В.А., Трощенко А. Ю. , Петухова Н.В., Фархадов М.П. Архитектура и тенденции развития контакт-центров // Автоматизация и современные технологии. 2007. № 3. С. 19-31.
10. Росляков A.B., Самсонов М.Ю., Шибаева И.В. Центры обслуживания вызовов (Call centre). М.: Эко-Трендз, 2002. 272 с.13.
-
Похожие работы
- Система интерактивного речевого самообслуживания с распределенными ресурсами
- Анализ эффективности совместного обслуживания новых информационных потоков на ГТС большой емкости
- Разработка метода расчета показателей качества совместного обслуживания потоков сообщений на сетях линейной структуры
- Разработка способов преобразования речевой информации при передаче по телефонной линии связи
- Методы и программно-аппаратные средства для построения специализированных справочно-информационных систем
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность