Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях

Ронжин, Андрей Леонидович

Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях

доктора технических наук: Ронжин, Андрей Леонидович
город: Санкт-Петербург
год: 2010
специальность ВАК РФ: 05.13.11

Диссертация по информатике, вычислительной технике и управлению на тему «Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях»

Автореферат диссертации по теме "Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях"

На правах рукописи

064600873

РОНЖИН Андрей Леонидович

МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА МНОГОКАНАЛЬНОЙ ДИСТАНЦИОННОЙ ОБРАБОТКИ РЕЧИ И ИХ ПРИМЕНЕНИЕ В ИНТЕРАКТИВНЫХ МНОГОМОДАЛЬНЫХ ПРИЛОЖЕНИЯХ

Специальность 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей»

АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук

1 5 йП? 1313

Санкт-Петербург 2010

004600873

Работа выполнена в Учреждении Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН

Официальные оппоненты:

доктор технических наук, профессор

Охтилев Михаил Юрьевич

доктор технических наук, профессор

Горский Николай Дмитриевич

доктор технических наук, профессор

Геппенер Владимир Владимирович

Ведущая организация:

Учреждение Российской академии наук Вычислительный центр им. А.А. Дородницына РАН

Защита состоится «10» июня 2010 г. в 12.00 часов на заседании диссертационного совета Д.002.199.01 при Учреждении Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН по адресу. 199178, Санкт-Петербург, В.О., 14 линия, 39.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Санкт-Петербургского института информатики и автоматизации РАН

Автореферат разослан «30» -^^¡¿^лк. 2010 г.

Ученый секретарь

диссертационного совета Д.002.199.01 д.т.н., профессор

Никифоров Виктор Викентьевич

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Появление широкого спектра компьютеризированных устройств различного назначения существенно расширяет возможности современного человека в области коммуникации, образования, бизнеса, медицины и других областей. Однако, рост сложности технологий и устройств в большинстве случаев приводит к усложнению принципов взаимодействия с пользователем. Многие современные научно-технические достижения используются не в полной мере, так часть функций оказываются доступными только ограниченному числу пользователей-специалистов. Наличие естественного способа взаимодействия сейчас является не менее важным свойством устройства, чем его функциональные возможности. Также следует учесть, что физические ограничения и личные предпочтения пользователей оказывают влияние на выбор доступного или наиболее удобного способа взаимодействия. Поэтому согласованность информационных кантов между пользователем и устройством является второй актуальной проблемой в области проектирования интерфейсов. Наконец, свойства окружающей среды, в которой происходит коммуникация, накладывают свои ограничения на способы передачи данных, и пользователь должен иметь возможность выбора информационного канала, который более устойчив в текущих условиях динамически изменяющейся ситуации.

Окружающее интеллектуальное пространство (ОИП) является новой парадигмой в области информационных технологий. Распознавание текущей ситуации, анализ поведения пользователя и удовлетворение его потребностей в ненавязчивой и практически незаметной форме является основной идеей в концепции ОИП. Применение многомодальных интерфейсов, обрабатывающих естественные для человека способы коммуникации (речь, жесты, движения тела, головы, рукописные наброски, направление взгляда, мимика и др.), обеспечивает взаимодействие между пользователями и интеллектуальными модулями, встроенными в окружающие объекты в интуитивно понятной и простой форме. Средства реализации задачи по обслуживанию пользователя остаются скрытыми, а предъявляются только конечные результаты деятельности, что концентрирует внимание человека на выполняемой задаче и создаёт эффект ненавязчивости обслуживания.

С разработкой ОИП к речевым технологиям предъявляются все более жесткие требования; в частности, система должна воспринимать речь диктора, свободно перемещающегося в помещении, то есть самостоятельно определять местонахождение источника полезного сигнала. Подавляющее большинство существующих систем распознавания речи способно обрабатывать только речь диктора, записанную с помощью микрофона-гарнитуры, расположенного непосредственно перед ртом диктора, саму же запись рекомендуется проводить в тихом, звукоизолированном помещении. Однако очевидно, что далеко не каждый пользователь готов к таким ограничениям. Для развития и внедрения речевых технологий необходимо сделать процесс записи речи максимально удобным для пользователя, прежде всего, обеспечив дистанционную запись речи в условиях фонового шума и параллельных разговоров в помещении. Кроме того, автоматическое распознавание естественной речи предполагает работу со сверхбольшими словарями, размер которых превышает несколько миллионов словоформ, поэтому разработка средств компактного хранения, быстрого поиска и своевременного отсечения маловероят-

ных гипотез в процессе декодирования является актуальной задачей, особенно для русского языка с относительно высоким уровнем флективности.

В отечественных работах наиболее активно исследуются вопросы многомодального анализа биометрических показателей для идентификации личности и состояния человека: Галунов В.И., Аграновский A.B., Бондаренко В.П., Харламов A.A. В развитие теории речевых технологий большой вклад внесли отечественные исследователи Сапожков М.А., Загоруйко Н.Г., Кедрова Г.Е., Чисто-вич JI.A., Косарев Ю.А., Потапова Р.К., Чучупал В.Я., Сорокин В.Н., Скрелин П.А. и другие.

Проблемная ситуация, рассматриваемая в диссертации, заключается в наличии несоответствия возможностей, предоставляемых существующими и перспективными аппаратно-программными средствами, соответствующими информационными технологиями, поддерживающими интерактивные многомодальные интерфейсы, и имеющимся в настоящее время научно-методическим обеспечением их использования и развития. Указанное несоответствие порождает научно-техническую проблему, суть которой состоит в необходимости разработки и реализации модельно-алгоритмического, методического, программного, технического и информационного обеспечения процессов естественного человеко-машинного взаимодействия в интерактивных многомодальных приложениях на базе многоканальной дистанционной обработки речи

Связь с государственными и международными программами. Работа выполнена в СПИИРАН (2003-2010 гг.). Основные результаты диссертационной работы получены в рамках госбюджетных научно-исследовательских программ: ФЦП «Интеграция»: проект "Аспекты устного ввода", № 326.81 (2002-2004 гг.); программы ОИТВС РАН «Новые физические и структурные решения в инфотеле-коммуникациях» проект №4.2: «Разработка методов статистической обработки речи для дикгоронезависимых инфотелекоммуникационных приложений», (20032008 гг.); программы ОНИТ РАН «Фундаментальные проблемы разработки новых структурных решений и элементной базы в телекоммуникационных системах» проект №1.1. «Разработка средств универсального многомодального доступа для системы интерактивного телевидения» (2009-2010 гг.); Программы СПбНЦ РАН проект №2.118 «Исследование принципов многомодального взаимодействия на базе информационного киоска» (2007г.); ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы (ГК №П2360 «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем»). Работа поддержана российскими грантами: Президента РФ № МК-9351.2006.9 (2006-2008 гг.), РФФИ № 07-07-00073-а (2007-2009гг.), РФФИ № 08-07-90002-Бел_а (20082009гг.), РФФИ № 09-07-91220-СТ_а (2009-2010гг.); Правительства Санкт-Петербурга № PD04-3.17-39 (2004г.), № PD05-3.17-34 (2005г.), № 30-04/132 (2008г.), № 26-05/131 (2009г.), Фонда содействия отечественной науке (20042005гг.), Фонда «Научный Потенциал» №64 (2006г.). Работа поддержана грантами Евросоюза INTAS № 04-77-7404 (2005-2007 гг.), INTAS № 05-1000007-426 (20062008гг.), грантом Евросоюза FP7 SIMILAR NoE IST-2002-507609, (2003-2007 гг.).

Целью диссертационной работы является повышение эффективности человеко-машинного взаимодействия в интерактивных многомодальных приложениях за счет обобщения и совершенствования научно-методического аппарата, поддержки системотехнических решений, связанных с многоканальной дистанцион-

ной обработкой русской речи и разработкой на этой основе научно-обоснованных модельно-алгоритмических, программно-технических решений. Для достижения поставленной цели в работе решены следующие задачи:

1. Анализ основных направлений в области человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов, применяемых в интерактивных информационно-управляющих системах.

2. Разработка методологического и математического обеспечения проектирования многомодальных интерфейсов и конфигурирования программно-аппаратных средств организации человеко-машинного взаимодействия в интерактивных приложениях.

3. Разработка методов спектрально-пространственной обработки речи и анализ конфигураций системы (массива) микрофонов с альтернативными геометрическими схемами расположения датчиков.

4. Разработка модели компактного представления акустико-лексических структур для распознавания русской речи и методики формирования базы данных слов и их транскрипций.

5. Разработка, тестирование и реализация программного обеспечения построения многомодальных интерфейсов для интерактивных приложений.

6. Разработка прикладных программно-аппаратных решений с применением многомодальных интерфейсов для предоставления пользователям справочной информации в интерактивном режиме и сопрововдения мероприятий в интеллектуальном зале.

7. Обобщение и оценка результатов исследований по проблеме организации многомодального человеко-машинного взаимодействия с оценкой эффективности полученных результатов.

Объект исследования. Информационные и энергетические процессы формирования и обработки речевого сигнала на акустическом, фонетическом и текстовом уровнях, а также многомодальные способы человеко-машинного взаимодействия.

Предмет исследования. Закономерности, принципы, способы, методы, модели, алгоритмы, методики и системотехнические решения нового класса задач синтеза интеллектуальной информационной технологии и системы многоканальной дистанционной обработки речи в интерактивных многомодальных приложениях.

Методы исследования. Методы цифровой обработки сигналов, психоакустики, радиолокации, распознавания образов, статистического анализа, автоматической обработки текстов, теории графов, динамического программирования, объектно-ориентированного проектирования и программирования.

Научная новизна. Разработана совокупность оригинальных моделей, методов, алгоритмов и программно-аппаратных комплексов для исследования и обработки русской речи в интерактивных многомодальных приложениях, в том числе: 1) разработано методологическое и математическое обеспечение проектирования интерактивных многомодальных приложений и конфигурирования программно-аппаратных ресурсов для организации естественного взаимодействия пользователей с учетом ограничений на способы коммуникации со стороны пользователя, клиентских устройств, среды взаимодействия и предметной области предоставляемого сервиса;

2) разработан метод анализа речевой активности, отличающийся применением антропоморфных моделей слуха, критериального оценивания уровня энергии взаимного спектра синхронизированных по времени сигналов, а также учета пространственного положения диктора при выявлении границ речи в многоканальном звуковом потоке;

3) разработана система протоколирования речи участников телеконференций, отличающаяся использованием многоканальной распределенной системы регистрации аудиопотоков, расчета относительной энергии сигнала и его спектра и оценивания пространственного положения источника сигнала посредством трехмерной конфигурации микрофонов;

4) предложена модель компактного представления словаря транскрипций системы распознавания русской речи на базе двухуровневого морфофонемного префиксного графа, отличающаяся применением декомпозиции транскрипций на основу и концовку с последующим объединением одинаковых последовательностей первых фонем основ в виде лексического дерева и сохранением списка уникальных транскрипций концовок;

5) предложена методика экспертного сопровождения в процессе постепенной замены оператора автоматическим модулем обработки речи, обеспечивающая накопление реального речевого материала для адаптации системы распознавания речи;

6) разработано программное обеспечение проектирования многомодального интерфейса, отличающееся применением модулей многоканальной обработки аудио- и видеосигналов, выполнением многопоточных задач на распределенных вычислительных ресурсах и созданием кроссплатформенных приложений, адаптивных к возможностям и текущему состоянию клиентского устройства;

7) разработана программно-аппаратная архитектура многомодального информационно-справочного киоска, отличающаяся использованием аудиовизуальных коммуникативных каналов для имитации естественного интерфейса и организации диалога с пользователем в реальных условиях эксплуатации;

8) разработана технологическая инфраструктура интеллектуального зала, отличающаяся применением модулей многоканальной регистрации и обработки аудиовизуальных сигналов для определен™ положения и слежения за пользователями, дистанционного распознавания голосовых команд, мультимедийного оповещения удаленных пользователей о ситуации внутри зала и организации распределенных мероприятий.

Обоснованность научных положений и выводов обеспечена за счет анализа состояния исследований в данной области, а также согласованностью теоретических выводов с результатами экспериментальной проверки моделей. Новизна технических предложений подтверждается полученными свидетельствами на программное обеспечение.

Положения, выносимые на защиту:

1. Развитие методологических основ разработки интерактивных многомодальных приложений и конфигурирования программно-аппаратных ресурсов для организации естественного взаимодействия пользователей в интеллектуальном пространстве.

2. Совокупность методов и алгоритмов многоканальной дистанционной обработки речи для выявления активного диктора и фильтрации полезного сигна-

ла в ограниченной зоне взаимодействия на основе локализации источника звука и фонетических закономерностей речевого потока.

3. Симуляционные модели построения акустико-лексических структур для компактного представления словаря транскрипций системы распознавания русской речи на основе морфофонемных единиц и результаты их применения при формировании баз данных и анализе возможных конфигураций систем декодирования слитной речи.

4. Программно-аппаратные и технологические решения, реализованные на основе разработанных методов и созданных многомодальных интерфейсов, обеспечивающие естественную коммуникацию пользователей с интерактивными информационно-управляющими приложениями.

Практическая ценность работы. Модели, методы, алгоритмы и программное обеспечение, разработанные в диссертационной работе, направлены на повышение эффективности и естественности человеко-машинного взаимодействия. Применение многомодальных интерфейсов позволяет организовать естественное взаимодействие между пользователями и интеллектуальными модулями. Средства реализации задачи по обслуживанию пользователя остаются скрытыми, а предъявляются только конечные результаты деятельности, что концентрирует внимание человека на выполняемой задаче и создаёт эффект ненавязчнвости обслуживания. Разработанный многомодальный киоск является прототипом широкого спектра информационно-справочных систем самообслуживания, расположенных в бизнесцентрах, отелях, аэропортах, выставочных комплексах, ВУЗах, медицинских центрах, торговых центрах, музеях, спортивных клубах и других общественно-транспортных центрах.

Применение разрабатываемых методов обработки речи и других естественных модальностей, а также адаптивного к устройству пользователя способа формирования веб-интерфейса позволит транслировать совещания на различные программно-аппаратные платформы и составлять мультимедийные отчеты распределенных совещаний в режиме реального времени, значительно сократив время ручной обработки речевых записей. Разработка сети интеллектуальных залов позволит организовать совещания для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал, повысит качество образования за счет автоматизированного непрерывного контроля над каждым учащимся во время занятий.

Реализация результатов работы. Разработанные методы, программное обеспечение, а также технические решения были использованы в ходе выполнения Государственного контракта № П2360 с Федеральным агентством по образованию; договоров с компанией ТеИо АО, Германия, (2006-2008), компанией «КешУоюе» Санкт-Петербург (2005-2007), Дрезденским технологическим университетом, Германия (2008-2009), Университетом Западной Богемии, Чехия (2003-2010), а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного университета аэрокосмического приборостроения, Санкт-Петербургского государственного политехнического университета, Санкт-Петербургского государственного электротехнического университета.

Апробация результатов работы. Результаты диссертационного исследования представлялись на Международных конференциях «Речь и Компьютер» БРЕ-СОМ (Санкт-Петербург 2000,2002,2004, 2006,2009, Москва 2001, 2007, Патры,

Греция 2005); Международной конференции «Региональная информатика» (Санкт-Петербург 2000,2002,2004,2006,2008); Международной научно-практической конференции «Искусственный Интеллект» (Кацивели, Крым, Украина, 2002, 2004, 2006); Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы» (п. Дивноморское 2005,2007); П1 Всероссийской конференции «Теория и практика речевых исследований» АРСО-2003, Москва; Международных конференциях «Распознавание образов и анализ изображений: новые информационные технологии» (Санкт-Петербург 2004, Нижний Новгород 2008); семинарах «Биометрические системы» российской секции IEEE Computational Intelligence Society, Москва, Россия, 2005, 2006; 6 европейской конференции PEVOC'6, Лондон, Великобритания, 2005; Международных конференциях по человеко-машинному взаимодействию HCII (Лас-Вегас, США, 2005, Пекин, Китай, 2007, Сан Диего, США 2009); 2 Международной конференции «Автоматизация, управление и информационные технологии - 2005» ACIT-2005, Новосибирск, 2005; Международном симпозиуме SPIE Defense and Security Symposium, Орландо, США, 2005; 3 Балтийской конференции: Second Baltic Conference on Human Language Technologies HTL'2005, Таллинн, Эстония, 2005; 34 Международной филологической конференции, Санкт-Петербург, 2005; 5 Международной научной конференции «Обработка информации и управление в чрезвычайных и экстремальных ситуациях» (ОИУЧЭС'2006), Минск, Беларусь, 2006; XX Сессии Российского акустического общества, Москва, 2008; 44 Международном симпозиуме «Applied Military Psychology», Санкт-Петербург, 2008; Международной конференции ICUMT-2009, Санкт-Петербург, 2009; 2 Международной конференции ruSMART 2009, Санкт-Петербург, 2009.

Публикации. По материалам диссертации опубликовано 126 печатных работ, включая 19 публикаций в ведущих научных журналах, рекомендованных ВАК, 4 свидетельства об официальной регистрации программ в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам, 1 монография, 2 главы в книгах и 1 учебно-методическое пособие.

Структура и объем работы. Диссертация содержит введение, пять глав, заключение, список литературы (235 наименований), 2 приложения. Основной материал изложен на 283 стр., включая 19 таблиц, 76 рисунков.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована важность и актуальность темы диссертации, сформулированы цели работы и основные задачи, которые необходимо решить для ее достижения, характеризуется научная новизна и практическая ценность работы, кратко излагаются основные результаты работы.

В первой главе приведен анализ существующих подходов и нерешенных проблем в области речевых и многомодальных интерфейсов, а также проанализированы особенности взаимодействия пользователя с интерактивными приложениями окружающего интеллектуального пространства.

Распознавание текущей ситуации, анализ поведения пользователя и удовлетворение его потребностей в ненавязчивой и практически незаметной форме является основной идеей в концепции окружающего интеллектуального пространства (ОИП). Решение этой задачи напрямую зависит от развития трёх научно-технологических направлений: повсеместных вычислений (ubiquitous computing),

повсеместных коммуникаций (ubiquitous communication) и многомодальных интерфейсов. Применение многомодальных интерфейсов позволяет организовать взаимодействие между пользователями и интеллектуальными модулями, встроенными в окружающие объекты в интуитивно понятной и простой форме.

Наиболее исследованной областью применения технологий ОИП является умный дом, представляющий собой жилое помещение, оснащенное вычислительными и информационными технологиями, которые реагируют на поведение жителей, прогнозируют их потребности, создают и поддерживают комфортные условия для повседневной деятельности хозяев дома, обеспечивают их безопасность, помогают организовать условия для дистанционной работы и обучения. Все это достигается за счет автоматизированного управления техникой внутри дома и коммуникации с окружающим миром.

Кроме умного дома, существует ряд других, не менее важных, областей применения технологий ОИП. Если требования к умному дому уже более или менее выработаны, то для интеллектуальных конференц-залов и учебных классов пока не существует каких-либо стандартов. Одновременное использование нескольких широкоэкранных дисплеев, интерактивная мультимедийная поддержка, интеграция мобильных устройств, проведение удаленных телеконференций и другие новые возможности информационных технологий не могут быть освоены пользователями за короткое время и требуют применения максимально простых, интуитивно понятных способов коммуникации. На практике подобные залы чаще всего функционируют в полуавтоматическом режиме, а эксперты-операторы поддерживают работу всех встроенных систем.

Проблемы человеко-машинного взаимодействия и проектирования многомодальных и речевых интерфейсов исследовались в рамках европейских рамочных программ, в частности в проектах CHIL IST-506909, AMI - IST-506811, LUNAIST-033549, SIMILAR - IST-507609, HUMAINE 1ST- 507422. Прикладным аспектам дистанционной обработки речи и голосовому управлению были посвящены проекты HOMETALKIST-2001-33507, AMIDA IST-033812, HIWIRE IST- 507943, DICIT IST-034624. В рамках текущих проектов программы FP7 основное внимание уделяется анализу поведения человека и его коммуникативным возможностям при взаимодействии с людьми и автоматизированными системами: SEMAINE IST-211486, PROMETHEUS IST-214901, LIREC IST-215554, HUMOUR IST-231724, SCANDLE IST- 231168, HUMANOBS IST- 231453, EMIME IST-213845, CLASSIC IST- 216594, CHRIS IST-215805, CO-FRIENDIST-2I4975, DIPLECS IST- 215078. В диссертации приведен аналитический обзор задач и научно-практических результатов указанных проектов.

Речь, жесты, рукописные наброски и другие способы, естественные для общения между людьми, в многомодальных интерфейсах применяются для управления машинами. Многомодальные интерфейсы (МИ) обрабатывают два и более объединенных пользовательских способа ввода информации совместно с мультимедийной системой вывода информации. МИ представляют новое направление в информатике и концепцию отказа от традиционных WIMP интерфейсов. Обработка аудиовизуальной информации позволяет автоматически идентифицировать человека, его намерение, речь, движения, текущее положение. За счет анализа отдельных модальностей и их последующей интеграции на семантическом уровне удается повысить естественность и помехоустойчивость взаимодействия.

Вопросами автоматического распознавания речи ученые стали заниматься с момента появления компьютерных систем, поскольку командный интерфейс взаимодействия с первыми ЭВМ не обеспечивал приемлемой скорости и естественности в работе. Был разработан широкий спектр методов и компьютерных программ, направленных на решение проблемы распознавания речи. Были достигнуты существенные результаты в дикторозависимом распознавании изолированной речи и теперь изучаются проблемы распознавания слитной речи, обеспечения диктороне-зависимости, робастности систем при эксплуатации в реальных (зашумленных) условиях.

Существенное различие между обучающими речевыми данными и теми, что приходиться обрабатывать в реальных условиях, - является основной причиной ошибок систем распознавания. Вариативность таких факторов как произношение, темп, стиль речи, а также окружающие шумы зачастую невозможно учесть заранее на этапе обучения системы. Кроме того, для обеспечения естественности взаимодействия, какой бы ограниченной не была предметная область, система должна быть обучена на распознавание достаточно большого словаря, так как в диалоге пользователи могут употреблять различные наборы слов. В зависимости от задачи меняется допустимая точность распознавания: при стенографировании требуется распознавание всех значимых слов, а в диалоговых системах для формирования запроса к информационным ресурсам иногда достаточно распознать несколько ключевых слов во фразе.

С развитием технологий ОИП к речевым технологиям предъявляются все более жесткие требования; в частности, система должна воспринимать речь диктора, свободно перемещающегося в помещении, то есть самостоятельно определять местонахождение источника полезного сигнала. Подавляющее большинство существующих систем распознавания речи способно обрабатывать только речь диктора, записанную с помощью микрофона-гарнитуры, расположенного непосредственно перед ртом диктора, саму же запись рекомендуется проводить в тихом, звукоизолированном помещении. Однако очевидно, что далеко не каждый пользователь готов к таким ограничениям. Для развития и внедрения речевых технологий необходимо сделать процесс записи речи максимально удобным для пользователя, прежде всего, обеспечив дистанционную запись речи в условиях фонового шума и параллельных разговоров в помещении. Именно поэтому одним из объектов самого пристального внимания в области автоматического распознавания речи стала проблема записи речи при помощи микрофонов, расположенных на расстоянии от диктора.

Таким образом, сегодня одним из приоритетных направлений развития информатики становится разработка средств эффективного взаимодействия человека с компьютером. Это связано с тем, что постоянно растущие возможности вычислительной техники и сетевых технологий уже сейчас не используются в полной мере из-за отсутствия способов общения компьютера и человека на естественном языке. Эта проблема сдерживает развитие различных прикладных систем в телекоммуникации, медицине, образовании и повседневной жизни, поскольку практически вся современная техника и различные сетевые сервисы используют автоматизированные средства управления и обработки информации.

Во второй главе рассматриваются основные подходы к построению и тестированию многомодальных интерфейсов. Дается формальная постановка задачи конфигурирования программно-аппаратных ресурсов для обеспечения взаимодей-

ствия пользователя с итеративными многомодальными приложениями. Описана методика поэтапного внедрения естественного интерфейса, обеспечивающая экспертное сопровождение системы, необходимое для накопления речевых корпусов, и адаптации модулей обработки аудиовизуальных сигналов к особенностям окружающей обстановки.

С усложнением и увеличением функциональности систем, средства человеко-машинного взаимодействия становятся узким местом из-за того, что не могут обеспечить интерактивный диалог с пользователем с необходимой эффективностью и естественностыо. В отличие от традиционных интерфейсов на основе клавиатуры и мыши или одномодальных интерфейсов, многомодальные системы обеспечивают более гибкое использование входных потоков информации. Это дает возможность человеку выбирать наиболее удобный способ передачи/приема информации.

В таблице 1 представлены основные типы модальностей, используемые человеком при коммуникации с людьми, на базе которых строятся варианты многомодальных интерфейсов. Визуальная и звуковая модальности при построение интерфейсов применяются более активно. Дополнительно выделяют чувства присутствия и соприсутствия, связанные с поведением людей, находящихся непосредственно в коллективе или участвующих в мероприятиях удаленно, используя телекоммуникационные средства связи. В приложениях в области медицины и безопасности также анализируются другие биометрические показатели: отпечаток пальца, форма ладони, термограмма лица, рисунок сосудов глазного дна и другие.

Таблица 1. Основные типы модальностей и примеры технологий их обработки.

Органы чувств Гипы модальностей Примеры модальностей Примеры технологий н средств обработки

Глаза Визуальная Жесты рук, тела, движения губ, направление взгляда, анимационный объект Анализ изображений, технологии виртуальной реальности

Уши Звуковая Речь, звуки, мелодии Распознавание и синтез разговорной речи

Кожный покров Тактильная Прикосновение, вибрация Сенсорные панели и тактильные дисплеи

Нос Обонятельная Запах Методы химического анализа и синтеза

Язык Вкусовая Вкус

Вестибулярный аппарат Вестибулярная Положение тела Системы на базе акселерометров и гироскопов

Суставы, нервная система Проприоцептив ная Относительное положение частей тела и их движения Системы с экзоскелетом

В зависимости от использованных входных и выходных модальностей выделяют несколько основных типов многомодальных интерфейсов (речь+жесты, речь+чтение по губам, направление взгляда+указание+речь и т.д.). Второй вид возможной классификации многомодальных приложений - по типам решаемых задач (рис. 1). На верхнем уровне задачи, выполняемые многомодальными приложениями, делятся на интерактивные и неинтерактивные. В неинтерактивных приложениях процесс выполнения задачи определен заранее, и пользователь не может на него повлиять. Примерами таких приложений являются автоматическое транскрибирование текстов (заседаний, семинаров) и автоматическое индексирование мультимедийных данных (радио, телевизионных новостей). Напротив, в интерактивных приложениях пользователь в ходе диалога с машиной получает необходимый ему сервис и сам определяет ход работы приложения. Примерами интерак-

тивных приложений являются управление роботом, интерактивное телевидение, справочные системы.

При разработке многомодальных интерфейсов возникают новые специфические задачи, связанные с синхронизацией, совместной обработкой и объединением многомодальной информации. В ходе проектирования многомодального интерфейса выполняется основной цикл работ, связанных с анализом и синтезом: (1) способов взаимодействия модальностей, архитектур распределенных многомодальных систем, методов кодирования и хранения сигналов, средств для разработки и распространения программного обеспечения; (2) методов выбора модальностей, передачи входных потоков (речевой ввод, жестовый ввод, графический ввод), способов синхронизации модальностей, методов создания контрольных журналов многомодального взаимодействия; (3) методов оценки систем (критерии оценки, метрики, методы измерений), типов оценивания (информативность интерфейса, симулирование реальной системы человеком), разработкой экспериментов. Для оценивания качества работы системы используются показатели точности распознавания, помехоустойчивости к окружающим шумам и достоверности гипотезы распознавания действия пользователя.

-Задача ——

Неинтерактивная

Индексирование мультимедийных данных; транскрибирование

Интер

Взаимодействие человек-человек

Взаимодействие человек-машина

Поддержка межчеловеческого информационного взаимодействия Совместная работа Перевод

Телеконференции

Развлечения Анимаг(ия Игры

Управление и диалог

Ввод и манипулирование данными

Управление

Голосовое управление техническими объектами

Специальные сервисы Телефонные сервисы

Встроенные системы Умные комнаты

Интерактивное Мобильные телевидение сервисы Транспортные

Ввод простых

данных

Адресные

книги

Записные

книжки

Текст Мультимедиа

Диктовка Средства Програм- разработки мироеание пользоват.

интерф.

сервисы

Рис. 1. Проблемно-ориентированная классификация многомодальных приложений.

При построении многомодального интерактивного приложения необходимо определить: (1) кто его будет использовать; (2) какие возможности имеют клиентские устройства; (3) в каких условиях будет проходить взаимодействие; (4) какой тип сервиса будет предоставлять приложение. Для формализации и решения задачи построения многомодального интерактивного приложения была предложена концептуальная модель, включающая следующие сущности: цели пользователей, сервисы, ресурсы, устройства, преобразования, естественные и искусственные сигналы, входные и выходные модальности. В диссертации приводится теоретико-множественное описание решаемой задачи. Для этого введены следующие множества и отношения. Множество целей пользователей Р = {р^1е = {!,...и},

на удовлетворение которых направлено множество сервисов $ - {я?*!? е М},М = {1,.../н}, использующих информационно-коммуникационные

ресурсы К = {гк,ке С},С = {1,...с}. Множество устройств, доступных пользователю: О = [с1ь,Ь<= Н},Н = {1,.../;}. Множество моментов времени т = {/} • Множество преобразований IV= {ну,/е 0},0= {],...о}, выполняемых в ходе предоставления сервиса. Множество потоков искусственных = {<м Е},Е = {1,...е} и естественных сигналов ЛФ = {та,ае 11},11 = {1,..к}, использующихся для распознавания входных 1М = {/м,, 1М2,..JМы } и синтеза выходных модальностей ОМ -ЮМ.,ОМ-,,...ОМ и } ■ Множество вариантов многомодальных интерфейсов

I 1 I JVo.ll '

строится путем целенаправленного перебора возможных комбинаций входных и выходных модальностей:

мм={1м1ом1,1мрм2,...щомУаи,.^м,том^

Тривиальные варианты с отсутствием входных и/или выходных модальностей не рассматривались. Наиболее простой с точки зрения числа модальностей интерфейс включал в себя, по крайней мере, одну входную и одну выходную модальности. Множество допустимых системотехнических решений Аа, включающее в

себя множества математических моделей ММ, методов МО, алгоритмов АЬ, аппаратно-программных реализаций АР многомодальных интерактивных приложений, может быть представлено в следующем виде: Аа-[а- (тт, то, а\, ар) | тт е ММ, то е МО, а1е АЬ,ар& АР} ■ Учитывая,

что в интерактивных системах обработка сигналов должна проводится в режиме, близком к реальному времени, исходное множество преобразований IV должно быть модифицировано: \¥{а): АЯ<а> х№{а} хТ Л$(а) х №{а).

Также введены четыре вида ограничений (характеристик), влияющих на процессы организации взаимодействия: (1) ограничения на способы ввода и вывода со стороны пользователя, связанные с его/ее навыками использования клиентских устройств, информационных технологий, личными предпочтениями и психофизическими ограничениями: НС — {£УС,,;'е X); (2) ограничения на способы ввода и

вывода со стороны клиентского устройства, связанные с размерами, вычислительными и сетевыми возможностями, а также аппаратной частью, реализующей сенсорные и мультимедийные функции устройства: ОС = {ОС^,]е К}; (3) множество ограничений среды, в которой планируется организовать взаимодействие, это: уровень шумов, физические параметры атмосферы, тип помещения, число пользователей, расстояние между пользователем и клиентским устройством, наличие доступа к сетевым ресурсам и другие: ЕС = {ЕСк, к е 2}; (4) наконец, ограничения

самих сервисов, связанные с предметной областью и типом обрабатываемых информационно-коммуникационных ресурсов: БС = {5С,, I е V} ■

Графическая интерпретация перечисленных ограничений, возникающих при организации взаимодействия пользователя с устройствами для доступа к информационно-коммуникационным сервисам, представлена в виде схемы на рисунке 2.

Организовать взаимодействие представляется возможным только в том случае, если клиентские устройства находятся в зоне взаимодействия с пользователем и связи с информационно-телекоммуникационными сервисами, а их пользовательские интерфейсы соответствуют физическим возможностям и предпочтениям пользователя и могут обеспечить коммуникацию в текущих условиях окружающего пространствадля решения актуальных целей пользователя.

Управление Коммуникации Информация Безопасность Бизнес Образование

Типы сервисов

-4S

Параметры пользователя

— Навыки

Характеристики среды взаимодействия

ис

— Предпочтения

Ограничения

— Мобильность

Характеристики клиентского устройства

ЕС

— Размеры

Уровень шумов, физические параметры _атмосферы_

Число пользователей

Расстояние между пользователем и устройством

ОС

Вычислительные возможности

Сетевые возможности

_ Наличие доступа к

сетевым ресурсам

Возможности ввода и вывода данных (сенсоры,

датчики, мультимедийные устройства)

Рис. 2. Схема ограничений при организации взаимодействия пользователя с устройствами для доступа к информационно-коммуникационным сервисам. Для формирования множества допустимых системотехнических решений

Аа вводятся соответствующие подмножества декартовых произведений исходных

множеств, определяющих все потенциальное пространство проектных альтернатив:

К? çPaxSa xRaxDaxASa xNSa; F™ çPaxSa xRaxDa x ASa xNSa\

F'ec e Pa XK X A, F^ ç PaxSa xRa xDaxASaxNSa .

Таким образом, задача проектирования многомодального интерфейса сводится к поиску конструктивных путей формирования множества допустимых системотехнических решений Аа, удовлетворяющих ограничениям UC,DC,EC,SC

Xp%sag,dab,rïas°,nsaa) |

с = • Ф,а) : Fyp n Fbc* П F™ л F™ -4 В"1; Wia) : ASWxNSwxT-> AS(a)xNS{a)

, где элементы множеств В'",В77

принимают значения {0,1}. Выбор полной комбинации модальностей, допусти-

мых в проектируемом приложении будет определяться следующим образом:

= {&4NMp'w :ejNM)xXeas -»В"}, где Qa(NM)множество комбинаций

модальностей. На основе разрабатываемого в диссертации подхода производился обоснованный выбор конкретных вариантов реализаций отображений Ф<а*, . Окончательное решение о структуре и функциях многомодального интерфейса и программно-аппаратном обеспечении, необходимом для его реализации, принималось с учетом стоимостных затрат: Arg min С(а) ■

В большинстве существующих приложений для получения информации пользователь вынужден идти на компромисс между естественностью взаимодействия и функциональными возможностями сервисов/устройств. В рамках предложенной модели возможный набор естественных входных и выходных модальностей определяется на этапе проектирования интерактивного многомодального приложения. Речь является наиболее естественным способом коммуникации, поэтому речевая модальность более востребована при проектировании многомодальных интерфейсов. В работе предложено развитие технологий дистанционной обработки русской речи в рамках описанной концептуальной модели организации взаимодействия с многомодальным интерактивным приложением. За счет распознавания речи обеспечена естественность взаимодействия, многоканальная дистанционная обработка позволила пользователю свободно перемещаться в ходе диалога без предварительной установки микрофонов, а набор модулей обработки входных и выходных модальностей, входящих в состав конкретных реализаций многомодальных интерфейсов, позволил пользователю выбирать удобный и доступный для него способ коммуникации в текущей окружающей обстановке.

Анализируя возможные пути развития и способы внедрения речевых и многомодальных интерфейсов, было предложено использовать методику скрытого экспертного сопровождения как наиболее быстрый и продуктивный подход к оптимизации и адаптации естественных интерфейсов к реальным интерактивным приложениям. Данный подход позволяет вести наблюдение за пользователем, работающим с системой, недостающие службы которой восполняются скрытыми операторами. Наблюдая за поведением пользователя, разработчики могут изучить его потребности, а затем настроить и оценить тот особый интерфейс, который следует использовать при выполнении заданий данного класса. На примере телекоммуникационных сервисов приводится поэтапная методика внедрения речевого интерфейса. В зависимости от степени автоматизации работы модуля распознавания речи выделяются четыре этапа, на которых участие оператора/редактора и автоматического модуля постепенно изменяется в сторону сокращения работы человека.

В третьей главе приводится описание методов, алгоритмов и программных средств многоканальной обработки аудиосигналов для локализации источников звука, а также выделения фраз отдельных участников мероприятия в интеллектуальном зале.

Предварительная сегментация сигнала на участки, содержащие тишину или речь, позволяет значительно сократить уровень ошибок распознавания речи, повысить скорость обработки. К сожалению, методы определения речевой активности, основанные на оценке уровня энергии сигнала или его спектра, хорошо зарекомен-

довавшие себя при обработке речи, записанной одним диктором в лабораторных условиях, не решают проблем, возникающих при обработки аудиозаписей, сделанных в условиях реальной эксплуатации с характерными фоновыми шумами и параллельными разговорами.

Наиболее сложным случаем (но одним из самых распространенных) для автоматической системы будет ситуация cocktail party, когда в помещении находится большое число людей, свободно перемещающихся и разговаривающих между собой. В такой обстановке система записывает звуки от всех источников, находящихся в помещении. Использование методов спектрально-пространственной фильтрации позволяет разделить звуковые сигналы, произвести идентификацию дикторов, определить их положение и, наконец, распознать их речь.

Исследованием проблем записи и распознавания речи при помощи конфигурации (массива) микрофонов на разных расстояниях от пользователя занимается значительный круг специалистов. Тем не менее, для задачи локализации речевого сигнала на сегодня до конца не определено, какой класс методов лучше всего использовать, Прежде всего, это связано с тем, что изначально данный класс методов был ориентирован на локализацию узкополосных сигналов, и для обработки речи, изменяющейся в диапазоне 20-20000 Гц, требуется их модификация.

Учитывая, что локализация диктора (пользователя интерактивного приложения) должна происходить в режиме реального времени, а длительность сеансов взаимодействия может не превышать нескольких десятков секунд, большинство из проанализированных методов, как оказалось на практике, не могут быть применены вследствие вычислительной сложности и необходимости использования большого набора сенсоров. В простых приложениях измерение времени задержки между сигналами, записанными двумя или более микрофонами, может использоваться для определения положения диктора в пространстве.

Для моделирования сигнала, излучаемого от удаленного источника в условиях шумов и записанного несколькими разнесенными в пространстве микрофонами, обычно используется следующее выражение: хп (i) = Д,Л'(/ ~ Т„) + Ьп (/), где

х„(0 - сигнал, записанный п -ым микрофоном, Д-коэффициент ослабления сигнала при распространении в воздухе, хп - время прохождения звуковой волны от источника s(i) до л-ого микрофона, a bn(i) - аддитивный шум и-ого микрофона. Предполагается, что s(i), Ъп (/) - независимые случайные Гауссовские процессы.

Тогда относительная задержка между сигналами, записанными двумя микрофонами, определяется как разница между временем прохождения волны до первого и второго микрофона: Атп =г, -гг

В реальных акустических условиях, где необходимо учитывать эффект реверберации, разницу в характеристиках микрофонов, направленность шумов, идеальная модель сигнала не всегда подходит, и в этом случае применяют более сложные модели, учитывающие импульсные характеристики между источником и микрофоном. Другим способом оценки задержки является метод обобщенной функции взаимной корреляции (General Cross Correlation-GCC), который опреде-

jlmk

ляется выражением: fccc - argmax J^y a{k)G x¡x,{k)e N где

' k=0

(к) = Хл (к)Хг(к) - взаимный спектр, у/с(к) - весовая функция, I е [1, Т7], Г

- размер окна преобразования Фурье. Метод вСС является более робастным, поскольку основан на предварительной фильтрации входных сигналов в некотором конечном окне, что позволяет избежать смешивания сигналов от различных источников и устранить влияние реверберации. Недостаток данного метода заключается в том, что функция взаимной корреляции обычно имеет довольно размытый максимум, в результате невозможно достичь высокой точности в оценке задержки.

Для повышения производительности метода вСС применяют различные весовые функции, которые позволяют найти некоторый компромисс между разрешающей способностью алгоритма и его чувствительностью к шумам. Например, если требуется выделить в сигнале те частоты, которые имеют наибольшее соотношение сигнал/шум, то весовую функцию у/а(к) следует выбрать таким образом,

чтобы она зависела от спектра шума и полезного сигнала. Такая функция может быть построена заранее с учетом априорных знаний или вычисляться в процессе обработки сигнала, обеспечивая адаптивность метода.

При выборе конфигурации микрофонов были проверены модели с 2,4,12 микрофонами. На модели с двумя микрофонами была проанализирована зависимость точности локализации источника звука от расстояния между микрофонами, расстояния между массивом микрофонов и источником звука, отклонением источника от нормали массива. Также отмечено влияние направления распространения звукового потока на точность локализации. Решены задачи локализации дикторов в заданном пространстве и проверки наличия источника звука в ограниченной зоне. В разработанном методе анализа речевой активности учитываются: (1) уровень энергии сигнала; (2) пространственное положение источника звука; (3) фонетические закономерности разговорной речи. Последовательность операций при определении границ речи в разработанном методе (рис. 3) выполняется в циклическом режиме и заканчивается при остановке всего приложения.

Рис. 3. Схема спектрально-пространственного анализа речевой активности.

Применение корреляционных методов возможно только при обеспечении синхронности многоканальной записи аудиопотоков. В случае же распределенных мероприятий и использования независимых устройств записи и обработки аудиосигналов наиболее эффективно применение методов на основе нормализации ау-

диоканалов, расчета относительной энергии сигнала и его спектра, учета фонетических закономерностей речи.

В ходе разработки многоканальной системы записи и протоколирования речи распределенных участников мероприятия в интеллектуальном зале были проанализированы основные проблемы обработки аудиосигналов и предложены программно-аппаратные способы их решения. Поскольку участники сидят достаточно близко друг к другу за столом совещаний, соседние микрофоны могут захватывать речь одного и того же диктора с примерно одинаковой амплитудой сигнала. В итоге определение границ речи по энергии сигнала или его спектра в каждом канале независимо часто приводит к ошибочным результатам.

Для повышения точности анализа применяют различные способы нормализации, например, расчет относительной энергии сегмента в каждом канале п:

е а) ^

Е™т (;) = ^ " , , где £„(/) = - энергия в канале П для сегмента /,

К - число отсчетов в сегменте речи, М - число каналов в системе. Нормализованная энергия сегмента для каждого канала будет рассчитана относительно всех каналов в системе, и ее значение будет изменяться в диапазоне от нуля до единицы.

Для компенсации различий в усилении сигнала по разным каналам дополнительно учитывают минимальную энергию сегмента в каждом канале:

1 м

£тгт ф =1од10(£' (/) - Етт -—^£.(/))> где ' минимальная энергия сегмента, вычисленная для каждого канала в условия тишины, вычитание которой позволяет учесть различные уровни усиления и внутренние шумы микрофонов. Затем после вычитания средней энергии по каналам производится логарифмирование, чтобы сократить разрядность полученного значения энергии. Нормализованная энергия Е ™т (0 показывает относительное усиление сигнала в каждом канале

и позволяет определить наличие речи в текущем сегменте.

При обеспечении синхронизации аудиопотоков возможно применение методов, основанных на вычислении взаимной корреляционной функции между сигналами всех пар микрофонов, использующихся при записи. Также существует класс методов, использующих скрытые Марковские модели и Гауссовские смеси для классификации сигнала на речь и тишину. Их особенностью является необходимый предварительный этап обучения моделей, поэтому на данной стадии исследования для определения речи в многоканальной системе были использованы более простые подходы, выполняющие классификацию без настройки моделей.

В разработанной многоканальной системе регистрации речи участников мероприятия был использован набор веб-камер с встроенными микрофонами, что позволило автоматически выбирать камеру текущего диктора и передавать изображение удаленному участнику мероприятия. Оценка о текущем активном дикторе (номере веб-камеры) к1 для сегмента 1 производилась путем расчета относительной энергии канала в скользящем окне, за счет чего подавлялись случайные всплески энергий в отдельных каналах:

1(7-1 1 М 6-1

" « ,-=0 м у=1 1=0

где С - размер скользящего окна, Л/ - число аудиоканалов, к"Атр - коэффициент

усиления п канала, Е- кратковременная энергия сегмента речи.

Точность сегментации речи в многоканальном аудиопотоке оценивалась по ошибкам первого и второго рода, путем вычисления числа пропущенных и ложных сегментов речи соответственно.

Четвертая глава посвящена разработке модели, алгоритмов и программных средств компактного представления словаря системы распознавания русской речи. Относительно высокий уровень флективности русского языка приводит к генерации большого числа словоформ для одного и того же слова, поэтому простейшая модель организации словаря в виде списка словоформ и их транскрипций не обеспечивает необходимой скорости доступа к словарю. Декомпозиция транскрипции каждой словоформы из словаря на основу и окончание с последующим объединением одинаковых последовательностей первых фонем основ и сохранением списка уникальных транскрипций окончаний обеспечивает формирование компактной морфофонемной структуры словаря в виде двухуровневого префиксного графа, пригодного для декодирования русской слитной речи. Приводятся результаты экспериментальной проверки модели на словаре свыше 2 миллионов словоформ и сравнение с альтернативными подходами представления словаря.

Классической моделью словаря (слов или морфов) является структура, представляющая собой список всех словоформ и их транскрипций. Транскрипция каждого слова представляет собой цепочку составляющих ее фонем. Акустическая модель фонемы обычно строится на основе скрытых моделей Маркова (СММ) и лево-правой модели Бэкиса. Более точное распознавание фонем достигается путем учета фонетического контекста и построения моделей Трифонов, а также применения смесей Гауссовских плотностей распределения вероятностей векторов наблюдений в состояниях фонем.

С помощью СММ обеспечивается объединение акустических моделей фонем, слов, фраз в единую структуру графа словаря, обеспечивающего поиск лучшей гипотезы распознавания речевого сообщения. При проектировании системы распознавания речи в зависимости от размера словаря и типа модели языка, которая используется при построении моделей фраз, в основном изменяется структура графа. Поэтому методы параметрического представления речи, методы оценки вероятности состояний, фонем, фраз остаются практически неизменными, а производится наполнение и оптимизация графа словаря.

С увеличением размера словаря появляются слова с одинаковыми начальными участками, соответственно их транскрипции будут иметь одинаковые начальные фонемы. Путем объединения начальных участков транскрипций словарь преобразуется в лексикофонетическое дерево, за счет чего достигается значительное сокращение памяти. Прохождение по дереву позволяет синтезировать все возможные слова из словаря. Существующие методы распознавания на основе префиксного лексико-фонетического дерева успешно применяются для английского и других языков.

Для компактного представления словаря транскрипций предложено использовать декомпозирование словоформы на основу и концовку при помощи морфоа-

нализатора, построенного на базе правил словообразования и словоизменения, что позволяет хранить словарь в виде префиксного дерева основ и автоматически генерировать произвольную словоформу.

Полученное лексическое префиксное дерево имеет двухуровневую структуру (рис.4), где первый уровень представляет собой граф основ, а второй - список концовок (элементы, следующие за основой, могут состоять из словообразовательных и словоизменительных суффиксов, окончания и постфикса). Данный двухуровневый морфофонемный префиксный граф (ДМПГ) наиболее компактно описывает все используемые словоформы и их транскрипции.

Первый уровень (граф основ) Второй уровень (граф концовок)

Число различн-

транс-крилций основ

Число различных первых _ фонем в транскрипциях слое

епс)( -К»-...»О»'

.. •

епс!.

.. ■ Т V ..

епс)к

Число различных транскрипций

КОНЦОВОК

Рис. 4. Структура ДМПГ для декодирования слитной речи.

Первый уровень ДМПГ представляет собой префиксный граф транскрипций основ, концевыми узлами которого являются графемные представления основ. Число входных узлов первого уровня равно числу уникальных первых фонем в транскрипциях слов из словаря. Число концевых узлов первого уровня графа равно числу уникальных основ из словаря. Второй уровень ДМПГ представляет собой список уникальных транскрипций концовок с соответствующими фонетическими путями. Узлы основ связаны с соответствующими концовками для построения всех возможных словоформ. Любой путь по двухуровневому графу содержит ровно два "концевых" узла (основу и концовку). Число различных путей по графу равно числу всех различных транскрипций словоформ, которые можно образовать по грамматическим правилам русского языка от имеющегося в словаре списка основ. Максимальная и минимальная длины путей по графу равны числу фонем в транскрипциях самой длинной и самой короткой словоформы соответственно.

Данный граф может быть применен для распознавания изолированно произнесенных слов. В этом случае последовательность фонем, составляющая транскрипцию некоторого слова ц>, может быть записана в виде кортежа пройденных

узлов по графу: м> = {п],п2,...,п„11,пш,п1+2,...п/,12), где п1,п1,...,п1,...п] — неконцевые узлы, содержащие фонемы. Концевые узлы /( и /2 содержат, соответственно, некоторую основу и концовку.

Использование грамматических правил при формировании двухуровневого морфофонемного графа обеспечивает построение всех возможных словоформ и исключает возникновение грамматически некорректных комбинаций основы и концовки при декодировании речевого сигнала.

Генерация ДМПГ производится по списку транскрибированных словоформ, поэтому полученный граф способен генерировать только грамматически правильные слова. Для использования данного графа в задаче распознавания слитной речи вводится обратная связь, обеспечивающая генерацию последовательности словоформ с неограниченной длиной. Строго говоря, число слов в последовательности будет зависеть от длины записанного речевого сигнала, и при поступлении последней фонемы гипотеза распознанной фразы (путь по графу) заканчивается последним начатым словом.

Для оценки предложенного способа представления словаря проведен сравнительный анализ ДМПГ с двумя общепринятыми моделями представления словаря: модель списка всех словоформ и лексическое дерево. Число узлов и дуг, а также плотность графа словаря использованы для оценки компактности различных способов представления. Отдельно приведена статистика по узлам разного типа (узлы фонем, словоформ, основ, концовок). Плотность графа вычисляется как отношение суммарного числа всех узлов и дуг к числу словоформ, которые хранятся в данной модели словаря. Плотность графа позволяет оценить среднее число узлов и дуг, которое требуется для представления отдельной словоформы. В диссертации приведены формулы расчета перечисленных параметров для всех трех способов.

Размер словаря при использовании линейной модели списка слов пропорционален произведению числа всех словоформ и средней длины слова. При этом модель каждого слова представляет собой цепочку узлов фонем для описания транскрипции и узел словоформы. В префиксном лексическом дереве достигается значительное сокращение элементов графа за счет объединения узлов фонем на начальных участках одинаковых фонетических транскрипций. Так как число узлов фонем сокращается в процессе построения дерева и зависит от подобия префиксов фонетических транскрипций слов предметной области, то его аналитическую фор-хмулу вывести невозможно, а расчет производится путем простого пересчета узлов фонем после построения дерева.

С помощью модели лексического префиксного дерева достигается значительное сокращение узлов фонем в графе. В то же время ДМПГ, построенный по принципам лексического дерева, сохраняет его преимущества и имеет двухуровневую морфологическую структуру. За счет этого сложность ДМПГ пропорциональна числу основ в словаре. Для оценки сложности топологии ДМПГ далее рассмотрим формулы вычисления числа узлов и дуг, использованных при построении графа. Так как граф имеет двухуровневую структуру, то для каждого параметра расчет будет производиться в три этапа: анализ уровня основ, анализ уровня концовок и суммарная оценка.

Так как первый уровень ДМПГ представляет собой лексическое дерево основ, то расчет числа узлов фонем на первом уровне Ыр)юп 51ет(ДМПГ) производится путем суммирования узлов на каждом срезе яИсе^"'г ■ При этом число фонем в транскрипциях словоформ или длина фонетических путей изменяется от 1 до числа фонем в транскрипции самой длинной основы , а не словоформы:

хр)юп^1е^т{ДМПП = £ [slicefmr)- Учитывая, что транскрипции кон-

цовок располагаются в графе независимо друг от друга, расчет числа узлов фонем Nphon Ыт^{ДМПГ) на втором уровне производится следующим образом:

£/,.> we - число концовок в словаре, I, - число

¡=1

фонем в транскрипции концовки с номером i. Отметим, что в графе хранятся только уникальные концовки и их транскрипции. Суммарное число узлов фонем Nphon mjjc (ДМПГ), включая уровни основ и концовок, будет равно:

К^^ДМПГ) = 7Г) =

Так как в графе существуют узлы только уникальных основ Ns:em и концовок NvnJing, то общее число узлов п0<к{ДМПГ). содержащих полные транскрипции и индексы лексических единиц равно: Nm>rdjHJMMnr) = Nslem+■ Суммарное же число всех узлов, включая начальный, равно: Nnode{ ДМПГ) = 1 + Мр1ю„_„„АДМПГ) + Ns,em + Nend,g =

Число дуг в графе складывается из нескольких составляющих. Во-первых, это число дугNphM т^{ДМПГ) + Nтт, задействованных в лексическом дереве основ и списке концовок, затем дуги Nurc slem ending , связывающие основы и концовки, в количестве, необходимом для построения всех возможных словоформ; и, наконец, дуги обратных связей Nending : М^ЩМПГ) = ИрЫ„^(ДМПГ) + Nslm + Мш

>tcrn_ending ^ending

Лму ^¿»ding

= L Крь„Л*НсеГГ )+£/,+ Nllm + Narc sttra eKling + N^

i=l M

Суммарное число узлов и дуг Nnodegcarc (ДМПГ) в графе равно: NnManmmr)=Nmde (ДМПГ)+N ДМПГ) =

= 1+2

TWce?™)* fl. + N^+N,

ending

+ N

arc_sicm_cnding

Тогда плотность графа Ndc„si {ДМПГ) равна:

NJemiKUIMn[)=-

1+2 КМ,ГС(ДМП1) Си •Vwi.ts ы ы + N arc_stcm_ecim|;

N "mini N "ward

Во всех трех моделях число хранящихся словоформ Nmri остается неизменным. За счет объединения идентичных фонем на первых срезах лексического дерева достигается существенное сокращение узлов фонем по сравнению с моделью списка, где число узлов фонем на первом срезе равно числу словоформ в словаре, а затем постепенно убывает. В отличие от лексического дерева в ДМПГ строится дерево только для основ, а не для полных словоформ. Кроме того, в виде списка хранятся фонетические пути только для уникальных окончаний, в то время как в лексическом дереве окончания повторяются в парадигмах всех слов из словаря.

Число узлов, содержащих слова в лексическом дереве и в модели списка, является одинаковым, так как в том и в другом случае в узлах хранятся все словоформы из словаря. В графе ДМПГ узлов, содержащих полные словоформы, не существует, так на этапе подготовки словаря производится декомпозиция всех словоформ на основы и концовки.

В структуре лексического дерева производится сокращение узлов фонем, однако в листе каждой ветви дерева по-прежнему хранится полная словоформа. Поэтому оптимизация способа представления фонетических путей не обеспечивает сокращения узлов словоформ в модели дерева. В графе ДМПГ обеспечивается сокращение как узлов фонем, так и узлов слов благодаря декомпозиции словоформы на основу и концовку. При этом число уникальных основ и концовок, которые хранятся в узлах графа, будет существенно меньше, чем число уникальных словоформ. Так как число уникальных словоформ в каждом из способов одинаковое, то отношение плотностей графов равно отношению суммарного числа узлов и дуг.

Для тестирования моделей был сформирован список всех словоформ и их транскрипций путем обработки грамматического словаря A.A. Зализняка. Сравнительный анализ моделей по параметрам, описанным в предыдущих разделах, показал явное преимущество ДМПГ. Характеристики графов, построенные по трем разным подходам, представлены в таблице 2. ДМПГ описывая точно такой же словарь, как и основные модели, использует в 7,99 раз меньше число узлов фонем, а также имеет в 9,4 раз меньше плотность графа по сравнению с лексическим деревом.

Таблица 2. Сравнение ДМПГ с другими моделями представления словаря.

Критерий сравнения Способ представления словаря

Модель списка Лексическое дерево ЦМПГ

Число узлов фонем 23017898 2967752 371018

Сокращение числа узлов фонем _ 7,75 62,03/7,99

Число узлов словоформ (основ+концовок) 2095659 2095659 187996

Суммарное число узлов 25113558 5063412 559015

Число луг 27209216 7159070 747010

Суммарное число умов и дуг 52322774 12222482 1306025

Плотность графа словаря 24,96 5,83 0,62

Сокращение плотности графа словаря - 4,28 40,06/9,40

Также было проанализировано, как изменяются параметры моделей в зависимости от размера словаря. Сокращенные словари создавались путем случайного отбора заданного числа уникальных словоформ из базового словаря. По суммарному числу узлов ДМПГ имеет явное преимущество, начиная с размера словаря около 10000 словоформ. По остальным: показателям, в том числе по плотности графа (табл. 3), ДМПГ лидирует уже после 100 словоформ.

Особый интерес представляет распределение числа узлов фонем по срезам графа (рис. 5), поскольку главным образом этот фактор влияет на сложность топологии как графа ДМПГ, так и лексического дерева. Проанализируем все три модели отдельно.

Таблица 3. Сравнение по плотности графа словаря.

Модель представления словаря Размер словаря

10 100 1000 10000 100000 1000000 2095659

Модель списка 24,5 22,77 23,51 23,31 23,33 23,74 24,97

Лексическое дерево 23,9 20,43 18,71 15,22 9,74 5,86 5,83

ДМПГ 25,5 19,73 15,62 11,46 5,28 1,07 0,62

В линейной модели списка транскрипций словоформ на первом срезе присутствуют первые фонемы всех словоформ, поэтому число узлов фонем равно числу словоформ в словаре. Для тестового словаря число узлов фонем первого среза равно 2095659. На втором срезе число узлов фонем становится меньше (2095627 узлов), поскольку слова, состоящие из одной буквы, уже не участвуют в этом срезе. По мере увеличения номера среза и, соответственно, длины слова, число узлов фонем на каждом уровне сокращается. На последнем 27 срезе присутствует 16 узлов фонем для последних фонем из шестнадцати самых длинных транскрипций. Для повышения компактности и скорости обработки транскрипций мягкость согласных и ударность гласных выделяется регистром.

В лексическом дереве на первом срезе присутствуют узлы только уникальных фонем, по мере появления различий в цепочках фонем число узлов на каждом последующем срезе увеличивается. После достижения среза с номером равным средней длине транскрипции большая часть транскрипций постепенно заканчивается узлами словоформ, и поэтому число узлов фонем начинает сокращаться. На первом и последнем срезах для данного словаря находится 48 и 18 узлов фонем соответственно. Максимальное число узлов фонем 371545 достигается на 10 срезе.

2.50Е+06 - 1.00Е+07 ■

2.00Ё+06 -

1—Мздель списка - "Лексическоедерево

20 25 30 __Номер среза. ПМТ..

'1 « Мвдег». списка - - Лекс^есгое дерево ' а б

Рис. 5. Распределение узлов фонем по срезам моделей: а — линейная шкала; б — логарифмическая шкала.

В ДМПГ благодаря использованию лексического дерева для представления транскрипций основ и объединению одинаковых концовок срез с максимальным числом узлов фонем достигается почти в 2 раза быстрее, а значение максимума в 6 раз меньше в ДМПГ, чем в лексическом дереве. Таким образом, для данного словаря, включающего 2095659 уникальные транскрипции словоформ, предложенный способ представления словаря на базе ДМПГ показал заметное преимущество.

Также рассмотрена методика подготовки всего комплекса баз данных, необходимых для работы системы распознавай™ речи, в том числе на уровне акустики, лексики и синтаксиса. Описаны алгоритмы, использованные при обработке речевого сигнала с помощью разработанного декодера на базе ДМПГ. Рассмотрены этапы обработки и прохождения гипотезы распознавания по всему графу, а также в узле фонемы. Предложены некоторые изменения в структуре графа для его применения к обработке спонтанной речи. Проанализированы основные внеязыковые элементы, характерные для разговорной речи, которые ухудшают качество распознавания декодеров, ориентированных на обработку слитной речи. Предложенный гибридный декодер включает в себя модули, отслеживающие появление шумовых внеязыковых элементов в речи и их устранение на акустическом уровне, за счет чего обеспечивается повышение точности распознавания речи.

Пятая глава описывает разработанное программное обеспечение проектирования речевых и многомодальных интерфейсов и примеры созданных интерактивных многомодальных приложений.

На основе предложенного методологического и математического обеспечения проектирования многомодальных интерактивных приложений и конфигурирования программно-аппаратных ресурсов были определены комбинации входных и выходных модальностей для разработанных приложений, относящихся к различным классам интерактивных информационно-управляющих сервисов. В таблице 4 представлены комбинации модальностей для каждого разработанного приложения с учетом ограничений (1С, ОС, ЕС, ЯС.

Указаны наиболее важные характеристики дикторов, использованного оборудования, помещения и особенностей предметной области. Знаком «+» отмечены задействованные модальности, а знаком «*» — модальности, которые не были реализованы на данной стадии исследования по технико-экономическим причинам, но являющиеся перспективными с точки зрения обеспечения естественности взаимодействия. Например, внедрение технологий чтения речи по губам в многомодальный киоск, который ориентирован на применение в общественных местах с сильным уровнем шумов, позволит увеличить помехоустойчивость распознавания речи. Синтез мимических движений говорящей головы позволит повысить интерактивность взаимодействия и привлечь больший круг клиентов. Синтез и распознавание жестов рук позволит инвалидам по слуху воспользоваться услугами информационно-справочного многомодального киоска.

Структура разработанного программного обеспечения, использующегося на всех этапах жизненного цикла многомодального интерфейса, представлена на рисунке 6. Разработанные классы и библиотеки разделены на пять основных уровней: (1) модули интерфейсов к устройствам; (2) модули синхронизации потоков и процессов; (3) модули первичной обработки сигналов; (4) модули распознавания и синтеза образов; (5) модули пользовательских сервисов. Программное обеспечение удовлетворяет требованиям: адаптивности, многофункциональности, переносимости, масштабируемости, расширяемости и другим свойствам, предъявляемым к современным инструментальным средствам автоматизации проектирования и программирования. Далее рассматривается несколько примеров многомодальных приложений, реализованных на основе данного обеспечения в ходе диссертационного исследования.

Входные модальности

Свойства многомодальных приложений

Выходные модальности

Параметры пользователя,

ис

Характеристики устройств, ОС

Характеристики среды взаимодействия, ЕС

Характеристики сервиса, 5С

и> Д Р

"о"

юЗ: 2 я I

Многомодальный информационный киоск

Нсподготовлен ные пользователи разного пола, возраста, роста.

Промышленный бортовой компьютер. Сенсорный экран. Массив микрофонов. Массив видеокамер. Динамики. Подключение к _сети Интернет._

Расстояние взаимодействия 0.20.6 м., сильные фоновые шумы и параллельные разговоры. Помещения в общественно-транспортных _центрах._

Кратковременные сессии, размер словаря до 3000 слов,,..

Управление оборудованием внутри интеллею'уального зала

Неподготовленные пользователи без физических ограничений

Распределенная многопроцессорная система. Мультимедиа. Распределенная система микрофонов и камер. Подключение к Интернету. Отдельное помещение для расположения вычислительных, сетевых ресурсов.

Расстояние взаимодействия 0.26 м., сильные фоновые шумы и параллельные разговоры. Взаимодействие с несколькими пользователями одновременно. Закрытое помещение с ограниченным числом пользователей.

Кратковременные сессии, размер словаря до 3000 слов

Удаленное управление оборудованием зала через мобильное устройство

Подготовленные пользователи без физических ограничений

Небольшие габаритные размеры. Ограниченные вычислительные ресурсы. Сенсорный экран. Набор функциональных кнопок. Динамики. Подключение к Интернету.

Расстояние взаимодействия 0.1 -0.4 м., сильные фоновые шумы и параллельные разговоры. Динамичное изменение условий окружающей среды.

Кратковременные сессии, размер словаря до 100 слов

Поддержка информационного взаимодействия участников совещания

Подготовленные пользователи без физических ограничений

Распределенная многопроцессорная система. Подключение к Интернету. Мультимедиа. Распределенная система микрофонов и камер. Отдельное помещение для расположения вычислительных, сетевых ресурсов.

Расстояние взаимодействия 0.2-6 м. сильные фоновые шумы и параллельные разговоры. Взаимодействие с несколькими пользователями одновременно. Закрытое помещение с ограниченным числом пользователей.

Длительные сессии, размер словаря до 10000 слов

Программное обеспечение многомодального интерфейса к интерактивным приложениям

.^ногомод^ьчое ^ /ЛредоставлениеУ- ■ ( управление щ информационно- Щуда •^оборудованием у' .:\£лразочных услуг/:;^

Модули Сервисов

Мониторинг и ■{удаленное управление М оборудованием у ,

Регистрация участников „мероприятия взалеу

Подготовка Л мультимедийных уотчетов мероприятия^

'Распознаванием /Определение^ речевых ) ( положения сообщений у лица

Модули распознавания и синтеза аудиовизуальных образов

I источников у звука

представление вукоеого сигнал;

/Локализация^ /Параметрическое^ /Языбср N параметрическое ^Определение \ /"Слежение за ^

Модули первичной обработки аудио- и видеопотоков

/Синхронизация^ Управление ^ ¡аудиовизуальных] (параллельными } у, потоков у у процесами _

/^Соединение/Запоосданныхиз\ /^0<аключен*?\ /Контрольдоступа^ /^"Компоновка веб-«и] (распределенных! (Инт»он т пес осов) ( УДаленнЬ)* }( к у плавлению | (страницы мониторинга } у модулей у р е ^ ур у чюльзователей/ у устройствами V у состояния системы у

Модули синхронизации аудио- и видеопотоков, параллельных процессов и соединения модулей в распределенной вычислительной системе

) . к , -:. ■ „о .

^аудиопотока/ \эидеопотока;

Вывод

(аудиопотока на ; (мультимедийным } ^ динамики У- У проектором

Модули интерфейсов к устройствам ваодз. аыеода и активатора«

Рис. 6. Структура программного обеспечения многомодального интерфейса.

Приводится описание разработанного многомодального киоска МИДАС (Многомодальный Интерактивно-Диалоговый Автомат Самообслуживания), распознающего присутствие клиента и вербально взаимодействующего с ним на естественном языке, в котором в первую очередь были реализованы разработанные методы обработки различных естественных модальностей. Основными модулями архитектуры киоска являются: 1) видеообработка с технологией компьютерного зрения для распознавания положения тела, лица и отдельных органов лица пользователя; 2) дикторонезависимая система распознавания русской речи, использующая массив микрофонов для подавления шумов и локализации источника полезного сигнала при дистанционной записи речи; 3) система аудиовизуального синтеза русской речи (говорящая голова), применяемая для виртуального помощника-аватара; 4) интерактивный графический пользовательский интерфейс на базе сенсорного экрана; 5) менеджер диалога и диалоговая модель, включающие информационные базы данных и систему управления стратегиями диалога.

На базе многомодального киоска были реализованы справочные системы по сотрудникам СПИИРАН и поиска по карте Санкт-Петербурга, а также были проведены когнитивные эксперименты по человеко-машинному взаимодействию с использованием трех вариантов интерфейсов: (1) полностью речевой интерфейс; (2) интерфейс с дублированием речи текстом; (3) полностью текстовый интерфейс. Результаты экспериментов подтвердили готовность большинства потенциальных пользователей к естественному многомодальному либо речевому взаимодействию с автоматической системой.

Рассмотрена технологическая инфраструктура интеллектуального зала (рис. 7), оснащенного в здании института. Наличие многомодального пользовательского интерфейса является отличительной характеристикой созданного интеллектуального зала. Разработанные технологии обработки аудиовизуальных данных были успешно внедрены в интеллектуальном зале для обеспечения естественного взаимодействия с оборудованием зала. Среди наиболее важных примененных тех-

нологий следует отметить автоматическое распознавание речи, идентификацию диктора, локализацию источников звука, определение положения и слежение за подвижным объектом и лицом человека, определение позы человека. Кроме того, в разработанных интерактивных приложениях используется технология аудиовизуального синтеза русской речи «говорящая голова», созданная в ходе совместных проектов с ОИПИ НАН Беларуси и университетом Западной Богемии.

!-«- 1.4 #

-й- ¥1

* 13 * I

г------- 1 I

1.1 и и

- И- группа света 1

-12 - группа света 2

-13 - группа света 3 -14 - группа света 4 ' - привод штор -1^2 - привод экрана

Активаторы

Приложения

СИСТЕМА УПРАВЛЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫМ ЗАЛОМ

Слежение за Слежение за Детектор Локализация Дистанционное подвижным лицом позы источников распознавание

объектом чеповека человека звука речи

Идентификация диктора

Сат1________Сат2. СэтЗ Сат4 Сат5

М1.М2,МЗ,М4 М5.М6.М7.М8 М9.М10.МЛ.М12

Видео сенсоры Аудио сенсоры

Рис. 7. Технологическая инфраструктура интеллектуального зала.

Дистанционное распознавание голосовых команд, записанных с использованием массивов микрофонов, позволяет управлять освещением, шторами, проекционным экраном, поворотом камер и более сложными приложениями, например, телевизором, радио, аудио-, видеоплеером. Реализованы многомодальные приложения «Справочная СПИИРАН», предлагающее в интерактивном режиме информацию о сотрудниках института, научных подразделения и текущих мероприятиях, и «Карта Санкт-Петербурга», где посредством голосового дистанционного запроса производится поиск улицы и вывод на экран сенсорного монитора интересующего участка карты города. Приложение «Умная доска» позволяет делать рукописные записи на сенсорной плазменной панели и с помощью голосовых команд управлять графическим интерфейсом. В приложении «Монитор состояния зала» на экран выводится информация о состоянии оборудования, пространственному положению пользователей, их речевой активности, а также реализовано сенсорное

управление оборудованием. Во всех приложениях интерактивная обратная связь обеспечивается с использованием говорящей головы, которая показывает пользователю об осведомленности зала о поведении пользователей и озвучивает необходимую речевую информацию.

На основе веб-интерфейса была реализована система удаленного управления оборудованием зала посредством гетерогенных клиентских устройств. На рисунке 8 приведены примеры различной компоновки управляющих элементов, изображения зала, а также говорящей головы, служащей для бимодального синтеза речи, для различных разрешения и ориентации мобильного устройства клиента. Представленная модель компоновки веб-страницы адаптируется возможностям и текущему состоянию устройства и автоматически формирует соответствующую структуру веб-страницы, отображающейся на стороне клиента.

Рис. 8. Примеры компоновок веб-интерфейса для различных клиентских устройств.

Разработанный интеллектуальный зал представляет собой распределённую систему, которая содержит сеть интеллектуальных агентов (программных модулей), активационных устройств, мультимедийных средств и аудиовизуальных сенсоров. Основная задача зала — обеспечение участников совещания или лекции необходимыми сервисами на основе автоматического анализа текущей ситуации. Осведомлённость зала о пространственном положении участников, их текущих действиях, роли в текущем мероприятии и их предпочтениях помогает более точно предсказать намерения и потребности участников. Применение многомодального пользовательского интерфейса, использующего речь, движения, позы и жесты участников для выявления их потребностей обеспечивает естественный и интуитивно понятный способ взаимодействия с интеллектуальным залом.

В разработанной системе протоколирования речи участников телеконференций используется набор персональных веб-камер с автоматизированной регулировкой объектива и встроенным микрофоном для записи поведения участников и последующего выявления в аудио- и видеосигналах сегментов, содержащих речь, жесты и другую активность, связанную с ходом мероприятия. Общая схема обработки аудио- и видеопотоков во время совещания и передачи данных удаленным слушателям представлена на рисунке 9. Одновременно с передачей аудио- и видеосегментов с каждой камеры поступает время начала записи, по которому производится синхронизация и формирование многоканальных потоков. За счет такой обработки частично устраняется асинхронность потоков, вызванная разным временем подключения веб-камер и задержек, связанных с загруженностью вычислительных модулей и сети передачи данных.

Рис. 9. Схема обработки аудио- и видеопотоков во время совещания.

Для проведения телеконференций разработана специальная диалоговая система, позволяющая видеть удаленному клиенту всех участников мероприятия, слайды презентации. Компоновка аудио- и видеоданных производится на основе веб-интерфейса, адаптируемого к возможностям клиентского устройства и текущей ситуации в зале, где проводится совещание. Благодаря автоматическому переключению камер на текущего участника есть возможность отображения активного диктора в окне с большим разрешением. Весь ход мероприятия архивируется в аудио- и видеофайлах с сегментацией на фразы каждого диктора. Составляется детальная статистика на каждого выступающего и в целом на совещание. По окончанию мероприятия генерируется мультимедийный отчет, позволяющий проанализировать активность каждого участника и его вклад при принятии решений. Разработанная система многоканальной записи была успешно протестирована и используется в институте для информационной поддержки участников мероприятия.

Разработка математического и программного обеспечения была выполнена в ходе реализации государственных программ, направленных на изучение средств естественной человеко-машинной коммуникации, поддержана российскими и зарубежными грантами. Предложенный комплекс модельно-алгоритмического, методического, программного, технического и информационного обеспечения построения интерактивных многомодальных приложений внедрен в ряде организаций и используется в учебном процессе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ

Совокупность полученных в настоящем диссертационном исследовании научных результатов составляет теоретические и технологические основы решения проблемы системотехнического обеспечения процессов естественного человеко-машинного взаимодействия в интерактивных многомодальных приложениях на базе многоканальной дистанционной обработки речи, внедрение которых вносит значительный вклад в развитие экономики страны. Получены следующие результаты:

1. Методологическое и математическое обеспечение проектирования интерактивных многомодальных приложений и конфигурирования программно-аппаратных ресурсов для организации естественного взаимодействия пользователей с учетом ограничений на способы коммуникации со стороны пользователя, клиентских устройств, среды взаимодействия и предметной области предоставляемого сервиса.

2. Метод анализа речевой активности, основанный на применении антропоморфных моделей слуха, критериального оценивания уровня энергии взаимного спектра синхронизированных по времени сигналов, а также учета положения диктора при выявлении границ речи в многоканальном звуковом потоке.

3. Система протоколирования речи участников телеконференций на базе многоканальной распределенной системы регистрации аудиопотоков, расчета относительной энергии сигнала и его спектра и оценивания пространственного положения источника сигнала посредством трехмерной конфигурации микрофонов.

4. Модель компактного представление словарей транскрипций системы распознавания русской речи на базе двухуровневого морфофонемного префиксного графа, отличающаяся применением декомпозиции транскрипций на основу и концовку с последующим объединением одинаковых последовательностей первых фонем основ в виде лексического дерева и сохранением списка уникальных транскрипций концовок.

5. Методика экспертного сопровождения, обеспечивающая накопление реального речевого материала для адаптации системы распознавания речи в процессе постепенной замены оператора автоматическим модулем обработки речи.

6. Программное обеспечение разработки и функционирования многомодального интерфейса, отличающееся применением модулей многоканальной обработки аудио- и видеосигналов, выполнением многопоточных задач на распределенных вычислительных ресурсах и созданием кроссплат-форменных приложений, адаптивных к возможностям и текущему состоянию клиентского устройства.

7. Программно-аппаратная архитектура многомодального информационно-справочного киоска, использующая аудиовизуальные коммуникативные каналы для имитации естественного общения и организации диалога с пользователем в реальных условиях эксплуатации.

8. Технологическая инфраструктура интеллектуального зала, отличающаяся применением модулей многоканальной регистрации и обработки аудиови-

зуальных сигналов для определения положения и слежения за пользователями, дистанционного распознавания голосовых команд, мультимедийного оповещения удаленных пользователей о ситуации внутри зала и организации распределенных мероприятий. 9. Интерактивные приложения, реализованные на основе разработанных методов и созданных многомодальных интерфейсов, обеспечивающих естественную коммуникацию пользователя с интеллектуальными информационными сервисами.

Полученные результаты соответствуют п.9 «Модели и методы разработки программных средств обработки данных и знаний в ВМ, ВК и КС», п. 12 «Программные инструментальные средств разработки интеллектуальных систем, в том числе экспертных систем, систем поддержки принятия решений, обучающих систем и др.», п.13 «Программных средств для машин логического вывода, алгоритмов и программного обеспечения компьютерной алгебры, распознавания образов и классификации для связи человека с вычислительной машиной» паспорта специальности 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей».

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Монография и главы в книгах

1. Ронжин, A.JI. Речевой и многомодальный интерфейсы/ A.JI. Ронжин, A.A. Карпов, И.В. Ли. // М.: Наука, 2006 - (Информатика: неограниченные возможности и возможные ограничения), 173 с.

2. Ronzhin, A. Two Similar Different Speech and Gestures Multimodal Interfaces / A. Karpov, S. Carbini, A. Ronzhin, J.E. Viallet // Multimodal User Interfaces: From Signals to Interaction, D. Tzovaras (Ed.), Springer, 2008, pp. 155-184.

3. Ronzhin, A.L. Quantitative methods in speech processing / Yu.A. Kosarev, A.L. Ronzhin // Chapter in Quantitative Linguistics, [HSK-vol. 27], Berlin: New York, DeGruyter, 2005, pp.834-846.

В журналах из перечня ВАК

4. Ронжин, АЛ. От умных приборов к интеллектуальному пространству / P.M. Юсупов, A.JI. Ронжин. // Вестник Российской Академии Наук, Том 80, № 1,2010, С. 45-51.

5. Ронжин, A.JI. Сравнительный анализ и оценка моделей словаря для систем распознавания русской речи II Информационные технологии, №1, 2009, С. 2128.

6. Ронжин, A.JI. Исследование многомодального человеко-машинного взаимодействия на базе информационно-справочного киоска / A.JI. Ронжин, A.A. Карпов. // Информационно-измерительные и управляющие системы, Москва, № 4, Т. 7,2009, С. 22-26.

7. Ронжин, А.Л. Особенности дистанционной записи и обработки речи в автоматах самообслуживания / А.Л. Ронжин, A.A. Карпов, И.А. Кагиров // Информационно-управляющие системы, Вып. 42, т. 5. — СПб.: ГУАП, 2009, С. 32-38.

8. Ronzhin, A.L. Information Enquiry Kiosk with Multimodal User Interface / A.A. Karpov, A.L. Ronzhin // Pattern Recognition and Image Analysis, Moscow: MAIK Nauka/Interperiodica, Vol. 19, № 3,2009, pp.546-558.

9. Ронжин, A.JI. Топологические особенности морфофонемного способа представления словаря для распознавания русской речи // Вестник компьютерных и информационных технологий, № 9,2008, С. 12-19.

10. Ронжин, А.Л. Разработка бимодальной системы аудиовизуального распознавания русской речи / А. Карпов, А. Ронжин, Б. Лобанов, Л. Цирульник, М. Железны. // Информационно-измерительные и управляющие системы, Москва, № 10, Т. 6,2008, С. 58-62.

11. Ронжин, А.Л. Мультимодальный человеко-машинный интерфейс в медицинских приложениях / С. Чернакова, А. Карпов, А. Нечаев, А. Ронжин // Меха-троника, автоматизация, управление, Москва, № 11,2008, С. 32-37.

12. Ронжин, А.Л. Сравнение методов локализации пользователя многомодальной системы по его речи / А.Л. Ронжин, A.A. Карпов. // Известия вузов. Приборостроение. 2008. Т. 51, № 11. С. 41-47.

13. Ронжин, А.Л. Автоматическое распознавание русской речи / А.Л. Ронжин, И.В. Ли //Вестник Российской Академии Наук, Том 77, Вып. 2, 2007, С. 133138.

14. Ronzhin, A.L. Russian Voice Interface / A.L. Ronzhin, A.A. Karpov // MAIK Nau-ka/Interperiodica: Pattern Recognition and Image Analysis, 2007, Vol. 17, № 2, pp. 321-336.

15. Ронжин, А.Л. Применение техники «Гудвин» для моделирования человеко-машинного взаимодействия / А.Л. Ронжин, А.Б. Леонтьева // Известия вузов. Приборостроение. 2006. Т. 49, № 11. С. 70-75.

16. Ронжин, А.Л. Фонетико-морфологическая разметка речевых корпусов для распознавания и синтеза русской речи / А.Л. Ронжин, A.A. Карпов, Б.М. Лобанов, Л.И. Цирульник, О. Йокиш // Информационно-управляющие системы, Вып. 25, т. 6. — СПб.: ГУАП, 2006, С. 24-34.

17. Ронжин, А.Л. Многомодальная система для бесконтактной работы с персональным компьютером / А.Л. Ронжин, A.A. Карпов // Информационно-управляющие системы, Вып. 23, т. 4. — СПб.: ГУАП, 2006, С. 33-35.

18. Ронжин, А.Л. SIRIUS - система дикторонезависимого распознавания слитной русской речи / A.A. Карпов, А.Л. Ронжин, И.В. Ли. // Известия ТРТУ, № 10, 2005, С. 44-53.

19. Ронжин, А.Л. Многомодальные интерфейсы в автоматизированных системах управления / A.A. Карпов, А.Л. Ронжин // Известия вузов. Приборостроение. 2005. Т. 48, № 7. С. 9-14.

В других изданиях

20. Ronzhin, A.L. Multimodal Interaction with Intelligent Meeting Room Facilities from Inside and Outside / A.L. Ronzhin, V.Yu. Budkov // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.), LNCS 5764,2009, pp. 77-38.

21. Ronzhin, A.Designing Cognition-centric Smart Room Predicting Inhabitant Activities / Ronzhin A., Karpov A., Kipyatkova I. // Springer-Verlag Berlin Heidelberg, D.D. Schmorrow et al. (Eds.): Augmented Cognition, LNAI5638,2009, pp. 78-87.

22. Ронжин, А.Л. Система аудиовизуального синтеза русской речи / Б.М. Лобанов, Л.И. Цирульник, М. Железны, 3. Крноул, А. Ронжин, А. Карпов // Информатика. Минск, Беларусь - 2008. - № 4 (20). - С. 67-78.

23. Ronzhin, A. A Semi-automatic Wizard of Oz Technique for Let'sFly Spoken Dialogue System / A. Karpov, A. Ronzhin, An. Leontyeva. II Springer, LNAI 5246, 2008, pp. 585-592.

24. Ronzhin, A. Smart Multimodal Assistant for Disabled / A. Ronzhin, A. Karpov, M. Zelezny, R. Mesheryakov // Springer, LNCS, Vol. 4550-4566, pp. 201-205.

25. Ронжин, А.Л. Разработка многомодального информационного киоска / A.JI. Ронжин, А.А. Карпов, Ан.Б. Леонтьева, Б.Е. Костюченко // Труды СПИИРАН. Вып. 5, т. 1. — СПб.: Наука, 2007, С. 227-245.

26. Ронжин, А.Л. Двухуровневый морфофонемный префиксный граф для декодирования русской слитной речи / А.Л. Ронжин, Ан.Б. Леонтьева, И.А. Кагиров, Ал.Б. Леонтьева // Труды СПИИРАН. Вып. 4, т. 1. — СПб.: Наука, 2007, С. 388404.

27. Ronzhin, A. A. Hybrid System for Audio Segmentation and Speech-Endpoint Detection of Broadcast News / M. Markaki, A. Karpov, E. Apostolopoulos, M. Astrinaki, Y. Stylianou, A. Ronzhin // In Proc. of 12-th International Conference on Speech and Computer SPECOM, Moscow, Russia, 2007, pp. 691-696.

28. Ронжин, А.Л. Методы искусственного интеллекта и автоматического распознавания речи: Учеб. пособие / Ронжин А.Л., Ли И.В. // СПбГУАП. СПб., 2006. 176 с.

29. Ronzhin, A. A. A multi-modal system ICANDO: Intellectual Computer AssistaNt for Disabled Operators / A. Karpov, A. Ronzhin, A. Cadiou // In Proc. of Inters-peech'2006-ICSLP Conference, Pittsburgh, PA, USA, 2006.

30. Ронжин, А.Л. Разработка и применение системы распознавания слитной русской речи / А.Л. Ронжин, А.А. Карпов, И.В. Ли. // Интегральное моделирование звуковой формы естественных языков: Сборник статей. - СПб.: Институт филологических исследований, 2005. С. 12-19.

31. Ronzhin, A.L. Implementation of morphemic analysis for Russian speech recognition / A.L. Ronzhin, A.A. Karpov // In Proc. of 9-th International Conference SPE-COM'2004, St. Petersburg: "Anatoliya", 2004, pp. 291-296.

Свидетельства о регистрации ПрЭВМ

32. Свидетельство о регистрации ПрЭВМ №2009610481 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 21 января 2009 г.: Ронжин А.Л. Модуль спектрально-пространственного анализа речевой активности (SVAD).

33. Свидетельство о регистрации ПрЭВМ №2008611032 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 26 февраля 2008г.: Ронжин А.Л., Леонтьева Ан.Б., Кагиров И.А., Карпов А.А. Декодер русской слитной речи на базе двухуровневого морфофонемного префиксного графа (SIRIUS).

34. Свидетельство о регистрации ПрЭВМ №2008612231 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 30 апреля 2008г.: Леонтьева Ан.Б., Кагиров И.А., Ронжин А.Л. Морфосинтаксический анализатор русского языка (SMART).

35. Свидетельство о регистрации ПрЭВМ №2008611031 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 26 февраля 2008г.: Карпов А.А., Ронжин А.Л. Многомодальный пользовательский интерфейс для бесконтактного управления компьютером (ICANDO).

Формат 60x84 1\16 .Бумага офсетная. Печать офсетная. Тираж 100 экз. Заказ № 96.

Редакционно-издательский центр ГУАП 190000, Санкт-Петербург, Б. Морская ул., 67

Оглавление автор диссертации — доктора технических наук Ронжин, Андрей Леонидович

Введение.

Положения, выносимые на защиту.

Глава 1. Организация и особенности человеко-машинного взаимодействия в интерактивных многомодальных приложениях.

1.1. Взаимодействие пользователя с окружающим интеллектуальным пространством.

1.2. Специфика многомодальных интерфейсов.

1.3. Анализ существующих интерактивных приложений с речевым и многомодальным интерфейсами.

1.4. Основные проблемы и способы обработки речевого сигнала.

1.5. Анализ методов дистанционной обработки русской речи.

1.6. Выводы по 1 главе.

Глава 2. Методы проектирования и тестирования многомодальных интерфейсов.

2.1. Основные характеристики многомодальных интерфейсов.

2.2. Особенности выбора многомодальных интерфейсов.

2.3. Конфигурирование программно-аппаратных ресурсов при проектировании интерактивных многомодальных приложений.

2.4. Основные архитектуры многомодальных приложений.

2.5. Методика поэтапного внедрения речевых и многомодальных интерфейсов.

2.6. Выводы по 2 главе.

Глава 3. Методы многоканальной обработки речи и пространственной локализации диктора.

3.1. Специфика дистанционной записи и распознавания речи.

3.2. Метод спектрально-пространственной обработки звуковых сигналов

3.3. Метод определения речевой активности в многоканальном звуковом потоке.

3.4. Выводы по 3 главе.

Глава 4. Модель представления словаря распознавателя на базе двухуровневого морфофонемного префиксного графа.

4.1 Методика построения двухуровневого морфофонемного префиксного графа (ДМПГ).

4.2 Сравнительный анализ моделей представления словаря.

4.3 Экспериментальная проверка ДМПГ и базовых моделей представления словаря распознавателя.

4.4 Модель декодирования речевого сигнала на базе ДМПГ.

4.5. Выводы по 4 главе.

Глава 5. Применение разработанных методов дистанционной обработки русской речи в многомодальных интерактивных приложениях.

5.1. Программное обеспечение разработки многомодального интерфейса

5.2. Многомодальный информационно-справочный киоск.

5.3. Управление оборудованием интеллектуального зала.

5.4. Многоканальная система протоколирования совещания в интеллектуальном зале.

5.5. Выводы по 5 главе.

Введение 2010 год, диссертация по информатике, вычислительной технике и управлению, Ронжин, Андрей Леонидович

Актуальность темы диссертации. Появление широкого спектра компьютеризированных устройств различного назначения существенно расширяет возможности современного человека в области коммуникации, образования, бизнеса, медицины и других областей. Однако, рост сложности технологий и устройств в большинстве случаев приводит к усложнению принципов взаимодействия с пользователем. Многие современные научно-технические достижения используются не в полной мере, так часть функций оказываются доступными только ограниченному числу пользователей-специалистов. Наличие естественного способа взаимодействия сейчас является не менее важным свойством устройства, чем его функциональные возможности. Также следует учесть, что физические ограничения и личные предпочтения пользователей оказывают влияние на выбор доступного или наиболее удобного способа взаимодействия. Поэтому согласованность информационных каналов между пользователем и устройством является второй актуальной • проблемой; в области проектирования интерфейсов. Наконец, свойства окружающей среды, в< которой происходит коммуникация, накладывают свои ограничения» на способы передачи данных, и пользователь должен иметь возможность выбора информационного канала, который более устойчив в текущих условиях динамически изменяющейся ситуации.

В отечественных работах наиболее активно исследуются вопросы многомодального анализа биометрических показателей для идентификации личности и состояния человека: Галунов В.И., Аграновский A.B., Бондаренко В.П., Харламов A.A. В развитие теории речевых технологий большой вклад внесли отечественные исследователи Сапожков М.А., Загоруйко Н.Г., Кедрова Г.Е., Чистович JI.A., Косарев Ю.А., Потапова Р.К., Чучупал В.Я., Сорокин В.Н., Скрелин П.А. и другие.

Проблемная ситуация, рассматриваемая в диссертации, заключается в наличии несоответствия возможностей, предоставляемых существующими и перспективными аппаратно-программными средствами, соответствующими информационными технологиями, поддерживающими интерактивные многомодальные интерфейсы, и имеющимся в настоящее время научно-методическим обеспечением их использования и развития. Указанное несоответствие порождает научно-техническую проблему, суть которой состоит в необходимости разработки и реализации модельноалгоритмического, методического, программного, технического и информационного обеспечения процессов естественного человеко-машинного взаимодействия в интерактивных многомодальных приложениях на базе многоканальной дистанционной обработки речи.

Связь с государственными и международными программами. Работа выполнена в СПИИРАН (2003-2010 гг.). Основные результаты диссертационной работы получены в рамках госбюджетных научно-исследовательских программ: ФЦП «Интеграция»: проект "Аспекты устного ввода", № 326.81 (2002-2004 гг.); программы ОИТВС РАН «Новые физические и структурные решения в инфотелекоммуникациях» проект №4.2: «Разработка методов статистической обработки речи для дикторонезависимых инфотелекоммуникационных приложений», (2003-2008 гг.); программы, ОНИТ РАН «Фундаментальные проблемы разработки новых структурных решений и элементной базы в телекоммуникационных системах» проект №1.1. «Разработка средств универсального многомодального доступа для системы интерактивного телевидения» (2009-2010 гг.); Программы СПбНЦ РАН» проект №2.118 «Исследование принципов многомодального взаимодействия на базе информационного киоска» (2007г.); ФЦП. «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы, (ГК №П2360 «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем»). Работа поддержана российскими, грантами: Президента РФ № МК-9351.2006.9 (2006-2008 гг.), РФФИ № 07-07-00073-а (2007-2009гг.), РФФИ № 08-07-90002-Бела (2008-2009гг.), РФФИ № 09-07-91220-СТа (2009-2010гг.); Правительства Санкт-Петербурга № PD04-3.17-39 (2004г.), № PD05-3.17-34 (2005г.), № 30-04/132 (2008г.), № 26-05/131 (2009г.), Фонда содействия отечественной науке (2004-2005гг.), Фонда «Научный Потенциал» №64 (2006г.). Работа поддержана грантами Евросоюза INTAS № 04-77-7404 (20052007 гг.), INTAS № 05-1000007-426 (2006-2008гг.), грантом Евросоюза FP7 SIMILAR NoE IST-2002-507609, (2003-2007 гг.).

Целью диссертационной работы» является повышение эффективности человеко-машинного взаимодействия в интерактивных многомодальных приложениях за счет обобщения* и совершенствования научно-методического аппарата, поддержки системотехнических решений, связанных с многоканальной дистанционной обработкой русской речи и разработкой на этой основе научно-обоснованных модельно-алгоритмических, программно-технических решений. Для достижения поставленной цели в работе решены следующие задачи:

1. Анализ основных направлений в области человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов; применяемых в интерактивных информационно-управляющих системах.

3. Разработка методов спектрально-пространственной обработки,речи и анализ конфигураций системы (массива) микрофонов с альтернативными геометрическими схемами расположения датчиков.

4. Разработка модели компактного представления акустико-лексических структур для. распознавания,русской-речи и методики формирования базы данных слов и их транскрипций.

6. Разработка прикладных, программно-аппаратных решений- с применением многомодальных интерфейсов для предоставления пользователям справочной, информации4 в интерактивном, режиме и сопровождения мероприятий в интеллектуальном зале.

7. Обобщение и оценка результатов исследований- по проблеме организации многомодального человеко-машинного взаимодействия, с оценкой эффективности полученных результатов:

Научная новизна. Разработана совокупность оригинальных моделей, методов, алгоритмов и программно-аппаратных комплексов для исследования и обработки русской речи в. интерактивных многомодальных приложениях, в том числе:

1. разработано методологическое и математическое обеспечение проектирования интерактивных многомодальных приложений и конфигурирования программно-аппаратных ресурсов', для организации естественного взаимодействия пользователей с учетом ограничений на способы коммуникации со стороны пользователям клиентских устройств, среды взаимодействия и предметной области предоставляемого сервиса;

2. разработан метод анализа речевой, активности, отличающийся применением антропоморфных моделей слуха, критериального оценивания уровня энергии взаимного спектра синхронизированных по времени сигналов, а также учета пространственного положения диктора при выявлении границ речи в многоканальном звуковом потоке;

3. разработана система протоколирования речи участников телеконференций, отличающаяся, использованием многоканальной распределенной системы регистрации аудиопотоков, расчета относительной энергии сигнала и его спектра1 и оценивания пространственного положения- источника сигнала посредством трехмерной конфигурации микрофонов;

4. предложена модель компактного представления словаря транскрипций системы распознавания русской речи на базе двухуровневого морфофонемного префиксного графа, отличающаяся применением декомпозиции транскрипций на основу и концовку с последующим объединением одинаковых последовательностей первых фонем основ в виде лексического дерева и сохранением списка уникальных транскрипций концовок;

5. предложена методика экспертного сопровождения в процессе постепенной замены оператора автоматическим модулем обработки речи, обеспечивающая накопление реального речевого материала для адаптации системы распознавания речи;

6. разработано программное обеспечение проектирования многомодального интерфейса, отличающееся применением модулей многоканальной обработки аудио- и видеосигналов, выполнением многопоточных задач на распределенных вычислительных ресурсах и созданием кроссплатформенных приложений, адаптивных к возможностям и текущему состоянию клиентского устройства;

7. разработана программно-аппаратная архитектура многомодального информационно-справочного киоска, отличающаяся использованием аудиовизуальных коммуникативных каналов для имитации естественного интерфейса и организации диалога с пользователем в реальных условиях эксплуатации;

8. разработана технологическая инфраструктура интеллектуального зала, отличающаяся применением модулей многоканальной регистрации и обработки аудиовизуальных сигналов для определения положения и слежения за пользователями, дистанционного распознавания голосовых команд, мультимедийного оповещения удаленных пользователей о ситуации внутри зала и организации распределенных мероприятий. Обоснованность научных положений и выводов обеспечена за счет анализа состояния исследований в данной области, а также согласованностью теоретических выводов с результатами экспериментальной проверки моделей. Новизна технических предложений подтверждается полученными свидетельствами на программное обеспечение.

Практическая ценность работы. Модели, методы, алгоритмы и программное обеспечение, разработанные в диссертационной работе, направлены на повышение эффективности и естественности человеко-машинного взаимодействия. Применение многомодальных интерфейсов позволяет организовать естественное взаимодействие между пользователями и интеллектуальными модулями. Средства реализации задачи по обслуживанию пользователя остаются скрытыми, а предъявляются только конечные результаты деятельности, что концентрирует внимание человека на выполняемой задаче и создаёт эффект ненавязчивости обслуживания. Разработанный многомодальный киоск является прототипом широкого спектра информационно-справочных систем самообслуживания, расположенных в бизнес-центрах, отелях, аэропортах, выставочных комплексах, ВУЗах, медицинских центрах, торговых центрах, музеях, спортивных клубах и других общественно-транспортных центрах.

Применение разрабатываемых методов обработки речи и других естественных модальностей, а также адаптивного к устройству пользователя способа формирования веб-интерфейса позволит транслировать совещания на различные программно-аппаратные платформы и составлять мультимедийные отчеты .распределенных совещаний в режиме реального времени, значительно сократив время ручной обработки речевых записей. Разработка сети интеллектуальных залов позволит организовать совещания, для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал, повысит качество образования за счет автоматизированного непрерывного контроля над каждым учащимся во время занятий.

Реализация результатовработы. Разработанные методы, программное обеспечение, а также технические решения, были использованы в ходе выполнения Государственного контракта № П2360 с Федеральным агентством по образованию; договоров с компанией ТеНо Ав, Германия, (2006-2008), компанией «№\уУо1се» Санкт-Петербург (2005-2007), Дрезденским-технологическим университетом, Германия- (2008-2009), Университетом Западной Богемии, Чехия (2003-2010), а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного университета аэрокосмического приборостроения, Санкт-Петербургского государственного политехнического университета, Санкт-Петербургского государственного электротехнического университета.

Апробация результатов работы. Результаты диссертационного исследования представлялись на Международных конференциях «Речь и Компьютер» 8РЕСОМ (Санкт-Петербург 2000,2002,2004, 2006,2009, Москва

2001, 2007, Патры, Греция 2005); Международной конференции «Региональная информатика» (Санкт-Петербург 2000,2002,2004,2006,2008); Международной научно-практической конференции «Искусственный Интеллект» (Кацивели, Крым, Украина, 2002, 2004, 2006); Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы» (п. Дивноморское 2005,2007); III Всероссийской конференции «Теория и практика речевых исследований» АРСО-2003, Москва; Международных конференциях «Распознавание образов и анализ изображений: новые информационные технологии» (Санкт-Петербург 2004, Нижний Новгород 2008); семинарах «Биометрические системы» российской секции IEEE Computational Intelligence Society, Москва, Россия, 2005; 2006; 6 европейской конференции PEVOC'6, Лондон, Великобритания, 2005; Международных конференциях по человеко-машинному взаимодействию НСИ (Лас-Вегас, США, 2005, Пекин, Китай; 2007, Сан Диего, США 2009); 2 Международной конференции «Автоматизация, управление и информационные технологии — 2005» ACIT-2005, Новосибирск, 2005; Международном симпозиуме SPIE Defense and Security Symposium, Орландо, США, 2005; 3 Балтийской конференции: Second Baltic Conference on Human Language Technologies HTL'2005, Таллинн, Эстония, 2005; 34 Международной филологической конференции, Санкт-Петербург, 2005; 5 Международной научной конференции «Обработка информации и управление в чрезвычайных и экстремальных ситуациях» (ОИУЧЭС'2006), Минск, Беларусь, 2006; XX Сессии Российского акустического общества, Москва, 2008; 44 Международном симпозиуме «Applied Military Psychology», Санкт-Петербург, 2008; Международной конференции ICUMT-2009, Санкт-Петербург, 2009; 2 Международной конференции ruSMART 2009, Санкт-Петербург, 2009.

Заключение диссертация на тему "Методы и программные средства многоканальной дистанционной обработки речи и их применение в интерактивных многомодальных приложениях"

5.5. Выводы по 5 главе

На основе предложенного методологического и математического обеспечения проектирования многомодальных интерактивных приложений и конфигурирования программно-аппаратных ресурсов были определены комбинации входных и выходных модальностей для разработанных приложений, относящихся к различным классам интерактивных информационно-управляющих сервисов: многомодальный информационный киоск самообслуживания; многомодальное управление оборудованием интеллектуального зала; система протоколирования и поддержки проведения телеконференций.

Представлена архитектура и лабораторный прототип автоматической информационно-справочной системы МИДАС (Многомодальный Интерактивно-Диалоговый Автомат Самообслуживания) с многомодальным пользовательским интерфейсом, а также исследования и анализ взаимодействия пользователей с разработанным устройством. В многомодальном киоске для дистанционного распознавания русскоязычных голосовых команд применяется массив микрофонов, позволяющий локализовать источник полезного речевого сигнала и понизить влияние внешних акустических шумов на точность распознавания речи. Миниатюрные видеокамеры и соответствующие методы обработки оптического потока обеспечивают детектирование и отслеживание положения пользователя в рабочей зоне киоска. Информационная система предоставляет пользователю многомодальный и речевой интерфейсы для получения справочной информации о сотрудниках и подразделениях СПИИРАН, а также картографическую информацию об улицах Санкт-Петербурга. Основными аппаратно-программными модулями устройства являются: 1) видеообработка с технологией компьютерного зрения для распознавания положения тела, лица и отдельных органов лица пользователя; 2) дикторонезависимая система распознавания русской речи, использующая массив микрофонов для подавления шумов и локализации источника полезного сигнала при дистанционной записи речи; 3) система аудиовизуального синтеза русской речи (говорящая голова), применяемая для виртуального помощника-аватара; 4) интерактивный графический пользовательский интерфейс на базе сенсорного экрана; 5) менеджер диалога и диалоговая модель, включающие информационные базы данных и систему управления стратегиями диалога. Объединение удобной для пользователя вычислительной техники с речевыми технологиями, использование виртуальных помощников позволяют создавать эффективные и естественные интерфейсы, в котором в отношениях человек-машина на первое место ставится человек.

Посредством многомодального информационного киоска исследуются вопросы естественного и эргономичного взаимодействия пользователя с машиной, учитывая различные способы коммуникации. Накопленный в ходе исследования модели материал используется для изучения когнитивных и поведенческих характеристик пользователя и оптимизации разрабатываемых многомодальных интерфейсов. Были проведены когнитивные эксперименты по человеко-машинному взаимодействию с использованием трех вариантов интерфейсов: (1) полностью речевой интерфейс; (2) интерфейс с дублированием речи текстом; (3) полностью текстовый интерфейс. Результаты экспериментов подтвердили готовность большинства потенциальных пользователей к естественному многомодальному либо речевому взаимодействию с автоматической системой.

Рассмотрена технологическая инфраструктура интеллектуального зала, оснащенного в здании института. Наличие многомодального пользовательского интерфейса является отличительной характеристикой созданного интеллектуального зала. Разработанные технологии обработки аудиовизуальных данных были успешно внедрены в интеллектуальном зале для обеспечения естественного взаимодействия с оборудованием зала. Среди наиболее важных примененных технологий следует отметить автоматическое распознавание речи, идентификацию диктора, локализацию источников звука, определение положения и слежение за подвижным объектом и лицом человека, определение позы человека. Кроме того, в разработанных интерактивных приложениях используется технология аудиовизуального синтеза русской речи «говорящая голова», созданная в ходе совместных проектов с ОИПИ HAH Беларуси и Университетом Западной Богемии.

Интеграция указанных выше технологий обеспечивает систему управления залом данными о текущей обстановке в помещении, поведении пользователей и надежное распознавание голосовых команд за счет анализа пространственно-временной и ситуативной информации. На основе веб-интерфейса была реализована система удаленного управления оборудованием зала посредством гетерогенных клиентских устройств. Представленная модель компоновки веб-страницы адаптируется к возможностям и текущему состоянию устройства и автоматически формирует соответствующую структуру веб-страницы, отображающейся на стороне клиента.

Разработка многоканальной системы анализа речевой активности, использующейся при создании мультимедийных отчетов распределенных мероприятий, способствует сокращению трудозатрат при подготовке стенограмм, повышению качества проведения телеконференций и позволяет вести мониторинг и расчет статистики хода совещания, а также организовать быстрый поиск по мультимедийным архивам. В разработанной системе протоколирования используется набор персональных веб-камер со встроенными микрофонами и алгоритм определения речевой активности в многоканальном аудиопотоке, позволяющих достичь приемлемого качества выделения фраз дикторов и автоматически выбирать камеру участника, активного в текущий момент. Предложенная логико-временная модель формирования графического интерфейса веб-страницы телеконференции, открытой в браузере на персональном компьютере или мобильном устройстве, позволяет удаленному участнику воспринимать все события, происходящие в интеллектуальном зале.

Перечисленные прикладные модели были выполнены при поддержке российских и зарубежных грантов и продолжают модернизироваться в ходе текущих государственных программ, направленных на изучение средств естественной человеко-машинной коммуникации.

Заключение

6. Программное обеспечение разработки и функционирования многомодального интерфейса, отличающееся применением модулей многоканальной обработки аудио- и видеосигналов, выполнением многопоточных задач на распределенных вычислительных ресурсах и созданием кроссплатформенных приложений, адаптивных к возможностям и текущему состоянию клиентского устройства.

8. Технологическая инфраструктура интеллектуального зала, отличающаяся применением модулей многоканальной регистрации и обработки аудиовизуальных сигналов для определения положения и слежения за пользователями, дистанционного распознавания голосовых команд, мультимедийного оповещения удаленных пользователей о ситуации внутри зала и организации распределенных мероприятий.

9. Интерактивные приложения, реализованные на основе разработанных методов и созданных многомодальных интерфейсов, обеспечивающих естественную коммуникацию пользователя с интеллектуальными информационными сервисами.

Полученные результаты соответствуют п.1 «Модели и методы проектирования и анализа алгоритмов и программ, их эквивалентных преобразований и верификации», п.5 «Разработка и исследование человеко-машинных интерфейсов, программных средств распознавания образов и визуализации, мультимедийного общения», п.8 «Создание и исследование новых технологий проектирования, анализа, оценки качества, стандартизации и сопровождения программных систем» паспорта специальности 05.13.11 -«Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей».

Библиография Ронжин, Андрей Леонидович, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

1. Аванесов Р.И. Русское литературное произношение. Москва: Просвещение, 1972.

2. Авирн С.Б. О характеристиках надежности распознавания устных команд устройством ИКАР// Труды Всесоюзной школы-семинара АРСО-13, г. Новосибирск, 23-28 июля 1984г. Новосибирск, 1984. ч.1. - С. 170-180.

3. Александрова O.A., Иваницкий В.В. Пауза колебания комплексный феномен современной коммуникации // Вестник Новгородского государственного университета. Т. 25, 2003. - С. 95- 101.

4. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистический процессор для сложных информационных систем. М.: Наука, 1992.

5. Афанасьев В.П., Дегтярев Н.П., Карабаева Л.Ю. и др. Архитектура речевого телефонного терминала МАРС-2 "Электроника МС7602" // Труды Всесоюзной школы-семинара АРСО-14, 1986, ч.2. С. 77.

6. Баранников В.А., Кибкало A.A. Пакет программ построения систем распознавания речи. Труды III Всероссийской конференции «Теория и практика речевых исследований» АРСО-2003. Москва, МГУ им. М.В. Ломоносова, Сентябрь 2003. С.7-12.

7. Беллман Р. Динамическое программирование. М.: ИЛ, 1960. - 400 с.

8. Богданов Д.С., Кривнова О.Ф., Подрабинович А.Я. Современный инструментарий для разработки речевых технологий // Информационные технологии и вычислительные системы, 2, 2004. С. 11-24.

9. Ю.Бондарко Л.В. Звуковой строй современного русского языка. М., Просвещение, 1977. 175 с.

10. П.Викторов А.Б., Жаков M.Д., Форш Б.Н. Система распознавания дискретной речи до 1000 слов для персонального компьютера// Труды Всесоюзной школы-семинара АРСО-15, 1989. С. 314-315.

11. Винцюк Т. К. Распознавание слов устной речи методами динамического программирования. М.: Кибернетика, 1968. - №1. - С. 15-22.

12. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов.— Киев: Наук, думка, 1987. 264 с.

13. Винцюк Т.К., Скрипник А.Г. Модуль анализатора речи СРД "Речь-2" -Тезисы докладов 16-го всесоюзного семинара (АРСО 16), 1991. - С. 250251.

14. Геппенер В.В., Балтрашевич В.Э., Жукова H.A., Ильина И.В. Система идентификации телеметрических параметров на основе технологии Web-сервисов // Системы управления и информационные технологии, № 3(33), Воронеж: Научная книга, 2008. С.30-34.

15. Гойхман О .Я., Надеина Т.М. Речевая коммуникация // Инфра-М, 2006. 272 с.

16. Голд Б. Рэйдер Ч. Цифровая обработка сигналов. Пер. с англ.-М.: Советское радио, 1973. 368 с.

17. Горловский A.A., Лендяшев H.A., Петров H.A. и др. Система распознавания речи ДИС-332. Труды Всесоюзной школы-семинара АРСО-13, г. Новосибирск, 1984. ч.2. С. 95-96.

18. Городецкий В.И., Карсаев О.В., Самойлов В.В., Серебряков C.B. Агентская платформа для повсеместных вычислений // Информационные технологии и вычислительные системы. Вып. 4. М.: Наука, 2008. С. 51-60.

19. ГОСТ Р ИСО 9241-3-2003. Эргономические требования при выполнении офисных работ с использованием видеодисплейных терминалов (ВДТ). Часть 3. Требования к визуальному отображению информации.

20. Гринберг Дж. Квантитативный подход к морфологической типологии языков / Пер. с англ. // Новое в лингвистике. М.: ИЛ, 1963. Вып. 3. С.60-94.

21. Даджион Д., Мерсеро Р. Цифровая обработка многомерных сигналов. Пер. с англ., М.:Мир, 1988.-488 с.

22. Джелинек Ф. Распознавание непрерывной речи статистическими методами // ТИИЭР. 1976. - Т. 64. - № 4. - С. 131-160.

23. Дорохина Г.В., Павлюкова А.П. Модуль морфологического анализа слов русского языка // Искусственный интеллект. 2004. - № 3. - С. 636-642.

24. Зализняк A.A. Грамматический словарь русского языка. М.: Русские словари, 2003. -800 с.27.3латоустова JI.B., Потапова Р.К., Трунин-Донской В.Н. Общая и прикладная фонетика. М.: Издательство МГУ, 1986. 304с.

25. Иванова Т.И. Компьютерные технологии в телефонии. Эко-Трендз, М., 2002.

26. Карпов A.A., Ронжин A.JL, Ли И.В., Шалин А.Ю. Речевые технологии в многомодальных интерфейсах // Труды СПИИРАН. Вып. 2, т.1. СПб: СПИИРАН, 2004. С. 183-193.

27. Карпов A.A., Ронжин А.Л., Ли И.В. SIRIUS система дикторонезависимого распознавания слитной русской речи. // Известия ТРТУ, № 10, 2005. - С. 44-53.

28. Карпов A.A., Ронжин А. Л. Многомодальные интерфейсы в автоматизированных системах управления // Известия вузов. Приборостроение. 2005. Т. 48, № 7. С. 9-14.

29. Карпов А., Ронжин А., Лобанов Б., Цирульник Л., Железны М. Разработка бимодальной системы аудиовизуального распознавания русской речи // Информационно-измерительные и управляющие системы, Москва, № 10, Т. 6, 2008. С. 58-62.

30. Като Я. Система распознавания связной речи фирмы NEC // Зарубежная радиоэлектроника. 1980, №4.-С. 108-120.

31. Кипяткова И.С. Обзор подходов к моделированию спонтанной речи. Труды второго междисциплинарного семинара «Анализ разговорной русской речи» (АР3 2008), Санкт-Петербург, 2008. - С. 70-77.

32. Зб.Кириллов Н.П., Дашевский В.П., Соколов Б.В., Юсупов P.M. Перспективные варианты использования технологии радиочастотной идентификации в библиотечном и музейном деле. // Труды СПИИРАН. Вып. 7, т. 1. — СПб.: Наука, 2008. С. 48-53.

33. Классификация и кластер / Под ред. Райзина Дж.В. М.: Мир, 1980 - 389 с.

34. Косарев Ю.А. Естественная форма диалога с ЭВМ. Л.: Машиностроение, 1989.-143 с.

35. Крестьянинов C.B. Интеллектуальные сети и компьютерная телефония. М., «Радио и связь», 2001.

36. Левинсон С.Е. Структурные методы автоматического распознавания речи. //ТИЭР.- 1985.-Т. 73.-№ 11.-С. 100-129.

37. Леонович A.A. Современные технологии распознавания речи. Диалог 2005, http://www.dialog-21.ru/Archive/2005/Leonovich%20A/Leonovich%20A.htm

38. Леонтьева Ан.Б. Модуль морфофонетической обработки слов для построения словаря распознавателя русской слитной речи. Научно-теоретический журнал «Искусственный интеллект», № 3. Донецк, Украина, 2007. - С. 319-327.

39. Леонтьева Ал.Б. Разработка моделей мусора для устранения помех при распознавании спонтанной речи. Научно-теоретический журнал «Искусственный интеллект», № 3. Донецк, Украина, 2007. - С. 309-318.

40. Леонтьева Ал.Б., Кипяткова И.С. Учет особенностей спонтанной речи при создании систем автоматического распознавания // Известия вузов. Приборостроение. 2008. Т. 51, № 11. С. 51-56.

41. Лобанов Б.М., Цирульник Л.И., Железны М. и др. Система аудиовизуального синтеза русской речи // Информатика. Минск, 2008. № 4(20). С. 67-78.

42. Лобанов Б.М. Компьютерный синтез и клонирование речи // Минск: Белорусская Наука, 2008.

43. Мазуренко И.Л. Многоканальная система распознавания речи, Сборник трудов VI всероссийской конференции "Нейрокомпьютеры и их применение", Москва, 2000 г.

44. Макхоул Дж., Рукос С., Гиш Г. Векторное квантование при кодировании речи. // ТИЭР. 1985. - Т. 73. - №11. - С. 19-61.

45. Мальковский М.Г. Диалог с системой искусственного интеллекта. М.: Изд-во МГУ, 1985.-214 с.

46. Маркел Д.Д., Грей А.Х. Линейное предсказание речи: Пер. с англ. -М.: Связь, 1980.-308 с.

47. Методы автоматического распознавания речи: в 2-х кн. / Под ред. У. Ли. -М.: Мир, 1983.-716 с.

48. Моттль В.В., Мучник И.Б. Скрытые марковские модели в структурном анализе сигналов / М.: Физматлит, 1999. 351 с.

49. Мясников Л.Л. Объективное распознавание звуков речи // ЖТФ. 1943. -№ 3. - С. 109-115.

50. Нариньяни A.C. Искусственный интеллект: стагнация или новая перспектива? Пущино: РАИИ / В сб. Трудов в 3-х томах Шестой национальной конференции по искусственному интеллекту с международным участием 5-11 октября, Пущино, Россия. Т.1. -1998. - С.15-29.

51. Пинкер С. Язык как инстинкт. Пер. с англ. / Общ. Ред. В.Д. Мазо. — М.: УРСС, 2004.-456 с.

52. Пиотровский Р.Г. Текст, машина, человек. JL: Наука, 1975. — 327 с.

53. Попов Э.В. Общение с ЭВМ на естественном языке. М.:УРСС, 2004. - 360 с.

54. Потапова Р.К. Речь: коммуникация, информация, кибернетика. 2003. — 568 с.

55. Распознавание слуховых образов / Под ред. Загоруйко Н.Г. Новосибирск: «Наука», 1970. - 340 с.

56. Ронжин A.JL, Карпов A.A., Ли И.В. Речевой и многомодальный интерфейсы. М.: Наука, 2006 - (Информатика: неограниченные возможности и возможные ограничения), 173 с.

57. Ронжин А.Л., Леонтьева А.Б. Применение техники «Гудвин» для моделирования человеко-машинного взаимодействия // Известия вузов. Приборостроение. 2006. Т. 49, № 11. С. 70-75.

58. Ронжин A.JL, Карпов A.A., Леонтьева Ан.Б., Костюченко Б.Е. Разработка многомодального информационного киоска // Труды СПИИРАН. Вып. 5, т. 1. — СПб.: Наука, 2007, С. 227-245.

59. Ронжин А.Л., Ли И.В. Автоматическое распознавание русской речи // Вестник Российской Академии Наук, Том 77, Вып. 2, 2007, С. 133-138.

60. Ронжин А.Л. Топологические особенности морфофонемного способа представления словаря для распознавания русской речи // Вестник компьютерных и информационных технологий, № 9, 2008, С. 12-19.

61. Ронжин А.Л. Сравнительный анализ и оценка моделей словаря для систем распознавания русской речи. // Информационные технологии, №1, 2009, С. 21-28.

62. Ронжин А.Л., Карпов A.A., Кагиров И.А. Особенности дистанционной записи и обработки речи в автоматах самообслуживания // Информационно-управляющие системы, Вып. 42, т. 5. — СПб.: ГУАП, 2009, С. 32-38.

63. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963.-452 с.

64. Селфридж М. Интегральная обработка обеспечивает надежное понимание. // Новое в зарубежной лингвистике. Вып. 24: Пер. с англ. М.: Прогресс, 1989.-С. 161-208.

65. Скороходько Э.Ф. Семантические сети и автоматическая обработка текста. Киев, 1983. - 112 с.

66. Смирнов A.B., Пашкин М.П., Шилов Н.Г., Левашова Т.В. Онтологии в системах искусственного интеллекта: способы построения и организации. Новости искусственного интеллекта, 2002. № 1. Часть 1. С. 3-13.

67. Сокирко А. Диссертация "Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)". http://www.aot.rU/docs/sokirko/sokirko-candid-2.html#2-3-l.

68. Сокирко A.B. Морфологические модули на сайте www.aot.ru // Диалог-2004. Компьютерная лингвистка и интеллектуальные технологии: Труды междунар. конф. М.: Наука, 2004.

69. Соколова E.H. Алгоритмы лемматизации для русского языка // Рабочий проект многоязычного автоматического словаря на 60 тыс. словарных статей. Т.1. Лингвистическое обеспечение. М. 1984. - С. 45-62.

70. Сорокин В.Н. Теория речеобразования М.: Радио и связь, 1985.

71. Сорокин В.Н. Синтез речи М.: Наука, 1992. - 392с.

72. Сорокин В.Н., ЦыплихинА.И. Сегментация и распознавание гласных // Информационные процессы, Том 4 , № 2, 2004. С. 202-220.

73. Сулейманов Д.Ш. Аналитический обзор отечественных и зарубежных работ обработки естественного языка в аспекте прагматически-ориентированного подхода. Электронный журнал Казанского госуниверситета «Информационные технологии».

74. Трунин-Донской В.Н. Опознавание набора слов с помощью цифровой вычислительной машины // Работы по технической кибернетике. -М.: ВЦ АН СССР, 1967. С. 37-51.

75. Уоссерман Ф. Нейрокомпьютерная техника. Теория и практика: Пер. с англ. -М.: Мир, 1992.

76. Ушакова Т.Н. Проблема внутренней речи в психологии и психофизиологии // Психологические и психофизиологические исследования речи. — М.: Наука, 1985. — С. 13-26.

77. Фант. Г. Акустическая теория речеобразования. Пер. с англ. М.: Наука, 1964.-284 с.

78. Чистович Л.А. и др. Физиология речи. Восприятие речи человеком. В серии руководство по физиологии. Л., Наука, 1976. 388 с.

79. Чучупал В .Я., Маковкин К. А., Чичагов A.B. К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи. Искусственный интеллект, №2, "Наука i ocßiTa", 2002. С. 575-579.

80. Чучупал В.Я., Маковкин К.А., Ковков Д.В., Чичагов A.B. Распознавание речи и диктора в системе мультимедийной идентификации личности/ Сб. Трудов Конф. Математические Методы распознавания образов, ММРО-12, Москва, 2005.

81. Шаров С.А. Средства компьютерного представления лингвистической информации. Обзор. URL: http://nl-web/

82. Шелепов В.Ю., Ниценко В.Ю. К проблеме пофонемного распознавания // Искусственный интеллект. 2005. - № 4. - С. 662-668.

83. Шенк Р., Бирнбаум Л., Мей Дж. К интеграции семантики и прагматики. // Новое в зарубежной лингвистике. Вып. 24: Пер. с англ. М.: Прогресс, 1989.-С. 32-47.

84. Шинкарев В. Интерфейс налицо. http://www.hifinews.ru/print/article/details/765.hlm

85. Шиффман X. Ощущение и восприятие. СПб:Питер, 2003. 928 с.

86. P.M. Юсупов, А.Л. Ронжин. От умных приборов к интеллектуальному пространству. Вестник Российской Академии Наук: научный и общественно-политический журнал, Том 80, Вып. 1, 2010. С. 45-51.

87. Allen J. Natural Language Understanding. Benjamin Cummings, 1987, Second Edition 1994.

88. Aldrich F. Smart Homes: Past, Present and Future // Inside the Smart Home / Ed. Harper R. London: Springer-Verlag, 2003. pp. 17-39.104. www.auditech.ru

89. Back M., Lahlou S., Ballagas R., Lertsithichai S., Inagaki M., Horikiri K., Huang J. Usable ubiquitous computing in next-generation conference rooms: design, evaluation, and architecture // Proc. International workshop at UbiComp 2006, 2006.

90. Barnard P.J. Cognitive Resources and the Learning of Human-Computer Dialogs, Interfacing Thought, Cognitive Aspects of Human-Computer Interaction, J.M. Carroll Ed., MIT Press Publ., 1987. pp.112-158.

91. Bellik Y. MEDITOR: a Multimodal Text Editor for Blind Users. ACM UIST'96, Ninth Annual Symposium on User Interface Software, Seattle, Washington, USA, November 6-8, 1996.

92. Becker N. Multimodal Interface For mobile clients. Technical report TRITA-NA-E01102, 2001.

93. Benesty J. Adaptive eigenvalue decomposition algorithm for passive acoustic source localization. J.Acoust. Soc.Am. Vol. 107, 2000. pp. 384-391.

94. Bernsen, N. O., Dybkjeer, H. and Dybkjaer, L. Designing Interactive Speech Systems. From First Ideas to User Testing. Springer Verlag, 1998.

95. Boite R., Bourlard H., Dutoit T., Hancq J., Leich H. Traitement de la Parole, 2nd Edition, Presses Polytechnique Universitaires Romandes,Lausanne, 2000. -488p.

96. Bolt, R. A. (1980). Put-that-there: Voice and gesture at the graphies interface. Computer Graphics, 14 (3). pp. 262-270.

97. Bosch L., Boves L. Survey of spontaneous speech phenomena in a multimodal dialogue system and some implications for ASR. Proc. ICSLP, South Korea, 2004.

98. Bouguet J.-Y. et al. Pyramidal implementation of the Lucas-Kanade feature tracker // Technical Report, Intel Corporation, Microprocessor Research Labs, 2000.

99. Brandstein M., Ward D. Microphone Arrays Signal Processing Techniques and Applications, Springer-Verlag, Berlin Heidelberg New York, 2001. 398 p.118. http://www.callcentreworld.ru/articlel 12.html?oldpage=pages 62.html

100. Capon J. High-Resolution Frequency-Wavenumber Spectrum Analysis. Proc. IEEE, 57(8), Aug. 1969. pp. 2408-2418.

101. Card S.K., Moran T.P. and Newell A. The Psychology of Human-Computer Interaction, Lawrence Erlbaum Associates, 1983.

102. CarkiK., Geutner P., Schultz T. Turkish LVCSR: Towards better speech recognition for agglutinative languages // Proc. ICASSP-2000. Istanbul, Turkey, 2000. Vol. 3.-pp. 1563-1566.122. www.cognitive.ru/innovation/voice-recog.htm

103. Cook, P., Ellis, C. S., Graf, M., Rein, G., and Smith, T. (1987). Project Nick: meetings augmentation and analysis. ACM Trans. Inf. Syst., 5(2). pp. 132-146.

104. Chai J., Pan S., Zhou M. MIND: A Context-based Multimodal Interpretation Framework, Kluwer Academic Publishers, 2005.

105. Chomsky N. On certain formal properties of grammars. Inform. Control 2, 1959.

106. Dahlback N., Jonsson A., Ahrenberg L. Wizard of Oz Studies Why and How. Knowledge-Based Systems, Vol. 6, No. 4, 1993. - pp. 258-266.

107. Danielson, T., Panoke-Babatz, U. et al. The AMIGO project: Advanced Group Communication Model for Computer-based Communication Environment. In Proc. of CSCW'86 (1986)

108. Degler D., Battle L. Knowledge management in pursuit of performance the challenge of context // Performance Improvement. V. 39. Issue 6. 2007. pp. 2531.

109. DemuynckK., DuchateauJ., Van Compernolle D., WambacqP. An efficient search space representation for large vocabulary continuous speech recognition // Speech Communication. 2000. Vol. 30, no. 1. pp. 37-53.

110. Dines J., Vepa J., Hain T. The segmentation of multi-channel meeting recordings for automatic speech recognition, In: ICSLP-2006. pp. 1213-1216.

111. Ducatel K., Bogdanowicz M., Scapolo F., Leijten J., Burgelman, J-C. ISTAG Scenarios of Ambient Intelligence in 2010 // European Commission Community Research. Feb. 2001.

112. Flego F., Zieger C., Omologo M. Adaptive weighting of microphone arrays for distant-talking F0 and voiced/unvoiced estimation. In: Interspeech-2007, 2007.-pp. 2961-2964.

113. Foote, J. T., Jones, G. J. F., Sparck Jones, K., & Young, S. J. Talker-independent keyword spotting for information retrieval. In Proc. Eurospeech 95, volume 3, 1995. pp. 2145-2148.

114. Fredouille, C., Evans, N. The influence of speech activity detection and overlap on speaker diarization for meeting room recordings. In: Interspeech-2007, 2007. pp. 2953-2956.

115. Gaitanis C., Vybornova O., Gemo M., Macq B. Multimodal High Level Fusion of Input Commands as a Semantic Goal-Oriented Cooperative Process // The 12th International Conference on Speech and Computer, Moscow, Russia, 2007.

116. Gann D., Venables T., Barlow J. Digital Futures: Making Homes Smarter, Chartered Institute of Housing, Coventry, 1999.

117. Gatica-Perez, D., Lathoud, G., Odobez, J., McCowan, I. Multimodal multispeaker probabilistic tracking in meetings. In: ICMI2005. pp. 183-190.

118. Geppener V.V., D. M. Klionski, N. I. Oreshko, A. V. Vasiljev. Applications of empirical mode decomposition for processing nonstationary signals // Pattern Recognition and Image Analysis", Springer, vol. 18, No. 3, 2008. pp. 390-399.

119. Gorski N., Anisimov V., Augustin E., Baret O., Price D., Simon J. A2iA Check Reader: A Family of Bank Check Recognition Systems // ICDAR, 1999. -pp. 523-526.

120. Gorski N., Anisimov V., Augustin E., Baret O., Maximov S. Industrial bank check processing: the A2iA CheckReaderTM // IJDAR Vol. 3, 2001. pp. 196206.

121. Gorski N. Bank Cheque Data Mining: Integrated Cheque Recognition Technologies. In: Digital Document Processing, B.B.Chaudhuri ed. Advances in Pattern Recognition, Springer, 2007. pp 437-458.

122. Hoffmann R. Speech synthesis on the way to embedded systems. In Proc. SPECOM'2006. pp. 17-26.

123. Huang Y., Benesty J. Audio Signal Processing for Next-Generation Multimedia Communication Systems, Kluwer Academic Publishers, Norwell, MA, 2004.-375 p.147. http://www.isa.ru148. http://www.ipu.ru

124. Johnson D., Dugeon D. Array Signal Processing: Concepts and Techniques, Prentice-Hall, Inc. Englewood Cliffs, New Jersey, 1993. 512 p.

125. Johnston M., Bangalore S. MATCHkiosk: A Multimodal Interactive City Guide // In Proc. of Association of Computational Linguistics (ACL-2004), Barcelona, Spain, 2004. pp. 223-226.

126. Kaiser, E. Can Modeling Redundancy in Multimodal, Multi-Party Tasks Support Dynamic Learning? CHI '05 Workshop: CHI Virtuality 2005.

127. Kanevsky D., Monkowski M., Sedivy J. Large vocabulary speaker-independent continuous speech recognition in Russian language. Proc. International Workshop SPECOM'96, St. Petersburg, Russia, 1996. pp.117121.

128. Karpov A., Ronzhin A., Nechaev A., Chernakova S. Assistive multimodal system based on speech recognition and head tracking, In Proc. of 9-th International Conference SPECOM'2004, St. Petersburg, 2004. pp. 521-530.

129. Karpov A., Ronzhin A., Nechaev A., S. Chernakova. Multimodal system for hands-free PC control. In Proc. of 13-th European Signal Processing Conference EUSIPCO-2005, September, 2005, Antalya, Turkey.

130. Karpov A.A., Ronzhin A.L. Information Enquiry Kiosk with Multimodal User Interface // Pattern Recognition and Image Analysis, Moscow: MAIK Nauka/Interperiodica, Vol. 19, № 3, 2009. -pp.546-558.

131. A. Karpov, A. Ronzhin, I. Kipyatkova, Al. Ronzhin, L. Akarun. Multimodal Human Computer Interaction with MIDAS Intelligent Infokiosk. In Proc. 20-th International Conference on Pattern Recognition, IAPR Association, Turkey, Istanbul, 2010.

132. Karttunen L. Radical lexicalism. Alternative conceptions of phrase structure. University of Chicago Press, Chicago, 1989. -pp 43-65.

133. Kelley. J. An Iterative Design Methodology for User-Friendly Natural Language Office Information Applications // ACM Transactions on Office Information Systems, 2(1), 1984.

134. Kieras D., Poison P.G. An Approach to the Formal Analysis of User Complexity, International Journal of Man-Machine Studies, 22, 1985. pp. 365394.

135. Klemmer, S.R., et al., SUEDE: A Wizard of Oz Prototyping Tool for Speech User Interfaces. In Proc. UIST 2000, CHI Letters, 2000. 2(2). pp. 1-10.

136. Knapp C. H., Carter G.C. The generalized correlation method for estimation of time delay. IEEE Trans. Acoustics Speech Signal Proc., Vol. 24, 1979. -pp.320-327.

137. Kneissler J., KlakowD. Speech recognition for huge vocabularies by using optimized subword units // Proc. Eurospeech 2001. Aalborg, Denmark, 2001. -pp. 69-72.

138. Kosarev Yu.A., Ronzhin A.L. Quantitative methods in speech processing // Chapter in Quantitative Linguistics, HSK-vol. 27., Berlin: New York, DeGruyter, 2005. pp.834-846.

139. Krim H, Viberg M. Two decades of array signal processing research: the parametric approach. Cambridge, MA // Signal Processing Magazine, Jul 1996, Volume: 13, Issue: 4. pp. 67-94.

140. Kurematsu A., Nakano-Miyatake M., Perez-Meana H., Simancas-Acevedo E. Performance analysis of Gaussian Mixture Model speaker recognition system with different speaker features. Electronic Journal «Technical Acoustics» 2005, vol. 14.

141. Kurimo M., CreutzM., Varjokallio M., ArisoyE., SaraclarM. Unsupervised segmentation of words into morphemes — Morpho challenge 2005 application to automatic speech recognition // Proc. Interspeech 2006. Pittsburgh, USA, 2006. -pp. 1021-1024.

142. Laskowski K., Schultz T. Simultaneous multispeaker segmentation for automatic meeting recognition. In Proc. of EUSIPCO, Poznan, Poland, September 2007. pp. 1294-1298.

143. Lathoud G., McCowan I.A. A Sector-Based Approach for Localization of Multiple Speakers with Microphone Arrays. Proc. of SAPA-2004, Korea, 2004. -pp.93-105.

144. Lewis C., Poison P., Wharton C., Rieman J. Testing a Walkthrough Methodology for Theory-Based Design of Walk-Up-and-Use Interfaces. In Proc. CHI '90.-pp. 235-241.171. http://www.ldc.upenn.edu/Catalog/CatalogEnti-y.isp?catalogId=LDC2003S05

145. Lienhart R., Maydt J. An Extended Set of Haar-like Features for Rapid Object Detection // In Proc. of IEEE International Conference on Image Processing ICIP, 2002.-pp. 900-903.

146. Liddell S.K. American Sign Syntax Language. The Hague. 1980.

147. Liu, D., Kubala, F. Fast speaker change detection for broadcast news transcription and indexing. In: Eurospeech-1999, 1999. pp. 1031-1034.

148. Lôwgren J., Nordqvist T. A Knowledge-Based Tool for User Interface Evaluation and its Integration in a UIMS, Human-Computer Interaction INTERACT '90, 1990. pp. 395-400.

149. Madisetti V., Williams D. The Digital Signal Processing Handbook. CRC Press, New York, 1999. 1776 p.

150. Markov, K., Nakamura, S. Never-Ending Learning System for Online Speaker Diarization. In: IEEE ASRU Workshop, 2007. pp. 699-704.

151. Masakowski Y. Cognition-Centric Systems Design: A Paradigm Shift in System Design. Proc. of 7th International Conference on Computer and IT Applications in the Maritime Industries, 2008. pp. 603-607.

152. Maulsby D., Greenberg S., Mander R. Prototyping an Intelligent Agent through Wizard of Oz. In Proc. InterCHI'93, 1993. pp. 277-284.

153. McCauley L., D'Mello S. MIKI: a speech enabled intelligent kiosk // Intelligent virtual agents. LNCS, Springer, 2006, Vol. 4133. pp. 132-144.

154. McCowan, I., Gatica-Perez, D., Bengio, S., Moore, D., Bourlard, H. Towards computer understanding of human interactions. In: Aarts E et al. (ed) Ambient intelligence, Lecture Notes in Computer Science, Springer, Heidelberg, 2003. -pp 235-251.

155. McGurk H., MacDonald J. W. Hearing lips and seeing faces. Nature, 264, 1976.-pp. 746-748.

156. Moran, D., Cheyer, A., Julia, L., Park, S. Multimodal user interfaces in the Open Agent Architecture. In Proceedings of IUI-97. Orlando, Jan. 1997.-pp. 61-68.

157. Multimodal User Interfaces: From Signals to Interaction / Ed. Tzovaras D. Springer, 2008.

158. Neti C., Potamianos G., Luettin J., et al. Audio-visual speech recognition. Final Workshop 2000 Report, Center for Language and Speech Processing, The Johns Hopkins University, Baltimore, 2000.

159. Ney H., Ortmanns S., Lindam I. Extensions to the Word Graph Method for Large Vocabulary Continuous Speech Recognition," Proc. of ICASSP'97, Vol. 3, 1997. pp.1787-1790.

160. NIST, Rich Transcription 2009 Evaluation, http://www.itl.nist.gov/iad/894.01/tests/rt/2009

161. Norman D. The Invisible Computer: Why Good Products Can Fail, the Personal Computer Is So Complex, and Information Appliances Are the Solution // The MIT Press, 1999. 316 p.189. http://nuance.com

162. Omologo M., Svaizer P. Acoustic event localization using a crosspower-spectrum phase based technique. Proc. of ICASSP, Vol. 2, 1994. pp. 273-276.

163. Omologo M., Svaizer P., Brutti A., Cristoforetti L. Speaker Localization in CHIL Lectures: Evaluation Criteria and Results. Proc. of Machine MLMI 2005.

164. Eds. Steve Renals, Samy Bengio, LNCS 3869, Springer-Yerlag Berlin Heidelberg, 2006. pp. 476-487.

165. Op den Akker, R., Hofs, D., Hondorp, H., Akker, H., Zwiers J., Nijholt, A. Supporting Engagement and Floor Control in Hybrid Meetings. Springer, LNAI 5641, 2009.-pp. 276-290.

166. Oparin I., Talanov A. Stem-Based Approach to Pronunciation Vocabulary Construction and Language Modeling for Russian. In Proc. of 10-th International Conference "Speech and Computer" SPECOM'2005, Patras, Greece, 2005. pp. 575-578.

167. Ortmanns, S., Eiden, A., Ney, H. Improved Lexical Tree Search for Large Vocabulary Recognition. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Seattle, WA, 1998. pp. 817-820.

168. Oviatt, S. L. Multimodal interactive maps: Designing for human performance. Human-Computer Interaction. Special issue on Multimodal Interfaces, 12, 1997. -93-129.

169. Oviatt, S. L. Mutual disambiguation of recognition errors in a multimodal architecture. Proceedings of the Conference on Human Factors in Computing Systems (Cffl'99), New York: ACM Press, 1999. pp. 576-583.

170. Oviatt, S.L. Ten myths of multimodal interaction. Communications of the ACM, 42(11), New York: ACM Press. 1999. -pp.74-81.

171. Oviatt, S. L. Multimodal interfaces. In The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies and Emerging Applications, J. Jacko and A. Sears, Eds. Lawrence Erlbaum Assoc. Mahwah, NJ, chap. 14, 2003.-pp. 286-304.

172. Petajan, E.D. Automatic Lipreading to Enhance Speech Recognition, University of Illinois at Urbana-Champaign, 1984.

173. Pfau T., Ellis D., Stolcke D. Multispeaker Speech Activity Detection for the ICSI Meeting Recorder. In: IEEE ASRU Workshop, 2001. pp. 107-110.

174. Picone J. Signal Modeling Techniques In Speech Recognition. IEEE Proceedings, Vol. 81, No. 9, 1993.

175. Pietquin O. A framework for unsupervised learning of dialogue strategies. UCL presses, 2004. 246 p.

176. Podlesskaya V., Kibrik A. Methods of oral speech corpora research: discourse transcription development experience. Proc. of Cognitive Modeling in Linguistics, Varna, Bulgaria, 2003.

177. PrazäkA., PsutkaJ., HoidekrJ., Kanis J., Müller L., Psutka, J. Adaptive language model in automatic online subtitling // Proc. 2nd IASTED International Conference on Computational Intelligence CI 2006. San Francisco, California, USA, 2006.-pp. 479^83.

178. Rabiner L., Juang B. Fundamentals of Speech Recognition. New Jersey: Prentice-Hall, Englewood Cliffs, USA, 1993.

179. Rienks R, Nijholtl A., Barthelmess P. Pro-active meeting assistants: attention please! AI & Society Vol. 23(2), Springer London, 2009. pp. 213-231.

180. Ronzhin A., Yusupov R., Li I., Leontieva A. Survey of Russian Speech Recognition Systems. In Proc. of 11-th International Conference SPECOM'2006, St. Petersburg: "Anatoliya", 2006. pp. 54-60.

181. Ronzhin A.L., Karpov A.A. Russian Voice Interface. Pattern Recognition and Image Analysis, 2007, Vol. 17, No. 2. pp. 321-336.

182. Ronzhin A.L., Budkov V.Yu. Multimodal Interaction with Intelligent Meeting Room Facilities from Inside and Outside // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.), LNCS 5764, 2009. pp. 77-88.

183. Salber, J. Coutaz. Applying the Wizard of Oz Technique to the Study of Multimodal Systems. In Proc. EWHCI'93, Springer-Verlag, Berlin, 1993. pp. 219-230.213. http://scansoft.com214. http://www.similar.cc

184. SIMILAR Dreams, Multimodal Interfaces in Our Future Life, UCL Presses Universitaires de Louvain, 2005, ISBN: 2-930344-91-1. 350 p.

185. Schomaker L. et al. A Taxonomy of Multimodal Interaction in the Human Information Processing System. Report of the ESPRIT PROJECT 8579, 1995.217. http://speechpro.com/production/?id=471 &fid=44

186. Strom N. Continuous Speech Recognition in the WAXHOLM Dialogue System. STL QPSR, 1996. - pp. 67-95.

187. Szarvas M., Furui S. Finite-state transducer based modeling of morphosyntax with applications to Hungarian LVCSR // Proc. ICASSP'2003. Hong Kong, China, 2003. Vol. 1. pp. 368-371.

188. Tranter S., Reynolds D. An Overview of Automatic Speaker Diarization Systems. IEEE Trans. ASLP, vol.14, no. 5, 2006. pp. 1557-1565.

189. Trees H. Optimum Array Processing, John Wiley & Sons, New York, 2002, 1456 p.

190. Trifa V., Koene A., Moren J., Cheng G. Real-time acoustic source localization in noisy environments for human-robot multimodal interaction. Proceedings of RO-MAN 2007, Korea, 2007.

191. Van Veen B.D., Buckley K.M. Beamforming: A Versatile Approach to Spatial Filtering // IEEE ASSP Magazine, April 1988. pp. 4-24.

192. Waibel, A., Steusloff, H., Stiefelhagen, R.: CHIL—Computers in the human interaction loop. In: Proc. of 5th IAMIS Workshop, 2004.

193. Wallhoff F., Zobl M., Rigoll G. Action segmentation and recognition in meeting room scenarios // Proc. of The International Conference on Image Processing (ICIP 2004), 2004.

194. Wuerger, S.M., Hofbauer, M. and Meyer G. The integration of auditory and visual motion signals at threshold. Perception & Psychophysics 65(8), 2003. -pp. 1188-1196.

195. Yankelovich, N., Kaplan, J., Simpson, N., Provino, J.: Porta-person: telepresence for the connected meeting room. In: Proceedings of CHI 2007, 2007. pp. 2789-2794.

196. Young S., Evermann G., Gales M., Hain T., Kershaw D., Moore G., Ollason J.O.D., Povey D., Valtchev V., Woodland P. The HTK book: version 3.3. Technical Report, Cambridge University, UK, 2005. http://htk.eng.cam.ac.uk.

197. ZadehL. A fuzzy-algorithmic approach to the definition of complex or imprecise concepts. In International Journal of Man-Machine Studies. Vol. 8, No. 3,1976.

198. Zhang, C., Yin, P., Rui, Y., Cutler, R., Viola, P., Sun, X., Pinto, N., Zhang, Z. Boosting-Based Multimodal Speaker Detection for Distributed Meeting Videos // MultMed( 10),No. 8, December 2008.-pp. 1541-1552.

199. Zelezny M., Cisar P., Krnoul Z., Ronzhin A., Li I., Karpov A. Design of Russian Audio-Visual Speech Corpus for Bimodal Speech Recognition. In Proc. of 10-th International Conference "Speech and Computer" SPECOM'2005, Patras, Greece, 2005. pp. 397-400.

200. Zhai, S., Morimoto, C., & Ihde, S. Manual and gaze input cascaded (MAGIC) pointing. Proceedings of the Conference on Human Factors in Computing Systems (Cffl'99), New York: ACM Press, 1999. pp. 246-253.

Похожие работы

Информатика, вычислительная техника и управление
05.13.00