автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях

доктора технических наук
Карпов, Алексей Анатольевич
город
Санкт-Петербург
год
2013
специальность ВАК РФ
05.13.11
цена
450 рублей
Диссертация по информатике, вычислительной технике и управлению на тему «Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях»

Автореферат диссертации по теме "Аудиовизуальные речевые интерфейсы в ассистивных информационных технологиях"

На правах рукописи

00553Ю*«

КАРПОВ Алексей Анатольевич

АУДИОВИЗУАЛЬНЫЕ РЕЧЕВЫЕ ИНТЕРФЕЙСЫ В АССИСТИВНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ

Специальность 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей»

АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук

-8 АВГ 2013

Санкт-Петербург 2013

005531898

Работа выполнена в Федеральном государственном бюджетном учреждении науки Санкт-Петербургском институте информатики и автоматизации Российской академии наук (СПИИРАН)

Официальные оппоненты:

Матвеев Юрий Николаевич

доктор технических наук, профессор кафедры речевых информационных систем ФГБОУ ВПО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики» (НИУ ИТМО)

Геппенер Владимир Владимирович

доктор технических наук, профессор, профессор кафедры математического обеспечения и применения ЭВМ ФГБОУ ВПО «Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» (СПбГЭТУ)

Харламов Александр Александрович

доктор технических наук, старший научный сотрудник лаборатории нейроонтогенеза Федерального государственного бюджетного учреждения науки Института высшей нервной деятельности и нейрофизиологии Российской академии наук

Ведущая организация:

Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук

Защита состоится «31» октября 2013 г. в 11.00 часов на заседании диссертационного совета Д.002.199.01 при Федеральном государственном бюджетном учреждении науки Санкт-Петербургском институте информатики и автоматизации Российской академии наук по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.

С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Санкт-Петербургского института информатики и автоматизации Российской академии наук

Автореферат разослан «31» июля 2013 г.

Ученый секретарь

диссертационного совета Д.002.199.01

Нестерук Филипп Геннадьевич

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Как в России, так и во всем мире очень многие люди ограничены в своих возможностях в связи с дисфункциями слуха, зрения, речеобразования, опорно-двигательного аппарата, когнитивными нарушениями. Для помощи, социальной и профессиональной реабилитации людей с инвалидностью, а также пожилых людей в мире существуют специальные государственные программы, наиболее развитые из которых действуют в Японии, США, Израиле, Великобритании, Германии, Франции, скандинавских странах (например, e-Accessibility и e-Inclusion). В последние годы высшее руководство России также обращает внимание на проблемы жизни инвалидов. В мае 2012 года Президентом РФ была ратифицирована «Конвенция о правах инвалидов», принятая ранее Генеральной Ассамблеей ООН, ключевой пункт которой состоит в том, чтобы создать условия для полноценной интеграции инвалидов в жизнь общества на всех уровнях. Недавно в России был дан старт государственной программе «Доступная среда», рассчитанной до 2015 года, в рамках которой предполагается настройка под нужды инвалидов правил работы социальных, информационных и прочих государственных служб, а также обеспечение информационной и компьютерной доступности для людей с ограниченными возможностями, внедрение новых способов взаимодействия и продвижение новых товаров и услуг, использующих специальные органы и средства управления, доступные конкретным группам инвалидов. Кроме того, 30 декабря 2012 года Президент РФ подписал поправки к закону «О социальной защите инвалидов в РФ», существенно повышающие статус русского жестового языка глухих у нас в стране, который теперь является официальным языком общения людей при наличии нарушений слуха или речи, в том числе в сферах устного использования государственного языка РФ.

Современное общество прикладывает значительные усилия по реализации различных информационно-коммуникационных технологий (ИКТ) для обеспечения общедоступности информации, сервисов и услуг для людей с инвалидностью. Такие средства получили название «ассистивные технологии» (англ. «assistive technology»), т.е. помогающие (вспомогательные) людям с ограниченными возможностями здоровья и индивидуальными особенностями. Этот термин неоднократно упоминается в «Конвенции о правах инвалидов» ООН, «Европейской социальной хартии», паспорте программы «Доступная среда», проектах ЮНЕСКО и документах, учитывающих международное и российское законодательство.

Ассистивные средства и технологии могут быть самого разного характера (программные, электрические, механические, оптические и т.д.) и назначения: инвалидные кресла-коляски, протезы для конечностей, трости, слуховые аппараты, оптические очки, телевизионные субтитры, роботы-помощники и роботы телеприсутствия, лифты-подъемники для колясок, звуковые сигналы светофоров, собаки-поводыри с соответствующим снаряжением, а также пандусы, направляющие на дорогах, и многое другое. В данной диссертации разрабатываются и исследуются ассистивные информационные технологии - специальное программное и/или аппаратное обеспечения, которое повышает доступность информации и средств коммуникации для людей с ограниченными возможностями здоровья.

По данным Минздрава, в России насчитывается около 14 млн людей с инвалидностью (а это 10% населения страны), из которых около 700 тыс. детей-инвалидов, и каждый год порядка 1 млн человек впервые признаются инвалидами,

что обусловлено целым комплексом причин (экологическими, техногенными, медицинскими, психологическими и др.). Однако в России современные научные работы, посвященные исследованию человеко-машинных интерфейсов и способов общения, направлены, в основном, на создание вычислительных средств, оборудованных большим количеством различных датчиков и сенсоров, а также сложных систем управления. Широко применяемые в настоящее время графические и текстовые интерфейсы ориентированы на опытных пользователей, и в исследованиях практически не затрагиваются вопросы человеко-машинной коммуникации для лиц с ограниченными возможностями.

Проблема, рассматриваемая в диссертации, заключается в наличии несоответствия требований различных групп потенциальных пользователей, особенно людей с разными видами нарушений, и возможностей, предоставляемых существующими и перспективными человеко-машинными интерфейсами для доступа к информационно-коммуникационным системам, сервисам и технологиям. Данное несоответствие порождает научно-техническую проблему потребности разработки и применения методологического, математического, программного и информационного обеспечения многомодальных интерфейсов (в том числе, речевых, жесто-вых, аудиовизуальных) пользователя для предоставления людям с ограниченными возможностями доступа к электронной информации (мультимедийному контенту Интернета, электронным библиотекам, образовательным ресурсам, государственным услугам и т.д.) для их интеграции в информационное общество.

Связь с государственными и международными программами. Основные результаты диссертационной работы получены в ходе поисковых НИР по госконтрактам с Минобрнауки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» (ГК 11.519.11.4025 «Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства», ГК 11.519.11.4020 «Разработка методов и моделей автоматической обработки речевых сигналов в интеллектуальных информационно-коммуникационных системах») и ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы» (ГКП2579 «Разработка методов, моделей и алгоритмов для автоматического распознавания аудиовизуальной русской речи», ГК П2360 «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем»). Работа также выполнена в рамках следующих российских проектов: гранты Президента РФ 02.120.11.64898-МК «Разработка компьютерной многомодальной системы для аудиовизуального синтеза разговорной русской речи и жестового языка глухих» (2010-2011 гг.) и МК-1880.2012.8 «Разработка автоматической системы распознавания аудиовизуальной русской речи с применением высокоскоростной видеокамеры» (2012-2013 гг.), грант международного фонда «Научный потенциал» N 201 «Многомодальная ассистивная система на базе технологий распознавания русской речи и машинного зрения» (2010 г.), проектов фондов РФФИ N 07-07-00073-а, 08-08-00128-а, 08-07-90002-Бел_а, 09-07-91220-СТ_а и РГНФ N 12-04-12062-в, а также грантов Комитета по науке и высшей школе (КНВШ) Правительства Санкт-Петербурга и Санкт-Петербургского научного центра (СПбНЦ) РАН. Исследования также производились в рамках международных проектов Евросоюза: EU FP6 Network of Excellence SIMILAR IST-2002-507609 (2003-2007 гг.), INTAS N 04-777404 и 05-1000007-426 (2006-2008 гг.).

Целью диссертационной работы является повышение эффективности и универсальности способов человеко-машинного взаимодействия на основе речевых и многомодальных интерфейсов пользователя в ассистивных информационно-коммуникационных технологиях. Для достижения цели в диссертационной работе поставлены и решены следующие задачи:

1) Анализ основных направлений исследований и проблем в области ассистивных средств и технологий для помощи людям с ограниченными возможностями и обеспечения универсального информационного доступа посредством организации аудиовизуальных человеко-машинных интерфейсов.

2) Создание концептуальной модели универсальной ассистивной информационной технологии с аудиовизуальными интерфейсами пользователя.

3) Создание метода объединения аудио- и видеоинформации для многомодального распознавания речи.

4) Создание метода моделирования асинхронности аудиовизуальных речевых модальностей, естественной для речеобразования человека, для компьютерного синтезатора аудиовизуальной русской речи по тексту.

5) Создание способа для бесконтактной работы с компьютером при помощи движений головы и голосовых команд, а также многомодальной системы, объединяющей средства автоматического распознавания голосовых команд и машинного зрения для видеоотслеживания движений головы пользователя.

6) Разработка метода и системы автоматического распознавания и классификации голосовых сообщений пользователя и неречевых акустических событий в модели ассистивного интеллектуального пространства.

7) Разработка автоматической системы аудиовизуального распознавания русской речи с применением методов и средств анализа речи и чтения по губам говорящего для повышения точности и надежности анализа русской речи.

8) Разработка компьютерной системы аудиовизуального синтеза русской речи с применением методов и средств аудиосинтеза речи по входному тексту и видсо-синтеза артикуляции губ виртуальной модели головы человека.

9) Разработка универсального пользовательского интерфейса вывода информации и компьютерной системы синтеза аудиовизуальной русской речи и жестово-го языка глухих.

Объект исследования. Математическое, программное и информационное обеспечение компьютерного распознавания и синтеза речи и жестов на акустическом и визуальном уровнях, а также способы речевого и многомодального общения и интерфейсы человеко-машинного взаимодействия.

Предмет исследования. Способы, принципы, модели, методы, алгоритмы и системотехнические решения для распознавания и синтеза аудио- и видеоинформации (речи, жестов, и т.д.) для организации многомодальных интерфейсов пользователя в ассистивных информационных технологиях.

Методы исследования. Методы цифровой обработки сигналов, искусственного интеллекта, распознавания образов, вероятностного моделирования, статистического анализа, автоматической обработки текстов, когнитивных исследований, объектно-ориентированного проектирования и программирования.

Научная новизна. Разработана совокупность оригинальных способов, моделей, методов, алгоритмов и программных систем распознавания и синтеза аудиовизуальной речи и жестов, а также организации многомодальных человеко-машинных интерфейсов в ассистивных технологиях, в том числе:

1) Предложена концептуальная модель универсальной ассистивной информационной технологий с аудиовизуальными пользовательскими интерфейсами на основе многомодального распознавания русской речи, компьютерного синтеза аудиовизуальной русской речи и элементов русского жестового языка, бесконтактного человеко-машинного взаимодействия.

2) Предложен метод объединения аудио- и видеоинформации в процессе распознавания речи, отличающийся применением асинхронных вероятностных моделей с индивидуальными весами информативности речевых модальностей.

3) Разработан способ и многомодальный человеко-машинный интерфейс для бесконтактной работы с компьютером посредством движений головы пользователя и голосовых команд, а также компьютерная система, отличающаяся объединением методов, алгоритмов и программных средств автоматического распознавания русскоязычных голосовых команд/речи и машинного зрения для отслеживания набора естественных реперных точек на лице человека с целью управления перемещением указателя мыши на экране.

4) Разработан метод распознавания и классификации типов голосовых сообщений пользователя и неречевых акустических событий, предназначенный для анализа и оценки информации об акустической обстановке (ситуации) в ассистив-ном интеллектуальном пространстве.

5) Разработана система аудиовизуального распознавания русской речи, отличающаяся интеграцией моделей, методов и программных средств анализа и распознавания речи и чтения речи по губам говорящего для повышения точности и надежности анализа русской речи и предназначенная для организации бесконтактного ввода информации в речевых интерфейсах.

6) Разработана и исследована компьютерная система аудиовизуального синтеза русской речи по произвольному русскоязычному тексту, отличающаяся интеграцией виртуальных моделей, методов и программных средств аудиосинтеза речи и видеосинтеза мимики и артикуляции губ модели головы человека с применением метода моделирования асинхронности аудиовизуальных модальностей речи для улучшения разборчивости и естественности синтезируемой речи, предназначенная для организации вывода информации в речевых интерфейсах.

7) Разработан универсальный многомодальный интерфейс вывода информации и компьютерная система для аудиовизуального синтеза русского языка жестов и речи по тексту, объединяющая бимодальную виртуальную "говорящую голову" для синтеза речи и трехмерную модель тела и рук человека для видеосинтеза динамических жестов, и предназначенная для вывода текстовых данных посредством речи, жестового языка и артикуляции губ аватара.

Обоснованность научных положений и выводов обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей и методов, а также апробации основных положений диссертации в печатных работах и докладах на ведущих международных научных конференциях. Новизна технических решений подтверждается полученными патентами и свидетельствами об официальной регистрации программного обеспечения ЭВМ и баз данных в Роспатенте.

Положения, выносимые на защиту:

1) Концептуальная модель универсальной ассистивной информационной технологии с аудиовизуальными пользовательскими интерфейсами на основе мно-

гомодального распознавания речи, синтеза аудиовизуальной речи и элементов русского жестового языка, бесконтактного человеко-машинного взаимодействия.

2) Метод объединения аудио- и видеоинформации в процессе многомодального распознавания речи, отличающийся применением асинхронных вероятностных моделей с индивидуальными весами информативности модальностей речи в моделях, позволяет при распознавании учитывать временное рассогласование (асинхронность) потоков соответствующих единиц звучащей и видимой речи, характерное для речеобразования.

3) Система аудиовизуального распознавания русской речи, объединяющая модели, методы и программные средства анализа аудиосигнала и автоматического чтения речи по губам говорящего, повышает точность распознавания русской речи и робастность к шумам в диалоговых системах с речевым интерфейсом.

4) Универсальный многомодальный интерфейс и система аудиовизуального синтеза элементов русского жестового языка и речи по тексту, объединяющая "говорящую голову", обеспечивающую синтез русской речи, и виртуальную модель человека ("жестовый аватар"), выполняющую видеосинтез динамических жестов, обеспечивает аудиовизуальный вывод текстовой информации посредством генерации речи, артикуляции губ аватара и элементов русского жестового языка как для обычных пользователей, так и для глухих и незрячих людей.

5) Многомодальный человеко-машинный интерфейс и система для бесконтактной работы с компьютером, отличающаяся интегрированием методов, алгоритмов и программных средств автоматического распознавания речи и машинного зрения, обеспечивает управление графическим интерфейсом компьютера без использования рук посредством голосовых команд и движений головы оператора.

Практическая ценность работы. Математическое, программное и информационное обеспечение ЭВМ, разработанное в диссертационной работе, предназначено для повышения эффективности и расширения возможностей человеко-машинных интерфейсов для организации взаимодействия с различными группами пользователей, включая людей с ограниченными возможностями здоровья. Созданный программный комплекс ассистивных информационных технологий и систем (в том числе многомодальная система аудиовизуального распознавания русской речи, система компьютерного синтеза аудиовизуальной русской речи и элементов русского жестового языка, многомодальная система для бесконтактной работы с компьютером, прототип ассистивного интеллектуального пространства) предназначен для организации универсальных человеко-машинных интерфейсов для доступа потенциальных пользователей к информации, а также помощи, информационной поддержки и реабилитации людей с ограниченными возможностями. Разработанные и используемые ассистивные информационные технологии дают возможность людям с различными видами нарушений интегрироваться в динамично развивающееся информационное общество, предоставляя возможность пользователям выбирать доступные им способы взаимодействия, компенсируя недоступные интерфейсы альтернативными коммуникативными каналами, что улучшает качество их жизни, а также делая их более независимыми от помощи со стороны других лиц. Также они могут применяться людьми без ограничений по здоровью как в обычных, так и нестандартных условиях (например, в невесомости), когда физические возможности человека ограничены окружающей средой.

Реализация результатов работы. Разработанное математическое и программное обеспечение, технические и технологические решения были использова-

ны в ходе выполнения НИОКР по госконтрактам с Минобрнауки РФ (в 2009-2013 гг.), а также в рамках договоров с Санкт-Петербургским государственным университетом (СПбГУ), Западночешским университетом г. Плзень (Чехия), Богазичи университетом г. Стамбул (Турция), работ, выполненных по заказам Правительства Санкт-Петербурга (Администрации Василеостровского района), корпорации LG Electronics R&D Russia, ОАО «Концерн «Океанприбор», ООО «Кварцприбор-М», а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного политехнического университета (СПбГПУ) и Санкт-Петербургского государственного университета аэрокосмического приборостроения (СПбГУАП).

Апробация результатов работы. Результаты диссертационного исследования представлялись в докладах на ведущих научных конференциях и конгрессах, в частности: международных конференциях INTERSPEECH (Флоренция, Италия 2011; Макухари, Япония 2010; Брайтон, Великобритания 2009; Питтсбург, США 2006); 20-й международной конференции по распознаванию образов ICPR (Стамбул, Турция, 2010); международных конференциях по человеко-машинному взаимодействию HCI International (Лас Вегас, США 2013; Орландо, США 2011; Сан Диего, США 2009); Европейских конференциях по обработке сигналов EUSIPCO (Лозанна, Швейцария 2008; Флоренция, Италия 2006); 11-й IEEE международной конференции по обработке сигналов ICSP (Пекин, Китай 2012); 17-м международном фонетическом конгрессе ICPhS (Гонконг 2011); 19-м международном акустическом конгрессе ICA (Мадрид, Испания 2007); 8-й международной конференции по языковым ресурсам и оцениванию LREC (Стамбул, Турция, 2012); 3-й международной конференции по речевым технологиях для малоресурсных языков SLTU (Кейптаун, ЮАР 2012); международных конференциях «Текст, Речь и Диалог» TSD (Брно, Чехия 2008, 2010); международных конференциях «Речь и Компьютер» SPECOM (Санкт-Петербург 2009, 2006; Москва 2007); международных семинарах по многомодальным интерфейсам eNTERFACE (Плзень, Чехия 2011; Амстердам, Голландия 2010; Орсе, Франция 2008; Стамбул, Турция 2007); международных конференциях по компьютерной графике и зрению Графикон (Санкт-Петербург 2010; Москва 2011); международных конференциях «Распознавание образов и анализ изображений» РОАИ (Санкт-Петербург 2010; Нижний Новгород 2008); 10-й международной конференции NEW2AN/ruSMART (Санкт-Петербург, 2010); 5-й Всероссийской научно-практической конференция «Перспективные системы и задачи управления» (Домбай, 2010); 5-й международной конференции по нейронным сетям и искусственному интеллекту ICNNAI (Минск, Беларусь 2008); международной конференции «Искусственный Интеллект» (Кацивели, Украина 2009); международной конференции «Интеллектуальные и многопроцессорные системы» (Дивноморское 2008); 20-й сессии российского акустического общества (Москва, 2008); Санкт-Петербургской международной конференции «Региональная информатика» (Санкт-Петербург 2008).

За научные результаты, полученные в ходе диссертационного исследования, соискателем получен ряд персональных наград и премий, в частности: Медаль РАН для молодых ученых за лучшую научную работу в области информатики, вычислительной техники и автоматизации по итогам 2011 г.; дипломы победителя конкурса грантов Президента РФ для государственной поддержки молодых российских ученых в 2012-2013 и 2010-2011 гг., победителя конкурса грантов Санкт-Петербурга для молодых кандидатов наук и молодых ученых от КНВШ Правительства Санкт-Петербурга в 2004-2012 гг., конкурса научных работ и проектов

Комиссии по научной молодежи при Президиуме СПбНЦ РАН в 2009 г.; диплом лауреата программы «Выдающиеся ученые. Кандидаты и доктора наук РАН» Фонда содействия отечественной науке в 2008-2009 гг.

Публикации. По материалам диссертации опубликовано свыше 130 печатных работ, включая 9 публикаций в международных рецензируемых журналах, индексируемых в базах данных Web of Science и Scopus, 24 публикации в ведущих научных журналах из перечня ВАК Минобрнауки РФ, 2 монографии, 1 глава в зарубежной книге, 1 учебное пособие, также получен 1 патент и 10 свидетельств о государственной регистрации программ для ЭВМ и баз данных в Роспатенте.

Структура и объем работы. Диссертация содержит введение, шесть глав, заключение, список литературы (230 наименований), два приложения. Основной материал изложен на 270 страницах, включая 20 таблиц и 84 рисунка.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована важность и актуальность темы диссертации, сформулированы цели работы и основные задачи, которые необходимо решить для ее достижения, характеризуется научная новизна и практическая ценность работы, кратко излагаются основные теоретические и практические работы.

В первой главе приведен аналитический обзор мировых исследований в области ассистивных средств и человеко-машинных интерфейсов. Дается детальный анализ сферы ассистивных/вспомогательных технологий и человеко-машинных интерфейсов, а также технических средств реабилитации, ориентированных на помощь людям с ограниченными возможностями здоровья. Введено понятие "ас-систивные информационные технологии", объединяющее ассистивные и информационно-коммуникационные технологии и определяемое как специальное программное и/или аппаратное обеспечение, которое обеспечивает доступ к информации и средствам коммуникации для людей с ограниченными возможностями здоровья. Предложена систематизация ассистивных информационных технологий по их функциональному назначению в зависимости от категории нарушений у потенциальных пользователей, включающая: 1) технологии для людей с сенсорными нарушениями, включая нарушения слуха (сурдоинформационные средства) и зрения (тифлоинформационные средства); 2) технологии для лиц с речевыми нарушениями (голосообразующие средства); 3) технологии для людей с физическими нарушениями опорно-двигательного аппарата (моторными нарушениями); 4) технологии для людей с когнитивными нарушениями (умственными, психическими, задержкой развития и т.д.); 5) технологии для людей с ограничениями по общемедицинским показаниям (например, пожилых или людей с заболеваниями внутренних органов). В данной диссертационной работе исследуется, в основном, класс ассистивных информационных технологий, ориентированных на людей с физическими, сенсорными и речевыми нарушениями. Приведены примеры существующих в мире ассистивных информационных технологий (программно-аппаратных решений) для компенсации различных типов нарушений у человека.

Приведены и охарактеризованы основные этапы развития человеко-машинных интерфейсов, включающие: 1) командные (текстовые) пользовательские интерфейсы; 2) графические интерфейсы типа WIMP (Window - окно, Image -образ, Menu - меню, Pointer - указатель); 3) естественно-языковые интерфейсы типа SILK (Speech - речь, Image - образ, Language - язык, Knowledge - знание); 4) многомодальные пользовательские интерфейсы ("Multimodal User Interfaces"). В

области ассистивных технологий многомодальные, в частности, аудиовизуальные интерфейсы представляются наиболее эффективным способом организации взаимодействия. Их преимуществом является то, что они предоставляют одновременно несколько альтернативных способов человеко-машинного взаимодействия, а пользователь уже сам может выбирать каким образом он хочет (или может) общаться с информационными системами, а отсутствующие у человека коммуникативные возможности могут быть компенсированы альтернативными модальностями.

Выполнен анализ проблем и постановка задачи разработки и исследований математического, программного и информационного обеспечения ассистивных информационных средств и технологий. Предложена концептуальная модель (рисунок 1) универсальной ассистивной технологии с аудиовизуальными пользовательскими интерфейсами на основе автоматического распознавания аудиовизуальной русской речи, компьютерного синтеза аудиовизуальной русской речи (''говорящая голова") и синтеза элементов русского жестового языка по тексту ("жес-товый аватар"), бесконтактного человеко-машинного взаимодействия. Модель основана на использовании и объединении методов, интерфейсов и программных средств цифровой обработки аудио- и видеосигналов (как анализа, так и синтеза): автоматического распознавания звучащей речи, автоматического чтения речи по губам говорящего, аудиосинтеза речи по тексту, видеосинтеза мимики виртуальной модели головы человека, видеосинтеза жестов рук виртуальной модели человека, отслеживания движений головы пользователя. В центре модели находится вычислительный блок, который может слышать и видеть пользователей при помощи микрофонов и видеокамер, а также выводить мультимедийную информацию посредством монитора и динамика. Далее от центра расположен слой методов и функций модели, а затем слой интерфейсов и систем, непосредственно с которыми общаются пользователи.

Рис. 1. — Концептуальная модель универсальной ассистивной информационной технологии на основе аудиовизуальных интерфейсов

При этом множество возможностей отдельного пользователя и. £ и (где Г/= {и,,...,г/,} — множество потенциальных пользователей), доступных для

взаимодействия (ввода и вывода информации), р" -{р",...,р"к} накладывает определенные ограничения (с учетом его сенсорных и физических индивидуальных особенностей) на множество способов взаимодействия модели S = ,...,£„}, определяя оптимальный интерфейс взаимодействия человека с машиной: I" =Р" П S ■

Многомодальные человеко-машинные интерфейсы, посредством которых предлагается организация взаимодействия, должны отвечать принципиальным требованиям конечных пользователей и основываться на следующих фундаментальных принципах при их создании: 1) универсальность — пригодность к использованию различными категориями пользователей без необходимости адаптации; 2) многомодальность - предоставление одновременно нескольких способов общения (речи, жестов, текста и т.д.), чтобы пользователь мог по запросу выбрать доступные ему средства; 3) естественность (интуитивность) т.е. без необходимости обучения пользователя работе с интерфейсом и ношения различных устройств; 4) эргономичность - удобство использования интерфейса (''usability"); 5) дружественность — ненавязчивое сопровождение пользователя и предотвращение его возможных неверных действий; 6) надежность - обеспечение безошибочной работы составляющих интерфейса в различных условиях; 7) эффективность — необходимость минимального количества операций со стороны пользователя и времени для выполнения задачи.

Универсальная ассистивная информационная технология, разработка и исследования компонентов которой представлены в последующих главах, предназначена для организации новых способов человеко-машинного взаимодействия и типов пользовательских интерфейсов, ориентированных на сопровождение, информационную поддержку и реабилитацию людей с ограниченными возможностями, с целью обеспечения их социально-экономической интеграции в информационное общество и повышения независимости от других лиц.

Во второй главе рассматриваются модели, методы и алгоритмы автоматического распознавания аудиовизуальной русской речи. В последние годы особую актуальность приобретают средства человеко-машинного взаимодействия, основанные на речевых интерфейсах с применением систем распознавания и синтеза речи, но во многих условиях функционирования (в частности, при низком качестве звукового сигнала, наличии внешнего шума или посторонних разговоров) автоматические системы не могут обеспечить требуемое качество распознавания даже при применении методов фильтрации и шумоподавления. В то же время речь — это результат взаимосвязанной работы органов артикуляции человека и она передается одновременно по звуковому и зрительному каналам. Так, некоторые звуки речи (фонемы) легко спутать на слух (например, /м/ и /н/), но просто отличить зрительно (/м/ произносится с закрытым ртом, а /н/ - с открытым). Кроме того, многие слабослышащие люди и неносители языка при восприятии речи в диалоге опираются на видимую речь, смотря на лица собеседника. Для повышения точности и робастности работы автоматической системы предлагается дополнительно к обработке звучащей речи использовать анализ видимой речи на базе технологий машинного зрения ("автоматическое чтение речи по губам").

Приведен аналитический обзор подходов к многомодальному (аудиовизуальному) распознаванию речи, в том числе механизмов "раннего" (на уровне парамет-

рического описания аудио- и видеосигналов) и "позднего" (на уровне моделей или гипотез распознавания) объединения признаков звучащей и видимой речи, а также систем распознавания русской речи. В результате можно сделать вывод, что ранее не проводилось научных исследований и разработок в области распознавания русской речи с применением интегрального анализа аудио- и видеоинформации.

В ходе исследований разработана многомодальная система аудиовизуального распознавания речи, объединяющая модели, методы и программные средства распознавания речи и чтения по губам говорящего. Система (рисунок 2) использует методы стохастического моделирования акустических и визуальных речевых сигналов. Диктор произносит некоторую фразу, которая представляет собой последовательность слов ц/ = ...... ху,), она подается в систему распознавания в виде

аудио- и видеосигналов, захватываемых посредством микрофона и видеокамеры. Задача системы заключается в том, чтобы максимально точно распознать последовательность произнесенных слов и минимизировать ошибку распознавания. Однако в ходе распознавания возможно возникновение ошибок, поэтому результат может оказаться отличным от Ж, например = (м/\,...,м/т) ■ При вычислении параметрического представления аудиосигнал разделяется на короткие сегменты, которые преобразуются в последовательности соответствующих векторов признаков Оа = (о*,..., о,"4), а видеосигнал обрабатывается по кадрам с вычислением последовательностей векторов визуальных признаков о^ = .....о' ) - Выполняется

объединение вычисленных векторов признаков аудиовизуальной речи О (методом раннего либо позднего объединения информации), кото-

рые затем поступают в декодер речи, формирующий возможные гипотезы распознавания и выбирающий наилучшую гипотезу произнесенной фразы IV", имеющую максимальное правдоподобие для входного сигнала.

Рис. 2. - Функциональная схема системы распознавания аудиовизуальной речи

Для моделирования и распознавания речевых сигналов применяется математический аппарат скрытых марковских моделей (СММ) первого порядка (лево-правые модели Бэкиса), при этом создаются объединенные модели для аудиовизуальных единиц речи фонем и визем (изображений формы губ). Как и в большинстве современных систем распознавания слитной речи выполняется пофонемное моделирование речи, что позволяет сократить объем необходимых обучающих данных и обеспечивает оперативное пополнение словаря распознавания путем добавления в него слов с их фонематическими транскрипциями.

Предложен метод объединения аудио- и видеоинформации в процессе многомодального распознавания русской речи, отличающийся применением асинхронных вероятностных моделей с индивидуальными весами информативности модальностей речи. Его преимуществом является то, что он позволяет учитывать временное рассогласование (асинхронность) потоков соответствующих реализаций фонем и визем, характерное для разговорной речи, и объединять информацию с учетом информативности речевых модальностей. Предложенный метод объединения аудио- и видеоинформации при многомодальном распознавании речи позволяет производить объединение потоков векторов признаков от звуковой и визуальной модальностей речи на уровне моделей с учетом индивидуальных весов информативности речевых модальностей.

На рисунке 3 показана топология применяемой сдвоенной СММ (ССММ, Coupled Hidden Markov Model) одной аудиовизуальной единицы речи с тремя состояниями для каждого из двух потоков векторов признаков. ССММ представляет собой набор параллельных СММ, по одной на каждый информационный поток (модальность), состояние модели в некоторый момент времени t для каждой СММ зависит от скрытых состояний в момент времени t-1 параллельных СММ, и общее состояние ССММ определяется совокупностью состояний двух параллельных СММ. Преимущество такой топологии состоит в том, что она позволяет нескольким потокам векторов признаков независимо переходить по состояниям модели, что дает возможность моделировать допустимые временные расхождения в аудио-и видеоинформации о речи.

Рис. 3. - Топология сдвоенной СММ аудиовизуальной единицы речи

Для определения ССММ Л=<1,В,В,/> некоторой аудиовизуальной единицы речи необходимо задать следующие параметры: количество скрытых состояний модели - распределение (матрица) вероятностей переходов между состояниями - О = {¿/(;}, 1 < г < Ь , 1 < у < Ь ; распределение вероятностей появ-

ления символов наблюдения (векторов признаков аудиовизуальной речи) в состояниях -£ = {6Д0)}, где применяются смеси нормальных (гауссовских) распределений вероятностей; веса информативности модальностей речи (аудио- и видеопотоков) — у = {уА, у' } , yA+yv= 2 , которые могут настраиваться в ходе обучения моделей или адаптации к окружающим условиям и каналу передачи речи.

В русской речи можно выделить несколько десятков различных фонем (разные фонетисты выделяют 40-50 фонем, в данном исследовании используются 47), поэтому и ССММ в распознавателе речи насчитывается столько же. Различимых единиц видимой русской речи (визем) намного меньше — 10-12 (в зависимости от артикуляции диктора, в данном исследовании используются 10). Поэтому применяется связывание распределений векторов наблюдений визуальных компонент в состояниях разных ССММ. Таким образом, общее количество ССММ в системе равняется числу фонем, но для ряда моделей их состояния и параметры визуальной компоненты являются общими, что улучшает процесс обучения на ограниченном наборе данных.

Акустические признаки речи основаны на спектральной обработке сегментов аудиосигнала (частота дискретизации 16 кГц, 16 бит на отсчет, моно) с вычислением мел-частотных кепстральных коэффициентов (MFCC) и их производных; частота следования векторов аудиопризнаков составляет 100 Гц. На последовательных видеокадрах, получаемых от видеокамеры (с оптическим разрешением 720x576 пикселей, прогрессивной разверткой и частотой кадров 25 Гц) происходит поиск области лица человека и в ней области рта каскадными классификаторами с применением метода AdaBoost (адаптивное усиление классификаторов), основанном на алгоритме Виола-Джонс. После нормализации изображения обнаруженной области рта производится анализ признаков методом главных компонент (РСА) для сжатия размерности пространства признаков и повышение частоты кадров до 100 Гц посредством интерполяции компонент векторов признаков, чтобы соответствовать частоте следования аудиовекторов.

Объединение параметрической информации при декодировании слитной русской речи происходит на уровне моделей при вычислении вероятности нахождении ССММ модели в ее двойственном состоянии с применением весов информативности. Для декодирования (распознавания) аудиовизуальной речи применяется модифицированный метод передачи маркеров (token-passing), основанный на оптимизационном алгоритме Витерби для многопоточных СММ, который определяет вероятность порождения символов наблюдений данной моделью и последовательность пройденных при этом состояний модели, представляющих звуки речи. В отличие от существующих аналогов в методе объединения аудио- и видеоинформации предложено использовать веса информативности у не глобально для каждой модальности речи, а индивидуально для вероятностных моделей аудиовизуальных речевых единиц. В этом случае вероятность порождения аудиовизуального вектора признаков в состоянии определяется следующим образом:

Р(рлъ= n^i^5'

ss{A,V]

где О - вектор аудиовизуальных признаков речи в момент времени t. О, - вектор признаков аудио- или видеомодальности S речи. Я - совокупность параметров

ССММ, описывающей аудиовизуальную единицу речи, ys - веса информативности аудио- и видеомодальностей в модели.

Описывается создание базы данных аудиовизуальной русской речи («RusAVSpeechCorpus»), состоящей из синхронизированных аудио- и видеозаписей произнесений фраз. Аудиоданные получены с использованием стационарного конденсаторного микрофона Октава МК-012, а видеоданные записаны цифровой видеокамерой Sony DCR-PC1000E (25 кадров в секунду с разрешением 720x576 пикселей), часть видеоданных также записана высокоскоростной камерой JAI Pulnix RMC-6740GE (200 кадров в секунду с разрешением 640x480 пикселей). Всего были собраны и обработаны мультимедийные записи слитной речи 12 дикторов (каждый диктор произнес по 150 заранее подготовленных фраз), общее количество фраз в корпусе — более 2000, из которых 2/3 использовались для задачи обучения системы, а остальные - для ее настройки и оценки. Выполнена экспертная сегментация аудио- и видеоданных корпуса на уровнях слов, фонем и визем, а также их временная разметка. Различающиеся части аудиовизуального речевого корпуса использовались для задач обучения, настройки и оценивания системы.

Для проведения экспериментальных исследований были реализованы две многомодальные системы, основанные на разных моделях объединения информации: 1) синхронная модель, основанная на многопоточных СММ (МПСММ); 2) асинхронная модель, основанная на сдвоенных СММ (ССММ), а также две од-номодальные системы аудио- и видеораспознавания речи. В серии экспериментов по распознаванию слитно произнесенных последовательностей чисел (номеров телефонов) в звуковую составляющую тестовой части корпуса добавлялся аддитивный шум различной интенсивности одного из двух типов: широкополосный белый шум и шум толпы (одновременное говорение людей — "babble noise"). Результирующий аудиовизуальный сигнал с варьированием отношения аудиосигнал/шум (SNR) в диапазоне 5-25 дБ подавался на распознаватель речи. На рисунке 4 показан анализ точности распознавания речи в результате экспериментов.

0 5 10 15 20 25

отношение сигнал/шум, дБ ♦ Видео *> Аудио —МПСММ • - ССММ

Рис. 4. - Значения точности распознавания слов речи (WRR) в зависимости от SNR для 4-х систем распознавания русской речи

Количественная оценка результатов распознавания речи производилась по показателю точности распознавания слов (Word Recognition Rate/Accuracy — WRR)

слитной речи, который позволяет интегрально оценить качество (эффективность) распознавания, учитывая неверные замены, удаления и вставки слов в гипотезах распознавания фраз на основе вычисления расстояния Левенштейна.

Анализ результатов эксперимента позволяет сделать вывод, что многомодальное распознавание речи превосходит по точности распознавания слов речи одномодальное распознавание, что особенно очевидно для низких значений 8КЯ<15 дБ. также асинхронная ССММ превосходит синхронную модель на базе МПСММ практически во всех условиях. При очень низком значении дБ

аудиоинформация становится малоинформативной и наилучшие результаты показывает одномодальная система. Таким образом, в окружающей обстановке с низким отношением акустический сигнал/шум (ниже 10 дБ) добавление и обработка визуальной речи позволяет сохранить приемлемую точность распознавания слов и фраз слитной русской речи.

Другая серия экспериментов была ориентирована на исследование влияния весов информативности (значимости) звучащей и видимой речи на точность распознавания. Рисунок 5 показывает пять функций точности распознавания речи с применением ССММ в зависимости от отношения сигнал/шум при использовании пяти пар соотношений глобальных весовых коэффициентов для звуковой и визуальной модальностей речи: 1,9:0,1; 1,4:0,6; 1,0:1,0; 0,5:1,5; 0,1:1,9. Функция точности распознавания, изображенная на рисунке 5 пунктирной линией, показывает максимальные результаты по точности распознавания слов с оптимизацией весовых коэффициентов информативности модальности в ССММ.

0 5 10 15 20 25

отношение сигнал/шум, дБ

-■- 1.9АВ0.1 -•-1.4АВ0.6 -А-1.0ABI.0

-€»-0.5АВ1.5 -♦-0.1 ABl.9 —х— Адаптивн.

Рис. 5. - Значения WRR системы распознавания речи на базе ССММ при различных весах информативности аудио- и видеомодальностей речи

В таблице 1 представлены максимальные значения точности распознавания слов речи при различных значениях SNR для предложенного метода объединения модальностей речи с оптимизацией весов для индивидуальных моделей аудиовизуальных единиц речи и для базового метода с заданием глобальных весов для потоков векторов признаков аудио- и видеосигналов, а также результаты аудио-распознавания речи.

Таблица 1 - Максимальные значения показателя \\'Я11 для различных моделей

Модели в системе распознавания печи Точность распознавания слов слитной речи (VVRR), %

SNR = 5 дБ SNR= 10 дБ SNR = 25 дБ

ССММ с индивидуальными весами в моделях 65,1 80,4 97,3

ССММ с глобальными весами в моделях 62,6 (/=0,5;/=1,5) 79,4 (/=1,0;/ =1,0) 96,5 (/ =1,4;/ =0,6)

СММ только для аудиои нформации 30,0 61,5 92,4

Таким образом, экспериментальные исследования подтвердили, что, оптимизируя баланс весов аудио- и видеомодальностей речи в моделях, можно достичь более высокой точности распознавания, что особенно актуально при зашумленных аудиосигналах. При этом точность многомодального распознавания слов речи превышает точность одномодального распознавания и составляет до 97% для малого словаря распознавания при использовании слитной речи.

Разработанная система аудиовизуального распознавания предназначена для повышения эффективности систем распознавания речи (точности и робастности к шумам) в речевых интерфейсах и для организации человеко-машинного взаимодействия с людьми с ограниченными возможностями, в том числе имеющими нарушения зрения (незрячие и слабовидящие люди) и речеобразования (например, в случае невозможности вокализации после хирургических операций на гортани).

В третьей главе описывается разработка и исследования методов и системы компьютерного синтеза аудиовизуальной русской речи по тексту. Приведен аналитический обзор моделей и методов синтеза аудиовизуальной речи, в котором представлен ряд систем бимодального синтеза речи по тексту (виртуальная "говорящая голова" - "talking head") для основных мировых языков. Для русского языка существуют несколько успешных реализаций систем аудиосинтеза речи, и ведутся разработки синтезаторов аудиовизуальной речи, однако их недостатками является схематичность движений видимых органов артикуляции, а также плохая синхронизация генерируемой речи с движениями губ виртуальной модели.

Бимодальные речевые синтезаторы подразделяются на два основных типа по принципу функционирования: 1) синтез аудиовизуальной речи по входному тексту на определенном языке и 2) синтез видеомодальностей по аудиосигналу (он-лайн анимация речи), когда на вход с микрофона подается устная речь на любом языке, аудиопараметры которой анализируются системой. В диссертации исследуется только первый тип компьютерных синтезаторов речи. К задаче создания таких систем существует два основных подхода: 1) имитационный, при котором создается 3D/2D модель головы и лица и настраиваются управляющие параметры для передачи мимики, выражения лица и движений губ при говорении и 2) компиляци-онный (основанный на данных, включая многомодальный "unit selection" метод), при котором "говорящая голова" формируется путем выбора соответствующих видеофрагментов/изображений из базы данных записей реального диктора.

В диссертации представлена система аудиовизуального синтеза русской речи, которая объединяет в себе виртуальные модели, методы и программные средства

аудиосинтеза звучащей речи по входному тексту и видеосинтеза мимики и артикуляции губ виртуальной трехмерной модели головы человека. Исследования проводились в рамках международных проектов совместно с Западночешским университетом и ОИПИ HAH Беларуси. В основу имитационного метода видеосиитеза речи, основанного на 3D моделировании, положена параметрическая модель лица человека. Созданный синтезатор аудиовизуальной речи (виртуальная "говорящая голова", рисунок 6) отличается от аналогов обработкой подаваемых на вход русскоязычных фраз с компьютерной генерацией слитной русской речи и применением оригинального метода синхронизации и согласования аудио- и видеомодальностей синтезируемой речи. Системой выполняется автоматическое преобразование текстовой информации Т в речевую аудиоинформацию А и видеоинформацию V (артикуляцию губ):

Т—<A,V>

Модель головы представляет собой набор из десятков тысяч точек — вершин виртуального пространства, которые соединены ребрами, образуя треугольные поверхности (полигоны), формирующие каркас 3D модели (рисунок 6а). Визуальная модель создается и хранится в файле формата виртуальной реальности VRML в виде набора координат вершин, треугольных поверхностей и соответствующих текстур лица диктора. Активные вершины модели, к которым относится, в основном, область рта и губ, управляются программно средствами графической библиотеки OpenGL, что позволяет воспроизводить виземы речи в динамике. В системе используется не только модель головы, но и отдельных подвижных лицевых органов: глаз, нижней и верхней челюстей, внутренних артикуляторных органов (например, языка), что позволяет создавать эффект общения с "живым" персонажем в человеко-машинных интерфейсах. В системе применяется компиляционный ау-диосинтез речи с использованием плавной стыковки аллофонов (контекстно-зависимых реализаций фонем в разговорной речи). Синхронизация показа визем с синтезированным речевым сигналом в системе осуществляется на основе информации о позиции моментов начала и конца каждого аллофона.

а) б) в)

Рис. 6. — Виртуальные ЗО модели в системе синтеза: а) полигональная модель; б) модель "говорящей головы"; в) модель "жестового аватара" (анфас и профиль).

При разработке системы предложен метод моделирования асинхронности аудиовизуальных модальностей речи, т.е. естественного для человека временного рассогласования между потоками соответствующих видимых и звучащих единиц русской речи при речеобразовании. В результате корпусного исследования аудиовизуальной русской речи был определен ряд принципов, которые легли в основу

предложенного метода: 1) виземы в речи всегда несколько опережают по времени соответствующие им фонемы; 2) в начале фразы визуальные единицы речи в большей степени опережают фонемы, чем в середине или конце фразы; 3) наибольшее отставание имеют огубленные гласные звуки /о/ и /у/ (до 80 мс, а для некоторых дикторов >100 мс), немного меньше - губные согласные /п/, /б/, /м/ и остальные гласные; 4) ударные огубленные гласные звуки имеют большее отставание по отношению к виземам (до 150-200 мс), чем их безударные варианты; 5) наиболее синхронны фрикативные (/ш/, /сГ) и сонорные (/л/, /р/) согласные фо-немы/виземы. Данный метод состоит из набора контекстно-зависимых правил согласования и синхронизации генерируемых системой соответствующих фонем и визем (набор из 16 правил представлен в диссертации), и позволяет имитировать эффекты коартикуляции (взаимовлияния звуков речи) в процессе компьютерного синтеза звучащей и видимой русской речи.

Для качественного и количественного оценивания "говорящей головы" с привлечением потенциальных пользователей был проведен ряд когнитивных экспериментов, которые состояли из двух взаимосвязанных частей: 1) сравнение различных методов синхронизации (lip-sync) речевых модальностей для оценки естественности синтезированной речи; 2) оценка разборчивости речи (одно- и многомодальной) в условиях различных аудиошумов. При этом использовались стимулы 3-х различных типов: 1) синтезированная звучащая речь (только аудиосигнал); 2) синтезированная аудиовизуальная речь; 3) предварительно записанная речь реального человека (этот же диктор использовался для создания синтетического голоса). Информанты должны были также оценить естественность синтеза (подобие реальному) и качество синхронизации аудиовизуальных сигналов по 5-балльной шкале (MOS - mean opinion score) для четырех методов синхронизации: 1) "говорящая голова" с полностью синхронными потоками фонем и визем; 2) "говорящая голова" с предложенным методом моделирования асинхронности аудиовизуальной речи; 3) метод с постоянной задержкой звукового сигнала относительно видеосигнала на 150 мс (модель В150А); 4) метод с задержкой визуального сигнала относительно аудиосигнала (модель А150В). Информанты также должны были записать последовательность слов, которую они восприняли на слух и зрительно. В аудиосигнал также добавлялся аддитивный шум (белый шум либо шум голосов) со значением SNR от 5 до 25 дБ. К экспериментам были привлечены 10 потенциальных пользователей 20-35 лет, каждому из которых в случайном порядке предъявлялись по 20 различных фраз из собранного корпуса (состоящих из 4-6 известных слов в семантически несвязных фразах), в общей сложности было получено 800 пользовательских оценок по естественности синтеза и 600 по разборчивости речи.

Рисунок 7 показывает статистический анализ (медиана, верхние и нижние квартили и децили) пользовательских оценок методов синхронизации, усредненных по тестовым фразам и дикторам, который показывает преимущество предложенного метода моделирования асинхронности речевых модальностей перед базовым методом (синхронным), а также В150А и AI 50В.

Рисунок 8 представляет результаты второй части эксперимента по количественной оценке разборчивости речи (отношение правильно распознанных слов к общему количеству слов в высказывании). Реальный голос оказался более разборчив, чем синтетический, созданный на базе данных этого же диктора. В результате анализа результатов можно сделать вывод, что визуальная модальность речи помогает человеку лучше воспринимать речевую информацию, особенно в зашумлен-

ных условиях. В экспериментах система аудиовизуального синтеза превзошла од-номодальную по показателю разборчивости слов речи в среднем на 6%. Также наблюдался эффект МакГурка, когда правильная идентификация звука в слове возникает лишь при объединении звучащей и видимой речи. Полученные результаты по разборчивости речи отличаются для аддитивного белого шума и шума толпы, в случае белого шумом разборчивость речи оказалась немного ниже.

1 К II т 1

Ш ! Иг 1 в

/г ¿1

т

т т

в щ II и И

1»,0 1«,» 20,0 Отношение сигнал/шум, дБ

I Синхронный

I Асинхронный

ВШ>А

Рис. 7. — Статистический анализ пользовательских оценок естественности речи для 4-х методов синхронизации речевых модальностей

Таким образом, предложенный метод моделирования асинхронности аудио- и видеопотоков речи позволяет повысить естественность речи и улучшить восприятие синтезированной речи (особенно в незашумленных условиях). Также подтверждено, что для лучшего восприятия речи необходимо, чтобы синтезированная визуальная речи опережала соответствующий аудиосигнал (до 200 мс). Результаты экспериментов по разборчивости речи продемонстрировали преимущество аудиовизуального синтеза перед аудиосинтезом русской речи.

100

90

- 80

70

£

3 60

л

ь 40

а. 30

10 15

Отношение енгнал/шум, дБ -Реал. "*АВ

20

Аудио Аудио

Шум голосов:

Белый шум: -х- Реал. * АВ

Рис. 8. - Количественная оценка разборчивости речи в условиях аддитивных ау-диошумов различных типов и интенсивности

Представленная компьютерная система "говорящая голова" предназначена для повышения эффективности речевых интерфейсов (разборчивости и естественности синтезируемой речи) в акустически-зашумленных условиях эксплуатации, а также создания человекообразных коммуникативных агентов и аватаров с целью организации взаимодействия человека с машиной или другим человеком как для обычных пользователей, так и для людей с нарушениями зрения или речи.

В четвертой главе рассматривается разработка и исследование универсального многомодального интерфейса вывода информации и системы аудиовизуального синтеза речи и элементов русского жестового языка. Представлен анализ специфики и основных характеристик русского жестового языка, который используется глухими людьми России и стран СНГ, и объединяет в себе динамические жесты обеих рук и артикуляцию губ (как правило, беззвучно). Национальные жесто-вые языки различны в странах мира, более того, существуют диалекты (региолек-ты) русского жестового языка в разных регионах страны. Разговорный жестовый язык является основным визуально-кинематическим средством общения в обществе глухих и слабослышащих людей, элементами которого также являются калькирующая жестовая речь и дактильная речь. Несмотря на наличие ряда электронных словарей и ресурсов, а также обучающих мультимедийных средств по русскому жестовому языку, существует потребность в средствах машинного перевода письменного текста и устной речи в жестовый язык и системах синтеза жестового языка и речи, так как многие от рождения глухие люди не умеют читать.

Описаны требования к системе компьютерного синтеза русской жестовой и дактильной речи, а также даны примеры систем синтеза элементов жестовых языков по тексту (3D "жестовых аватаров" — "signing avatar"), существующих для жестовых языков мира. Большинство из них используют международные системы жестовой нотации (HamNoSys либо Sign Writing), которые позволяют формализовать запись пространственных жестов обеих рук для их представления в компьютере. Для обработки русского жестового языка (РЖЯ) был адаптирован виртуальный 3D помощник-аватар, разработанный в рамках совместных исследований с Западночешским университетом. В данной модели (показана на рисунке 6в) элементы жестовой и дактильной речи описываются при помощи HamNoSys (системы гамбургской нотации, предложенной Т. Ханке), отражающей основные дифференциальные признаки каждого жеста: 1) форму кисти руки, 2) ориентацию кисти, 3) место исполнения жеста, 4) тип и характер движения.

Описывается универсальная система синтеза элементов русского жестового языка и аудиовизуальной русской речи по тексту, отличающаяся синхронизацией и объединением моделей, методов и программных средств аудиосинтеза звучащей русской речи и видеосинтеза мимики лица и артикуляции губ, а также видеосинтеза элементов русского жестового языка и речи глухих. Основными программными компонентами являются (рисунок 9): I) текстовый процессор анализа входного русскоязычного текста для последующего аудиосинтеза звучащей речи (по словам) и видеосинтеза жестовой и дактильной речи (по словам или буквам); 2) имитационная модель головы человека (рисунок 66); 3) аудиосинтезатор разговорной русской речи, осуществляющий преобразование текст-речь по входному русскоязычному тексту; 4) "говорящая голова" на основе виртуальной объемной модели головы человека и компьютерного синтеза речи; 5) компьютерная модель верхней части тела и рук человека (рисунок 6в), в которой настраиваются параметры движений рук для синтеза элементов русской жестовой речи на основе управляющих

символов нотации жестов НатТЧоБуз; 6) многомодальный пользовательский интерфейс ("виртуальный сурдопереводчик"), интегрирующий компоненты генерации звучащей, визуальной и жестовой речи по входному русскоязычному тексту.

На вход системы подается произвольный русскоязычный текст, который анализируется текстовым процессором, в нем разбираются знаки препинания, выделяются предложения, слова (для аудиосинтеза речи и видеосинтеза артикуляции губ аватара) и буквы (для синтеза русской дактильной речи), которые автоматически преобразуется в символы и коды НаптЫоЗуз, на основе которых аватар воспроизводит жесты руками. Системой выполняется автоматическое преобразование входной текстовой информации Т в жестовую б, а также речевую аудиоинформацию А и видеоинформацию V:

Т-^<С, А,У>

Для данной системы предложен и реализован метод синхронизации выходных аудио- и видеомодальностей, в котором синхронизация элементов речи и жестов осуществляется на основе временных меток (границ) начала и конца слов звучащей речи, синтезированной системой по тексту. Так как звучащая речь имеет более высокий темп воспроизведения, чем жестовая речь, то виртуальный аватар последовательно проговаривает и артикулирует с естественной скоростью изолированные слова звучащей речи, дожидаясь окончания жестикуляции соответствующего слова (может включать в себя несколько последовательных дактилем/букв), плавно переходя к следующему жесту слитной жестовой речи.

Входной текст на русском языке

Рис. 9. — Архитектура многомодальной системы синтеза аудиовизуальной речи и элементов жестового языка по тексту

Виртуальная модель человека реализована в формате языка виртуальной реальности VRML и управляется программно средствами графической библиотеки OpenGL. Она способна воспроизводить русскую дактильную и калькирующую жестовую речь по входному русскоязычному тексту. Для синтеза разговорного РЖЯ необходима также система машинного перевода письменной или устной речи в РЖЯ. Словарь системы составляет несколько сотен жестов для наиболее распространенных слов, цифр, букв и т.д.. Демонстрация и тестирование данной системы

были организованы с помощью представителей общества глухих Санкт-Петербурга, отзывы и качественная оценка системы потенциальными пользователями позволяют говорить об обеспечении естественности и разборчивости синтезированных элементов русского языка жестов и дактильной речи, а также артикуляции и мимики губ виртуального аватара при речеобразовании.

Разработанный синтезатор русской речи и жестов ("жестовый аватар") предназначен для организации универсальных человеко-машинных интерфейсов с целью коммуникации с глухими и слабослышащими людьми посредством элементов русского языка жестов (калькирующей жестовой речи и дактильной речи, воспроизводимых жестами одной или обеих рук виртуального помощника-аватара) и визуальной речи (артикуляции губ, обязательно сопутствующей жестовой модальности), а также речевой коммуникации со слепыми и слабовидящими людьми и мультимедийного общения с остальными пользователями.

В пятой главе представляется разработка и исследование многомодального человеко-машинного интерфейса и системы для бесконтактной работы с компьютером. Выполнен анализ способов и методов бесконтактного (без использования рук) человеко-машинного взаимодействия, доступных для людей с нарушениями подвижности рук, среди которых нужно выделить речевое и жестовое взаимодействие, а также надеваемые на голову пользователя устройства для отслеживания движений головы и направления взгляда пользователя.

Предлагается альтернативный способ и многомодальный человеко-машинный интерфейс для бесконтактного управления графическим пользовательским интерфейсом компьютера посредством движений головы и голосовых команд на русском языке. Вместо традиционных контактных устройств ввода информации (клавиатура, мышь, сенсорный экран и т.д.) предложено анализировать речевые команды и движения (указательные жесты) головы пользователя перед экраном

Описывается многомодальная система для бесконтактной работы с компьютером (рисунок 10), названная "ICANDO: Intellectual Computer AssistaNt for Disabled Operators", которая отличается комплексированием методов, алгоритмов и программных средств распознавания русскоязычных голосовых команд/речи и машинного зрения для видеоотслеживания движений головы пользователя с целью управления графическим интерфейсом компьютера.

Движения головы оператора приводят к синхронному перемещению курсора (указателя мыши) на экране, в свою очередь система распознавания речи позволяет использовать голосовые команды, которые автоматически обрабатываются и выполняются с объектами графического интерфейса ОС MS Windows в зависимости от текущего положения курсора и контекста. Обе обрабатываемые модальности человеко-машинного взаимодействия являются активными и инициируются пользователем, поэтому они непрерывно обрабатываются системой.

Для системы предложен словарь распознаваемых команд малого объема (несколько десятков речевых команд) для управления компьютером (например, "Левая", "Правая", "Двойной клик", "Открыть", "Сохранить", "Отмена" и т.д.), которые являются наиболее часто используемыми действиями при работе с компьютером. Словарь распознавания представляет собой линейный список всех команд с их базовыми и альтернативными фонематическими транскрипциями и может быть достаточно легко модифицирован и дополнен. При этом только команды, управляющие функциями мыши, являются многомодальными, так как они используют информацию о положении курсора в текущий момент времени, остальные же ко-

манды, предназначенные для управления функциями и замещения клавиатуры, являются одномодальными (речевыми), и при их выполнении положение курсора на экране не учитывается.

Компонент управления курсором

Координаты курсора

Блок объединения информации

Многомодальная команда

Блок формирования действия

Преобразователь кода сообщения

Действие

*

Оператор

Компонент видеослежения за головой

Блок синхронизации модальностей

:

Автоматическийра спознаватель речи

Входные : речь и движения головы модальности

вывод

Рис. 10. - Архитектура системы для бесконтактной работы с компьютером

Для бесконтактного дистанционного управления указателем (курсором) мыши на экране ноутбука используется подсистема компьютерного зрения, отслеживающая движения (указательные жесты) головы пользователя. Для данной системы предложен метод автоматического анализа движений головы пользователя, в котором производится отслеживание набора из 5 естественных реперных точек С = (С,,...,С5), С,. = (СХ,С') лица человека в видеокадрах: 1) кончик носа, 2) центр верхней губы, 3) точка между бровей, 4) зрачок правого глаза, 5) зрачок левого глаза. Смещение двухмерных координат данных реперных точек в последовательных видеокадрах, получаемых от веб-камеры, преобразуется в синхронные перемещения курсора мыши на экране. Причем эти пять точек (маркеров) формируют две перпендикулярные линии: вертикальную (точки 1-3) и горизонтальную (точки 3-5). Для вычисления текущего положения курсора мыши на экране М = {МХ ,МГ) используется линейная комбинация изменения координат реперных точек 1—3 (для абсциссы Мх координат курсора мыши) и точек 3-5 (для ординаты Мг) в соседних видеокадрах:

МХ=МХ+--К?> Мг = МГ --к1 »

3 3 '

где С, определяет ;'-ю реперную точку на текущем кадре, а С, - на предыдущем кадре видеопотока, К,, - (Кхкоэффициент скорости движения курсора мыши, который введен в метод для обеспечения бесконтактного управления при больших разрешениях экрана (относительно разрешения кадров). В методе применяются несколько адаптивных значений скорости движения курсора мыши в зависимости от скорости перемещения головы оператора. Если пользователю нужно передвинуть курсор на значительное расстояние (например, от одного угла экрана к другому), то он двигает головой в нужном направлении достаточно быстро и применяется больший коэффициент скорости движения (значение зависит от раз-

решения экрана, расстояния пользователя от видеокамеры и его эргономических предпочтений), если же пользователь хочет выделить некоторый графический объект (иконку) на экране, то он выполняет незначительные движения головой и скорость перемещения курсора соответствующим образом уменьшается. Для видеоотслеживания набора указанных реперных точек предложен метод на основе алгоритма Лукаса-Канаде для анализа оптического потока. При этом начальное обнаружение головы человека (калибровка) на видеокадрах (получаемых от веб-камеры с оптическим разрешением 640x480 пикселей и частотой кадров до 25 Гц) производится методом AdaBoost с применением обученного каскадного классификатора.

Аудиосигнал, непрерывно захватываемый микрофоном веб-камеры, обрабатывается распознавателем речи. Процесс распознавания речи запускается встроенным блоком определения границ речи (Voice Activity Detector — VAD), который обнаруживает наличие речеподобного сигнала в звуковом потоке, отличного от тишины или постоянного фонового шума. Процесс распознавания заканчивается после получения наилучшей гипотезы распознавания голосовой команды из автоматической системы.

Для синхронизации сигналов модальностей в системе реализован специальный механизм: текущее положение курсора сохраняется в буфере в момент определения начала речи пользователя (срабатывания метода определения границ речи VAD при превышении значения энергии сегмента аудиосигнала заданного порога), так как в процессе произнесения голосовой команды курсор может сместиться из-за непроизвольных перемещений головы, а по окончании процесса распознавания речевой команды выдается сигнал для объединения информации и последующей отсылки сообщения для выполнения действия в ОС. В этом аспекте состоит принципиальное отличие бесконтактного интерфейса для управления указателем мыши жестами головой и речью от управления аппаратными устройствами типа трекбол, джойстик, мышь и т.д.

Для объединения информации, поступающей от двух модальностей системы, используется фреймовый метод. При этом поля семантического фрейма заполняются данными по мере их поступления, а по окончании процесса распознавания выдается сигнал для выполнения многомодальной команды. Поля используемого фрейма следующие: 1) код распознанной голосовой команды; 2) тип речевой команды (много- или одномодальная); 3) абсцисса Мх положения курсора мыши на экране; 4) ордината м! положения курсора.

В ходе экспериментальных исследований проведена количественная оценка скорости и производительности работы потенциальных пользователей с созданной многомодальной системой и сравнение с контактными устройствами ввода/указания (сенсорный экран 17", джойстик, трекбол, тачпад 3" и мышь). Для оценки скорости работы пользователя была использована методика Фиттса. Пользователи при помощи предоставленного им устройства указательного ввода, должны насколько возможно быстро отметить на экране набор целей-объектов (последовательно кликнуть на них, выдавая голосовую команду "Левая" для виртуального нажатия левой кнопки мыши), последовательно появляющихся по круговой схеме на экране. При этом порядок целей задается программой таким образом, чтобы пользователь последовательно выделял наиболее удаленно расположенные друг от друга объекты, совершая движения указателем в различных направлениях. При этом вычисляется индекс сложности задачи ID ("index of difficulty"), измеряемый в битах, согласно формуле:

ID = \og2(piW + l), где D — расстояние между центрами целей (диаметр окружности), W— диаметр круглой цели в экранных пикселях. Согласно закону Фиттса, время движения МТ между целями линейно зависит от индекса сложности ID задания. Однако координаты точки, где происходит выделение цели (клик), зависят как от фактического расстояния между точками кликов, так и от фактического диаметра самих целей (т.е., чем меньше цель, тем сложнее попасть по ее центру). Поэтому фактический (эффективный, "effective") индекс сложности выражается следующим образом:

Юе = log2 (Р^цг +1)' где — фактическое расстояние между точками кликов

целей и We — фактический диаметр цели, который принято вычислять посредством энтропии нормального распределения величины:

We = -J2ma = 4,133 и, где а — среднеквадратическое отклонение координат точки выделения, проецируемой на ось, которая соединяет центры начальной и конечной целей. Получаемые значения Юе отличаются от значений ID, более точно учитывая качество выполнения тестового задания пользователем. Согласно методике Фиттса основным показателем оценки является производительность работы с системой ТР ("throughput"), отражающая компромисс между временем движения (выполнения задания) МТ и точностью выделения целей и измеряется в бит/с согласно формуле: ТР = Юе/МТ.

Для проведения экспериментов были привлечены шесть потенциальных пользователей разного уровня и опыта, которым предлагались задания с 16-ю круглыми целями, по очереди появляющимися в различных точках экрана на окружности заданного диаметра D. Каждым пользователем были проведены серии по 10 тестов с дискретным изменением диаметра цели W в пределах 32-128 пикселей и расстояния D между целями в пределах 96-650 пикселей (при стандартном разрешении экрана 1280x1024), таким образом, значение Ю варьировалось от 1,32 до 4,4 бит. Всего пользователями было выполнено 360 тестов, каждый из которых занимал до 2 минут. В таблице 2 приведены результаты экспериментов и сравнение указательных интерфейсов по трем количественным показателям: 1) среднее время движения МТ между двумя целями; 2) процент ошибок выделения целей (непопадание курсором в цель); 3) общая производительность ТР. Наилучшие результаты по производительности были показаны сенсорным экраном, бесконтактный интерфейс уступает по производительности практически всем аппаратным контактным средствам ввода, кроме джойстика (который также весьма необычен для управления указателем мыши), однако имеет то преимущество, что является бесконтактным способом управления курсором и может использоваться людьми, для которых стандартные устройства ввода недоступны.

Оценка системы в реальной задаче бесконтактной работы с компьютером выполнена с теми же пользователями, которым предлагалось выполнить несколько предложенных тестовых сценариев по работе в сети Интернет, которые они должны были выполнить двумя способами (бесконтактно и при помощи манипулятора-мыши). Контактный способ с применением мыши и клавиатуры оказался по времени выполнения в 1,9 раз быстрее, чем бесконтактный интерфейс. Анализ журнала (log файла) системы показал, что среди более 700 поданных пользователями голосовых команд наиболее частотной была речевая команда "Левая" (щелчок

левой кнопкой мыши), которая использовалась более чем в 1/3 случаев, включая ввод текста при помощи экранной клавиатуры. 64% всех голосовых команд были поданы пользователями многомодально, т.е. совместно с движениями головой для выделения графических объектов или ссылок на экране, а оставшиеся команды — одномодально. При этом точность распознавания голосовых команд пользователей составила свыше 96% в дикторозависимом режиме работы.

Таблица 2 — Сравнительная оценка эффективности интерфейсов для указательного ввода информации с использованием методики Фиттса__

Указательный интерфейс МТ, с Ошибка выделения, % TP, бит/с

Бесконтактный интерфейс 1,98 7,33 1,59

Джойстик 2,01 7,00 1,54

Трекбол 1.03 3,83 3,51

Тачпад 0,85 4,50 3,72

Манипулятор-мышь 0,49 3,17 6,65

Сенсорный экран 0,50 6,17 7,85

Разработанная система ICANDO предназначена для организации многомодальных пользовательских интерфейсов с целью взаимодействия с компьютерными системами без использования рук как обычных пользователей (например, в развивающих и игровых приложениях или в случае, когда руки заняты), так и лиц с ограниченными физическими возможностями (например, в случае парализации верхних конечностей, нарушениях сенсомоторной системы или отсутствии рук).

Шестая глава описывает разработку и исследование математического и программного обеспечения ассистивного интеллектуального пространства. Представлено описание технологий прототипов ассистивных интеллектуальных пространств, предназначенных для сопровождения и информационно-коммуникационной поддержки повседневной жизни людей с ограниченными возможностями, пожилых и больных людей, маленьких детей и т.д. Такой тип интеллектуальных жилых пространств активно исследуется в развитых странах Европы (население которой быстро стареет), США и Японии. Он получил название Ambient Assisted Living (AAL) и развивается в направлении создания окружающего интеллекта (Ambient Intelligence). Приведены основные научно-исследовательские проекты и прототипы ассистивных интеллектуальных пространств, разрабатываемых в рамках программ Евросоюза FP7 и FP6.

Представлено исследование полунатурной модели ассистивного интеллектуального пространства, реализованной в одном помещении, для аудиовизуального наблюдения за поведением людей и предоставления информационной поддержки одиноким людям с инвалидностью и пожилым людям, а также их попечителям. В случае экстренной ситуации, например, при падении человека на пол, его крике или плаче, вербальной просьбе о помощи, ассистивное интеллектуальное пространство может автоматически распознать такую ситуацию и оперативно сообщить о ней попечителям. В модели ассистивного интеллектуального пространства применяются разработанные программные информационно-коммуникационные технологии, а также массивы микрофонов и видеокамер. В работе представлены методы, алгоритмы, системы и программно-аппаратные средства анализа аудио- и видеоинформации. В частности, предложен метод и разработана система автоматического распознавания и классификации типов голосовых команд/сообщений

пользователя и неречевых акустических событий (крик, стон, кашель, и т.д.), включая тревожные звуковые события, предназначенная для анализа и оценки информации об акустической обстановке (ситуации) в помещении, на основе чего возможно производить аудиовизуальный мониторинг и сопровождение интеллектуального пространства, а также определять и предупреждать экстренные ситуации с пользователем пространства, такие как неожиданное падение человека на пол в случае потери сознания или припадка либо вербальная просьба о помощи.

Для системы распознавания предложен словарь, включающий 12 типов акустических событий - множество Е = {''Перемещение кресла", "Кашель", "Стон", "Хлопанье дверью", "Падение человека", "Падение ключей", "Звон ключей", "Шелест бумаги", "Звонок телефона", "Прочищение горла", "Шаги", "Хлопки руками"} и 5 голосовых команд - множество V = {"Помогите", "Проблема", "Ответить", "Да", "Нет"}, по которым можно определить текущую ситуацию в помещении. Неречевые акустические события подразделяются на: 1) звуки, издаваемые человеком в процессе жизнедеятельности; 2) звуки, возникающие в процессе взаимодействия человека с предметами; 3) искусственные или естественные звуки, не связанные с человеком, т.е. звуки окружения пользователя; 4) артефакты речи. Анализируется возникновение тревожных акустических событий, множество которых состоит из следующих речевых и неречевых элементов - X = {"Помогите", "Проблема", "Стон", "Кашель", "Падение человека", "Падение ключей"}, появление которых вероятно в экстренной ситуации. Функциональная схема системы автоматического распознавания аудиособытий показана на рисунке 11.

Рис. 11.-Функциональная схема системы автоматического распознавания аудио-событий и речевых команд в ассистивном интеллектуальном пространстве

Аудиособытия и голосовые команды моделируются как отдельные классы посредством СММ первого порядка, при распознавании вычисляются оценки правдоподобия для каждого возможного класса, и один из них с наивысшей оценкой выбирается в качестве лучшей выходной гипотезы. При этом система способна выдавать список нескольких лучших гипотез распознавания (N-best list), ранжированный по уменьшению правдоподобия аудиосигнала акустической модели.

Для количественной оценки системы был создан аудиокорпус (САРГАС-БД), состоящий из почти 3000 аудиофайлов, содержащих речевые команды пользователя и имитированные акустические события в ходе выполнения тестовых сценариев

потенциальными пользователями. Представлены результаты экспериментальных исследований по количественной оценке точности распознавания и классификации акустических событий. При этом средняя точность определения типа акустических событий составила свыше 94%, а речевых команд - 99% в дикторозависимом режиме, что позволяет говорить о высокой точности анализа и определения акустической ситуации в ассистивном интеллектуальном пространстве.

Помимо системы распознавания речевых сообщений пользователя и аудиосо-бытий в прототипе ассистивного интеллектуального пространства также интегрированы другие разработанные программные ассистивные системы/технологии, в том числе компьютерная система синтеза аудиовизуальной русской речи и жесто-вого языка глухих, а также многомодальная система для бесконтактной работы с компьютером. Все методы и системы прототипа реализованы в виде специального программного обеспечения вычислительных машин с применением языка программирования C/C++ в среде MS Visual Studio с использованием свободно доступных библиотек OpenCV, OpenGL, DirectX, НТК, MFC, которое функционирует под управлением ОС семейства MS Windows.

Созданная полунатурная модель ассистивного интеллектуального пространства является одним из первых отечественных прототипов перспективных интеллектуальных жилых пространств, "умных" комнат и домов, которые оснащаются аудио- и видеосенсорами, радиочастотными метками, QR-кодами и иными сетями и сенсорами, а также проактивными бытовыми устройствами и приборами, встроенными в интеллектуальное окружение жилища, что определяет будущее интеллектуальных систем сопровождения, информационной поддержки и реабилитации людей с ограниченными возможностями, пожилых и недееспособных людей.

В заключении приведены основные научно-технические результаты, полученные в ходе диссертационной работы.

ЗАКЛЮЧЕНИЕ

Совокупность полученных в диссертационном исследовании результатов составляет научно обоснованные технические и технологические решения значимой социально-экономической проблемы организации универсального доступа пользователей, включая людей с ограниченными возможностями здоровья, к информационно-коммуникационным системам и сервисам на основе аудиовизуальных человеко-машинных интерфейсов, внедрение которых вносит значительный вклад в развитие страны. В ходе исследования получены следующие основные теоретические и практические результаты:

I ) Предложена концептуальная модель универсальной ассистивной информационной технологий с аудиовизуальными пользовательскими интерфейсами на основе многомодального распознавания русской речи, компьютерного синтеза аудиовизуальной русской речи и элементов русского жестового языка, бесконтактного человеко-машинного взаимодействия.

2) Предложен метод объединения аудио- и видеоинформации в процессе распознавания речи, отличающийся применением асинхронных вероятностных моделей с индивидуальными весами информативности модальностей речи в моделях.

3) Разработан способ и многомодальный человеко-машинный интерфейс для бесконтактной работы с компьютером посредством движений головы пользователя и голосовых команд, а также компьютерная система, отличающаяся объединением

методов, алгоритмов и программных средств автоматического распознавания русскоязычных голосовых команд/речи и машинного зрения для отслеживания набора естественных реперных точек на лице человека с целью управления перемещением указателя мыши на экране.

4) Разработан метод распознавания и классификации типов голосовых сообщений пользователя и неречевых акустических событий, предназначенный для анализа и оценки информации об акустической обстановке (ситуации) в ассистив-ном интеллектуальном пространстве.

5) Разработана система аудиовизуального распознавания русской речи, отличающаяся интеграцией моделей, методов и программных средств анализа и распознавания речи и чтения речи по губам говорящего для повышения точности и надежности анализа русской речи и предназначенная для организации бесконтактного ввода информации в речевых интерфейсах.

6) Разработана и исследована компьютерная система аудиовизуального синтеза русской речи по произвольному русскоязычному тексту, отличающаяся интеграцией виртуальных моделей, методов и программных средств аудиосинтеза речи и видеосинтеза мимики и артикуляции губ модели головы человека с применением метода моделирования асинхронности аудиовизуальных модальностей речи для улучшения разборчивости и естественности синтезируемой речи, предназначенная для организации вывода информации в речевых интерфейсах.

7) Разработан универсальный многомодальный интерфейс вывода информации и компьютерная система для аудиовизуального синтеза русского языка жестов и речи по тексту, объединяющая бимодальную виртуальную "говорящую голову" для синтеза речи и трехмерную модель тела и рук человека для видеосинтеза динамических жестов, и предназначенная для вывода текстовых данных посредством речи, жестового языка и артикуляции губ аватара.

Разработка и исследование математического и программного обеспечения ЭВМ была выполнена в ходе реализации государственных программ Минобрнауки РФ, направленных на создание новых способов человеко-машинного взаимодействия и коммуникации, поддержана российскими и зарубежными грантами. Разработанные ассистивные информационные технологии/системы и их компоненты внедрены в ряде государственных и коммерческих организаций (в т.ч. LG Electronics, Концерн «Океанприбор», «Кварцприбор-М»), используются Правительством Санкт-Петербурга, Санкт-Петербургским государственным университетом, Запад-ночешским университетом г. Плзень и Богазичи университетом г. Стамбул, а также применяются в учебном процессе в СПбГПУ и СПбГУАП.

Полученные результаты соответствуют п.7 «Человеко-машинные интерфейсы, модели, методы, алгоритмы и программные средства машинной графики, визуализации, обработки изображений, систем виртуальной реальности, мультимедийного общения», п.8 «Модели и методы создания программ и программных средств для параллельной и распределенной обработки данных, языки и инструментальные средства параллельного программирования» и п. 10 «Оценка качества, стандартизация и сопровождение программных систем» паспорта специальности 05.13.11 «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей» (редакция 2011 года).

СПИСОК ОСНОВНЫХ ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

В международных научных журналах

1. Karpov, A. ICANDO: Low Cost Multimodal Interface for Hand Disabled People / A.Karpov, A.Ronzhin // Journal on Multimodal User Interfaces - 2007 - Vol. 1, N 2. -pp. 21-29.

2. Karpov, A. Information Enquiry Kiosk with Multimodal User Interface /

A.Karpov, A.Ronzhin // Pattern Recognition and Image Analysis. - 2009. - Vol. 19, N 3. - pp. 546-558.

3. Karpov. A. A Multimodal Framework for the Communication of the Disabled / S.Argyropoulos, K.Moustakas, A.Karpov, O.Aran, D.Tzovaras, T.Tsakiris, G.Varni,

B.Kwon // Journal on Multimodal User Interfaces. - 2008.- Vol.2, N 2 - pp. 105-116.

4. Karpov, A. Russian Voice Interface / A.Ronzhin, A.Karpov // Pattern Recognition and Image Analysis. - 2007. - Vol. 17, N 2. - pp. 321-336.

5. Karpov, A. Automatic Fingersign to Speech Translation System / M.Hruz, P.Campr, E.Dikici, A.Kindirouglu, Z.Krnoul, Al.Ronzhin, H.Sak, D.Schorno, L.Akarun, O.Aran, A.Karpov, M.Saraclar, M.Zelezny // Journal on Multimodal User Interfaces. -2011.-Vol. 4, N 2. - pp. 61-79.

6. Karpov, A. Multi-lingual Fingerspelling Recognition in a Handicapped Kiosk / A.Kindiroglu, H.Yalcin, O.Aran, M.Hruz, P.Campr, L.Akarun, A.Karpov // Pattern Recognition and Image Analysis. -2011. - Vol. 21, N 3. - pp. 402-406.

7. Karpov, A. Automatic Recognition of Fingerspelling Gestures in Multiple Languages for a Communication Interface for the Disabled / A.Kindiroglu, H.Yalcin, O.Aran, M.Hruz, P.Campr, L.Akarun, A.Karpov // Pattern Recognition and Image Analysis. -2012. - Vol. 22, N 4. - pp. 527-536.

8. Karpov, A. Modeling of pronunciation, Language and Nonverbal Units at Conversational Russian Speech Recognition / I.Kipyatkova, A.Karpov, V.Verkhodanova, M.Zelezny // International Journal of Computer Science and Applications. - 2013. - Vol. 10, N 1. —pp. 11-30.

9. Karpov, A. Large vocabulary Russian speech recognition using Syntactico-statistical Language Modeling / A.Karpov, K.Markov, I.Kipyatkova, D.Vazhenina, A.Ronzhin // Speech Communication. - 2013, http://dx.d0i.0rg/l0.1016/j.specom.2013.07.004

В ведущих российских журналах из перечня ВАК Минобрнауки РФ

10. Карпов, А.А. Когнитивные исследования ассистивного многомодального интерфейса для бесконтактного человеко-машинного взаимодействия / А.А.Карпов // Информатика и ее применения. - 2012. - Т. 6, N 2. - С. 77-86.

П.Карпов, А.А. Машинный синтез русской дактильной речи по тексту / А.А.Карпов // Научно-техническая информация. Серия 2: Информационные процессы и системы. -2013. -N 1. -С. 20-26.

12. Карпов, А.А. Ассистивные информационные технологии на основе аудиовизуальных речевых интерфейсов / А.А.Карпов // Труды СПИИРАН. — 2013. — Вып. 27.-С. 114-128.

13. Карпов, А.А. Автоматическое распознавание аудиовизуальной русской речи с применением асинхронной модели / А.А.Карпов // Информационно-измерительные и управляющие системы. - 2010. - Т. 8, N 7. - С. 91-96.

14. Карпов, А.А. Аудиовизуальный речевой интерфейс для систем управления и оповещения / А.А.Карпов // Известия ЮФУ. Технические науки. - 2010. - N 3. -С. 218-222.

15. Карпов, A.A. Компьютерный анализ и синтез русского жестового языка / А.А.Карпов // Вопросы языкознания. — 2011. —N 6. — С. 41-53.

16. Карпов, A.A. ICanDo: Интеллектуальный помощник для пользователей с ограниченными физическими возможностями / А.А.Карпов // Вестник компьютерных и информационных технологий. — 2007. — N 7. — С. 32-41.

17. Карпов, A.A. Разработка компьютерной системы "говорящая голова" для аудиовизуального синтеза русской речи по тексту / А.А.Карпов, Л.И.Цирульник, М.Железны // Информационные технологии. —2010. — Т. 9, N 8. — С. 13-18.

18. Карпов, A.A. Методология оценивания работы систем автоматического распознавания речи / А.А.Карпов, И.С.Кипяткова // Известия вузов. Приборостроение.-2012.-Т. 55, N 11.-С. 38-43.

19. Карпов, A.A. Многомодальные ассистивные системы для интеллектуального жилого пространства / А.А.Карпов, Л.Акарун, Ал.Л.Ронжин. // Труды СПИИ-РАН. - 2011. - Вып. 19. - С. 48-64.

20. Карпов, A.A. Разработка бимодальной системы аудиовизуального распознавания русской речи / А.А.Карпов, А.Л.Ронжин, Б.М.Лобанов, Л.И.Цирульник, М.Железны // Информационно-измерительные и управляющие системы. -2008. - Т. 6, N 10. - С. 58-62.

21. Карпов, A.A. Формализация лексикона системы компьютерного синтеза языка жестов / А.Карпов, И.А.Кагиров // Труды СПИИРАН. - 2011. - Вып. 16. - С. 123-140.

22. Карпов, A.A. Сравнительный анализ функциональности прототипов интеллектуальных пространств / Ал.Л.Ронжин, А.А.Карпов // Труды СПИИРАН. - 2013. -Вып. 24.-С. 277-290.

23. Карпов, A.A. Проектирование интерактивных приложений с многомодальным интерфейсом / А.Л.Ронжин, А.А.Карпов // Доклады ТУСУР. -2010. -N 1(21). -С. 124-127.

24. Карпов, A.A. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи / И.С.Кипяткова, А.А.Карпов // Информационно-управляющие системы. — 2010. -N4(47).-С. 2-8.

25. Карпов, A.A. Моделирование речевых сбоев в системах автоматического распознавания речи / В.О.Верходанова, А.А.Карпов // Вестник Томского государственного университета. — 2012. — N 363. — С. 10-15.

26. Карпов, A.A. Количественный анализ лексики русского WordNet и Викислова-рей/ А.В.Смирнов, В.М.Круглов, А.А.Крижановский, Н.Б.Луговая, А.А.Карпов, И.С.Кипяткова // Труды СПИИРАН. - 2012. - Вып. 23. - С. 231-253.

27. Карпов, A.A. Исследование многомодального человеко-машинного взаимодействия на базе информационно-справочного киоска / А.Л.Ронжин, А.А.Карпов // Информационно-измерительные и управляющие системы. — 2009. — Т. 7, N 4. -С. 22-26.

28. Карпов, A.A. Сравнение методов локализации пользователя многомодальной системы по его речи / А.Л.Ронжин, А.А.Карпов // Известия вузов. Приборостроение. - 2008. - Т. 51, N 11.-С. 41-47.

29. Карпов, A.A. Мультимодальный человеко-машинный интерфейс в медицинских приложениях / С.Э.Чернакова, А.А.Карпов, А.И.Нечаев, А.Л.Ронжин // Мехатроника, автоматизация, управление. - 2008. - N 11. - С. 32-37.

Монографии, главы в книгах, учебные пособия

30. Карпов, А.А. Автоматическая обработка разговорной русской речи / И.С.Кипяткова, А.Л.Ронжин, А.А.Карпов. - СПб.: ГУАП, 2013. - 314 с.

31. Карпов, А.А. Речевой и многомодальный интерфейсы / А.Л.Ронжин, А.А. Карпов, И.В.Ли. — Информатика: неограниченные возможности и возможные ограничения. — М.: Наука, 2006. - 173 с.

32. Karpov, A. Two SIMILAR Different Speech and Gestures Multimodal Interfaces / A.Karpov, S.Carbini, A.Ronzhin, J.E.Viallet; D.Tzovaras (Ed.). - In: Multimodal User Interfaces: From Signals to Interaction (Chapter 7). - Germany: Springer, 2008. -pp. 155-184.

33. Карпов, А.А. Проектирование речевых интерфейсов для информационно-управляющих систем: учебное пособие / А.А.Карпов, И.С.Кипяткова, АЛ.Ронжин. - СПб: ГУАП, 2012. - 76 с.

В трудах ведущих международных конференций

34. Karpov A., Kipyatkova I., Ronzhin A. Very Large Vocabulary ASR for Spoken Russian with Syntactic and Morphemic Analysis. In Proc. 12th International Conference INTERSPEECH-2011, Florence, Italy, 2011, pp. 3161-3164.

35. Karpov A., Ronzhin A., Markov K., Zelezny M. Viseme-Dependent Weight Optimization for CHMM-Based Audio-Visual Speech Recognition. In Proc. INTERSPEECH-2010, Makuhari, Japan, 2010, pp. 2678-2681.

36. Karpov A., Tsirulnik L., Krnoul Z., Ronzhin A., Lobanov В., Zelezny M. AudioVisual Speech Asynchrony Modeling in a Talking Head. In Proc. INTERSPEECH-2009, Brighton, UK, 2009, pp. 2911-2914.

37. Karpov A., Ronzhin A., Kipyatkova I., Ronzhin Al., Akarun L. Multimodal Human Computer Interaction with MIDAS Intelligent Infokiosk. In Proc. 20th Intern. Conference on Pattern Recognition ICPR-2010, Istanbul, Turkey, 2010, pp. 3862-3865.

38. Karpov A., Krnoul Z., Zelezny M., Ronzhin A. Multimodal Synthesizer for Russian and Czech Sign Languages and Audio-Visual Speech. In Proc. 15th International Conference on Human-Computer Interaction HCI International-2013, Springer LNCS 8009, Las Vegas, Nevada, USA, 2013, pp. 520-529.

39. Karpov A., Ronzhin A., Kipyatkova I. An Assistive Bi-Modal User Interface Integrating Multi-Channel Speech Recognition and Computer Vision. In Proc. HCI In-ternational-2011, Springer LNCS 6762, Orlando, USA, 2011, pp. 454-463.

40. Karpov A., Carbini S., Ronzhin A., Viallet J.E. Two Different SIMILAR Speech and Gestures Multimodal Interfaces. In Proc. 16th European Signal Processing Conference EUSIPCO-2008, EURASIP Association, Lausanne, Switzerland, 2008.

41. Karpov A., Ronzhin A., Kipyatkova I. Designing a Multimodal Corpus of AudioVisual Speech using a High-Speed Camera. In Proc. 11th IEEE International Conference on Signal Processing ICSP-2012, Beijing, China, 2012, pp. 519-522.

42. Karpov A., Zelezny M. Towards Russian Sign Language Synthesizer: Lexical Level. In Proc. 5th International Workshop on Representation and Processing of Sign Languages at LREC-2012, Istanbul, Turkey, 2012, pp. 83-86.

43. Karpov A., Ronzhin A., Kipyatkova I., Zelezny M. Influence of Phone-viseme Temporal Correlations on Audiovisual STT and TTS Performance. In Proc. 17th International Congress of Phonetic Sciences ICPhS-2011, Hong Kong, 2011, pp. 1030-1033.

44. Ronzhin A., Karpov A., Kipyatkova I., Zelezny M. Client and Speech Detection System for Intelligent Infokiosk. In Proc. 13th Intern. Conference on Text, Speech and Dialog TSD-2010, Springer LNAI 6231, Brno, Czech Republic, 2010, pp. 560-567.

45. Karpov A., Ronzhin A., Leontyeva A. A Semi-automatic Wizard of Oz Technique for Let'sFly Spoken Dialogue System. In Proc. TSD-2008, Springer LNAI 5246, Brno, Czech Republic, 2008, pp. 585-592.

46. Aran O., Campr P., Hruz M., Karpov A., Santemiz P., Zelezny M. Sign-language-enabled Information Kiosk. In Proc. 4th Summer Workshop on Multimodal Interfaces eNTERFACE-2009, Orsay, France, 2009, pp. 24-33.

47. Karpov A., Ronzhin A. Russian Speech Recognition Model with Morphemic Analysis and Synthesis, In Proc. 19th International Congress on Acoustics ICA-2007, Madrid, Spain, 2007.

48. Kipyatkova I., Karpov A. Lexicon Size and Language Model Order Optimization for Russian LVCSR, In Proc. 15th International Conference on Speech and Computer SPECOM-2013, Springer LNAI 8113, Pilsen, Czech Republic, 2013, pp. 219-226.

49. Karpov A., Tsirulnik L., Zelezny M., Krnoul Z., Ronzhin A., Lobanov B. Study of Audio-Visual Asynchrony of Russian Speech for Improvement of Talking Head Naturalness. In Proc. SPECOM-2009, St. Petersburg, Russia, 2009, pp. 130-135.

Патенты и свидетельства о госрегистрации программ для ЭВМ и баз данных

50. Карпов, А.А. Многомодальный подвижный автомат информационного самообслуживания / A.JI. Ронжин, В.Ю. Будков, М.В. Прищепа, А.А. Карпов. — Патент на полезную модель N 108172 от 10.09.2011.

51. Карпов, А.А. Универсальная компьютерная система аудиовизуального синтеза русской звучащей речи и языка жестов по тексту / А.А. Карпов. - Свидетельство о государственной регистрации ПрЭВМ N 2012618286 от 12.09.2012.

52. Карпов, А.А. Компьютерная программа для синхронизации, захвата и объединения аудиовизуальных модальностей речи - RusAVSpeechRecorder / А.А. Карпов. - Свидетельство о гос. регистрации ПрЭВМ N 2011611037 от 28.01.2011.

53. Карпов, А.А. Мультимедиа корпус аудиовизуальной русской речи — RusAVSpeechCorpus / А.А. Карпов, A.JI. Ронжин, И.С. Кипяткова. - Свидетельство о государственной регистрации базы данных N 2011620085 от 28.01.2011.

54. Карпов, А.А. Многомодальный пользовательский интерфейс для бесконтактного управления компьютером (ICANDO) / А.А. Карпов, A.JI. Ронжин. - Свидетельство о государственной регистрации ПрЭВМ N 2008611031 от 26.02.2008.

Автореферат диссертации

Карпов Алексей Анатольевич

АУДИОВИЗУАЛЬНЫЕ РЕЧЕВЫЕ ИНТЕРФЕЙСЫ В АССИСТИВНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ

Текст автореферата размещен на сайтах: Высшей аттестационной комиссии Министерства образования и науки Российской Федерации http://vak2.ed.gov.ru/catalogue Федерального государственного бюджетного учреждения науки Санкт-Петербургского института информатики и автоматизации Российской академии наук (СПИИРАН) http://www.spiiras.nw.ru/DissSovet/Templates/PhDSchedule.htm

Подписано в печать 29.07.2013г. Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 2,0. Тираж 100 экз. Заказ №3153.

Отпечатано в ООО «Издательство "ЛЕМА"'» 199004, Россия, Санкт-Петербург, В.О., Средний пр., д. 24 тел.: 323-30-50, тел./факс: 323-67-74 e-mail: izd_lema@mail.ru http://www.lemaprint.ru

Текст работы Карпов, Алексей Анатольевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации

Российской академии наук

05201351703 На правах рукописи

КАРПОВ Алексей Анатольевич

АУДИОВИЗУАЛЬНЫЕ РЕЧЕВЫЕ ИНТЕРФЕЙСЫ В АССИСТИВНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ

Специальность 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей»

Диссертация на соискание ученой степени доктора технических наук

Санкт-Петербург - 2013

СОДЕРЖАНИЕ

Введение..................................................................................................................6

Положения, выносимые на защиту..................................................................27

Глава 1. Аналитический обзор ассистивных технологий и человеко-машинных интерфейсов............................................................................................28

1.1. Анализ проблем и постановка задачи......................................................28

1.2. Систематизация ассистивных информационных средств и технологий..................................................................................................................34

1.3. Этапы развития человеко-машинных интерфейсов................................50

1.4. Концептуальная модель универсальной ассистивной информационной технологии с аудиовизуальными интерфейсами....................................................54

1.5. Выводы по главе 1......................................................................................61

Глава 2. Модели и методы распознавания аудиовизуальной русской речи................................................................................................................................64

2.1. Анализ проблем автоматического распознавания речи.........................64

2.2. Обзор подходов и способов многомодального распознавания речи.... 67

2.3. База данных аудиовизуальной русской речи...........................................72

2.4. Автоматическая система распознавания аудиовизуальной русской речи..............................................................................................................................79

2.4.1. Архитектура многомодального распознавателя речи.........................79

2.4.2. Параметрическое представление звучащей речи.................................81

2.4.3. Параметрическое представление визуальной речи..............................84

2.4.4. Методы моделирования аудиовизуальных модальностей речи.........92

2.5. Показатели оценки систем распознавания речи......................................98

2.6. Экспериментальные исследования и анализ результатов....................105

2.7. Выводы по главе 2....................................................................................117

Глава 3. Компьютерная система синтеза аудиовизуальной русской речи по тексту............................................................................................................119

3.1. Анализ моделей и методов синтеза аудиовизуальной речи.................119

3.2. Архитектура синтезатора аудиовизуальной русской речи..................124

3.3 Компьютерный синтез звучащей и видимой речи.................................126

3.4. Метод моделирования асинхронности аудиовизуальных модальностей речи...................................................................................................135

3.5. Экспериментальные исследования и анализ результатов....................146

3.6. Выводы по главе 3....................................................................................156

Глава 4. Универсальный интерфейс и система синтеза аудиовизуальной речи и элементов русского жестового языка.......................................................159

4.1. Анализ специфики и характеристик русского жестового языка глухих люд ей............................................................................................................159

4.1.1. Характеристика разговорного жестового языка................................161

4.1.2. Область применения и специфика дактильной речи.........................166

4.2. Информационные ресурсы и словари русского жестового языка.......171

4.3. Компьютерный синтезатор русского жестового языка по тексту.......175

4.3.1. Основные требования к системе синтеза жестовой и дактильной речи.......................................................................................................175

4.3.2. Формализация и представление машинного словаря языка жестов 177

4.3.3. Машинный синтез элементов русского языка жестов посредством жестового аватара.............................................................................183

4.4.4. Многомодальная система синтеза аудиовизуальной речи и жестов........................................................................................................................186

4.5. Выводы по главе 4....................................................................................196

Глава 5. Многомодальный человеко-машинный интерфейс и система для бесконтактной работы с компьютером.........................................................199

5.1 Анализ способов и интерфейсов бесконтактного взаимодействия с компьютером............................................................................................................199

5.2. Ассистивная многомодальная система для бесконтактной работы с компьютером............................................................................................................203

5.2.1. Бесконтактный человеко-машинный интерфейс...............................203

5.2.2. Архитектура ассистивной многомодальной системы.......................205

5.2.3. Распознавание речевых команд пользователя....................................206

5.2.4. Видеоанализ движений головы пользователя....................................210

5.2.5. Метод синхронизации и объединения аудио- и видеомодальностей..................................................................................................219

5.3. Экспериментальные исследования и анализ результатов....................222

5.3.1. Методика количественной оценки указательных человеко-машинных интерфейсов..............................................................................................................222

5.3.2. Анализ и сравнение производительности бесконтактного человеко-машинного взаимодействия....................................................................................225

5.4. Выводы по главе 5....................................................................................235

Глава 6. Многомодальные человеко-машинные интерфейсы в ассистивном интеллектуальном пространстве...................................................237

6.1. Анализ моделей и прототипов ассистивных интеллектуальных пространств...............................................................................................................237

6.2. Методы и алгоритмы обработки аудиовизуальной информации в модели интеллектуального пространства.............................................................246

6.2.1. База данных акустических событий....................................................248

6.2.2. Методы распознавания аудиоинформации и речи.............................251

6.2.3. Методы анализа видеоинформации в модели....................................254

6.3. Экспериментальные исследования и анализ результатов....................259

6.4. Программно-аппаратный комплекс универсальной ассистивной информационной технологии.................................................................................262

6.5. Выводы по главе 6....................................................................................266

Заключение.........................................................................................................268

Список сокращений и условных обозначений............................................271

Словарь терминов.............................................................................................273

Список литературы..........................................................................................275

Приложение А. Копии актов внедрения и использования результатов работы..........................................................................................................................300

Приложение Б. Копии патентов и свидетельств о регистрации программ для ЭВМ и баз данных..............................................................................................315

Введение

Актуальность темы диссертации. Как в России, так и во всем мире очень многие люди ограничены в своих возможностях в связи с дисфункциями слуха, зрения, речеобразования, опорно-двигательного аппарата, когнитивными нарушениями. Для помощи, социальной и профессиональной реабилитации людей с инвалидностью, а также пожилых людей в мире существуют специальные государственные программы, наиболее развитые из которых действуют в Японии, США, Израиле, Великобритании, Германии, Франции, скандинавских странах (например, е-Accessibility и e-Inclusion). В последние годы высшее руководство России также обращает внимание на проблемы жизни инвалидов. В мае 2012 года Президентом РФ была ратифицирована «Конвенция о правах инвалидов», принятая ранее Генеральной Ассамблеей ООН, ключевой пункт которой состоит в том, чтобы создать условия для полноценной интеграции инвалидов в жизнь общества на всех уровнях. Недавно в России был дан старт государственной программе «Доступная среда», рассчитанной до 2015 года, в рамках которой предполагается настройка под нужды инвалидов правил работы социальных, информационных и прочих государственных служб, а также обеспечение информационной и компьютерной доступности для людей с ограниченными возможностями, внедрение новых способов взаимодействия и продвижение новых товаров и услуг, использующих специальные органы и средства управления, доступные конкретным группам инвалидов. Кроме того, 30 декабря 2012 года Президент РФ подписал поправки к закону «О социальной защите инвалидов в РФ», существенно повышающие статус русского жестового языка глухих у нас в стране, который теперь является официальным языком общения людей при наличии нарушений слуха или речи, в том числе в сферах устного использования государственного языка РФ.

Современное общество прикладывает значительные усилия по реализации различных информационно-коммуникационных технологий (ИКТ) для обеспечения общедоступности информации, сервисов и услуг для людей с

инвалидностью. Такие средства получили название «ассистивные технологии» ("Assistive Technology"), т.е. помогающие (вспомогательные) людям с ограниченными возможностями здоровья и индивидуальными особенностями. Этот термин неоднократно упоминается в «Конвенции о правах инвалидов» ООН, «Европейской социальной хартии», паспорте программы «Доступная среда», проектах ЮНЕСКО и документах, учитывающих международное и российское законодательство.

Ассистивные средства и технологии могут быть самого разного характера (программные, электрические, механические, оптические и т.д.) и назначения: инвалидные кресла-коляски, протезы для конечностей, трости, слуховые аппараты, оптические очки, телевизионные субтитры, роботы-помощники и роботы телеприсутствия, лифты-подъемники для колясок, звуковые сигналы светофоров, собаки-поводыри с соответствующим снаряжением, а также пандусы, направляющие на дорогах, и многое другое. В данной диссертации разрабатываются и исследуются ассистивные информационные технологии -специальное программное и/или аппаратное обеспечения, которое повышает доступность информации и средств коммуникации для людей с ограниченными возможностями здоровья.

По данным Минздрава, в России насчитывается около 14 млн людей с инвалидностью (а это 10% населения страны), из которых около 700 тыс. детей-инвалидов, и каждый год порядка 1 млн человек впервые признаются инвалидами, что обусловлено целым комплексом причин (экологическими, техногенными, медицинскими, психологическими и др.). Однако в России современные научные работы, посвященные исследованию человеко-машинных интерфейсов и способов общения, направлены, в основном, на создание вычислительных средств, оборудованных большим количеством различных датчиков и сенсоров, а также сложных систем управления. Широко применяемые в настоящее время графические и текстовые интерфейсы ориентированы на опытных пользователей, и в исследованиях практически не затрагиваются

вопросы человеко-машинной коммуникации для лиц с ограниченными возможностями.

Проблема, рассматриваемая в диссертации, заключается в наличии несоответствия требований различных групп потенциальных пользователей, особенно людей с разными видами нарушений, и возможностей, предоставляемых существующими и перспективными человеко-машинными интерфейсами для доступа к информационно-коммуникационным системам, сервисам и технологиям. Данное несоответствие порождает научно-техническую проблему потребности разработки и применения методологического, математического, программного и информационного обеспечения многомодальных интерфейсов (в том числе, речевых, жестовых, аудиовизуальных) пользователя для предоставления людям с ограниченными возможностями доступа к электронной информации (мультимедийному контенту Интернета, электронным библиотекам, образовательным ресурсам, государственным услугам и т.д.) для их интеграции в информационное общество.

Связь с государственными и международными программами. Основные результаты диссертационной работы получены в ходе поисковых НИР по госконтрактам с Минобрнауки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» (госконтракты № 11.519.11.4025 «Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства» и № 11.519.11.4020 «Разработка методов и моделей автоматической обработки речевых сигналов в интеллектуальных информационно-коммуникационных системах») и ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы» (госконтракты № П2579 «Разработка методов, моделей и алгоритмов для автоматического распознавания аудиовизуальной русской речи» и № П2360 «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем»). Работа также выполнена в рамках следующих российских проектов: гранты Президента РФ

02.120.11.64898-МК «Разработка компьютерной многомодальной системы для аудиовизуального синтеза разговорной русской речи и жестового языка глухих» (2010-2011 гг.) и МК-1880.2012.8 «Разработка автоматической системы распознавания аудиовизуальной русской речи с применением высокоскоростной видеокамеры» (2012-2013 гг.), грант международного фонда «Научный потенциал» № 201 «Многомодальная ассистивная система на базе технологий распознавания русской речи и машинного зрения» (2010 г.), проектов фондов РФФИ № 07-07-00073-а, 08-08-00128-а, 08-07-90002-Бел_а, 09-07-91220-СТ_а и РГНФ № 12-04-12062-в, а также грантов Комитета по науке и высшей школе (КНВШ) Правительства Санкт-Петербурга и Санкт-Петербургского научного центра (СПбНЦ) РАН. Исследования также производились в рамках международных проектов Евросоюза: EU FP6 Network of Excellence SIMILAR IST-2002-507609 (2003-2007 гг.), INTAS № 04-77-7404 и № 05-1000007-426 (2006-2008 гг.).

Целью диссертационной работы является повышение эффективности и универсальности способов человеко-машинного взаимодействия на основе речевых и многомодальных интерфейсов пользователя в ассистивных информационно-коммуникационных технологиях. Для достижения цели в диссертационной работе поставлены и решены следующие задачи:

1) Анализ основных направлений исследований и проблем в области ассистивных средств и технологий для помощи людям с ограниченными возможностями и обеспечения универсального информационного доступа посредством организации аудиовизуальных человеко-машинных интерфейсов.

2) Создание концептуальной модели универсальной ассистивной информационной технологии с аудиовизуальными интерфейсами пользователя.

3) Создание метода объединения аудио- и видеоинформации для многомодального распознавания речи.

4) Создание метода моделирования асинхронности аудиовизуальных речевых модальностей, естественной для речеобразования человека, для компьютерного синтезатора аудиовизуальной русской речи по тексту.

5) Создание способа для бесконтактной работы с компьютером при помощи движений головы и голосовых команд, а также многомодальной системы, объединяющей средства автоматического распознавания голосовых команд и машинного зрения для видеоотслеживания движений головы пользователя.

6) Разработка метода и системы автоматического распознавания и классификации голосовых сообщений пользователя и неречевых акустических событий в модели ассистивного интеллектуального пространства.

7) Разработка автоматической системы аудиовизуального распознавания русской речи с применением методов и средств анализа речи и чтения по губам говорящего для повышения точности и надежности анализа русской речи.

8) Разработка компьютерной системы аудиовизуального синтеза русской речи с применением методов и средств аудиосинтеза речи по входному тексту и видеосинтеза артикуляции губ виртуальной модели головы человека.

9) Разработка универсального пользовательского интерфейса вывода информации и компьютерной системы синтеза аудиовизуальной русской речи и жестового языка глухих.

Объект исследования. Математическое, программное и информационное обеспечение компьютерного распознавания и синтеза речи и жестов на акустическом и визуальном уровнях, а также способы речевого и многомодального общения и интерфейсы человеко-машинного взаимодействия.

Предмет исследования. Способы, принципы, модели, методы, алгоритмы и системотехнические решения для распознавания и синтеза аудио- и видеоинформации (речи, жестов, и т.д.) для организации многомодальных интерфейсов пользователя в ассистивных информационных технологиях.

Методы исследования. Методы цифровой обработки сигналов, искусственного интеллекта, распознавания образов, вероятностного моделирования, статистического анализа, автоматической обработки текстов, когнитивных исследований, объектно-ориентированного проектирования и программирования.

Научная новизна. Разработана