автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и программные средства автоматизации аудиовизуального мониторинга участников мероприятий в интеллектуальном зале

кандидата технических наук
Ронжин, Александр Леонидович
город
Санкт-Петербург
год
2013
специальность ВАК РФ
05.13.11
Автореферат по информатике, вычислительной технике и управлению на тему «Методы и программные средства автоматизации аудиовизуального мониторинга участников мероприятий в интеллектуальном зале»

Автореферат диссертации по теме "Методы и программные средства автоматизации аудиовизуального мониторинга участников мероприятий в интеллектуальном зале"

На правах рукописи

Ронжин Александр Леонидович

МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА АВТОМАТИЗАЦИИ АУДИОВИЗУАЛЬНОГО МОНИТОРИНГА УЧАСТНИКОВ МЕРОПРИЯТИЙ В ИНТЕЛЛЕКТУАЛЬНОМ ЗАЛЕ

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

1 4 МАР 2013

005050640

Санкт-Петербург 2013

005050640

Работа выполнена в Федеральном государственном бюджетном учреждении науки Санкт-Петербургском институте информатики и автоматизации Российской академии наук (СПИИРАН).

Научный руководитель: кандидат технических наук

доцент Карпов Алексей Анатольевич

Официальные оппоненты: доктор технических наук, профессор,

заведующий лабораторией автоматизации

научных исследований СПИИРАН Александров Виктор Васильевич

кандидат технических наук, доцент профессор кафедры системного анализа и управления федерального государственного бюджетного образовательного учреждения высшего профессионального образования Санкт-Петербургского государственного

политехнического университета Станкевич Лев Александрович

Ведущая организация:

Государственное образовательное учреждение высшего профессионального образования «федеральное государственное автономное образовательное учреждение высшего профессионального образования Санкт-Петербургский государственный университет аэрокосмического приборостроения».

Защита состоится «2» апреля 2013 г. в 13.00 часов на заседании диссертационного совета Д.002.199.01 при Федеральном государственном бюджетном учреждении науки Санкт-Петербургском институте информатики и автоматизации Российской академии наук по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.

С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Санкт-Петербургского института информатики и автоматизации Российской академии наук

Автореферат разослан «1» марта 2013 г.

Ученый секретарь

диссертационного совета Д.002.199.01

к.т.н.

Нестерук Филипп Геннадьевич

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Предоставление проактивных информационно-управляющих сервисов на основе анализа поведения пользователя и окружающей обстановки является основной идеей в концепции окружающего интеллектуального пространства. Одним из примеров такого пространства является интеллектуальный зал, который оснащен сетью программных модулей, активационных устройств, мультимедийных средств и аудиовизуальных сенсоров. Осведомленность зала о пространственном положении участников, их текущих действиях, роли в текущем мероприятии и их предпочтениях обеспечивает интеллектуальное управление встроенным оборудованием. На практике подобные интеллектуальные залы чаще всего функционируют в автоматизированном режиме при поддержке экспертов-операторов. Применение математического и программного обеспечения обработки аудиовизуальных данных в ходе мониторинга мероприятий в зале позволяет определить текущие положения участников, время их выступлений, этапы мероприятий и автоматизировать персонифицированную запись (протоколирование) мультимедийных данных.

Одной из целей аудиовизуального мониторинга является определение временных моментов (событий) изменения состояния (положения в пространстве и поведения) участников мероприятий, к которым относится появление нового участника в зале, выступления докладчиков и реплики сидящих в зале слушателей. При небольших совещаниях, когда все участники расположены за одним столом, эффективно использование персональных или панорамных видеокамер, увеличение же числа участников ведет к расширению пространства и повышению стоимости технических средств, необходимых для выполнения мониторинга. Другой целью аудиовизуального мониторинга является автоматическая запись и анализ аудиовизуальных данных, отражающих происходящие в зале события, для определения текущей ситуации в интеллектуальном зале. Автоматический анализ собранных многомодальных данных осложняется тем, что участники произвольно меняют положение тела, головы, направление взгляда. Для того чтобы обеспечить захват и слежение за участниками мероприятия применяются панорамные видеокамеры, РТг (Рап/ТИ^оотп) камеры с функциями наклона, поворота и масштабирования, массивы видеокамер и микрофонов. Нахождение источника звука с помощью массива микрофонов эффективно лишь в малых лекционных или конференц-залах. Для аудиозаписи в больших помещениях используют персональные микрофоны для всех участников или применяют систему массивов микрофонов, распределенную по всей аудитории. Совместный анализ аудио- и видеоданных, записываемых в процессе мониторинга зала совещаний, является предметом изучения в ряде текущих российских и зарубежных научных проектов. Отсутствие математических и программных средств автоматического протоколирования регламентированных совещаний на основе определения поведения участников и этапов мероприятия в интеллектуальном зале обуславливает актуальность задачи разработки средств автоматизации аудиовизуального мониторинга, решаемой в данном диссертационном исследовании.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка методов, алгоритмов и программных средств записи и

анализа аудиовизуальных данных, обеспечивающих сокращение времени и затрат на поддержку проведения мероприятий за счет автоматизации процессов управления мультимедийным, аудио- и видеозаписывающим оборудованием. Для достижения поставленной цели в работе решены следующие задачи:

1. Анализ современных методов и подходов к распределенной обработке аудиовизуальных данных, записываемых в ходе мониторинга прототипов интеллектуального пространства.

2. Разработка метода автоматической регистрации участников регламентированных мероприятий в интеллектуальном зале на основе многоканальной записи и обработки аудио- и видеосигналов, полученных в ходе мониторинга зон зала.

3. Разработка метода автоматической записи выступлений участников в интеллектуальном зале, учитывающего особенности поведения пользователя на основе обработки аудиовизуальных данных.

4. Разработка прикладных программных средств аудиовизуального мониторинга и определения ситуации в интеллектуальном зале, обеспечивающих определение и слежение за перемещением участников, их регистрацию и запись выступлений в ходе мероприятия на основе многоканальной обработки аудио- и видеосигналов.

Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки аудиовизуальных сигналов, теории информации, теории множеств, статистического анализа, сегментации изображений. Компьютерная реализация разработанных алгоритмов производилась на основе объектно-ориентированного подхода.

Положения, выносимые на защиту:

1. Функциональная модель мониторинга интеллектуального зала на основе распределенной обработки аудиовизуальных сигналов, использующая пространственно-временную структуризацию данных о поведении участников внутри анализируемого помещения, обеспечивающая формирование мультимедийного отчета и сбор персонифицированных данных для настройки профилей участников.

2. Метод автоматизации регистрации участников мероприятия за счет применения многоэтапной процедуры бимодального анализа зон зала, позволяющий определить находящихся в нем участников и получить аудиовизуальные данные, необходимые для идентификации присутствующих.

3. Метод аудиовизуальной записи выступлений участников в интеллектуальном зале с применением бимодального подхода к определению активного диктора, обеспечивающий автоматический захват и синхронизацию аудио- и видеопотоков данных выступающего в зале участника.

4. Комплекс программных средств аудиовизуального мониторинга и определения ситуации в интеллектуальном зале, обеспечивающий обработку аудиовизуальных потоков данных от набора сетевых камер и массивов микрофонов для определения и слежения за перемещением участников, их регистрацию и запись выступлений в ходе мероприятия в интеллектуальном зале.

Научная новизна работы состоит в следующем:

1. Разработана функциональная модель мониторинга интеллектуального зала на основе распределенной обработки аудиовизуальных сигналов, отличающаяся применением пространственно-временной структуризации данных о поведении участников внутри анализируемого помещения и обеспечивающая формирование мультимедийного отчета и сбор персонифицированных данных для настройки профилей участников.

2. Разработан метод автоматизации процесса регистрации и хода проведения мероприятия, отличающийся анализом профилей участников, включающих личные данные и историю их поведения в зале, для прогнозирования ситуации и настройки программно-аппаратных средств интеллектуального зала согласно их предпочтениям.

3. Разработан метод аудиовизуальной записи выступлений участников в интеллектуальном зале, отличающийся применением бимодального способа определения активного диктора и синхронизацией аудио- и видеопотоков при их распределенной записи и обработке.

4. Создан комплекс программных средств аудиовизуального мониторинга и определения ситуации в интеллектуальном зале, обеспечивающий обработку аудиовизуальных потоков от набора сетевых камер и массивов микрофонов для определения и слежения за перемещением участников, их регистрации и записи выступлений для формирования мультимедийного отчета о мероприятии в интеллектуальном зале.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные методы, программные средства автоматизации записи и обработки аудиовизуальных данных, а также рекомендации по проектированию интеллектуальных залов, направленные на сокращение ресурсов, необходимых для организации, проведения и протоколирования хода мероприятий (например, совещание, лекция, семинар, заседания ученого совета, круглый стол) в зале совещаний. Предложенный программный комплект обработки аудиовизуальных данных позволяет сократить работу секретарей и видеооператоров, а также сконцентрировать внимание участников на обсуждаемых вопросах за счет автоматизации управления сенсорным и мультимедийным оборудованием.

Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: НИР Министерства образования и науки РФ «Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства», ГК№ 11.519.11.4025, 2011-2013 гг. в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы»; «Разработка принципов и инновационных информационных технологий для взаимодействия пользователей с интеллектуальным пространством», ГК №14.740.11.0357, 2010-2012 гг.; «Разработка

методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем», ГК№ П2360, 20112013 гг. в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России на 2009-2013 гг.»; гранты Комитета по науке и высшей школе Правительства Санкт-Петербурга для студентов и аспирантов № 090472, 2009 г.; № 10578, 2010 г.; №12310, 2012 г.; гранты РФФИ № 10-08-00199-а, 2010-2012; № 12-07-31128-МОЛ_а, 2012-2013; Грант Президента РФ № 16.120.11.501-МД, 2011-2012.

Апробация результатов работы. Результаты диссертационного исследования представлялись на Международной конференции по компьютерной графике и зрению «GraphiCon» (Санкт-Петербург, 2010; Москва, 2011), Международной научно-технической конференции «Открытые семантические технологии проектирования интеллектуальных систем» OSTIS (Минск, 2011), Международной конференции «FRUCT» (Лаппеенранта, 2010; Петрозаводск, 2011), Международной конференции по Интеллектуальным пространствам «ruSMART» (Санкт-Петербург, 2010), Международном семинаре по многомодальным интерфейсам «eNTERFACE» (Амстердам, Нидерланды, 2010; Пльзень, Чешская республика, 2011); Конференции «Региональная информатика» (Санкт-Петербург, 2010); Международной конференции «Речь и Компьютер» SPECOM (Казань, 2011); XXIV Сессии Российского акустического общества (Саратов, 2011); Международной конференции GRAPP (Рим, 2012); Международной молодежной конференции «Информационные системы и технологии» (Москва, 2012).

Публикации. По материалам диссертации опубликованы 32 печатные работы, включая 9 публикаций в научных журналах, рекомендованных ВАК: «Автоматика и телемеханика», «Доклады ТУСУРа», «Автоматизация и современные технологии», «Труды СПИИРАН», «Информационно-измерительные и управляющие системы», (Journal on Multimodal User Interfaces»), получены 2 свидетельства о регистрации программ для ЭВМ и 1 патент на полезную модель в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.

Структура и объем работы. Диссертация объемом 158 машинописных страниц, содержит введение, четыре главы и заключение, список литературы (121 наименований), 14 таблиц, 23 рисунка, одно приложение с копиями актов внедрения.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована важность и актуальность темы диссертации, сформулированы цели диссертационной работы и решаемые задачи, определена научная новизна работы и ее практическая значимость, кратко описаны разработанные методы и алгоритмы.

В первой главе диссертации описаны базовые методы видеомониторинга помещения, приведен обзор существующих подходов и систем аудиовизуального протоколирования мероприятий, рассматриваются модели формирования профиля пользователя в интеллектуальном пространстве. В диссертационной работе используется ряд специальных терминов и определений, характерных для данной области исследований, в частности: 1) интеллектуальное пространство - это физическая среда со встроенными устройствами, обеспечивающая проактивное ненавязчивое персонифицированное обслуживание и информационную поддержку

находящихся в ней пользователей; 2) мониторинг - это процесс наблюдения за пользователями интеллектуального пространства с целью определения временных моментов изменения их положения и поведения, а также записи и анализа аудиовизуальных данных описывающих произошедшее события.

Проведен аналитический обзор методов записи мероприятий, проводимых в помещениях. В зависимости от назначения существует несколько типов систем автоматической видеозаписи: 1) видеонаблюдение; 2) запись совещания; 3) запись презентации; 4) документальная съемка. В ходе анализа были сформулированы требования к системам автоматизированной записи мероприятий. Во-первых, запись должна быть максимально ненавязчива для выступающих и слушателей. Во-вторых, запись и обработка должны происходить в режиме реального времени, чтобы информация о текущей обстановке в аудитории передавалась удаленным участникам с минимальной задержкой. В-третьих, запись должна содержать как минимум слайды презентации и реплики всех выступающих. В-четвертых, поскольку количество и состав участников мероприятия постоянно меняется и влияет на характер поведения выступающих и слушателей, то вид аудитории и находящихся в ней людей может помочь удаленным участникам сориентироваться в ходе проведения мероприятия. В-пятых, во время технических пауз в выступлении докладчика, можно выводить информацию о лекции, ее участниках, общий вид аудитории в мультимедийный отчет.

Также рассмотрены методы описания профиля пользователя, который должен обеспечивать персональный сервис для пользователей в интеллектуальном пространстве. В проанализированных методах профиль пользователя разделяют на две части: 1) статическая часть, к которой относится тип пользователя и его персональные данные; 2) динамическая часть, к которой относится поведение пользователя, например, интересы, предпочтения, активность, местоположение.

Обзор существующих систем аудиовизуальной обработки данных, применяемых в залах совещаний, показал, что на данный момент фактически не существует систем автоматизации процесса организации и проведения мероприятий, с использованием аудиовизуального анализа ситуации и поведения участников. Поэтому в диссертации предложены методы автоматизации процесса регистрации участников, а также методы аудиовизуального мониторинга помещения и определения ситуации с учетом предпочтений участников.

Вторая глава посвящена описанию предложенной соискателем функциональной модели мониторинга интеллектуального зала на основе распределенной обработки аудиовизуальных сигналов. При проведении мероприятий в интеллектуальном зале основной целью автоматической системы аудиовизуального мониторинга является определение ключевых моментов в ходе проведения мероприятия и накопление данных о них, используемых при создании мультимедийного отчета, включающего фотографии АР лиц присутствующих АР в зале и аудиовидеозаписи выступлений Лд. В процессе аудиовизуального мониторинга интеллектуального зала предложено использовать пространственно-временную структуризацию данных о поведении участников внутри анализируемого помещения. В частности, ключевыми моментами времени являются: обнаружение нового объекта (участника) в зале, определение занятого кресла (момента, когда незарегистрированный участник занял место в кресле), определение начала и конца выступления участника (основного докладчика

или участника, находящегося в кресле). При структуризации пространства интеллектуального зала в первую очередь вводятся зоны, различающиеся по функциям (типам поведения) находящихся в них участников, например: зона выступлений, зона входа/выхода, зона участников, сидящих за конференц-столом, зона участников, сидящих в установленных креслах.

Для управления программно-аппаратным комплексом аудиовизуального мониторинга и получения данных мультимедийного отчета <АР,АК > необходимо сформировать набор соответствующих управляющих команд С к оборудованию аудио- и видеозаписи в моменты времени, соответствующие появлению нового участника в зале, появлению незарегистрированного участника в кресле, начала реплики основного докладчика или участника из зала во время дискуссии. Накопленные в ходе проведения мероприятия данные о некотором присутствующем участнике АР применяются для формирования его профиля Ан, который в дальнейшем используется для прогнозирования его поведения на последующих мероприятиях и настройки модели управления аудиовидеозаписывающим и мультимедийным оборудованием интеллектуального зала.

Основываясь на описанных выше положениях, была предложена функциональная модель мониторинга интеллектуального зала на основе распределенной обработки аудиовизуальных сигналов, обеспечивающая формирование мультимедийного отчета и сбор персонифицированных данных для настройки профилей участников. Схема функциональной модели мониторинга представлена на рисунке 1. Сенсорное оснащение интеллектуального зала может быть разделено на две типа: основное, записывающее события во всем пространстве зала, и вспомогательное - для более детального анализа определенных зон интереса, выявленных с помощью основного оборудования.

В качестве сенсорного оборудования основного типа, применяемого в интеллектуальных залах, обычно используется потолочная панорамная камера Е„_с и массив микрофонов Ра г, при помощи которых ведется аудиовизуальный мониторинг. Вспомогательным оборудованием являются отдельный микрофон ^ т и камера с высоким разрешением обслуживающая различные зоны в зале; камера с

функциями наклона, поворота и масштабирования задействованная для

наведения на лица конкретных участников в зале и записи их выступлений; встроенные микрофоны персональных веб-камер, установленных на конференц-столе.

На рисунке 1 каждый из рассмотренных типов оборудования представлен в единственном экземпляре, необходимом для проектирования минимальной конфигурации функциональной модели мониторинга интеллектуального зала. С увеличением размера помещения, числа участников, числа зон наблюдения, требований предъявляемых к протоколированию проводимых мероприятий в предложенной модели допускается возможность масштабирования программно-аппаратных ресурсов, позволяющая настроить весь комплекс оборудования под конкретные условия эксплуатации.

Массив микрофонов Раг в ходе мониторинга производит многоканальную запись аудиосигнала Оа г, который далее используется для получения данных о

координатах источника звука в зале, начале Тр и конце Тр реплики основного

докладчика или участника из зала во время дискуссии посредством метода аудиолокализации источника звука и метода пространственно-спектрального анализа речевой активности М^ соответственно.

Потолочная панорамная камера выполняет запись видеосигнала с с видом всего пространства интеллектуального зала. Видеосигнал применяется для получения данных о местоположении участников в зале, а также данных о занятых креслах на основе метода определения местоположений и слежения за перемещением участников , а также и метода определения занятых кресел М^ соответственно.

Отдельный микрофон Ра т, относящийся к вспомогательному оборудованию, захватывает аудиосигнал Оа т из определенной зоны обслуживания с одним или несколькими участниками. По команде С™с производится сохранение речевого сигнала в файл, длительность которого равна промежутку времени между

началом и концом реплики говорящего участника с помощью функции записи

м;

їрН

Аудио вид ео-записывающее оборудование зала

Ъг

' а пі

Чгп-

-с?

Методы обработки аудиовизуальных данных

ідд

ГАТайвационноё I оборудование I_____зала.__

Метод многоканальной

аудиолокализации

'-

¡ОС

зрИ

Метод многоканального видеомониторинга

-АГ,

Метод синхронизации аудиовизуальных потоков

Базы данных

Метод автоматизации процесса г\гее регистрации участников_

Метод определения и слежения за _участниками_

ь-А

Метод анализа персональных аудиовизуальных данных об участниках

Метод вычисления характеристик _описания мероприятия_

ч-

Метод анализа состояния активационного оборудования зала

-А,

Л

ГЦ

д

м

ДІ

Рис. 1. Функциональная модель мониторинга интеллектуального зала на основе распределенной обработки аудиовизуальных сигналов

Камера р применяется для наведения и записи ситуации в определенной зоне или поведения конкретного участника. В проведенном исследовании камеры данного типа применялись для фотографирования участников и записи их выступлений. Команда С„ используется для наведения камеры Р„ р на лицо конкретного участника в зале, после чего захватывается видеосигнал 0„_р, в котором при помощи метода поиска лиц определяются кадры которые могут быть использованы в

качестве фотографий Ар лиц, входящих в состав мультимедийного отчета по мероприятию, присутствующих Ар. Также камера FVJ>, используется для записи выступлений участников мероприятия. По команде С£ес, сформированной ранее на основе применения метода M%ard, производится формирование команды для

■ ж analyse

наведения камеры на говорящего участника за счет метода Mav cor определения ближайшего видеообъекта к координатам источника звука и сохранение записываемого видеосигнала Dс помощью функции записи в файл,

длительность которого равна промежутку времени между началом Тр и концом Тр реплики участника.

Аудиоданные Dsap^ - участок речевого сигнала Dam, а видеоданные D*™ - участок видеосигнала DVJ> в интервале [Гр5,Грг], полученные в ходе обработки аудио- и видеосигналов, могут быть использованы при формировании аудиовидеозаписей выступлений AR, входящих в состав мультимедийного отчета по мероприятию, присутствующих Ар в зале на основе метода синхронизации и объединения аудио- и видеопотоков MZrh.

Данные Dq о текущем состоянии активационного оборудования (освещение, шторы и др.) Feqp, показанного в нижней части рисунка 1, анализируются с помощью метода М|£р, затем преобразуются в формат данных DE, удовлетворяющий один из методов аудиовизуальной обработки, которому необходимы данные о текущих параметрах Feqp. Помимо мультимедийного отчета мероприятия, включающего фотографии АР и выступления Лд, в ходе применения методов аудиовизуального мониторинга в структуре DP накапливаются данные об участниках мероприятия АР, включающие D- номера кресел, в которых они сидели, Dstat - их статус, Drole -роли на мероприятии, Dl°j. - речевую активность, D"cr - истории их перемещений.

Накопленные данные об участниках DP и оборудовании DE используются в методе Mstat для вычисления характеристик DMj прошедшего мероприятия М}, включающих длительность совещания, его этапы, количество сделанных докладов и другие параметры. Кроме того, данные Dp после применения метода анализа персональных аудиовизуальных характеристик приобретают идентификационный номер зарегистрированного в базе данных интеллектуального зала участника, преобразуются в DP id и далее совместно с DE и DM. пополняют базу данных

мероприятий Ан, проводимых в интеллектуальном зале.

При реализации предложенной функциональной модели мониторинга интеллектуального зала на основе распределенной обработки аудиовизуальных сигналов были использованы как существующие методы обработки цифровых данных, так и разработанные собственные оригинальные методы, в частности, метод регистрации участников мероприятий М^~гед, метод аудиовизуальной записи их выступлений Mf;-™\ Рассмотрим метод автоматизации процесса регистрации участников мероприятий M^rtfeB, где для обработки каждого элемента массива кресел последовательно подключаются три камеры, поэтому в нем может быть выделено 3 этапа, показанных на рисунке 2. Данный метод включает в себя совокупность методов обработки видеопотоков:

Kutoe° =< Mmt,Mhcr.e,Mh_comP.Mcut,Mf_dtc >

В методе определения занятых кресел Ai£hcr выполняется кадрирование области изображения Мси[, создание гистограмм распределения цветов Mh cre, сравнение гистограмм Mh comp.

Первый этап (Потолочная панорамная камера Caml) ( Начало )

Третий этап (PTZ камера СатЗ)

Рис. 2. Схема метода автоматизированной регистрации участников

В начале первого этапа считывается кадр с потолочной панорамной камеры Caml, после чего в цикле по количеству кресел, находящихся в зале, осуществляется кадрирование области кресла D™j с заранее определенными размерами и координатами из кадра гст видеосигнала Dv c при помощи метода Mcut. После чего при помощи метода Mh cre составляется гистограмма распределения цветов D^J.1 по полученной области кадра Dl°j. Далее при помощи метода Mh_comp осуществляется сравнение созданной гистограммы с заранее подготовленной эталонной

гистограммой D^tJemp для рассматриваемого кресла с вычислением коэффициента корреляции г:

^ _ М (ц - nlist w - nhist-temv\ - _

Г - Mh_comp{^ - Dv_c .H2 - Dv c )

где H'k(i) = Hk(i) - (-) (Zj нкф), где Q - количество ячеек гистограммы, к - порядковый номер сравниваемой гистограммы, i и j - номер строки и столбца гистограммы.

На втором этапе по окончании обработки всех элементов массива кресел с камеры высокого разрешения Саш4 считывается кадр, в котором с помощью метода

Mzpf

v_h производится поиск лиц участников в зонах возможного появления лица D^, соответствующих занятым креслам и формируется перечень номеров кресел Dв которых были найдены лица сидящих участников, а также набор управляющих команд С которые в дальнейшем используются в методе фотографирования M^jj для наведения камеры на лица участников.

Далее осуществляется наведение камеры СашЗ крупным планом на лицо каждого участника. После проверки наличия лица в кадре Dв многомодальную систему управления залом передается файл с фотографией участника и номер его кресла. Если лицо не найдено, номер кресла данного участника переходит в конец очереди незарегистрированных участников.

Третья глава описывает метод аудиовизуальной записи выступлений участников в интеллектуальном зале (ИЗ). При реализации данного метода М^"-Гес, показанного на рисунке 3, были разработаны и синхронизированы методы многоканального видеомониторинга и аудиолокализации:

MT>rerec .,юс MVad Msph мanalyse Mpre Msynch a_v ma_r>11 a_r , ma_m> Mavcor • Mv_p • ma_v >

Сначала в методе выполняется определение положения источника звука Dlar, а также выявление речевых сегментов в аудиосигнале и формирование управляющих команд Qec о начале Гр* и конце реплики при ПОМОЩИ методов Маг И соответственно. Далее эти данные применяются в методе записи аудиосоставляющей D*Pm реплики участника и методе АСсоГ

определения ближайшего объекта к координатам Dla°ß, по окончанию работы которого формируется управляющая команда для наведения камеры на активного диктора и записи видеосоставляющей его реплики.

После чего аудиовизуальные составляющие обрабатываются с помощью метода синхронизации потоков MsJ^cn и сохраняются в файл. Взаимодействие методов происходит на основе набора следующих событий: 1) запрос о проверке наличия участника в кресле, ближайшем к координатам выявленного источника звука (событие Е,)\ 2) получен положительный ответ от модуля определения участников о присутствии в данном кресле участника (событие Е2); 3) окончание записи речи участника и отправка сообщения с именем файла и его местоположением в метод многоканального видеомониторинга (событие Е3).

Полученные в процессе аудиовизуального мониторинга данные используются при формировании и обновлении профиля участников мероприятий. Структуру

Рис. 3. Метод аудиовизуальной записи выступлений участников

профиля, показанную на рисунке 4, можно разделить на две категории данных: введенные пользователем и автоматически накапливаемые. Последняя категория включает собираемые во время мероприятия данные об используемом клиентском устройстве, предпочитаемых участником сервисах и оборудовании зала, об его местоположении. Статистические данные по поведению участника на предшествующих мероприятиях хранятся в поле история.

| Данные профиля участника мероприятия "

Личные

ФИО

Пол

Возраст

Дэгарсиздения

Родной язык

Профессия

Область

интересов

Аудиовизуальные

Введенные пользователем |

I Дополнительные |

і__

Автоматически накапливаемые |

Номер

телефона

Адрес

Место работы Слуховые

Номер Речевые

телефона Зрительные

электронной Номерфакса о^ ленты . ^

Адрес двигательные

электронной почты Должность Звание

Пароль для учетной Ч^еная степень

записи пользователя ИЗ Ученая степень

Почтовый идентификационные ицдас характеристики п~__о -Имя учетной записи П04708"11 пользователя ИЗ ЗДР60

Контактные данные Служебные данные Физиологические особенности Клиентское устройство Предпочтения История

Сервисызапа Оборудование

Мобильное

Характеристики устройства Частота 33,13

использования Местоположение Цепи применения участника Стационарное Частота иотользования Цепи применения

Поведение участников на мероприятии

Рис. 4. Структура данных профиля участника мероприятия

В четвертой главе представлен комплекс программных средств аудиовизуального мониторинга совещаний, показанный на рисунке 5, в состав которого входят три подсистемы: 1) система управления интеллектуальным залом (СУИЗ); 2) многоканальная система аудиолокализации (МСА); 3) система видеомониторинга (СВ). Работа комплекса осуществляется на основе событий Е4 - Ею с использованием буферов памяти В] - В4: 1) полученные данные о координатах источника звука усредняются по трем массивам микрофонов и записываются в буфер 5ь 2) при изменении состояния оборудования обновляются данные в буфере В2; 3) буфер fi3 заполняется номерами кресел, которые заняты участниками; 4) данные о незарегистрированных участниках сохраняются в буфере В4; 5) при наличии источника звука генерируется событие Е4, запускающее процесс определения границ речи; 6) анализ данных об аудиоактивности в зале (событие Е5); 7) анализ данных о состоянии групп освещения (событие Е6); 8) регистрация участников, сидящих в зоне кресел, начинается после возникновения события £7; 9) событие Eg инициирует процесс наведения камеры СатЗ на активного диктора; 10) событие Ее, запускает процесс записи вида аудитории; 11) событие Е[а запускает процесс записи выступления докладчика.

В подсистеме СВ выделено пять режимов видеомониторинга: наблюдение, слежение за участниками, регистрация участников, выступление докладчика, дискуссия. В соответствии с выбранным режимом видеомониторинга запускается один из четырех подпроцессов (регистрация участника, видеосъемка выступающего в

зоне кресел, видеосъемка аудитории, видеосъемка основного докладчика) или их комбинация. Событие Е% инициирует процесс наведение PTZ камеры на активного диктора, находящегося в зоне кресел, и записывает его выступление. События Е9 и Ею запускают подпроцессы записи вида аудитории и выступления докладчика соответственно.

Многоканальная система аудиолокализации

Определение фа ниц речи

о. л

Е. ^

>» (О

I £

0) Ф

У I

Локализация источника звука

Менеджер сообщений

кзн

Распознавание голосовых команд

Управление оборудованием

' Аудиозапись выступления ^ участника

ь

Сегментация и

запись выступления участника

Система видео мониторинга

Обнаружение пица в занятом кресле

Видеосъемка выступающего 8 зоне кресел

е креї

Регистрация участника

Опрос состояния аудиоактивности в зале

Опрос состояния групп освещения в зале

(Видеозапись / Г~1 / /

выступления видеозапись /

участника \ \ аУД"т°РИ" \ I

Видеосъемка аудитории

I

Видеозапись аудитории

Обнаружение и слежение за объемами

Анализ зоны кресел

Выбор режима видеомониторинга

Видеосъемка основного докладчика

видеозапись выступления основного докладчика

Рис. 5. Архитектура комплекса программных средств аудиовизуального мониторинга совещаний

Регистрация участников, сидящих в зоне кресел, начинается после возникновения события Е-,. В результате анализа зоны кресел буфер Въ заполняется номерами кресел, которые заняты участниками. Если такие найдены, то запускается подпроцесс обнаружения лиц участников, сидящих в креслах. Данный этап необходим для дополнительной проверки наличия участников в креслах. После обработки всего буфера Вз данные о незарегистрированных участниках сохраняются в буфере В4. При возникновения события Е-, и наличии незарегистрированных участников запускается подпроцесс регистрации участников, в ходе которого выполняется наведение РТг камеры на лица участников и их фотографирование. В зависимости от режима видеомониторинга производится пассивная или активная регистрация. В первом случае по окончании регистрации сохраняется только фотография участника, а во втором - в диалоговом режиме участник сообщает свои основные персональные данные. Таким образом, в ходе активной регистрации сохраняется не только фотография, но и аудиозапись с речью участника, использующаяся в модуле биометрической идентификации.

В режиме выступления докладчика (событие Е10) инициируется еще один подпроцесс, отвечающий за наведение камеры и видеосъемку участника, находящегося в зоне выступлений. При возникновении аудиоактивности в зале СВ

переходит из режима выступления докладчика в режим дискуссии (событие Ея), в котором запускается подпроцесс видеосъемки выступающего в зоне кресел.

В таблице 1 приведены оценки работы системы видеомониторинга при регистрации участников. При проведении регистрации участников мероприятий в интеллектуальном зале было сделано 21584 фотографии. После экспертной оценки результатов работы системы были обнаружены 1749 фотографий, на которых лица участников отсутствовали или были определены ошибочно. Остальные фотографии были использованы для подсчета скорости и качества наведения видеокамеры.

Таблица 1. Оценка качества наведения камеры при фотографировании участников.

R, % D, % S, % A, Mpixels Т, с

Мин Макс Сред Мин Макс Сред Мин Макс Сред Мин Макс Сред Мин Макс Сред

24 73 29 0 36 9 6 55 1 10 0,03 0,23 0,05 0,03 49,75 1,3

Для оценки качества и скорости автоматического фотографирования вычислены относительная S и абсолютная А площади области лица в кадре, а также время регистрации (фотографирования) участника мероприятия Т, кроме того оценка также производилась по двум критериям: 1) точность наведения камеры на лицо; 2) размер полученной фотографии. С помощью алгоритма детекции лица на каждой стадии обработки вычислялось смещение D центра области лица от центра кадра.

На основании полученных данных можно сказать, что автоматическая регистрация не уступает по качеству и превосходит по скорости ручную регистрацию. Кроме того, присутствие оператора во время фотографирования отвлекает участников от хода мероприятия, а лица на фотографиях часто получаются излишне формальными. При автоматической регистрации фотографирование производится незаметно для участников, что позволяет повысить качество фотографий в эстетическом плане и дать возможность участнику сконцентрироваться на работе мероприятия.

Разработанный программный комплекс регулярно используется при проведении рабочих совещаний и лекционных занятий. По 16 мероприятиям была выполнена экспертная проверка результатов работы метода аудиовизуальной записи выступлений участников в интеллектуальном зале, который создал в автоматическом режиме 212 записей, из них 93% содержали реплики сидящих в зале участников.

Комплекс программных средств аудиовизуального мониторинга совещаний разработан на основе принципов объектно-ориентированного программирования на языке С++ с использованием методов открытых библиотек цифровой обработки аудиовизуальных данных OpenCV, AxisSDK, DirectShow SDK в операционной системе семейства Microsoft Windows. Предложенное математическое и программное обеспечение автоматизации аудиовизуального мониторинга участников мероприятий в интеллектуальном зале внедрено в ряде организаций, таких как СПб ГУП «ИАЦ», Минобранауки РФ, Университет Западной Богемии, СПИИРАН и используется в учебном процессе в СПбУУиЭ.

ЗАКЛЮЧЕНИЕ

Совокупность предложенных методов и программных средств аудиовизуального мониторинга участников мероприятий в интеллектуальном зале, а также их практическая реализация представляют собой решение актуальной научно-технической задачи поддержки проведения регламентированных мероприятий на основе автоматизации процессов управления мультимедийным, аудио- и видеозаписывающим оборудованием. При этом в ходе решения данной задачи были получены следующие результаты:

1. Функциональная модель мониторинга интеллектуального зала на основе распределенной обработки аудиовизуальных сигналов, использующая пространственно-временную структуризацию данных о поведении участников внутри анализируемого помещения, обеспечивающая накопление аудиовизуальных данных для формирования мультимедийного отчета и сбор персонифицированных данных для настройки профилей участников.

2. Метод автоматизации процесса регистрации и хода проведения мероприятия, отличающийся анализом профилей участников, включающих личные данные и историю их поведения в зале, для прогнозирования ситуации и настройки программно-аппаратных средств интеллектуального зала согласно их предпочтениям.

3. Метод аудиовизуальной записи выступлений докладчиков в интеллектуальном зале, основанный на применении бимодального подхода к определению активного диктора, обеспечивающий допустимое для восприятия человеком качество определения границ реплик выступающих и синхронность аудио- и видеопотоков при их распределенной записи и обработке.

4. Комплекс программных средств аудиовизуального мониторинга и определения ситуации в интеллектуальном зале, обеспечивающий обработку аудиовизуальных потоков данных от набора сетевых камер и массивов микрофонов для определения и слежения за перемещением участников, их регистрацию и запись выступлений в ходе мероприятия в интеллектуальном зале.

Полученные результаты соответствуют п.7 «Человеко-машинные интерфейсы, модели, методы, алгоритмы и программные средства машинной графики, визуализации, обработки изображений, систем виртуальной реальности, мультимедийного общения» и п. 8 «Модели и методы создания программ и программных средств для параллельной и распределенной обработки данных, языки и инструментальные средства параллельного программирования» паспорта специальности 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей» (редакция от 2011 года).

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

В рецензируемых журналах из списка ВАК:

1. Ронжин Ал.Л. Модели и программно-аппаратные решения автоматизированного управления интеллектуальным залом / Юсупов P.M., Ронжин А.Л., Прищепа М.В., Ронжин Ал.Л. // Автоматика и телемеханика. № 7. 2011. С. 39-49.

2. Ронжин Ал.Л. Формирование профиля пользователя на основе аудиовизуального анализа ситуации в интеллектуальном зале совещаний / Ронжин Ал.Л. Будков В.Ю., Ронжин Ан.Л. // Труды СПИИРАН. 2012. Вып. 23. С. 482-194.

3. Ронжин Ал.Л. Способы оценивания систем видеомониторинга ситуации в зале совещаний. // Информационно-измерительные и управляющие системы, №11, Т.9, 2011, С. 12-16.

4. Ронжин Ал.Л. Система аудиовизуального мониторинга участников совещания в интеллектуальном зале/ Ронжин Ал.Л., Ронжин Ан.Л. // Доклады ТУСУРа, № 1 (22), часть 1, 2011, С. 153-157.

5. Ронжин Ал.Л. Многомодальные ассистивные системы для интеллектуального жилого пространства / Карпов А.А., Акарун Л., Ронжин Ал.Л. // Труды СПИИРАН, Вып. 19, 2011, С. 48-64.

6. Ронжин Ал.Л. Способы оценивания систем аудиолокализации выступающих в зале совещаний // Труды СПИИРАН. Вып. 17, 2011, С. 101-113.

7. Ронжин Ал.Л. Технологии формирования аудиовизуального интерфейса системы телеконференций / Ронжин А.Л., Будков В.Ю., Ронжин Ал.Л. // Автоматизация и современные технологии. № 5. 2011, С. 20-26.

8. Ronzhin ALL. Models and Hardware-Software Solutions for Automatic Control of Intelligent Hall/ Yusupov R.M., Ronzhin An.L., Prischepa M.V., Ronzhin ALL. // Automation and Remote Control, Vol. 72, No. 7, 2011. pp. 1389-1397.

9. Ronzhin ALL. Automatic Fingersign to Speech Translation System / Hruz M., Campr P., Dikici E., Kindirouglu A., Krnoul Z., Ronzhin Al., Sak H., Schorno D., Akarun L., Aran O., Karpov A., Saraclar M., Zelezny M. // Journal on Multimodal User Interfaces, Springer, Vol. 4, No. 2, 2011, pp. 61-79.

В других изданиях:

10. Ronzhin ALL. Audiovisual Recording System for e-learaing Applications // In Proceedings of the International Conference on Computer Graphics Theory and Applications GRAPP'12, Rome, Italy, 2012. pp. 515-518.

И. Ронжин Ал.Л. Разработка системы интерактивного телевидения с многомодальным доступом / Прищепа М.В., Будков В.Ю., Ронжин Ал.Л. // Труды СПИИРАН. Вып. 12, 2010, С. 50-62.

12. Ronzhin ALL. Event-Driven Content Management System for Smart Meeting Room / Budkov V.Yu., Ronzhin ALL., Glazkov S., Ronzhin An.L. // NEW2AN/ruSMART 2011, LNCS 6869, 2011, pp. 550-560.

13. Ronzhin ALL. System of Audio-Visual Streams Recording and Synchronization for the Smart Meeting Room/ Ronzhin Al.L., Karpov A.A. // In Proceedings of the GraphiCon'2011. Moscow, Russia, 2011 pp. 157-160.

14. Ронжин Ал.Л. Система записи и синхронизации аудио-визуальных потоков для интеллектуального зала совещаний/ Ал.Л. Ронжин, А.А. Карпов // Научная визуализация, Т.З, №4, 2011, С.28-30

15. Ronzhin Al.L. Determination and Recording of Active Speaker in Meeting Room/ Ronzhin Al.L., Budkov V.Yu // In Proceedings of the 14-th International Conference SPECOM'2011, Kazan, 2011, pp. 361-366.

16. Ронжин Ал.Л. Технологическая платформа для веб-трансляции мероприятий из интеллектуального зала / Будков В.Ю., Ронжин Ал.Л. // Труды 4 всероссийской мультиконференции по проблемам управления (МКПУ 2011), Таганрог: ТТИ ЮФУ, 2011, С. 86-88.

17. Ронжин Ал.Л. Система записи выступлений участников совещания на основе аудиовизуального мониторинга интеллектуального зала/ Ронжин Ал.Л., Будков В.Ю. // Труды XXIV сессии Российского Акустического Общества, Саратов, Россия, 12-15 сентября 2011, Том 3, С. 55-59.

18. Ronzhin Al.L. An audiovisual system of monitoring of participants in the smart meeting room // In Proceedings of the 9th Conference of Open Innovations Framework Program FRUCT - Russia, Petrozavodsk, 2011, pp. 127-132.

19. Ronzhin Al.L. Web-system for mobile participant support/ Ronzhin ALL., Prischepa M.V., Budkov V.Yu. // In Proceedings of the 8th Conference of Open Innovations Framework Program FRUCT - Finland, Lappeenranta, 2010, pp. 154-159.

20. Ронжин Ал.Л. Распределенная система видеомониторинга для интеллектуального пространства/ Ронжин Ал.Л., Прищепа М.В., Будков В.Ю., Карпов А.А., Ронжин Ан.Л. // Труды 20 Международной Конференции по Компьютерной Графике и Зрению (Графикон 2010), Санкт-Петербург, Россия, 2010 С. 207-214.

21. Ronzhin Al.L. Automatic Fingersign to Speech Translator/ Campr P., Dikici E., HruzM., Kindiroglu A., Krnoul Z., Ronzhin AL, Sak H., Schorno D., Akarun L., Aran O., Karpov A., Saraclar M., Zelezny M. // In Proceedings of the 6-th Summer Workshop on Multimodal Interfaces eNTERFACE'2010, Amsterdam, The Netherlands 2010, pp. 69-82.

22. Ronzhin Al.L. A Video Monitoring Model with a Distributed Camera System for the Smart Space / Ronzhin ALL., Prischepa M.V., Karpov A.A. // NEW2AN/ruSMART 2010, LNCS 6294, 2010, pp. 102-110.

Свидетельства о регистрации ПрЭВМ и патенты

23. Свидетельство о государственной регистрации ПрЭВМ №2011613964 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 23 мая 2011 г.: Ронжин Ан.Л., Ронжин Ал.Л., Будков В.Ю. Программная реализация интеллектуального зала (ПРИЗ-1).

24. Свидетельство о государственной регистрации ПрЭВМ №2011616481 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 19 августа 2011 г.: Ронжин Ал.Л., Будков В.Ю. Модель профиля пользователя интеллектуального пространства.

25. Патент на полезную модель № 124017 от 10 января 2013 г.: Ронжин Ан.Л., Ронжин Ал.Л., Будков В.Ю., Прищепа М.В. Интеллектуальное пространство с многомодальным интерфейсом.

Подписано в печать 26.02.2013г. Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 1,0. Тираж 100 экз. Заказ № 2998.

Отпечатано в ООО «Издательство "ЛЕМА"» 199004, Россия, Санкт-Петербург, В.О., Средний пр.. д. 24 тел.: 323-30-50, тел./факс: 323-67-74 e-mail: izd_lema@mail.ru http://www.lemaprint.ru