автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.11, диссертация на тему:Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний

кандидата технических наук
Будков, Виктор Юрьевич
город
Санкт-Петербург
год
2013
специальность ВАК РФ
05.13.11
Диссертация по информатике, вычислительной технике и управлению на тему «Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний»

Автореферат диссертации по теме "Методы и программные средства аудиовизуальной обработки сигналов при сопровождении распределенных совещаний"

005061330

На правах рукописи

БУДКОВ Виктор Юрьевич

МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА АУДИОВИЗУАЛЬНОЙ ОБРАБОТКИ СИГНАЛОВ ПРИ СОПРОВОЖДЕНИИ РАСПРЕДЕЛЕННЫХ СОВЕЩАНИЙ

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

Санкт-Петербург 2013

б И:0М 20

005061330

Работа выполнена в Федеральном государственном бюджетном учреждении науки Санкт-Петербургском институте информатики и автоматизации Российской академии наук (СПИИРАН).

Научный руководитель: доктор технических наук,

доцент Ронжин Андрей Леонидович

Официальные оппоненты: доктор технических наук, профессор,

ведущий научный сотрудник лаборатории технологий и систем

программирования СПИИРАН Никифоров Виктор Викентьевич

доктор технических наук, профессор, профессор кафедры математического обеспечения и применения ЭВМ Федерального государственного бюджетного образовательного учреждения высшего профессионального образования Санкт-Петербургского государственного электротехнического университета

"ЛЭТИ" им. В.И. Ульянова (Ленина) Геппенер Владимир Владимирович

Ведущая организация:

федеральное государственное автономное образовательное учреждение высшего профессионального образования Санкт-Петербургский государственный университет аэрокосмического приборостроения.

Защита состоится «25» июня 2013 г. в 14.00 часов на заседании диссертационного совета Д.002.199.01 при Федеральном государственном бюджетном учреждении науки Санкт-Петербургском инсдануге информатики и автоматизации Российской академии наук/по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.

С диссертацией можно ознакомиться в библиотеке Федерального государственного бюджетного учреждения науки Санкт-Петербургского института информатики и автоматизации Российской академии наук

Автореферат разослан «24» мая 2013 г.

Ученый секретарь

диссертационного совета Д.002.199.01

К.Т.Н.

Нестерук Филипп Геннадьевич

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Организация совместной работы и обсуждений между территориально распределенными участниками с использованием мультимедийных Интернет-приложений и мобильных устройств становится реальной альтернативой традиционным совещаниям. Интернет-приложения для проведения телеконференций и дистанционного обучения Е-теейг^, Е-1есШге становятся всё более популярными при проведении распределенных мероприятий, вебинаров. Такие системы позволяют сэкономить на транспортных расходах, выбрать персонифицированную форму обучения, а также предоставляют удобные средства поиска и доступа к информации.

Современные системы связи и совместной работы не позволяют полностью автоматизировать процесс информационного сопровождения совещаний, поэтому большая часть работы по обслуживанию удаленных участников выполняется операторами-людьми. Кроме того, при проведении деловых встреч, заседаний, совещаний и других формальных мероприятий обязательной процедурой является протоколирование выступлений участников. Однако анализ и расшифровка аудиозаписей совещаний требует привлечения специалистов-стенографистов и. занимает длительное время. Методы анализа речи и идентификации дикторов могут использоваться при автоматизации процесса выделения реплик участников совещания. Одним из перспективных способов увеличения эффективности систем анализа речи является применение параметров, полученных на основе многоканального и многомодального анализа поведения участников в зале совещаний.

Другим ограничением систем телеконференций является пропускная способность коммуникационных сетей и мультимедийные возможности клиентского устройства, которые существенным образом влияют на параметры пользовательского интерфейса и выбор информационных каналов, доступных для удаленных участников. Поэтому актуальность разработки методов и программного обеспечения аудиовизуальной обработки сигналов при сопровождении распределенных совещаний, отличающихся применением средств автоматического анализа и оценки информационной значимости передаваемого контента и обеспечивающих передачу аудиовизуального потока данных для удаленного участника и уменьшение потребляемых ресурсов мобильным устройством, не вызывает сомнений.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка методов и программно-аппаратных средств автоматической обработки аудиовизуальных сигналов, повышающих возможности удаленного участника при принятии решений и участии в дискуссиях во время распределенных мероприятий, а также снижении затрат на подготовку мультимедийных отчетных материалов. Для достижения указанной цели в работе поставлены и решены следующие задачи:

1. Анализ современных методов и программных систем сопровождения распределенных совещаний.

2. Разработка информационной модели сопровождения участников совещаний.

3. Разработка метода формирования мультимедийного контента для вывода на устройство удаленного участника мероприятия.

4. Разработка метода диаризации речи дикторов для протоколирования выступлений участников совещаний.

5. Разработка архитектуры системы сопровождения участников распределенных совещаний и генерации отчетных материалов.

6. Разработка комплекса программных средств распределенной обработки мультимедийных данных для сопровождения распределенных мероприятий.

Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки сигналов, теории множеств, теории компьютерных сетей, распознавания образов, теории объектно-ориентированного проектирования и программирования.

Положения, выносимые на защиту:

1. Информационная модель сопровождения участников распределенных мероприятий описывает процесс обработки многоканального аудиовизуального контента, полученного встроенными средствами зала совещаний и клиентскими устройствами, и обеспечивает отбор информационных потоков, необходимых для трансляции удаленным участникам и подготовки отчетных материалов по результатам мероприятия.

2. Метод формирования текущего мультимедийного контента, использующий анализ информационной значимости аудиовизуальных потоков, обеспечивает подготовку данных для вывода на устройство удаленного участника с учетом его программно-аппаратных характеристик.

3. Метод диаризации речи дикторов, использующий расчет спектральных и временных характеристик голосового источника речевого сигнала и анализирующий паралингвистические фонационные явления, обеспечивает временную сегментацию отрезков речи, принадлежащих одному диктору.

4. Архитектура системы сопровождения распределенных мероприятий, включающая модули анализа состояния аудио-, видео- и презентационного оборудования, формирует мультимедийный контент веб-интерфейса, необходимый для восприятия удаленным участником текущей ситуации в зале, а также генерацию отчетных протоколов по проведенным мероприятиям.

5. Программный комплекс автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по протоколу МЯСРу2, обеспечивает поддержку функционирования кросс-платформенных речевых клиентских приложений.

Научная новизна работы состоит в следующем:

1. Предложена информационная модель сопровождения участников распределенных мероприятий, описывающая совместную работу средств автоматической обработки мультимедийных сигналов, записанных встроенными средствами зала совещаний и клиентскими устройствами, отличающаяся

применением упорядочивания информационных потоков, необходимых для восприятия текущей ситуации в зале удаленными участниками и подготовки отчетных материалов по заранее заданным шаблонам.

2. Разработан метод формирования текущего мультимедийного контента, отличающийся использованием событийной модели анализа информационной значимости аудиовизуальных потоков для компиляции данных, используемых при трансляции и архивировании результатов мероприятия.

3. Разработан метод диаризации речи дикторов, анализирующий спектральные и временные характеристики голосового источника речевого сигнала независимо от контекста и языка, отличающийся фильтрацией фонационных паралингвистических явлений на основе комбинированного анализа стационарности речевых сегментов, обеспечивающий временную сегментацию отрезков речи, принадлежащих одному диктору, позволяющий определить число выступающих и выделить их фразы в одноканальном аудиопотоке.

4. Разработана архитектура системы сопровождения распределенных мероприятий, учитывающая состояние аудио-, видео- и презентационного оборудования и формирующая необходимый для восприятия хода дискуссии и поддержания диалога мультимедийный контент веб-интерфейса, отличающаяся адаптивностью к характеристикам клиентского устройства и применением регулярно обновляемой реляционной базой данных мероприятий с персонифицированной информацией по участникам при генерации протоколов по проведенным мероприятиям, содержащих очередность выступлений, реплики и видеозаписи участников, а также другие статистические данные по событиям, автоматически накапливаемым в ходе совещания.

5. Разработан экспериментальный образец программного комплекса автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по стандартному протоколу МКСРу2, обеспечивающий обработку архивных аудиозаписей мероприятий, а также поддержку функционирования других кросс-платформенных приложений по распределению и управлению динамическими речевыми сервисами.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные методы и программные средства направлены на увеличение возможностей удаленного участника при принятии решений и участии в дискуссиях во время распределенных мероприятий. Применение адаптивного к устройству пользователя способа формирования веб-интерфейса позволяет транслировать совещания на различные программно-аппаратные платформы и составлять мультимедийные отчеты распределенных совещаний в режиме реального времени, значительно сократив время ручной обработки речевых записей. Разработка сети интеллектуальных залов позволит

организовать совещания для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал. Эффективное отображение информации и коллективное принятие решения - одни из главных достоинств ситуационных центров, поэтому разрабатываемые технологии информационного сопровождения телеконференций будут востребованы государственными министерствами и ведомствами, военными структурами, крупными корпорациями, общественно-политическими организациями, активно использующими ситуационные центры в своей работе.

Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: Министерства образования и науки РФ «Математическое и программное обеспечение автоматического анализа и распознавания разговорной русской речи и диаризации дикторов», ГК №07.514.11.4139, 2012-2013, «Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства», ГК№ 11.519.11.4025, 2011-2013 гг. в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы»; «Разработка принципов и инновационных информационных технологий для взаимодействия пользователей с интеллектуальным пространством», ГК №14.740.11.0357, 2010-2012 гг.; «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем», ГК№ П2360, 20112013 гг. в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России на 2009-2013 гг.»; грант РФФИ № 12-08-31520-МОЛ_а, 2012-2013; грант Президента РФ № 16.120.11.501-МД, 2011-2012. Разработанные методы, алгоритмы, программное обеспечение, а также технические решения были использованы при выполнении НИР с ОАО «Концерн «Океанприбор», а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного политехнического университета, Санкт-Петербургского государственного университета.

Апробация результатов работы. Результаты диссертационного исследования представлялись на международной конференции «РТШСТ» (Санкт-Петербург, 2010; Москва, 2011), международной конференции «Региональная информатика» (Санкт-Петербург, 2010; Санкт-Петербург, 2012); международной конференции ЮТМТ'Ю (Москва, 2010), всероссийской мультиконференции по проблемам управления МКПУ'11 (Дивноморск, 2011), международной конференции по интеллектуальным пространствам 1Е'12 (Гуанохуато, Мексика, 2012), всероссийской конференции «Информационные технологии в управлении» (ИТУ-2012), (Санкт-Петербург, 2012).

Публикации. По материалам диссертации опубликовано 36 печатных работ, включая 7 публикаций в научных журналах, рекомендованных ВАК: «Доклады ТУ СУР», «Известия ВУЗов. Приборостроение», «Вестник компьютерных и информационных технологий», «Информационно-управляющие системы», «Автоматизация и современные технологии», «Труды СПИИРАН», получены 4 свидетельства о регистрации программ для ЭВМ и 1 патент на полезную модель в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.

Стру1стура и объем работы. Диссертация объемом 145 машинописных страниц содержит введение, четыре главы и заключение, список литературы (125 наименований), 9 таблиц, 22 рисунка, 1 приложение с копиями актов внедрения. СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована важность и актуальность темы диссертации, сформулированы цели диссертационной работы и решаемые задачи, определена научная новизна работы и ее практическая значимость, кратко описаны разработанные методы и алгоритмы.

В первой главе диссертации описаны основные проблемы, возникающие при разработке систем сопровождения распределенных мероприятий. Сопровождение мероприятий включает в себя три основных этапа: 1) подготовка к совещанию, 2) запись и трансляция, 3) архивирование и анализ данных. На втором и третьем этапах для анализа многоканальных потоков мультимедийной информации, поступающей от распределенных участников мероприятия, требуется привлечение средств автоматической обработки данных. Причем более жесткие требования по времени обработки предъявляются при трансляции мероприятий, а архивирование и подготовка протокола мероприятия могут быть выполнены после завершения совещания.

Проведен сравнительный анализ существующих систем сопровождения веб-конференций по пяти типам характеристик: 1) входные модальности, используемые для анализа и записи поведения участников во время проведения веб-конференции; 2) основные типы выходных данных, которые могут быть использованы при взаимодействии с пользователем системы; 3) основные виды оборудования, которым оснащено помещение для проведения распределенных мероприятий; 4) сервисы обработки аудиовизуальных данных, записанных на мероприятии; 5) дополнительные возможности систем сопровождения веб-конференций. Проанализированные системы Webinar.ru, Cisco WebEx, Openmeetings, WebHuddle, Meetecho обладают широкими функциональными возможностями в области телекоммуникаций, однако вопросам автоматической обработки речи, анализа поведения участников во время диалога и другим требованиям, предъявляемым к информационным системам сопровождения распределенных мероприятий, уделено недостаточно внимания.

Протоколирование выступлений участников является обязательной процедурой при проведении деловых встреч, заседаний, совещаний и других формальных мероприятий. Современные методы анализа речи позволяют автоматизировать процесс выделения реплик участников совещания. Однако автоматическое распознавание разговорной речи остается на сегодняшний день одной из основных нерешенных проблем в области речевых технологий. Одним из возможных способов повышения точности распознавания речи является настройка дикторозависимых параметров системы автоматической обработки речи. Поэтому не менее важной задачей при обработке аудиозаписей выступлений является этап диаризации дикторов, обеспечивающий сегментацию реплик каждого диктора в одноканальном аудиосигнале и последующую группировку всех речевых фрагментов, относящихся к определенному диктору. В задаче диаризации дикторов, в отличие от задачи аутентификации, число дикторов, участвующих в дискуссии, заранее неизвестно, и

поэтому соответствующие модели дикторов необходимо создавать и обучать в процессе анализа речи.

Перспективным подходом к решению проблемы диаризации считается многоканальная обработка нескольких естественных модальностей, однако в ряде случаев, например, при телефонных переговорах использование средств видеоанализа будет недоступно при отсутствии соответствующих сенсоров в устройствах, задействованных в диалоге. Выполнена классификация методов регистрации данных диктора в зависимости от числа каналов, по которым поступают сигналы одного типа, по типу сенсоров, задействованных в мониторинге диалога на мероприятии, а также по числу типов применяемых сенсоров.

В качестве параметрического представления аудиосигнала обычно применяются уже хорошо зарекомендовавшие себя методы временного и спектрального анализа, а также их комбинации в едином векторе признаков. Наиболее часто используемыми признаками являются параметры, вычисляемые на основе метода MFCC (мел-частотные кепстральные коэффициенты) в ряде случаев вместе с первыми и/или вторыми производными. Также применяются другие типы признаков: кратковременная энергия сигнала, частота ноль-пересечений, частота основного тона, энергия спектра сегмента речи, распределение значений энергии спектра по полосам частот и коэффициенты перцептивного линейного предсказания, а также просодические характеристики, например, длительность фонем и пауз, темп речи. В многомодальных системах диаризации, использующих видеокамеры для слежения за выступающими, оценивается положение головы, изменение геометрии лица, его освещенности и другие параметры, позволяющие выявить текущего говорящего. Контактные методы оценки деятельности выступающих, например, по рукописному вводу на планшетном компьютере или сенсорной доске также исследуются в ряде работ.

Вторая глава посвящена описанию информационной модели сопровождения распределенных мероприятий и ряда методов обработки мультимедийных сигналов, применяемых при трансляции мероприятий и подготовке отчета. Для описания предложенной модели сопровождения мероприятий введем следующие обозначения. На подготовительном этапе формируются основные сведения по предстоящему мероприятию М = <ML, МР, Мп, МТе, Ми >, где ML - логотип мероприятия, МР -список презентаций, Мп - время начала мероприятия, МТе - время окончания мероприятия, Мц - множество участников, зарегистрированных на подготовительном этапе мероприятия, которое включает MUJnner - множество участников, которые будут располагаться в зале совещаний, и MUou,er - множество удаленных участников, которые будут подключаться к дискуссии через Интернет.

В ходе мероприятия производится формирование множества информационных потоков I от источников нескольких типов из множества ST={Svideo inner , Svldl!O OUIer ,

Saudiojnner t Saudio_outen ^projector » ^touchboard > ^event serverГДе Syideoinner , ^audio mner ВИДеОКаМерЫ

и микрофоны, установленные в зале, Svideo ouKr, Saud,a_r,u,er - видеокамеры и микрофоны, встроенные в клиентские устройства удаленных участников; SproJeclor - проектор, установленный в зале; S,ouch board - сенсорная панель для рукописных записей, установленная в зале; SevenlJerver - центральный сервер, выдающий информацию о мероприятии, собранную на подготовительном этапе, и формирующий управляющие

команды в ходе мероприятия. В зависимости от числа подключенных удаленных слушателей и оснащения зала на текущем мероприятии имеется N источников данных: {ShS2,...,S„...,SN}eST.

Каждый источник Si формирует информационный поток пакетов данных (I', I,2,..., //,..., 1,к), где К - число пакетов, полученных за время мероприятия. Каждый пакет содержит следующий набор параметров: //=<Д / th, te, w, S„ u> , где D -последовательность бинарных данных, /- формат данных из множества F, th - время начала записи данных, te - время окончания записи данных, w - частота дискретизации данных в пакете, S, - источник данных, и - некоторый участник из множества Ми, ассоциированный с текущим пакетом данных. В предложенной модели сопровождения мероприятий использовались следующие форматы данных: F = {PCM, AVI, M-JPEG, VP8, BMP, JPEG, PNG, PPT, DOCX, TXT, BIN, CFG}, где первые девять являются стандартными для аудио-, видеоданных, изображений, презентаций, текстовых документов, а последние три служат для внутренней передачи служебных данных и конфигурационных параметров в текстовом и бинарном виде.

Выбор информационных потоков, использующихся для передачи удаленным участникам, производится на основе событийной модели ситуации в зале. Множество событий включает следующие типы Е = {Ераг,Шрст,_ас„ ЕрагПс,ршиа1Ь Ераг„сфш1оШ,

Еremote [Kirtiapantacp Еremotepartie ¡pant talb Eremote participant_out> Eprojector act* Enewslitle, ^slide obsolete* Eprojector_ajf' Etouchboard act> Enew sj(ctcfl, Eskclth_<.ib\v/c:c, Etouchboard off}> ГДе Epartjcipant act ПОЯВЛеНИе

участника в зале, ЕраП!арип, ,aSk - появление выступающего участника в зале, ЕрапШрап, ои, - выход участника из зала, ас1 - появление удаленного участника

Eremote_part,c,pantjaik ~ появление выступающего удаленного участника, Espeaker ou, -отключение удаленного участника, Eprojeaor ac, - загрузка презентации, Ent,WJMe -появление нового слайда презентации, EsHds obsokte - истечение максимального времени показа нового слайда презентации, EprojK,or_off- отсутствие презентации, E,oul:hboard act -включение сенсорной доски, Eske,ch 0ь!0ше— появление новой записи на сенсорной доске, Esketch.obsolete - истечение максимального времени показа новой записи на сенсорной доске, E,ouchboard ojf- выключение сенсорной доски. Каждое событие содержит данные об источнике и времени наступления события.

Учитывая, что при выводе мультимедийного контента на устройство удаленного участника могут быть использованы встроенные средства вывода только аудио- и видеоданных, то во множестве ST можно выделить два подмножества, отвечающих за эти типы данных, соответственно: STaudto =<Saudi0 mner, Saud,a ouKr> и STvideo = <Svldeo ,nner, Sv,deo_outer, SproJec,on S„mch hoard, Sevenr serwr>. В результате анализа поступивших событий из множества Е в текущий момент времени может быть сформирован только один информационный поток из подмножества источников STaudia и выбрано несколько информационных потоков от источников из подмножества STvldeo. Число одновременно отображаемых графических информационных потоков зависит от возможностей клиентского устройства. На рисунке 1 показана схема метода формирования текущего мультимедийного контента на основе поступающих информационных потоков и анализа событий в зале совещаний.

Рис. 1. Схема метода формирования текущего мультимедийного контента.

На основе событий Е производится расчет информационной значимости W и сортировка пакетов I аудиовизуальных потоков от устройств, записывающих внутренних и внешних участников, проектора, сенсорной доски и сервера. Информационная значимость W каждого пакета / выбирается в зависимости от зарегистрированных событий, причем наличие аудиоактивности влияет на значимость аудио и видеопотоков:

2,Eparticipant_actAEparticipant_talk,

1, Eparticipant_act,

0, Eparticipant_out.

2, Eparticipant_act Л Eparticipant_talk

1, Eremote j>articipant_act, I 0, Eremote jparticipantjout 3, Enew_slide, 2, Eslide ^obsolete,

projector -1 iiEprojector_act,-0, Eprojector_off.

Wv

video outer = Î

. tvai

.wm

w,

w,

touch board -<

fl, Eparticipant_talk, ' " I 0, Eparticipant_sil.

Î1, Eremote jparticipantjtalk,

0, Eremote_participant_sil.

(3,Enew_sketch, 2, Esketch_obsolete,

1, Etouchboardjact,-0, Etouchboard_off.

На вход блока формирования клиентского контента поступают пакеты Р^тео, ¡""тлил,* представленные в виде списка, упорядоченного по убыванию IV, где с учетом характеристик устройства осуществляется компоновка мультимедийного

клиентского контента из множеств отобранных видео- и аудиопакетов СООТВеТСТВеННО: 0^5ТУ1£1ео ¿еу, С^КГАиАю ¡.V■ Параметры устройства содержат следующие

данные: Fdt

= <Fde

dev_resolution> * dev_connection_speed >

r>, где Fde

операционная система установленная на устройстве, FJev browser ~ использующиися браузер, Fdev гет1и„0„, - разрешение экрана. Характеристики Fdev os и Fdev brmt,ser отвечают за выбор формата передачи видеопотоков: VP8, M-JPEG, JPEG. За выбор качества видео и частоты обновления кадров отвечает характеристика Fdev comeaton speed■ На основе характеристики Fdev_reso!uito„ выбирается расположение и количество форм для вывода мультимедийного контента.

Например, в случае использования мобильного устройства с ограниченным размером экрана имеется возможность применить только одну форму для вывода видеоконтента, находящегося на первом месте в списке fsmdeo- Если разрешение экрана допускает размещение нескольких форм, то выводится подмножество видеопотоков, находящихся вверху списка Рsmdeo■ Было апробировано четыре варианта компоновок расположения форм, при этом компоновка для максимального разрешения экрана содержала формы для вывода: слайда презентации, рукописного наброска, видео с текущим выступающим, видео с удаленными участниками общего вида аудитории.

При формировании отчетной документации по мероприятию в зависимости от заданного сервером формата Frep = <Frepdala, Frep ¿£,м^„„,„„> производится генерация контента множеств (У*sri'ideo rep, sTAud¡o_repi где Frep c¡aía содержит список необходимых типов пакетов данных, отображаемых в отчете, a Frepdatajosmon ~ их расположение. При формировании отчета по мероприятию в оффлайн режиме накладываются менее жесткие требования по скорости обработки данных, поэтому могут быть привлечены средства автоматизированной обработки речи и текста. В частности, при формировании протокола мероприятия осуществляется разметка реплик каждого из участников. Для реализации этой задачи был разработан метод диаризации дикторов в одноканальном аудиопотоке, включающий два основных этапа: цифровую обработку аудиосигналов и диаризацию речевых сегментов дикторов (рис. 2).

Рис. 2. Основные этапы метода диаризации речи дикторов.

Используя заранее заданные в конфигурационных файлах СЛ/), параметры цифровой обработки сигнала и диаризации речи дикторов, по входному аудиофайлу с данными Ощина производится расчет спектральных и временных характеристик речевого сигнала 0/сашге, и выполняется разметка речевых сегментов 0,р<!еск 1ауаш. Затем на основе комбинированного анализа стационарности речевых сегментов 01реесИ 1ауош выделяются фонационные речевые артефакты Оытмогв_1ауш, , а также вычисляется отношение сигнал/шум Отг в обработанном сигнале. На этапе диаризации речи дикторов параметрическое представление только речевых фрагментов /еап

используется при идентификации диктора среди существующих моделей дикторов Охреакеп- Если диктор не идентифицирован или отсутствуют модели дикторов, параметрическое представление текущего речевого фрагмента применяется для обучения модели нового диктора на основе смесей гауссовых распределений. После определения диктора текущему речевому фрагменту присваивается номер модели его

диктора. Результатом диаризации является временная разметка речевых фрагментов по дикторам 01реакег:ауош, использующаяся далее для декодирования речи и составления отчетных материалов по мероприятию.

В третьей главе описаны алгоритмы и программные средства записи и сопровождения распределенных мероприятий. Разработанная архитектура системы сопровождения проведения распределенных мероприятий в интеллектуальном зале совещаний состоит из нескольких программных комплексов и сервера сопровождения мероприятий (рис 3). Первый комплекс - система управления мультимедийным оборудованием, которая объединяет модули, управляющие мультимедийными приложениями и оборудованием, служащим для записи поведения пользователей и отображения презентационных данных. Второй комплекс - многоканальная система обработки аудио- и видеопотоков с персональных веб-камер. Третий комплекс служит для хранения аудио- и видеоданных мероприятия. Четвертый комплекс представляет собой базу данных по прошедшим мероприятиям. Пятый комплекс - веб-система трансляции мероприятия, включающая модули для передачи мультимедийного контента удаленным участникам и формирования веб-страницы, получает отсортированные информационные потоки от сервера сопровождения мероприятий, отмеченный на рисунке 3 номером шесть, который также осуществляет контроль работы всех других модулей системы.

База данных мероприятия реализована с помощью СУБД MySQL и включает две таблицы: 1) основные сведения обо всех запланированных мероприятиях; 2) информация о текущем мероприятии. Веб-система трансляции мероприятия формирует веб-страницу, содержащую набор областей, в которые выводится визуальная информация: видео с участниками мероприятия, слайды, рукописные зарисовки. Выбор наиболее информативных потоков для отображения производится на сервере управления мероприятиями с помощью разработанного метода формирования текущего мультимедийного контента.

Рис. 3. Архитектура системы сопровождения распределенных мероприятий в интеллектуальном зале совещаний.

Программные модули системы были установлены на нескольких персональных компьютерах, объединенных в одну локальную сеть. Связь между модулями реализована на основе передачи строковых сообщений по 1ЮР протоколу. Работа системы, отвечающей за веб-трансляцию и ее модулей, зависит от ситуации в зале совещаний. Переключение режимов системы и синхронизации аудио- и видеоконтента зависит от поступающих сообщений от модулей аудиолокализации, видеомониторинга и модулей управления мультимедийными устройствами. Система управления контентом отвечает за выбор мультимедийных данных, доступных для удаленного участника совещания.

Для хранения и последующей обработки данных, получаемых от различных программно-аппаратных модулей, была разработана структура реляционной базы данных, основные таблицы которой в виде ЕЯ-диаграммы показаны на рисунке 4. Черная точка на конце связи между таблицами, обозначенная буквой Р, показывает отношение один ко многим. В таблице «Еуег^ейюп» хранится информация о секциях на проводимом мероприятии. В ней содержатся внешние ключи, ссылающиеся на мероприятие, расписание секции, расположение помещения, в котором проводится секция, ведущий данной секции, а также информация о начале и конце секции. Таблица «Еуе^РаЛюраг^» содержит информацию об участниках данной секции и внешние ключи, ссылающиеся на секцию, тип участия в мероприятии, а также презентационные данные и положение в списке выступлений.

D EventPartid pants т

? idE\entParlcpaits INTEGER ^ sectjonID INTEGER

partrapaionTypelD INTEGER О рарегЮ INTEGER О presentetJonID INTEGER О partdpantTO INTEGER > Poslon INTEGER

¥

PI

- I USiTSlJjtj

f idUser:Oata INTEGER О Email OH£R{2S5) «PosfonCHAR(2SS3 OdegreelD INT OtitylD INTEG® О companylD INTEGER

> Suianc CHAR(2S5) О PatronymicCHAR(255) О Name СНЖ{255)

> RemoteUger_changefieid INTEGER

—I LvcnCSKliexif las_DevK<>

.«i(£ventSect3ons INTEGER * idDeuce INTEGER

. IVPfl(St4lU»1S

? it£ventSectons INTEGER OSectanNameTEXT > eventlD INTEGER ';>eventScbecyeID INTEGER »locaBonlDlNTEGBi '■> sectsonChairmanlD INTEGER Ф sections tar fTime TtMESTAMP OSectranEndT!meTI№ST«"IP

Dcwir»>

t icD&acc INTEGSl О Name Q1AR(255)

О AudioData CHAR(255) О VideoData CHAR(25S) OlmageDataCHAR(255)

I

RnCOftil У1Ж5

'i idRecorrfT>pes INTEGER -STypeNaroe CHAR{2S5) vTypeDesolpion OfAR(Z55J

.. t writing

. idEventtog INTEGER OeuentSectionlD INTEGER О recordTypelD INTEGO? О RecnriData CH AR(2S5) О RecordSta-t CHARC255) ORerart&d CHARi2S5) OdevicelDINTEGSt О user® INTEGER

Рис. 4. ЕЯ-диаграмма данных мероприятий с персонифицированной информацией по участникам.

В таблицу «EventLog» заносятся записи о событиях, произошедших во время мероприятия, вместе с идентификатором устройства, которое сгенерировало данное событие. При наступлении какого-либо события в базу заносится запись, содержащая набор данных: тип события, его данные, устройство, от которого поступило событие, пользователь, который явился инициатором данного события. Таблица «Device» содержит информацию об устройствах и их возможностях по типам информации. Таблица «RecordTypes» содержит информацию о типах записей. После проведения мероприятия данные из таблицы «EventLog» позволяют сгенерировать мультимедийный отчет и получить доступ к материалам, записанным во время его проведения, с помощью системы архивации. Генерация материалов производится по заранее сформированным шаблонам отчетов, в которые заносятся аудиовизуальные, графические, текстовые данные и статистические данные по событиям, автоматически накапливаемым в ходе совещания.

В четвертой главе представлен программный комплекс автоматического анализа, распознавания и диаризации разговорной русской речи (ЭО ПАРАД-Р), в котором были реализованы разработанные методы, алгоритмы и программные модули. На рисунке 5 представлена архитектура программного комплекса ПАРАД-Р, построенная на основе трехуровневой архитектуры (клиентская часть, серверная часть, программно-математическое ядро). Клиентская и серверная части могут располагаться как на одном компьютере, так и на разных компьютерах и взаимодействовать по компьютерной сети. Информационный обмен между клиентской и серверной частью реализован с использованием протоколов MRCPv2 (Media Resource Control Protocol) и RTSP (Real-Time Streaming Protocol).

Стенд для исследования ЭО ПК ПАРАД-Р

Экспериментальный оврюец ПК ПАРАД-Р

Ядра ПК ПАРАД-Р

Модуль диаризации речи дикторов

Модуль цифровой обработки аудиосигналов

Модуль автоматического распознавания речи

Модуль построения языковых модели

Рис. 5. Архитектура программного комплекса ПАРАД-Р.

Серверная часть состоит из следующих программных модулей: серверное приложение - MRCP сервер; модуль ведения словарей; модуль построения языковых моделей; модуль оценки качества ПК. Каждый из этих модулей, кроме последнего, реализован в виде исполняемого файла, работающего под управлением ОС MS Windows XP/Vista/7. Помимо этих программных модулей, серверная часть также имеет связь с программно-математическим ядром ПК, в которое входят: программная библиотека цифровой обработки аудиосигналов; программная библиотека диаризации речи дикторов; программная библиотека автоматического распознавания речи. Каждый из этих модулей реализован в виде статической библиотеки, подключаемой к серверному приложению. При непосредственном участии соискателя были разработаны модули цифровой обработки аудиосигналов, диаризации речи дикторов и оценки качества ПК.

Экспериментальная проверка программного комплекса проводилась с использованием многодикторного речевого корпуса со следующими параметрами: 1)50 дикторов- носителей русского языка (25 женщин и 25 мужчин); 2) возраст дикторов от 16 до 60 лет; 3) отношение сигнал/шум выше 20 дБ; 4) текстовая часть корпуса содержит 327 фонетически сбалансированных осмысленных фраз на русском языке и 1140 орфографически и фонетически разнообразных слов; 5) всего корпус содержит 16350 фраз; 6) общий объем корпуса -13,5 Гб. Программный комплекс поддерживает обработку звуковых файлов WAV-формата, частотой дискретизации 8000 и 16000 Гц, разрядностью квантования 8 и 16 бит, типом кодирования А-закон, (i-закон и РСМ. Оценка качества функционирования разработанного комплекса была проведена по методикам, учитывающим метрики WER (Word Error Rate), LER (Letter Error Rate), SWER (Speaker Attributed Word Error Rate) и DER (Diarisation Error Rate). Результат обработки входных данных передается на клиентскую часть и записывается серверным приложением в локальный текстовый файл для дальнейшего анализа производительности комплекса. Пример результата обработки приведен ниже:

2013.3.29 16:39:35:400: MRCPCIient - Recognizing - File Name

.•D:\PARAD_test\sp009\Mic1\009_1_0a1_essv004.wav

2013.3.29 16:39:35:400: MRCPCIient - Recognizing - Received from ASR:

своей жизни уже принимал участие судебных процессов

2013.3.2916:39:35:400: MRCPCIient - Recognizing - Received from diarization:

своей(4) жизни(4) уже(4) принимал(4) участие(4) судебных(4) процессов(4)

2013.3.2916:39:35:400: MRCPCIient - Recognizing -

Real:

в своей жизни я уже принимал участие в судебных процессах 2013.3.2916:39:35:413: MRCPCIient - Recognizing - Result: WER = 40%; LER = 16%; DER = 0%; SWER = 40%; RT = 1; SNR = 17 Комплексная оценка SWER, равная в данном случае 40% включает ошибку распознавания речи (WER=40%) и диаризации дикторов (DER=0%). При тестировании всего речевого корпуса точность сегментации реплик разных дикторов была выше 85% (DER<15%) при использовании разработанного метода диаризации дикторов в одноканальном аудиопотоке.

ЗАКЛЮЧЕНИЕ

Совокупность предложенных методов и программных средств автоматической обработки аудиовизуальных потоков данных, а также их практическая реализация представляют собой решение актуальной научно-технической задачи информационного и технологического сопровождения распределенных мероприятий на основе анализа информационной значимости мультимедийных потоков, трансляции выбранного контента удаленным участникам и генерации отчетных материалов по результатам мероприятия, внедрение которых вносит значительный вклад в развитие страны. При решении данной задачи были получены следующие результаты:

1. Информационная модель сопровождения участников распределенных мероприятий, отличающаяся применением средств автоматической обработки мультимедийных сигналов с целью автоматизации процесса трансляции и подготовки отчетных материалов по результатам мероприятия.

2. Метод формирования текущего мультимедийного контента, использующий событийную модель анализа информационной значимости мультимедийных потоков при подготовке данных для трансляции удаленному участнику и отчетных материалов по мероприятия.

3. Метод диаризации речи дикторов, отличающийся анализом паралингвистических фонационных явлений, спектральных и временных характеристик голосового источника речевого сигнала независимо от контекста и языка, обеспечивающий временную сегментацию отрезков речи, принадлежащих одному диктору.

4. Архитектура системы сопровождения распределенных мероприятий, формирующая на основе анализа состояния аудио-, видео-, и презентационного оборудования мультимедийный контент, необходимый удаленному участнику для восприятия хода дискуссии, и применяющая персонифицированную базу данных мероприятий при подготовке отчетных материалов по заданным шаблонам.

5. Экспериментальный образец программного комплекса автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по стандартному протоколу МЯСРу2, применяющийся для разработки и поддержки функционирования кросс-платформенных приложений по распределению и управлению динамическими речевыми и многомодальными сервисами, в том числе по обработке архивных записей мероприятий.

Полученные результаты соответствуют п.7 «Человеко-машинные интерфейсы, модели, методы, алгоритмы и программные средства машинной графики, визуализации, обработки изображений, систем виртуальной реальности, мультимедийного общения» и п.8 «Модели и методы создания программ и программных средств для параллельной и распределенной обработки данных, языки и инструментальные средства параллельного программирования» паспорта специальности 05.13.11 - «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей».

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

В рецензируемых журналах из списка ВАК:

1. Будков, В.Ю. Методы и программные средства обработки мультимедийных данных при сопровождении распределенных совещаний // Доклады ТУСУР. -2013. -№1,- С. 50-54.

2. Будков, В.Ю. Разработка модельно-алгоритмического обеспечения управления распределенными модулями интеллектуального зала / М.В. Прищепа // Труды СПИИРАН. Вып. 23. 2012. С. 431-438.

3. Будков, В.Ю. Анализ современных методов и систем диаризации дикторов / AJI. Ронжин // Известия вузов. Приборостроение. № 11. 2012. С. 43-46.

4. Будков, В.Ю. Формирование профиля пользователя на основе аудиовизуального анализа ситуации в интеллектуальном зале совещаний / Ал.Л. Ронжин, Ан.Л. Ронжин //Труды СПИИРАН. Вып. 23. 2012. С. 482-494.

5. Будков, В.Ю. Технологии поддержки гибридных е-совещаний на основе методов аудиовизуальной обработки / А.Л. Ронжин // Вестник компьютерных и информационных технологий. № 4. 2011. С. 31-35.

6. Будков, В.Ю. Технологии формирования аудиовизуального интерфейса системы телеконференций / А.Л. Ронжин, Ал.Л. Ронжин // Автоматизация и современные технологии. № 5. 2011. С. 20-26.

7. Будков, В.Ю. Контекстно-осведомленная система управления оборудованием и веб-трансляции мероприятий из интеллектуального зала / М.В. Прищепа, С.В. Глазков // Вестник БГУ. Вып. 9. 2011. С. 75-82.

В других изданиях:

8. Budkov, V.Yu. Context-Aware Mobile Applications for Communication in Intelligent Environment / A.L. Ronzhin, A.I. Saveliev // Springer-Verlag Berlin Heidelberg, S. Andreev et al. (Eds.): NEW2AN/ruSMART 2012, LNCS 7469. 2012. pp. 307-315.

9. Будков, В.Ю. Анализ подходов к решению проблемы диаризации речи дикторов. / А.Л. Ронжин //Материалы конференции «Информационные технологии в управлении» (ИТУ-2012). - СПб.:ОАО «Концерн «ЦНИИ «Электроприбор», Санкт-Петербург, Россия, 9-11 октября 2012. 2012. С. 39-47.

10. Budkov, V.Yu. Audiovisual Speaker Localization in Medium Smart Meeting Room / An.L. Ronzhin, ALL. Ronzhin // In Proc. of the 8th International Conference on Information, Communications and Signal Processing ICICS-2011, Singapore, 2011.

11. Budkov, V.Yu. Event-Driven Content Management System for Smart Meeting Room / ALL. Ronzhin, S. Glazkov, An.L. Ronzhin // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2011. LNCS 6869, 2011. pp. 550-560.

12. Будков, В.Ю. Технологическая платформа для веб-трансляции мероприятий из интеллектуального зала / В.Ю. Будков, Ал.Л. Ронжин // Труды 4 всероссийской мультиконференции по проблемам управления (МКПУ 2011), Таганрог: ТТИ ЮФУ, 2011, С. 86-88.

13. Budkov, V.Yu. E-meeting Web-Interface Adaptive to Changing Context and Mobile Devices. / A.L. Ronzhin //In Proceedings of MMEDIA 2011, Budapest, Hungary. 2011. pp. 130-135.

14. Будков, В.Ю. Система протоколирования дикторов на базе алгоритма определения речевой активности в многоканальном аудиопотоке / A.JI. Ронжин // Речевые Технологии, № 3. 2010. С. 98-102.

15. Budkov, V.Yu. Multichannel System of Audio-Visual Support of Remote Mobile Participant at E-Meeting / A.L. Ronzhin, A. Karpov // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2010. LNCS 6294, 2010. pp. 62-71.

16. Будков, В.Ю. Система протоколирования дикторов на базе алгоритма определения речевой активности в многоканальном аудиопотоке / A.JI. Ронжин, В.Ю. Будков//Труды XXII сессии Российского Акустического Общества, Москва, 2010, Том 3, С. 77-81.

17. Будков, В.Ю. Разработка веб-системы для предоставления обучающих сервисов удаленным мобильным пользователям / Д. Ганбат, A.JI. Ронжин, Р. Найдандорж, М.В. Прищепа. // Труды СПИИРАН. Вып. 13, СПб.: Наука, 2010. С. 21-34.

18. Будков, В.Ю. Логико-временная модель формирования мультимедийного веб-интерфейса для проведения распределенных мероприятий / А.Л. Ронжин, В.Ю. Будков // Труды III Международной конференции «Инфокоммуникационные и вычислительные технологии и системы» ИКВТС-2010, Россия, 2010, С. 240-244.

19. Budkov, V.Yu. Multimodal Interaction with Intelligent Meeting Room Facilities from Inside and Outside / A.L. Ronzhin // Springer-Verlag Berlin Heidelberg/ S. Balandin et al. (Eds.): NEW2AN/ruSMART 2009, LNCS 5764, 2009/ pp. 77-88.

20. Budkov, V.Yu. Speech Activity and Speaker Novelty Detection Methods for Meeting Processing / Masahide Sugiyama, Konstantin Markov, Andrey Ronzhin, Alexey Karpov, Maria Prischepa // In Proc. Sensing and Acting in Ubiquitous Environments Workshop (SEACUBE'09). IEEE Xplore. 2009.

Свидетельства о регистрации ПрЭВМ и патенты

21. Патент на полезную модель № 124017 от 10 января 2013 г.: Ронжин Ан.Л., Ронжин Ал.Л., Будков В.Ю., Прищепа М.В. Интеллектуальное пространство с многомодальным интерфейсом.

22. Свидетельство о государственной регистрации ПрЭВМ №2013613087 от 25 марта 2013 г.: Карпов А.А., Кипяткова И.С., Ронжин Ан.Л., Будков В.Ю. Программный комплекс автоматического распознавания, анализа и диаризации русской речи (ПАРАД-Р).

23. Свидетельство о государственной регистрации ПрЭВМ №2013613012 от 20 марта 2013 г.: Будков В.Ю., Кипяткова И.С., Карпов А.А., Ронжин Ал.Л. Средства администрирования программного комплекса автоматического распознавания, анализа и диаризации русской речи (ПАРАД-Р-АДМИН).

24. Свидетельство о государственной регистрации ПрЭВМ №2011613964 от 23 мая 2011 г.: Ронжин Ан.Л., Ронжин Ал.Л., Будков В.Ю. Программная реализация интеллектуального зала (ПРИЗ-1).

25. Свидетельство о государственной регистрации ПрЭВМ №2011616481 от 19 августа 2011 г.: Ронжин Ал.Л., Будков В.Ю. Модель профиля пользователя интеллектуального пространства.

Автореферат диссертации

Будков Виктор Юрьевич

МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА АУДИОВИЗУАЛЬНОЙ ОБРАБОТКИ СИГНАЛОВ ПРИ СОПРОВОЖДЕНИИ РАСПРЕДЕЛЕННЫХ СОВЕЩАНИЙ

Текст автореферата размещен на сайтах: Высшей аттестационной комиссии Министерства образования и науки Российской Федерации http://vak2 .ed. gov.ru/catalogue Федерального государственного бюджетного учреждения науки Санкт-Петербургского института информатики и автоматизации Российской академии

наук (СПРИИРАН) http://www.spiiras.nw.ru/DissSovet/Templates/PhDSchedule.htm

Подписано в печать 21.05.2013г. Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Усл.печ.л. 1,0. Тираж 100 экз. Заказ №3101 Отпечатано в ООО «Издательство"ЛЕМА"» 199004, Россия, Санкт-Петербург, В.О., Средний пр., д. 24 тел.: 323-30-50, тел./факс: 323-67-74 e-mail: izd_lema@mail.ru http://www.lemaprint.ru

Текст работы Будков, Виктор Юрьевич, диссертация по теме Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук

На правах рукописи

04201358135

БУДКОВ Виктор Юрьевич

МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА АУДИОВИЗУАЛЬНОЙ ОБРАБОТКИ СИГНАЛОВ ПРИ СОПРОВОЖДЕНИИ РАСПРЕДЕЛЕННЫХ СОВЕЩАНИЙ

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель: д.т.н., доцент Ронжин А.Л.

Санкт-Петербург - 2013

Содержание

Введение............................................................................................................................................3

Положения, выносимые на защиту...........................................................................................10

Глава 1. Обзор подходов к решению проблем сопровождения распределенных мероприятий...................................................................................................................................11

1.1 Анализ основных проблем разработки систем сопровождения распределенных мероприятий.................................................................................................................................12

1.2 Анализ существующих программных платформ по удаленной обработке мультимедийных сигналов.........................................................................................................19

1.3 Методы предварительной обработки аудиосигналов........................................................27

1.4 Методы автоматической диаризации речи дикторов.........................................................40

1.5 Выводы по главе 1.................................................................................................................52

Глава 2. Методы и модели обработки мультимедийных данных при сопровождении мероприятий...................................................................................................................................54

2.1 Информационная модель сопровождения распределенных мероприятий......................54

2.2 Метод формирования мультимедийного контента............................................................57

2.3 Метод автоматической диаризации речи дикторов...........................................................70

2.4 Выводы по главе 2.................................................................................................................75

Глава 3. Технические и программные средства сопровождения распределенных мероприятий...................................................................................................................................77

3.1 Модель управления техническими средствами поддержки проведения мероприятий в интеллектуальном зале...............................................................................................................77

3.2 Архитектура системы сопровождения распределенных мероприятий............................83

3.3 База данных системы сопровождения распределенных мероприятий.............................94

3.4 Выводы по главе 3.................................................................................................................97

Глава 4. Комплекс программных средств распределенной обработки речевых данных98

4.1 Архитектура комплекса программных средств ПАРАД-Р................................................98

4.2 Программные модули комплекса ПАРАД-Р....................................................................104

4.3 Описание исследовательского стенда экспериментального образца ПАРАД-Р...........116

4.4 Выводы по главе 4................................................................................................................126

Заключение...................................................................................................................................128

Литература....................................................................................................................................130

Приложение А. Копии актов внедрения результатов диссертационной работы...........141

Введение

Актуальность темы диссертации. Организация совместной работы и обсуждений между территориально распределенными участниками с использованием мультимедийных Интернет-приложений и мобильных устройств становится реальной альтернативой традиционным совещаниям. Интернет-приложения для проведения телеконференций и дистанционного обучения Е-тееип§, Е-1есШге становятся всё более популярными при проведении распределенных мероприятий, вебинаров. Такие системы позволяют сэкономить на транспортных расходах, использовать персонифицированную форму обучения, а также предоставляют удобные средства поиска и доступа к информации.

Современные системы связи и совместной работы не позволяют полностью автоматизировать процесс информационного сопровождения совещаний, поэтому часть работы по обслуживанию удаленных участников выполняется операторами-людьми. Кроме того, при проведении деловых встреч, заседаний, совещаний и других формальных мероприятий обязательной процедурой является протоколирование выступлений участников. Однако анализ и расшифровка аудиозаписей совещаний требует привлечения специалистов-стенографистов и занимает длительное время. Методы анализа речи и идентификации дикторов могут использоваться для автоматизации процесса выделения реплик участников совещания. Одним из перспективных способов увеличения эффективности систем анализа речи является применение параметров, полученных на основе многоканального и многомодального анализа поведения участников в зале совещаний.

Другим ограничением систем телеконференций является пропускная способность коммуникационных сетей и мультимедийные возможности клиентского устройства, которые существенным образом влияют на параметры пользовательского интерфейса и выбор информационных каналов, доступных для удаленных участников. Поэтому актуальность разработки методов и

программного обеспечения аудиовизуальной обработки сигналов при сопровождении распределенных совещаний, отличающихся применением средств автоматического анализа и оценки информационной значимости передаваемого контента и обеспечивающих передачу только актуального аудиовизуального потока данных для удаленного участника и уменьшение потребляемых ресурсов мобильным устройством, не вызывает сомнений.

Цель работы и задачи исследования. Основной целыо диссертационной работы является разработка методов и программно-аппаратных средств автоматической обработки аудиовизуальных сигналов, повышающих возможности удаленного участника при участии в дискуссиях во время распределенных мероприятий, а также снижении затрат на подготовку мультимедийных отчетных материалов. Для достижения указанной цели в работе поставлены и решены следующие задачи:

1. Анализ современных методов и программных систем сопровождения распределенных совещаний.

2. Разработка информационной модели сопровождения участников совещаний.

3. Разработка метода формирования мультимедийного контента для вывода на устройство удаленного участника мероприятия.

4. Разработка метода диаризации речи дикторов для протоколирования выступлений участников совещаний.

5. Разработка архитектуры системы сопровождения участников распределенных совещаний и генерации отчетных материалов.

6. Разработка комплекса программных средств распределенной обработки мультимедийных данных для сопровождения распределенных мероприятий.

Методы исследования. Для решения поставленных задач в работе используются методы цифровой обработки сигналов, теории множеств, теории компьютерных сетей, распознавания образов, теории объектно-ориентированного проектирования и программирования.

Научная новизна работы состоит в следующем:

1. Предложена информационная модель сопровождения участников распределенных мероприятий, описывающая совместную работу средств автоматической обработки мультимедийных сигналов, записанных встроенными средствами зала совещаний и клиентскими устройствами, отличающаяся применением упорядочивания информационных потоков, необходимых для восприятия текущей ситуации в зале удаленными участниками и подготовки отчетных материалов по заранее заданным шаблонам.

2. Разработан метод формирования текущего мультимедийного контента, отличающийся использованием событийной модели анализа информационной значимости аудиовизуальных потоков для компиляции данных, используемых при трансляции и архивировании результатов мероприятия.

3. Разработан метод диаризации речи дикторов, анализирующий спектральные и временные характеристики голосового источника речевого сигнала независимо от контекста и языка, отличающийся фильтрацией фонационных паралингвистических явлений на основе комбинированного анализа стационарности речевых сегментов, обеспечивающий временную сегментацию отрезков речи, принадлежащих одному диктору, позволяющий определить число выступающих и выделить их фразы в одноканальном аудиопотоке.

4. Разработана архитектура системы сопровождения распределенных мероприятий, учитывающая состояние аудио-, видео- и презентационного оборудования и формирующая необходимый для восприятия хода дискуссии и поддержания диалога мультимедийный контент веб-интерфейса, отличающаяся адаптивностью к характеристикам клиентского устройства и применением регулярно обновляемой реляционной базой данных мероприятий с персонифицированной информацией по участникам, используемой при генерации протоколов по проведенным мероприятиям, содержащих очередность выступлений, реплики и видеозаписи участников, а также другие

статистические данные по событиям, автоматически накапливаемым в ходе совещания.

5. Разработан экспериментальный образец программного комплекса автоматического анализа, распознавания и диаризации разговорной русской речи, отличающийся многофункциональной системой пакетной обработки аудиосигналов с доступом по стандартному протоколу МЯСРу2, обеспечивающий обработку архивных аудиозаписей мероприятий, а также поддержку функционирования других кроссплатформенных приложений по распределению и управлению динамическими речевыми сервисами.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет анализа состояния исследований в данной области, согласованности теоретических выводов с результатами экспериментальной проверки моделей, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные методы и программные средства направлены на увеличение возможностей удаленного участника при принятии решений и участии в дискуссиях во время распределенных мероприятий. Применение адаптивного к устройству пользователя способа формирования веб-интерфейса позволяет транслировать совещания на различные программно-аппаратные платформы. Разработанная система сопровождения мероприятий дает возможность составлять мультимедийные отчеты распределенных совещаний, значительно сократив время ручной обработки речевых записей. Разработка сети интеллектуальных залов позволит организовать совещания для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал. Эффективное отображение информации и коллективное принятие решения -одни из главных достоинств ситуационных центров, поэтому разрабатываемые технологии информационного сопровождения телеконференций будут

востребованы государственными министерствами и ведомствами, военными структурами, круппьтми корпорациями, общественно-политическими организациями, активно использующими ситуационные центры в своей работе.

Реализация результатов работы. Исследования, отраженные в диссертации, проведены в рамках научно-исследовательских работ: Министерства образования и науки РФ «Математическое и программное обеспечение автоматического анализа и распознавания разговорной русской речи и диаризации дикторов», ГК №07.514.11.4139, 2012-2013, «Разработка математического и программного обеспечения ассистивного многомодального интеллектуального пространства», ГК№ 11.519.11.4025, 2011-2013 гг. в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы»; «Разработка принципов и инновационных информационных технологий для взаимодействия пользователей с интеллектуальным пространством», ГК №14.740.11.0357, 2010-2012 гг.; «Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем», ГК№ П2360, 2011-2013 гг. в рамках федеральной целевой программы «Научные и научно-педагогические кадры инновационной России на 2009-2013 гг.»; грант РФФИ № 12-08-31520-МОЛ_а, 2012-2013; грант Президента РФ № 16.120.11.501-МД, 2011-2012. Разработанные методы, алгоритмы, программное обеспечение, а также технические решения были использованы при выполнении МИР с ОАО «Концерн «Океанприбор», а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного политехнического университета, Санкт-Петербургского государственного университета.

Апробация результатов работы. Результаты диссертационного исследования представлялись на международной конференции «Р1ШСТ» (Санкт-Петербург, 2010; Москва, 2011), международной конференции «Региональная информатика» (Санкт-Петербург, 2010; Санкт-Петербург, 2012);

международной конференции ЮиМТ'Ю (Москва, 2010), всероссийской мультиконференции по проблемам управления МКПУ'11 (Дивноморск, 2011), международной конференции по интеллектуальным пространствам 1Е'12 (Гуанохуато, Мексика, 2012), всероссийской конференции «Информационные технологии в управлении» (ИТУ-2012), (Санкт-Петербург, 2012).

Публикации. По материалам диссертации опубликовано 36 печатных работ, включая 7 публикаций в научных журналах, рекомендованных ВАК: «Доклады ТУСУР», «Известия ВУЗов. Приборостроение», «Вестник компьютерных и информационных технологий», «Информационно-управляющие системы», «Автоматизация и современные технологии», «Труды СПИИРАН», получены 4 свидетельства о регистрации программ для ЭВМ и 1 патент на полезную модель в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам.

Структура и объем работы. Диссертация объемом 145 машинописных страниц содержит введение, четыре главы и заключение, список литературы (125 наименований), 9 таблиц, 22 рисунка, 1 приложение с копиями актов внедрения.

Основное содержание работы

В первой главе диссертации описаны основные проблемы, возникающие при разработке систем сопровождения распределенных мероприятий. Приведен сравнительный анализ существующих систем сопровождения веб-конференций. Описаны и классифицированы основные методы параметрического представления аудиосигнала и определения речевой или голосовой активности. Приведен обзор методов, применяемых для сегментации речевого сигнала и для автоматической диаризации речи дикторов.

Вторая глава посвящена описанию информационной модели сопровождения распределенных мероприятий и ряда методов обработки мультимедийных сигналов, применяемых при трансляции мероприятий и подготовке отчета. Также описан разработанный метод анализа и компоновки мультимедийных данных для удаленного участника. Описан метод диаризации

дикторов в одноканальном аудиопотоке, включающий два основных этапа: цифровую обработку аудиосигналов и диаризацию речевых сегментов дикторов. Приведен краткий обзор методов оценивания эффективности работы системы диаризации дикторов

В третьей главе описаны алгоритмы и программные средства записи и сопровождения распределенных мероприятий. Представлена функциональная модель управления работой распределенных модулей интеллектуального зала, где проводится мероприятие. Описана архитектура системы сопровождения распределенных мероприятий в интеллектуальном зале совещаний, а также структура реляционной базы данных мероприятий, содержащая таблицы, использующиеся для хранения и последующей обработки данных, получаемых от различных программно-аппаратных модулей.

В четвертой главе представлен комплекс программных средств распределенной обработки речевых данных. Описана общая архитектура комплекса автоматического анализа, распознавания и диаризации разговорной русской речи. Описаны программные модули цифровой обработки сигналов и диаризации дикторов. Описан исследовательский стенд экспериментального образца ПАРАД-Р. Приведены примеры работы стенда с результатами обработки данных.

Положения, выносимые на защиту

1. Информационная модель сопровождения участников распределенных мероприятий описывает процесс обработки многоканального аудиовизуального контента, полученного встроенными средствами зала совещаний и клиентскими устройствами, и обеспечивает отбор информационных потоков, необходимых для трансляции удаленным участникам и подготовки отчетных материалов по результатам мероприятия.

2. Метод формирования текущего мультимедийного контента, использующий анализ информационной значимости аудиовизуальных потоков, обеспечивает подготовку данных для вывода на устройств