автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Распознавание динамических жестов в системе компьютерного зрения на основе медиального представления формы изображений
Автореферат диссертации по теме "Распознавание динамических жестов в системе компьютерного зрения на основе медиального представления формы изображений"
На правах рукописи
Куракин Алексей Владимирович
Распознавание динамических жестов в системе компьютерного зрения на основе медиального представления формы изображений
05.13.17 - Теоретические основы информатики
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
2 9 НОЯ 2012
Москва - 2012
005055720
005055720
Работа выполнена на кафедре «Интеллектуальные системы» факультета управления и прикладной математики Московского физико-технического института (государственного университета).
Научный руководитель:
доктор технических наук, профессор Местецкий Леонид Моисеевич
Официальные оппоненты:
Чернов Владимир Михаилович, доктор физико-математических наук, ФГБОУ ВПО «Самарский государственный аэрокосмический университет имени академика С. П. Королёва (национальный исследовательский университет)», профессор кафедры геоинформатики и информационной безопасности;
Копылов Андрей Валериевич, кандидат технических наук, ФГБОУ ВПО «Тульский государственный университет», доцент кафедры автоматики и телемеханики.
Ведущая организация: Московский государственный университет имени М. В. Ломоносова, факультет ВМК.
Защита состоится < 21 » декабря 2012 г. в 10.00 часов на заседании диссертационного совета Д 212.215.07, созданного на базе федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Самарский государственный аэрокосмический университет имени академика С.П. Королева (национальный исследовательский университет)» (СГАУ), по адресу: 443086, г. Самара, Московское шоссе, д. 34.
С диссертацией можно ознакомиться в библиотеке СГАУ. Автореферат разослан « 20 » ноября 2012 г.
Ученый секретарь диссертационного совета,
д. т. н., профессор
Белоконов И.В.
Общая характеристика работы
Предмет исследования. Жестом называют телодвижение, преимущественно движение рукой, сопровождающее речь или имеющее значение какого-либо сигнала, знака1. Язык жестов в широком смысле бесконечно разнообразен как по форме жестов, так и по их семантике, поэтому полномасштабное распознавание языка жестов представляет собой сложную задачу даже для человеческого интеллекта. На современном уровне развития систем компьютерного зрения задача автоматического распознавания ставится обычно применительно к небольшому набору заранее определенных жестов.
В данном исследовании в качестве объекта, совершающего жест, рассматриваются кисти рук человека и тело человека. Под позой объекта понимается его форма и положение на отдельном изображении. А под жестом в данной работе понимается предопределенная последовательность поз, то есть предопределенное динамическое изменение формы н положения объекта в последовательности изображений. Задача распознавания жестов состоит в регистрации формы и положения объекта, регистрации межкадровых изменений формы и положения, и классификации последовательности этих изменений по нескольким предопределенным классам.
Актуальность темы. Жесты всегда были неотъемлемой частью взаимодействия людей между собой. Но жесты также являются удобным средством взаимодействия с компьютером во многих сценариях. Можно привести следующие примеры таких сценариев:
• управление развлекательными приложениями и системами;
• управление медицинским оборудованием при требованиях стерильности, которые можно удовлетворить за счет минимизации тактильного контакта между оператором и устройством;
• визуализация и моделирование сложных трехмерных данных, удобство работы с которыми ограничено при применении стандартных двухмерных манипуляторов, таких как компьютерная мышь;
• компьютерное распознавание языка глухонемых.
Руки и тело человека являются естественными манипуляторами и обладают большим числом степеней свободы, поэтому успешное решение задачи распознавания выполняемых
1 Академический словарь русского языка
ими жестов раскрывает перспективы для решения широкого круга прикладных задач.
В диссертации рассматривается задача распознавания жестов на основе информации, полученной с доступных визуальных сенсоров, таких как веб-камеры и камеры глубины.
В литературе рассматриваются различные методы решения задач распознавания отдельных классов жестов. В частности, достаточно много работ (Wang, Popovid, 2009; Van den Bergh, Van Gool, 2011; Ren et al., 2011; Gudmundsson et al., 2010; Suryanarayan et al., 2010), посвящены определению статической позы руки, при использовании RGB камеры в качестве сенсора. Но предлагаемые решения либо работают с простейшими одиночными жестами, либо обладают большой вычислительной сложностью, которая не позволяет использовать их в системах реального времени.
Появление сенсора Kinect в 2010 году, первой камеры глубины доступной широкой аудитории, открыло широкие возможности для создания систем распознавания жестов, что чрезвычайно повысило актуальность задачи распознавания жестов с использованием камеры глубины. А разработанное для Kinect программное обеспечение выполняет определения положений основных суставов тела человека (Shotton et al., 2011). Однако в нем отсутствует механизм распознавания динамических жестов, более того данное программное обеспечение является закрытым, и для воспроизведения лежащего в его основе метода требуется большая база данных всевозможных поз человека для обучения классификатора.
В целом, решение задач, связанных с распознаванием сложных динамических жестов находится на начальном уровне. А разнообразие жестов и способность человека к их пониманию столь велики, что проблема их распознавания с помощью компьютера будет оставаться актуальной долгое время.
Научная задача. Основная задача данной работы заключается в разработке метода классификации динамических жестов по видеопоследовательности на основе непрерывного медиального представления объекта, совершающего жесты. В качестве объектов, совершающих жесты, рассматриваются рука и тело человека. Сложность задачи определяется очень большим разнообразием жестов и вариантов их исполнения, что связано с большим числом степеней свободы рук и тела человека, разнообразием индивидуальных антропометрических и двигательных особенностей различных людей, требованием реального времени работы системы компьютерного зрения.
Выделение признаков затруднено из-за того, что объект нередко наблюдается с ок-
клюзиями (т.е. разные точки объекта проецируются в одну точку изображения), что приводит к невозможности оценки значений всех параметров, характеризующих позу объекта. Более того, так как в работе рассматриваются динамические жесты, их продолжительность во времени может быть различна как для разных жестов, так и для повторения одного и того же жеста. Это приводит к тому, что «эффективная» размерность признакового пространства, описывающего жесты, меняется как от жеста к жесту так и между повторениями одного и того же жеста.
Цель исследования. Целью диссертационного исследования является разработка новых методов распознавания поз и жестов по видеопоследовательности, полученной с веб-камер или камеры глубины, позволяющих существенно расширить класс решаемых в реальном времени задач распознавания жестов. Достижение цели повысит эффективность и расширит возможности современных систем компьютерного зрения и распознавания жестов.
Предлагаемый подход, В данной работе предлагается использовать непрерывное медиальное представление для генерации признаковых описаний отдельных кадров, на основе которых будет выполняться распознавание жестов. Совокупность признаковых описаний отдельных кадров образует траекторию жеста. Распознавание жестов предлагается выполнять с помощью метрического классификатора, за счет сравнения траекторий распознаваемых жестов с траекториями эталонных жестов.
Методы, основанные на непрерывном медиальном представлении2, дают информативное признаковое описание и обладают достаточной скоростью обработки. Однако подобные методы не использовались ранее для онлайн анализа видеопоследовательностей и распознавания динамических жестов, соответственно, их использование в рассматриваемой задаче требует научной проработки.
Результаты, выносимые на защиту.
1. Метод распознавания жестов, представленных видеопоследовательностями, основанный на выделении ключевых точек формы объектов в отдельных кадрах, построении динамических траекторий ключевых точек в последовательностях изображений и вычислении меры близости траекторий на основе выравнивания.
2. Метод генерации признаков пространственной формы объекта по изображениям или
2 Местецкий Л.М. Непрерывная морфология бинарных изображений: фигуры, скелеты, циркуляры.
Москва, Физматлит, 2009.
по карте глубины на основе непрерывного медиального представления плоских проекций объекта.
3. Метод связывания фрагментов границ в контуры, основанный на построении внешнего скелета исходных фрагментов границ.
4. Метод сегментации объекта за счет анализа противоположных частей его границ с помощью непрерывного скелета и радиальной функции.
5. Метод сравнения видеопоследовательностей, каждый кадр которых описан множеством ключевых точек, на основе выравнивания.
Научная новизна. Научная новизна работы определяется:
• обоснованием возможности использования непрерывного медиального представления для анализа поз и динамических жестов сложных пространственных объектов в реальном времени работы систем компьютерного зрения;
• разработкой оригинальной меры близости видеопоследовательностей, основанной на построении и использовании траекторий ключевых точек, получаемых по медиальным признаковым описаниям объектов;
• разработкой метода распознавания жестов по карте глубины с обучением по одному прецеденту.
Теоретическая и практическая значимость. Теоретическая значимость работы заключается в разработке и обоснование нового подхода в решении задачи восстановления формы трехмерного объекта в динамике в интересах распознавания жестов в системах компьютерного зрения, а также в разработке аппарата распознавания динамических жестов при переменной размерности признакового пространства.
Практическая значимость состоит в разработке методов распознавания жестов ладони и тела человека, работающих в реальном времени.
Достоверность результатов. Достоверность результатов диссертационной работы подтверждается корректностью постановок рассматриваемых задач исследования, применением математически обоснованных методов их решения, программной реализацией и вычислительными экспериментами, проведенными на реальных видеопоследовательностях с жестами рук и тела человека.
Апробация результатов исследования. Основные результаты диссертационного исследования докладывались на следующих конференциях: International conference on computer vision theory and applications (Виламора, Алгарве, Португалия, 2011); International Conference on Image Analysis and Recognition (Ванкувер, Канада, 2011); European Signal Processing Conference (Бухарест, Румыния, 2012); Bilateral Russian-Indian Workshop Emerging Applications of Computer Vision (Москва, 2011); 15-я Всероссийская конференция «Математические методы распознавания образов» (Петрозаводск, 2011); 9-я Международная конференция «Интеллектуализация обработки информации» (Будва, Черногория, 2012); 53-я научная конференция Московского физико-технического института (Долгопрудный, 2010); Конференция «Техническое зрение в системах управления-2011» (Москва, 2011).
Методы, разработанные и используемые в диссертации, были применены для участия в соревнованиях Hand Geometric Points Detection Competition 2011 и ChaLearn Gesture Challenge.
В рамках исследования была разработана система управления мышью и объектами на экране компьютера с помощью жестов рук. Примеры видео, демонстрирующих управление компьютером с помощью жестов, молено найти по ссылкам [11-14].
Основные результаты работы опубликованы в [1-10], в том числе в изданиях [1, 2], входящих в список ВАК.
Исследования по теме диссертации поддерживались РФФИ (проекты Л"Н1-01-00783-а, №11-07-00462-а).
Структура и объем диссертации. Диссертация состоит из введения, 4 глав основного содержания, заключения и библиографии. Работа содержит 108 страниц основного текста, включая 34 иллюстрации. Перечень библиографических источников включает 60 наименований.
Содержание работы
Во Введении обоснована актуальность темы диссертационной работы, сформулирована цель и аргументирована научная новизна исследования, показана практическая значимость полученных результатов, представлены выносимые на защиту научные положения.
В первой главе приводится постановка задачи, обзор литературы, по тематике задачи и структура предлагаемого в диссертации подхода.
© © © © © © ■у" - -
Рис. 1. Схема предлагаемого подхода.
В разделе 1.1 дается формальная постановка задачи распознавания жестов, рассматриваемая в диссертации.
В диссертации рассматривается метод распознавания динамических жестов, совершаемыми кистью и руками.
Произвольный жест С задается последовательностью изображений С? = (/1,..., /|с|) объекта, совершающего жест, где через обозначается количество кадров в жесте (7. Будем полагать, что имеется обучающая совокупность, заданная набором эталонных жестов вг,... На вход системы распознавания жестов подается видеопоследовательность
V = (7х,..., /„), содержащая один или несколько жестов, а задача состоит в определении количества жестов к входящих в видеопоследовательность V, номеров кадров начала ^ и окончания ej каждого из жестов, где } е {1,..., £}, а также индексов эталонных жестов ду, соответствующих каждому из жестов в видеопоследовательности. Дополнительно могут вычисляться количественные характеристики распознанных жестов такие, как общее перемещение объекта на протяжении жеста и координаты объекта и его частей в различные моменты времени.
В разделе 1.2 задача распознавания динамических жестов разбивается на подзадачу генерации признаков для отдельных кадров и подзадачу распознавания динамических последовательностей признаковых описаний. Для каждой из подзадач приводится обзор существующих методов их решений.
В разделе 1.3 приводится структура предлагаемого в диссертации подхода к решению задачи распознавания жестов. Она проиллюстрирована на рисунке 1 и состоит из шести этапов.
На первом этапе выполняется одновременное получение изображений с одной или нескольких камер, выполняющих съемку объекта. В работе используется одна ИСВ каме-
pa, стереопара из RGB камер, а так же сенсор глубины Microsoft Kinect.
На втором этапе выполняется сегментация полученных изображений с целью выделения силуэта искомого объекта. Конкретный метод сегментации зависит от типа используемых камер и особенностей выделяемого объекта. Для цветных камер используются традиционные методы, основанные на вычитание фона, а для камеры глубины были разработаны специальные методы сегментации объекта.
На третьем этапе выполняется построение непрерывного медиального представления силуэта изображения объекта — множества серединных осей, образованных центрами вписанных в силуэт кругов, и радиальной функции, определяемой радиусами этих кругов.
На четвертом этапе полученное медиальное представление объекта используется для генерации признакового описания каждого отдельного кадра. В качестве признаков выступают координаты частей объекта. Для жестов рук — это координаты кончиков пальцев, а для жестов, совершаемых телом — это координаты кистей рук.
На пятом этапе происходит межкадровая обработка полученных признаковых описаний с целью фильтрации выбросов, заполнения пропусков и уменьшения шумов.
На шестом этапе производится распознавание динамических жестов на основе полученных признаков.
Детально каждый из этапов описан в последующих главах диссертации.
Вторая глава посвящена методам извлечения признаков для отдельных кадров видеопоследовательности. Общая идея построения признакового описания отдельного кадра состоит в сегментации объекта, построении медиального представления силуэта объекта, выделении ключевых точек объекта на основе медиального представления, и использовании координат ключевых точек в качестве признакового описания.
В разделе 2.1 дается понятие непрерывного скелета и непрерывного медиального представления.
Для многоугольной фигуры F максимальным пустым кругом будем называть всякий круг В, полностью содержащийся внутри фигуры F, такой что любой другой круг В', содержащийся внутри фигуры F, не содержит в себе В, т. е. VB' С F, В' ^ В : В (JL В'.
Скелетом многоугольной фигуры F является множество центров ее максимальных пустых кругов. На скелете определена радиальная функция Л(х,у), которая ставит в соответствие каждой точке скелета (х, у) значение радиуса максимального пустого круга с центром в этой точке. Скелет совместно с радиальной функцией называют медиальным
Т^ГТШГГСГТГ^-
Рис. 2. Выделение тела человека по карте глубины: (а} исходный кадр; {6} движущиеся части, полученные за счет вычитания фона; края на карте глубины; сегментированное тело человека.
представлением объекта.
Скелет многоугольной фигуры можно рассматривать как геометрический граф — плоскую фигуру, состоящую из вершин —точек на плоскости и ребер —линий, соединяющих некоторые пары вершин. Степень вершин в таком графе равна 1, 2 или 3.
Для растровых силуэтов перед построением непрерывного скелета выполняется построение многоугольной аппроксимации силуэта.
Для анализа скелета и выделения ключевых точек на скелете в диссертации вводятся вспомогательные понятия ветви скелета и радиальной функции вдоль ветви скелета.
Пусть в(») : я(^) = {х(1),у(1)},1 € [О, Ь], — непрерывная кусочно-гладкая кривая без самопересечений и I является естественной параметризацией кривой (т. е. длиной дуги кривой). Пусть каждая точка кривой является одновременно и точкой скелета, а э(0) и в(Ь) совпадают с некоторыми вершиными скелета. В таком случае кривую соединяющую точки скелета в(0) и з(1<), будем называть ветвью скелета.
Для каждой точки скелета с координатами (г, у) известно значение радиальной функции Я(х,у), равное радиусу максимального пустого круга с центром в этой точке. Дополнительно для произвольной ветви скелета в(») будем рассматривать радиальную функцию вдоль ветви Л,(/) = Я(а(0), I £ [О, Ц.
Следует отметить, что использование эффективных алгоритмов для построения и анализа непрерывного скелета делает возможной реализацию всех описанных во второй главе алгоритмов в реальном времени.
В разделе 2.2 приводится разработанный в диссертации метод сегментации силуэта человека на карте глубины.
Рис. 3. Демонстрация сшивки краев: {а} карта глубины; (6)_ ребра выделенные оператором Canny; (в) ребра со сшитыми промежутками.
Идея метода проиллюстрирована на рисунке 2, и состоит в определении краев на карте глубины, сегментирующих все изображение на связные области, определении движущихся частей переднего плана, и определении области, содержащей наибольшее количество пикселей переднего плана.
При использовании такого подхода достаточно лишь небольшой части переднего плана для определения области, являющейся телом человека. Таким образом, выделение переднего плана можно производить за счет вычитания фона из текущего кадра, при этом точная модель фона не важна.
В силу того, что человек всегда ближе фона к камере, пиксели, соответствующие фону, будут иметь большую глубину на карте глубины. Соответственно, для накопления фона предлагается вычислять попиксельный максимум интенсивности для нескольких кадров с картой глубины. Более того, так как точная модель фона не нужна, достаточно лишь небольшого числа кадров для ее накопления, и, соответственно, метод работает в реальном времени с малой задержкой.
Для построения контуров объекта по карте глубины в работе предлагается использовать методы выделения края. Однако контуры, получаемые в результате применения стандартных алгоритмов обнаружения края на изображении, зачастую не являются замкнутыми и содержат разрывы (рис. 3). По этой причине возникает задача обработка выделенных краев с целью сшивки разрывов и получения замкнутых контуров.
В работе были выделены следующие критерии того, что пара пикселей U и V края должна быть соединена для устранения разрыва. Во-первых, длина UV меньше наперед заданного порога d. Во-вторых, для любых пикселей границы U' в окрестности (У, и V в
1 У ......—А...-------------- /Г к
I Нт* 1*ч-✓
/Ч 1 ..... \ /
(а) (б) (в) (г)
Рис. 4. Демонстрация работы метода заполнения разрывов в контуре, на примере разрыва, через который проходит ветвь скелета АВ {а}; увеличенное исходное изображение разрыва {б}; векторизованный контур бинарного изображения и построенный скелет (в); результат заполнения разрыва (г).
окрестности V должно выполняться: \и'У \ > \UV\- В-третьих, по обе стороны от отрезка иУ есть достаточное пространство (по площади порядка 0{\1/У\2)), свободное от границ. В-четвертых, сшивка всех дыр в контурах приводит к тому, что изображение распадется на компоненты связности, соответствующие фону и переднему плану.
Применение локальных методов сшивки (например, использование морфологических операций дилатации и эрозии) способно удовлетворить лишь первые три критерия. В работе был предложен метод сшивки, учитывающий общую топологию изображения, на основе использования непрерывного скелета.
Идея метода сшивки дыр состоит в построении внешнего скелета границ и анализа его ветвей, соединяющих пары вершин степени 3, с целью определения мест сшивки (рис. 4). Для каждой такой ветви скелета определяется точка, где радиальная функция скелета имеет минимум. Для соответствующего вписанного круга определяются его точки касания ^ и 12 с границей. Если НМгН < <2, т0 отрезок Мг автоматически удовлетворяет критериям 1-3, и считается кандидатом на сшивку. Для случая, когда прорисованы все разрывы, определяются две максимальные компоненты связности Сг и Сг, и выбирается минимальное подмножество из всех кандидатов на сшивку, которое приведет к разделению изображения на компоненты С\ и Сг-
В разделе 2.3 описывается метод генерации ключевых точек на основе скелета. Идея метода состоит в анализе геометрических характеристик ветвей, выходящих из висячих вершин скелета. Рассматриваются все ветви, соединяющие вершины степени 1 и
р
ш, ГШ
11 ж Щ -.........ш |
ш вшш
Рис. 5. Иллюстрация алгоритма детектирования пальцев: ветвь АВ — кандидат на то, чтобы быть пальцем; точка С — найденное место сочленения пальца и пясти.
3. Для каждой из таких ветвей выполняется ее классификация на классы 0 и 1. Висячие вершины, соответствующие ветвям класса 1, считаются ключевыми точками скелета. Для классификации ветвей скелета может быть использован эвристический классификатор или методы машинного обучения.
Для силуэта ладони в качестве ключевых точек рассматриваются кончики пальцев, а для выделения таких ключевых точек в работе используется следующий эвристический классификатор. Для каждой ветви-кандидата АВ сначала выполнялся поиск точки С — вероятного сочленения пальца и пясти (рис. 5), а затем выполняется классификация ветви, используя следующее эвристическое правило:
\АС\/\АВ\ > и г2 < ширина(АС) < ¿3 и \АВ\ > и
где ¿1, ¿а,¿з и ¿4 — параметры алгоритма, а ширина(ЛС) — среднее значение радиальной функции на ветви АС. Поиск точки С выполняется из тех соображений, что в ее окрестности начинается резкий рост ширины ветви, т.е. производная радиальной функции превосходит заданный порог.
Для поиска ключевых точек на силуэте тела человека предлагается построить признаковое описание ветви скелета, и далее использовать методы машинного обучения для классификации. Построение вектора признаков ветви скелета предлагается выполнять с использованием следующих величин, вычисленных в различных точках ветви:
1. г{1) — радиальная функция;
2. гм(1) — «метрическая» радиальная функция;
3. (Л) (a, b) = •^'д'" — среднее значение радиальной функции на [а, 6];
4. (R3d) (а, 6) = \Ja>dl ~~ среднее значение метрической радиальной функции на [а, Ь];
5. L—длина ветви скелета;
6. L3d = yj + + (^§г) «метрическая» длина ветви скелета.
Значение «метрической» радиальной функции и «метрической» длины ветви скелета вычисляются и используются, когда в качестве исходных изображений выступает карта глубины или стереопара. В таком случае, координаты точек ветви скелета можно перевести в трехмерные координаты, а каждому вписанному в силуэт кругу будет соответствовать сфера-прообраз в трехмерном пространстве. Длина получаемой трехмерной кривой будет «метрической» длиной ветви скелета, а радиусы сфер буду значениями «метрической» радиальной функции.
В качестве классификатора используется метод опорных векторов (Support Vector Machines, SVM). Для его обучения было вручную размечено порядка 250 изображений, из которых 70% формировали обучающую совокупность, а оставшиеся 30% — контрольную. SVM показал точность в 98% на контрольной выборке.
В разделе 2.4 описан метод сегментации объекта за счет анализа противоположных частей его границ.
Данный метод полезен в ситуации, когда сегментация всего объекта затруднительна или нежелательна (например, из-за большой вычислительной сложности), но есть возможность выделить движущиеся части объекта (рис. 6). В таком случае, выделенные движущиеся части содержат как функциональные части объекта (такие как руки), так и кромки краев больших регионов объекта (тела человека), которые вызваны небольшим смещением объекта как целого и обычно не несут полезной информации. Соответственно, задача состоит в выделении значимых частей объектов и отсеивании краев больших регионов.
Одним из отличительных критериев кромки большой области выступает то, что, если взять две противоположные точки границы кромки, то для одной из них значения производных карты глубины будут небольшими. А для регионов, представляющих интерес (таких как рука или ладонь), обе противоположные точки границы будут лежать в области сильного перепада глубины. Таким образом, выделение значимых частей объекта, представляющих интерес, можно выполнять за счет анализа противоположных границ
(а) (б) (в)
Рис. 6. Процесс анализа противоположных границ объекта за счет использования непрерывного скелета: (а} движущийся передний план (выделен черным); ¿5} установление соответствия между противоположными точками границы А и В на. основе использования непрерывного скелета; (в} ветвь скелета (белая), соответствующая части объекта, представляющей интерес.
движущихся частей объекта. Скелет является уникальным инструментом для анализа противоположных точек границы.
Обозначим область переднего плана, которую нужно проанализировать, через Р. Рассмотрим какой-либо максимальный вписанный в область ^ круг С, и пусть Т — {^>¿2} —пара точек касания круга С и границ области F. Для узких и вытянутых областей точки касания будут лежать на противоположных границах области. Соответственно, если все точки из множества Т будут принадлежать краю карты глубины, то круг С будет считаться «хорошим». Объединение всех «хороших» кругов соответствует регионам, представляющим интерес. Подобный анализ можно проводить за счет использования непрерывного скелета области ^ (рис. 66)
Третья глава посвящена используемым методам межкадровой обработки и уменьшения влияния шумов на признаковые описания отдельных кадров.
В разделе 3.1 рассматривается алгоритм межкадровой обработки в ситуации, когда в качестве ключевых точек выступают положения ладоней. Причем известно, что на каждом кадре присутствует ровно один человек, и, соответственно, не более двух ключевых точек-ладоней.
Обработка кадра в таком случае построена таким образом, что ложных отметок практически не возникает, но возникают пропуски в траекториях. Поэтому задача межкадровой обработки состоит в построении траекторий ключевых точек и восполнении пропусков в траекториях. Данная задача решается в два этапа.
На первом этапе выполняется прослеживание траекторий для известных положений рук. Алгоритм прослеживания основан на применении точечного трекинга к обнаруженным на каждом кадре положениям рук. При этом соответствие между координатами рук с предыдущего кадра х?"", г € 1,2 и координатами двух рук XI и Хг, найденными на текущем кадре, устанавливается за счет минимизации суммы расстояний ^¡=1 И*?™"-х^11> ГДе 31 Ф 32 и ¿¡^2 € {1, 2}. В случае пропуска, предыдущим положением руки х?"" считается последнее обнаруженное положение. В результате получаются одна или две траектории, которые могут содержать пропуски.
На втором этапе выполняется заполнение пропусков в траекториях рук за счет линейной интерполяции координат рук между кадрами, на которых координаты рук известны.
В разделе 3.2 рассматривается алгоритм межкадровой обработки в ситуации, когда в качестве ключевых точек выступают положения кончиков пальцев. При этом, требуется не только заполнять пропуски в траекториях, но также сглаживать траектории ключевых точек, с целью уменьшения шумов. Более того, на каждом кадре может присутствовать несколько (один или два) объектов-ладоней.
В таком случае, сначала методом точечного трекинга, аналогичным описанному выше, выполняется трекинг объектов-ладоней. Затем для каждой ладони вычисляются ее ориентация и положение центра, и координаты ключевых точек переводятся в относительную систему координат, связанную с ладонью. Координаты центра ладони вычисляются как координаты ее центра масс, а угол поворота, определяющий ориентацию, вычисляется на основе использования центральных моментов.
Трекинг ключевых точек производится в относительной системе координат, связанной с ладонью. Использование относительных координат кончиков пальцев необходимо, например, в ситуациях быстрого вращения ладони, так как в таком случае сопоставление абсолютных координат ключевых точек приводит к большому количеству ошибок из-за сильного абсолютного сдвига ключевых точек.
Для сглаживания траекторий ключевых точек применяется фильтр низких частот. При этом отдельно производится сглаживание координат и ориентации ладони, и отдельно сглаживаются относительные координаты ключевых точек.
Вычисленные относительные координаты ключевых точек переводятся назад в систему координат, связанную с изображением.
В четвертой главе рассматривается метод распознавания простых жестов на осно-
ве набора правил, метрика для сравнения траекторий жестов, используемая для распознавания сложных динамических жестов, и решаемые в диссертации практические задачи.
Для сегментации во времени (определение момента начала и окончания жеста) и распознавания сложных динамических жестов в диссертации предложен метод основанный на сравнении траекторий жестов (раздел 4.2).
Каждый жест G описывается видеопоследовательностью, которая преобразуется в последовательность признаковых описаний кадров (Fi,..., F|C|). Ее предлагается рассматривать как траекторию жеста, и выполнять распознавание жестов метрическими методами классификации такими, как метод ближайшего соседа, за счет введения меры близости между траекториями.
Мера близости траекторий V = (Fi,..., F|G|) и G' = (F{,..., F|'ö|) видеопоследовательности V и эталонного жеста G' вычисляется за счет установления соответствия между элементами обеих траекторий, и вычисления суммы мер близостей признаковых описаний соответствующих кадров.
Соответствие между элементами траекторий задается с помощью двух монотонных функций и(к) и v(k), при к = 1,... ,ш, так, что элемент F„(t) последовательности V соответствует элементу F^ последовательности G'. А мера сходства вычисляется как:
similarity{G, G') = £ min <i(F„(i), F^(Jt))
«(1) = 1 u(m) = |G|
u(k) < u(k + 1) < u(k) + 1 ^
«(1) = 1 v(m) = |G'|
v(k) < v(k + 1) < v(k) + 1 u(k + 1) > u(Jfc) \/v{k + 1) > v(k)
Для кадров F = (xi,..., x„) и F' = (x'i,..., x'm) мера близости <1(F, F') их признаковых описаний вычисляется по формуле:
n m
d(F, F') = ^mrnllxj - x}|| + - Xi|| + C\m - n|,
¡=i XJ i=l x'
где С — коэффициент штрафа за различие в количестве ключевых точек на кадрах.
Для определения оптимального момента начала и окончания жеста оптимизационная задача (1) решается, как задача со свободным концом, т.е. полагается, что концы распознаваемого жеста в видео V не фиксированы.
Для экспериментов с данным методом распознавания жестов использовалась база динамических жестов соревнования ChaLearn Gesture Challenge. Данная база состоит из набора независимых пакетов. Каждый из пакетов содержит по 10 обучающих жестов и 30-40 контрольных видео по несколько жестов в каждом.
Жесты в данной базе достаточно разнородны, и для экспериментов были отобраны пакеты, содержанию динамические жесты, совершаемые ладонями.
Критерий Q = (YliLi Levenshtein(ci,ti)) / (YliLi М) использовался для оценки качества распознавания жестов, где Cj — результат распознавания видео г, U — истинная последовательность жестов в видео г, Levenshtein(ci, ¿¡) — расстояние Левенштейна между последовательностями с< и tit a N — количество видео.
Дополнительно, для оценки качества сегментации жестов во времени, вычислялась Qvideocs — доля видео для которых все жесты были сегментированы корректно, и доля корректно сегментированных жестов Qs = 1 — ~~
Пакет Q QvideoCS Qs
develOl 0,0G7 89% (33 из 37) 0,96
devel02 0,23 83% (30 из 36) 0,93
devel04 0,23 65% (24 из 37) 0,84
devel07 0,15 92% (35 из 38) 0,97
Всего 0,17 82% (122 из 148) 0,92
Таблица 1. Результаты экспериментов на отобранных пакетах.
Результаты экспериментов приведены в таблице 1. Они показали, что доля ошибок распознавания жестов на отобранных пакетах составляет порядка 0,07 - 0,23, что сопоставимо с результатами современных систем распознавания. Качество сегментации жестов во времени также высокое, и доля верно сегментированных видео достигает 92%.
В разделе 4.1 рассматривается практическая задача, которая заключается в создании аппаратно-программного комплекса для управления компьютером с помощью жестов рук. Жесты воспринимаются RGB камерами или камерой глубины, распознаются программным обеспечением и используются для управления курсором мыши, а также для
(«) [б) (в) М
Рис. 7. Пример используемых жестов.
манипуляций объектами на экране компьютера.
Для управления компьютером требуется небольшое число простых жестов. Выбранный в работе набор жестов включает жесты, отличающиеся друг от друга количеством видимых пальцев; сжатую в кулак ладонь; и жест-кольцо из большого и указательного пальца. Примеры рассматриваемых жестов изображены на рисунке 7. При этом координаты и величину перемещения ладони и кончиков пальцев предлагается использовать для определения координат курсора, направления и расстояния перемещения объекта.
Так как координатами ключевых точек являются координаты кончиков пальцев, то распознавание описанного набора жестов выполняется просто за счет подсчета количества видимых пальцев.
Для экспериментальной проверки и демонстрации данного метода распознавания жестов были разработаны аппаратно-программные комплексы, выполняющие управление компьютером за счет распознавания жестов.
В одном из них используется одна или две веб-камеры, закрепленные над однородной темной поверхностью. Однородная темная поверхность служит для упрощения задачи сегментации ладони на цветном изображении. Описанные выше жесты используются для управления объектами на экране компьютера [11, 12].
Благодаря эффективным алгоритмам построения и стрижки скелета, описанные комплексы работают в реальном времени. Например, однопоточной реализации алгоритма распознавания жестов требуется около 22 мс на полную обработку одного кадра размером 640 х 480 точек на компьютере 2.4 ГГц Intel Core 2 Quad CPU. Это дает возможность обрабатывать все кадры видеопоследовательности, получаемой с веб-камеры.
Во втором программно-аппаратном комплексе в качестве сенсора используется камера глубины Microsoft Kinect. Использование камеры глубины позволяет упростить сегментацию объекта, использовать произвольный фон и позволяет определять трехмерные координаты объекта и ключевых точек.
Как и в предыдущем случае, программное обеспечение данного комплекса позволяет управлять объектами на экране компьютера с помощью жестов рук [13]. Также оно позволяет управлять курсором мыши с помощью рук [14].
В разделе 4.3 приводиться анализ вычислительной сложности подхода в целом, который показал, что вычислительная сложность обработки отдельного кадра будет равна O(S) + 0{пlog п) + 0(к2), где S — площадь кадра в пикселях, п — число вершин в многоугольниках, используемых для построения скелета, к — число ключевых точек на отдельном кадре (в практических задачах имеет порядок 2-10). А вычислительная сложность распознавания жестов методом динамического программирования равна 0(ak2m2N), где N — количество эталонных жестов, т — количество кадров в эталонном видео, а максимально допустимая степень растяжения и сжатия жестов (на практике не более 3). В Заключении перечислены основные результаты работы:
1. Для решения задачи распознавания динамических жестов в диссертации предложен и обоснован подход, в основе которого лежит использование медиального представления объекта для выделения признаковых описаний.
2. Разработан метод построения признакового описания отдельного кадра, за счет выделения ключевых точек с помощью медиального представления и использования их координат в качестве признаков кадра.
3. Разработан метод сшивки краев на изображении, использующий непрерывный скелет и учитывающий общую морфологию изображения, с целью получения замкнутых контуров.
4. Разработан эффективный метод анализа противоположных границ объекта и установления соответствия между противоположными точками границ на основе использования непрерывного скелета.
5. Разработан метод сравнения динамических видеопоследовательностей, кадры которых описаны множествами ключевых точек.
6. Выполнено теоретическое обоснование корректности и вычислительной эффективности разработанных методов и алгоритмов.
7. Работоспособность и состоятельность предлагаемых методов обоснована вычислительными экспериментами и созданными программно-аппаратными комплексами для распознавания жестов.
Список публикаций
Статьи в изданиях, входящих в перечень ВАК:
1. Куракин, А. В. Распознавание жестов ладони в реальном времени на основе плоских и пространственных скелетных моделей [Текст] / А. В. Куракин // Информатика и ее применения. - 2012. - Т. 6, № 1. - С. 114-121.
2. Mestetskiy, L. Hand geometry analysis by continuous skeletons [Text] / L. Mestetskiy, I. Bakina, A. Kurakin // Image Analysis and Recognition / Ed. by M. Kamel, A. Campilho. — Springer Berlin / Heidelberg, 2011,— Vol. 6754 of Lecture Notes in Computer Science. — Pp. 130-139.
Публикации в других изданиях:
3. Kurakin, A. A real time system for dynamic hand gesture recognition with a depth sensor [Text] / A. Kurakin, Z. Zhang, Z. Liu // EUSIPCO-2012: Proceedings of the 20th European Signal Processing Conference. — 2012. — Pp. 1975-1979.
4. Kurakin, A. Hand gesture recognition through on-line skeletonization, application of continuous skeleton to real-time shape analysis [Text] / A. Kurakin, L. Mestetskiy // VISAPP 2011: Proceedings of the 6th International Conference on Computer Vision Theory and Applications. - INSTICC Press, 2011.- Pp. 555-560.
5. Mestetskiy, L. Pose and gesture recognition using stereo images and video sequences [Text] / L. Mestetskiy, A. Kurakin, A. Tsiskaridze // Proceedings of Bilateral Russian-Indian Workshop Emerging Applications of Computer Vision (EACV-2011).— MAKS Press, 2011.- Pp. 209-215.
6. Куракин, А. В. Распознавание жестов ладони с помощью непрерывного скелета [Текст] / А. В. Куракин // Труды 15-й всероссийской конференции «Математические методы распознавания образов», — Москва: МАКС Пресс, 2011.— С. 428-431.
7. Куракин, А. В. Использование непрерывного скелета для соединения дыр в контурах на примере сегментации тела человека на карте глубины [Текст] / А. В. Куракин, Л. М. Местецкий // Труды 9-й международной конференции «Интеллектуализация обработки информации». — Москва: МАКС Пресс, 2012. — С. 430-432.
8. Куракин, А. В. Генерация признаков с помощью непрерывного скелета на примере задачи выделения рук на силуэте человека [Текст] / А. В. Куракин, Л. М. Местецкий // Труды 9-й международной конференции «Интеллектуализация обработки информации». - Москва: МАКС Пресс, 2012,- С. 433-436.
9. Куракин, А. В. Распознавание двух- и трехмерных жестов ладони на основе анализа скелетного представления ее силуэта [Текст] / А. В. Куракин, Л. М. Местецкий // Тезисы докладов конференции 'Техническое зрение в системах управления 2011".— 2011.
10. Куракин, А. В. Распознавание жестов ладони на основе анализа скелетного представления силуэта ладони [Текст] / А. В. Куракин, Л. М. Местецкий // Труды 53 научной конференции МФТИ. — 2010.
11. Демонстрация программного комплекса для распознавания жестов руки с одной камерой [Электронный ресурс] / http://youtu.be/eYksnVGt6mo.
12. Демонстрация использования стререопары для определения трехмерных координат ключевых точек [Электронный ресурс] / http://youtu.be/ECAKTw3GBnM.
13. Демонстрация распознавания открытой и сжатой ладони, с использованием сенсора Ктес1 [Электронный ресурс] / http://youtu.be/antSNObQBjg.
14. Демонстрация использования руки для управлением курсором мыши [Электронный ресурс] / http://youtu.be/rljffsDcDH.
Подписано в печать:
19.11.2012
Заказ № 7874 Тираж -100 экз. Печать трафаретная. Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш., 36 (499) 788-78-56 www.autoreferat.ru
Оглавление автор диссертации — кандидата технических наук Куракин, Алексей Владимирович
Введение
Глава 1. Постановка задачи. Обзор существующих методов. Структура предлагаемого подхода.
1.1. Постановка задачи распознавания жестов
1.2. Обзор существующих методов.
1.2.1. Обзор методов классификации динамических последовательностей
1.2.2. Генерация признаков для распознавания жестов
1.3. Структура предлагаемого подхода.
1.3.1. Получение и сегментация исходного видео.
1.3.2. Генерация признаков на отдельном кадре.
1.3.3. Межкадровая фильтрация признаковых описаний . 24'
1.3.4. Распознавание жестов.
1.4. Выводы главы 1.
Глава 2. Генерация признаков на основе медиального представления формы объектов.
2.1. Непрерывный скелет
2.1.1. Понятие скелета.
2.1.2. Ветвь скелета и ее свойства.
2.2. Сегментация тела человека по карте глубины.
2.2.1. Построение контуров.
2.3. Выделение ключевых точек по скелету.
2.3.1. Обнаружение кончиков пальцев по силуэту ладони
2.3.2. Обнаружение рук на силуэте тела человека.
2.3.3. Работа с циклами скелетного графа
2.3.4. Использование стереопары силуэтов для определения трехмерных координат ключевых точек.
2.4. Метод сегментации объекта за счет анализа противоположных частей его границ.
2.5. Выводы главы 2.
Глава 3. Генерация признаков по динамическим сценам
3.1. Слежение за положениями рук.
3.2. Слежение за кончиками пальцев.
3.2.1. Трекинг объектов.
3.2.2. Трекинг ключевых точек.
3.2.3. Фильтрация результатов трекинга.
3.3. Выводы главы 3.
Глава 4. Распознавание динамических жестов.
4.1. Распознавание простых жестов с помощью набора правил
4.1.1. Метод распознавания жестов.
4.1.2. Аппаратно-программный комплекс с 1ЮВ камерами
4.1.3. Аппаратно-программный комплекс с камерой глубины
4.2. Распознавание сложных жестов с помощью метрического классификатора
4.2.1. Классификация видео состоящего из одного жеста
4.2.2. Мера близости траекторий.
4.2.3. Мера близости отдельных кадров.
4.2.4. Классификация видео содержащего несколько жестов
4.2.5. Эксперименты.
4.3. Анализ вычислительной сложности.
4.4. Выводы главы 4.
Введение 2012 год, диссертация по информатике, вычислительной технике и управлению, Куракин, Алексей Владимирович
Предмет исследования. Жестом называют телодвижение, преимущественно движение рукой, сопровождающее речь или имеющее значение какого-либо сигнала, знака1. Язык жестов в широком смысле бесконечно разнообразен как по форме жестов, так и по их семантике, поэтому полномасштабное распознавание языка жестов представляет собой сложную задачу даже для человеческого интеллекта. На современном уровне развития систем компьютерного зрения задача автоматического распознавания ставится обычно применительно к небольшому набору заранее определенных жестов.
В данном исследовании в качестве объекта, совершающего жест, рассматриваются кисти рук человека и тело человека. Под позой объекта понимается его форма и положение на отдельном изображении. А под жестом в данной' работе понимается предопределенная последовательность поз, то есть предопределенное динамическое изменение формы и положения объекта в последовательности изображений. Задача распознавания жестов состоит в регистрации формы и положения объекта, регистрации межкадровых изменений формы и положения, и классификации последовательности этих изменений по нескольким предопределенным классам.
Актуальность темы. Жесты всегда были неотъемлемой частью взаимодействия людей между собой. Но жесты также являются удобным средством взаимодействия с компьютером во многих сценариях. Можно привести следующие примеры таких сценариев:
• управление развлекательными приложениями и системами;
• управление медицинским оборудованием при требованиях стерильности, которые можно удовлетворить за счет минимизации тактильного
1 Академический словарь русского языка контакта между оператором и устройством;
• визуализация и моделирование сложных трехмерных данных, удобство работы с которыми ограничено при применении стандартных двухмерных манипуляторов, таких как компьютерная мышь;
• компьютерное распознавание языка глухонемых.
Руки и тело человека являются естественными манипуляторами и обладают большим числом степеней свободы, поэтому успешное решение задачи распознавания выполняемых ими жестов раскрывает перспективы для решения широкого круга прикладных задач.
В диссертации рассматривается задача распознавания жестов на основе информации, полученной с доступных визуальных сенсоров, таких как веб-камеры и камеры глубины.
В литературе рассматриваются различные методы решения задач распознавания отдельных классов жестов. В частности, достаточно много работ [15-19] посвящены определению статической позы руки, при использовании RGB камеры в качестве сенсора. Но предлагаемые решения либо работают с простейшими одиночными жестами, либо обладают большой вычислительной сложностью, которая не позволяет использовать их в системах реального времени.
Появление сенсора Kinect в 2010 году, первой камеры глубины доступной широкой аудитории, открыло широкие возможности для создания систем распознавания жестов, что чрезвычайно повысило актуальность задачи распознавания жестов с использованием камеры глубины. А разработанное для Kinect программное обеспечение выполняет определения положений основных суставов тела человека [20].Однако в нем отсутствует механизм распознавания динамических жестов, более того данное программное обеспечение является закрытым, и для воспроизведения лежащего в его основе метода требуется большая база данных всевозможных поз человека для обучения классификатора.
В целом, решение задач, связанных с распознаванием сложных динамических жестов находится на начальном уровне. А разнообразие жестов и способность человека к их пониманию столь велики, что проблема их распознавания с помощью компьютера будет оставаться актуальной долгое время.
Научная задача. Основная задача данной работы заключается в разработке метода классификации динамических жестов по видеопоследовательности на основе непрерывного медиального представления объекта, совершающего жесты. В качестве объектов, совершающих жесты, рассматриваются рука и тело человека. Сложность задачи определяется очень большим разнообразием жестов и вариантов их исполнения, что связано с большим числом степеней свободы рук и тела человека, разнообразием индивидуальных антропометрических и двигательных особенностей различных людей, требованием реального времени работы системы компьютерного зрения.
Выделение признаков затруднено из-за того, что объект нередко наблюдается с окклюзиями (т.е. разные точки объекта проецируются в одну точку изображения), что приводит к невозможности оценки значений всех параметров, характеризующих позу объекта. Более того, так как в работе рассматриваются динамические жесты, их продолжительность во времени может быть различна как для разных жестов, так и для повторения одного и того же жеста. Это приводит к тому, что «эффективная» размерность признакового пространства, описывающего жесты, меняется как от жеста к жесту так и между повторениями одного и того же жеста.
Цель исследования. Целыо диссертационного исследования является разработка новых методов распознавания поз и жестов по видеопоследовательности, полученной с веб-камер или камеры глубины, позволяющих существеино расширить класс решаемых в реальном времени задач распознавания жестов. Достижение цели повысит эффективность и расширит возможности современных систем компьютерного зрения и распознавания жестов.
Предлагаемый подход. В данной работе предлагается использовать непрерывное медиальное представление для генерации признаковых описаний отдельных кадров, на основе которых будет выполняться распознавание жестов. Совокупность признаковых описаний отдельных кадров образует траекторию жеста. Распознавание жестов предлагается выполнять с помощью метрического классификатора, за счет сравнения траекторий распознаваемых жестов с траекториями эталонных жестов.
Методы, основанные на непрерывном медиальном представлении [21], дают информативное признаковое описание и обладают достаточной скоростью обработки. Однако подобные методы не использовались ранее для онлайн анализа видеопоследовательностей и распознавания динамических жестов, соответственно, их использование в рассматриваемой задаче требует научной проработки.
Результаты, выносимые на защиту.
1. Метод распознавания жестов, представленных видеопоследовательностями, основанный на выделении ключевых точек формы объектов в отдельных кадрах, построении динамических траекторий ключевых точек в последовательностях изображений и вычислении меры близости траекторий на основе выравнивания.
2. Метод генерации признаков пространственной формы объекта по изображениям или по карте глубины на основе непрерывного медиального представления плоских проекций объекта.
3. Метод связывания фрагментов границ в контуры, основанный па построении внешнего скелета исходных фрагментов границ.
4. Метод сегментации объекта за счет анализа противоположных частей его границ с помощью непрерывного скелета и радиальной функции.
5. Метод сравнения видеопоследовательностей, каждый кадр которых описан множеством ключевых точек, на основе выравнивания.
Научная новизна. Научная новизна работы определяется:
• обоснованием возможности использования непрерывного медиального представления для анализа поз и динамических жестов сложных пространственных объектов в реальном времени работы систем компьютерного зрения;
• разработкой оригинальной меры близости видеопоследовательностей, основанной па построении и использовании траекторий ключевых точек, получаемых по медиальным признаковым описаниям объектов;
• разработкой метода распознавания жестов по карте глубины с обучением по одному прецеденту.
Обоснование специальности. Данная работа по своей тематике и направленности полученных результатов соответствует следующим пунктам паспорта специальности 05.13.17 — «Теоретические основы информатики»:
5) Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений.
7) Разработка методов распознавания образов, фильтрации, распознавания и синтеза изображений, решающих правил. Моделирование формирования эмпирического знания.
Теоретическая и практическая значимость. Теоретическая значимость работы заключается в разработке и обоснование нового подхода в решении задачи восстановления формы трехмерного объекта в динамике в интересах распознавания жестов в системах компьютерного зрения, а также в разработке аппарата распознавания динамических жестов при переменной размерности признакового пространства.
Практическая значимость состоит в разработке методов распознавания жестов ладони и тела человека, работающих в реальном времени.
Достоверность результатов. Достоверность результатов диссертационной работы подтверждается корректностью постановок рассматриваемых задач исследования, применением математически обоснованных методов их решения, программной реализацией и вычислительными экспериментами, проведенными на реальных видеопоследовательностях с жестами рук и тела человека.
Апробация результатов исследования. Основные результаты диссертационного исследования докладывались на следующих конференциях:
• 53-я научная конференция Московского физико-технического института (Долгопрудный, 2010),
• International conference on computer vision theory and applications (Вила-мора, Алгарве, Португалия, 2011),
• Конференция "Техническое зрение в системах управления-2011"(Москва, 2011),
• International Conference on Image Analysis and Recognition (Ванкувер, Канада, 2011),
• 15-я Всероссийская конференция "Математические методы распознавания образов"(Петрозаводск, 2011),
• Bilateral Russian-Indian Workshop Emerging Applications of Computer Vision (Москва, 2011),
• European Signal Processing Conference (Бухарест, Румыния, 2012),
• 9-я Международная конференция "Интеллектуализация обработки информации "(Будва, Черногория, 2012).
Методы, разработанные и используемые в диссертации были применены для участия в соревнованиях:
• Hand Geometric Points Detection Competition [22].
• ChaLearn Gesture Challenge [23].
В рамках диссертации была разработана система управления мышью и объектами на экране компьютера с помощью жестов рук. Примеры видео, демонстрирующих управление компьютером с помощью жестов, можно найти по ссылкам [11-14].
Основные результаты работы опубликованы в [1-10], в том числе в изданиях [1, 2], входящих в список ВАК.
Исследования по теме диссертации поддерживались РФФИ (проекты №11-01-00783-а, №11-07-00462-а).
Структура и объем диссертации. Диссертация состоит из введения, 4 глав основного содержания, заключения и библиографии. Работа содержит 108 страниц основного текста, включая 34 иллюстрации. Перечень библиографических источников включает 60 наименований.
Заключение диссертация на тему "Распознавание динамических жестов в системе компьютерного зрения на основе медиального представления формы изображений"
4.4. Выводы главы 4
1. Распознавание простых жестов, отличающихся друг от друга количеством видимых пальцев, можно выполнять с помощью набора жестко заданных правил. При этом эффективные алгоритмы обработки позволяют выполнять распознавание жестов в реальном времени.
2. Состоятельность рассмотренного метода распознавания жестов на основе набора правил продемонстрирована в разработанных для экспериментов аппаратно-программных комплексах, состоящих из камер, подключенных к персональному компьютеру.
3. В одном из разработанных комплексов, в качестве источника входных данных используется одна или две RGB камеры, снимающие ладонь на однородном фоне. Распознанные жесты используются для управления объектами на экране компьютера. А использование двух откалиброванных камер позволяет определять трехмерные координаты ладони и кончиков пальцев.
4. Во втором комплексе, для распознавания жестов используется камера глубины Microsoft Kinect. Это существенно упрощает сегментацию ладони на изображении, и позволяет использовать произвольный фон. Распознанные жесты используются как в демонстрационном приложении для управления объектами на экране компьютера, так и для эмуляции курсора мыши с помощью рук в ОС Windows.
5. Стандартное программное обеспечение сенсора Kinect позволяет лишь определить положения основных суставов тела, но не позволят ловить жесты кисти и пальцев, поэтому предлагаемый в работе подход для работы с жестами кисти и пальцев позволяет существенно расширить возможности для практического применения сенсора.
6. Распознавание сложных жестов предлагается выполнять за счет введения меры близости между жестами, и использования метрических методов классификации, например метода ближайшего соседа. Для применения подобных методов классификации в работе предлагается математическая модель меры близости жестов на основе сравнения их траекторий в пространстве признаковых описаний отдельных кадров, а также расширение этой модели для одновременной классификации жестов и определения момента их начала и окончания в видео.
7. Оценка разработанного метода временной сегментации и классификации сложных жестов проводилась на базе данных ChaLearn Gesture Challenge. Эксперименты показали работоспособность предложенных методов, а также хорошее качество классификации жестов, совершаемых ладонями человека, для распознавания которых была адаптирована реализация метода.
8. Общие результаты проведенных экспериментов, показали, что предлагаемая в работе методология применима для широкого круга задач распознавания жестов в реальном времени, что является ее важным достоинством. В частности, в работе продемонстрированы ее практические применения для задачи управления компьютером с помощью жестов кисти и пальцев и для задачи распознавания и сегментации во времени сложных динамических жестов.
Заключение
В работе рассмотрена задача распознавания динамических жестов, воспринимаемых визуальными сенсорами, такими как RGB камеры и камеры глубины. Актуальность задачи обусловлена ее практической значимостью, тем, что существующие работы в основном посвящены анализу статических поз, а также отсутствием надежных систем, работающих в реальном времени, для распознавания динамических жестов, включающих топкие движения объекта, совершающего жесты.
Для решения рассматриваемой задачи предлагается методология, в основе которой лежит использование медиального представления для выделения признакового описания объектов.
Сначала выполняется сегментация объекта, совершающего жест, на каждом кадре исходного видео. Сегментация объекта на цветных изображениях была упрощена за счет использования однородного фона. А для изображений с камеры глубины был предложен метод сегментации за счет анализа перепадов глубины и их интерпретации как границ объектов. Зачастую получаемые границы объектов содержат разрывы, поэтому был предложен метод сшивки разрывов границ. Метод сшивки работает за счет построения внешнего скелета границ и определения мест сшивки среди локальных минимумов радиальной функции скелета. Использование скелета позволило учитывать при сшивке не только локальные особенности границ, но и общую топологию изображения.
После сегментации выполняется построение медиального представления силуэта объекта. С помощью медиального представления выделяется множество ключевых точек объекта, координаты которых используются в качестве признакового описания отдельных кадров.
Использование медиального представления для выделения ключевых точек позволяет найти функциональные точки объекта, такие, как центры ладоней для силуэта тела человека, или кончики пальцев для силуэта ладони. Также с помощью медиального представления можно установить соответствие между противоположными границами силуэта, что полезно, например, при анализе вытянутых движущихся частей объекта.
Полученные признаковые описания отдельных кадров фильтруются с целыо уменьшения шумов, удаления ложных ключевых точек и заполнения пропусков. В результате, каждый жест описывается своей траекторией в пространстве признаковых описаний отдельных кадров.
Распознавание жестов предлагается выполнять с использованием метрических методов классификации, основанных на сравнении траекторий жестов, либо с помощью ручного построения набора правил для классификации каждого жеста. Для использования метрического классификатора предложена математическая модель меры близости траекторий жестов, а также ее расширение, для одновременной классификации и определения момента начала и окончания жестов в видео.
В рамках работы, были проведены серии вычислительно-практических экспериментов с целыо проверки предложенных методов распознавания жестов на практике.
Были разработаны несколько аппаратно-программных комплексов, состоящих из визуальных сенсоров, подключенных к персональному компьютеру со специальным программным обеспечением. Эти комплексы использовались для экспериментов с классификатором, работающим па основе набора правил. Комплексы позволяют управлять курсором мыши и объектами па экране компьютера с помощью жестов рук и пальцев в реальном времени.
Также была проведена серия экспериментов на базе жестов ChaLearn Gesture Challenge с использованием метрического классификатора. Эксперименты показали работоспособность и состоятельность предложенных методов для одновременной классификации и определения момента начала и окончания жестов.
В результате, проведенные эксперименты показали работоспособность и состоятельность предложенной методологии распознавания динамических жестов. Более того, эксперименты продемонстрировали состоятельность предложенного способа построения признакового описания с помощью медиального представления объекта, а также успешное применение, полученного признакового описания в разнообразных задачах. В частности предложенное признаковое описание было успешно применено в задаче управления виртуальной мышью, когда основными требованиями к системе выступает реальное время работы и точность позиционирования. Вдобавок, оно позволило решать задачу классификации жестов из базы ChaLearn Gesture Challenge, когда не так важна точность позиционирования для отдельного кадра, но важно верно определить траекторию жеста, и различать подобные траектории для различных жестов.
Библиография Куракин, Алексей Владимирович, диссертация по теме Теоретические основы информатики
1. Куракин А. В. Распознавание жестов ладони в реальном времени на основе плоских и пространственных скелетных моделей // Информатика и ее применения. 2012. Т. 6, № 1. С. 114-121.
2. Mestetskiy L., Bakina I., Kurakin A. Hand Geometry Analysis by Continuous Skeletons // Image Analysis and Recognition / Ed. by M. Kamel, A. Campil-ho. Springer Berlin / Heidelberg, 2011. Vol. 6754 of Lecture Notes in Computer Science. P. 130-139.
3. Kurakin A., Zhang Z., Liu Z. A Real Time System for Dynamic Hand Gesture Recognition with a Depth Sensor // EUSIPCO-2012: Proceedings of the 20th European Signal Processing Conference. 2012. P. 1975-1979.
4. Mestetskiy L., Kurakin A., Tsiskaridze A. Pose And Gesture Recognition using Stereo Images and Video Sequences // Proceedings of Bilateral Russian-Indian Workshop Emerging Applications of Computer Vision (EACV-2011). MAKS Press, 2011. P. 209-215.
5. Куракин А. В. Распознавание жестов ладони с помощью непрерывного скелета // Труды 15-й всероссийской конференции «Математические методы распознавания образов». Москва: МАКС Пресс, 2011. С. 428-431.
6. Куракин А. В., Местецкий J1. М. Распознавание двух- и трехмерных жестов ладони на основе анализа скелетного представления ее силуэта // Тезисы докладов конференции "Техническое зрение в системах управления 2011". 2011.
7. Куракин А. В., Местецкий JI. М. Распознавание жестов ладони на основе анализа скелетного представления силуэта ладони // Труды 53 научной конференции МФТИ. 2010.
8. Демонстрация программного комплекса для распознавания жестов руки с одной камерой. URL: http://youtu.be/eYksnVGt6mo.
9. Демонстрация использования стререопары для определения трехмерных координат ключевых точек. URL: http://youtu.be/ECAKTw3GBnM.
10. Демонстрация распознавания открытой и сжатой ладони, с использованием сенсора Kinect. URL: http://youtu.be/antSNObQBjg.
11. Демонстрация использования руки для управлением курсором мыши. URL: http : //youtu. be/rljf f sDcDII.
12. Wang R. Y., Popovic J. Real-time hand-tracking with a color glove // ACM Transactions on Graphics. 2009. Vol. 28, no. 3.
13. Van den Bergh M., Van Gool L. Combining RGB and ToF cameras for real-time 3D hand gesture interaction // IEEE Workshop on Applications of Computer Vision (WACV). 2011.
14. Ren Z., Yuan J., Zhang Z. Robust Hand Gesture Recognition based on Finger-Earth Mover's Distance with a Commodity Depth Camera // ACM Intl. Conf. on Multimedia. 2011.
15. Gudmundsson S. A., Sveinsson J. R., Pardas M. et al. Model-Based Hand Gesture Tracking in ToF Image Sequences // 6th International Conference on Articulated motion and deformable objects (AMDO). 2010.
16. Suryanarayan P., Subramanian A., Mandalapu D. Dynamic Hand Pose Recognition Using Depth Data // 20th International Conf. on Pattern Recognition (ICPR). 2010.
17. Shotton J., Fitzgibbon A., Cook M. et al. Real-time human pose recognition in parts from single depth images // Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2011.
18. Местецкий JI. M. Непрерывная морфология бинарных изображений: фигуры, скелеты, циркуляры. Физматлит, 2009.
19. Magalhaes F., Oliveira Н. P., Matos Н., Campilho A. HGC2011 Hand Geometric Points Detection Competition Database http://www.fe.up.pt/ ~hgc2011/.
20. ChaLearn Gesture Dataset (CGD2011), ChaLearn, California, 2011. URL: http: //gesture. chalearn. org.
21. Yang M.-H., Ahuja N. Recognizing hand gesture using motion trajectories //
22. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). 1999.
23. Rabiner L. R. A tutorial on hidden Markov models and selected applications in speech recognition // Readings in speech recognition. Morgan Kaufmann Publishers Inc., 1990.
24. Yamato J., Ohya J., Ishii K. Recognizing human action in time-sequential images using Hidden Markov Model // Proceedings of the 1992 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR). 1992.
25. Bobick A. F., Wilson A. D. A State-Based Approach to the Representation and Recognition of Gesture // IEEE Trans. Pattern Anal. Mach. Intell. 1997. December. Vol. 19, no. 12. P. 1325-1337.
26. Hong P., Huang T. S., Turk M. Gesture Modeling and Recognition Using Finite State Machines // 4th IEEE Intl. Conf. on Automatic Face and Gesture Recognition. 2000.
27. Liu X., Fujimura K. Hand Gesture Recognition using Depth Data // 6th IEEE International Conf. on Automatic Face and Gesture Recognition. 2004.
28. Theodoridis S., Koutroumbas K. Pattern Recognition, Second Edition. Academic Press, Inc., 2003.
29. Garg P., Aggarwal N., Sofat S. Vision Based Hand Gesture Recognition // World Academy of Science Engineering and Technology. 2009. P. 972-977.
30. Liu T., Liang W., Wu X., Chen L. Tracking Articulated Hand Underlying Graphical Model with Depth Cue // Congress on Image and Signal Processing. 2008. Vol. 4. P. 249-253.
31. Ben Henia 0., Hariti M., Bouakaz S. A two-step minimization algorithm for model-based hand tracking // 18th International Conference on Computer Graphics, Visualization and Computer Vision (WSCG). 2010.
32. Kollorz E., Penne J., Hornegger J., Barke A. Gesture recognition with a Time-Of-Flight camera // International Journal of Intelligent Systems Technologies and Applications. 2008. — November. Vol. 5.
33. Hu M.-K. Visual pattern recognition by moment invariants // IRE Transactions on Information Theory. 1962. — February. Vol. 8, no. 2. P. 179-187.
34. Piccardi M. Background subtraction techniques: a review // Proceedings of the IEEE International Conference on Systems, Man and Cybernetics. Vol. 4. 2004.
35. Benezeth Y., Jodoin P. M., Emile B. et al. Review and evaluation of commonly-implemented background subtraction algorithms //In Proceedings of the IEEE International Conference on Pattern Recognition. 2008.
36. Vezhnevets V., Sazonov V., Andreeva A. A survey on pixel-based skin color detection techniques // Proceedings of the GraphiCon 2003. 2003. P. 85-92.
37. Phung S. L., Bouzerdoum A., Chai D. Skin Segmentation Using Color Pixel Classification: Analysis and Comparison // IEEE Trans. Pattern Anal. Mach. Intell. 2005.-January. Vol. 27. P. 148-154.
38. Mestetskiy L. Skeleton representation based on compound Bezier curves // VISAPP 2010: Proceedings of the 5th International Conference on Computer Vision Theory and Applications. Vol. 1. INSTICC Press, 2010.
39. Canny J. A Computational Approach to Edge Detection // IEEE Trans. Pattern Anal. Mach. Intell. 1986.-June. Vol. 8, no. 6. P. 679-698.
40. Гонсалес P., Вудс P. Цифровая обработка изображений. M.: Издательства «Техносфера», 2005.
41. Vapnik V. Statistical learning theory. Wiley, 1998.
42. Pillow N., Utcke S., Zisserman A. Viewpoint-invariant representation of generalized cylinders using the symmetry set // Proceedings of the conference on British machine vision. Vol. 2. Surrey, UK, UK: BMVA Press, 1994. P. 539-548.
43. Цискаридзе А. К. Математическая модель и метод восстановления позы человека по стереопаре силуэтных изображений // Информатика и ее применения. 2010. Т. 4, № 4.
44. Hartley R. I., Zisserman A. Multiple View Geometry in Computer Vision. 2nd edition. Cambridge University Press, 2004.
45. Sethi I. K., Jain R. Finding trajectories of feature points in a monocular image sequence // IEEE Trans. Pattern Anal. Mach. Intell. 1987. — January. Vol. 9, no. 1. P. 56-73.
46. Salari V., Sethi I. K. Feature Point Correspondence in the Presence of Occlusion // IEEE Trans. Pattern Anal. Mach. Intell. 1990. January. Vol. 12, no. 1. P. 87-91.
47. Sedra A. S., Smith К. C. Microelectronic Circuits. 3rd edition. Saunders College Publishing, 1991. P. 60.
48. Westerman W., Elias J. G., Hedge A. Multi-Touch: A New Tactile 2-D Gesture Interface for Human-Computer Interaction // Human Factors and Ergonomics Society Annual Meeting Proceedings. 2001. Vol. 45. P. 632-636.
49. Shanis J. M., Hedge A. Comparison of Mouse, Touchpad and Multitouch Input Technologies // Proceedings of the Human Factors and Ergonomics Society Annual Meeting. 2003. Vol. 47, no. 4. P. 746-750.
50. Cover T., Hart P. Nearest neighbor pattern classification // Information Theory, IEEE Transactions on. 1967. January. Vol. 13, no. 1. P. 21-27.
51. Sakoe H. Dynamic programming algorithm optimization for spoken word recognition // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1978. Vol. 26. P. 43-49.
52. Беллман P. Динамическое программирование. M.: Изд-во иностранной литературы, 1960.
53. Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады АН СССР. 1965. — January. Vol. 163, no. 4. P. 845-848.
-
Похожие работы
- Алгоритмы распознавания жестов на видеопоследовательностях
- Методы распознавания жестов руки на основе анализа дальностных изображений
- Алгоритмы распознавания лиц и жестов на основе вейвлет-преобразований и метода главных компонент
- Интерфейс бесконтактного человеко-машинного взаимодействия на основе данных сенсора-дальномера
- Многолистная фигура и ее медиальные дескрипторы
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность