автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.17, диссертация на тему:Разработка и исследование методов захвата, отслеживания и распознавания динамических жестов
Автореферат диссертации по теме "Разработка и исследование методов захвата, отслеживания и распознавания динамических жестов"
На правах рукописи
□03171643
Алфимцев Александр Николаевич
РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ЗАХВАТА, ОТСЛЕЖИВАНИЯ И РАСПОЗНАВАНИЯ ДИНАМИЧЕСКИХ
ЖЕСТОВ
Специальность 05 13 17 - Теоретические основы информатики
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
003171643
Работа выполнена в Московском Государственном Техническом Университете им Н Э Баумана
Научный руководитель доктор технических наук, профессор
Девятков В В
Официальные оппоненты доктор технических наук, профессор
Артамонов Е И
кандидат технических наук Бобков А В
Ведущая организация Институт Проблем Передачи Информации РАН
имени А А Харкевича
Защита диссертации состоится « 26 » июня 2008 г в 12_ час 00 мин на заседании диссертационного совета Д 212141 10 при Московском государственном техническом университете им Н Э Баумана по адресу 105005, Москва, 2-я Бауманская ул , д 5
С диссертацией можно ознакомиться в библиотеке МГТУ им Н Э Баумана
Ваш отзыв на автореферат в одном экземпляре, заверенный печатью организации, просьба направлять по адресу 105005, Москва, 2-я Бауманская ул , д 5, МГТУ им НЭ Баумана, ученому секретарю диссертационного совета Д 212 141 10
Автореферат разослан 2008 г
Ученый секретарь диссертационного совета,
кандидат технических наук, доцент
Иванов
1. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время разработка и исследование человеко-машинных интерфейсов, основанных на распознавании образов и вилулльмим ирсд1.1сшлении мулыимедийний информации, иынишшя
передним краем в развитии современного математического и программного обеспечения Перед разработчиками подобных интерфейсов ставится задача использования естественных для человека способов общения с компьютерами с помощью жестов, голоса, мимики и других модальностей Жесты являются особенно перспективными для построения интерфейсов управления программным и аппаратным обеспечением компьютеров, роботов, позволяют расширить возможности интерфейса для людей с дефектами слуха и речи
В связи с этим, актуальность темы диссертации с теоретической точки зрения диктуется необходимостью разработки методов, моделей и алгоритмов захвата, отслеживания и распознавания жестов, совершаемых человеком в реальном времени, в частности руками, пригодных для создания интерфейса управления работой компьютера с их помощью
Актуальность темы с прикладной точки зрения определяется необходимостью создания программных систем, способных обеспечить с помощью жестов интерфейс с персональным компьютером в реальном времени, используя только видеокамеры
Объект исследования: методы, алгоритмы и программы захвата, отслеживания и распознавания жестов человека
Предмет исследования: типы жестов, структура методов и алгоритмов захвата, отслеживания и распознавания динамических жестов, их взаимосвязь, сложность, надежность, устойчивость, позволяющие распознавать динамические жесты в реальном времени
Цель работы и задачи исследований. Целью работы является разработка общей методологии захвата, отслеживания и распознавания динамических жестов человека, совершаемых руками, включая модели, методы и алгоритмы, теоретическое и экспериментальное обоснование работоспособности этой методологии в реальном времени с высоким уровнем надежности для создания работоспособных человеко-машинных интерфейсов
Для реализации этой цели были поставлены следующие задачи
1 Осуществить сравнительный аналитический обзор существующих методов захвата, отслеживания и распознавания динамических жестов человека
2 Провести классификацию жестов выполняемых человеком и выбрать алфавит динамических жестов, пригодный для создания человеко-машинного интерфейса для управления компьютером
3 Разработать вычислительно эффективный алгоритм захвата и отслеживания кисти человека на сложном фоне
4 Разработать вычислительно эффективную модель и алгоритм распознавания динамических жестов человека
5 Разработать методологию мультимодального распознавания сцен, определяемых динамическими жестами
6 Провести эксперименты по оценке надежности и работоспособности системы в реальном времени, подтверждающие теоретические результаты
Методы исследования. Основной задачей при планировании исследования было гармоничное сочетание теоретических проработок и экспериментальных проверок Надежность, устойчивость и достоверность полученных алгоритмов и моделей проверялась на специально подготовленной доверительной выборке Методы исследований базировалась на статистическом анализе и математическом моделировании, теории нечеткой логики и нечетких множеств, методах объектно-ориентированного программирования и разработки интеллектуальных систем, теории распознавания образов
Научная новизна. Разработана новая комплексная методология захвата, отслеживания и распознавания динамических жестов в видеопотоке В рамках этой комплексной методологии получены следующие новые результаты
Разработан алгоритм захвата и отслеживания кисти человека в видеопотоке на сложном фоне, обладающий более высокой надежностью и устойчивостью работы по сравнению с известными из литературы аналогами
Разработан алгоритм и вычислительно-эффективная модель для распознавания жестов, основанная на нечетких конечных автоматах, сложность распознавания с помощью которой составляет 0(тп), где т -количество нечетких автоматов используемых для распознавания, п -количество состояний нечеткого конечного автомата
Разработана методология мультимодального распознавания сцен, определяемых жестами, с использованием нечетких операторов агрегирования Методология позволяет повысить надежность распознавания жестов за счет использования дополнительных источников информации, учесть степень важности каждой модальности, непосредственно в процессе иерархического распознавания сцен
В работе предложен алфавит жестов, позволяющий широко использовать его в различных приложениях для создания интерфейсов человек-компьютер
Экспериментально показано, что предложенная архитектура системы распознавания динамических жестов позволяет с высокой степенью
надежности распознавать в реальном времени жесты независимо от индивидуума
Практическая значимость и реализация. На основе разработанных алгоритмов создано программное обеспечение захвата и отслеживания и распознавания жестов, позволяющее использовать его в различных человеко-машинных интерфейсах на основе жестов Материалы работы используются в учебном процессе кафедры информационных систем и телекоммуникаций МГТУ им Н Э Баумана в курсе «Обработка изображений в информационных системах»
Программное обеспечение реализовано на персональном компьютере Для захвата и отслеживания кадра используется Web-камера Программное обеспечение системы написано на языке программирования С++ в объектно-ориентированной нотации Документация программной реализации удовлетворяет требованиям, предъявляемым к программным продуктам ГОСТ 19 105-78
Система имеет следующие характеристики
1 Скорость работы в реальном времени (15 кадров в секунду)
2 Устойчивость к шуму, характерному для недорогих, «домашних» видеокамер (Web-камер)
3 Функционирование с кадрами низкого 320x240 пикселей/8 бит, и среднего 640x480 пикселей/8 бит качества
Программный модуль распознавания жестов прошел экспериментальную проверку в системе обеспечивающий интуитивный интерфейс между человеком и телевизором, разработанной в соответствии с генеральным соглашением между МГТУ им Н Э Баумана и компанией «NXP Semiconductors founded by Philips»
Публикации. Основные результаты работы изложены в семи научных публикациях, из них в журналах по списку ВАК - 1
Апробация результатов работы:
1 Презентация научных исследований в области интуитивного интерфейса для инженеров компании Philips, 10 07 2006, Россия, г Москва
2 Доклад по результатам научно-исследовательского проекта в соответствии с генеральным соглашением, 19 12 2006, Нидерланды, г Эйндховен
3 2-й всероссийской конференции «Теория динамических систем в приоритетных направлениях науки и техники», 25 06 2007, Россия, г Ижевск
4 23-й международной конференции робототехника и заводы будущего CARS & FOF 07, 17 08 2007, Колумбия, г Богота
5 2-й международной конференции «Системный анализ информационные технологии» САИТ-2007,10 09 2007, Россия, г Обнинск
6 30-й конференции молодых ученых и специалистов ИППИ РАН «Информационные технологии и системы» ИТиС-2007, 18 09 2007, Россия, г Звенигород
7 16-й международной конференции в Центральной Европе по компьютерной графике, визуализации и компьютерному зрению \У8СС08,06 02 2008, Чехия, г Пльзень
Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, заключения и списка литературы, занимающих 165 страниц текста, в том числе 41 рисунок на 35 страницах, 13 таблиц на 21 странице, список литературы на 11 страницах
Научные положения, выносимые на защиту:
1 Итоги сравнительного анализа моделей и методов распознавания динамических жестов
2 Алгоритм захвата и отслеживания кисти человека на сложном фоне
3 Нечеткая модель для распознавания динамических жестов, основанная на нечетких конечных автоматах и алгоритм распознавания динамических жестов с использованием этой модели
4. Методология мультимодального распознавания сцен, определяемых динамическими жестами, с использованием нечетких операторов агрегирования
5 Архитектура системы распознавания жестов человека и экспериментальные результаты работы системы на доверительных выборках
2. СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность работы, сформулированы цель, задачи исследования и научные положения, выносимые на защиту Приведена структура диссертации, формы апробации и реализации результатов
В первой главе проведен обзор существующих классификаций и алфавитов жестов, наиболее часто используемых при общении людей, как ограниченных, так и неограниченных по здоровью Анализ классификаций и алфавитов показал, что они не подходят для использования в человеко-машинных интерфейсах на базе жестов, так как содержат много специфической информации о тональности общения, зонах человеческого тела, интенсивности переживаний
В зависимости от способа выполнения жесты были разделены на статические и динамические жесты Статические жесты выполняются заданием определенного положения кисти и пальцев в пространстве, в не зависимости от времени Динамические жесты выполняются движением какой-либо части человеческого тела, чаще всего кистью, во времени и пространстве Описан выбранный алфавит динамических жестов, созданный 4
с ориентацией на создание человеко-машинного интерфейса, включающий в себя все базовые жесты языка глухонемых, выполняющиеся в одно движение, имеющие форму геометрических фигур или букв латинского алфавита (рис 1) Продемонстрировано, что с помощью данных жестов можно кодировать любой жест из международного дактильного алфавита для слепоглухих Кармела
Кроме того, с помощью динамического жеста можно более естественно передать многие команды управления интерфейсом, такие как вверх, вниз, левее, поворот Динамические жесты легче распознать при неоднородной текстуре фона и различном освещении И поскольку динамические жесты осуществляются во времени, то появляется возможность наблюдать за параметрами жеста как функциями времени, что дает дополнительную информацию, увеличивающую надежность распознавания
Проведен анализ популярных математических моделей распознавания жестов Показано, что оценки вычислительной сложности распознавания жестов с помощью этих моделей зависят от квадрата числа состояний (СММ), нейронов (нейросети) или вершин (Байесовы сети), используемых для распознавания, умноженных на число символов наблюдаемой последовательности Вследствие этого, с ростом этих величин, практическое использование для распознавания жестов в реальном времени указанных моделей, из-за высоких затрат процессорного времени и памяти компьютера, становится невозможным Тем самым обоснована необходимость создания новых вычислительно-эффективных методов
Проведен обзор современных систем распознавания динамических жестов человека Выделены три основные области применения подобных систем интуитивный интерфейс человек-компьютер, автоматический перевод жестов глухонемых, приложения виртуальной реальности
Во второй главе проведен анализ основных алгоритмов захвата и отслеживания области интересов алгоритмов основанных на анализе перемещения, алгоритмов основанных на анализе цвета, алгоритмов основанных на анализе характерных признаков Хаара Описаны два новых разработанных алгоритма алгоритм захвата и отслеживания областей
1 '1
Рис 1 Алфавит динамических жестов
интересов на сложном фоне, основанный на последовательном выделении объектов по перемещению, цвету и кластерам и алгоритм, основанный на параллельном каскадном детекторе, с использованием характерных признаков Хаара
Основная идея первого алгоритма заключается в последовательной обработке и кластерном разбиении области интересов Рассмотрим данный алгоритм по шагам Кадр, получаемый видеокамерой в момент времени t и имеющий по горизонтали V, а по вертикали W пикселей, обозначим I,(V,W) Под областью интересов Ob,(X,Y) понимается множество пикселей кадра f,(V, \V), очерчивающих искомый объект Захватом области интересов называется выделение ее в кадре в момент времени t Отслеживанием области интересов называется процесс последовательного захвата в кадрах Ify.W). Il+i(V,W), , Il+k(V,\V) областей интереса Ob,(X„Y,), Ob<,,(X,+hYl+l), , Obi+k(Xt+k,Y,+k)
Шаг 1 На первом шаге алгоритма кадр I,(V,W) поступает от Web-камеры с разрешением 640x480/320x240, 8 бит
Шаг 2 Второй шаг алгоритма - это фильтрация входного кадра I,(V,W) Для выполнения фильтрации было отдано предпочтение медианному фильтру перед фильтром Гаусса Так как, при применении фильтра Гаусса в кадре получалось некоторое "размытие" областей изображения, шум которых описывался распределением с нулевым математическим ожиданием
Шаг 3 На третьем шаге алгоритма, используя кадры I,(V,W) и I,„(V,W) и применяя алгоритм, основанный на вычитании соседних кадров, находится перемещающийся объект и осуществляется захват области интересов Obni(X,thYlti) Для выделения перемещающегося объекта используется фактор изменения яркости пикселей, относящихся к перемещающемуся объекту, в последовательности двух смежных I,(V,W) и /,+/(У, W) кадров Если разность яркостей пикселей превышает заданный порог, то этот пиксель кадра Il+i(V,W) считается принадлежащим перемещающемуся объекту Ob,+i(X,Y) В данном случае порог найден экспериментально и равен 20 Для получения явных значений яркости пикселя, каждый кадр переводился из цветового пространства RGB в полутоновое цветовое пространство
Шаг 4 Чтобы выделить в полученной области интересов Ob,+i(X,Y) только изображение кисти, на четвертом шаге ищутся пиксели, значение цвета которых совпадает со значением цвета кожи человека В цветовом пространстве HSV (параметры Н, S, V соответственно обозначают Hue (тон), Saturation (насыщенность), Volume (яркость)) для цвета кожи значения параметра Я лежат в промежутке от 18 до 22, параметра S от 5 до 10
Шаг 5 На пятом шаге алгоритма наложением четырехсвязной маски, отсекаются одиночные пиксели Эти пиксели считаются шумом Этих шагов достаточно чтобы захватить и отследить только одну кисть человека 6
находящуюся в кадре. Но чтобы найти правую, левую кисть и лицо пользователя управляющего системой издалека, необходимо применить алгоритм кластеризации с-средних.
Шаг 6. На шестом шаге, алгоритм кластеризации разбивает пиксели найденной области интересов дл",+/,},+ /), принадлежащие
перемещающемуся объекту и распределению цвета кожи, на три кластера, соответственно: правая кисть, левая кисть, лицо (рис. 2).
Шаг 7. На заключительном, седьмом шаге алгоритма для каждого кластера вычисляется центр тяжести. Путем отслеживания этих центров, строятся траектории перемещения кистей, с помощью которых распознается выбранный алфавит жестов для каждой руки.
Рис. 2. (а) Входной кадр, (б) Найдены пиксели области интересов ОЬ1и{Х,<,, У,+/), принадлежащие перемещающемуся объекту и распределению
цвета кожи человека,
(в) Найдены и маркированы три кластера: правая кисть, левая кисть,
лицо
В конце главы описан второй разработанный алгоритм захвата и отслеживания областей интересов, основанный на параллельном каскадном детекторе, с использованием характерных признаков Хаара, который способен, как и рассмотренный алгоритм, отслеживать кисти и лицо человека в видеопотоке.
Параллельный каскадный детектор состоит их трех параллельных каскадов. Каждый каскад это цепь классификаторов, основанных на характерных признаках Хаара. Каскады, состоящие из пятнадцати классификаторов, предназначены для захвата и отслеживания правой и левой кистей человека, каскад из двадцати восьми классификаторов предназначен для захвата и отслеживания лица человека. Кроме своей структуры, оригинальной особенностью параллельного каскадного детектора, является обучение его на специально сформированной обучающей выборке. Выборка состояла из изображений кисти, захваченных при разных условиях освещения, что позволило в дальнейшем повысить устойчивость работы детектора в неконтролируемых условиях.
Найденная верхняя оценка вычислительной сложности разработанных алгоритмов составила О(Ы), где М - количество пикселей кадра 1,{У,Щ.
В третьей главе предлагается нечеткая модель для распознавания динамических жестов, основанная на нечетких конечных автоматах и алгоритм распознавания динамических жестов с использованием этой модели.
Для формирования нечеткой модели каждого динамического жеста, последний многократно повторяется и траектория каждого повторения фиксируется. Число повторений обычно равно 10-20. Так, например, для жеста, имеющего вид буквы «2», траектории показаны на рис. За.
Рис. 3. (а) Траектории жеста, повторенного несколько раз, (б) Граф жеста буквы «2»
Обобщено траекторию перемещения всех жестов, имеющих вид буквы «2.» можно представить в виде графа, показанного на рис. 36. Вершина А| этого графа объединяет множество точек, принадлежащих началу траекторий, вершины Аг и А3 соответствуют множествам точек перегиба траекторий, вершина А4 объединяет множество точек концов траекторий, дуги графа указывают на направление перемещения центра тяжести объекта по траекториям. Этот граф может служить основой для построения нечеткой модели жеста. Каждая вершина графа объединяет характерные точки с определенным сходством. Множество точек, относящихся к одной вершине, составляют кластер. Каждая точка в общем случае принадлежит т-мерному пространству и является набором значений характерных признаков у/, уг,---, ут. Для нахождения кластеров использовался алгоритм кластеризации с-средних.
Для того чтобы можно было учесть время, вместо графа на рис. 36, (для случая двумерного пространства) использовались два графа, полученные в результате проекции траекторий перемещения центров тяжести кисти руки на ось абсцисс и ось времени, а также на ось ординат и ось времени (рис. 4). В общем случае /и-мерного пространства таких проекций у,(?) будет т: (/=1 ,...,т).
I
I
г
I
--———--г
Рис 4 Проекции графа жеста
Значение у,(О в некоторый момент времени, будем называть отсчетом >',(/■) Последовательность п+1 отсчетов /„] = {у<Ш,}',(//), у,(12), , УЮ) 1-ой проекции одного и того же жеста в течение нескольких подряд идущих моментов времени /0, /2, , ¡„ (в течение временного интервала [¡о, ?„]) назовем сигналом Сопоставим каждому отсчету ур,) одного и того же сигнала состояние Ь} (/,) конечного автомата Введем функцию выходов (р конечного автомата Л/, (р ( ¿>/0) = ур,) и функцию переходов / Д&Д/,),=
ьм
Таким образом, каждый отсчет является значением функции выхода у/О = <Р(Ь/0) автомата Мр каждый сигнал является последовательностью значений функций выхода у^) = (у^о), >//)), , )'/?„)) одного и того же автомата М1
Представим автомат Мр соответствующий какой-либо проекции некоторого жеста, его графом переходов (рис 5а) Каждая вершина графа помечена символом Ь„ I = О, 1, ,12 (вершины обозначены кружками) Каждая пара соседних вершин Ь„ Ь,+1, 1=0, 1, 2, ,11 соединена дугой, направленной от вершины г к вершине г+1 Дуги, направленные от вершины I к вершине и-1 помечены символом г, в алфавите Т = {Гп, ¿ь 12, ц, , /„,.]} Если выписать обозначения всех дуг слева направо, то получим последовательность символов /[Уз^&'б^вЗДо'п'пЛ (здесь Л - пустой символ, который может опускаться) Эта последовательность может рассматриваться как слово или предложение некоторого языка Ь= Ь(СГ), порождаемого автоматной грамматикой (7, = [V, Т, Р, Б= Ь0], 1/={ ¿ь. Ь3, Ь4, Ь5, Ь6, Ь7, Ь8, Ьд, Ью, Ь,,}, Г= {/0, Н, 12, г3, к, Н, к, Ь, к, /ю, Гц, Л], Р= { Ьо—Лфи Ъ^—НгЬг, Ь2—НъЬ3, Ь3-нф4, Ь4—Н5Ь5, Ь5—хфб, Ь6-Н-,Ь7, Ъ7-Нф8,
Ь8-Х9Ь9, Ьд М\{)ЬК), Ью—МцЬц, Ьц-Яи Ь12, Ь,2~>Л}
Каждой дуге графа соответствуют две инцидентные вершины Ь, и Ь1+/ Координатой вершины Ь, на оси абсцисс является и = >',(0, а
координата вершины Ь,+г на оси абсцисс есть и <р (Ь/+Д?,+;)) = у,+;(Г,+/)
Полагаем, что отсчеты у,(?<) одного и того же кластера, соответствующие / различным траекториям одного и того же жеста, могут изменяться в пределах среднеквадратичного отклонения .у, от проекции
центра кластера у,(г,) я, = ^
ЛГ
где /У-число отсчетов принадлежащих кластеру, V, - координата центра /-ого кластера, у1, (О отсчет, принадлежащий ;-ол/у кластеру Для простоты полагаем, что .у, одно и то же для всех I и равно 5 Для каждого множества отсчетов у,'(/,) задаем треугольную функцию принадлежностей /и,(у), определяемую точками, у~ = V, - у, = У1, у* = V, + 5, причем дОО=о.д(у,)=1.д(:у,+)=о (рис 56)
Вершину Ь, с координатами /„ у, заменим множеством вершин Ьп е В(Ь,) с координатами, изменяющимися по оси ординат в пределах области у,' - у,~ х, у,+= Каждая вершина Ьп соответствует какому либо пикселю, а
множество £(£>,) вершин (пикселей) вычисляется как множество всех пикселей, с координатой по оси ординат Вместо одной дуги (/?,, Ь1+/) теперь будем иметь множество дуг {(Ьт I е В(Ь,)> Ьф+1) е В(Ь,+/)},
соединяющих каждую вершину множества В(Ь,) с каждой вершиной множества В(&,+/) и помеченных тем же символом что и дуга (Ь„ Ь,+1)
Рис 5 (а) Граф переходов четкого автомата, (б) Функции принадлежности вершин, графа переходов нечеткого автомата
Будем полагать, что функция принадлежности каждой дуги (Ьп, Ь^+ц), инцидентной вершинам ЬпеВ(Ь,) и Ь^^^е В(Ь,+1), для которых <р(Ьп)=уг„ ф$г(1+1))=Уг11+1)определяется как ......,(/1+1) = шш(д(уп),ц,+1(л(,+„))
Нечеткая грамматика Сг= {V, Т, Р/, 5/г} получается из четкой грамматики С={ V, Т, Р, 5} следующим образом Единственный начальный нетерминальный символ четкой грамматики заменяется множеством начальных нетерминальных символов 5Г=В(Ь0) Множество правил Рр нечеткой грамматики С/г будет следующим
Рр = {Ьп —>¡,+1 Ьп,+1), ц{Ьп Ьф+„) ......)(',„). 1=0, , п-1 }
Для каждого жеста к= 1, , К строится множество нечетких эталонных грамматик Скп, СкГ2, , Ск1т, базируясь на изложенных принципах Будем говорить, что четкая грамматика С, содержащая правила +/&,+;, 1=0, ,
п-1], сравнима с нечеткой грамматикой если существует
последовательность правил {бп-^+^.+о 1=®> ••> этой нечеткой
грамматики, для которых имеет место Ь,=Ьп для всех 1=0, ,п-1 Алгоритм распознавания динамических жестов с использованием модели, основанной на нечетких конечных автоматах и соответствующем им множестве эталонных нечетких грамматик йр/, С«, , Ст,„, будет следующим
Шаг 1 Распознаваемый жест обрабатывается с теми же шагами дискретизации по временной оси, что и эталонные жесты, и для него строится множество четких грамматик С; , Ст, ему соответствующих
Шаг 2 Осуществляется сравнение четких грамматик С; С2, , С,„ соответствующих распознаваемому жесту, с каждой соответствующей нечеткой эталонной грамматикой Окп, Скр2, , Скрт Здесь А:е {1, , К}, а К-число распознаваемых жестов
Шаг 3 Для тех множеств нечетких эталонных грамматик б4«. С*у2, , Ск1т сравнение с которыми оказалось успешным, вычисляется соответствующее множество значений функций принадлежности Рс2с}2< ' ^а,с{. П0 формуле АС(С. а затем значение
меры Ак, характеризующей близость распознаваемого жеста к эталонным жестам к по формуле
МО,ср = Ак = тах{//С1 ^, ^^, , ^}
Шаг 4 Распознаваемый жест считается совпадающим с тем эталонным жестом к, для которого значение меры Ак оказалась максимальным
Шаг 5 Если не было ни одного успешного сравнения грамматик, то распознавание этого жеста заканчивается неудачей (жест не был распознан)
Вычислительная сложность распознавания динамических жестов с помощью нечетких моделей равна 0(тп), где т - количество нечетких автоматов, п - максимальное количество состояний нечеткого конечного автомата используемого для распознавания
В четвертой главе предлагается методология мультимодального распознавания сцен, определяемых жестами, с использованием операторов агрегирования (операторов Суджено или Шоке), использующих нечеткую меру В общем случае каждый кадр 1,(У,Щ может содержать Ь объектов
в,, 1 = 1, подлежащих распознаванию Распознавание объекта в, состоите вычислении множества значений операторов агрегирования А,,А2, , Ак по множеству значений функций принадлежности //,(>>,), /¿¡(Уг)-вычисляемых для распознаваемого объекта в,, где у, в У,,у2е У2, , у 1аеУт, а У, ,У2, , Ут - множество модальностей, характеризующих объект в, Объекты различных множеств 0, могут находиться в определенных, в общем случае г-арных отношениях Ее0,х0,гх х0,, {/,,/2, , /,}с{1, , Ц Каждое такое отдельное отношение Е, будем называть сценой 1-го уровня Сценами 5-го уровня будем называть сцены Е5бЕ5_,хЕ'_,х х!"_,, где Е,_,хЕ'_,х хЕ*_,- сцены (.?-1)-го уровня
Таким образом, методология мультимодального распознавания сцен, определяемых жестами, состоит из следующих шагов
Шаг 1 Каждый объект в,, вк, , в, , входящий хотя бы в одну сцену первого уровня Е, распознается отдельно сопоставлением соответственно с эталонными объектами ©Ч,,0Ч„ ,©*"/,, к, = 1, , К,, {/,,/2, , /г} с(1, , Ц с помощью операторов агрегирования Д, А,г, , А,
Шаг 2. Каждая сцена 1-го уровня Е,, для всех объектов которой найдены сходные с ними эталонные объекты, считается распознанной и для нее вычисляется значение оператора агрегирования А, После этого осуществляется переход к шагу 3 Если таких сцен не найдено, то распознанных сцен 1-го уровня и выше не существует и выполнение прекращается
Шаг 3 Задается значение уровня 5=2 и осуществляется переход к шагу
4
Шаг 4 Если найдены сцены 5-го уровня Е5 для всех сцен 1 )-го уровня которых найдены ненулевые значения операторов агрегирования, то эти сцены Е, считаются распознанными, для них вычисляются значение оператора агрегирования А1 Если существуют сцены уровня 5+1, то шаг 4 снова выполняется со значением 5=5+1, в противном случае выполнение прекращается
В пятой главе рассматривается архитектура системы распознавания динамических жестов (рис 6) В блоке формирования графов жестов (ФГЖ) на основе рассмотренных алгоритмов захвата и отслеживания области интересов создается граф выполненного жеста Сюда также включены алгоритмы захвата и отслеживания простых объектов (квадрат, прямоугольник, окружность) в кадре 1,(У,Щ и алгоритмы распознавания человека, использующиеся в блоке распознавания сцены
На этапе обучения системы полученный граф жеста поступает на вход блока обучения, который формирует нечеткие конечные автоматы и
множества нечетких эталонных грамматик С*/,/, Ск/2, , СкГт, к= 1, , К, в соответствии с рассмотренной методологией Нечеткие конечные автоматы, множество нечетких эталонных грамматик и ряд настроечных параметров системы сохраняются в базе знаний
На этапе распознавания, граф жеста, сформированный блоком ФГЖ, обрабатывается в блоке распознавания жестов В этом блоке осуществляется распознавание жестов с помощью эталонных нечетких моделей из базы знаний Если распознавание закончилось успешно, то блок принятия решений выдает управляющее воздействие, в зависимости от типа распознанного жсста
Рис 6 Архитектура системы распознавания жестов
В блоке распознавания сцены на основе рассмотренной методологии мультимодального распознавания, базирующейся на нечетких операторах агрегирования, проводится распознавание сцен 5-го уровня Для того чтобы провести распознавание сцен первого уровня, блок получает результаты распознавания объектов сцены из блока распознавания жестов и блока ФГЖ Результаты работы блока распознавания сцены могут влиять на принимаемое решение об управляющем воздействии
В блоке хранения истории управления сохраняется последовательность распознанных жестов и соответствующих им управляющих воздействий за определенное время, в частности с целью интерпретации принятых решений по управлению Все сцены и жесты, распознанные ранее этого периода, утрачиваются
В пятой главе с системой распознавания жестов проводится серия экспериментов. В первых экспериментах были найдены параметры, при которых алгоритмы захвата и отслеживания области интересов достигали лучших результатов отслеживания кисти человека. В следующих экспериментах было проведено сравнение результатов работы обоих алгоритмов. Для этого были найдены значения надежности и устойчивости работы алгоритмов. В общем случае, под надежностью понимается процент успешных захватов из числа всех попыток. Устойчивость это процент равный разности ста процентов и процента коэффициента ложных захватов. Коэффициент ложных захватов это процент ложных захватов из числа всех попыток.
Выяснено, что надежность, устойчивость и время работы алгоритма, основанного на последовательном выделении объектов по перемещению, цвету и кластерам, в среднем равна 93%, 99.74%, 56 мс (для кадра разрешением 320х240 пикселей) соответственно. Данный алгоритм показал более высокую устойчивость к захвату и отслеживанию кисти под разными углами, по сравнению алгоритмом, основанном на параллельном каскадном детекторе. Поэтому этот алгоритм был использован, как основной алгоритм в блоке формирования графов жестов системы.
Для блока распознавания жестов системы были проведены следующие эксперименты. 1. Нахождение надежности распознавания жеста, выполняемого одной рукой одним человеком. 2. Нахождение надежности распознавания жестов, выполняемых двумя руками по очереди одним человеком (рис. 7). 3. Нахождение надежности распознавания жестов, выполняемых одной рукой различными людьми.
Основное отличие третьего эксперимента определения надежности распознавания в том, что система обучалась одним пользователем, а тестировалась группой других пользователей.
Распознаваемые жесты
ш Максим, результат
ш Миним. результат
□ Средний результат
Рис. 7. Результаты экспериментов по распознаванию жестов, выполняемых двумя руками по очереди одним человеком
Надежность распознавания, в проведенных экспериментах, превышает девяносто процентов, что позволяет успешно использовать систему распознавании для реального интерфейса человек-компьютер В таком интерфейсе данные о распознанных динамических жестах могут быть использованы как команды управления программным обеспечением компьютера, заменяя интерфейс, основанный на использовании клавиатуры и мыши
В заключении сформулированы основные результаты, полученные в работе
3. ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Проведен сравнительный анализ моделей и методов захвата, отслеживания и распознавания динамических жестов, пригодных для создания человеко-машинных интерфейсов, по критериям вычислительной сложности На основе сравнительного анализа выявлены недостатки существующих методов, обоснована необходимость создания новых вычислительно-эффективных методов
2 Выполнена классификация жестов с точки зрения удобства построения на их базе человеко-машинного интерфейса Разработан алфавит динамических жестов, исключающий двусмысленность передаваемой информации за счет выбора жестов, не использующихся в обычном общении и состоящих из базовых жестов языка немых, интуитивно понятных пользователю
3 Разработан новый алгоритм захвата и отслеживания кистей человека на сложном фоне Алгоритм не требует дополнительных маркеров на теле человека выполняющего жест, захватывает кисти в помещении с различным фоном и освещением, в реальном времени, с вычислительной сложностью 0(Ю, высокой надежностью (93%) и устойчивостью (99 74%)
4 Разработан алгоритм и модель для распознавания динамических жестов, основанная на нечетких конечных автоматах Главными преимуществами нечеткой модели является возможность строить распознаватель, имея всего несколько примеров в обучающей выборке, строить нечеткие автоматы разной длины, распознавать жесты с траекторией, содержащей пересечения, распознавать жесты с надежностью не менее 90%, и вычислительной сложностью 0{тп), где т - количество нечетких автоматов, п - максимальное количество состояний нечеткого конечного автомата используемого для распознавания
5 Предложена новая методология мультимодального распознавания сцен, определяемых жестами, основанная на нечетких операторах агрегирования Методология позволяет учитывать степень важности каждой модальности в процессе иерархического распознавания сцен, расширять интеллектуальность интерфейса системы, задавать сцены на основе
статических и динамических объектов, повышать надежность распознавания отдельных объектов (например, жестов) на заданной сцене за счет использования отношений между этими объектами и другими объектами сцены (фоновыми объектами)
6 Разработана архитектура программной системы распознавания динамических жестов независимо от индивидуума Проведено экспериментальное апробирование системы, подтвердившее теоретические ожидания высокой надежности, устойчивости и скорости работы алгоритмов, пригодность их для создания реальных человеко-машинных интерфейсов на базе динамических жестов
Основные результаты диссертации изложены в следующих работах:
1 Алфимцев А Н Логико-вероятностный подход к построению Экспертной системы на основе Нейронных и Байесовых сетей
// Прогрессивные технологии, конструкции и системы в приборо- и машиностроении Сб трудов Всерос конф -М , 2004 -Т 3 - С 35-37
2 Алфимцев А Н Современные тенденции принятия управляющих решений на основе распознавания жестов // Информационные технологии и системы Сб трудов Всерос конф - М , 2007 - С 152157
3 Девятков В В , Алфимцев А Н Распознавание динамических жестов // Применение теории динамических систем в приоритетных направлениях науки и техники Сб трудов Всерос конф - Ижевск, 2007-С 15-23
4 Девятков В В , Алфимцев А Н Распознавание манипулятивных жестов // Вестник МГТУ им Н Э Баумана Сер Приборостроение -2007 - Т 68, № 3 - С 56-75
5 Девятков В В, Алфимцев А Н Параллельный захват и отслеживание динамических жестов руки // Системный анализ и информационные технологии Сб трудов Межд конф - М , 2007 - С 89-94
6 Devyatkov V , Alfimtsev A Gesture-based control of telerobots // Proc of 23rd ISPE International Conference on CARS & FOF 07 - Bogota, 2007 - P 59-67
7 Devyatkov V, Alfimtsev A Optimal Fuzzy Aggregation of Secondary Attributes m Recognition Problems // Proc of 16-th International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision - PIzen, 2008 - P 33-41
Подписано к печати 16 05 08 Заказ № 299 Объем 1,0 печ л Тираж 100 экз Типография МГТУ им Н Э Баумана 105005, Москва, 2-я Бауманская ул, д 5 263-62-01
Оглавление автор диссертации — кандидата технических наук Алфимцев, Александр Николаевич
ВВЕДЕНИЕ.
ГЛАВА 1. СРАВНИТЕЛЬНЫЙ АНАЛИЗ ИЗВЕСТНЫХ МОДЕЛЕЙ И СИСТЕМ РАСПОЗНАВАНИЯ ЖЕСТОВ ЧЕЛОВЕКА.
1.1. Постановка задачи.
1.2. Классификации жестов человека.
1.3. Выбор базового алфавита жестов.
1.4. Основные модели распознавания жестов.
1.4.1. Скрытые Марковские модели.
1.4.2. Нейронные сети.
1.4.3. Байесовые сети.
1.4.4. Другие модели.
1.5. Системы распознавания жестов.
1.6. Выводы.
ГЛАВА 2. ЗАХВАТ И ОТСЛЕЖИВАНИЕ ОБЛАСТИ ИНТЕРЕСОВ НА СЛОЖНОМ ФОБЕ.
2.1. Постановка задачи.
2.2. Алгоритм захвата и отслеживания основанный на анализе перемещения области интересов.
2.3. Алгоритм захвата и отслеживания основанный на анализе цвета области интересов.
2.4. Алгоритм захвата и отслеживания областей интересов, основанный на последовательном выделении объектов по перемещению, цвету и кластерам.
2.5. Оценка вычислительной сложности алгоритма захвата и отслеживания областей интересов, основанного на последовательном выделении объектов по перемещению, цвету и кластерам.
2.6: Алгоритм захвата и отслеживания областей интересов, основанный? на параллельном каскадном детекторе с использованием характерных признаков Хаара.
2.7. Оценка вычислительной сложности алгоритма захвата и отслеживания областей интересов- основанного на параллельном каскадном* детекторе с использованием характерных признаков Хаара.
Ш Выводы.
ГЛАВА 3. НЕЧЕТКАЯ МОДЕЛЬ РАСПОЗНАВАНИЯ ДИНАМИЧЕСКИХ
ЖЕСТОВ;.
3; V. Постановка задачи;.
3.2. Принципы выполнения динамических жестов и формирования их моделей.
3.3. Распознавание динамических жестов с использованием модели, основанной на нечетких конечных;автоматах и грамматиках'.
3;3U. Основные понятия и определения.т.
3;3;2. Нечеткие конечные автоматы и грамматики.
3;4. Выводы.:.
ГЛАВА 4. МУЛЬТИМОДАЛЬНОЕ АГРЕГИРОВАНИЕ В ЗАДАЧАХ РАСПОЗНАВАНИЯ.;.
4.1. Постановка задачи.
4.2. Агрегирование модальностей с помощью операторов Суджено и
Шоке.
4.3 . Мультимодальное распознавание на основе операторов агрегирования Суджено и Шоке.
4.4. Мультимодальное распознавание сцен, определяемых, жестами.
4.5. Выводы.
ГЛАВА 5. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ И АПРОБИРОВАНИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ ДИНАМИЧЕСКИХ ЖЕСТОВ.
5.1. Постановка задачи.
5.2. Архитектура системы распознавания жестов.
5.3. Эксперимент 1. Нахождение порогового значения разности интенсивностей пикселей.
5.4. Эксперимент 2. Нахождение времени работы алгоритма захвата и отслеживания областей интересов, основанного на последовательном выделении объектов по перемещению, цвету и кластерам.
5.5. Эксперимент 3. Нахождение оптимального числа слоев каскада для алгоритма захвата и отслеживания областей интересов, основанного на параллельном каскадном детекторе.
5.6. Эксперимент 4. Сравнение алгоритмов захвата и отслеживания областей интересов.
5.7. Эксперимент 5. Нахождение надежности распознавания жестов, выполненных одной рукой одним человеком.
5.8. Эксперимент 6. Нахождение надежности распознавания жестов, выполненных двумя руками, по очереди одним человеком.
5.9. Эксперимент 7. Нахождение надежности распознавания жестов, выполненных одной рукой различными людьми.
5.10. Выводы.
Введение 2008 год, диссертация по информатике, вычислительной технике и управлению, Алфимцев, Александр Николаевич
Актуальность темы. Анализ поведения человека (его голоса, жестов, эмоций и т.п.) с помощью методов компьютерного зрения сегодня является одним из актуальнейших направлений, востребованных в самых различных областях применения. Среди таких областей можно назвать следующие:
• медицина, где по поведению человека можно судить о состоянии его здоровья,
• безопасность, где по поведению" можно судить о намерениях человека совершить неправоправные действия,
• управление, например, автомобилем или тренажером, где в зависимости от поведения выбирается тот или иной режим движения,
• в быту, для предоставления людям, имеющим, например, дефекты речи возможности общаться с компьютером или другим оборудованием с помощью доступного ему поведения,
• в робототехнике, для естественного общения с роботами и т.д.
В данной работе используется только один тип поведенческих возможностей человека, а именно жесты.
В настоящее время разработка и исследование человеко-машинных интерфейсов, основанных на распознавании образов и визуальном представлении мультимедийной информации, становится передним краем в развитии современного математического и программного обеспечения. Перед разработчиками подобных интерфейсов ставится задача использования естественных для человека способов общения с компьютерами с помощью жестов, голоса, мимики и других модальностей. Жесты являются особенно перспективными для построения интерфейсов управления программным и аппаратным обеспечением компьютеров, роботов, позволяют расширить возможности интерфейса для людей с дефектами слуха и речи.
В связи с этим, актуальность темы диссертации с теоретической точки зрения диктуется необходимостью разработки методов, моделей и алгоритмов захвата, отслеживания: и распознавания жестов, совершаемых человеком: в реальном времени, в частности руками; пригодных для создания- интерфейса управления работой компьютера с их помощью.
Актуальность темы с прикладной точки зрения; определяется необходимостью создания программных систем, способных обеспечить с помощью жестов интерфейс с персональным компьютером: В' реальном времени, используя только видеокамеры. А
Объект, исследования: методы, алгоритмы,' и программы, захвата, отслеживания и распознавания жестов человека.
Предмет исследования: типы жестов, структура методов и алгоритмов захвата, отслеживаниями распознаваниягдинамических.жестов, их взаимосвязь, сложность, надежность, устойчивость, позволяющие распознавать динамические жесты в .реальном; времени.
Цель работы и задачи исследований. Целью работы является разработка общей методологии? захвата;, отслеживания? и распознавания динамических жестов: человека, совершаемых руками, включая модели, методы и алгоритмы, теоретическое и экспериментальное обоснование работоспособности этой методологии в реальном времени: с: высоким уровнем; надежности для создания работоспособных человеко-машинных интерфейсов.
Для реализации этой цели были поставлены следующие задачи:
1. Осуществить сравнительный аналитический обзор существующих методов захвата, отслеживания и распознавания динамических жестов человека.
2. Провести классификацию жестов/ выполняемых человеком и выбрать алфавит динамических жестов, пригодный для создания человеко-машинного интерфейса для управления компьютером.
3;. Разработать вычислительно эффективный алгоритм захвата и отслеживания кисти человека на сложном фоне:
4. Разработать вычислительно эффективную модель и алгоритм распознавания: динамических жестов человека.
5. Разработать методологию мультимодального распознавания сцен, определяемых динамическими жестами.
6. Провести эксперименты по оценке надежности и работоспособности системы в реальном времени, подтверждающие теоретические результаты.
Методы исследования. Основной задачей при планировании исследования было гармоничное сочетание теоретических проработок и экспериментальных проверок. Надежность, устойчивость и достоверность полученных алгоритмов и моделей проверялась на специально подготовленной доверительной выборке. Методы исследований базировалась на статистическом анализе и математическом моделировании, теории нечеткой логики и нечетких множеств, методах объектно-ориентированного программирования и разработки интеллектуальных систем, теории распознавания образов.
Научная новизна. Разработана новая комплексная методология захвата, отслеживания и распознавания динамических жестов в видеопотоке. В рамках этой комплексной методологии получены следующие новые результаты.
Разработан алгоритм захвата и отслеживания кисти человека в видеопотоке на сложном фоне, обладающий более высокой надежностью и устойчивостью работы по сравнению с известными из литературы аналогами.
Разработан алгоритм и вычислительно-эффективная модель для распознавания жестов, основанная на нечетких конечных автоматах, сложность распознавания с помощью которой составляет 0(тп), где т -количество нечетких автоматов используемых для распознавания, п -количество состояний нечеткого конечного автомата.
Разработана методология мультимодального распознавания сцен, определяемых жестами, с использованием нечетких операторов агрегирования. Методология позволяет повысить надежность распознавания жестов за счет использования дополнительных источников информации, учесть степень важности каждой модальности, непосредственно в процессе иерархического распознавания сцен.
В работе предложен алфавит жестов, позволяющий широко использовать его в различных приложениях для создания интерфейсов человек-компьютер!
Экспериментально показано, что предложенная архитектура системы распознавания динамических жестов* позволяет с высокой степенью надежности' распознавать в реальном- времени1 жесты независимо от индивидуума.
Практическая значимость и. реализация. На основе разработанных алгоритмов создано программное обеспечение захвата и отслеживания и распознавания'жестов, позволяющее-использовать его1 в различных человеко-машинных интерфейсах на основе жестов. Материалы, работы используются, в учебном процессе кафедры информационных систем^ и, телекоммуникаций МГТУ им. Н.Э. Баумана в курсе «Обработка изображений-вхинформационных системах».
Программное обеспечение реализовано - на персональном компьютере. Для захвата" и отслеживания кадра используется Web-камера. Программы системы написаны на. языке программирования С++ в объектно-ориентированной нотации. Документация программной реализации удовлетворяет требованиям, предъявляемым к программным продуктам ГОСТ 19.105-78.
Система имеет следующие характеристики:
1. Скорость работы в реальном'времени (15 кадров в секунду).
2. Устойчивость к шуму, характерному для недорогих, «домашних» видеокамер (Web-камер).
3. Функционирование- с кадрами низкого 320х240 пикселей/8 бит, и среднего 640 х 480 пикселей/8 бит качества.
Программный модуль распознавания жестов прошел экспериментальную проверку в системе обеспечивающий: интуитивный интерфейс между человеком и телевизоромj разработанной в. соответствии с генеральным соглашением;между МЕТУ им. Н.Э. Баумана и компанией «NXP Semiconductors founded by Philips».
Публикации. Основные результаты работы изложены в семи научных публикациях- [1, 3, 13j 14, 15, 50, 51], из них в журналах по списку ВАК - 1. .
Апробация результатов работы:
1. Презентация; научных исследований в области интуитивного интерфейса для инженеров компании Philips, 10.07.2006, Россия, г. Москва:
2. Доклад по результатам научно-исследовательского проекта- в соответствии с: генеральным; соглашением, 19.12.2006, Нидерланды,. г. Эйндховен.,
3. 2-й всероссийской, конференции «Теория динамических- систем? в приоритетных направлениях науки и техники», 25.06.2007, Россия, г. Ижевск.
4. 23-й международной конференции робототехника :и заводы будущего CARS & FOF 07, 17.08.2007, Колумбия, г. Богота.
5. 2-й международной конференции «Системный» анализ^- информационные технологии» САИТ-2007,10.09.2007, Россия, г. Обнинск.
6. 30-й; конференции молодых ученых и специалистов ИППИ РАН «Информационные технологии и системы» ИТиС-2007, 18.09.2007, Россия, г. Звенигород. 7. 16-й международной конференции.- в> Центральной Европе по компьютерной графике, визуализации: и- компьютерному зрению WSCG08, 06.02:2008; Чехия, г. Пльзень.
Структура и объем; работы. Диссертационная* работа состоит из введения, пяти глав, заключения и списка литературы, занимающих 165 страниц текста, в том числе1 41 рисунок на 35 страницах, 13 таблиц на 21 странице, список литературы на 11 страницах.
Заключение диссертация на тему "Разработка и исследование методов захвата, отслеживания и распознавания динамических жестов"
ЗАКЛЮЧЕНИЕ И ОБЩИЕ ВЫВОДЫ
В результате проведенных исследований была достигнута цель работы и решены все поставленные задачи. В работе получены следующие новые научные результаты теоретического и прикладного характера.
1. Проведен сравнительный анализ известных моделей и методов захвата, отслеживания и распознавания динамических жестов человека, пригодных для создания человеко-машинных интерфейсов, по критериям вычислительной сложности. Показано, что оценки вычислительной сложности распознавания жестов с помощью этих моделей зависят от квадрата числа состояний (СММ), нейронов (нейросети) или вершин (Байесовы сети), используемых для распознавания, умноженных на число символов наблюдаемой последовательности. Вследствие этого, с ростом этих величин, практическое использование для распознавания жестов в реальном времени указанных моделей, из-за высоких затрат процессорного времени и памяти компьютера, становится невозможным. Тем самым обоснована необходимость создания новых вычислительно-эффективных методов.
2. Выполнена классификация жестов с точки зрения удобства построения на их базе человеко-машинного интерфейса и разработан алфавит динамических жестов, исключающий двусмысленность передаваемой информации за счет выбора жестов, не использующихся в обычном общении и состоящих из базовых жестов языка немых, интуитивно понятных пользователю.
3. Разработан новый алгоритм захвата и отслеживания кистей человека на сложном фоне. Показано, что этот алгоритм вычислительно эффективен, так как имеет линейную оценку сложности вычисления, равную О (TV), где N -число пикселей в кадре. Алгоритм не требует дополнительных маркеров на теле человека выполняющего жест, позволяет захватывать кисти в помещении с различным фоном и освещением в реальном времени с высокой надежностью (93%) и устойчивостью (99.74%).
4. Разработан новый алгоритм и модель для распознавания динамических жестов, основанная на нечетких конечных автоматах. Показано, что нечеткая модель вычислительно эффективна, так как имеет оценку сложности вычисления, равную 0(тп), где т - количество нечетких автоматов, используемых для распознавания, п - максимальное количество состояний нечеткого конечного автомата. Использование данной модели позволяет осуществлять распознавание динамических жестов по небольшой обучающей выборке, состоящей из нескольких образцов жеста, различной длины, с траекториями, имеющими пересечения и с надежностью не менее 90%.
5. Предложена новая методология мультимодального распознавания сцен, определяемых жестами, основанная на нечетких операторах агрегирования. Методология позволяет учитывать степень важности; каждой модальности и их взаимовлияние в процессе иерархического распознавания сцен, распознавать сцены со статическими и динамическими объектами, повышать надежность распознавания отдельных объектов (например, жестов) сцены за счет задания отношений между этими объектами и фоновыми объектами, создавать мультимодальный интерфейс.
6. Разработана архитектура программной системы распознавания динамических жестов, независимых от индивидуума, пригодная для создания реальных человеко-машинных интерфейсов. Произведено экспериментальное апробирование программной системы, подтвердившее теоретические оценки высокой надежности (не менее 93%) и устойчивости (не менее 99,74%) захвата, высокой надежности распознавания (не менее 90%) и работоспосрбность системы в реальном времени (0.3 секунд /жест).
Библиография Алфимцев, Александр Николаевич, диссертация по теме Теоретические основы информатики
1. Алфимцев А.Н. Логико-вероятностный подход к построению Экспертной системы на основе Нейронных и Байесовых сетей // Прогрессивные технологии, конструкции и системы в приборо- и машиностроении: Сб. трудов Всерос. конф.-М., 2004.-Т. 3.- С. 35-37.
2. Алфимцев А.Н. Выбор алгоритма обучения байесовой сети // Прогрессивные технологии, конструкции и системы в приборо- и машиностроении: Сб. трудов Всерос. конф.-М., 2005.- Т. 3,- С. 234.
3. Алфимцев А.Н. Современные тенденции принятия управляющих решений на основе распознавания жестов // Информационные технологии и системы: Сб. трудов Всерос. конф,- М., 2007.- С. 152-157.
4. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции.- М.: Мир, 1978,- Т. 1.- 612 с.
5. Бобков А.В. Разработка и исследование алгоритмов анализа видимого изображения и их применение в задачах управления: Дис. . канд. тех. наук.- М., 2002.-142 с.
6. Буч Г. Объектно-ориентированный анализ и проектирование с примерами приложений на С++ .- М.: Изд-во Бином, 1998.- 560 с.
7. Вежневец А.П. Устойчивый метод усиления слабых классификаторов // Межд. конф. студ., аспир. и молод, учен. «Ломоносов»: Сб. трудов конф.- М., 2006.- С. 21-26.
8. Вежневец В.П. Алгоритмы анализа изображения лица человека для построения интерфейса человек-компьютер: Дис. . канд. физ.-мат. наук.- М., 2003.-138 с.
9. Визильтер Ю.В., Желтов С.Ю., Ососков М.В. Системы распознавания и визуализация характерных черт человеческого лица в реальном времени на персональной ЭВМ с использованием web-камеры // Графикон: Сб. трудов конф.- Нижний Новгород, 2002.- С. 251-254.
10. Вятченин Д.А. Нечеткие методы автоматической классификации: Монография. -Мн.: УП "Технопринт", 2004-219 с.
11. И.Гонсалес Р., Вудс Р. Цифровая обработка изображений.-М.: Техносфера, 2006.-1072 с.
12. Григорьева Е. В. Обучение невербальным компонентам иноязычного общения: Дис. канд. пед. наук.- Пятигорск, 2004.- 188 с.
13. Девятков В.В., Алфимцев А.Н. Распознавание динамических жестов // Применение теории динамических систем в приоритетных направлениях науки и техники: Сб. трудов Всерос. конф.- Ижевск, 2007.- С. 15-23.
14. Девятков В.В., Алфимцев А.Н. Распознавание манипулятивных жестов // Вестник МГТУ им. Н.Э.Баумана. Сер. Приборостроение.- 2007.- Т. 68, № 3.- С.56-75.
15. Девятков В.В., Алфимцев А.Н. Параллельный захват и отслеживание динамических жестов руки // Системный анализ и информационные технологии: Сб. трудов Межд. конф.- М., 2007.- С. 89-94.
16. Зайцева Г.Л. Жестовая речь. Дактилология: Учеб. для студ. Высш. Учеб. Заведений.- М.: Гуманит. Изд. центр ВЛАДОС, 2004.-192 с.
17. Карпов Ю.Г. Теория автоматов. СПб.: Питер, 2003.-208 с.
18. Кириленко Г.Л. Проблема исследования жестов в зарубежной психологии // Психологический журнал.-1987.- №4.-С. 138-147.
19. Кормен Т., Лейзерсон Ч., Ривест Р. Алгоритмы: построение и анализ.-М.: МЦНМО: Бином. Лаборатория знаний, 2004.- 955 с.
20. Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. -М.: Телеком, 2002.- С. 23-327.
21. МешковаТ. А., Малых С.Б., Куравский Л. С. Стандартизация психологических тестов: проблема формирования репрезентативной выборки. Учебно-методическое пособие.- М.: МГППУ, 2003.-72 с.
22. Нечеткие множества в моделях управления и искусственного интеллекта/ А. Н. Аверкин, И. 3. Батыршин, А. Ф. Блишун и др.-М.:Наука, 1986.-312 с.
23. Нейроинформатика / А.Н.Горбань, В.Л.Дунин-Барковский, А.Н.Кирдин и др. Новосибирск: Наука, 1998.- 296 с.
24. Оценка освещения рабочих мест: Метод, указания / Варов В.К. и др.-М.: М-во труда и соц. развития РФ НПК "Апрохим", 1998.- 57 с.
25. Просис Д. Файлы растровой графики: взгляд внутрь // PC Magazine.-1996.-№12.- С. 3-21.
26. Ронжин А.Л., Карпов А.А., Ли И.В. Речевой и многомодальный интерфейсы. М.: Наука, 2006. - 172 с.
27. Терехов С.А. Введение в Байесовы сети. Лекции по нейроинформатике.- М.: МИФИ, 2003.- Т.1.- 149 с.
28. Уоссерман Ф. Нейрокомпьютерная техника: теория и практика / Пер. с англ. Ю.А. Зуева и В.А. Точенова. -М.: Мир, 1992. С. 3-54.
29. Форсайт Д., Понс Ж. Компьютерное зрение. Современный подход / Пер. с англ. А.В. Назаренко и И.Ю. Дорошенко.- М.: Издат. дом "Вильяме", 2004.- 928 с.
30. Шапиро Л., Стокман Д. Компьютерное зрение / Пер. с англ.-М.:БИНОМ. Лаборатория знаний, 2006.-752 с.
31. Шоргин Р., Вежневец А. Приложение-разметчик для создания тренировочной выборки для обучаемых методов распознавания объектов на изображениях // Межд. конф. студ., аспир. и молод, учен. "Ломоносов": Сб. трудов конф.- М., 2006.- С. 23-25.
32. Avilts-Aniaga Н. Н., Sucart L.E., Mendozaz С. Е. Visual Recognition of Gestures using Dynamic Naive Bayesian Classifiers // Proc. of IEEE Internat. Workshop on Robot and Human Interac. Com.- Milibrae, 2003,- P. 133-138.
33. Akasaka Y., Onisawa T. Individualized pedestrian navigation using fuzzy measures and integrals // Proc of IEEE Intern. Conf. on syst., man and cybern.- Hawai, 2005.-Vol.2.- P.1461-1466.
34. Alon J., Athistos V., Yuan Q. and Sclaroff S. Simultaneous Localization and Recognition of Dynamic Hand Gestures // Proc. of WACV MC)TION'05.-Breckenridge, 2005.-Vol.2.- P.254-260.
35. Arthur D., Vassilvitskii S. How slow is the k-means method? // Proc. of the 22 annual symposium on Сотр. geometry.- Sedona, 2006.- P. 144-153.
36. Ayers D., Shah M. Recognizing human actions in a static room // Proc. of 4th IEEE Workshop on Applicat. of Сотр. Vision.-Princeton, 1998.- P. 42-47.
37. Barhate K.A. Robust shape based two hand tracker // Proc. of IEEE Internat. Conference on Image Processing (ICIP).- Singapore, 2004.-P. 1017-1020.
38. Baskan S., Bulut M., Atalay V. Projection based method for segmentation of human face and its evaluation // Pattern Recognition Letters.-2002.-Vol 23, №14.-P. 1623-1629.
39. Bobick A.F., Wilson A.D. A State-Based Approach to the Representation and Recognition of Gesture // IEEE Transactions on pattern analysis and machine intelligence.-1997.-Vol. 19, №12.-P. 1325-1337.
40. Bolanos M.J. Numerical experimentation and comparison of fuzzy integrals // Mathware & Soft Computing.-1996.-Vol. 3.-P. 309-319.
41. Bradski G.R. Computer Vision Face Tracking For Use in a Perceptual User, // Intel Technology Journal.-1998.-Vol.2.- P. 1-15.
42. Brown L.G. A survey of image registration techniques // Computing Surveys.-1992.-Vol. 24, №4.- P. 325-376.
43. Buxton H., Gong S. G. Visual surveillance in a dynamic and uncertain world // Artif. Intell.-1995.-Vol. 78.- P. 431-459.
44. Camus T. Real-time quantized optical flow // Journal of Real-Time Imaging.-1997.-Vol. 3.- P.71-86.
45. Chen X., Jing Z., Xiao G. Fuzzy Fusion for Face Recognition // Fuzzy Systems and Knowledge Discovery.-2005.-Vol.361.-P.672-675.
46. Corso J., Ye G., Hager G. Analysis of Composite Gestures with a Coherent Probabilistic Graphical Model // Virtual reality.-2005.-Vol.8,№4.-P.242-252.
47. Cutler R., Turk M. View-based Interpretation of Real-time Optical Flow for Gesture Recognition // Proc. of Third IEEE Intern. Conf. on Autom. Face and Gesture Recog.-Nara, 1998.- P. 416-421.
48. Darwiche A. A Differential Approach to Inference in Bayesian Networks //Journal of the ACM.-2001.- Vol. 50, №3.-P. 280 -305.
49. Davis J.W., Shah M. Gesture Recognition // Proc. of European Conf. Сотр. Vis.-Stockholm, 1994.- P. 331-340.
50. Devyatkov V., Alfimtsev A. Gesture-based control of telerobots// Proc. of 23rd ISPE International Conference on CARS & FOF 07.- Bogota, 2007.-P. 59-67.
51. Devyatkov V., Alfimtsev A. Optimal Fuzzy Aggregation of Secondary Attributes in Recognition Problems // Proc. of 16-th International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision.-Plzen, 2008.-P. 78-85.
52. Ekman P., Friesen W. The repertoire of nonverbal behavior: categories, origins, usage and coding // Semiotica.-1969.-Vol. 1.- P. 49-98.
53. Freeman W. Computer vision for interactive computer graphics // IEEE Comput. Graphics and Applications.-1998.-Vol.18, №3.-P. 42-53.
54. Frei W., Chen С. C. Fast boundary detection: a generalization and new algorithm//IEEE Trans. Comput.-1977.- Vol.26, №10.-P.988-998.
55. Garcia C., Tziritas G. Face Detection Using Quantized Skin Color Regions Merging and Wavelet Packet Analysis // IEEE Transactions on multimedia.-1999.-Vol. 1, №3.-P. 264-277.
56. Gould K., Shah M. The Trajectory Primal Sketch: A MultiScale Scheme for Representing Motion Characteristics // Proc. of Сотр. Vis. and Pattern Rec.-San Diego, 1989.- P. 79-85.
57. Grabisch M., Roubens M. Application of the Choquet Integral in Multicriteria Decision Making // Proc. of Fuzzy Measures and Integrals.-Paris, 2000.-P. 415-434.
58. Gupta N. Online predictive appearance-based tracking // Proc. of IEEE Internat. Conf. on Image Processing (ICIP).- Singapore, 2004.-P.1041-1044.
59. Hong L., Greenspan M. Multi-scale gesture recognition from time-varying contours //Proc. of ICCV.-Beijing, 2005.- Vol. l.-P. 236-243.
60. Hong P., Turk M., Huang T. Gesture Modeling and Recognition Using Finite State Machines // Proc. of IEEE Conference on Face and Gesture Recognition.- Grenoble, 2000.- P. 410-416.
61. Hong P., Turk M., Huang T. S. Constructing finite state machines for fast gesture recognition// Proc. of 15th ICPR.-Barcelona, 2000.- P. 691-694.
62. Hongo H. Visual recognition of static/dynamic gesture: face and hand gesture recognition for human-computer interaction // Proc. of 15th Internat. Conference on Pattern Recognition (ICPR).- Barcelona, 2000.-P. 2921-2924.
63. Horn В., Schunck B. Determining optical flow // Artificial Intelligence.-1998.-Vol. 17.-P. 185-203.
64. Imagawa K. Recognition of local features for camera-based sign language recognition system // Proc of 15th Internat. conference on pattern recognition (ICPR).- Barcelona, 2000.-P. 4849-4853.
65. Jensen F.V. Bayesian Networks and Decision Graphs.-Springer, 2001 .-150 p. '
66. Johansson G. Perception of motion and changing form // Scandanavian J. Psychology.-1964.-Vol.5.-P. 181 -208.
67. Kage H. Artificial retina chips as on-chip image processors and gesture-oriented interfaces // Optical Engineering.-1999.-Vol.38, №12.-P. 1979-1988.
68. Kirsch R. Computer determination of the constituent structure of biological images //Comput. Biomed. Res.-1977.-Vol.4, №3.-P.315-328.
69. Kwak K., Pedrycz W. Face recognition: A study in information fusion using fuzzy integral // Patt. Recog. Lett.-2005.-Vol. 26.-P. 719-733.
70. Lichtenauer J.F., Reinders M.J.T., Hendriks E.A. A self-calibrating chrominance model applied to skin color detection // Proc. of the 2nd International Conference on Computer Vision Theory and Applications (VISAPP).- Barcelona, 2007.- P. 115-120.
71. Lienhart R., Maydt J. An Extended Set of Haar-like Features for Rapid Object Detection // ШЕЕ ICIP.- New York, 2002.-Vol.l.-P. 900-903.
72. Lienhart R., Kuranov A., Pisarevsky V. Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid Object Detection // Proc. of DAGM03.- Magdeburg, 2003.-P. 297-304.
73. Liu Z. Dynamic image sequence analysis using fuzzy measures // IEEE trans, on sys., man, and cybern.-2001.-Vol. 31, №4.-P.557-572.
74. Liu F., Lin X. Multi-modal face tracking using Bayesian network // IEEE Internat. Workshop on Analysis and Modeling of Faces and Gestures.- Nice, 2003.-P. 135-142.
75. Loy G., Zelinsky A. Fast Radial Symmetry for Detecting Points of Interest // IEEE Trans. On Pattern Analysis and Machine Intelligence.-2003.-Vol. 25, №8.-P. 959-973.
76. Malassiotis S., Aifanti N., Strintzis M. A Gesture Recognition System Using 3D Data // Proc. of First Int. Symposium on 3D Data Processing Visualization and Transmisssion.-Padova, 2002.-P. 190-193.
77. Manning C. D., Schutze H. Foundations of Statistical Natural Language Processing.-MIT Press, 1999.-722 p.
78. Marichal J. On Choquet and Sugeno Integrals as Aggregation Functions // In Fuzzy Measures and Integrals.-2000.-Vol. 40.-P. 247-272.
79. Miklos I., Meyer I. A linear memory algorithm for Baum-Welch training //BMC Bioinformatics.-2005.-Vol.6, №231.- P. 1471-2105.
80. Minnen D., Essa I., and Starner T. Expectation Grammars: Leveraging High-Level Expectations for Activity Recognition // Proc. of IEEE Conf. Computer Vision and Pattern Recognition.-Madison, 2003.-Vol.2.-P. 626-632.
81. Ong S., Ranganath S. Automatic sign language analysis: a survey and the future beyond lexical meaning // IEEE Transactions on Pattern Analysis and Machine Intelligence.-2005.-Vol.27, №6.-P.873-891.
82. Ong C.W., Ranganath S., Venkatesh Y.V. Understanding gestures with systematic variations in movement dynamics // Pattern recognition.-2006.-Vol.39, №9.-P. 1633-1648.
83. Patel S. A lower-complexity Viterbi algorithm // Acoustics, Speech, and Signal Processing.-1995.-Vol.1.- P. 592-595.
84. Patwardhan K.S., Dutta Roy S. Dynamic hand gesture recognition using predictive eigentracker // Proc. of Indian Conference on Computer Vision, Graphics and Image Processing.- Calcutta, 2004.- P. 675-680.
85. Pearl J. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference.-CA: Morgan Kaufman, 1988.-580 p.
86. Pingali, G., Y. Jean, Carlbom I. Real time tracking for enhanced tennis broadcasts // Proc. of IEEE CVPR.- Santa Barbara, 1998.-P.260-265.
87. Popescu M., Keller J.M., Mitchell J.A. Fuzzy Measures on the Gene Ontology for Gene Product Similarity // IEEE/ACM transaction on computational biology and bioinformatics.-2006.-Vol. 3.-P. 263-274.
88. Rabiner L., Juang B.H. Fundamentals of Speech Recognition.-Prentice Hall, 1993.- 507 p.
89. Rett J., Dias J. Gesture Recognition Using a Marionette Model and Dynamic Bayesian Networks // Lecture notes in computer science.- 2006.- Vol. 4142.-P. 69-80.
90. Rigoll, G., Kosmala, A., Eickeler, S. High Performance Real-Time Gesture Recognition Using Hidden Markov Models // Proc. of the Internat. Gesture Workshop on Gesture and Sign Lang, in Human-Computer Interac.-Bielefeld, 1997.- P. 69-80.
91. Riviere J.B., Guitton P. Model-based video tracking for gestural interaction // Virtual Reality.-2005.-Vol.8, №4.- P. 213-221.
92. Sandberg A. Gesture Recognition using Neural Networks: Master thesis.-Stockholm, 1997.- 76 p.
93. Schapire R.E. Boosting the margin: A new explanation for the effectiveness of voting methods // Annals of Statistics.-1998.-Vol.26, №5.-P. 1651-1686.
94. Schumeyer R. P., Barner К. E. A Color-Based Classifier for Region Identification in Video // SPIE Visual Communications Image Processing.-1998,-Vol. 3309.-P. 189-200.
95. Segen J., Kumar S. Gesture VR: Vision-based 3D Hand Interface for Spatial Interaction//Proc. of ACM Int. Conf. Multimed.-Bristol, 1998.-P. 455-464.
96. Sedlacek M. Evaluation of RGB and HSV models in Human Faces Detection // Proc. of Central European Seminar on Computer Graphics.- Plzen, 2004.-P.125-131.
97. Shafer G. A Mathematical Theory of Evidence.-NJ: Princeton Univ. Press, 1976.-312 p.
98. Sharma R. Speech-Gesture Driven Multimodal Interfaces for Crisis Management// The IEEE Proceedings.-2003.-Vol. 91, №9.- P. 1327-1354.
99. Sigal L., Sclaroff S. Skin Color-Based Video Segmentation under Time-Varying Illumination // IEEE Transactions on pattern analysis and machine intelligence.- Orlando, 2004.-Vol.26, Ж7.-Р.862-877.
100. Siskind J.M. Visual Event Perception // Proc. of the 9th NEC Research Symposium.-Yokohama, 1998.-P. 225-263.
101. Starner Т., Weaver J., and Pentland A. Real-Time American Sign-Language Recognition Using Desk and Wearable Computer Based Video // IEEE Trans. Pattern Analysis and Machine Intelligence.-1998.-Vol.20, №12.-P.1371-1375.
102. Stollnitz E.J. Wavelets for computer graphics: a primer, parti // IEEE Computer Graphics and Applications.-1995.-Vol. 15, №3.-P. 76-84.
103. Sugeno M. Fuzzy measures and fuzzy integrals: A survey // Proc. of Fuzzy Automata und Decision Processes.-Amsterdam, 1977.-P. 89-102.
104. Su J., Zhang H. Full Bayesian Network Classifiers // Proc. of the 23rd internat. conf. on Machine learning.-Pittsburgh, 2005.- P. 897 904.
105. Tahani H., Keller J. M. Information fusion in computer vision using the Fuzzy integral // IEEE transactions on systems, man, and cybernetics.-1990.-Vol. 20, №3.-P.733-741.
106. Tomasi С., Petrov S., Sastry A. 3D Tracking = Classification + Interpolation // Proc. of 9th Int. Conf. Сотр. Vision.- Nice, 2003.-P. 1441-1448.
107. Utsumi A., Ohya J. Multiple-Hand-Gesture Tracking Using Multiple Cameras // Proc. of IEEE Conf. Computer Vision and Pattern Recognition.-Fort Collins, 1999.-Vol. l.-P. 473^78.
108. Vidal E., Thollard F., Higuera C., Casacuberta F., and Carrasco R. Probabilistic Finite-State Machines-Part II // IEEE Trans. Pattern Analysis and Machine Intelligence.-2005.-Vol.27, №7.-P. 1026-1039.
109. Viola P., Jones M. Rapid Object Detection using a Boosted Cascade of Simple Features // Proc. of Conf. on Сотр. Vision and Patt. Recog.- Kauai, 2001.-Vol .1.-P.511-518.
110. Wang X., Chen J. Multiple Neural Networks fusion model based on Choquet fuzzy integral // Proc. of the Third Intern. Conf. on Mach. Learn, and Cybern.- Shanghai, 2004.-Vol.4.-P. 2024-2027.
111. Wong S.-F. Cipolla, R. Continuous Gesture Recognition using a Sparse Bayesian Classifier // Proc of 18th Internat. Conf. on Pattern Recognition.-Hong Kong, 2006.-P. 1084-1087.
112. Wu H., Chen Q., Yachida M. Face Detection From Color Images Using a Fuzzy Pattern Matching Method // IEEE Transactions on pattern analysis and machines intelligence.-1999.-Vol.21, № 6.-P. 557-563.
113. Wu Y., Huang T. View-independent Recognition of Hand Postures // Proc. of IEEE Conf. Computer Vision and Pattern Recognition.- Hilton Head Island, 2000.-Vol. 2.-P. 88-94.
114. Yamato J., Ohya J., Ishii K. Recognizing Human Action in Time-Sequential Images Using Hidden Markov Model // Proc. of Сотр. Vis. and Pattern Rec.-Champaign, 1992.- P. 379-385.
115. Yang J., Waibel A. A real-time face tracker // Proc. of the Third IEEE Workshop on Applicat. of Сотр. Vision.- Cambridge, 1996.-P. 142-147.
116. Ye G., Corso J. Hager G. Gesture Recognition Using 3D Appearance and Motion Features // Proc. of Workshop on Real-time Vision for Human-Computer Interaction.- Washington, 2004.-P. 160-161.
117. Zhang Z., Wu Y., Shan Y. Visual Panel: Virtual Mouse Keyboard and 3D Controller with an Ordinary Piece of Paper // Proc. of Workshop on Perceptive User Interfaces.- Orlando, 2001.-P. 1-8.
118. Zhang S., Karim M.A. A new impulse detector for switching median filters // IEEE Signal Processing Letters.-2002.-Vol.9.-P.360-363.
119. Zhu X., Yang J., Waibel A. Segmenting Hands of Arbitrary Color // Proc. of IEEE Conference on Face and Gesture Recognition.- Grenoble, 2000.-P. 446-453.g • ^
120. Разработка и исследование методов захвата, отслеживания и распознавания динамических жестов"
121. Научные и практические результаты диссертационной работы внедрены в учебный* процесс кафедры ИУ-3 в рамках курса "Обработка изображении в информационных системах" читаемого Алфимцевым А.Н.
122. Объектами внедрения являкмея:
123. Алгоритм захвата и отслеживания области интересов на цифровых изображениях и в видео потоке.
124. Методология распознавания жестов человека независимо от индивидуума.'
125. Методология агрегирования нескольких источников информации для распознавания человека.
126. Настоящий акт составлен комиссией в составе:
127. Зав. каф. ИУ-3 д.т.н., проф. Девятков В.В.1. Of
128. Зам. зав. каф. ИУ^З ~~Ъ—д.т.н., проф. Павлов Ю.Н. по научной работе
129. Зам. зав. каф. ИУ-3^ к.т.н., доц. Недашковский В.М.по учебной работесlounded by Philips
130. Данный сертификат подтверждает, что
131. Алфимцев Александр Николаевич,аспирант кафедры ИУ-3 МГТУ им.Н.Э Баумана, принимал участие в проектировании и разработке программного обеспечения по проекту
132. Генеральный директор, NXP Semiconductors, регион стран СНГ и Балтии1. Вадим Васильев
-
Похожие работы
- Методы распознавания жестов руки на основе анализа дальностных изображений
- Интерфейс бесконтактного человеко-машинного взаимодействия на основе данных сенсора-дальномера
- Алгоритмы распознавания жестов на видеопоследовательностях
- Алгоритмы распознавания лиц и жестов на основе вейвлет-преобразований и метода главных компонент
- Распознавание динамических жестов в системе компьютерного зрения на основе медиального представления формы изображений
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность