автореферат диссертации по информатике, вычислительной технике и управлению, 05.13.01, диссертация на тему:Алгоритмы обработки и анализа изображений иерархической временной сетью
Автореферат диссертации по теме "Алгоритмы обработки и анализа изображений иерархической временной сетью"
На правах рукописи
005049148
//
Болотова Юлия Александровна
АЛГОРИТМЫ ОБРАБОТКИ И АНАЛИЗА ИЗОБРАЖЕНИЙ ИЕРАРХИЧЕСКОЙ ВРЕМЕННОЙ СЕТЬЮ
05.13.01 — Системный анализ, управление и обработка информации (в отраслях информатики, вычислительной техники и автоматизации)
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
31 ЯНВ 2013
Томск 2013
005049148
Работа выполнена в ФГБОУ ВПО «Национальный исследовательский Томский политехнический университет» на кафедре вычислительной техники
Научный руководитель: Спицын Владимир Григорьевич
доктор технических наук, профессор
Официальные оппоненты:
Кориков Анатолий Михайлович, доктор технических наук, профессор, заслуженный деятель науки РФ, ФГБОУ ВПО «Томский государственный университет систем управления и радиоэлектроники» (ТУСУР), кафедра автоматизированных систем управления ФСУ ТУСУР, заведующий кафедрой
Протасов Константин Тихонович, доктор технических наук, старший научный сотрудник ФГБУН «Институт оптики атмосферы им. В.И. Зуева» СО РАН, лаборатория распространения оптических сигналов, старший научный сотрудник
Ведущая организация: ФГБОУ ВПО «Сибирский государственный
аэрокосмический университет имени академика М.Ф. Решетнева» (г. Красноярск)
Защита состоится «27» февраля 2013 г. в 10:30 на заседании диссертационного совета Д 212.267.12, созданного на базе ФГБОУ ВПО «Национальный исследовательский Томский государственный университет» по адресу: 634050, г. Томск, пр. Ленина, 36 (учебный корпус №2, аудитория 212 ).
С диссертацией можно ознакомиться в Научной библиотеке Томского государственного университета.
Автореферат разослан «15» января 2013 г.
Тарасенко Петр Феликсович
Ученый секретарь диссертационного к.ф.-м.н., доцент
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. Задача распознавания объектов на изображениях является одной из востребованных в современной информационной науке и инженерии. Ее решение требуется, например, для обеспечения общественной безопасности (системы видеонаблюдения), улучшения качества медицинского обслуживания (анализ медицинских снимков), для исследования труднодоступных объектов и территорий (анализ космических снимков) и окружающей среды (распознавание лесных пожаров), а также для помощи людям с ограниченными возможностями (распознавание жестов). На сегодняшний день предложено достаточно много алгоритмов распознавания. Постепенно они находят свое применение в системах, используемых в производственной и социальной сфере, однако достигнутые результаты все еще далеки от возможностей зрительной системы человека и требуют доработки и улучшения.
В процессе эволюции методов и средств решения задачи распознавания объектов на изображениях происходит развитие алгоритмов, в частности, основанных на биологическом подобии структуры и функциональных особенностях мозга. Алгоритмы, работающие по принципам, заложенным самой природой, обладают большей гибкостью и универсализмом.
Нейронные сети, генетические алгоритмы и модель автоассоциативной памяти были последовательными успешными биологически-подобными разработками в данной области. Их особенность заключается в частичном воспроизведении структуры неокортекса (новой коры головного мозга, осуществляющей высший уровень координации работы мозга). К основным недостаткам нейронных сетей относится непрозрачность формирования результатов анализа, неоднозначность при выборе структуры сети. При использовании алгоритма с обратным распространением ошибки, как правило, применяемого для обучения нейронных сетей, не существует гарантии, что сеть может быть обучена за конечное время. Таким образом, вопрос о создании новых методов распознавания, обеспечивающих прозрачность работы и инвариантность к различным видам искажений, остается открытым.
Исследуемая и модифицированная в диссертационной работе модель иерархической временной памяти (ИВП), впервые описанная в работах Дж. Хо-кинса, основана на следующих принципах функционирования мозга.
1. Однообразность операций на различных уровнях анализа информации.
2. Иерархичность структуры сети ИВП.
3. Иерархичность восприятия окружающей среды. Каждый воспринимаемый объект представляется как совокупность составляющих его элементов, расположенных в определенной пространственной зависимости.
4. Использование времени в качестве «учителя». Зрительная система воспринимает сигналы с течением времени. Изображения, поступающие на сетчатку последовательно друг за другом, т.е. в близкие моменты времени, воспринимаются как составляющие элементы одного объекта.
5. Одним из аспектов модели ИВП является «запоминание», т.е. сохранение уникальных характеристик входных данных.
6. Универсальность модели. Возможно распознавание различных видов данных, которые подвержены изменениям с течением времени.
7. Использование вероятностных причинно-следственных алгоритмов. Математически модель ИБП описывается в терминах сети Байеса.
8. Использование обратной связи для прогнозирования и удаления шумов.
Вышеперечисленные принципы ранее встречались и в других подходах, таких как сверточные нейронные сети, цепи Маркова, модель НМАХ и др., однако особенность модели ИВП заключается в их синтезе.
Модель иерархической временной памяти была реализована и апробирована ее создателями на задачах распознавания объектов. Сейчас она находится в начальной стадии развития и работает на простых бинарных изображениях. Несмотря на это за счет биологического подобия модель обладает большим потенциалом, пока еще полностью не раскрытым в ее исследованиях и приложениях.
На основании всего выше изложенного, можно сделать вывод об актуальности исследования и модификации модели иерархической временной памяти в рамках решения задачи распознавания объектов на изображениях.
Теоретико-методологической основой диссертационной работы явились исследования в области компьютерного зрения и интеллектуального анализа данных, нашедшие отражение в трудах С. Хайкина, Дж. Хокинса, Д. Джорджа, Д. Малтони, Б. Бобьера, Я. Лекуна, И.А. Шевелева, К. Фукушимы, И. Арела, Й. Бенджио, Ю.Р. Цоя.
Целью диссертационной работы является модификация существующих и разработка новых алгоритмов анализа данных для модели иерархической временной памяти, способных повысить ее эффективность при решении задач распознавания объектов на изображениях.
Исходя из цели диссертационной работы, можно выделить следующие основные задачи:
1. Исследование существующих алгоритмов анализа данных для модели
ИВП.
2. Модификация существующих и разработка новых алгоритмов для модели ИВП, позволяющих повысить эффективность ее работы.
3. Реализация библиотек и программ модифицированной модели ИВП для распознавания объектов на статических изображениях и видеопоследовательностях.
4. Апробация реализованной модели на задачах распознавания символов и жестов.
Методы исследования. Для решения поставленных задач используется аппарат скрытых моделей Маркова, сетей Байеса, теории вероятностей и математической статистики, методы цифровой обработки изображений, нечеткой логики, матричных вычислений, вычислительной математики, технологии программирования, а также компьютерные эксперименты для оценки эффективности разработанных алгоритмов.
Научную новизну полученных в диссертации результатов определяют следующие положения.
1. Впервые предложенный эволюционный способ автоматической настройки параметров иерархической временной сети, позволивший повысить точность распознавания объектов на изображениях и видео.
2. Оригинальный способ дополнительной кластеризации пространственных центров в процессе их формирования в сети иерархической временной памяти, ускоряющий процесс распознавания в 1,6 раза.
3. Новый алгоритм временной группировки, отличающийся от исходных тем, что основан на объединении пространственных центров с учетом их внут-ригрупповых связей, что позволяет эффективнее формировать временные группы и, благодаря этому, увеличить точность распознавания объектов иерархической временной сетью на 3 %.
4. Впервые предложенный способ модификации модели иерархической временной памяти, заключающийся в создании матрицы буферизации входных данных (5ГЛ/), частично замещающий процесс создания обучающих последовательностей и позволяющий ускорить процесс обучения сети.
5. Оригинальный способ предобработки изображений, основанный на выделении границ объектов фильтром Габора, расширяющий возможности сети иерархической временной памяти для работы с полутоновыми и цветными изображениями.
Научную ценность работы представляет вклад в развитие модели иерархической временной памяти, заключающийся в предложенном эволюционном способе настройки параметров иерархической временной сети; в способе дополнительной кластеризации пространственных центров, реализованном с целью увеличения скорости работы сети; в новом алгоритме временной группировки, основанном на объединении пространственных центров с учетом их внутригрупповых связей, увеличивающем точность распознавания сети; в способе предварительной обработки полутоновых и цветных изображений фильтром Габора.
Практическая значимость. Разработанные в диссертации методические, алгоритмические и информационные средства предназначены для использования в системах безопасности, видеонаблюдения, видеоконтроля и обработки изображений.
Реализованная в ходе диссертационной работы сеть иерархической временной памяти предназначена для решения задач распознавания объектов на изображениях и видеопоследовательностях. Предложенные в работе модификации алгоритмов исходной модели ИВП позволяют увеличить точность и скорость распознавания объектов на изображениях и видео.
Апробация реализованной сети ИВП осуществлялась на задачах распознавания стилизованных цифр, символов и жестов на статических изображениях и в видеопоследовательностях.
Реализация результатов работы. Методы, алгоритмы и программы, разработанные в диссертационной работе, использовались при выполнении ра-
бот по гранту РФФИ № 09-08-00309 «Создание программного комплекса автоматизированной обработки изображений и распознавания образов на основе применения искусственных нейронных сетей, регуляторных сетей и эволюционных алгоритмов» (2007-2009 гг.); в проекте «Продвижение и коммерциализация инновационной технологии по обработке изображений на базе эволюционных и нейроэволюционных вычислений» («Microsoft Бизнес-Старт» Фонда содействия развитию малых форм предприятий в научно-технической сфере 2009-2011 гг.); в проекте «Создание комплексных технологий распознавания объектов на изображениях на основе применения моделей зрительного восприятия и методов вычислительного интеллекта», поддержанном грантом РФФИ № 12-08-00296 (2012-2014 гг.).
Степень достоверности результатов проведённых исследований. Достоверность полученных результатов подтверждена логическими построениями, основанными на математическом аппарате сетей Байеса и Марковских процессов, корректностью методик исследования и проведенных расчетов, многочисленными экспериментами, проводимыми на различных тестовых задачах, и согласованностью результатов диссертации с результатами, полученными другими авторами.
Внедрение работы. Результаты работы внедрены в Томском политехническом университете на кафедре вычислительной техники при подготовке специалистов по магистерской программе «Компьютерный анализ и интерпретация данных» по курсу «Методы интеллектуальной обработки и анализа изображений».
Часть программных средств передана в Федеральную службу по интеллектуальной собственности, патентам и товарным знакам (Роспатент) (номер государственной регистрации 2012612230).
Основные положения, выносимые на защиту:
1. Предложенный способ эволюционной настройки параметров иерархической временной сети позволяет автоматически определять значения параметров сети для успешного распознавания объектов на изображениях и видео.
2. Способ дополнительной кластеризации пространственных центров в процессе их формирования в иерархической временной сети позволяет ускорить процесс распознавания в 1,6 раза.
3. Алгоритм формирования временных групп, основанный на объединении пространственных центров с учетом их внутригрупповых связей, позволяет эффективнее создавать временные группы и увеличить точность распознавания объектов иерархической временной сетью на 3 %.
4. Способ модификации модели иерархической временной памяти, заключающийся в создании дополнительной матрицы буферизации входных данных (STM), позволяет упростить процесс создания обучающих последовательностей и ускорить процесс обучения сети.
5. Способ предобработки изображений, основанный на выделении границ объектов фильтром Габора, позволяет расширить возможности иерархической
временной сети, и перейти от обработки битовых изображений к обработке полутоновых и цветных изображений.
6. Разработанное программное обеспечение на основе иерархической временной сети позволяет успешно распознавать объекты на изображениях и видео.
Апробация работы. Основные результаты работы обсуждались и доказывались на следующих симпозиумах, конференциях и семинарах: 12-я Международная конференция «Цифровая обработка сигналов и ее применение» (Москва, 2010); XLVIII, XLIX Международная научная конференция «Студент и научно-технический прогресс» (Новосибирск, 2010 и 2011); VIII, IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2010 и 2011); VIII Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2011); Международная научно-практическая конференция «Интеллектуальные информационно - телекоммуникационные системы для подвижных и труднодоступных объектов» (Томск, 2010); Научно-практический семинар «Современные технологии образования и научных исследований в ВУЗах Франции и России» (Париж, 2010); XVII Международный симпозиум «Оптика атмосферы и океана. Физика атмосферы» (Томск, 2011); XIX Всероссийский семинар «Нейроинформатика, ее приложения и анализ данных» (Красноярск, 2011); Седьмой международный форум по стратегическим технологиям IFOST (Томск, 2012).
Публикации. Основное содержание диссертации отражено в 14 работах, в том числе 3 статьи в изданиях из перечня ВАК [1 - 3], 1 статья в рецензируемом журнале, 9 докладов на Всероссийских и Международных и конференциях и одно свидетельство об официальной регистрации программы распознавания символов иерархической временной сетью для ЭВМ.
Личный вклад. В диссертации использованы только те результаты, в которых автору принадлежит определяющая роль. Постановка задач диссертационного исследования выполнена автором совместно с научным руководителем, д.т.н., профессором Спицыным В.Г. Основные теоретические и практические результаты, представленные в диссертации, получены лично автором.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 137 наименований. Общий объем работы составляет 162 страницы машинописного текста, иллюстрированного 59 рисунками и 51 таблицей.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обосновывается актуальность темы исследования, формулируются цель и задачи работы.
В первой главе представлен аналитический обзор основных методов и алгоритмов распознавания объектов на изображениях, приведены их достоин-
ства и недостатки. Определяются преимущества использования биологически подобных моделей при решении задач распознавания. Описываются основные принципы работы модели ИВП.
Модель ИВП представляет собой иерархическую древовидную структуру (рис. 1), состоящую из уровней. Каждый уровень состоит из набора узлов, расположенных в двумерной решетке. Узлы одного уровня не связаны между собой, узлы предыдущего и последующего уровня связаны посредством передачи сообщений от группы соседних узлов предыдущего уровня одному из узлов последующего уровня.
Процесс обучения сети ИВП происходит последовательно от нижних уровней к верхним. При обучении промежуточного уровня все предыдущие уровни ¿0-^1-1 работают в режиме тестирования. При этом каждый раз на вход сети подается последовательность кадров. Такая последовательность может быть получена при плавном смещении объекта в рамках области видимости сети. Процесс обучения уровня сводится к обучению всех составляющих его узлов. Обучение узла состоит из следующих этапов.
1. Для формирования последовательностей могут быть разработаны различные стратегии, отвечающие следующему принципу: для каждого изображения /. е 5^,,, выполняется два вида смещений (горизонтальных и вертикальных), объекта в области видимости сети.
2. На этапе пространственного обучения на вход узлу первого уровня поступает вектор Л~, состоящий из значений пикселей закрепленной за ним области изображения. В узле сохраняются уникальные входные векторы, так называемые, пространственные центры с,. Среди всех уже сохраненных центров С/с находится минимальное евклидово расстояние с очередным входным вектором: тО'М = тт£=1 Пс (|| с^ - Х~ ||).
Если тИ'ш > МгО'Шапсе (граничного значения), то считается, что входной вектор не совпадает ни с одним центром с„ / = 1 ,.пс. В этом случае вектор 27 добавляется в качестве нового пространственного центра с„
Входными данными для узла промежуточного уровня является вектор, полученный конкатенацией выходных векторов с закрепленных за ним узлов предыдущего уровня.
3. После того как вся обучающая выборка была продемонстрирована сети, рассчитываются априорные вероятности появления сохраненных простран-
„.«•'г..'..... ......
' / У Уровень2
»и
/'11 - ■
н> I л ( 1
II I V
<» I <
I ы )
-
7
Уровень 1
Входное изображение
Рис. 1. Структура сети ИВП
ственных центров, исходя из частоты их встречаемости на входе узла при обучении:
Р(сj) = seenj / "Zscenf,, (1)
к=\..пс
где seerij - количество активаций пространственного центра c¡ во время обучения; пс - общее количество сохраненных пространственных центров.
4. Во время сохранения пространственных центров формируется матрица ТАМ: пс*пс, где пс- количество сохраненных пространственных центров в узле. Таким образом, на пересечении ;-й строки и у-го столбца матрицы ТАМ содержится величина, характеризующая число следований соответствующих пространственных центров С/ и Cj друг за другом на входе узла во время обучения.
Направление связи между двумя следующими друг за другом центрами зависит от направления смещения объекта в обучающей последовательности. Для того чтобы при создании последовательностей совершать обход только в одном направлении, матрицу ТАМ было решено сделать симметричной путем суммирования элементов на соответствующих пересечениях строк и столбцов. После этого матрица ТАМ нормализуется:
ТАМ("С'^ [/][7] = TAM[iJ] + TAM[j, i], i, j = 1 ,мс ;
TAM[i,j] = TAM[i,j]l ITAM[i,k\.
/t=l
После нормализации матрица ТАМ уже не является симметричной.
TAM[iJ]= P(c/l) le/'"1)),
где с/0 означает, что пространственный центр c¡ будет активным во время t при условии, что во время /-1 активен центр с,.
Y.TAM[i,j] = 1.
j=\..nc
5. На основе данных матрицы ТАМ происходит формирование временных групп (временное обучение). На этом этапе в одну группу объединяются центры с максимальной частотой следования друг за другом.
6. Заключительным этапом обучения узла является формирование матрицы PCG. Элемент PCG[i,j] содержит условную вероятность принадлежности входного вектора группе gJt если этот вектор представляет собой центр с,.
PCGliJ]^0'''"8'
[ 0,otherwise,
где P(c¡) — априорная вероятность появления центра с, (1) на входе узла.
Несколько по-другому происходит обучение узла верхнего уровня.
1. Входной вектор для узла верхнего уровня формируется путем конкатенации выходных векторов всех узлов предыдущего уровня.
2. Формирование пространственных центров в узле происходит аналогично узлам промежуточных уровней.
3. Формирование матрицы РСЩг,/], где элемент РСЩ1,Д = Р(с^) определяет общее количество активаций пространственного центра С/ за время обучения в контексте категории
4. Вычисление априорных вероятностей появления объекта определенной категории Р(у\>])~.
ХРСЩи]
= -. (2)
V пс
I ЪРСЩик]
к=1/=1
5. После нормализации матрицы РС1У элемент РСЩг,Д представляет условную вероятность появления пространственного центра с, в контексте категории
"с
РС1У[1,Д = РСУУ[1,/\1{ 1.РСУУ[к,]]), /= 1 = 1 ..п„,
к=1
"с
что гарантирует выполнение условия: £ ) = 1 ■
/=1
После того, как узел нижнего и промежуточного уровня был обучен, он может работать в режиме распознавания.
1. Формирование входного вектора для узлов нижнего уровня происходит путем разбиения исходного изображения на отдельные области и передачи вектора, сформированного из значений пикселей текущей области, закрепленному за ней узлу.
Формирование входного вектора для узла промежуточного уровня происходит путем конкатенации выходных векторов дочерних узлов: Я = = •■• Таким образом, размерность вектора Г равна сумме размер-
ностей выходных векторов всех его дочерних узлов.
2. Пространственный анализ. На этом этапе происходит формирование вектора у, состоящего из вероятностей соответствия входного вектора каждому из сохраненных в узле пространственных центров.
Если тестируются узлы нижнего уровня, то значение >>[/] отражает уровень активации центра с, в ответ на входной вектор, который может быть рассчитан по формуле Гаусса:
Ч|с/->Л2
у\}] = е
В узле промежуточного уровня входной вектор X представляет собой вектор условных вероятностей принадлежности входного вектора дочернего узла его временным группам. В этом случае значениепропорционально вероятности соответствия входного вектора текущему пространственному центру с„ и рассчитывается согласно следующей формуле:
т т
y[i] = р(Г | с,) = П р(Г I сй/М/.с,) = П ¿у [c/L/]l, '
7=1 7=1
где ¿/[с,Ш] _ элемент на позиции с,[/'] входного сообщения .Я/, пришедшего от дочернего узла childj.
Во избежание уменьшения вероятностей с ростом номера уровня вектор у нормализуется:
"с
£Л<-] = 1.
/=1
3. Временной анализ. Формируется вектор вероятностей принадлежности входного вектора существующим временным группам узла. Каждый элемент #[/] этого вектора интуитивно может быть рассмотрен как уровень активации группы gj в ответ на входной вектор и получен по следующей формуле:
pW \gj)="± pU~ I chgj). P(c, I gj) = "± p().- I a) ■ P(c, \gj)= "± y[i] ■ PCGliJl /'=1 i=l /=1 где p{k~\Cj, gj) = р(л\с,) выполняется, так как знания о группе g, не влияют на оценку степени соответствия входного вектора X" текущему пространственному центру С/.
4. Формирование выходного вектора А+, состоящего из вероятностей принадлежности входного вектора каждой из существующих временных групп узла, происходит следующим образом: Л+ = [р(А~ | gi), р(Л~ | gj),-, | g„)].
Этап распознавания на верхнем уровне. Верхний уровень сети состоит только из одного узла, который работает как классификатор, рассчитывая вероятность соответствия входного вектора каждой из сохраненных на этапе обучения категорий.
1. Формирование входного вектора происходит аналогично узлам промежуточных уровней. Дочерними узлами в данном случае являются все узлы предыдущего уровня.
2. Формирование вектора условных вероятностей соответствия входного вектора сохраненным в узле пространственным центрам происходит аналогично узлам промежуточных уровней.
3. Вычисление условной вероятности соответствия входного вектора существующим в узле категориям (уровень активации класса Wj,j = 0.. nw) рассчитывается по следующей формуле:
PU~ I wj) = "± р(Г | chWj) ■ P(chwj) = "± р(Г | с,) • P(chwj) = £>•[/] • PCW[i,j\ /=1 i=l i=l
где равенство р()Г \ Cj, wj) = р(Х~ | с, ) выполняется, т.к. знания о классе Wj не
влияют на оценку соответствия вектора Х~ пространственному центру с,.
4. Расчет апостериорных вероятностей по классам согласно теореме Байе-са проведен на основе выражения:
Р{Л9 I х~) = ^ ,7=1 ..И.,
ЕяСГ!™*)^*) ¿=1
где рассчитывается по формуле (2).
5. Выходной вектор /+ размерности и„ состоит из условных апостериорных вероятностей принадлежности входного вектора существующим в узле категориям:
и»
=[Р(щ,Г),Р(.™2,Г),:;Р{)], где ц ) = 1.
(=1
Во второй главе приводится подробное описание алгоритмов, предложенных и модифицированных автором диссертации для модели ИВП.
Для настройки параметров сети предлагается использовать генетический алгоритм (ГА) со следующими параметрами (таблица 1).
Таблица 1. Параметры используемого ГА
Параметр Значение
Количество поколений 20
Размер популяции 10
Тип селекции Турнирная
Интенсивность селекции 60%
Тип оператора кроссинговера Одноточечный
Вероятность кроссинговера 1
Вероятность мутации 0,3
Величина мутации 1/100
В данном случае целевая функция задана неявно, и основана на максимизации точности распознавания объектов. Результаты работы ГА на различных поколениях приведены в таблице 2. Результат работы сети оценивался при обучении ее на 2, 4 и 10 различных категориях.
Таблица 2. Результаты тестирования на искаженных изображениях
Результат распознавания Количество классов изображений
2 | 4 | 10
Лучшие особи сети (VII поколение эволюции)
На обучающей выборке 100,0% 100,0% 100,0%
На тестовой выборке 100 % 99,4% 98,1%
Средний результат распознавания на обучающей выборке
1 поколение (случайные значения) 85,8% 66,8% 51,3%
111 поколение 98,2% 96,8% 94,3%
V поколение 100,0% 98,2% 97,8%
Из приведенной таблицы видно увеличение процента распознавания по всем трем выборкам с ростом номера поколения. Стабильные результаты распознавания были получены уже на пятом поколении работы ГА.
Была выбрана следующая стратегия для создания обучающих последовательностей: окно, размером равное рецептивному полю одного узла, скользит по изображению по зигзагу, сверху вниз (рис. 2). На вход обучаемому узлу
Г Г Т 1 1
Рис. 2. Пример разбиения исходного изображения на пространственные центры (слева -исходное изображение со скользящим окном, справа - полученные входные вектора)
подается вектор, формируемый из значений пикселей с части изображения, находящейся в области видимости скользящего окна. Окно смещается последовательно, в результате чего каждый последующий сформированный вектор является смещенным на 1 пиксель относительно предыдущего. Таким образом, в ходе обучения узла формируются последовательности постепенного смещения отдельных составляющих элементов объекта.
При создании временных групп необходимо учитывать как горизонтальный, так и вертикальный вид смещения. Для того чтобы не смещать окно дважды: по горизонтали и вертикали, в работе предлагается создать двумерную матрицу переходов пространственных центров БТМ. Размерность матрицы равна количеству пространственных центров, получаемых при сканировании изображения (IV* Н) окном (ту х И) с шагом.?:
По мере перемещения скользящего окна по изображению необходимо сохранять в матрицу ЛТЛ/ номера поступивших на вход узлу пространственных центров (рис. 3).
На основе матрицы БТМ формируется матрица ТАМ. При этом запоминаются последовательные переходы для каждого паттерна по горизонтали, вертикали и диагонали: [/,_/]: [;',/:-1], [, + 1,Л, ['+ 1,7+ !]• Аналогично тому, как отслеживаются связи 1-го порядка, по матрице ЯТМ можно отслеживать
связи более высоких порядков. Для этоТ »¿в 91/ 913 9 22 325 3 24 925 __
го необходимо для каждого паттерна Рис. 3. Пример матрицы 5ТМ [;>7] фиксировать в матрице ТАМ связь
[АУ + "]> [/ + п,Д, [/ + и, / + п], где п - порядок учитываемых связей.
Пространственное обучение. При обучении сети ИВП в узлах сохраняются уникальные пространственные центры. При работе с изображениями реального мира, содержащими шум и искажения, количество уникальных пространственных центров стремится к бесконечности. Для того чтобы вовремя остановить процесс добавления новых центров и увеличить скорость работы системы, было решено ограничивать количество сохраняемых пространствен-
'Т.
522
I
7 22
I
8 22
I
1
5 г;
т
623 7 23
I
323
I
Ч
ных центров в узле путем дополнительной кластеризации пространственных центров на базе алгоритма к-теат. Близость двух центров оценивалась по метрике Хэмминга. Результаты распознавания сети в зависимости от процентного количества кластеров приведены в таблице 3.
Использование дополнительной кластеризации позволило увеличить скорость распознавания в 1,6 раза при количестве кластеров - 0,7 от общего числа пространственных центров.
Таблица 3. Сравнение результатов работы сети, обученной классическим методом и с дополнительной кластеризацией____
Без кластеризации С кластеризацией
доля кластеров 1 0,7 0,5 0,2 0,1
Этап Время (чч:мм:сс)
Обучение 00:05:09 00:04:35 00:04:20 00:04:14 00:04:02
Тестирование 00:00:54 00:00:33 00:00:20 00:00:15 00:00:03
Тип выборки Результат распознавания, %
Обучающая выборка 100 100 100 100 100
Тестовая выборка 98,1 97,9 94,4 91,5 89,5
Временное обучение. В результате исследования модели ИВП был предложен новый алгоритм временной группировки МТС. Его отличительным свойством является то, что выбор центра для добавления в группу осуществляется с учетом степени связи этого центра со всеми центрами, входящими в данную группу.
Элемент матрицы TAM[i]\j] определяет связь упорядоченных пар пространственных центров С/, Cj. Вероятность появления центра с, независимо от значения текущего входа, определяется по формуле:
ТС(с,)= ТГАЩк.Л-РЬ^-Ъ), к=1
где априорная вероятность появления центра ск (1).
Связь центра со всеми центрами данной группы gk рассчитывается по формуле:
deltaGroupCon j (gk) = S TAM[i, j], "ëk ci^Sk
где gk - текущая группа, с, - текущий пространственный центр, ngk - количество центров в группе gk.
Алгоритм МТС
1. Найти центр c,= argmax {ТС(ск), к = 1 ,.пс) среди центров, не входящих в группы. Добавить центр С/ в список центров groupList.
2. Пока размер groupList < mœcGroupSize, среди центров, не входящих в группы, найти центр с, с максимальным значением временной связи со всеми центрами из списка groupList.
3. Если значение временной связи deltaGroupCon > bord, добавить Cj в список groupList, шаг 2. Иначе, шаг 4.
4. Пока есть несгруппированные центры: шаг 1, иначе шаг 5.
5. Добавить во временные группы IетрогаЮгоирз соответствующие индексы пространственных центров.
Предобработка изображений. Чтобы осуществить возможность работы сети ИВП с полутоновыми и цветными изображениями, необходима их предварительная обработка. В данной работе предложен алгоритм предобработки полутоновых и цветных изображений с помощью фильтра Габора. Импульсная переходная характеристика фильтра Габора определяется в виде произведения функции Гаусса на гармоническую:
СаЬог(х',У) = Сашя^х',у') * соз(2^х'+ср),
здесь
Саиз${х,у) = К
-х2 (—) гг"1
„ О",
7ГСГГ
л/2^
где /0 и —частота и фаза. Вращение фильтра на в градусов описывается как: х'= хсоьв + ^¡п в и у'= -хэш в + усоьв .
Угол в определяет ориентацию обнаруживаемых краев. Частота /0 регулирует толщину искомой границы, ее значение было подобрано опытным путем. Установлено, что хороший фильтр должен иметь границы в плоскости г = 0 и иметь 2 отрицательных и один положительный пик. Значения ох и ау рассчитывались по следующим формулам:
л/ 2я/"О
и оу=-
3(7 у
Перед подачей в функцию фильтра входное изображение обрезается по краям до ближайшего квадратного размера и масштабируется кратно 32x32 пикселям, после чего оно преобразуется в полутоновое. Вычисляются 4 карты со значениями фильтров Габора. Каждая карта содержит информацию о границе определенной ориентации: 0, л/4, я/2, Зя/4. Если в данной точке изображения найдена граница, то значение карты в этой точке равно 1, иначе 0. Таким образом, исходное полутоновое или цветное изображения приводится к бинарному изображению границ объекта.
В работе предложено два способа подачи полученных карт на вход сети. В первом случае четыре карты объединялись в одну и подавались на вход одной сети ИВП (рис. 4).
Рис. 4. Предобработка изображения фильтрами Габора с углами наклона: 0, л/4,
л/2, Зя/4
Этот алгоритм позволяет определить только наличие или отсутствие границы в точке. Таким образом, информация об угле наклона границы теряется.
Во втором случае было решено не объединять карты границ с различными ориентациями, а подавать их на вход четырем сетям. На этапе обучения в каждой сети входной карте ставится в соответствие категория исходного объекта. Во время тестирования принятие решения о принадлежности объекта к определенному классу принимается по результатам голосования всех четырех сетей.
Третья глава посвящена разработке программного обеспечения (ПО), реализующего модель ИВП, согласно ее описанию, приведенному в главе 1 с использованием модификаций и результатов главы 2. Проведен обзор существующих инструментальных библиотек по распознаванию и обработке изображений, выявлены общие требования к разрабатываемому ПО, в результате чего сделан выбор средств для дальнейшей разработки.
В главе содержится описание логических схем основных алгоритмов модели ИВП, иМЬ - диаграммы классов, приведены основные переменные и методы реализуемых классов. Приведено описание архитектур разрабатываемых библиотек и программ распознавания объектов на изображениях на основе анализа иерархических и временных зависимостей.
При разработке архитектуры сети было решено представить структуру
Рис. 5. Общая структура иерархической временной сети
На рис. 5. линиями с полыми стрелками показано обобщение: направление стрелки от дочернего класса к родительскому. Линии с белыми ромбами обозначают агрегацию. Агрегация определяется наличием в качестве полей одного класса объектов другого класса. Линиями с черными ромбами на конце обозначается композиция. Композиция является частным случаем агрегации, при которой объекты могут существовать только в рамках данной композиции.
На основе разработанных архитектур библиотек и программных средств реализованы следующие компоненты: библиотека сети ИВП; библиотека, реализующая фильтр Габора; программа, реализующая ГА для подбора параметров сети ИВП; программы для распознавания объектов на статических изображениях и видео. Совокупность разработанных программ и библиотек предназначена для полноценной работы сети ИВП в рамках задачи распознавания объектов на изображениях и видео.
В четвертой главе приводятся результаты апробации иерархической временной сети на задачах распознавания печатных и рукописных символов и жестов. Представлены данные для обучения и тестирования, таблицы с результатами распознавания. Производится тестирование разработанного ПО и сопоставление разработанной иерархической временной сети с другими современными алгоритмами распознавания. Все эксперименты проводились на процессоре Intel Core™ - 670 с тактовой частотой 3.47 ГГц.
Для тестирования сети были выбраны 4 задачи классификации: изображения «Numenta», печатные символы на цветном фоне «Символы», рукописные цифры «MNIST» и изображения жестов «Жесты». Все изображения были приведены к размеру 32x32 пикселя.
1. Изображения «Numenta». Тестовая и обучающая выборки состоят из бинарных изображений, представленных 48 различными категориями. Выборка состоит из букв латинского алфавита, стилизованных изображений животных и некоторых объектов. База для обучения состоит из 453 изображений без шума и искажений. Тестовая выборка состоит из 8941 изображения, подвергшегося значительным искажениям в виде геометрических преобразований, смещению отдельных элементов, наложению шума и масштабированию.
1а. В данной работе тестируется также уменьшенная версия выборки, обозначенная как «Numenta-м». Уменьшенная версия включает восемь первых категорий выборки «Numenta».
2. Печатные символы с фоном. Обучающая выборка состоит из 40 категорий объектов: 10 цифр и 30 заглавных букв русского алфавита (исключая «Й», «Ё» и «Щ»). Каждая категория представлена тремя различными масштабами. Тестовая выборка состоит из символов аналогичного размера и шрифта, расположенных на сложном цветном фоне. Количество тестовых изображений-
1077. Перед подачей на вход сети выборка предварительно была обработана фильтром Габора.
3. Рукописные цифры «MNIST». Это широко распространенная выборка рукописных цифр, составителем которой является Ян Лекун. Выборка состоит из 60000 изображений рукописных цифр для обучения и 10000 цифр для тестирования.
Перед подачей на сеть изображения были предобработаны с помощью фильтра Габора. Несмотря на то, что различие форм рукописных цифр в данной выборке велико, цифры на изображении центрированы, поэтому даже достаточно простой классификатор K-nearest neighbors (KNN) достигает хороших результатов. Таким образом, данная выборка не идеальна для изучения инвариантности классификатора, однако мы используем ее для того, чтобы сравнить результаты модели ИВП с другими современными методами распознавания.
4. Изображения «Жесты» представляют собой выборку Кембриджского университета. Выборка состоит из 900 последовательностей 9 классов жестов, заданных тремя различными формами жестов и тремя видами движений. Каждый класс содержит 100 последовательностей изображений (5 различных освещений х 20 последовательностей при каждом освещении).
Таблицы 4-9 содержат результаты распознавания вышеприведенных выборок. Сеть была обучена тремя различными алгоритмами временной группировки: Greedy и АНС - из базовой модели, и предложенным в данной работе алгоритмом МТС; о.в. —обучающая выборка; т.в. — тестовая выборка.
1. Результаты тестирования сети на выборке «Numenta-м» и «Numenta» приведены в таблице 4.
Таблица 4. Результаты распознавания выборки «Numenta-м», «Numenta»
Выборки Алгоритм временной группировки Точность распознавай ия,% Время (чч:мм:сс)
о. в. т.в обучения тестирования
ЫитеШа-м, 8 классов Обучающая выборка: 100 изображений Тестовая выборка: 1761 изображение Greedy 100 76 00:22:29 00:01:33
АНС 100 76,1 00:16:25 00:01:07
МТС 99 78,3 00:20:56 00:01:26
Ыитета, 48 классов Обучающая выборка: 453 изображения Тестовая выборка: 8941 изображений Greedy 100 66,3 01:10:27 00:10:05
АНС 98,6 66,5 00:54:58 00:08:16
МТС 98,6 70,1 01:02:13 00:08:54
При сравнении результатов распознавания сети, обученной тремя различными алгоритмами, результаты сети, обученной алгоритмом МТС, превосходят результаты других сетей на тестовой выборке на 2-4 %. Время обучения сети напрямую зависит от количества сохраненных пространственных центров и сформированных групп.
2. Результаты тестирования сети на выборке «Печатные символы с фоном» приведены в таблице 5.
Выборки Алгоритм временной группировки Точность распознавания,% Время (чч:мм:сс)
о.в. т.в обучения тестирования
Символы,40 классов Обучающая выборка: 120 изображений Тестовая выборка: 1077 изображений Greedy 100 71,0 00:00:45 00:03:53
АНС 100 72,8 00:00:33 00:03:04
МТС 100 74,3 00:00:29 00:02:40
В данном случае сеть, обученная алгоритмом МТС, показала лучшую скорость и точность распознавания.
В работе рассматривались два способа обучения сети ИБП на изображениях, предобработанных фильтром Габора: с учетом и без учета ориентации границ. Результаты распознавания сети в первом случае описаны в верхней строке таблицы 6, во втором случае - в нижней строке таблицы 6.
Таблица 6. Распознавание символов с учетом и без учета ориентации
Учет ориентации Время (чч:мм:сс) Результат распознавания, %
обучения тестирования о.в. т. в.
без учета 00:00:29 00:02:40 100 74,3
с учетом 00:02:18 00:03:23 100 77,0
Таким образом, способ, при котором четыре карты, полученные фильтром Габора, подавались на вход четырем различным сетям, показал более точный результат распознавания (на 2,7 %) тестовых изображений.
3. Выборка «ММБТ» обучалась и тестировалась также с предобработкой фильтром Габора. Результаты распознавания сети, обученной на выборках размером 1000, 5000, 10000 и 60000 изображений соответственно приведены в таблице 7. Тестовая выборка составляет 10000 изображений для всех случаев.
Таблица 7. Результаты распознавание выборки ММБТ_
Выборки, Тестовая выборка: 10000 изображений Алгоритм временной группировки Точность распознавания,% Время
т.в обучения тестирования
Обучающая выборка: 1000 изображений Greedy 86,9 00:50:11 00:03:53
АНС 87,3 00:45:34 00:01:47
МТС 90,1 00:48:55 00:03:53
Обучающая выборка: 5000 изображений Greedy 93,1 01:40:25 00:10:14
АНС 93,7 01:24:58 00:08:24
МТС 95,1 01:30:23 00:09:28
Обучающая выборка: 10000 изображений Greedy 95,4 03:08:15 00:30:43
АНС 95,8 02:58:32 00:25:47
МТС 97,1 03:00:39 00:28:18
Обучающая выборка: 60000 изображений Greedy 97,3 05:34:12 01:38:43
АНС 97,6 05:15:17 01:30:56
МТС 98,5 05:21:47 01:32:35
При обучении сети на выборках различных размеров, лучших результатов достигает алгоритм МТС, менее точны результаты алгоритмов АНС и Greedy. При обучении сети на 60000 изображений получен наилучший результат распознавания 98,5%.
Результаты сопоставления различных алгоритмов распознавания на выборке «MNIST» приведены в таблице 8.
Точность распознавания иерархической временной сети сравнима с лучшими классификационными алгоритмами. Несмотря на то, что исходная выборка является центрированной, обучение сети ИВП осуществлялось на после-
довательностях, полученных смещением исходного объекта относительно фона. Такое обучение дает возможность отслеживания временной составляющей данных и создает инвариантность сети к незначительным искажениям и сдвигам объекта.
Таблица 8. Сравнение лучших алгоритмов распознавания на выборке ММЗТ
Классификатор Минимальная ошибка, % Максимальная ошибка, %
Линейный классификатор 7,6 12
K-Nearest Neighbors 0,63 5
Boosted stumps 0,87 7,7
Нелинейный классификатор 3,3 3,6
SVM 0,56 1,4
Нейронные сети 0,35 4,7
Сверточные сети 0,23 1,7
Сеть ИВП 1,5 1,5
4. Особенностью выборки «Жесты» являются различные типы освещения изображений. В ходе экспериментов наилучшие результаты по нахождению границ были получены алгоритмом Canny. Этот алгоритм решено было использовать для дальнейшей работы. Результаты распознавания отображены в таблице 9.
Таблица 9. Результаты распознавание выборки «Жесты»
Выборки Алгоритм временной группировки Точность распознавания, % Время
о.в. т. в обучения тестирования
Обучающая выборка: 12707 изображений Тестовая выборка: 51506 изображений Greedy 96,3 73,1 03:35:16 02:27:42
АНС 97,2 74,6 03:12:22 02:01:47
МТС 98,5 76,6 03:23:15 02:12:14
d 1
Худшие результаты показал метод SVM. Алгоритмы SIFT ST-DCC и SIFT ST-CC показали наилучшие результаты. Остальные методы достигли точности распознавания более 60%. Результаты сети ИБП сравнимы с методом ST-CC.
В работе проведено исследование влияния моделирования саккадных движений на точность распознавания. Формирование саккад происходило следующим путем: объект на исходном изображении смещался «по спирали» на 1 пиксель, количество смещений соответствовало числу саккад. Каждое полученное таким образом изображение подавалось на вход сети. Общий результат рассчитывался путем «голосования» (рис. 7). Из рисунка следует, что с увеличением числа саккад процент распознавания возрастает.
Проведенные численные эксперименты подтверждают работоспособность и устойчивость разработанной в ходе диссертационной работы иерархической временной сети к различным обучающим данным.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1. Исследована модель ИВП. Показано ее биологическое подобие. Описаны основные принципы работы и составляющие алгоритмы модели.
2. Предложен и разработан способ определения оптимальных параметров сети ИВП, основанный на применении генетического .алгоритма. Положительный эффект от применения ГА наблюдается с ростом номера поколения.
3. Предложено и реализовано использование матрицы STM, сохраняющей последовательность входных паттернов и обеспечивающей удобное формирование входных последовательностей, а также осуществление буферизации.
4. Предложена и осуществлена дополнительная кластеризация пространственных центров на базе алгоритма k-means, что увеличило скорость распознавания сетью в 1,6 раза.
5. Предложен способ модификации матрицы ТАМ, позволивший учесть перекрестные связи между пространственными центрами при формировании временных групп, что позволило увеличить точность распознавания при обучении сети базовыми алгоритмами временной группировки.
6. Проведено исследование исходных алгоритмов временной группировки для модели ИВП, в результате чего был предложен собственный алгоритм МТС, объединяющий центры с учетом внутригрупповых связей. В результате обучения сети предложенным алгоритмом удалось увеличить точность распознавания на 3 %.
Влияние увеличения числа саккад на результат распознавания
число саккад
Рис. 7. Результаты распознавания базы «Печатные символы» с моделированием саккад
7. Предложена предобработка изображений на основе применения фильтра Габора с учетом и без учета ориентации, расширяющая возможности сети ИВП для работы с полутоновыми и цветными изображениями.
8. Предложена и реализована идея моделирования саккадных движений на этапе тестировании сети, позволившая увеличить точность распознавания сети.
9. Спроектирована и реализована библиотека сети ИВП и библиотека предобработки изображений с использованием фильтра Габора. Разработаны программные средства для настройки параметров модели на основе ГА. Создано два приложения для решения задач распознавания на статических изображениях и видеопоследовательностях.
10. С помощью библиотек System.Threading и System.Parallel в среде разработки Visual Studio было осуществлено распараллеливание отдельных частей программы, что увеличило скорость работы системы в 2,2 раза.
11. Проведено сопоставление результатов распознавания объектов сетью ИВП с результатами распознавания нейронными сетями, сверточными нейронными сетями, SVM, RVM и другими классификаторами, являющимися лидерами в решении подобных задач. Полученные результаты доказывают, что точность распознавания объектов на изображениях, достигнутая иерархической временной сетью, сопоставима с лучшими алгоритмами распознавания.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
В изданиях, рекомендованных ВАК:
1. Болотова, Ю.А. Применение модели иерархической временной памяти в распознавании изображений / Ю.А. Болотова, В.Г Спицын, А.Э. Фомин // Известия Томского политехнического университета. — 2011. - Т. 318, -№ 5. - С. 60-63.
2. Болотова, Ю.А. Распознавание символов на цветном фоне на основе иерархической временной модели с предобработкой фильтрами Габора / Ю.А. Болотова, А.К. Кермани, В.Г. Спицын // Электромагннтные волны и электронные системы. — 2012. — Т. 16, — № 1. — С. 14—19.
3. Нгуен, Т.Т. Распознавание жестов на видеопоследовательностях в режиме реального временн на основе иерархической временной сети / Т.Т. Нгуен, Ю.А. Болотова, В.Г. Спицын // Научный вестннк НГТУ. - 2012. - Т. 2, - № 47. - С. 33-42.
В других изданиях:
4. Болотова, Ю.А. Применение текстурного подхода при сегментации изображений / Ю.А. Болотова, В.Г. Спицын, А.Э. Фомин // Сборник трудов VIII Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии». -Томск: Изд-во СПБ Графике, 2010. - Т. 1. - С. 73-74.
5. Спицын, В.Г. Нейроэволюционное улучшение и сегментация аэрофотоснимков / В.Г. Спицын, Ю.Р. Цой, Ю.А.Болотова // Труды 12-й Международной конференции «Цифровая обработка сигналов и ее применение». - М.: Инсвязьиздат, 2010. - Т. XII - 2. - С. 342-345.
6. Болотова, Ю.А. Применение деревьев решений при сегментации изображений / Ю.А. Болотова, В.Г. Спицын // Материалы XLVIII международной научной студенческой конференции «Студент и научно-технический прогресс». - Новосибирск: Изд-во НГУ, 2010. - С. 8.
7. Болотова, Ю.А. Сравнение способов обучения модели HTM для задачи распознавания цифр / Ю.А. Болотова, В.Г. Спицын // Сборник трудов IX Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии». -Томск: Изд-во СПБ Графике, 2011. - Т. 1. - С. 252-253.
8. Фомин, А.Э. Модификация модели HTM для задачи прогнозирования поведения объектов на изображениях / А.Э. Фомин, Ю.А. Болотова, В.Г. Спицын // Материалы XLIX международной научной студенческой конференции «Студент и научно-технический прогресс». - Новосибирск: Изд-во НГУ, 2011.-С. 216.
9. Болотова, Ю.А. Сравнение двухуровневой и трехуровневой сети модели HTM на примере распознавания цифр / Ю.А. Болотова, В.Г. Спицын // Сборник трудов VIII Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования». - Томск: Изд-во ТПУ, 2011. - С. 60-62.
10. Болотова, Ю.А. Анализ и оптимизация модели HTM для распознавания цифр / Ю.А. Болотова, В.Г. Спицын // Сборник трудов XVII Международного симпозиума «Оптика атмосферы и океана. Физика атмосферы». - Томск: Изд-во ИОА СО РАН, 2011. - С. F46-F50. - 1 электрон, опт. диск (CD-ROM).
11. Болотова, Ю.А. Алгоритм временной группировки для модели иерархической временной памяти (HTM) / Ю.А. Болотова, В.Г. Спицын // Материалы XIX Всероссийского семинара «Нейроинформатика, ее приложения и анализ данных». - Красноярск: Изд-во Сиб. федер. ун-та, 2011.
12. Болотова, Ю.А. Применение модели «память - предсказание» для задачи распознавания образов / Ю.А. Болотова, В.Г. Спицын, А.Э. Фомин // Проблемы информатики. - 2011. - Спецвыпуск. - С. 129-135.
13. Bolotova, Y.A. Analysis of Hierarchically-Temporal Dependencies for Handwritten Symbols and Gestures Recognition / Y.A. Bolotova, V.G. Spitsyn // 7th International Forum on Strategic Technology (IFOST-2012): Proceedings: in 2 vol., Tomsk, September 18-21, 2012. - Tomsk: TPU Press, 2012. - Vol. 1. - P. 596-601.
14. Система распознавания символов на основе модели иерархической временной памяти: свидетельство о государственной регистрации программы для ЭВМ / Ю.А.Болотова, В.Г. Спицын. - М.: Роспатент, 2012. - № гос. per. 2012612230 от 23.02.2012.
Подписано в печать 26.12.2012. Формат 60x84/16. Гарнитура Times. Усл. печ.л. 1,0. Тираж 120 экз. Заказ № 92.
Тираж отпечатан в типографии ИОА СО РАН. 634021, г. Томск, пл. Академика Зуева, 1.
Текст работы Болотова, Юлия Александровна, диссертация по теме Системный анализ, управление и обработка информации (по отраслям)
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Национальный исследовательский Томский политехнический университет»
На правах рукописи
04201354746 Болотова Юлия Александровна
АЛГОРИТМЫ ОБРАБОТКИ И АНАЛИЗА ИЗОБРАЖЕНИЙ ИЕРАРХИЧЕСКОЙ ВРЕМЕННОЙ СЕТЬЮ
05.13.01 - Системный анализ, управление и обработка информации (в отраслях информатики, вычислительной техники и автоматизации)
Диссертация на соискание ученой степени кандидата технических наук
Научный руководитель -доктор технических наук, профессор В.Г. Спицын
Томск 2013
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ.................................................................................................................4
1 АНАЛИЗ СУЩЕСТВУЮЩИХ БИОЛОГИЧЕСКИ ПОДОБНЫХ МОДЕЛЕЙ ЗРИТЕЛЬНОГО ВОСПРИЯТИЯ..................................................15
1.1 Особенности биологической зрительной системы...........................15
1.2 Отображение биологических особенностей неокортекса в моделях распознавания объектов на изображениях..............................................20
1.3 Модель иерархической временной памяти.......................................26
1.4 Преимущества и недостатки модели..................................................40
1.5 Цель и задачи исследования.................................................................42
1.6 Основные результаты и выводы по главе 1......................................43
2 МОДИФИКАЦИЯ МОДЕЛИ ИВП ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ...................................................................45
2.1 Применение генетического алгоритма для подбора настроечных параметров сети.............................................................................................46
2.2 Выбор наилучшей структуры сети......................................................51
2.3 Обучение сети..........................................................................................53
2.4 Распознавание в сети..............................................................................76
2.5 Предобработка изображений................................................................79
2.6 Моделирование саккадных движений................................................82
2.7 Основные результаты и выводы по главе 2......................................82
3 ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ РАСПОЗНАВАНИЯ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ ИЕРАРХИЧЕСКОЙ ВРЕМЕННОЙ СЕТЬЮ......................................................................................................................84
3.1 Разработка ПО для задачи распознавания объектов на изображениях.................................................................................................84
3.2 Приложение, реализующее генетический алгоритм.......................89
3.3 Библиотека фильтров Габора..............................................................92
3.4 Библиотека сети ИВП............................................................................93
3.5 Распараллеливание отдельных частей программы......................114
3.6 Программа распознавания статических изображений.................115
3.7 Программа распознавания объектов в видеопоследовательности GestureRecognition.......................................................................................120
3.8 Основные результаты и выводы по главе 3....................................125
4 ТЕСТИРОВАНИЕ И ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ АЛГОРИТМОВ И ПРОГРАММНЫХ СРЕДСТВ ДЛЯ РАСПОЗНАВАНИЯ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ.................................................................126
4.1 Описание тестируемых выборок.......................................................126
4.2 Параметры сети.....................................................................................130
4.3 Параметры для фильтра Габора........................................................132
4.4 Тестирование сети.................................................................................132
4.5 Основные результаты и выводы по главе 4....................................140
ЗАКЛЮЧЕНИЕ.....................................................................................................141
ОБОЗНАЧЕНИЯ...................................................................................................143
СПИСОК СОКРАЩЕНИЙ.................................................................................144
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ.....145
ПРИЛОЖЕНИЕ 1..................................................................................................160
ВВЕДЕНИЕ
Актуальность работы. Распознавание объектов на изображениях является одной из важнейших задач человеческой деятельности. Исследования в этой области ведутся с середины 20 века. С тех пор значительно пополнились знания нейрофизиологии, появились автоматические системы распознавания изображений, применяемые в повседневной жизни. Однако до сих пор решение этой задачи лишь в малой степени приблизилось к человеческим возможностям.
Задача распознавания объектов на изображениях является одной из востребованных в современной информационной науке и инженерии [72, 73, 84, 88, 116]. Ее решение требуется для обеспечения общественной безопасности (системы видеонаблюдения), улучшения качества медицинского обслуживания (анализ медицинских снимков), для исследования труднодоступных объектов и территорий (анализ космических снимков) и окружающей среды (распознавание лесных пожаров), а также для помощи людям с ограниченными возможностями (распознавание жестов). На сегодняшний день создано много алгоритмов распознавания. Постепенно они находят свое применение в системах, используемых в производственной и социальной сфере, однако достигнутые результаты все еще далеки от возможностей зрительной системы человека и требуют доработки и улучшения [126, 129, 130].
Первые алгоритмы распознавания разрабатывались на основе принципов сопоставления, формальной логики и математической статистики [13]. Для их успешной работы необходимо, чтобы исследуемые входные характеристики изображения были инвариантны к различным аффинным преобразованиям. Достичь этого достаточно сложно, так как изображения, представленные в памяти компьютера, сложно формализуемы. Даже небольшая смена освещения или поворот, не искажающие изображение в восприятии человека, значительно изменяют его цифровое представление. Таким образом, алгоритмы, основанные
на формальной логике и статистике, работают только со строго ограниченными типами изображений и практически не обладают универсализмом.
В процессе эволюции методов и средств решения задачи распознавания объектов на изображениях происходит развитие алгоритмов, основанных на биологическом подобии структуры и функциональных особенностях мозга. Подобные алгоритмы, работающие по принципам, заложенным самой природой, обладают большей гибкостью и универсализмом.
Нейронные сети [131], генетические алгоритмы и модель автоассоциативной памяти были последовательными успешными биологически-подобными разработками в области распознавания объектов на изображениях. Их особенность заключается в частичном воспроизведении структуры и функциональности неокортекса. Таким образом, реализация биологически - подобных методов открыла новые возможности в данной области [91, 93, 121]. Активное развитие нейробиологии и нейрокибернетики открывает новые факты о работе мозга и зрительной системы, предоставляя возможность создания усовершенствованных биологически подобных систем, обладающих некоторыми функциями человеческого зрения.
К основным недостаткам нейронных сетей относится непрозрачность формирования результатов анализа, неоднозначность в выборе структуры сети. При использовании алгоритма обучения с обратным распространением ошибки не существует гарантии, что нейронная сеть может быть обучена за конечное время [26]. Сверточные нейронные сети обеспечивают быстрое и надежное распознавание изображений, однако, при смене угла поворота объекта или освещения возникают трудности [90]. Таким образом вопрос о создании новых методов распознавания, обеспечивающих прозрачность работы и инвариантность к различным видам искажений, остается открытым.
В начале 2000-х гг. появилась книга «Об интеллекте», описывающая теорию «память - предсказание» и отображающая понимание работы неокортекса с учетом современных знаний о работе мозга [75, 102]. На основе этой теории была сформирована модель иерархической временной
памяти (ИВП) [76], включающая в себя следующие принципы •< функционирования мозга.
1. Однообразность операций на различных уровнях анализа информации.
2. Иерархичность структуры сети ИВП.
3. Иерархичность восприятия окружающей среды. Каждый воспринимаемый объект представляется как совокупность составляющих его элементов, расположенных в определенной пространственной зависимости.
4. Использование времени в качестве «учителя». Зрительная система воспринимает сигналы с течением времени. Изображения, поступающие на сетчатку последовательно друг за другом, в близкие моменты времени, воспринимаются как один и тот же объект.
5. Одним из аспектов модели ИВП является «запоминание», то есть сохранение уникальных характеристик входных данных.
6. Универсальность модели. Возможно распознавание различных видов данных, которые подвержены изменениям с течением времени.
1
7. Использование вероятностных причинно-следственных алгоритмов. Математически модель ИВП описывается в терминах сети Байеса.
8. Использование обратной связи для прогнозирования и удаления шумов.
Эти принципы ранее встречались и в других моделях, таких как нейронные сети, цепи Маркова, НМАХ и др. [95, 117-120], однако особенность модели ИВП заключается в их совместном применении. Таким образом, модель ИВП не только основана на структурных особенностях неокортекса, но и согласуется с некоторыми принципами его работы.
Первым принципом является иерархичность. Окружающий мир иерархичен по своей структуре: каждый объект, как правило, определяется совокупностью составляющих его элементов. Иерархическое восприятие - это возможность видеть целостный объект, воспринимая отдельные составляющие его части. Для того чтобы в неокортексе создался образ дома, необходимо увидеть отдельные составляющие дома: стены, крышу, окна и т.д., находящиеся
в определенном пространственном порядке друг относительно друга. Подобный принцип иерархического представления окружающего мира присутствует в сверточных нейронных сетях, неокогнитроне, а также в модели НМАХ. Однако эти модели не учитывают временной составляющей процесса восприятия человеческим мозгом, описанного в теории «память-предсказание».
Зрительное восприятие, как и все другие виды восприятия, является динамическим процессом. Даже при рассматривании статической картины глаза постоянно совершают быстрые фиксированные движения — саккады, в результате которых каждый раз на сетчатку попадает новая часть изображения [2]. Таким образом, человек воспринимает объект целостным благодаря тому, что воссоздает образ объекта из попадающих на сетчатку глаза отдельных его элементов, поступающих последовательно во времени. Временная ассоциативность - способность относить к одной и той же порождающей причине образы, попадающие на сетчатку следом друг за другом. Временная ассоциативность также не является новым открытием, ее принципы присутствуют, например, в иерархических скрытых моделях Маркова (ННММ). Однако в ННММ анализируется только временная составляющая входного сигнала, при этом не учитывается иерархическое строение объектов.
Модель иерархической временной памяти была реализована и апробирована на задачах распознавания изображений. Сейчас она находится в начальной стадии развития, и работает на простых бинарных изображениях. Несмотря на это за счет своей биологической подобности модель обладает большим потенциалом, полностью не раскрытым в ее исследованиях и приложениях.
Целью диссертационной работы является модификация существующих и разработка новых алгоритмов анализа данных для модели иерархической временной памяти, способных повысить ее эффективность при решении задач распознавания объектов на изображениях.
Исходя из цели диссертационной работы, можно выделить следующие основные задачи:
1. Исследование структуры и анализ существующих алгоритмов, входящих в состав модели ИБП.
2. Модификация существующих и разработка новых алгоритмов для модели ИБП, позволяющих повысить эффективность ее работы.
3. Реализация библиотек и программ модифицированной модели ИБП для распознавания объектов на статических изображениях и видеопоследовательностях.
4. Апробация реализованной модели на задачах распознавания символов и жестов.
Апробация работы. Основные результаты работы обсуждались и доказывались на следующих симпозиумах, конференциях и семинарах: 12-я Международная конференция «Цифровая обработка сигналов и ее применение» (Москва, 2010 г.), Международная научно-практическая конференция «Интеллектуальные информационно-телекоммуникационные системы для подвижных и труднодоступных объектов» (Томск, 2010 г.), XLVIII, XLIX Международная научная конференция «Студент и научно-технический прогресс» (Новосибирск, 2010 и 2011 гг.), VIII, IX Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Молодежь и современные информационные технологии» (Томск, 2010 и 2011гг.), VIII Всероссийская научно-практическая конференция студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Томск, 2011 г.), научно-практический семинар «Современные технологии образования и научных исследований в ВУЗах Франции и России» (Париж, 2010 г.), XVII Международный симпозиум «Оптика атмосферы и океана. Физика атмосферы» (Томск, 2011г.), XIX Всероссийский семинар «Нейроинформатика, ее приложения и анализ данных» (Красноярск, 2011г.), Седьмой международный форум по стратегическим технологиям IFOST (Томск, 2012 г.).
Основное содержание диссертации отражено в 14 работах, из них три статьи в периодических изданиях из перечня ВАК, одна статья в рецензируемом журнале, девять докладов на всероссийских и международных конференциях и одно свидетельство об официальной регистрации программы распознавания символов на основе исследуемой модели ИВП [11].
Кратко изложим основное содержание работы.
В первой главе представлен аналитический обзор основных алгоритмов распознавания объектов на изображениях, приведены их основные достоинства и недостатки. Приводятся преимущества развития биологически-подобных алгоритмов для исследуемой задачи. Описываются основные принципы работы модели ИВП, отражающие структуру и функциональность человеческого мозга. Приведено математическое описание исходной модели ИВП.
Во второй главе приводится подробное описание алгоритмов, используемых в модели ИВП, и алгоритмов, предложенных и модифицированных автором диссертации. Предложен и описан генетический алгоритм для подбора параметров сети. Описан способ дополнительной кластеризации пространственных центров. Предложен оригинальный способ создания последовательностей для обучения сети. Произведено сравнение работы сетей с различной структурой. Разработан новый алгоритм формирования временных групп. Предложен способ предобработки полутоновых и цветных изображений на основе фильтров Габора.
Третья глава посвящена разработке программного обеспечения (ПО), реализующему модель ИВП, согласно ее описанию, приведенному в главе 1 с использованием модификаций и результатов главы 2. Проведен обзор существующих инструментальных библиотек по распознаванию и обработке изображений, выявлены общие требования к разрабатываемому ПО, в результате чего сделан выбор средств для дальнейшей разработки.
В главе приведены логические схемы основных алгоритмов и ЦМЬ -диаграммы классов модели ИВП, описаны основные переменные и методы реализуемых классов. Приведено описание архитектур разрабатываемых в
работе библиотек и программ распознавания объектов на изображениях и видео.
В четвертой главе приведены результаты апробации сети иерархической временной памяти на задачах распознавания печатных и рукописных символов и жестов. Представлены данные для обучения и тестирования, а также таблицы с результатами распознавания. Произведено тестирование разработанного ПО и сопоставление модели ИВП с другими алгоритмами распознавания.
Научную новизну полученных в диссертации результатов определяют:
1. Впервые предложенный эволюционный способ автоматической настройки параметров иерархической временной сети, позволивший повысить точность распознавания объектов на изображениях и видео.
2. Оригинальный способ дополнительной кластеризации пространственных центров в процессе их формирования в сети иерархической временной памяти, ускоряющий процесс распознавания в 1,6 раза.
3. Новый алгоритм временной группировки, отличающийся от исходных тем, что основан на объединении пространственных центров с учетом их внутригрупповых связей, что позволяет эффективнее формировать временные группы и, благодаря этому, увеличить точность распознавания объектов иерархической временной сетью на 3 %.
4. Впервые предложенный способ модификации модели иерархической временной памяти, заключающийся в создании матрицы буферизации входных данных (5ТМ), частично замещающий процесс создания обучающих последовательностей и позволяющий ускорить процесс обучения сети.
5. Оригинальный способ предобработки изображений, основанный на выделении границ объектов фильтром Габора, расширяющий возможности сети иерархич�
-
Похожие работы
- Разработка алгоритмов цикломатричного представления и отображения изображений
- Разработка и исследование методов и программных комплексов параллельной обработки изображений на основе вертикального представления данных
- Метод построения процедуры локальной обработки изображений на основе иерархической регрессии
- Разработка и исследование методов и алгоритмов оценки параметров движения фрагментов изображения в цифровых телевизионных системах
- Численный метод и программные средства компрессии изображений на основе иерархической сеточной интерполяции
-
- Системный анализ, управление и обработка информации (по отраслям)
- Теория систем, теория автоматического регулирования и управления, системный анализ
- Элементы и устройства вычислительной техники и систем управления
- Автоматизация и управление технологическими процессами и производствами (по отраслям)
- Автоматизация технологических процессов и производств (в том числе по отраслям)
- Управление в биологических и медицинских системах (включая применения вычислительной техники)
- Управление в социальных и экономических системах
- Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
- Системы автоматизации проектирования (по отраслям)
- Телекоммуникационные системы и компьютерные сети
- Системы обработки информации и управления
- Вычислительные машины и системы
- Применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (по отраслям наук)
- Теоретические основы информатики
- Математическое моделирование, численные методы и комплексы программ
- Методы и системы защиты информации, информационная безопасность